美国当地时间周三,谷歌正式发布新一代 AI 视频生成模型 Veo 3.1,以应对 OpenAI 上月推出的 Sora 2。这款经过创意与技术双重升级的模型,在叙事控制、音频融合及画面质感上实现显著突破,为普通创作者和企业用户带来了更具定制性的视频解决方案,同时也让全球 AI 视频领域的竞争进入白热化阶段。
Veo 3.1 的核心升级集中在音频与叙事的协同控制上。其原生音频生成功能已全面融入 Flow 平台的 “帧转视频”“素材转视频” 和 “延伸视频” 三大核心功能,彻底告别了以往手动添加音频的繁琐流程,实现音画同步生成,不仅提升了创作效率,更让用户能精准把控作品的情感基调与叙事节奏。对于企业用户而言,这一升级大幅降低了培训材料、营销视频等专业内容的制作门槛,助力高效产出标准化内容。
在编辑控制层面,Veo 3.1 构建了多模态输入架构,支持文本、图像、视频片段等多种形式的创作素材。新推出的参考图像功能可支持最多 3 张图片,帮助用户精准锁定视觉风格;首尾帧插值技术则实现了场景间的无缝过渡,配合场景延伸功能,能突破单次生成时长限制,智能延续原有视频的动作与运镜逻辑。此外,“插入对象”“移除元素” 等实用编辑工具也同步上线,进一步丰富了创作的灵活性。
服务部署方面,Veo 3.1 采用全平台策略,通过 Flow 面向普通用户、Gemini API 赋能开发者,Vertex AI 也将后续开放企业级功能。定价上延续前代标准,标准版每秒 0.40 美元,Fast 版每秒 0.15 美元,采用按需计费模式,仅对成功生成的视频收费,方便企业进行预算管理。输出规格上,模型支持 720p 与 1080p 分辨率,帧速率稳定在 24 帧 / 秒,基础生成长度为 4-8 秒,通过延伸功能最长可生成 148 秒的连续片段,尤其适合零售、广告等行业的标准化内容生产。
不过,早期用户对 Veo 3.1 的评价呈现两极分化。Otherside AI 创始人 Matt Shumer 认为其效果逊于 Sora 2 且价格更高,但认可其工具链的优势;3D 数字艺术家 Travis Davids 指出模型在自定义语音、生成长度及角色一致性方面仍有局限;也有创作者称赞其在史诗场景创作上的表现,同时承认 Sora 2 的整体体验仍略胜一筹。
当前,谷歌与 OpenAI 在 AI 视频领域的博弈不断升级,Veo 3.1 凭借在工具完善度和创作控制上的优势占据一席之地,而 Sora 2 则以自然抓拍风格赢得市场认可。这场围绕技术创新、创作生态与知识产权的竞争,将持续推动 AI 视频行业的发展与变革。