谷歌推 Veo 3.1 正面迎战 Sora 2，AI 视频领域竞争再升级

美国当地时间周三，谷歌正式发布新一代 AI 视频生成模型 Veo 3.1，以应对 OpenAI 上月推出的 Sora 2。这款经过创意与技术双重升级的模型，在叙事控制、音频融合及画面质感上实现显著突破，为普通创作者和企业用户带来了更具定制性的视频解决方案，同时也让全球 AI 视频领域的竞争进入白热化阶段。

Veo 3.1 的核心升级集中在音频与叙事的协同控制上。其原生音频生成功能已全面融入 Flow 平台的 “帧转视频”“素材转视频” 和 “延伸视频” 三大核心功能，彻底告别了以往手动添加音频的繁琐流程，实现音画同步生成，不仅提升了创作效率，更让用户能精准把控作品的情感基调与叙事节奏。对于企业用户而言，这一升级大幅降低了培训材料、营销视频等专业内容的制作门槛，助力高效产出标准化内容。

在编辑控制层面，Veo 3.1 构建了多模态输入架构，支持文本、图像、视频片段等多种形式的创作素材。新推出的参考图像功能可支持最多 3 张图片，帮助用户精准锁定视觉风格；首尾帧插值技术则实现了场景间的无缝过渡，配合场景延伸功能，能突破单次生成时长限制，智能延续原有视频的动作与运镜逻辑。此外，“插入对象”“移除元素” 等实用编辑工具也同步上线，进一步丰富了创作的灵活性。

服务部署方面，Veo 3.1 采用全平台策略，通过 Flow 面向普通用户、Gemini API 赋能开发者，Vertex AI 也将后续开放企业级功能。定价上延续前代标准，标准版每秒 0.40 美元，Fast 版每秒 0.15 美元，采用按需计费模式，仅对成功生成的视频收费，方便企业进行预算管理。输出规格上，模型支持 720p 与 1080p 分辨率，帧速率稳定在 24 帧 / 秒，基础生成长度为 4-8 秒，通过延伸功能最长可生成 148 秒的连续片段，尤其适合零售、广告等行业的标准化内容生产。

不过，早期用户对 Veo 3.1 的评价呈现两极分化。Otherside AI 创始人 Matt Shumer 认为其效果逊于 Sora 2 且价格更高，但认可其工具链的优势；3D 数字艺术家 Travis Davids 指出模型在自定义语音、生成长度及角色一致性方面仍有局限；也有创作者称赞其在史诗场景创作上的表现，同时承认 Sora 2 的整体体验仍略胜一筹。

当前，谷歌与 OpenAI 在 AI 视频领域的博弈不断升级，Veo 3.1 凭借在工具完善度和创作控制上的优势占据一席之地，而 Sora 2 则以自然抓拍风格赢得市场认可。这场围绕技术创新、创作生态与知识产权的竞争，将持续推动 AI 视频行业的发展与变革。

文章来源：https://36kr.com/p/3511191054539655

相关文章