随着 Veo 与 Sora 的推出,视频生成技术迈入了新高度。创作者们正广泛开展实验,各团队也在将这些工具整合到营销工作流程中。然而,这类技术存在一个缺陷:大多数封闭系统会收集用户数据,并添加可见或不可见的水印,标注输出内容为 AI 生成。如果你重视隐私、控制权以及设备端工作流程,开源模型便是最佳选择,目前已有多款开源模型的效果可与 Veo 媲美。
本文将为你介绍排名前五的视频生成模型,并提供技术知识与演示视频,助力你评估它们的视频生成能力。所有模型均可在 Hugging Face 平台获取,且能通过 ComfyUI 或你偏好的桌面 AI 应用程序在本地运行。
1. Wan 2.2 A14B
Wan 2.2 采用混合专家(Mixture-of-Experts,MoE)架构对其扩散主干网络进行升级,该架构将不同时间步的去噪任务分配给专门的 “专家模块” 处理,在不增加计算成本的前提下提升了有效容量。研发团队还精心设计了美学标签(如光线、构图、对比度、色调),让 “电影级” 视觉效果更易于调控。
与 Wan 2.1 相比,Wan 2.2 的训练规模大幅提升(图像数据增加 65.6%,视频数据增加 83.2%),在动作流畅度、语义准确性和美学表现上均有改进。据悉,Wan 2.2 在开源与闭源系统中均展现出顶级性能。你可在 Hugging Face 平台上访问其文本生成视频(T2V)和图像生成视频(I2V)的 A14B 版本仓库,链接分别为:Wan-AI/Wan2.2-T2V-A14B 和 Wan-AI/Wan2.2-I2V-A14B。
2. 混元视频(Hunyuan Video)
混元视频(HunyuanVideo)是一款拥有 130 亿参数的开源视频基础模型,通过因果 3D 变分自动编码器(variational autoencoder,VAE)在时空潜在空间中完成训练。其 Transformer 架构采用 “双流转单流” 设计:文本与视频令牌首先通过全注意力机制独立处理,随后进行融合;同时,一个仅含解码器的多模态大型语言模型(LLM)作为文本编码器,以提升指令遵循度和细节捕捉能力。
该模型的开源生态系统包含代码、权重参数、单 GPU 与多 GPU 推理工具(xDiT)、FP8 精度权重、Diffusers 与 ComfyUI 集成工具、Gradio 演示程序,以及企鹅视频基准测试(Penguin Video Benchmark)。
3. Mochi 1
Mochi 1 是一款基于全新训练的 100 亿参数非对称扩散 Transformer(Asymmetric Diffusion Transformer,AsymmDiT)模型,基于 Apache 2.0 协议开源。它搭配了非对称 VAE(Asymmetric VAE),可将视频在空间维度上压缩 8 倍、时间维度上压缩 6 倍,最终生成 12 通道的潜在特征;该模型优先保障视觉生成能力而非文本处理能力,且仅使用单个 T5-XXL 编码器。
在初步评估中,Genmo 团队将 Mochi 1 定位为当前最先进的开源模型,其生成内容具有高保真动作效果和出色的提示词契合度,旨在缩小与闭源系统的性能差距。
4. LTX 视频(LTX Video)
LTX 视频(LTX-Video)是一款基于扩散 Transformer(DiT)的图像生成视频模型,以速度为核心设计目标:它能以超实时的速度生成 1216×704 分辨率、30 帧 / 秒(fps)的视频。该模型在大规模多样化数据集上完成训练,实现了动作流畅度与视觉质量的平衡。
LTX 视频模型拥有多个版本:130 亿参数开发版、130 亿参数蒸馏版、20 亿参数蒸馏版以及 FP8 量化版本,此外还包括空间与时间上采样器,以及可直接使用的 ComfyUI 工作流程。如果你追求快速迭代,且希望通过单张图像或短序列条件生成清晰流畅的动态效果,LTX 视频模型会是极具吸引力的选择。
5. CogVideoX-5B
CogVideoX-5B 是 CogVideo 2B 基准模型的高保真版本,采用 bfloat16 精度训练,建议同样以 bfloat16 精度运行。该模型可生成分辨率固定为 720×480、帧率 8 帧 / 秒、时长 6 秒的视频片段,并支持最长 226 个令牌的英文提示词。
模型文档中详细标注了单 GPU 与多 GPU 推理所需的预期视频内存(VRAM)、典型运行时间(例如,在单个 H100 显卡上完成 50 步推理约需 90 秒),以及 Diffusers 的优化功能(如 CPU 卸载、VAE 分块 / 切片)对内存占用与运行速度的影响。
如何选择视频生成模型
以下是帮助你根据需求选择合适视频生成模型的核心要点:
- 若你需要电影级视觉效果,且希望在单张 4090 显卡上实现 720p 分辨率、24 帧 / 秒的生成效果:选择 Wan 2.2(核心任务选用 A14B 版本;若追求高效生成 720p/24 视频,可选用 5B 混合 TI2V 版本)。
- 若你需要一款大规模、通用型的文本生成视频(T2V)/ 图像生成视频(I2V)基础模型,要求动作表现出色且具备完整的开源软件(OSS)工具链:选择混元视频(130 亿参数,支持 xDiT 并行计算,提供 FP8 精度权重,可与 Diffusers/ComfyUI 集成)。
- 若你需要一款协议宽松、便于二次开发的最先进(SOTA)预览版模型,要求具备现代化动作效果且有清晰的研究路线图:选择 Mochi 1(100 亿参数 AsymmDiT 搭配 AsymmVAE,基于 Apache 2.0 协议)。
- 若你关注实时图像生成视频(I2V)能力与可编辑性,且需要上采样器和 ComfyUI 工作流程:选择 LTX 视频(支持 1216×704 分辨率、30 帧 / 秒,提供 130 亿 / 20 亿参数及 FP8 量化等多个版本)。
- 若你需要高效生成 6 秒时长、720×480 分辨率的文本生成视频(T2V),要求具备完善的 Diffusers 支持,且可通过量化适配小容量 VRAM:选择 CogVideoX-5B。
文章来源:https://www.kdnuggets.com/top-5-open-source-video-generation-models
