引言

文本转语音(TTS)技术已取得显著进步,让包括我在内的众多创作者能够轻松制作演示文稿和样例的音频内容。我经常将视觉素材与 ElevenLabs 等工具结合,制作出堪比专业录音棚品质的自然旁白。最值得称道的是,开源模型正迅速追平专有产品,不仅能提供高质量的真实感和情感深度,还支持音效生成,甚至可以创作类似播客的长篇多说话人音频。

本文将对比目前主流的开源 TTS 模型,探讨它们的技术参数、速度、语言支持及独特优势。

1. VibeVoice

VibeVoice 是一款先进的文本转语音模型,可直接从文本生成富有表现力的长篇多说话人对话音频,例如播客。它解决了 TTS 领域长期存在的难题,包括扩展性、说话人一致性和自然的对话转换。这一成就得益于将大型语言模型(LLM)与效率极高的连续语音令牌器相结合,后者的运行频率仅为 7.5 赫兹。

该模型采用两个配对的令牌器,一个用于声学处理,另一个用于语义处理,在高效处理超长序列的同时保持音频保真度。

Next-token 扩散技术让 LLM(本版本采用 Qwen2.5)能够引导对话的流程和上下文,而轻量级扩散头则负责生成高质量的声学细节。该系统最多可合成约 90 分钟的语音内容,支持多达 4 个不同的说话人,突破了以往模型通常仅支持 1-2 个说话人的限制。

2. Orpheus

Orpheus TTS 是一款基于 Llama 的尖端语音大模型,专为高质量、富有人情味的文本转语音应用设计。它经过精调,能够输出清晰度极高、表现力丰富的类人语音,适用于实时流式传输场景。

在实际应用中,Orpheus 专注于低延迟的交互式应用,既支持流式 TTS,又能保持表达力和自然度。它已在 GitHub 上开源,供研究人员和开发者使用,同时提供使用说明和示例。此外,用户还可通过多个托管演示和 API(如 DeepInfra、Replicate 和 fal.ai)访问该模型,也可在 Hugging Face 上快速进行实验。

3. Kokoro

Kokoro 是一款开源权重的文本转语音模型,参数规模为 8200 万。它的音质可与规模大得多的系统相媲美,同时速度更快、成本效益更高。其采用 Apache 许可证授权的权重支持灵活部署,适用于商业项目和个人爱好项目。

对于开发者而言,Kokoro 提供简洁的 Python API(KPipeline),可实现快速推理和 24 千赫兹音频生成。此外,官方还推出了 JavaScript(npm)包,适用于浏览器和 Node.js 环境中的流式传输场景,并提供精选样本和语音,方便用户评估音质和音色多样性。如果偏好托管推理,用户可通过 DeepInfra 和 Replicate 等服务商访问 Kokoro,这些平台提供简单的 HTTP API,便于集成到生产系统中。

4. OpenAudio

OpenAudio S1 是一款领先的多语言文本转语音模型,训练数据涵盖超过 200 万小时的音频。它旨在生成多种语言的高表现力、逼真语音。

OpenAudio S1 支持对语音输出进行精细控制,可融入多种情感语气和特殊标记(如愤怒 / 兴奋、低语 / 大喊、大笑 / 抽泣),能够实现富有细腻表现力的 “演员级” 语音效果。

5. XTTS-v2

XTTS-v2 是一款多功能且可投入生产的语音生成模型,仅需约 6 秒的参考音频片段即可实现零样本语音克隆。这种创新方法无需大量训练数据。该模型支持跨语言语音克隆和多语言语音生成,能够在生成不同语言语音的同时,保留说话人的音色特征。

XTTS-v2 与驱动 Coqui Studio 和 Coqui API 的核心模型同属一个系列。它基于 Tortoise 模型进行专项优化,让多语言和跨语言克隆变得简单易用。

总结

选择合适的文本转语音解决方案需根据你的具体需求而定,以下是各模型的核心适用场景:

  • VibeVoice:适合长篇多说话人对话,采用 LLM 引导对话转换
  • Orpheus TTS:注重富有人情味的语音输出,支持实时流式传输
  • Kokoro:Apache 许可证授权,成本效益高,部署快速,以小巧体积实现出色音质
  • OpenAudio S1:多语言支持丰富,提供强大的情感和语气控制功能
  • XTTS-v2:仅需 6 秒样本即可实现快速零样本跨语言语音克隆

这些解决方案均可根据运行时间、授权方式、延迟、语言覆盖范围或表达力等因素进行优化调整。

文章链接:https://www.kdnuggets.com/top-5-text-to-speech-open-source-models

网站页脚示例