CosyVoice

3天前发布 56 0 0

阿里开源的语音大模型,支持3秒零样本克隆、多语种及指令情感控制,实现150ms超低延迟流式合成。

语言:
zh,en
收录时间:
2026-06-25
CosyVoiceCosyVoice

CosyVoice是什么?

CosyVoice 是由阿里巴巴通义实验室(FunAudioLLM团队)开发并开源的新一代多语言语音生成大模型。它基于 Apache-2.0 许可证开源,提供从推理、训练到部署的全栈语音合成能力。

截至2026年6月,CosyVoice 已成为开源语音合成领域‌最强模型之一‌,在音色相似度上超越多数竞品。

CosyVoice的主要功能

  • 零样本语音克隆:仅需 3 秒以上的清晰参考音频,即可提取音色特征进行复刻,无需复杂的训练流程,且支持跨语种音色复刻。
  • 多语言与方言合成:支持中、英、日、韩等多种语言及 18 种中文方言(如粤语、四川话、上海话等)的无缝生成与混合生成。
  • 指令式情感控制:支持通过自然语言指令或富文本标签对生成语音的韵律、情感(如笑声、悲伤等)进行细粒度调节。
  • 超低延迟流式合成:支持离线与流式一体化建模,首包合成延迟低至 150ms,实现“输入即发声”。
  • 声音设计与定制:支持通过文本描述(如“温柔知性的女性音色”)零样本生成原创专属音色。

CosyVoice的核心技术

  • LLM + 流匹配统一架构:采用预训练文本大语言模型(如 Qwen2.5-0.5B)作为骨干,结合条件流匹配(CFM)模型,将文本转化为离散语音 Token 再合成为波形,增强了语义理解能力。
  • 有限标量量化(FSQ):使用 FSQ 替代传统的矢量量化(VQ)作为语音分词器,码本利用率接近 100%,显著提升了发音的准确性和内容一致性。
  • 跨语种克隆技术:通过解耦音色与语言,利用通用声纹编码器提取音色特征,使得单一音色能够适配不同语言的发音规则与韵律习惯。
  • 强化学习与对比学习:采用基于对比学习的说话人编码器和 DPO(直接偏好优化)等强化学习技术,进一步提升说话人相似度与内容一致性。

CosyVoice的使用场景

  • 内容创作与自媒体:用于短视频配音、Vlog 脚本朗读、有声读物制作,支持跨语种配音与多角色演绎。
  • 智能交互与客服:应用于智能客服、车载导航、语音助手等实时交互场景,提供低延迟、高拟人化的语音反馈。
  • 政企与本地化办公:支持本地化部署,可用于党建宣传、内部会议记录、虚拟主播等对数据隐私要求高的场景。
  • 跨地域沟通与无障碍:支持多方言实时转写与合成,打破地域口音障碍,适用于田野调研、客户访谈等。

CosyVoice的项目地址

同类产品对比

在开源语音合成(TTS)领域,CosyVoice 常与 GPT-SoVITS、FishSpeech、F5-TTS 等模型进行比较:
对比维度 CosyVoice GPT-SoVITS FishSpeech F5-TTS
核心架构 LLM + FSQ + 流匹配(自回归+流式) GPT + VITS 结合 VQ + LLM + VQGAN DiT + Flow Matching(纯非自回归)
推理延迟 极低(首包约 150ms) 较高(约 1200ms) 中等(约 350ms) 较高(CPU 下明显)
资源占用 峰值显存约 2.1GB 峰值显存约 5.5GB 峰值显存约 3.8GB 模型体积小,Mac M芯片友好
多语言/方言 支持 9+ 语言及 18 种中文方言 以中文为主,社区扩展英文 中、英、日文 中、英文
优势总结 延迟低、中文自然度极高、方言支持强、流式效果好 少样本微调效果好,但推理代价高 多语言与音质平衡较好 架构极简、部署轻量、无机器味

数据统计

相关导航

暂无评论

none
暂无评论...