CosyVoice

3天前发布 56 0 0

阿里开源的语音大模型，支持3秒零样本克隆、多语种及指令情感控制，实现150ms超低延迟流式合成。

语言：

zh,en

收录时间：

2026-06-25

打开网站手机查看

AI语音生成大模型开源项目最新收录 # 语音大模型

CosyVoice

CosyVoice

CosyVoice是什么？

CosyVoice 是由阿里巴巴通义实验室（FunAudioLLM团队）开发并开源的新一代多语言语音生成大模型。它基于 Apache-2.0 许可证开源，提供从推理、训练到部署的全栈语音合成能力。

截至2026年6月，CosyVoice 已成为开源语音合成领域‌最强模型之一‌，在音色相似度上超越多数竞品。

CosyVoice的主要功能

零样本语音克隆：仅需 3 秒以上的清晰参考音频，即可提取音色特征进行复刻，无需复杂的训练流程，且支持跨语种音色复刻。
多语言与方言合成：支持中、英、日、韩等多种语言及 18 种中文方言（如粤语、四川话、上海话等）的无缝生成与混合生成。
指令式情感控制：支持通过自然语言指令或富文本标签对生成语音的韵律、情感（如笑声、悲伤等）进行细粒度调节。
超低延迟流式合成：支持离线与流式一体化建模，首包合成延迟低至 150ms，实现“输入即发声”。
声音设计与定制：支持通过文本描述（如“温柔知性的女性音色”）零样本生成原创专属音色。

CosyVoice的核心技术

LLM + 流匹配统一架构：采用预训练文本大语言模型（如 Qwen2.5-0.5B）作为骨干，结合条件流匹配（CFM）模型，将文本转化为离散语音 Token 再合成为波形，增强了语义理解能力。
有限标量量化（FSQ）：使用 FSQ 替代传统的矢量量化（VQ）作为语音分词器，码本利用率接近 100%，显著提升了发音的准确性和内容一致性。
跨语种克隆技术：通过解耦音色与语言，利用通用声纹编码器提取音色特征，使得单一音色能够适配不同语言的发音规则与韵律习惯。
强化学习与对比学习：采用基于对比学习的说话人编码器和 DPO（直接偏好优化）等强化学习技术，进一步提升说话人相似度与内容一致性。

CosyVoice的使用场景

内容创作与自媒体：用于短视频配音、Vlog 脚本朗读、有声读物制作，支持跨语种配音与多角色演绎。
智能交互与客服：应用于智能客服、车载导航、语音助手等实时交互场景，提供低延迟、高拟人化的语音反馈。
政企与本地化办公：支持本地化部署，可用于党建宣传、内部会议记录、虚拟主播等对数据隐私要求高的场景。
跨地域沟通与无障碍：支持多方言实时转写与合成，打破地域口音障碍，适用于田野调研、客户访谈等。

CosyVoice的项目地址

GitHub 仓库：https://github.com/FunAudioLLM/CosyVoice
国内模型库（魔搭）：https://www.modelscope.cn/models/iic/CosyVoice-300M
海外模型库（Hugging Face）：https://huggingface.co/FunAudioLLM

同类产品对比

在开源语音合成（TTS）领域，CosyVoice 常与 GPT-SoVITS、FishSpeech、F5-TTS 等模型进行比较：

对比维度	CosyVoice	GPT-SoVITS	FishSpeech	F5-TTS
核心架构	LLM + FSQ + 流匹配（自回归+流式）	GPT + VITS 结合	VQ + LLM + VQGAN	DiT + Flow Matching（纯非自回归）
推理延迟	极低（首包约 150ms）	较高（约 1200ms）	中等（约 350ms）	较高（CPU 下明显）
资源占用	峰值显存约 2.1GB	峰值显存约 5.5GB	峰值显存约 3.8GB	模型体积小，Mac M芯片友好
多语言/方言	支持 9+ 语言及 18 种中文方言	以中文为主，社区扩展英文	中、英、日文	中、英文
优势总结	延迟低、中文自然度极高、方言支持强、流式效果好	少样本微调效果好，但推理代价高	多语言与音质平衡较好	架构极简、部署轻量、无机器味

数据统计

相关导航

Gemini 3

谷歌推出的全球首款原生多模态“博士级”AI模型，以百万级上下文、跨模态深度推理及生成式UI为核心，重新定义从科研创作到日常任务的智能协作边界。

Moonshot

月之暗面科技有限公司（Moonshot AI）推出的一款大型AI通用模型，拥有数以亿计的参数，能够处理高达20万汉字的输入，并广泛应用于自然语言处理、智能推荐、医疗诊断等领域，展示了出色的泛化能力和准确性。

HunyuanImage2.1

HunyuanImage2.1

腾讯推出的开源生图模型，原生支持2K高清生图，精准解析复杂语义，可高效生成中英文融合的高质量图像。

FLUX.1-Kontext

一款支持文本生成与图像编辑的多模态模型，具备强大的上下文理解与创作能力。

pyVideoTrans

开源免费的 AI 视频翻译与配音工具，支持多语言语音识别、字幕翻译及自然配音，助力内容创作者和企业轻松实现视频全球化传播。

DeepSeek-R1

采用MIT License开源、具有先进推理能力并支持模型蒸馏的AI模型，其性能对标OpenAI o1正式版，且在多项任务测试中表现出色。

可图 Kolors

快手开源了名为Kolors（可图）的文本到图像生成模型，该模型具有对英语和汉语的深刻理解，并能够生成高质量、逼真的图像。

日日新SenseNova大模型

日日新SenseNova大模型

商汤科技推出的综合性大模型体系，具备强大的自然语言处理、文生图等多模态能力，旨在为企业提供高效的AI解决方案。

暂无评论

none

暂无评论...