阿里端出最强语音模型Qwen3-ASR-Flash:听得清,识得准!

工具2个月前更新 小智
354 0
阿里端出最强语音模型Qwen3-ASR-Flash:听得清,识得准!

9月8日,阿里发布最新语音识别模型Qwen3-ASR-Flash,该模型基于Qwen3基座模型训练,支持11种语言和多种口音。用户可以通过ModelScope、HuggingFace和阿里云百炼API Qwen3-ASR-Flash免费体验。

ASR(自动语音识别)的多项基准测试中,Qwen3-ASR-Flash在方言、多语种、关键信息识别、歌词等方面的识别错误率明显低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴语音实验室Paraformer-v1、字节豆包Doubao-ASR

具体来看,该模型支持中文、英语、法语、德语等11个语种,识别过程中能自动分辨语音语种、自动过滤静音和背景噪声等非语音片段,其是基于海量多模态数据以及千万小时规模的ASR数据构建的语音识别服务。

此外,用户还可定制ASR结果,通过在上传音频时添加关键信息术语、音频发生背景等上下文信息,就能使识别结果匹配这些已有信息。
阿里端出最强语音模型Qwen3-ASR-Flash:听得清,识得准!
该模型支持普通话以及四川话、闽南语、吴语、粤语等方言,英式、美式及多地区口音的英语,其他语言如法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。

如果想要获得定制化的ASR结果,用户可提供任意格式的背景文本来获得倾向性ASR结果,且用户无需对上下文信息进行预处理。

其支持的格式包括但不限于以下一种,简单的关键词或热词列表、任意长度和来源的完整段落或整篇文档、以任意格式混合的关键词列表与全文段落、无关甚至无意义的文本。研究人员提到,模型对无关上下文的负面影响具有高度鲁棒性。

基于此,Qwen3-ASR-Flash可以利用该上下文识别并匹配命名实体和其他关键术语,输出定制化的识别结果。

体验方式:

ModelScope:

https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo

HuggingFace: 

https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

阿里云百炼API:

https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

演示示例

Qwen3-ASR-Flash单模型单次推理,除示例2之外未配置背景信息。

连续多种类型噪声
阿里端出最强语音模型Qwen3-ASR-Flash:听得清,识得准!
电竞比赛解说
阿里端出最强语音模型Qwen3-ASR-Flash:听得清,识得准!
英文说唱
阿里端出最强语音模型Qwen3-ASR-Flash:听得清,识得准!
车载噪声环境方言
阿里端出最强语音模型Qwen3-ASR-Flash:听得清,识得准!
多种语句间切换
阿里端出最强语音模型Qwen3-ASR-Flash:听得清,识得准!
化学课程
阿里端出最强语音模型Qwen3-ASR-Flash:听得清,识得准!

未来展望

Qwen3-ASR-Flash 将持续迭代升级,不断精进通用识别准确率,我们也会开发更多功能,为大家提供更智能、更好用的语音转文字服务。

© 版权声明

相关文章

暂无评论

none
暂无评论...