
9月8日,阿里发布最新语音识别模型Qwen3-ASR-Flash,该模型基于Qwen3基座模型训练,支持11种语言和多种口音。用户可以通过ModelScope、HuggingFace和阿里云百炼API Qwen3-ASR-Flash免费体验。
在ASR(自动语音识别)的多项基准测试中,Qwen3-ASR-Flash在方言、多语种、关键信息识别、歌词等方面的识别错误率明显低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴语音实验室Paraformer-v1、字节豆包Doubao-ASR。
具体来看,该模型支持中文、英语、法语、德语等11个语种,识别过程中能自动分辨语音语种、自动过滤静音和背景噪声等非语音片段,其是基于海量多模态数据以及千万小时规模的ASR数据构建的语音识别服务。

如果想要获得定制化的ASR结果,用户可提供任意格式的背景文本来获得倾向性ASR结果,且用户无需对上下文信息进行预处理。
其支持的格式包括但不限于以下一种,简单的关键词或热词列表、任意长度和来源的完整段落或整篇文档、以任意格式混合的关键词列表与全文段落、无关甚至无意义的文本。研究人员提到,模型对无关上下文的负面影响具有高度鲁棒性。
基于此,Qwen3-ASR-Flash可以利用该上下文识别并匹配命名实体和其他关键术语,输出定制化的识别结果。
体验方式:
HuggingFace:
阿里云百炼API:
演示示例
Qwen3-ASR-Flash单模型单次推理,除示例2之外未配置背景信息。






未来展望
Qwen3-ASR-Flash 将持续迭代升级,不断精进通用识别准确率,我们也会开发更多功能,为大家提供更智能、更好用的语音转文字服务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...