阿里端出最强语音模型Qwen3-ASR-Flash：听得清，识得准！

9月8日，阿里发布最新语音识别模型Qwen3-ASR-Flash，该模型基于Qwen3基座模型训练，支持11种语言和多种口音。用户可以通过ModelScope、HuggingFace和阿里云百炼API Qwen3-ASR-Flash免费体验。

在ASR（自动语音识别）的多项基准测试中，Qwen3-ASR-Flash在方言、多语种、关键信息识别、歌词等方面的识别错误率明显低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴语音实验室Paraformer-v1、字节豆包Doubao-ASR。

具体来看，该模型支持中文、英语、法语、德语等11个语种，识别过程中能自动分辨语音语种、自动过滤静音和背景噪声等非语音片段，其是基于海量多模态数据以及千万小时规模的ASR数据构建的语音识别服务。

此外，用户还可定制ASR结果，通过在上传音频时添加关键信息术语、音频发生背景等上下文信息，就能使识别结果匹配这些已有信息。

该模型支持普通话以及四川话、闽南语、吴语、粤语等方言，英式、美式及多地区口音的英语，其他语言如法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。

如果想要获得定制化的ASR结果，用户可提供任意格式的背景文本来获得倾向性ASR结果，且用户无需对上下文信息进行预处理。

其支持的格式包括但不限于以下一种，简单的关键词或热词列表、任意长度和来源的完整段落或整篇文档、以任意格式混合的关键词列表与全文段落、无关甚至无意义的文本。研究人员提到，模型对无关上下文的负面影响具有高度鲁棒性。

基于此，Qwen3-ASR-Flash可以利用该上下文识别并匹配命名实体和其他关键术语，输出定制化的识别结果。

体验方式：

ModelScope：

https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo

HuggingFace:

https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

阿里云百炼API：

Qwen3-ASR-Flash单模型单次推理，除示例2之外未配置背景信息。

连续多种类型噪声

电竞比赛解说

英文说唱

车载噪声环境方言

多种语句间切换

化学课程

Qwen3-ASR-Flash 将持续迭代升级，不断精进通用识别准确率，我们也会开发更多功能，为大家提供更智能、更好用的语音转文字服务。

文章版权归作者所有，未经允许请勿转载。