Qwen3-ASR-Flash

1周前发布 308 0 0

阿里巴巴推出的多语言高精度语音识别模型,支持复杂场景、方言与歌声转写,并可结合上下文智能定制识别。

语言:
cn,en
收录时间:
2025-09-09
Qwen3-ASR-FlashQwen3-ASR-Flash

Qwen3-ASR-Flash是什么?

Qwen3-ASR-Flash是阿里巴巴通义千问系列推出的最新自动语音识别模型,基于千万小时多模态数据训练,具备多语言、多方言、高精度转写能力。它支持中文(含普通话及多种方言)、英语、日语、韩语、阿拉伯语等 11 种语言,并在噪音环境、背景音乐、重叠对话等复杂场景下依旧保持低错误率。模型不仅能准确识别日常语音,还在歌声、专业术语和方言识别上表现突出。同时,它支持上下文定制,用户可提供关键词或文档帮助提升专有名词的识别效果,且对无关文本有强鲁棒性。

Qwen3-ASR-Flash 提供 API 与 SDK 调用,支持实时流式转写,适合会议记录、采访转写、在线教育、智能客服、医疗口述、电竞解说及音乐内容分析等多元场景,是一款兼具精度、灵活性与易用性的通用语音识别方案。


Qwen3-ASR-Flash的主要功能

  1. 多语言与方言识别
    单一模型支持 11 种语言,包括:中文(普通话、四川话、闽南语、吴语、粤语等)、英语(美式、英式等)、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。
  2. 高识别准确率
    • 标准中文识别错误率 (WER):约 3.97%
    • 中文方言:3.48%
    • 英语:3.81%
    • 歌词识别:清唱或背景音乐条件下错误率低于 8%;内部整歌测试错误率约 9.96% 。
  3. 卓越的噪音鲁棒性
    即使在复杂声学环境(如车内、背景音乐、对话重叠、各种噪声干扰)下依然能准确识别。
    例如可识别游戏解说、英文说唱、方言穿插、化学课程等场景的音频。
  4. 智能上下文定制识别
    用户可提供任意格式的背景文本(关键词列表、段落、文档或甚至无关文本),模型可智能利用这些上下文信息提升命名实体和专业术语的识别准确性,而且对无关文本高度鲁棒 。
  5. 语言自动检测与非语音过滤
    模型支持自动语言识别 (enable_lid) 功能,并能过滤静音、背景噪音等非语音内容。
  6. 额外支持功能
    • 逆文本规范化 (ITN)(中英文)
    • 标点预测
    • 流式输出(streaming output)支持
    • 多种音频格式与调用方式(Java/Python SDK 或 HTTP API)。

Qwen3-ASR-Flash的使用场景

  • 多语言会议记录适用于跨语言、多口音的会议,自动精确转录会议内容,适配不同语言参与者。
  • 新闻采访快速、准确地将采访内容转为可发布文字。
  • 在线教育实时将课程讲解转换为字幕,支持多语言学生。
  • 智能客服系统实时转写用户语音,实现内容自动归档、分析与响应。
  • 医疗记录整理快速将医生语音转为文字,助力电子病历、数据分析等应用。
  • 电竞赛事解说在复杂环境下识别专业术语与解说内容,精准记录;实例如电竞场景背景文本结合识别。
  • 歌词与音乐场景高准确率识别歌唱及 BGM 中的歌词,非常适用于音乐内容制作与分析。

Qwen3-ASR-Flash项目地址

  1. ModelScope(魔搭社区)
  2. Hugging Face
  3. 阿里云百炼API
    • 地址https://bailian.console.aliyun.com/?tab=doc#/doc/
    • 特点:阿里云官方API平台,支持通过API调用Qwen3-ASR-Flash,适用于企业级应用开发。用户需注册账号并获取API密钥,文档中提供了详细的调用指南和参数配置说明。

如何使用Qwen3-ASR-Flash?

  1. 访问方式
    • API 调用:通过阿里云 Model Studio(百炼)提供的 qwen3-asr-flash 模型进行调用。
    • 在线演示:可通过 ModelScope 或 Hugging Face 提供的 Demo 体验。
  2. 参数说明
    • language:已知语种时可指定以提升准确率。
    • enable_lid:启用语言检测。
    • enable_itn:启用中英文逆文本规范化。
    • 支持流式输出 stream=true,适合实时转录场景。
  3. 限制须知
    • 音频长度不得超过 3 分钟,文件大小不超过 10 MB。
    • 支持格式包括 aac、mp3、wav、flac 等多种主流音频格式。

推荐理由

  • 领先性能表现在多项语言与场景的 benchmark 中,识别错误率显著优于 Gemini-2.5-Pro、GPT-4o-Transcribe 等竞品。
  • 多样适应能力支持多音频类型、复杂环境、方言与噪音干扰,是通用场景首选。
  • 智能定制化能力上下文接受任意格式输入,无需预处理即可提升识别命中率。
  • 全方位开发支持提供 SDK、HTTP API 以及 Demo 体验,低门槛快速集成。
  • 持续优化中阿里团队承诺持续迭代提升通用识别精度。

数据统计

相关导航

暂无评论

none
暂无评论...