
Qwen3-ASR-Flash
阿里巴巴推出的多语言高精度语音识别模型,支持复杂场景、方言与歌声转写,并可结合上下文智能定制识别。
PrismAudio 是阿里巴巴通义实验室于 2026 年 3 月 24 日发布的视频生成音频(Video-to-Audio)框架,专注于环境音与音效的合成。作为首个将强化学习与思维链技术深度结合的模型,PrismAudio 通过“先思考、再发声”的生成范式,实现了声音与视频内容的高度同步,解决了传统模型音画不符、效率低下等问题。其研究成果已被国际顶级会议 ICLR 2026 收录,代码即将开源。







