Qwen3-Next

7个月前更新 1,365 0 0

阿里开源的800亿参数大模型,1:50超稀疏激活,百万级上下文,成本降90%,性能比肩千亿模型。

语言:
zh,en
收录时间:
2025-09-12
Qwen3-NextQwen3-Next

Qwen3-Next是什么?

Qwen3-Next 是阿里云通义团队于2025年9月12日发布的下一代基础模型架构,旨在通过架构创新实现极致的上下文处理能力与参数效率。其核心模型Qwen3-Next-80B-A3B总参数达800亿,但推理时仅激活30亿参数(激活比例 1:50),在保持高性能的同时显著降低计算成本。该模型支持 百万级Tokens超长上下文,训练成本较上一代密集模型Qwen3-32B降低超90%,长文本推理吞吐量提升10倍以上,性能媲美千问3旗舰版2350亿参数模型。

Qwen3-Next的核心技术

  1. 高稀疏度MoE架构
    • 双轨专家设计:模型包含512个专家模块,每次推理动态选择10个稀疏专家 + 1个共享专家。共享专家提供稳定计算基座,稀疏专家处理专业化任务,实现“全科医生+专科医生”协同。
    • 极致稀疏性:激活参数比达1:50,远超行业平均水平(如 Qwen3的1:10),计算效率提升90%以上。
  2. 混合注意力机制(Hybrid Attention)
    • Gated DeltaNet(线性注意力):以 O(N) 复杂度 建模长距离依赖(如整本书脉络),内存消耗降低 50%
    • Gated Attention(标准注意力):高效捕捉局部信息(如短句、关键词),二者按3:1 比例混合,平衡性能与效率。
  3. 多 Token预测(MTP)
    • 预训练阶段同时预测多个未来 Tokens(如 t+1, t+2, …, t+n),提升模型对因果关系的理解。
    • 推理阶段适配投机解码(Speculative Decoding),一次性生成多个候选 Tokens 并并行验证,解码速度提升 数倍
  4. 训练稳定性优化
    • 零中心化RMSNorm:对归一化层权重施加约束,避免梯度爆炸或消失,提升训练稳定性。
    • MoE路由初始化优化:确保专家模块在训练早期被无偏选中,减少初始化扰动。

Qwen3-Next的使用场景

  1. 长文本处理
    • 法律文书分析:支持百万级Tokens上下文,可完整解析合同、判决书等长文档。
    • 科研文献综述:高效处理长论文、实验报告,提取关键信息并生成摘要。
  2. 高效推理
    • 实时交互应用:低激活参数设计使其在国产算力上表现优异,适用于智能客服、在线教育等场景。
    • 低延迟生成:MTP 技术加速解码过程,提升对话流畅度。
  3. 复杂推理任务
    • 数学与编程:在 AIME25数学推理评测中得分87.8,接近 SOTA 水平;在LiveCodeBench编程评测中超越千问开源旗舰模型。
    • 多步逻辑链构建:推理模型(Thinking版本)擅长解决需要分步推理的问题,如逻辑谜题、策略规划。

Qwen3-Next的项目地址

推荐理由

  1. 极致性价比
    • 训练成本降低90%以上,推理吞吐量提升10倍,显著降低企业 AI 应用门槛。
  2. 技术领先性
    • 混合注意力机制、高稀疏度MoE、MTP等创新技术代表行业前沿,为长上下文处理树立新标准。
  3. 开源生态优势
    • 通义千问衍生模型数超17万,居全球第一,开发者可基于开源代码快速定制应用。
  4. 场景适配性强
    • 支持从长文本分析到实时交互的多样化场景,覆盖法律、科研、教育、客服等多个行业。

数据统计

相关导航

暂无评论

none
暂无评论...