Xiaomi MiMo是什么
Xiaomi MiMo是小米首个专为推理设计的大语言模型,由小米全新成立的大模型Core团队开发,于2025年4月30日正式开源。该模型聚焦推理能力提升,通过预训练与后训练阶段的多维度创新,在参数规模仅70亿的情况下,超越了OpenAI闭源推理模型o1-mini和阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。其技术突破包括合成约200B tokens的高密度推理数据、三阶段渐进式训练策略,以及Test Difficulty Driven Reward和Easy Data Re-Sampling等算法优化。
此外,MiMo设计了Seamless Rollout系统,使强化学习训练加速2.29倍、验证加速1.96倍,显著提升了研发效率。这一成果标志着小米在AI推理领域的技术实力,并为行业提供了轻量级、高性能的推理解决方案。
Xiaomi MiMo技术架构
- 模型规模与效率
- 参数规模:仅 70亿参数(7B),远低于主流大模型(如GPT-4的1.8万亿参数、QwQ-32B的320亿参数),但通过算法优化实现了高性能。
- 推理效率:针对数学推理、代码生成等任务,MiMo在资源占用、响应速度上显著优于更大规模模型,适合端侧设备(如手机、IoT)部署。
- 数据与训练策略
- 推理数据合成:挖掘并合成了约 2000亿Tokens(200B) 的高密度推理语料,覆盖数学、代码、逻辑推理等场景,确保模型“见多识广”。
- 三阶段训练:
- 预训练阶段:通过大规模通用文本数据学习语言基础能力。
- 中间阶段:引入合成推理数据,强化模型对复杂逻辑的理解。
- 后训练阶段:采用强化学习(RL)结合人类反馈(RLHF),优化模型在特定任务中的表现。
- 算法优化:
- Test Difficulty Driven Reward(TDDR):根据测试题难度动态分配奖励,缓解“难题奖励稀疏”问题,提升模型攻坚能力。
- Easy Data Re-Sampling(EDRS):对简单数据重采样,平衡训练数据分布,避免模型“偏科”。
- 训练框架与加速
- Seamless Rollout系统:通过并行化技术将RL训练加速 2.29倍,验证加速 1.96倍,大幅缩短研发周期。
- 混合精度训练:结合FP16与BF16格式,在保证精度的同时降低显存占用。
Xiaomi MiMo性能表现
- 数学推理能力
- 在 AIME 2024-2025 数学竞赛基准测试中,MiMo的解题正确率超越 OpenAI o1-mini(闭源推理模型)和 QwQ-32B-Preview(阿里通义千问320亿参数开源模型),尤其在代数、几何、数论等复杂领域表现突出。
- 示例:成功解决“费马小定理的推广证明”“高阶微分方程求解”等难题,推理步骤完整且逻辑严密。
- 代码生成能力
- 在 LiveCodeBench v5 代码竞赛测评中,MiMo的代码通过率、执行效率均优于对比模型,尤其在算法题(如LeetCode Hard难度)和工程化代码(如API设计、系统架构)中表现优异。
- 示例:快速生成“基于Rust的分布式锁实现”“TensorFlow模型量化优化代码”,并附带详细注释。
- 资源占用对比
- 在相同硬件环境下,MiMo的推理延迟比 o1-mini 降低 40%,显存占用减少 60%,适合边缘计算场景。
Xiaomi MiMo应用场景
- 小米智能终端
- 手机端:集成至澎湃OS,优化小爱同学的数学辅导、代码调试功能,实现“离线推理”。
- IoT设备:部署于智能家居中枢,支持复杂逻辑规则的自动生成(如“根据天气、用电量动态调节空调策略”)。
- 开发者工具
- 推出 MiMo DevTools 插件,辅助开发者生成高质量代码、调试复杂逻辑,降低开发门槛。
- 示例:自动补全“基于Rust的区块链智能合约”“Android动态权限管理代码”。
- 教育与企业服务
- 教育领域:为在线教育平台提供自动解题、步骤解析服务,支持个性化学习路径规划。
- 企业服务:助力金融、科研机构处理数据分析、模型优化等任务,提升效率。
Xiaomi MiMo项目地址