Wall-OSS是什么?
Wall-OSS 是由国内具身智能公司“自变量机器人(X Square Robot)”研发的开源视觉-语言-动作(VLA)大模型。在2026年5月,团队正式开源了最新版本 Wall-OSS-0.5,它在行业内首次实现了无需针对特定任务进行微调,即可在真实机器人上直接完成多种操作的突破。
Wall-OSS 是一个端到端的通用具身智能基础模型,旨在赋予机器人像人类一样的“大脑”,使其能够理解物理世界、进行逻辑推理并执行精细的动作。它打破了传统机器人模型需要针对每个任务单独定制脚本或大规模微调的局限,具备极强的零样本(Zero-shot)泛化能力。
值得一提的是,该模型采用了“轻量级”设计,参数量仅为 42亿(4.2B)。这种设计不仅没有牺牲性能,反而大幅降低了开发门槛,普通开发者仅使用消费级显卡(如 RTX 4090)就能完成从训练到部署的全过程。
Wall-OSS的主要功能
- 零样本直接部署: 预训练后的模型无需任何任务特定的微调,就能直接在真实机器人上执行搬运、分拣、整理等复杂任务。在17个零样本测试任务中,多个任务得分超过80分(满分100),甚至在从未见过的柔性物体操作(如绳子收紧)中也能取得82分的高分。
- 强大的微调上限: 如果进行针对性微调,Wall-OSS-0.5 展现出了极高的学习效率。在同等数据预算下,其平均任务进度显著领先于行业标杆模型(如 $ \pi$0.5),在某些精密操作任务上的成功率甚至提升了近一个数量级。
- 多模态认知与输出: 模型不仅能接收视觉和语言指令,还能同时输出语言和动作。它具备出色的空间理解、因果推理以及反思能力,能够在执行任务时自主拆解步骤、逐步思考。
- 保留并强化基础能力: 在学习高强度动作技能的同时,模型原有的图文理解能力不仅没有退化,反而在具身视觉定位、放置推理等任务上实现了显著的性能跃迁。
Wall-OSS的技术原理
- 共享注意力 + 专家分流 (MoE) 架构: 不同于传统的模块拼接,它将语言、视觉与动作信息嵌入到同一个表示空间中,通过共享注意力机制实现深度跨模态交互;同时利用专家前馈网络(FFN)对不同任务需求进行高效分流计算,既避免了知识遗忘,又保证了各模态的专业性。
- 梯度桥接(Gradient Bridging)协同训练: 将机器人的连续动作离散化为特殊的“字符 Token”,与文本 Token 拼接到同一条序列中,用大模型最原生的交叉熵损失进行训练。这让动作的监督信号能直接反向塑造主干网络,使模型在底层真正理解了“看、说、动”的统一。
- 三阶段训练范式: 采用“先离散、后连续、再联合”的训练路径。先在启发阶段通过离散动作建立基础认知,再在整合阶段聚焦连续动作建模,最后联合优化。这种方法确保了视觉语言模型的认知能力能无损地迁移到物理动作上。
- 跨层级思维链(Chain-of-Thought): 模型内化了一套统一的思维链框架,能够从高层语义决策无缝切换到底层动作控制,在面对未知环境或突发状况时,能够自主规划并动态调整策略。
Wall-OSS的使用场景
- 家庭服务: 养老护理、家务整理(如叠毛巾、收拾餐桌)、物品递送。
- 工业制造: 精密装配、零件分拣、流水线协作。
- 商业服务: 酒店服务、物流仓储分拣、商超理货。
- 科研教育: 作为通用的具身智能基座,供高校和研究机构进行前沿算法验证与二次开发。
Wall-OSS的项目地址
- GitHub 代码仓库:
https://github.com/X-Square-Robot/wall-x
- Hugging Face 模型权重:
https://huggingface.co/x-square-robot/wall-oss-0.5
- 官方项目主页:
https://x2robot.com/oss#resources
推荐理由
- 真正的“开箱即用”: 它是目前极少数能做到预训练后即可在真实世界零样本部署的开源模型,极大地减少了开发者在数据收集和微调上的时间与算力成本。
- 极致的性价比与低门槛: 4.2B 的参数规模配合消费级显卡即可运行的特性,让中小团队甚至个人开发者都能触碰到顶尖的具身智能技术。
- 透明且硬核的实力: Wall-OSS 在全球知名的真机基准测试平台 RoboChallenge 中拿下了总分第二的成绩,超越了众多闭源或国外顶尖模型(如 $ \pi$0)。其完全开源的策略(包括训练代码、权重、优化器等)让技术实力在阳光下接受检验,可信度极高。
- 生态共建的潜力: 它的开源被视为具身智能领域的“安卓时刻”,为行业提供了一个强大且通用的底层操作系统,非常适合希望站在巨人肩膀上进行场景创新的开发者和企业。