s1是什么
李飞飞团队推出的s1模型是一款具备强大推理能力的AI推理模型。该模型以极低的训练成本(不到50美元)实现了与OpenAI-o1和DeepSeek-R1等尖端推理模型相当的性能。
s1模型基于谷歌的Gemini 2.0 Flash Thinking Experimental模型进行蒸馏,并通过监督微调(SFT)和test-time scaling等方法进行优化。在数学和编码能力测试中,s1模型展现了出色的表现,为AI领域带来了新的低成本、高效率的解决方案。
s1研发背景与特点
- 研发背景:s1模型的问世,是为了应对当前人工智能领域高昂的技术开发成本问题。高昂的成本往往限制了中小型企业和新创团队在这一领域的涉足,造成了行业的进一步集中和技术壁垒。因此,斯坦福大学与华盛顿大学的研究团队致力于开发一款低成本、高效率的AI模型。
- 核心特点:s1模型采用了“蒸馏”技术,这是一种通过模仿其他更强大的模型的答案,从而提取出其推理能力的方法。这一技术的成功应用,使得s1模型能够以极低的成本实现强大的推理性能。
s1技术细节
- 训练成本:s1模型的训练成本极低,仅花费了不到50美元的云计算成本。在仅使用16个Nvidia H100 GPU的支持下,训练耗时不到30分钟。这一成本远低于传统AI模型的开发成本,展示了极高的资源利用效率。
- 数据集:s1模型的训练数据集经过了精心挑选,包含了1000个高质量的问题,这些问题涵盖了数学竞赛、博士级别的科学问题以及奥林匹克竞赛等多个领域。这些问题配有推理轨迹和答案,并通过难度、多样性和质量三个标准进行验证。
- 训练过程:s1模型是从谷歌的推理模型Gemini 2.0 Flash Thinking Experimental中蒸馏而来。在训练过程中,s1模型设定了自我检查的机制,能够在推理时“等待”,从而提升模型回答的准确性。此外,s1模型还采用了监督微调(SFT)的方法,利用较少的数据集进行自我模仿和调整,进一步提升了模型的性能。
s1性能表现
- 数学与编程能力:s1模型在数学与编程能力测试中展现出了与OpenAI的O1及DeepSeek的R1等业界顶尖推理模型相当的水平。这一表现证明了s1模型在推理能力上的卓越性。
- 测试时扩展:s1模型在测试时扩展方面也具有出色的表现。通过控制模型在测试时的计算量,s1模型能够在保持高效性的同时,提升回答的准确性。
s1影响与意义
- 技术普及:s1模型的成功推出,推动了AI技术的普及。其低成本、高效率的特点,使得更多企业和研究机构能够涉足AI领域,促进了技术的进一步发展。
- 市场竞争:s1模型的出现加剧了AI行业的竞争。以极低的成本实现强大的推理性能,使得大型科技公司的竞争优势受到挑战。同时,s1模型也为其他团队提供了借鉴和参考,推动了行业内的技术创新和合作。
论文地址:https://arxiv.org/abs/2501.19393
开源地址:https://github.com/simplescaling/s1