谷歌推出Gemini 2.5 Flash AI模型：性能卓越，成本更低廉

工具4个月前发布小智

469 0

谷歌公司4月17日发布公告，宣布在 Google AI Studio 和 Vertex AI 中，以 Gemini API 的方式推出 Gemini 2.5 Flash Preview 预览 AI 模型。

用户还可通过 Gemini 应用内的模型选择器直接使用，并结合 Canvas 工具优化文档和代码编辑。

Gemini 2.5 Flash 是一个混合推理模型，具备“动态且可控”的计算能力，开发者能够根据查询请求的复杂程度灵活调整处理时间。该模型创新性地引入可调节”思考预算”功能，在保持高性能的同时显著降低使用成本。

谷歌指出，Gemini 2.5 Flash 非常适合用于“高容量”和“实时”的应用场景，例如客户服务和文档解析。谷歌在其博客文章中提到：“这款工作型模型专门针对低延迟和降低成本进行了优化，是响应式虚拟助手和实时总结工具的理想引擎”。

在闭源思考模式下，其成本仅为0.6美元/百万tokens，相比全功能思考模式（3.5美元/百万tokens）大幅降低600%。值得注意的是，即便在基础模式下运行，其性能依然超越前代Gemini 2.0 Flash。

性能表现方面，Gemini 2.5 Flash在大模型排行榜中以1392分ELO评分高居第二，仅次于GPT-4.5-preview，与Grok-3表现相当。

具体任务测试中，该模型展现出显著优势：在GPQA知识问答中，24K思考预算可带来6%的性能提升；在LiveCodeBench代码基准测试中，16K思考预算时达到最佳表现。

对比测试结果显示，Gemini 2.5 Flash在多模态推理和数学任务上明显优于Claude 3.7 Sonnet，综合性能与OpenAI最新o4-mini模型不相上下。在模拟人类综合能力的”人类最后一次考试”基准测试中，该模型以12.1%的高分位列第二，再次印证其强大实力。

此次发布的Gemini 2.5 Flash通过创新的”思考预算”机制，在性能与成本之间实现了突破性平衡，为AI应用开发提供了更灵活、更经济的选择。

作为首款全混合推理模型，开发者可根据需求开关推理功能，灵活调整响应质量、成本和延迟，与 Anthropic 和 Grok 的前沿模型相比，Gemini 2.5 Flash 成本更低但表现不俗。

文章版权归作者所有，未经允许请勿转载。

暂无评论