当整个AI行业还在为”谁能训练出最强模型”而厮杀时,一家由华人女性掌舵的公司,悄悄把战场转移到了”谁能让模型跑得更快、更便宜”——而这,恰恰成了2026年最值钱的生意。
据彭博社今日报道,知情人士透露,美国独角兽、生成式AI基础设施与推理服务商Fireworks AI正在洽谈新一轮融资,融资完成后其估值将达到150亿美元(约合人民币1024.4亿元),较去年10月的40亿美元(约合人民币273.2亿元)估值增长了275%。
起源:从PyTorch出走的华人军团
2022年10月,美国加州雷德伍德市,七个人围坐在一间办公室里,决定做一件”让AI落地不再是巨头专利”的事。
领头人叫乔琳(Lin Qiao),复旦大学计算机科学本硕,加州大学圣巴巴拉分校博士。在创立Fireworks AI之前,她是Meta(Facebook)的高级工程总监,一手主导了PyTorch在Meta数据中心、移动设备和AR/VR设备上的开发部署——而PyTorch,如今已是全球最主流的开源机器学习框架之一。
她的联合创始团队同样星光熠熠:前Meta首席软件工程师Benny Chen、前谷歌高级软件工程师Chenyu Zhao,以及另外四位来自Meta PyTorch核心组的资深工程师。七人中三位是华人,华人成员占比超过三分之一。
乔琳的判断精准而犀利:“许多公司希望快速采用AI技术,但缺乏基础设施、资源和人才。” 通用大模型解决通用问题,但企业真正的竞争优势,藏在专属数据里。
于是,Fireworks AI诞生了——不做模型训练,专攻AI推理;不造芯片,整合算力;不卖产品,卖效率。
狂飙:三年估值从0到150亿美元
Fireworks AI的融资速度,堪称AI创业史上的奇迹:
| 轮次 | 时间 | 金额 | 估值 | 领投方 |
|---|---|---|---|---|
| 种子轮 | 2022年 | — | — | — |
| A轮 | 2024年3月 | 2500万美元 | — | Benchmark、红杉资本 |
| B轮 | 2024年7月 | 5200万美元 | 5.52亿美元 | 红杉资本 |
| C轮 | 2025年10月 | 2.54亿美元 | 40亿美元 | Lightspeed、Index Ventures、Evantic |
| 新一轮(洽谈中) | 2026年5月 | — | 150亿美元 | Index Ventures |
从5.52亿到40亿,用了一年;从40亿到150亿,只用了七个月。估值一年增长超6倍,三年干出一个千亿人民币级独角兽——这位复旦才女,用速度改写了规则。
截至2026年5月27日,据知情人士透露,Fireworks AI正以150亿美元估值洽谈新一轮融资,由曾参与C轮的Index Ventures联合领投,英伟达和AMD也将继续跟投。若融资完成,这将是AI推理赛道有史以来最大规模的单轮融资之一。
核心武器:让推理快12倍的FireAttention
Fireworks AI不自己造芯片,也不从零训练模型。它做的事情更聪明——把别人的算力和模型,通过自研引擎优化到极致。
其核心武器是FireAttention推理引擎,基于定制CUDA内核开发:
- 相比开源推理框架vLLM,推理速度提升12倍
- 相比GPT-4,推理速度提升40倍
- 一个H100 GPU在其平台上的吞吐量,相当于vLLM配置下的3个H100
- 以Mixtral 8x7b模型为例,切换到Fireworks平台可节约53%的GPU费用
用一个真实案例说明:AI编程工具Cursor使用Fireworks的推测解码API构建了”Fast Apply”功能,实现每秒1000个tokens的处理速度,比传统Llama-3-70b方法快约13倍,比GPT-4推测编辑部署快约9倍。程序员改代码的效率,直接翻倍。
平台目前托管100多种模型,涵盖Llama 3.1、DeepSeek-V4-Pro、Kimi K2.6、MiniMax M2.7、Stable Diffusion 3等,支持文本、图像、音频、多模态全覆盖。
商业模式:AI时代的”水电煤”
Fireworks AI的定位极其清晰——做AI推理领域的IaaS(基础设施即服务)。
它不直接拥有英伟达的服务器,而是整合AWS、Google Cloud、Oracle Cloud等多家云服务商的GPU资源,通过统一API向客户出售算力访问权限。三种服务模式,精准覆盖不同需求:
| 模式 | 计费方式 | 适用场景 |
|---|---|---|
| 无服务器推理(Serverless) | 按token数量计费 | 快速试水、弹性伸缩 |
| 模型微调(Fine Tuning) | LoRA等方法按需收费 | 企业定制化需求 |
| 按需部署(On-Demand) | 按GPU使用秒数计费 | 高性能、低延迟的生产环境 |
数据说明一切:
- 年化经常性收入(ARR):超过2.8亿美元(2025年10月数据)
- 日处理token量:超过10万亿个
- 服务企业客户:超过10,000家(较B轮增长10倍)
- API正常运行时间:99.99%
- 员工数:从2024年中期的27人扩张至115人,计划再招150+人
客户名单堪称豪华:三星、Uber、DoorDash、Notion、Shopify、Quora、Perplexity、Cursor……从硬件巨头到出行平台,从电商到AI原生应用,Fireworks AI已经渗透进数字经济的核心动脉。
竞争格局:在巨头夹缝中杀出重围
Fireworks AI的崛起并非没有对手。
直接竞争者:Together AI(估值30亿美元)、Baseten(2026年1月估值50亿美元)、Fal(2025年12月估值45亿美元)——都是专注推理平台的初创公司,打法相似,赛道拥挤。
潜在威胁:英伟达。这家芯片巨头既是Fireworks AI的投资者(A轮入局),又是其技术合作伙伴(Fireworks针对H100、MI300深度优化),同时还通过收购Lepton切入GPU云服务市场,与Fireworks形成亦敌亦友的微妙关系。
乔琳对此看得很透:“在任何一个有利可图的市场上,英伟达都有兴趣进入。但市场不喜欢垄断,这是一个经济问题。”
此外,亚马逊、微软、谷歌等云计算巨头也在积极布局AI推理。Gartner分析师指出,目前大约80%的企业尚未进入高级AI工程化阶段,这既是Fireworks AI的增长空间,也是其落地的最大挑战。
但Fireworks AI的护城河也在加深:2026年3月正式接入Microsoft Foundry,提供企业级AI推理基础设施;同月,Cursor通过其平台接入Kimi K2.5模型;与MongoDB合作构建RAG解决方案;通过SOC 2 Type II和HIPAA合规认证。
未来:从40亿到150亿,然后呢?
据最新消息,本轮150亿美元融资将重点投向三大方向:
第一,技术深水区。 深化调优和推理对齐研究,解决大模型”幻觉”问题,同时通过Fire Optimizer智能优化系统,让模型在质量、速度、成本间自动寻找最优解。
第二,产品全链条。 将现有工具升级为端到端AI创建工具链,覆盖模型评估、强化学习到生命周期管理全流程——乔琳的目标是”从模型开发到部署的一站式服务”。
第三,算力大扩张。 计划未来一年内将计算规模扩大3-4倍,同时持续降低单位token成本,支撑更大规模的并发请求。
更值得关注的是Fireworks AI提出的“产品-模型协同设计”理念:企业使用定制模型后,每一次用户纠正输出、忽略建议的操作,都会转化为改进模型的数据养分。产品和模型在永续循环中共同进化——这不是一次性买卖,而是一个持续增值的飞轮。
结语:隐形支柱的崛起
Fireworks AI不会成为大众熟知的”AI明星”,但它正在成为整个AI产业的”隐形支柱”。
当ChatGPT让每个人都能对话AI,当DeepSeek让开源模型逼近闭源水平,当Kimi和Yi-Large让中国模型走向世界——这些光鲜的故事背后,都需要一个高效、低成本、可定制的推理平台来承接落地。
而这,正是Fireworks AI的战场。
从复旦实验室到Meta PyTorch核心组,从7人创业到150亿美元估值,乔琳和她的华人团队用三年时间证明了一件事:AI的下一个十亿美元,不在训练端,在推理端;不在模型规模,在落地效率。
这场推理赛道的性能革命,或许正是开启AI普惠时代的那把钥匙。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...