随着AI竞赛进入下半场,一个关键战场正从模型训练转向推理部署 (Inference)。最新市场动态显示,旨在让大模型运行更快、更便宜的底层技术,正成为资本追逐的新焦点。近日,开源项目vLLM的创始团队宣布,已将其转型为一家名为Inferact的独立公司,并完成了高达1.5亿美元的种子轮融资,公司估值达到8亿美元。这笔巨额融资不仅彰显了投资者对AI推理基础设施的强烈信心,也预示着该领域商业化进程的全面加速。
从开源项目到独角兽:vLLM的商业化之路
据熟悉内情的人士透露,此轮融资由硅谷顶级风投机构Andreessen Horowitz和Lightspeed Venture Partners联合领投。Inferact的核心产品正是其同名开源项目vLLM,这是一个专为大型语言模型(LLM)设计的高吞吐量、低延迟推理服务引擎。该公司在一份最新文件中披露,其现有企业用户已包括亚马逊的云服务部门及知名电商应用,证明了其技术在实际生产环境中的强大吸引力。
vLLM的商业化并非孤例。就在不久前,同样源自学术界的开源项目SGLang也宣布以RadixArk的身份独立运营,并获得了以Accel领投的融资,估值达到4亿美元。这两个项目有一个共同的起源:它们均于2023年在加州大学伯克利分校的实验室孵化,该实验室由大数据公司Databricks的联合创始人Ion Stoica领导。这一现象表明,顶尖学术研究正以前所未有的速度与产业资本结合,共同推动AI基础设施的演进。
为何推理技术成为新宠?
要理解资本为何重仓押注,必须厘清AI发展的阶段性变化。过去几年,行业焦点集中在模型训练 (Model Training)上,即投入巨量算力和数据“炼”出大模型。然而,当模型炼成后,如何高效、经济地将其部署到成千上万的用户手中提供服务——即推理 (Inference)过程——成为了真正的瓶颈和成本中心。
vLLM等技术解决的正是这个痛点。它通过创新的PagedAttention等算法,显著优化了GPU内存管理,从而能够同时处理更多用户请求,大幅提升服务吞吐量并降低延迟。对于任何希望将AI能力集成到自身产品中的公司而言,这直接意味着更低的运营成本和更好的用户体验。随着AI应用从演示走向大规模普及,对高效推理引擎的需求将呈指数级增长。
行业影响与未来格局展望
Inferact和RadixArk的接连涌现,标志着AI基础设施赛道正在发生深刻裂变。一个专门服务于模型推理的独立生态层正在形成,与传统的云计算、芯片和模型层并立。这对于整个AI行业意味着:
- 降低应用门槛:更优的推理技术将使中小公司也能以可承受的成本部署先进AI,促进应用创新百花齐放。
- 重塑云市场格局:云厂商可能会加速整合或自研同类技术,以保持其平台在AI时代的竞争力,同时也会与这些新兴的专项服务商形成竞合关系。
- 投资风向标:资本正从“造模型”转向“用模型”,预示着下一波AI创业和投资机会将更多集中在工具链、部署优化和垂直应用集成上。
可以预见,随着像vLLM这样的核心技术完成从实验室到商业公司的蜕变,AI推理市场将结束早期的技术探索期,进入以性能、成本和易用性为核心的综合实力比拼阶段。这场发生在AI“最后一公里”的竞赛,将最终决定哪些技术能真正支撑起智能时代的万千应用。