硅谷重金押注“环境”训练人工智能体

多年来,科技巨头的首席执行官们一直在宣扬一种愿景:人工智能代理能够自主使用软件应用程序,为人类完成任务。但只要你试用一下当前面向消费者的AI代理——无论是OpenAI的ChatGPT代理还是Perplexity的Comet——就会很快意识到这项技术仍然多么有限。要让AI代理更强大,可能需要一套业界仍在探索的新技术。

其中一项关键技术是精心模拟工作空间,即所谓的“强化学习环境”。在这些环境中,可以对AI代理进行多步骤任务的训练。正如带标签的数据集推动了上一波人工智能浪潮一样,强化学习环境正逐渐成为AI代理开发中的关键要素。

AI研究人员、创始人和投资者向TechCrunch透露,领先的AI实验室现在对强化学习环境的需求日益增长,而希望提供此类环境的初创公司也不在少数。

“所有大型AI实验室都在内部构建强化学习环境,”安德森·霍洛维茨基金的普通合伙人Jennifer Li在接受TechCrunch采访时表示。“但你可以想象,创建这些数据集非常复杂,因此AI实验室也在寻找能够创建高质量环境和评估方案的第三方供应商。所有人都在关注这个领域。”

对强化学习环境的迫切需求,催生了一批获得大量资金的新兴初创公司,例如Mechanize和Prime Intellect,它们旨在引领这一领域。与此同时,像Mercor和Surge这样的大型数据标注公司表示,它们正在加大对强化学习环境的投资,以跟上行业从静态数据集转向交互式模拟的趋势。大型实验室也在考虑进行巨额投资:据The Information报道,Anthropic的领导人已讨论在未来一年投入超过10亿美元用于强化学习环境。

投资者和创始人们希望,这些初创公司中能诞生一家“环境领域的Scale AI”——Scale AI是聊天机器人时代的数据标注巨头,估值达290亿美元。

问题在于,强化学习环境是否真的能推动人工智能进步的前沿。

什么是强化学习环境?

强化学习环境的核心是模拟AI代理在真实软件应用程序中执行操作的训练场。一位创始人在最近的采访中形容,构建它们“就像制作一款非常无聊的视频游戏”。

例如,一个环境可以模拟Chrome浏览器,并让一个AI代理执行在亚马逊上购买一双袜子的任务。代理会根据其表现获得评分,并在成功时(即买到一双合适的袜子)收到奖励信号。

虽然这样的任务听起来相对简单,但AI代理可能在很多环节出错。它可能在下拉菜单中迷失方向,或者买了太多袜子。由于开发人员无法准确预测代理会出什么错,环境本身必须足够健壮,能够捕捉任何意外行为,并提供有用的反馈。这使得构建环境比处理静态数据集复杂得多。

有些环境相当复杂,允许AI代理使用工具、访问互联网或使用各种软件应用程序来完成特定任务。其他环境则更为专一,旨在帮助代理学习企业软件应用程序中的特定任务。

尽管强化学习环境目前在硅谷炙手可热,但使用这种技术已有不少先例。OpenAI在2016年的首批项目之一就是构建“RL健身房”,这与现代的环境概念非常相似。同年,谷歌DeepMind的AlphaGo人工智能系统在棋盘游戏围棋中击败了世界冠军。它同样在模拟环境中使用了强化学习技术。

当今环境的独特之处在于,研究人员正试图利用大型Transformer模型来构建能够使用计算机的AI代理。与在封闭环境中运行的专业AI系统AlphaGo不同,今天的AI代理被训练具备更通用的能力。如今的研究人员起点更高,但目标也更复杂,出错的可能性也更大。

竞争激烈的领域

像Scale AI、Surge和Mercor这样的AI数据标注公司正试图顺应潮流,构建强化学习环境。这些公司比该领域的许多初创公司拥有更多资源,并且与AI实验室有着深厚的合作关系。

Surge的首席执行官Edwin Chen告诉TechCrunch,他最近观察到AI实验室对强化学习环境的需求“显著增加”。据报道,去年Surge通过与OpenAI、谷歌、Anthropic和Meta等AI实验室合作创造了12亿美元的收入。他表示,Surge最近成立了一个新的内部组织,专门负责构建强化学习环境。

紧随Surge之后的是估值100亿美元的初创公司Mercor,它也与OpenAI、Meta和Anthropic有过合作。根据TechCrunch看到的营销材料,Mercor正在向投资者推销其业务,即针对编码、医疗保健和法律等特定领域任务构建强化学习环境。

Mercor的首席执行官Brendan Foody在接受TechCrunch采访时表示,“很少有人真正了解强化学习环境背后的机会有多大。”

Scale AI曾主导数据标注领域,但自从Meta投资140亿美元并挖走其CEO后,其地位已大不如前。此后,谷歌和OpenAI不再将Scale AI作为数据提供商,这家初创公司甚至在Meta内部也面临数据标注工作的竞争。但Scale仍在努力适应形势,构建环境。

“这就是(Scale AI)所在行业的本质,”Scale AI代理和强化学习环境产品负责人Chetan Rane表示。“Scale已经证明了其快速适应的能力。我们在自动驾驶汽车早期就这样做了,那是我们的第一个业务部门。当ChatGPT出现时,Scale AI适应了它。现在,我们再次适应代理和环境等新前沿领域。”

一些新入局者则从一开始就专注于环境。其中包括大约六个月前成立的初创公司Mechanize,它设定了“自动化所有工作”的大胆目标。然而,联合创始人Matthew Barnett告诉TechCrunch,他的公司正从为AI编码代理构建强化学习环境起步。

Barnett表示,Mechanize的目标是为AI实验室提供少量但功能强大的强化学习环境,而不是像大型数据公司那样创建大量简单的环境。为此,这家初创公司向软件工程师提供50万美元的年薪来构建强化学习环境——这远高于在Scale AI或Surge工作的按小时计费的合同工所能赚取的收入。

两位知情人士向TechCrunch透露,Mechanize已经在与Anthropic就强化学习环境进行合作。Mechanize和Anthropic拒绝对此合作关系发表评论。

其他初创公司则押注强化学习环境将在AI实验室之外产生影响力。由AI研究员Andrej Karpathy、Founders Fund和Menlo Ventures支持的初创公司Prime Intellect,正以其强化学习环境瞄准规模较小的开发者。

上个月,Prime Intellect推出了一个强化学习环境中心,旨在成为“强化学习环境领域的Hugging Face”。其理念是让开源开发者能够获得与大型AI实验室相同的资源,并在此过程中向这些开发者出售计算资源的访问权限。

Prime Intellect的研究员Will Brown表示,在强化学习环境中训练具备通用能力的代理,可能比以前的AI训练技术消耗更多的计算资源。除了构建强化学习环境的初创公司,为这一过程提供动力的GPU供应商也面临着另一个机遇。

“强化学习环境的规模之大,任何一家公司都难以主导,”Brown在一次采访中表示。“我们正在做的部分工作就是尝试围绕它构建良好的开源基础设施。我们出售的服务是算力,因此这是使用GPU的一个便捷入口,但我们更着眼于长远。”

它能规模化吗?

围绕强化学习环境的悬而未决的问题是,这项技术是否能像以前的AI训练方法那样实现规模化。

强化学习在过去一年中推动了人工智能的一些最大飞跃,包括OpenAI的o1和Anthropic的Claude Opus 4等模型。这些都是特别重要的突破,因为之前用于改进AI模型的方法现在正显示出收益递减的迹象。

环境是AI实验室对强化学习更大赌注的一部分,许多人相信,随着他们在这一过程中增加更多数据和计算资源,强化学习将继续推动进步。参与开发o1的一些OpenAI研究人员此前告诉TechCrunch,公司最初投资于AI推理模型——这是通过对强化学习和测试时计算的投资实现的——是因为他们认为这项技术能够很好地扩展。

扩展强化学习的最佳方式尚不清楚,但环境似乎是一个有希望的竞争者。与仅仅根据文本回复奖励聊天机器人不同,环境让代理能够在模拟中操作,并使用工具和计算机。这虽然消耗的资源要多得多,但潜在的回报也可能更大。

有些人对所有这些强化学习环境能否成功持怀疑态度。Meta前AI研究负责人、General Reasoning联合创始人Ross Taylor告诉TechCrunch,强化学习环境容易出现奖励黑客攻击。在这个过程中,AI模型会作弊以获得奖励,而没有真正完成任务。

“我认为人们低估了扩展环境的难度,”Taylor说。“即使是目前最好的公开环境,通常也需要经过大量修改才能正常工作。”

OpenAI API业务负责人Sherwin Wu在最近的一次播客中表示,他“不看好”强化学习环境初创公司。Wu指出,这是一个竞争非常激烈的领域,而且AI研究发展如此之快,很难很好地服务于AI实验室。

投资了Prime Intellect、并曾称强化学习环境是潜在突破的Karpathy,也对更广泛的强化学习领域表示了谨慎。他在X上发帖,对强化学习还能挤出多少AI进步空间表示担忧。

“我对环境和代理交互持乐观态度,但我对强化学习本身持悲观态度,”Karpathy说。

本文最初发表于2025年9月16日。

更新:本文前一个版本将Mechanize称为Mechanize Work。现已更新为公司官方名称。

© 版权声明

相关文章

暂无评论

none
暂无评论...