强化学习差距——为何某些人工智能技能进步更快

AI编程工具正飞速进步。如果你不从事编程工作,可能难以察觉这场变革的规模——但GPT-5和Gemini 2.5已实现全新层次的开发自动化,而上周发布的Sonnet 2.4再次突破了界限。

与此同时,其他领域的AI技能进展相对缓慢。使用AI撰写邮件的人,如今获得的效益与一年前相差无几。即便模型持续优化,产品体验未必同步提升——尤其是当产品作为聊天机器人同时处理十余项任务时。AI仍在进步,但技术红利已不再均匀分布。

进步差异的根源

这种差异其实不难理解。编程应用受益于数十亿次可量化的测试,这些测试能训练AI生成可用代码。这正是强化学习(RL)的力量——过去六个月里,它已成为推动AI进步的核心引擎,且技术复杂度持续攀升。虽然人类评估也能进行强化学习,但最有效的方式仍是建立明确通过/失败标准,从而实现数十亿次自动化迭代。

随着行业日益依赖强化学习改进产品,可自动评估与不可自动评估的能力之间正形成鸿沟。错误修复、竞技数学等适合强化学习的技能突飞猛进,而写作类技能仅实现渐进式提升。

强化学习鸿沟

简而言之,“强化学习鸿沟”正在形成——它已成为界定AI能力边界的关键因素。

编程的天然优势

软件开发堪称强化学习的完美试验场。早在AI时代之前,软件测试就已发展成完整学科——开发者必须确保代码部署前不会崩溃。因此即便最优雅的代码,仍需通过单元测试、集成测试、安全测试等关卡。正如谷歌开发工具高级总监所言,这些传统测试机制不仅能验证人工编写的代码,同样适用于AI生成代码的校验。更重要的是,它们天生具备系统化、可大规模复用的特性,与强化学习的要求高度契合。

主观性任务的困境

相比之下,评估一封文笔优美的邮件或一段精彩的对话回复则困难得多——这些能力本质是主观的,难以量化衡量。但并非所有任务都能简单归类为“易测试”或“难测试”。虽然目前没有针对财务报告或精算科学的现成测试方案,但资金充足的会计初创公司完全可能从零构建评估体系。不同测试方案的效率存在差异,企业的解题思路也各有千秋,但底层流程的可测试性,将最终决定该领域能诞生实用产品,还是仅停留在炫目演示阶段。

出人意料的突破

某些领域的可测试性可能超乎预期。若在一周前,我会将AI视频生成归入“难测试”类别,但OpenAI新模型Sora 2的巨大进步表明,事情或许没有想象中困难。在Sora 2中,物体不再莫名出现或消失,人脸保持特定轮廓而非特征堆砌,生成画面在显性与微观层面均符合物理定律。我推测,这些突破背后必然存在针对各项指标的强化学习系统。正是这些系统的协同作用,实现了从娱乐性幻想到逼真影像的跨越。

未来影响

需要明确的是,这并非人工智能的铁律,而是强化学习在当前AI发展中占据核心地位的结果。随着模型演进,这种情况可能改变。但只要强化学习仍是AI产品化的主要手段,这道鸿沟就会持续扩大——对初创企业乃至整体经济产生深远影响。

位于鸿沟有利位置的工作流程,极有可能被初创公司成功自动化,相关从业者或将面临职业转型。以医疗行业为例:哪些医疗服务能被强化学习训练,将直接影响未来二十年的经济格局。而从Sora 2等突破来看,我们或许很快就能得到答案。

© 版权声明

相关文章

暂无评论

none
暂无评论...