OpenAI称GPT-5在众多工作岗位上的表现已媲美人类

周四,OpenAI发布了一项新基准测试GDPval,旨在评估其AI模型与各行业人类专业人士在工作表现上的差距。这是该公司为实现通用人工智能(AGI)核心使命的早期尝试,旨在衡量其系统在经济价值工作中超越人类的能力。

OpenAI指出,其GPT-5模型和Anthropic的Claude Opus 4.1模型“已接近行业专家的工作质量”。但需明确,这并不意味着AI将立即取代人类岗位。尽管有CEO预测AI将在几年内取代人类工作,OpenAI承认当前GDPval仅覆盖实际工作中极少部分任务。不过,这仍是衡量AI迈向该里程碑的最新指标之一。

测试设计与行业覆盖

GDPval基于对美国GDP贡献最大的九个行业(包括医疗、金融、制造业和政府领域),在44种职业中测试AI表现,涵盖软件工程师、护士、记者等岗位。

在首版测试GDPval-v0中,OpenAI邀请经验丰富的专业人士对比AI生成报告与人类专家报告,并选出更优版本。例如,要求投行分析师撰写关于“最后一英里配送行业”的竞争格局报告,并与AI报告比较。最终汇总44种职业中AI相对于人类的“胜率”平均值。

模型表现与局限性

强化计算版本的GPT-5-high在40.6%的任务中达到或超越专家水平。而Anthropic的Claude Opus 4.1模型在49%的任务中表现更优——OpenAI认为这可能源于其擅长生成美观图表,而非绝对性能优势。

需要强调的是,GDPval-v0仅测试了提交研究报告这一单项任务,而实际工作包含更复杂内容。OpenAI表示未来将开发涵盖更多行业和交互流程的强化版测试。

AI进步速度与行业影响

OpenAI首席经济学家Aaron Chatterji博士指出,随着AI在某些任务上表现提升,从业者可将基础工作交由模型处理,转而专注于更高价值任务。评估负责人Tejal Patwardhan补充道,15个月前发布的GPT-4o胜率仅13.7%,而GPT-5提升至近三倍,这种进步趋势预计将持续。

基准测试的演进需求

当前硅谷常用AIME 2025(数学竞赛题)和GPQA Diamond(博士级科学问题)等基准测试AI水平,但部分模型已接近这些测试的饱和点。研究人员普遍认为,需要能衡量AI真实任务能力的新基准。

随着OpenAI推动AI在多行业的应用,GDPval类基准的重要性将日益凸显。但要最终证明AI全面超越人类,仍需更完善的测试体系支撑。

© 版权声明

相关文章

暂无评论

none
暂无评论...