OpenAI称GPT-5在众多工作岗位上的表现已媲美人类

Ai新闻5个月前发布 Maxwell_Zeff

周四，OpenAI发布了一项新基准测试GDPval，旨在评估其AI模型与各行业人类专业人士在工作表现上的差距。这是该公司为实现通用人工智能（AGI）核心使命的早期尝试，旨在衡量其系统在经济价值工作中超越人类的能力。

OpenAI指出，其GPT-5模型和Anthropic的Claude Opus 4.1模型“已接近行业专家的工作质量”。但需明确，这并不意味着AI将立即取代人类岗位。尽管有CEO预测AI将在几年内取代人类工作，OpenAI承认当前GDPval仅覆盖实际工作中极少部分任务。不过，这仍是衡量AI迈向该里程碑的最新指标之一。

测试设计与行业覆盖

GDPval基于对美国GDP贡献最大的九个行业（包括医疗、金融、制造业和政府领域），在44种职业中测试AI表现，涵盖软件工程师、护士、记者等岗位。

在首版测试GDPval-v0中，OpenAI邀请经验丰富的专业人士对比AI生成报告与人类专家报告，并选出更优版本。例如，要求投行分析师撰写关于“最后一英里配送行业”的竞争格局报告，并与AI报告比较。最终汇总44种职业中AI相对于人类的“胜率”平均值。

模型表现与局限性

强化计算版本的GPT-5-high在40.6%的任务中达到或超越专家水平。而Anthropic的Claude Opus 4.1模型在49%的任务中表现更优——OpenAI认为这可能源于其擅长生成美观图表，而非绝对性能优势。

需要强调的是，GDPval-v0仅测试了提交研究报告这一单项任务，而实际工作包含更复杂内容。OpenAI表示未来将开发涵盖更多行业和交互流程的强化版测试。

AI进步速度与行业影响

OpenAI首席经济学家Aaron Chatterji博士指出，随着AI在某些任务上表现提升，从业者可将基础工作交由模型处理，转而专注于更高价值任务。评估负责人Tejal Patwardhan补充道，15个月前发布的GPT-4o胜率仅13.7%，而GPT-5提升至近三倍，这种进步趋势预计将持续。

基准测试的演进需求

当前硅谷常用AIME 2025（数学竞赛题）和GPQA Diamond（博士级科学问题）等基准测试AI水平，但部分模型已接近这些测试的饱和点。研究人员普遍认为，需要能衡量AI真实任务能力的新基准。

随着OpenAI推动AI在多行业的应用，GDPval类基准的重要性将日益凸显。但要最终证明AI全面超越人类，仍需更完善的测试体系支撑。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

通义千问广告 - 响应式版

相关文章

若非人工智能初创企业想从风投那筹钱可难了

若非人工智能初创企业想从风投那筹钱可难了

Ai新闻 # Anthropic

5个月前

0330

Meta元宇宙战略大撤退：1500人裁员、VR工作室关闭，百亿美元投入为何转向AI？

Meta元宇宙战略大撤退：1500人裁员、VR工作室关闭，百亿美元投入为何转向AI？

Ai新闻 # AI战略 # Meta # Quest头显

2个月前

0180

华纳音乐与Udio就AI音乐平台达成版权诉讼和解并签署合作协议

华纳音乐与Udio就AI音乐平台达成版权诉讼和解并签署合作协议

4个月前

0330

Wonderful 完成了 1 亿美元的 A 轮融资，旨在将人工智能代理部署到客户服务的第一线。

Wonderful 完成了 1 亿美元的 A 轮融资，旨在将人工智能代理部署到客户服务的第一线。

4个月前

0520

暂无评论

none

暂无评论...