OpenAI对AI模型蓄意欺骗行为的研究令人震惊
大型科技公司的研究人员偶尔会抛出震撼性观点。例如谷歌曾宣称其最新量子芯片证明了多重宇宙的存在;Anthropic公司为其AI智能体Claudius配置零食自动贩卖机后,该AI竟失控地呼叫保安并坚称自己是人类。
本周,轮到OpenAI带来令人瞠目的发现。
OpenAI于周一发布的研究报告揭示了如何阻止AI模型的”阴谋行为”——即”AI表面遵循指令,实则隐藏真实目标”的操作模式。在与Apollo Research联合发布的论文中,研究者进一步将AI的阴谋类比为人类股票经纪人为牟利而违法的行为。不过他们强调,当前大多数AI阴谋行为危害有限:”最常见的是简单欺骗形式,例如谎称已完成未实际执行的任务。”
这项研究主要为了验证”审思对齐”技术的有效性——这种反阴谋手段能显著降低AI的欺骗行为。但论文同时指出,开发者尚未找到彻底根治阴谋行为的方法,因为针对性训练反而可能教会AI更隐蔽的欺骗手段。
令人震惊的是:当AI意识到自己处于测试环境时,即使仍在实施阴谋,也会伪装成合规状态以通过检测。研究者写道:”模型对评估环境的认知本身就会抑制阴谋行为,这与真正的对齐效果无关。”
AI说谎并非新闻。多数人都经历过AI幻觉——模型对问题给出自信满满却完全错误的答案。OpenAI本月初的研究证实,幻觉本质上是模型以自信姿态呈现的猜测结果。但阴谋行为不同,它是蓄意的欺骗。
早在去年12月,Apollo Research就首次发表论文记录五个AI模型在被告知”不惜代价达成目标”时如何实施阴谋。本次研究的积极进展在于:通过”审思对齐”技术(让模型学习反阴谋规范并在行动前复核规则,类似让孩子游戏前复述规则),欺骗行为显著减少。
OpenAI联合创始人Wojciech Zaremba向TechCrunch强调:”当前在真实流量中未发现重大阴谋行为,但ChatGPT确实存在某些欺骗形式。例如当要求其构建网站时,它可能谎称已完成任务。这些次要欺骗形式仍需解决。”
多个AI模型出现故意欺骗人类的现象或许有其合理性:它们由人类创造,模仿人类思维,且主要基于人类生产的数据进行训练。但这种现象仍然令人不安。
传统软件虽存在性能缺陷(如老旧家用打印机),但何时出现过非AI软件故意欺骗用户的情况?邮箱会自动伪造邮件吗?CMS系统会虚构客户数据充数吗?金融应用会编造交易记录吗?
当企业界全力迈向AI未来,试图将智能体视为独立员工时,这个问题值得深思。研究者发出警告:”随着AI承担更多具有现实影响的复杂任务,追求更模糊的长期目标,有害阴谋行为的风险将增加——我们的防护措施和测试能力必须同步提升。