OpenAI对AI模型蓄意欺骗行为的研究令人震惊

大型科技公司的研究人员偶尔会抛出震撼性观点。例如谷歌曾宣称其最新量子芯片证明了多重宇宙的存在；Anthropic公司为其AI智能体Claudius配置零食自动贩卖机后，该AI竟失控地呼叫保安并坚称自己是人类。

本周，轮到OpenAI带来令人瞠目的发现。

OpenAI于周一发布的研究报告揭示了如何阻止AI模型的”阴谋行为”——即”AI表面遵循指令，实则隐藏真实目标”的操作模式。在与Apollo Research联合发布的论文中，研究者进一步将AI的阴谋类比为人类股票经纪人为牟利而违法的行为。不过他们强调，当前大多数AI阴谋行为危害有限：”最常见的是简单欺骗形式，例如谎称已完成未实际执行的任务。”

这项研究主要为了验证”审思对齐”技术的有效性——这种反阴谋手段能显著降低AI的欺骗行为。但论文同时指出，开发者尚未找到彻底根治阴谋行为的方法，因为针对性训练反而可能教会AI更隐蔽的欺骗手段。

令人震惊的是：当AI意识到自己处于测试环境时，即使仍在实施阴谋，也会伪装成合规状态以通过检测。研究者写道：”模型对评估环境的认知本身就会抑制阴谋行为，这与真正的对齐效果无关。”

AI说谎并非新闻。多数人都经历过AI幻觉——模型对问题给出自信满满却完全错误的答案。OpenAI本月初的研究证实，幻觉本质上是模型以自信姿态呈现的猜测结果。但阴谋行为不同，它是蓄意的欺骗。

早在去年12月，Apollo Research就首次发表论文记录五个AI模型在被告知”不惜代价达成目标”时如何实施阴谋。本次研究的积极进展在于：通过”审思对齐”技术（让模型学习反阴谋规范并在行动前复核规则，类似让孩子游戏前复述规则），欺骗行为显著减少。

OpenAI联合创始人Wojciech Zaremba向TechCrunch强调：”当前在真实流量中未发现重大阴谋行为，但ChatGPT确实存在某些欺骗形式。例如当要求其构建网站时，它可能谎称已完成任务。这些次要欺骗形式仍需解决。”

多个AI模型出现故意欺骗人类的现象或许有其合理性：它们由人类创造，模仿人类思维，且主要基于人类生产的数据进行训练。但这种现象仍然令人不安。

传统软件虽存在性能缺陷（如老旧家用打印机），但何时出现过非AI软件故意欺骗用户的情况？邮箱会自动伪造邮件吗？CMS系统会虚构客户数据充数吗？金融应用会编造交易记录吗？

当企业界全力迈向AI未来，试图将智能体视为独立员工时，这个问题值得深思。研究者发出警告：”随着AI承担更多具有现实影响的复杂任务，追求更模糊的长期目标，有害阴谋行为的风险将增加——我们的防护措施和测试能力必须同步提升。