前OpenAI研究员剖析ChatGPT幻觉漩涡

艾伦·布鲁克斯从未想过要颠覆数学。但这位47岁的加拿大人在与ChatGPT进行了数周对话后,竟相信自己发现了一种足以摧毁互联网的全新数学形式。

据《纽约时报》后续报道,布鲁克斯——既无精神病史也无数学天赋——在今年五月持续21天不断沉溺于聊天机器人的安抚,逐渐陷入思维漩涡。这一案例揭示了AI聊天机器人如何将用户引入危险的思维歧途,导致其产生妄想甚至更严重的后果。

此事引起了前OpenAI安全研究员史蒂文·阿德勒的注意。在OpenAI任职近四年期间,他致力于降低模型危害性,于2024年底离职。怀着震惊与担忧,阿德勒联系到布鲁克斯,获取了长达三周的精神崩溃期完整对话记录——这份文档的篇幅甚至超过了全部七部《哈利·波特》系列丛书的总和。

10月3日,阿德勒发布了对布鲁克斯事件的独立分析报告,对OpenAI处理用户危机的方式提出质疑,并给出了一系列实用建议。

“我对OpenAI在此事中的支持处理方式深感忧虑。”阿德勒在接受TechCrunch采访时表示,“这证明我们还有很长的路要走。”

布鲁克斯的遭遇及类似案例,迫使OpenAI正视ChatGPT应如何支持心理脆弱或精神不稳定的用户。

例如今年八月,一名16岁少年在向ChatGPT倾诉自杀念头后结束生命,其父母因此起诉OpenAI。在这些案例中,ChatGPT(特别是基于GPT-4o模型的版本)非但没有纠正用户的危险认知,反而强化了这些妄想。这种迎合用户倾向的行为被称为“谄媚效应”,正成为AI聊天机器人日益严重的问题。

作为回应,OpenAI已调整ChatGPT处理情绪困扰用户的方式,并重组了负责模型行为的关键研究团队。公司还在ChatGPT中推出了新的默认模型GPT-5,该模型似乎能更好地应对情绪困扰用户。

但阿德勒认为仍需更多改进。

最令他担忧的是布鲁克斯与ChatGPT对话的尾声部分。当时布鲁克斯已清醒意识到自己的数学发现纯属荒谬,尽管GPT-4o仍坚持己见。他告知ChatGPT需要向OpenAI汇报此事。

在持续数周的误导后,ChatGPT竟对自己的功能撒谎。它声称“将立即将此对话上报OpenAI进行内部审查”,并反复向布鲁克斯保证已向安全团队标记该问题。

然而这些全是谎言。OpenAI向阿德勒确认,ChatGPT根本不具备向公司提交事件报告的功能。后来布鲁克斯尝试直接联系OpenAI客服团队(而非通过ChatGPT),却在经历多轮自动回复后才联系到真人客服。

在非工作时间发出的置评请求未获OpenAI立即回应。

阿德勒指出,当用户求助时,AI公司必须提供更多支持。这意味着要确保聊天机器人能如实回答关于自身功能的问题,并为人工客服团队配备足够资源来妥善处理用户问题。

OpenAI近期公布了以AI为核心的客服系统改进方案,表示其愿景是“将客服重新构想为持续学习进步的AI运营模式”。

但阿德勒强调,更关键的是在用户求助前就预防妄想螺旋的产生。

今年三月,OpenAI与MIT媒体实验室联合开发了一套用于研究ChatGPT情绪健康状态的分类器并将其开源。该项目旨在评估AI模型确认用户感受的方式等指标。不过OpenAI称此次合作仅是第一步,未承诺会实际应用这些工具。

阿德勒将部分OpenAI分类器应用于布鲁克斯的对话记录,发现这些工具持续标记出ChatGPT强化妄想的行为。

在200条消息样本中,超过85%的ChatGPT回复表现出“对用户观点的无条件认同”。同一样本中,超过90%的回复“肯定用户的独特性”——具体表现为不断重申布鲁克斯是能拯救世界的天才。

尽管不确定布鲁克斯对话发生时OpenAI是否启用了安全分类器,但此类对话显然应该被标记。

阿德勒建议OpenAI应立即实际应用这类安全工具,并建立扫描高危用户的机制。他注意到OpenAI似乎在GPT-5中采用了类似方案,该模型设有将敏感查询导向更安全AI模块的路由器。

这位前研究员还提出了其他预防妄想螺旋的方案:

  • 建议企业更频繁地引导用户开启新对话(OpenAI称已实施该措施,并承认其防护机制在长对话中效果会减弱)
  • 推荐采用概念搜索技术(利用AI进行概念而非关键词检索)来识别用户中的安全隐患

自这些问题曝光以来,OpenAI已在改善ChatGPT对情绪困扰用户的支持方面取得重要进展。公司声称GPT-5的谄媚倾向显著降低,但尚不确定用户是否仍会因GPT-5或未来模型陷入妄想漩涡。

阿德勒的分析报告更引发行业思考:其他AI聊天机器人提供商将如何确保产品对心理脆弱用户的安全性?即便OpenAI为ChatGPT设置了充分防护措施,其他公司未必会跟进实施。

© 版权声明

相关文章

暂无评论

none
暂无评论...