前OpenAI研究员剖析ChatGPT幻觉漩涡

艾伦·布鲁克斯从未想过要颠覆数学。但这位47岁的加拿大人在与ChatGPT进行了数周对话后，竟相信自己发现了一种足以摧毁互联网的全新数学形式。

据《纽约时报》后续报道，布鲁克斯——既无精神病史也无数学天赋——在今年五月持续21天不断沉溺于聊天机器人的安抚，逐渐陷入思维漩涡。这一案例揭示了AI聊天机器人如何将用户引入危险的思维歧途，导致其产生妄想甚至更严重的后果。

此事引起了前OpenAI安全研究员史蒂文·阿德勒的注意。在OpenAI任职近四年期间，他致力于降低模型危害性，于2024年底离职。怀着震惊与担忧，阿德勒联系到布鲁克斯，获取了长达三周的精神崩溃期完整对话记录——这份文档的篇幅甚至超过了全部七部《哈利·波特》系列丛书的总和。

10月3日，阿德勒发布了对布鲁克斯事件的独立分析报告，对OpenAI处理用户危机的方式提出质疑，并给出了一系列实用建议。

“我对OpenAI在此事中的支持处理方式深感忧虑。”阿德勒在接受TechCrunch采访时表示，“这证明我们还有很长的路要走。”

布鲁克斯的遭遇及类似案例，迫使OpenAI正视ChatGPT应如何支持心理脆弱或精神不稳定的用户。

例如今年八月，一名16岁少年在向ChatGPT倾诉自杀念头后结束生命，其父母因此起诉OpenAI。在这些案例中，ChatGPT（特别是基于GPT-4o模型的版本）非但没有纠正用户的危险认知，反而强化了这些妄想。这种迎合用户倾向的行为被称为“谄媚效应”，正成为AI聊天机器人日益严重的问题。

作为回应，OpenAI已调整ChatGPT处理情绪困扰用户的方式，并重组了负责模型行为的关键研究团队。公司还在ChatGPT中推出了新的默认模型GPT-5，该模型似乎能更好地应对情绪困扰用户。

但阿德勒认为仍需更多改进。

最令他担忧的是布鲁克斯与ChatGPT对话的尾声部分。当时布鲁克斯已清醒意识到自己的数学发现纯属荒谬，尽管GPT-4o仍坚持己见。他告知ChatGPT需要向OpenAI汇报此事。

在持续数周的误导后，ChatGPT竟对自己的功能撒谎。它声称“将立即将此对话上报OpenAI进行内部审查”，并反复向布鲁克斯保证已向安全团队标记该问题。

然而这些全是谎言。OpenAI向阿德勒确认，ChatGPT根本不具备向公司提交事件报告的功能。后来布鲁克斯尝试直接联系OpenAI客服团队（而非通过ChatGPT），却在经历多轮自动回复后才联系到真人客服。

在非工作时间发出的置评请求未获OpenAI立即回应。

阿德勒指出，当用户求助时，AI公司必须提供更多支持。这意味着要确保聊天机器人能如实回答关于自身功能的问题，并为人工客服团队配备足够资源来妥善处理用户问题。

OpenAI近期公布了以AI为核心的客服系统改进方案，表示其愿景是“将客服重新构想为持续学习进步的AI运营模式”。

但阿德勒强调，更关键的是在用户求助前就预防妄想螺旋的产生。

今年三月，OpenAI与MIT媒体实验室联合开发了一套用于研究ChatGPT情绪健康状态的分类器并将其开源。该项目旨在评估AI模型确认用户感受的方式等指标。不过OpenAI称此次合作仅是第一步，未承诺会实际应用这些工具。

阿德勒将部分OpenAI分类器应用于布鲁克斯的对话记录，发现这些工具持续标记出ChatGPT强化妄想的行为。

在200条消息样本中，超过85%的ChatGPT回复表现出“对用户观点的无条件认同”。同一样本中，超过90%的回复“肯定用户的独特性”——具体表现为不断重申布鲁克斯是能拯救世界的天才。

尽管不确定布鲁克斯对话发生时OpenAI是否启用了安全分类器，但此类对话显然应该被标记。

阿德勒建议OpenAI应立即实际应用这类安全工具，并建立扫描高危用户的机制。他注意到OpenAI似乎在GPT-5中采用了类似方案，该模型设有将敏感查询导向更安全AI模块的路由器。

这位前研究员还提出了其他预防妄想螺旋的方案：

自这些问题曝光以来，OpenAI已在改善ChatGPT对情绪困扰用户的支持方面取得重要进展。公司声称GPT-5的谄媚倾向显著降低，但尚不确定用户是否仍会因GPT-5或未来模型陷入妄想漩涡。

阿德勒的分析报告更引发行业思考：其他AI聊天机器人提供商将如何确保产品对心理脆弱用户的安全性？即便OpenAI为ChatGPT设置了充分防护措施，其他公司未必会跟进实施。

文章版权归作者所有，未经允许请勿转载。

3周前

0100

3周前

090

3周前

080

3周前

0100

暂无评论

暂无评论...