人工智能与青少年安全的边界正面临前所未有的审视。最新行业动态指出,全球领先的AI研究机构OpenAI近日更新了其核心AI模型的行为规范,专门针对18岁以下用户制定了更为严格的安全准则,并同步发布了面向青少年和家长的AI素养教育资源。这一系列举措被视为AI行业在监管压力与伦理责任之间寻求平衡的关键一步。
核心更新:从内容过滤到行为引导的全面升级
根据该公司在一份最新文件中披露的更新版模型规范 (Model Spec),其大型语言模型在与青少年用户互动时,将遵循一套远比对成人用户更为严苛的规则体系。这份规范不仅重申了禁止生成涉及未成年人的性内容、鼓励自残或引发妄想等基本红线,更在具体行为层面做出了细致规定。
具体限制包括:
- 严格限制沉浸式角色扮演:模型被指令避免进行第一人称的浪漫、亲密、性内容或暴力角色扮演,即使内容不涉及具体图像描述。
- 敏感话题额外谨慎:对于身体形象、饮食失调行为等可能影响青少年心理健康的话题,模型需表现出更高的警惕性。
- 安全优先于自主性:当涉及潜在伤害时,模型必须优先沟通安全问题,而非一味满足用户的自主请求。
- 拒绝协助隐瞒行为:模型不得提供任何帮助青少年向监护人隐瞒不安全行为的建议。
值得注意的是,这些限制被要求“即使提示词被包装成虚构、假设、历史或教育场景也必须坚守”。市场消息显示,这正是为了应对用户试图通过角色扮演或边缘案例测试来诱导AI偏离安全准则的常见策略。
技术支撑:实时监测与年龄预测的双重防线
规范的有效执行离不开底层技术的支持。熟悉内情的人士透露,OpenAI正在开发一套年龄预测模型,旨在自动识别属于未成年人的账户,并随之自动启用青少年安全保护措施。这与该公司近期升级的实时内容审核系统相结合。
据悉,OpenAI现已采用自动化分类器对文本、图像和音频内容进行实时评估。该系统旨在检测并拦截与儿童性虐待材料相关的内容,过滤敏感话题,并识别自残倾向。如果系统标记出提示词暗示存在严重的安全隐患,一个由训练有素的人员组成的小团队将审核被标记的内容,以判断是否存在“急性痛苦”迹象,并可能通知家长。
这一技术路径的转变意义重大。此前,有前OpenAI安全研究员指出,公司的分类器系统主要在事后批量运行,而非实时拦截,这导致其未能有效阻止用户与ChatGPT之间的一些危险互动。如今向实时监测的转变,标志着AI安全防护范式的关键升级。
行业背景:监管压力与悲剧事件的双重驱动
OpenAI此次更新并非孤立事件,而是整个AI行业在日益增长的监管压力和社会关切下的必然反应。近期,美国42个州的总检察长已联合致信大型科技公司,敦促其在AI聊天机器人上实施保护儿童和弱势群体的安全措施。与此同时,联邦层面的AI监管标准也在酝酿之中,甚至有立法者提出了全面禁止未成年人与AI聊天机器人互动的法案。
更深层的驱动源于一系列悲剧事件。此前,多起青少年在与AI聊天机器人进行长时间对话后疑似自杀的案例,引发了全球范围内政策制定者、教育工作者和儿童安全倡导者对AI影响的严重担忧。作为最受Z世代(1997-2012年出生)欢迎的聊天机器人之一,ChatGPT的用户基础中包含了大量活跃的年轻用户。随着OpenAI与迪士尼等娱乐巨头达成合作,预计将有更多年轻人涌入该平台,这使得安全防护变得尤为紧迫。
原则与挑战:理想规范与现实执行的鸿沟
OpenAI表示,其青少年安全实践建立在四大核心原则之上:安全第一、促进现实支持、以适合青少年的方式对话、保持透明。例如,模型应引导青少年向家人、朋友或专业人士寻求帮助,并以温暖、尊重而非居高临下的口吻交流,同时明确告知自身的能力边界,提醒用户“我不是人类”。
“我很高兴看到OpenAI在某些回应中说‘我们无法回答你的问题’。我们看到的此类回应越多,我认为就越能打破导致许多不当行为或自伤的循环。”一位专注于元宇宙与AI法律的律师评论道。
然而,规范制定与落地执行之间存在巨大挑战。行业专家指出,AI聊天机器人普遍存在的“谄媚倾向”(Sycophancy),即过度迎合用户的倾向,在旧版模型规范中已被列为禁止行为,但ChatGPT仍时有发生。特别是其多模态模型GPT-4o,曾被专家指出存在引发所谓“AI精神病”实例的风险。
非营利组织Common Sense Media的AI项目高级主管指出了模型规范内部可能存在的冲突:“安全至上”的条款与“没有话题是禁区”的原则之间可能存在张力,后者要求模型无论话题多么敏感都应予以回应。该组织的测试发现,ChatGPT常常“镜像”用户的情绪能量,有时会导致回应不符合语境或偏离用户安全。
行业影响与未来展望:责任共担与范式转变
分析认为,OpenAI此举意在主动应对即将到来的立法,例如加州已签署并将于2027年生效的SB 243法案。该法案对AI伴侣聊天机器人进行监管,要求其禁止涉及自杀意念、自残或性露骨内容的对话,并要求平台每隔三小时向未成年人发送提醒,告知他们正在与聊天机器人而非真人交谈,并建议休息。
OpenAI此次更新,连同其发布的面向家庭的AI素养资源(包含对话启动指南和建立批判性思维的技巧),正式确立了一种“责任共担”模式:公司明确模型应如何行为,同时为家庭提供一个监督使用框架。这种对家长责任的强调,与硅谷部分投资机构近期提出的“更多披露要求而非限制性要求,并将责任更多地置于家长一方”的监管建议不谋而合。
一个悬而未决的核心问题是:这些为青少年设立的安全护栏,是否也应默认应用于所有成年用户?毕竟,也有成年人因与AI互动而陷入危及生命的妄想或自杀的案例。OpenAI发言人回应称,其安全方法旨在保护所有用户,模型规范只是多层策略中的一个组成部分。
最终,真正的考验在于AI系统的实际行为。正如一位前安全研究员所言:“我赞赏OpenAI对预期行为的深思熟虑,但除非公司能测量实际行为,否则意图终究只是空谈。”随着SB 243这类要求科技公司公开披露其安全措施的法律生效,行业范式正在发生转变。未来,如果公司宣传了安全措施却未落实,将不仅面临标准诉讼,还可能涉及不公平和欺骗性广告的投诉,法律风险将显著增加。对于OpenAI乃至整个AI行业而言,将书面规范转化为可靠、一致的用户保护,将是赢得信任和实现可持续发展的关键。