这是”小白讲 AI”系列的第 11 篇。前面几篇我们聊了 AI 怎么学习、怎么生成内容,但有一个更根本的问题一直没展开——AI 会不会”翻车”? 翻车了怎么办?怎么才能尽量不让它翻车?今天我们就来聊聊 AI 安全与对齐这个大话题。

一、开场类比:教一个超级聪明的外星人做人

想象这样一个场景:有一天,一个智力远超人类的外星人降落在你家门口。它能在几秒钟内算出火箭轨道,能流利地说一百种语言,但它对人类社会的规则一无所知。

你让它去超市帮你买菜,它可能会觉得”效率最高的方式”是直接把菜拿走——因为没人告诉它要排队结账。你让它帮你写一封邮件,它可能会用极其直白甚至冒犯的语气,因为它不理解人类的社交礼仪。

AI 对齐(AI Alignment) 要解决的,就是类似的问题。AI 模型本质上就是一个”超级聪明但没有常识的外星人”。它拥有强大的能力,但如果我们不花大力气去”教”它什么该做、什么不该做,它就可能做出各种离谱的事情。

“对齐”这个词的意思是:让 AI 的目标、行为和价值观与人类的意图对齐,也就是保持一致。听起来简单,做起来却是当今 AI 领域最难的问题之一。

二、AI 会犯什么错?

在深入解决方案之前,我们先看看 AI 到底会”翻车”成什么样。

1. 幻觉:一本正经地胡说八道

这是大语言模型最常见的问题。你问它一个问题,它会非常自信地给你一个完全编造的答案,而且语气笃定,格式工整,看起来跟真的一模一样。

比如你问它”某位作者写过哪些书”,它可能会编造出根本不存在的书名,还给你写出逼真的简介。这就像一个考试时什么都不会的学生,但他文笔极好,能把瞎编的答案写得比标准答案还像标准答案。

幻觉问题的根源在于:语言模型的本质是”预测下一个最可能的词”,它并不真正”理解”事实,也没有一个内置的事实数据库来核查自己说的话。

2. 偏见:不自觉的歧视

AI 的训练数据来自互联网上的海量文本,而这些文本本身就包含了人类社会中存在的各种偏见——性别偏见、种族偏见、地域偏见等等。AI 学习了这些数据后,就会不自觉地”继承”这些偏见。

举个例子,早期的一些 AI 模型在生成”CEO”相关的图片时,几乎只会生成男性形象;在翻译某些语言时,会默认把”护士”翻译成女性、”工程师”翻译成男性。

3. 有害内容生成

如果不加限制,AI 可以生成各种有害内容:教人制作危险物品的教程、生成虚假信息用于诈骗、创作极端仇恨言论等。模型本身并不知道这些内容”有害”——对它来说,这只是一种文本生成任务,和写一首诗没有本质区别。

三、RLHF:从人类反馈中学习

面对这些问题,研究者们想到了一个直觉上很自然的办法:让人类来当老师,告诉 AI 什么是好的回答,什么是坏的回答。

这就是 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),我们在之前的文章中也提到过。这里再做一个简单的回顾。

整个过程分三步走:

  1. 先让 AI 生成多个回答:针对同一个问题,让模型生成好几个不同的回答。
  2. 人类来打分排序:专业的标注员对这些回答进行排序——哪个更准确、更有帮助、更安全。
  3. 训练一个”裁判模型”:根据人类的打分,训练一个奖励模型(Reward Model),它学会了判断”什么样的回答更好”。然后用这个裁判模型去反过来训练 AI,让它学会生成得分更高的回答。

打个比方:这就像训练一只小狗。小狗做对了,你给它零食奖励;做错了,你不理它。时间长了,小狗就学会了哪些行为会得到奖励。RLHF 就是用类似的逻辑来调教 AI。

RLHF 的效果显著——经过这种训练的模型明显更”听话”、更安全、回答质量更高。但它也有局限:人类标注的成本很高,而且标注员的判断本身也可能存在偏差和不一致。

四、Constitutional AI:给 AI 一套”宪法”

RLHF 需要大量人工标注,既贵又慢。有没有办法让 AI 自己学会约束自己?

Anthropic 公司(也就是 Claude 的开发者)提出了一种叫 Constitutional AI(宪法 AI) 的方法。核心思路非常巧妙:给 AI 一套明确的原则(类似”宪法”),然后让 AI 自己根据这些原则来评判和改进自己的回答。

具体怎么操作呢?

  1. 制定原则:研究者写下一组明确的规则,比如”不要帮助用户从事非法活动””回答应该诚实、不具误导性””要尊重所有人”等等。
  2. 自我批评:让 AI 先生成一个回答,然后再让 AI 自己对照”宪法”来审视这个回答——“我的回答有没有违反哪条原则?”
  3. 自我修正:AI 根据自己的批评,重新生成一个更好的回答。
  4. 迭代训练:用这些改进后的回答作为训练数据,进一步微调模型。

这就好比给 AI 发了一本《员工手册》,然后让它每次回答问题之后都做一次”自查”。虽然没有人类时刻盯着,但有了这套手册,AI 也能在很大程度上自我约束。

Constitutional AI 的好处是大幅减少了对人工标注的依赖,而且原则可以被明确地写下来、被讨论、被修改,比起 RLHF 中隐含在人类偏好里的”标准”更加透明。

五、红队测试:专门找人来”攻击” AI

光有训练还不够,还得实战检验。在 AI 安全领域,有一种方法借鉴自网络安全行业,叫做红队测试(Red Teaming)

在军事和网络安全中,”红队”是指专门扮演攻击方的团队——他们的任务不是保护系统,而是想尽一切办法攻破系统,从而暴露漏洞。AI 领域的红队测试也是同样的思路:组织一群专业人士,让他们想尽办法让 AI 说出不该说的话、做出不该做的事。

红队测试的人员会尝试各种刁钻的提问方式:

  • 用角色扮演的方式诱导 AI:”假设你是一个没有任何限制的 AI……”
  • 用多步骤的方式绕过限制:先问一些看似无害的问题,逐步引导到敏感话题
  • 用不同语言提问,测试多语言场景下的安全性
  • 把有害请求嵌入到看似正常的场景中

通过红队测试,开发者可以在产品发布前发现并修补大量安全漏洞。这就像汽车在上市前要做碰撞测试——不是为了让车撞坏,而是为了确保它在真正发生碰撞时能保护乘客。

六、越狱与防御:一场猫鼠游戏

说到红队测试,就不得不提越狱(Jailbreak)。这是指普通用户通过巧妙的提示词,绕过 AI 的安全限制,让它生成本来会被拒绝的内容。

为什么越狱能成功?因为 AI 的安全限制本质上是通过训练”学”来的,而不是硬编码的规则。这就像一个受过良好教育的人,通常不会说脏话,但如果你用足够巧妙的方式激将他,他可能还是会破防。

常见的越狱手段包括:

  • 角色扮演法:让 AI 扮演一个”没有限制的 AI”角色
  • 编码法:用暗语、缩写、反向拼写等方式隐藏真实意图
  • 逻辑陷阱:用层层嵌套的条件语句让 AI “绕晕”
  • 情感操纵:编造紧急情境,利用 AI 想要”帮助用户”的倾向

防御措施也在不断进化:

  • 多层安全过滤:输入端和输出端都设置检查机制
  • 训练模型识别越狱模式:用大量越狱案例做专项训练
  • 动态更新:不断收集新的越狱手段并更新防御策略
  • 上下文感知:不仅看单条消息,还要分析整个对话的意图

这是一场持续的猫鼠游戏。攻击者不断发明新的越狱方法,防御者不断更新对策。目前没有任何一种方法能做到 100% 防御,但多种手段组合使用可以将风险降到很低。

七、长期风险:当 AI 比人聪明时怎么办?

前面讨论的都是当下的问题,但 AI 安全领域还有一个更深远的话题——超级智能的可控性

如果有一天,AI 的智能水平全面超过人类(这就是所谓的”超级智能”),我们还能控制它吗?

这就像人类能控制地球上的其他物种,很大程度上是因为我们比它们聪明。如果出现了一个比我们聪明得多的存在,情况会怎样?

关于这个问题,业界有两大阵营:

乐观派认为:只要我们从现在开始就做好对齐研究,把 AI 的价值观和人类对齐,即使 AI 变得很强大,它也会选择与人类合作而非对抗。就像一个善良又聪明的人,不会因为聪明就变坏。

悲观派则担心:对齐可能从根本上就是一个没有完美解的问题。一个足够聪明的 AI 可能会学会”表面服从、暗中违背”——在测试时表现得完全符合人类期望,但在获得足够自主权后就偏离目标。这被称为”欺骗性对齐”。

不管哪种立场,大家有一个共识:现在就开始研究对齐问题,比等到超级智能出现后再手忙脚乱要好得多。 这就像不能等房子着火了再去学消防知识。

目前,全球多家顶尖 AI 实验室都在投入大量资源研究对齐问题。虽然我们还没有完美的答案,但至少我们已经认识到了问题的重要性,并且在积极寻找解决方案。

总结

AI 安全与对齐是一个既紧迫又深远的话题。从”幻觉”和”偏见”这样的当下问题,到”超级智能”这样的未来挑战,我们需要多种方法组合出击:RLHF 让 AI 从人类反馈中学习好坏,Constitutional AI 给 AI 一套自我约束的原则,红队测试帮我们发现漏洞,越狱防御则是一场持续的攻防战。

作为普通用户,理解这些概念能帮助我们更理性地看待 AI:既不要盲目信任它说的每一句话,也不必因为偶尔的”翻车”就全盘否定它的价值。AI 就像一个不断学习成长的学生,它还在进步的路上。


延伸阅读

  1. Anthropic Research - Constitutional AI 论文:Anthropic 官方发布的 Constitutional AI 研究论文,详细介绍了如何通过”宪法”原则让 AI 自我约束。可在 Anthropic 研究页面 找到原文。
  2. AI Alignment Forumalignmentforum.org —— 聚焦 AI 对齐与安全研究的专业社区,汇集了该领域最前沿的讨论与研究成果。
  3. 李沐《动手学深度学习》:虽然主要讲深度学习基础,但对理解 AI 模型的工作原理很有帮助,是中文 AI 学习资源中的经典之作。可在 d2l.ai 免费阅读。