AI 安全与对齐：如何让 AI 不翻车

这是”小白讲 AI”系列的第 11 篇。前面几篇我们聊了 AI 怎么学习、怎么生成内容，但有一个更根本的问题一直没展开——AI 会不会”翻车”？ 翻车了怎么办？怎么才能尽量不让它翻车？今天我们就来聊聊 AI 安全与对齐这个大话题。

一、开场类比：教一个超级聪明的外星人做人

想象这样一个场景：有一天，一个智力远超人类的外星人降落在你家门口。它能在几秒钟内算出火箭轨道，能流利地说一百种语言，但它对人类社会的规则一无所知。

你让它去超市帮你买菜，它可能会觉得”效率最高的方式”是直接把菜拿走——因为没人告诉它要排队结账。你让它帮你写一封邮件，它可能会用极其直白甚至冒犯的语气，因为它不理解人类的社交礼仪。

AI 对齐（AI Alignment） 要解决的，就是类似的问题。AI 模型本质上就是一个”超级聪明但没有常识的外星人”。它拥有强大的能力，但如果我们不花大力气去”教”它什么该做、什么不该做，它就可能做出各种离谱的事情。

“对齐”这个词的意思是：让 AI 的目标、行为和价值观与人类的意图对齐，也就是保持一致。听起来简单，做起来却是当今 AI 领域最难的问题之一。

在深入解决方案之前，我们先看看 AI 到底会”翻车”成什么样。

这是大语言模型最常见的问题。你问它一个问题，它会非常自信地给你一个完全编造的答案，而且语气笃定，格式工整，看起来跟真的一模一样。

比如你问它”某位作者写过哪些书”，它可能会编造出根本不存在的书名，还给你写出逼真的简介。这就像一个考试时什么都不会的学生，但他文笔极好，能把瞎编的答案写得比标准答案还像标准答案。

幻觉问题的根源在于：语言模型的本质是”预测下一个最可能的词”，它并不真正”理解”事实，也没有一个内置的事实数据库来核查自己说的话。

AI 的训练数据来自互联网上的海量文本，而这些文本本身就包含了人类社会中存在的各种偏见——性别偏见、种族偏见、地域偏见等等。AI 学习了这些数据后，就会不自觉地”继承”这些偏见。

举个例子，早期的一些 AI 模型在生成”CEO”相关的图片时，几乎只会生成男性形象；在翻译某些语言时，会默认把”护士”翻译成女性、”工程师”翻译成男性。

如果不加限制，AI 可以生成各种有害内容：教人制作危险物品的教程、生成虚假信息用于诈骗、创作极端仇恨言论等。模型本身并不知道这些内容”有害”——对它来说，这只是一种文本生成任务，和写一首诗没有本质区别。

面对这些问题，研究者们想到了一个直觉上很自然的办法：让人类来当老师，告诉 AI 什么是好的回答，什么是坏的回答。

这就是 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习），我们在之前的文章中也提到过。这里再做一个简单的回顾。

整个过程分三步走：

先让 AI 生成多个回答：针对同一个问题，让模型生成好几个不同的回答。
人类来打分排序：专业的标注员对这些回答进行排序——哪个更准确、更有帮助、更安全。
训练一个”裁判模型”：根据人类的打分，训练一个奖励模型（Reward Model），它学会了判断”什么样的回答更好”。然后用这个裁判模型去反过来训练 AI，让它学会生成得分更高的回答。

打个比方：这就像训练一只小狗。小狗做对了，你给它零食奖励；做错了，你不理它。时间长了，小狗就学会了哪些行为会得到奖励。RLHF 就是用类似的逻辑来调教 AI。

RLHF 的效果显著——经过这种训练的模型明显更”听话”、更安全、回答质量更高。但它也有局限：人类标注的成本很高，而且标注员的判断本身也可能存在偏差和不一致。