大语言模型（LLM）是怎么工作的

这是”小白讲 AI”系列的第 03 篇。今天我们来聊一个很多人都好奇的问题：ChatGPT、Claude 这些 AI 聊天助手，到底是怎么工作的？它们真的”懂”我们说的话吗？别担心，这篇文章不会有任何数学公式，我会用最通俗的类比，带你搞明白大语言模型（Large Language Model，简称 LLM）的核心原理。

一、开场类比：LLM = 世界上最强的”文字接龙”选手

小时候我们都玩过文字接龙游戏——我说一个词，你接一个词，要求语义通顺、前后连贯。

大语言模型，本质上就是一个把”文字接龙”玩到了极致的选手。你给它一句话的开头，它能一个词一个词地往后接，最终接出一整篇文章、一段代码、甚至一首诗。

但跟我们不同的是，这位选手读过整个互联网的文字内容，记忆力惊人，而且能同时考虑到上下文中的每一个细节。所以它接出来的内容，往往看起来像是一个真正有思想的人写出来的。

当然，它并不是真的”理解”了文字的含义。它更像是一个超级模式匹配器——在海量文本中学到了”什么样的词通常跟在什么样的词后面”，然后利用这些规律来生成内容。

接下来，我们就来拆解它是怎么变成这样一个”接龙高手”的。

二、预训练：读遍互联网

要训练一个大语言模型，第一步是让它”读书”。这里的”书”不是几百本，也不是几千本，而是几乎整个互联网——维基百科、新闻网站、论坛帖子、学术论文、开源代码、小说、博客文章……数据量通常在数万亿个词（tokens）的级别。

打个比方：假设有一个人，把全世界所有图书馆的书都读了一遍，而且读的时候不光记住了内容，还记住了”文字之间的搭配习惯”。比如它会注意到：

“今天天气”后面大概率跟”真好”或”不错”，而不是”吃饭”
“def”后面通常跟一个函数名（因为读了很多 Python 代码）
“从前有座山”后面八成是”山里有座庙”

这个”读书”过程叫做预训练（Pre-training）。模型并不会真的记住每一句原文，而是把语言的统计规律压缩成了数以百亿计的参数（你可以把参数理解为模型大脑中的”突触连接强度”）。

预训练结束后，模型就拥有了一种”语感”——它知道人类语言大概是什么样子的，什么样的表达是自然的，什么样的搭配是常见的。

三、Next Token Prediction：预测下一个词

大语言模型在预训练阶段的核心任务，说出来简单得可能让你意外——预测下一个词（Next Token Prediction）。

具体来说，训练过程是这样的：

给模型看一句话的前半段，比如”中国的首都是”
让它猜下一个词是什么
它猜了一个词，跟正确答案对比
猜错了就调整参数，猜对了就强化当前参数
重复以上步骤，几万亿次

你的手机输入法其实就是一个”迷你版”的 Next Token Prediction。当你打出”明天我想去”时，输入法会联想出”吃饭””旅游””上班”等词。它之所以能联想，是因为它也学过大量中文文本，知道这些词组经常出现在一起。

LLM 做的事情本质上一样，只不过它的”输入法”规模要大亿倍。它不只能联想出下一个词，还能根据一整篇上下文来决策，考虑的因素远比你手机输入法复杂得多。

有趣的是，这么一个看似简单的任务——“猜下一个词”——当数据量和模型规模大到一定程度后，居然能让模型学会翻译、写代码、做数学题、写诗歌。这就引出了我们下一个话题。

四、涌现能力：量变引起质变

如果你去翻 AI 的发展史，会发现一个特别神奇的现象：同样的训练方法，小模型做不到的事情，大模型突然就能做到了。

比如，一个 1 亿参数的模型可能连基本的逻辑推理都做不了。把模型扩大到 10 亿参数，还是不行。但当参数量达到几百亿甚至上千亿的时候，模型突然就”开窍”了——它能做多步推理、能理解反讽、能写出能运行的代码。

这种现象叫做涌现能力（Emergent Abilities）。

你可以用一个生活中的类比来理解：水在加热过程中，从 20 度到 99 度，看起来变化不大，都是液态的水。但是到了 100 度，突然就沸腾变成了蒸汽——发生了质的飞跃。大语言模型的涌现也是类似的道理：量变积累到一定程度，就会引起质变。

至于为什么会涌现，说实话，学术界目前也没有完全搞清楚。有一种解释是：当模型足够大时，它内部形成了更复杂的”知识表示”结构，能够把简单的语言模式组合成更高层次的推理能力。就像一个人认字不算什么，能读句子也一般，但当他读得足够多、理解得足够深时，就能举一反三、融会贯通了。

五、对齐训练（RLHF）：从”百科全书+喷子”到”有礼貌的助手”

经过预训练的模型已经很强大了，但你如果直接跟它对话，会发现它有点”精神分裂”。它可能前一秒在给你讲量子物理，后一秒就开始胡说八道，甚至说出一些不礼貌、有害的内容。

为什么呢？因为它读的训练数据里什么都有——有严谨的学术论文，也有网络喷子的评论；有温暖的鸡汤文，也有充满偏见的帖子。模型忠实地学会了所有这些”风格”，它并不知道哪种是”好的”，哪种是”坏的”。

所以，就需要对齐训练来把它”教育”成一个有用、安全、有礼貌的助手。目前最主流的对齐方法叫 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）。

过程大致是这样的：

给模型一个问题，让它生成多个不同的回答
由人类标注员来评判哪个回答更好（更准确、更安全、更有帮助）
用这些人类偏好数据训练一个”奖励模型”（可以理解为一个”裁判”）
再用这个”裁判”去指导大模型调整自己的行为，让它倾向于生成人类更喜欢的回答

打个比方：预训练就像培养一个博学但没有社交礼仪的天才，什么都知道但说话口无遮拦。RLHF 就像给这个天才配了一个”礼仪老师”，教他在保持学识的同时，学会得体地表达、拒绝不当请求、承认自己不知道的事情。

这也是为什么你会发现，ChatGPT、Claude 这些产品回答问题时总是客客气气的——那不是它天生如此，而是被”教育”出来的。

六、Temperature 和采样：为什么同一个问题每次回答不一样

你可能注意到了一个有趣的现象：问 AI 同一个问题，它每次的回答可能不太一样。这是因为模型在生成每一个词的时候，不是直接选”最可能的词”，而是按照概率随机抽样。

我们用掷骰子来类比。

假设模型预测下一个词的概率分布是：”好”（40%）、”棒”（30%）、”妙”（20%）、”赞”（10%）。模型不是每次都选”好”（概率最高的），而是按这个概率分布”掷骰子”——所以有时候会选”棒”，有时候会选”妙”。

控制这个”骰子”随机性的参数就叫 Temperature（温度）。

温度低（接近 0）：骰子几乎不随机，总是选概率最高的词。输出更稳定、更保守、更可预测，但可能缺乏创意。适合写代码、做数学题等需要精确的场景。
温度高（接近 1 甚至更高）：骰子更随机，低概率的词也有机会被选中。输出更多样、更有创意，但也更容易”跑偏”。适合写故事、头脑风暴等创意场景。

所以，当你发现 AI 每次回答略有不同时，不用困惑——那不是 bug，是 feature。研发团队通过调整 Temperature 来平衡”准确性”和”创造力”。

七、上下文窗口：AI 的”工作记忆”

最后来说一个实际使用中你肯定会遇到的概念——上下文窗口（Context Window）。

人类在对话时可以记住之前聊了什么，AI 也可以，但它的记忆是有限的。你跟 AI 的每一轮对话，包括你说的话和它的回复，都会被打包成文本塞进一个”窗口”里。模型每次生成回答时，都会把整个窗口里的内容读一遍。

这个窗口的大小就是上下文窗口的长度，通常用 token 数来衡量。一个 token 大约等于 0.75 个英文单词或 0.5 个中文字。早期的模型上下文窗口只有 4K tokens（大约 3000 字），现在的模型已经能支持 128K 甚至更长的上下文了。

你可以把上下文窗口理解为 AI 的”工作桌面“。桌面越大，能同时摊开的资料越多，处理复杂任务的能力就越强。但桌面再大也有边界——当对话内容超过上下文窗口时，最早的内容就会被”挤掉”，模型就”忘记”了你们之前聊过什么。

这也解释了为什么在长对话中，AI 有时会”失忆”或者前后矛盾。不是它故意的，而是它的工作记忆确实塞不下了。

总结

让我们快速回顾一下大语言模型的工作原理：

预训练：读遍互联网，学会语言的统计规律
Next Token Prediction：核心能力就是预测下一个词
涌现：模型大到一定程度，能力会出现质的飞跃
RLHF 对齐：把”博学但口无遮拦的天才”训练成”有礼貌的助手”
Temperature：控制输出的随机性，平衡准确与创意
上下文窗口：AI 的工作记忆有限，超出就会遗忘

理解了这些核心概念，你就已经超过了 90% 的人对大语言模型的认知水平。下次跟别人聊 AI 时，你完全可以用自己的话把这些原理解释清楚了。