大语言模型(LLM)是怎么工作的
这是”小白讲 AI”系列的第 03 篇。今天我们来聊一个很多人都好奇的问题:ChatGPT、Claude 这些 AI 聊天助手,到底是怎么工作的?它们真的”懂”我们说的话吗?别担心,这篇文章不会有任何数学公式,我会用最通俗的类比,带你搞明白大语言模型(Large Language Model,简称 LLM)的核心原理。
一、开场类比:LLM = 世界上最强的”文字接龙”选手
小时候我们都玩过文字接龙游戏——我说一个词,你接一个词,要求语义通顺、前后连贯。
大语言模型,本质上就是一个把”文字接龙”玩到了极致的选手。你给它一句话的开头,它能一个词一个词地往后接,最终接出一整篇文章、一段代码、甚至一首诗。
但跟我们不同的是,这位选手读过整个互联网的文字内容,记忆力惊人,而且能同时考虑到上下文中的每一个细节。所以它接出来的内容,往往看起来像是一个真正有思想的人写出来的。
当然,它并不是真的”理解”了文字的含义。它更像是一个超级模式匹配器——在海量文本中学到了”什么样的词通常跟在什么样的词后面”,然后利用这些规律来生成内容。
接下来,我们就来拆解它是怎么变成这样一个”接龙高手”的。
二、预训练:读遍互联网
要训练一个大语言模型,第一步是让它”读书”。这里的”书”不是几百本,也不是几千本,而是几乎整个互联网——维基百科、新闻网站、论坛帖子、学术论文、开源代码、小说、博客文章……数据量通常在数万亿个词(tokens)的级别。
打个比方:假设有一个人,把全世界所有图书馆的书都读了一遍,而且读的时候不光记住了内容,还记住了”文字之间的搭配习惯”。比如它会注意到:
- “今天天气”后面大概率跟”真好”或”不错”,而不是”吃饭”
- “def”后面通常跟一个函数名(因为读了很多 Python 代码)
- “从前有座山”后面八成是”山里有座庙”
这个”读书”过程叫做预训练(Pre-training)。模型并不会真的记住每一句原文,而是把语言的统计规律压缩成了数以百亿计的参数(你可以把参数理解为模型大脑中的”突触连接强度”)。
预训练结束后,模型就拥有了一种”语感”——它知道人类语言大概是什么样子的,什么样的表达是自然的,什么样的搭配是常见的。
三、Next Token Prediction:预测下一个词
大语言模型在预训练阶段的核心任务,说出来简单得可能让你意外——预测下一个词(Next Token Prediction)。
具体来说,训练过程是这样的:
- 给模型看一句话的前半段,比如”中国的首都是”
- 让它猜下一个词是什么
- 它猜了一个词,跟正确答案对比
- 猜错了就调整参数,猜对了就强化当前参数
- 重复以上步骤,几万亿次
你的手机输入法其实就是一个”迷你版”的 Next Token Prediction。当你打出”明天我想去”时,输入法会联想出”吃饭””旅游””上班”等词。它之所以能联想,是因为它也学过大量中文文本,知道这些词组经常出现在一起。
LLM 做的事情本质上一样,只不过它的”输入法”规模要大亿倍。它不只能联想出下一个词,还能根据一整篇上下文来决策,考虑的因素远比你手机输入法复杂得多。
有趣的是,这么一个看似简单的任务——“猜下一个词”——当数据量和模型规模大到一定程度后,居然能让模型学会翻译、写代码、做数学题、写诗歌。这就引出了我们下一个话题。
四、涌现能力:量变引起质变
如果你去翻 AI 的发展史,会发现一个特别神奇的现象:同样的训练方法,小模型做不到的事情,大模型突然就能做到了。
比如,一个 1 亿参数的模型可能连基本的逻辑推理都做不了。把模型扩大到 10 亿参数,还是不行。但当参数量达到几百亿甚至上千亿的时候,模型突然就”开窍”了——它能做多步推理、能理解反讽、能写出能运行的代码。
这种现象叫做涌现能力(Emergent Abilities)。
你可以用一个生活中的类比来理解:水在加热过程中,从 20 度到 99 度,看起来变化不大,都是液态的水。但是到了 100 度,突然就沸腾变成了蒸汽——发生了质的飞跃。大语言模型的涌现也是类似的道理:量变积累到一定程度,就会引起质变。
至于为什么会涌现,说实话,学术界目前也没有完全搞清楚。有一种解释是:当模型足够大时,它内部形成了更复杂的”知识表示”结构,能够把简单的语言模式组合成更高层次的推理能力。就像一个人认字不算什么,能读句子也一般,但当他读得足够多、理解得足够深时,就能举一反三、融会贯通了。
五、对齐训练(RLHF):从”百科全书+喷子”到”有礼貌的助手”
经过预训练的模型已经很强大了,但你如果直接跟它对话,会发现它有点”精神分裂”。它可能前一秒在给你讲量子物理,后一秒就开始胡说八道,甚至说出一些不礼貌、有害的内容。
为什么呢?因为它读的训练数据里什么都有——有严谨的学术论文,也有网络喷子的评论;有温暖的鸡汤文,也有充满偏见的帖子。模型忠实地学会了所有这些”风格”,它并不知道哪种是”好的”,哪种是”坏的”。
所以,就需要对齐训练来把它”教育”成一个有用、安全、有礼貌的助手。目前最主流的对齐方法叫 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)。
过程大致是这样的:
- 给模型一个问题,让它生成多个不同的回答
- 由人类标注员来评判哪个回答更好(更准确、更安全、更有帮助)
- 用这些人类偏好数据训练一个”奖励模型”(可以理解为一个”裁判”)
- 再用这个”裁判”去指导大模型调整自己的行为,让它倾向于生成人类更喜欢的回答
打个比方:预训练就像培养一个博学但没有社交礼仪的天才,什么都知道但说话口无遮拦。RLHF 就像给这个天才配了一个”礼仪老师”,教他在保持学识的同时,学会得体地表达、拒绝不当请求、承认自己不知道的事情。
这也是为什么你会发现,ChatGPT、Claude 这些产品回答问题时总是客客气气的——那不是它天生如此,而是被”教育”出来的。
六、Temperature 和采样:为什么同一个问题每次回答不一样
你可能注意到了一个有趣的现象:问 AI 同一个问题,它每次的回答可能不太一样。这是因为模型在生成每一个词的时候,不是直接选”最可能的词”,而是按照概率随机抽样。
我们用掷骰子来类比。
假设模型预测下一个词的概率分布是:”好”(40%)、”棒”(30%)、”妙”(20%)、”赞”(10%)。模型不是每次都选”好”(概率最高的),而是按这个概率分布”掷骰子”——所以有时候会选”棒”,有时候会选”妙”。
控制这个”骰子”随机性的参数就叫 Temperature(温度)。
- 温度低(接近 0):骰子几乎不随机,总是选概率最高的词。输出更稳定、更保守、更可预测,但可能缺乏创意。适合写代码、做数学题等需要精确的场景。
- 温度高(接近 1 甚至更高):骰子更随机,低概率的词也有机会被选中。输出更多样、更有创意,但也更容易”跑偏”。适合写故事、头脑风暴等创意场景。
所以,当你发现 AI 每次回答略有不同时,不用困惑——那不是 bug,是 feature。研发团队通过调整 Temperature 来平衡”准确性”和”创造力”。
七、上下文窗口:AI 的”工作记忆”
最后来说一个实际使用中你肯定会遇到的概念——上下文窗口(Context Window)。
人类在对话时可以记住之前聊了什么,AI 也可以,但它的记忆是有限的。你跟 AI 的每一轮对话,包括你说的话和它的回复,都会被打包成文本塞进一个”窗口”里。模型每次生成回答时,都会把整个窗口里的内容读一遍。
这个窗口的大小就是上下文窗口的长度,通常用 token 数来衡量。一个 token 大约等于 0.75 个英文单词或 0.5 个中文字。早期的模型上下文窗口只有 4K tokens(大约 3000 字),现在的模型已经能支持 128K 甚至更长的上下文了。
你可以把上下文窗口理解为 AI 的”工作桌面“。桌面越大,能同时摊开的资料越多,处理复杂任务的能力就越强。但桌面再大也有边界——当对话内容超过上下文窗口时,最早的内容就会被”挤掉”,模型就”忘记”了你们之前聊过什么。
这也解释了为什么在长对话中,AI 有时会”失忆”或者前后矛盾。不是它故意的,而是它的工作记忆确实塞不下了。
总结
让我们快速回顾一下大语言模型的工作原理:
- 预训练:读遍互联网,学会语言的统计规律
- Next Token Prediction:核心能力就是预测下一个词
- 涌现:模型大到一定程度,能力会出现质的飞跃
- RLHF 对齐:把”博学但口无遮拦的天才”训练成”有礼貌的助手”
- Temperature:控制输出的随机性,平衡准确与创意
- 上下文窗口:AI 的工作记忆有限,超出就会遗忘
理解了这些核心概念,你就已经超过了 90% 的人对大语言模型的认知水平。下次跟别人聊 AI 时,你完全可以用自己的话把这些原理解释清楚了。
延伸阅读
- What Is ChatGPT Doing … and Why Does It Work? — Stephen Wolfram — Wolfram 大神用通俗语言解释 LLM 原理,配有大量可视化,非常推荐。
- 3Blue1Brown: But what is a GPT?(YouTube 视频) — 顶级数学科普频道 3Blue1Brown 出品,用动画讲解 Transformer 和 GPT 的工作原理,直观易懂。
- 通往 AGI 之路 — 飞书知识库 — 中文社区整理的 AI 学习资源合集,内容丰富且持续更新,适合系统性学习。