这是「小白讲 AI」系列的第 02 篇。上一篇我们聊了 Transformer,但很多朋友反馈说:Transformer 我大概知道了,可”神经网络”到底是什么?它和 Transformer 又是什么关系?今天我们就从最基础的地方讲起,用生活中的例子,把神经网络这个听起来高大上的概念,变成你一看就懂的东西。

1. 开场类比:一个”猜数字”游戏

想象你和朋友玩一个游戏:朋友心里想了一个 1 到 100 之间的数字,你来猜。每次你猜完,朋友会告诉你”大了”或者”小了”。你根据这个反馈不断调整,最终猜中答案。

神经网络干的事情本质上就是这个——只不过它猜的不是一个数字,而是更复杂的东西:这张图片是猫还是狗?这封邮件是不是垃圾邮件?明天的气温大概是多少度?

它的工作流程可以概括为三步:

  1. 收到线索(输入数据)
  2. 做出猜测(输出预测)
  3. 根据对错调整策略(学习优化)

一开始,它的猜测可能离谱得像是闭着眼蒙的。但经过成千上万次的”猜测—反馈—调整”循环之后,它就能猜得越来越准。这就是机器”学习”的本质。

2. 从一个神经元说起

在讲整个网络之前,我们先看看网络中最小的零件——一个”神经元”。

你可以把一个神经元想象成一个投票表决器

假设你要决定今天中午吃什么。你会参考几个因素:天气热不热?钱包鼓不鼓?想不想走远路?每个因素对你的影响力是不同的——比如天气特别热的时候,你更倾向于点外卖,这个因素的”权重”就很高。

一个人工神经元做的事情也是一样的:

  • 输入:接收若干个信号(就像你考虑的各个因素)
  • 权重:每个输入信号都有一个对应的权重,表示这个信号有多重要
  • 偏置:一个额外的微调值,可以理解为你的”个人偏好”——比如你本来就很喜欢吃火锅,不管天气怎么样都有加分
  • 激活函数:所有投票汇总之后,需要一个”裁判”来做最终决定——这个裁判就是激活函数。它决定这个神经元是否要”兴奋”起来,把信号继续传递下去

用一句话概括:每个神经元就是收集各方意见,加权投票,最后由裁判拍板。

这听起来很简单对吧?单个神经元确实做不了什么复杂的事。但是,当成百上千个神经元组合在一起时,魔法就发生了。

3. 层层堆叠:流水线式的特征提取

神经网络不是把一堆神经元随便堆在一起的,而是把它们分层排列,就像工厂里的流水线。

一个典型的神经网络有三种层:

输入层:原材料入口

这是网络的起点,负责接收原始数据。如果你要识别一张图片,输入层接收的就是图片的每一个像素点。如果你要分析一段文字,输入层接收的就是每个字的数字编码。输入层本身不做任何计算,它只是一个”搬运工”。

隐藏层:加工车间

这是神经网络真正干活的地方。隐藏层可以有一层,也可以有很多层。每一层都在提取不同层次的特征——就像流水线上的不同工位。

以识别人脸为例:

  • 第一层隐藏层可能学会识别”边缘”和”线条”
  • 第二层可能把边缘和线条组合成”眼睛””鼻子””嘴巴”这样的局部特征
  • 第三层可能把这些局部特征组合成”这是一张人脸”
  • 更深的层可能学会判断”这是谁的脸”

每深入一层,网络理解的东西就更抽象、更高级。这就像你看一幅画:先看到颜色和线条,再看到形状,然后才理解画的是什么内容。

输出层:成品出口

这是网络给出最终答案的地方。如果是分类任务(比如判断猫还是狗),输出层会给出每个类别的概率,比如”猫 90%,狗 10%”。如果是预测数值(比如预测房价),输出层会直接给出一个数字。

4. 它怎么”学习”:考试改错的智慧

现在到了最关键的问题:神经网络怎么从”瞎猜”变成”精准预测”的?

答案是反向传播,这是神经网络学习的核心机制。我们用一个你一定经历过的场景来类比——考试改错

想象你是一个学生,刚考完一场数学考试。老师把试卷发下来,你发现最后的应用题做错了。你会怎么改错?

  1. 先看最终答案错在哪:你发现最后一步计算写错了
  2. 往前追溯:咦,最后一步错是因为中间某个公式用错了
  3. 继续往前查:那个公式用错是因为你对某个概念理解有偏差
  4. 从根源修正:你回去重新学习那个概念,确保下次不再犯同样的错误

反向传播做的事情一模一样:

  • 网络给出一个预测(交卷)
  • 拿预测和正确答案做对比,发现误差(老师批改)
  • 从输出层开始,一层一层往回查,找出每一层、每个神经元对这个误差”贡献”了多少(追溯错因)
  • 按照每个神经元的”错误贡献”大小,调整它的权重(纠正错误)

这个过程重复千万次之后,网络中每个神经元的权重都被调整到了比较理想的状态,整个网络就”学会”了如何完成任务。

5. 损失函数:AI 的评分标准

在上面的”考试改错”过程中,有一个前提问题:怎么衡量网络猜得准不准?

这就要靠损失函数了。你可以把它理解为 AI 的”评分标准”。

想象你在射箭:

  • 如果你的箭正中靶心,损失就是 0(完美!)
  • 如果偏了一点,损失就小一点
  • 如果偏了很多,损失就大
  • 如果完全射飞了,损失就非常大

损失函数衡量的就是”预测值”和”真实值”之间的差距。网络的目标就是让这个损失越来越小——就像射箭选手不断练习,让自己越来越接近靶心。

不同的任务会用不同的损失函数,就像不同的考试有不同的评分标准。但核心思想是一样的:给网络的表现打一个分,分数越低(损失越小),说明网络学得越好。

训练神经网络的过程,本质上就是不断调整权重,试图让损失函数的值降到最低。这就像在一片起伏的山地上寻找最低的山谷——你沿着”下坡”的方向一步步走,最终就能走到谷底。这个”沿着下坡走”的过程,在 AI 领域有个专业名词叫”梯度下降”,但你只需要记住:它就是在寻找那个让预测最准的参数组合。

6. 为什么”深度”很重要

你可能听过”深度学习”这个词。这里的”深度”指的就是神经网络有很多层隐藏层。

那为什么层数多就厉害呢?我们用画画来类比。

浅层网络(只有 1—2 层隐藏层) 就像一个只会画简笔画的人——他能画出基本的形状,比如圆形、方形、三角形。对于简单任务(比如区分圆和方),这就够了。

深度网络(有很多层隐藏层) 就像一个技艺精湛的画家——他不仅会画基本形状,还能画出光影、纹理、透视、细节。他能画出几乎以假乱真的写实作品。

层数多带来的核心优势是更强的表达能力

  • 浅层网络只能学习简单的、线性的规律。比如”温度越高,冰激凌卖得越多”这种直来直去的关系。
  • 深度网络能学习极其复杂的、非线性的规律。比如”这张图片里有一只正在草地上奔跑的金毛犬”——这需要网络同时理解颜色、形状、纹理、运动姿态等大量特征的复杂组合。

当然,”深度”也不是越深越好。层数太多会带来训练困难——想象流水线太长,从终点传回起点的反馈信息已经变得模糊不清了,前面的工人根本不知道该怎么改进。这个问题叫”梯度消失”。另外,网络太深也容易出现”过拟合”——相当于学生把所有题目的答案都背下来了,但换一道新题就完全不会做。

好在现代 AI 研究者们发明了很多技巧来解决这些问题,比如残差连接(ResNet 的核心思想)、Dropout(随机”关掉”一些神经元来防止过拟合)等等,让深度网络既深又好训练。这也是为什么近年来深度学习能在图像识别、语音识别、自然语言处理等领域取得突破性进展。

7. 与 Transformer 的衔接

如果你读过本系列第 01 篇《通俗理解 Transformer》,你可能会问:神经网络和 Transformer 到底是什么关系?

一句话总结:神经网络是骨架,Transformer 是在这个骨架上安装了”注意力”超能力的进化版本。

我们可以用交通工具来类比:

  • 基础神经网络就像一辆普通自行车——结构简单,能从 A 骑到 B,但速度和效率有限。
  • **卷积神经网络(CNN)**就像给自行车装上了变速器——特别擅长处理图片,能自动识别图像中的局部特征。
  • **循环神经网络(RNN)**就像装了后视镜的自行车——能”记住”前面看过的内容,适合处理有先后顺序的数据(比如文字、语音)。
  • Transformer则像是直接升级成了一辆智能汽车——它有一个叫”注意力机制”的核心技术,让网络能够同时关注输入数据的所有部分,并自动判断哪些部分最重要。

传统的循环神经网络处理一段文字时,就像你一个字一个字地读一本书,读到后面可能已经忘了前面写的什么。而 Transformer 就像把整本书摊开在桌面上,一眼就能看到所有内容,并且自动在关键段落上做高亮标记。

正因为 Transformer 有这种”一览全局”的能力,它才成为了 ChatGPT、Claude 等大语言模型的核心架构。但请记住,无论 Transformer 多么强大,它的底层依然是我们今天讲的神经网络——那些由神经元、权重、偏置、激活函数组成的基本单元,通过层层堆叠和反向传播来学习,最终完成各种不可思议的任务。

理解了神经网络这个”地基”,你就能更好地理解后续出现的各种 AI 架构和技术。下一篇,我们继续聊。


延伸阅读

如果你想更深入地了解神经网络,推荐以下资源:

  1. 3Blue1Brown《神经网络》系列视频:YouTube 上最好的神经网络可视化教程之一,用精美的动画把抽象的概念变得直观可见。B 站上有搬运和中文字幕版,搜索”3Blue1Brown 神经网络”即可找到。
  2. Google 的 TensorFlow Playgroundplayground.tensorflow.org):一个可以在浏览器中直接操作的神经网络模拟器,你可以亲手调整层数、神经元数量,实时观察网络的学习过程,非常适合建立直觉。
  3. 李宏毅老师的《机器学习》课程:台湾大学李宏毅教授的公开课,讲解生动幽默,中文授课,对初学者非常友好。B 站搜索”李宏毅 机器学习”可以找到完整课程视频。