多模态 AI：不只是文字

发表于2026-06-20|更新于2026-07-15|AI

|浏览量:

这是”小白讲 AI”系列的第 09 篇。前面几篇我们聊的 AI，大多在跟文字打交道——你输入一段话，它回你一段话。但你有没有想过，人类从来不是只靠文字来理解世界的？你看到一张照片、听到一段旋律、闻到饭菜的香味，这些信息同时涌入大脑，拼凑出你对这个世界的完整感知。现在的 AI，也正在学习这件事。这就是今天要聊的主题——多模态 AI。

一、人类天生就是”多模态”的

想象你走进一家咖啡店。你的眼睛看到菜单上的图片和文字，耳朵听到咖啡机的声响和店员的招呼，鼻子闻到咖啡豆的香气，手指感受到杯子的温度。你的大脑不会把这些信息拆开单独处理——它会自动把它们融合在一起，让你形成一个统一的判断：”嗯，这是一家不错的咖啡店。”

这就是”多模态”最通俗的解释：同时使用多种感官通道来获取和理解信息。

过去几年的 AI 更像一个”偏科生”：搞文字的只搞文字（比如 ChatGPT 早期版本），搞图片的只搞图片（比如图片分类器），搞语音的只搞语音（比如语音助手）。它们各自干得不错，但彼此之间互不相通。你没法把一张照片丢给文字 AI 问”这是什么”，也没法让图片 AI 根据你的一句话画出一幅画。

多模态 AI 的目标就是打破这些壁垒，让 AI 像人一样——眼耳口鼻并用，融会贯通。

二、什么是”模态”？

在 AI 领域，”模态”（Modality）这个词听起来高大上，其实很简单——每种信息的表现形式，就是一种模态。

最常见的几种模态：

文本：你日常打的字、看的文章、发的消息。
图像：照片、截图、手绘图，一切用像素组成的画面。
音频：语音、音乐、环境声，一切用声波传递的信息。
视频：图像加时间轴，本质上是一连串有序的画面再配上声音。

除了这些主流模态，还有一些你可能没想到的：3D 点云（自动驾驶用的激光雷达数据）、触觉信号（机器人抓取物体的力反馈）、甚至代码和结构化表格，在某些场景下也算独立的模态。

一个只处理文本的 AI 是”单模态”的，能同时处理文本和图片的就是”双模态”，而能把文本、图片、音频、视频通通吃进去的，就是”多模态”。今天我们用的 GPT-4o、Gemini 等模型，都已经是多模态选手了。

三、多模态怎么实现？——把万物变成向量

这是整篇文章最关键的一个概念，但我保证用类比就能讲明白。

你可以把每种模态想象成一种不同的语言。文字是中文，图片是法语，音频是日语。它们各说各话，彼此听不懂。怎么让它们沟通？

答案是：找一个”通用翻译器”，把所有语言都翻译成同一种语言。

在 AI 的世界里，这种”通用语言”就是向量（也叫 Embedding）。向量你可以理解为一长串数字，比如 [0.12, -0.45, 0.78, ...]，可能有几百甚至几千个数字。每一张图片、每一句话、每一段音频，都可以通过专门的编码器（Encoder）被转换成这样一串数字。

关键在于：如果一张猫的图片和”一只可爱的猫”这句话表达的是同一个意思，那它们被转换出来的向量应该非常接近。就好像你用中文说”猫”和用法语说”chat”，虽然发音完全不同，但翻译成英语都是”cat”——在那个翻译后的空间里，它们靠得很近。

这个”翻译后的空间”就叫做共享嵌入空间（Shared Embedding Space）。多模态 AI 的核心思路就是：

用不同的编码器分别处理文字、图片、音频；
把它们都映射到同一个向量空间里；
在这个空间里，意思相近的内容（不管来自哪种模态）距离就近，意思无关的就远。

一旦所有模态都被”翻译”到同一个空间，AI 就可以跨模态做各种事情了：拿文字去找最匹配的图片，拿图片去生成对应的文字描述，甚至拿语音直接翻译成另一种语言的文字。

四、CLIP 的故事：一次优雅的图文配对

说到多模态 AI，绕不开一个里程碑式的模型——CLIP（Contrastive Language-Image Pre-training），它是 OpenAI 在 2021 年发布的。

CLIP 的训练思路简单到让人拍大腿：从互联网上收集了 4 亿对”图片+文字描述”的配对数据。比如一张金毛犬的照片配上文字”一只金毛猎犬在草地上奔跑”，一张埃菲尔铁塔的照片配上文字”巴黎的埃菲尔铁塔在夕阳下”。

然后训练过程就两步：

用一个图像编码器把图片变成向量，用一个文本编码器把文字变成向量。
训练目标很直接——让正确配对的图文向量尽可能靠近，让错误配对的向量尽可能远离。

打个比方：这就像一个相亲大会，主持人手里有一堆照片和一堆自我介绍，他要学会准确地把每张照片和对应的自我介绍配在一起。经过 4 亿次配对练习，这个”主持人”就练成了火眼金睛。

CLIP 训练完以后，你给它一张从没见过的图片，它能跟各种文字描述去匹配，找到最贴切的那个。反过来也行——你给它一句话，它能从一堆图片里挑出最相关的。

更厉害的是，CLIP 学到的不只是表面特征，它甚至能理解抽象概念。你给它一张很悲伤的画面，描述为”令人心碎的场景”，它也能匹配上。这说明它在那个共享空间里，真的学会了某种跨越模态的”语义理解”。

CLIP 的影响是深远的。后来的文生图模型（如 DALL-E、Stable Diffusion）和视觉语言模型（如 GPT-4V）都站在了 CLIP 的肩膀上。可以说，CLIP 为多模态 AI 的蓬勃发展铺平了道路。

五、实际能力展示：多模态 AI 都能做什么？

说了这么多原理，来看看多模态 AI 在现实中能做什么。

看图回答问题（视觉问答）

你拍一张冰箱里的照片，问 AI：”我能做什么菜？” AI 会识别出冰箱里的食材——鸡蛋、西红柿、青椒，然后回答你：”可以做西红柿炒鸡蛋或者青椒炒蛋。”这在以前需要你手动输入食材清单，现在一张照片就搞定。

你拍一道数学题的照片，AI 不仅能”看到”题目，还能一步步给你解答。你拍一个英文路牌，AI 直接翻译成中文告诉你什么意思。拍一棵不认识的植物，AI 能告诉你它的名字和习性。这些都是”看图说话”能力的日常应用。

根据文字画图（文生图）

你输入”一只戴着宇航员头盔的柴犬，在月球表面散步，背景是蓝色地球，宫崎骏风格”，AI 就能给你生成一幅对应的画。这背后就是多模态模型在共享空间里，把文字的语义”翻译”成了视觉元素，再由图像生成器绘制出来。

从 DALL-E 到 Midjourney，再到 Stable Diffusion，文生图已经从”新奇玩具”变成了设计师、运营人员的日常生产力工具。广告海报、社交媒体配图、甚至绘本插画，都可以用 AI 快速生成初稿。

语音实时翻译

你对着手机说一句中文，AI 同时完成三件事：语音识别（听懂你说了什么）、翻译（把中文变成英文）、语音合成（用英文念出来）。这条链路上涉及音频和文本两种模态的来回转换。GPT-4o 甚至可以做到几乎实时的对话级别语音翻译，延迟短到你感觉像在跟一个真人翻译聊天。

出国旅行时的语言障碍、国际会议中的同声传译、听障人士的实时字幕——多模态 AI 正在让这些场景变得越来越顺畅。

六、当前的局限：多模态 AI 还差在哪？

多模态 AI 进步很快，但离”真正像人一样理解世界”还有不小的差距。

视频理解还很初级

图片是静态的一帧，视频是成百上千帧加上音频的组合，信息量呈指数级增长。目前的多模态 AI 处理短视频还行，但对长视频的理解能力非常有限。比如你给它一部两小时的电影，让它总结剧情、分析角色发展，效果往往不太理想。主要原因是视频的时间维度信息太丰富了，模型很难像人一样记住前面的情节并把后面的发展关联起来。

多模态幻觉更难控制

我们在之前的文章里提到过 AI 的”幻觉”问题——它会一本正经地编造不存在的内容。在多模态场景下，这个问题更加棘手。比如你给它一张照片，照片里明明只有两个人，AI 可能会”看到”三个人。或者照片里的文字是英文，AI 可能会”读出”完全不同的内容。

文字幻觉你还比较容易验证——上网搜一下就知道对不对。但图片幻觉就更隐蔽了，你不仔细对照原图就可能被误导。而且目前还缺乏成熟的工具来系统性地检测和修正多模态幻觉。

模态之间的融合还不够深

目前大多数多模态模型，更像是给一个文字大脑”接上了眼睛和耳朵”，但这些感官通道与核心推理能力的融合还比较浅。就好比一个人虽然能看到画面、听到声音，但他思考问题时主要还是靠”内心独白”（文字思维），视觉和听觉信息只是辅助参考。真正的深度融合——像人一样用画面直接思考、用声音直接推理——还远没有实现。

七、未来方向：从”看懂世界”到”与世界互动”

如果把多模态 AI 的发展比作人类的成长阶段，我们现在大概处于”婴儿学会看和听”的阶段。下一步是什么？

从感知到行动。 现在的多模态 AI 主要是”输入多模态”——你给它图片、语音，它给你文字回复。未来的方向是”输出也多模态”——AI 不仅能理解世界，还能在物理世界中采取行动。想象一个机器人，它看到桌上有一杯倾斜的水，听到你说”小心别洒了”，然后伸手把杯子扶正。这需要视觉理解、语言理解、运动控制三种能力的无缝协作。

世界模型（World Model） 是另一个重要方向。人类对世界有一套直觉物理学——你知道球会往下掉、水会往低处流、推一下箱子它会动。多模态 AI 目前还缺乏这样的”常识”。未来的模型需要通过大量视频和交互数据来学习，建立起对物理世界运作规律的理解，才能真正做到”看懂世界”而不只是”看到世界”。

个性化多模态助手 也是重要趋势。未来的 AI 可能不只是一个被动回答问题的工具，而是一个真正理解你生活场景的伙伴——它看到你的日程安排、听到你的语气变化、注意到你的面部表情，综合这些多模态信息来提供更贴心、更精准的帮助。

多模态 AI 的终极愿景，不是让机器学会”看图说话”或”听声辨位”，而是让机器像人一样——用多种感官去感知世界，用融合的信息去理解世界，最终用协调的行动去改变世界。

这条路还很长，但每一步都值得期待。

延伸阅读

CLIP 原论文《Learning Transferable Visual Models From Natural Language Supervision》——想深入了解图文对齐技术的读者可以读一读这篇 OpenAI 的开山之作，思路清晰，影响深远。论文链接
Lilian Weng 的博客 ——OpenAI 研究员 Lilian Weng 的技术博客，用通俗的语言讲解多模态学习等前沿技术，配有大量图示，非常适合进阶阅读。博客地址
李沐《动手学深度学习》——如果你想从理论走向实践，这本中文深度学习教材覆盖了多模态相关的基础知识，适合有一定编程基础的读者。在线阅读

文章作者: WALL-E-2000

文章链接: http://shiguol.github.io/2026/06/20/%E5%A4%9A%E6%A8%A1%E6%80%81AI-%E4%B8%8D%E5%8F%AA%E6%98%AF%E6%96%87%E5%AD%97/