这是”小白讲 AI”系列的第 09 篇。前面几篇我们聊的 AI,大多在跟文字打交道——你输入一段话,它回你一段话。但你有没有想过,人类从来不是只靠文字来理解世界的?你看到一张照片、听到一段旋律、闻到饭菜的香味,这些信息同时涌入大脑,拼凑出你对这个世界的完整感知。现在的 AI,也正在学习这件事。这就是今天要聊的主题——多模态 AI

一、人类天生就是”多模态”的

想象你走进一家咖啡店。你的眼睛看到菜单上的图片和文字,耳朵听到咖啡机的声响和店员的招呼,鼻子闻到咖啡豆的香气,手指感受到杯子的温度。你的大脑不会把这些信息拆开单独处理——它会自动把它们融合在一起,让你形成一个统一的判断:”嗯,这是一家不错的咖啡店。”

这就是”多模态”最通俗的解释:同时使用多种感官通道来获取和理解信息

过去几年的 AI 更像一个”偏科生”:搞文字的只搞文字(比如 ChatGPT 早期版本),搞图片的只搞图片(比如图片分类器),搞语音的只搞语音(比如语音助手)。它们各自干得不错,但彼此之间互不相通。你没法把一张照片丢给文字 AI 问”这是什么”,也没法让图片 AI 根据你的一句话画出一幅画。

多模态 AI 的目标就是打破这些壁垒,让 AI 像人一样——眼耳口鼻并用,融会贯通

二、什么是”模态”?

在 AI 领域,”模态”(Modality)这个词听起来高大上,其实很简单——每种信息的表现形式,就是一种模态

最常见的几种模态:

  • 文本:你日常打的字、看的文章、发的消息。
  • 图像:照片、截图、手绘图,一切用像素组成的画面。
  • 音频:语音、音乐、环境声,一切用声波传递的信息。
  • 视频:图像加时间轴,本质上是一连串有序的画面再配上声音。

除了这些主流模态,还有一些你可能没想到的:3D 点云(自动驾驶用的激光雷达数据)、触觉信号(机器人抓取物体的力反馈)、甚至代码和结构化表格,在某些场景下也算独立的模态。

一个只处理文本的 AI 是”单模态”的,能同时处理文本和图片的就是”双模态”,而能把文本、图片、音频、视频通通吃进去的,就是”多模态”。今天我们用的 GPT-4o、Gemini 等模型,都已经是多模态选手了。

三、多模态怎么实现?——把万物变成向量

这是整篇文章最关键的一个概念,但我保证用类比就能讲明白。

你可以把每种模态想象成一种不同的语言。文字是中文,图片是法语,音频是日语。它们各说各话,彼此听不懂。怎么让它们沟通?

答案是:找一个”通用翻译器”,把所有语言都翻译成同一种语言

在 AI 的世界里,这种”通用语言”就是向量(也叫 Embedding)。向量你可以理解为一长串数字,比如 [0.12, -0.45, 0.78, ...],可能有几百甚至几千个数字。每一张图片、每一句话、每一段音频,都可以通过专门的编码器(Encoder)被转换成这样一串数字。

关键在于:如果一张猫的图片和”一只可爱的猫”这句话表达的是同一个意思,那它们被转换出来的向量应该非常接近。就好像你用中文说”猫”和用法语说”chat”,虽然发音完全不同,但翻译成英语都是”cat”——在那个翻译后的空间里,它们靠得很近。

这个”翻译后的空间”就叫做共享嵌入空间(Shared Embedding Space)。多模态 AI 的核心思路就是:

  1. 用不同的编码器分别处理文字、图片、音频;
  2. 把它们都映射到同一个向量空间里;
  3. 在这个空间里,意思相近的内容(不管来自哪种模态)距离就近,意思无关的就远。

一旦所有模态都被”翻译”到同一个空间,AI 就可以跨模态做各种事情了:拿文字去找最匹配的图片,拿图片去生成对应的文字描述,甚至拿语音直接翻译成另一种语言的文字。

四、CLIP 的故事:一次优雅的图文配对

说到多模态 AI,绕不开一个里程碑式的模型——CLIP(Contrastive Language-Image Pre-training),它是 OpenAI 在 2021 年发布的。

CLIP 的训练思路简单到让人拍大腿:从互联网上收集了 4 亿对”图片+文字描述”的配对数据。比如一张金毛犬的照片配上文字”一只金毛猎犬在草地上奔跑”,一张埃菲尔铁塔的照片配上文字”巴黎的埃菲尔铁塔在夕阳下”。

然后训练过程就两步:

  1. 用一个图像编码器把图片变成向量,用一个文本编码器把文字变成向量。
  2. 训练目标很直接——让正确配对的图文向量尽可能靠近,让错误配对的向量尽可能远离

打个比方:这就像一个相亲大会,主持人手里有一堆照片和一堆自我介绍,他要学会准确地把每张照片和对应的自我介绍配在一起。经过 4 亿次配对练习,这个”主持人”就练成了火眼金睛。

CLIP 训练完以后,你给它一张从没见过的图片,它能跟各种文字描述去匹配,找到最贴切的那个。反过来也行——你给它一句话,它能从一堆图片里挑出最相关的。

更厉害的是,CLIP 学到的不只是表面特征,它甚至能理解抽象概念。你给它一张很悲伤的画面,描述为”令人心碎的场景”,它也能匹配上。这说明它在那个共享空间里,真的学会了某种跨越模态的”语义理解”。

CLIP 的影响是深远的。后来的文生图模型(如 DALL-E、Stable Diffusion)和视觉语言模型(如 GPT-4V)都站在了 CLIP 的肩膀上。可以说,CLIP 为多模态 AI 的蓬勃发展铺平了道路。

五、实际能力展示:多模态 AI 都能做什么?

说了这么多原理,来看看多模态 AI 在现实中能做什么。

看图回答问题(视觉问答)

你拍一张冰箱里的照片,问 AI:”我能做什么菜?” AI 会识别出冰箱里的食材——鸡蛋、西红柿、青椒,然后回答你:”可以做西红柿炒鸡蛋或者青椒炒蛋。”这在以前需要你手动输入食材清单,现在一张照片就搞定。

你拍一道数学题的照片,AI 不仅能”看到”题目,还能一步步给你解答。你拍一个英文路牌,AI 直接翻译成中文告诉你什么意思。拍一棵不认识的植物,AI 能告诉你它的名字和习性。这些都是”看图说话”能力的日常应用。

根据文字画图(文生图)

你输入”一只戴着宇航员头盔的柴犬,在月球表面散步,背景是蓝色地球,宫崎骏风格”,AI 就能给你生成一幅对应的画。这背后就是多模态模型在共享空间里,把文字的语义”翻译”成了视觉元素,再由图像生成器绘制出来。

从 DALL-E 到 Midjourney,再到 Stable Diffusion,文生图已经从”新奇玩具”变成了设计师、运营人员的日常生产力工具。广告海报、社交媒体配图、甚至绘本插画,都可以用 AI 快速生成初稿。

语音实时翻译

你对着手机说一句中文,AI 同时完成三件事:语音识别(听懂你说了什么)、翻译(把中文变成英文)、语音合成(用英文念出来)。这条链路上涉及音频和文本两种模态的来回转换。GPT-4o 甚至可以做到几乎实时的对话级别语音翻译,延迟短到你感觉像在跟一个真人翻译聊天。

出国旅行时的语言障碍、国际会议中的同声传译、听障人士的实时字幕——多模态 AI 正在让这些场景变得越来越顺畅。

六、当前的局限:多模态 AI 还差在哪?

多模态 AI 进步很快,但离”真正像人一样理解世界”还有不小的差距。

视频理解还很初级

图片是静态的一帧,视频是成百上千帧加上音频的组合,信息量呈指数级增长。目前的多模态 AI 处理短视频还行,但对长视频的理解能力非常有限。比如你给它一部两小时的电影,让它总结剧情、分析角色发展,效果往往不太理想。主要原因是视频的时间维度信息太丰富了,模型很难像人一样记住前面的情节并把后面的发展关联起来。

多模态幻觉更难控制

我们在之前的文章里提到过 AI 的”幻觉”问题——它会一本正经地编造不存在的内容。在多模态场景下,这个问题更加棘手。比如你给它一张照片,照片里明明只有两个人,AI 可能会”看到”三个人。或者照片里的文字是英文,AI 可能会”读出”完全不同的内容。

文字幻觉你还比较容易验证——上网搜一下就知道对不对。但图片幻觉就更隐蔽了,你不仔细对照原图就可能被误导。而且目前还缺乏成熟的工具来系统性地检测和修正多模态幻觉。

模态之间的融合还不够深

目前大多数多模态模型,更像是给一个文字大脑”接上了眼睛和耳朵”,但这些感官通道与核心推理能力的融合还比较浅。就好比一个人虽然能看到画面、听到声音,但他思考问题时主要还是靠”内心独白”(文字思维),视觉和听觉信息只是辅助参考。真正的深度融合——像人一样用画面直接思考、用声音直接推理——还远没有实现。

七、未来方向:从”看懂世界”到”与世界互动”

如果把多模态 AI 的发展比作人类的成长阶段,我们现在大概处于”婴儿学会看和听”的阶段。下一步是什么?

从感知到行动。 现在的多模态 AI 主要是”输入多模态”——你给它图片、语音,它给你文字回复。未来的方向是”输出也多模态”——AI 不仅能理解世界,还能在物理世界中采取行动。想象一个机器人,它看到桌上有一杯倾斜的水,听到你说”小心别洒了”,然后伸手把杯子扶正。这需要视觉理解、语言理解、运动控制三种能力的无缝协作。

世界模型(World Model) 是另一个重要方向。人类对世界有一套直觉物理学——你知道球会往下掉、水会往低处流、推一下箱子它会动。多模态 AI 目前还缺乏这样的”常识”。未来的模型需要通过大量视频和交互数据来学习,建立起对物理世界运作规律的理解,才能真正做到”看懂世界”而不只是”看到世界”。

个性化多模态助手 也是重要趋势。未来的 AI 可能不只是一个被动回答问题的工具,而是一个真正理解你生活场景的伙伴——它看到你的日程安排、听到你的语气变化、注意到你的面部表情,综合这些多模态信息来提供更贴心、更精准的帮助。

多模态 AI 的终极愿景,不是让机器学会”看图说话”或”听声辨位”,而是让机器像人一样——用多种感官去感知世界,用融合的信息去理解世界,最终用协调的行动去改变世界

这条路还很长,但每一步都值得期待。


延伸阅读

  1. CLIP 原论文《Learning Transferable Visual Models From Natural Language Supervision》——想深入了解图文对齐技术的读者可以读一读这篇 OpenAI 的开山之作,思路清晰,影响深远。论文链接
  2. Lilian Weng 的博客 ——OpenAI 研究员 Lilian Weng 的技术博客,用通俗的语言讲解多模态学习等前沿技术,配有大量图示,非常适合进阶阅读。博客地址
  3. 李沐《动手学深度学习》——如果你想从理论走向实践,这本中文深度学习教材覆盖了多模态相关的基础知识,适合有一定编程基础的读者。在线阅读