【Transformer 与注意力机制】46｜多模态融合：CLIP、Flamingo、LLaVA、SAM

45｜ViT 说明图像可以被切成 patch token。下一步自然是：图像 token 能不能和文本 token 放到同一个系统里？这就是多模态模型的核心问题。

多模态不是“把图片转成一句 caption 再问语言模型”这么简单。真正困难的是对齐：图像区域、文本短语、对象、关系、动作、mask、坐标和用户指令，如何进入同一个可计算空间，并在任务中稳定协作。

本篇能让你学会三件事：

CLIP 如何用对比学习对齐图像和文本；
Flamingo、LLaVA 如何把视觉 encoder 接到语言模型；
SAM 为什么代表另一种 promptable 视觉基础模型路线。

一、CLIP：图文对比学习

CLIP 的核心是用大量图像-文本对训练两个 encoder：一个图像 encoder，一个文本 encoder。训练目标不是生成 caption，而是让匹配的图文向量更近，不匹配的更远。

这种对比学习让模型获得共享语义空间。输入一张图片和一组文本标签，CLIP 可以比较图像向量和文本向量的相似度，从而做 zero-shot 分类。

CLIP 的重要性在于，它把视觉和语言通过语义对齐连接起来。图像不再只是像素分类问题，而能和自然语言描述直接比较。

二、视觉 encoder 加语言模型

后来的视觉语言模型常采用一个套路：用 ViT 或其他视觉 encoder 提取图像特征，再用一个 projector 把视觉特征映射到语言模型可接受的 embedding 空间。

为什么需要 projector？因为视觉 encoder 输出的向量分布和语言模型 token embedding 分布不一样。直接塞进去通常不稳。projector 像一个接口层，把“视觉 token”翻译成语言模型能处理的前缀或上下文。

这种设计保留了强语言模型的生成能力，同时让它获得视觉条件。它不是让语言模型从零学会看图，而是把视觉表示接入已有的语言生成系统。

三、Flamingo：跨模态注意力

Flamingo 的代表性在于，它把视觉信息通过 gated cross-attention 接入冻结或部分冻结的语言模型，让模型在少样本视觉语言任务上表现强。

它不是简单拼接所有 token，而是设计专门的跨模态交互模块。视觉 encoder 负责图像表示，语言模型保持生成能力，cross-attention 在两者之间建立联系。

这个思路说明，多模态融合有不同层次：可以在 embedding 层拼接，可以在 attention 层交互，也可以在输出层 late fusion。不同设计对应不同成本和能力。

四、LLaVA：视觉指令微调

LLaVA 的关键是把视觉输入接入大语言模型，并用视觉指令数据训练模型回答图像相关问题。它更接近今天用户熟悉的“看图聊天”体验：用户发一张图，再用自然语言提问，模型用自然语言回答。

这条路线强调 instruction tuning。只把图像特征接进语言模型还不够，模型还要学会在对话格式中使用视觉信息，遵循问题，避免只凭语言先验胡猜。

LLaVA 也暴露出多模态幻觉问题：模型可能看错图，或者没有充分利用图像就按常识回答。多模态对齐不是一次 projector 训练就结束的。

五、SAM：promptable segmentation

SAM 和图文聊天模型不同。它关注的是分割：给定点、框、mask 或文本提示，输出图像中的对象 mask。它代表视觉基础模型的另一条路线：不是生成自然语言，而是生成结构化视觉结果。

SAM 的 promptable 思想很重要。用户不必为每个类别训练专门分割模型，而是用提示指定要分割的对象。模型把视觉任务也变成一种可提示的交互。

这说明多模态不只有“图像问答”。检测、分割、定位、OCR、导航、机器人控制，都需要不同输出形式。自然语言是重要接口，但不是唯一接口。

六、多模态数据和评测陷阱

多模态模型高度依赖数据。图文对的 caption 往往只描述显著对象，忽略空间关系和细节；网页 alt text 可能噪声很大；视觉问答数据可能有语言偏差，模型不看图也能猜中一部分答案。

评测也容易误导。一个模型能回答“图里有几只猫”，不代表它理解复杂空间关系；能读简单文字，不代表 OCR 稳定；能描述图片，不代表不会幻觉。

所以多模态模型必须同时评估感知、定位、关系、文本读取、推理和拒答能力。

七、关键概念回顾

图文对比学习：让匹配图文向量接近，不匹配向量远离。
projector：把视觉特征映射到语言模型 embedding 空间的连接器。
cross-attention：让一种模态查询另一种模态的信息。
视觉指令微调：用图像和指令问答数据训练模型遵循视觉请求。
promptable segmentation：用提示指定要分割的对象或区域。

八、常见误解

8.1 “多模态就是先给图片写 caption”

caption 是一种方式，但多模态还包括定位、分割、OCR、视频理解、工具调用和结构化输出。

8.2 “图像接进 LLM 后就不会幻觉”

不会。模型仍可能忽略图像、过度依赖语言先验或生成不存在的细节。

8.3 “所有模态最终都会变成同一种 token”

统一 token 接口很有吸引力，但不同模态的结构、采样率和输出要求不同，不能简单抹平。

九、下一步

多模态让 Transformer 进入图文理解。下一篇看生成式视觉：扩散模型为什么开始使用 Transformer backbone，DiT 和视频生成如何把图像/视频表示成 token 序列。

十、参考文献

Radford, A. et al. “Learning Transferable Visual Models From Natural Language Supervision.” ICML 2021.
Alayrac, J.-B. et al. “Flamingo: a Visual Language Model for Few-Shot Learning.” NeurIPS 2022.
Liu, H. et al. “Visual Instruction Tuning.” NeurIPS 2023.
Kirillov, A. et al. “Segment Anything.” ICCV 2023.

← 上一篇：45｜ViT　|　下一篇：47｜Diffusion + Transformer →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】45｜ViT：图像怎么变成 token

ViT 的关键不是把每个像素当成 token，而是把图像切成 patch，再把每个 patch 映射成向量序列。本文解释 CNN 的归纳偏置是什么，ViT 如何用 patch embedding、位置编码和 CLS token 处理图像，为什么它一开始依赖大数据，以及 DeiT、Swin Transformer 如何补足数据效率和层级结构。

2026-04-15 · transformer

【Transformer 与注意力机制】58｜后 Transformer 时代：架构会消失还是会进化

后 Transformer 时代不太可能是某个新架构一夜之间消灭 Transformer，更可能是 attention、SSM、MoE、检索、外部记忆、工具调用和多模态模块逐渐混合。本文回顾本系列主线，解释为什么 Transformer 很难突然消失，也为什么它不可能原样解决所有问题。

2026-06-09 · transformer

【Transformer 与注意力机制】59｜推理退化：为什么大模型会输出乱码、死循环和无意义文本

大模型推理时偶尔会突然陷入死循环、输出乱码或连续无意义数字，这不是随机 bug，而是注意力机制、Causal Mask、解码策略和数值精度在自回归生成中共同作用的结果。本文从 QKV 计算坍塌出发，解释 Attention Sink、Softmax 马太效应、Causal Mask 的退路切断、FP16 溢出路径和 KV Cache 污染，并给出从架构到运行时的多层防线。

2026-04-15 · transformer

【Transformer 与注意力机制】系列总览

从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。

【Transformer 与注意力机制】46｜多模态融合：CLIP、Flamingo、LLaVA、SAM

Transformer系列导航

文章导航

目录

一、CLIP：图文对比学习

二、视觉 encoder 加语言模型

三、Flamingo：跨模态注意力

四、LLaVA：视觉指令微调

五、SAM：promptable segmentation

六、多模态数据和评测陷阱

七、关键概念回顾

八、常见误解

8.1 “多模态就是先给图片写 caption”

8.2 “图像接进 LLM 后就不会幻觉”

8.3 “所有模态最终都会变成同一种 token”

九、下一步

十、参考文献

同主题继续阅读

【Transformer 与注意力机制】45｜ViT：图像怎么变成 token

【Transformer 与注意力机制】58｜后 Transformer 时代：架构会消失还是会进化

【Transformer 与注意力机制】59｜推理退化：为什么大模型会输出乱码、死循环和无意义文本

【Transformer 与注意力机制】系列总览