土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】46|多模态融合:CLIP、Flamingo、LLaVA、SAM

文章导航

分类入口
transformer
标签入口
#transformer#multimodal#clip#llava#sam

目录

45|ViT 说明图像可以被切成 patch token。下一步自然是:图像 token 能不能和文本 token 放到同一个系统里?这就是多模态模型的核心问题。

多模态不是“把图片转成一句 caption 再问语言模型”这么简单。真正困难的是对齐:图像区域、文本短语、对象、关系、动作、mask、坐标和用户指令,如何进入同一个可计算空间,并在任务中稳定协作。

本篇能让你学会三件事:

  1. CLIP 如何用对比学习对齐图像和文本;
  2. Flamingo、LLaVA 如何把视觉 encoder 接到语言模型;
  3. SAM 为什么代表另一种 promptable 视觉基础模型路线。

一、CLIP:图文对比学习

CLIP 的核心是用大量图像-文本对训练两个 encoder:一个图像 encoder,一个文本 encoder。训练目标不是生成 caption,而是让匹配的图文向量更近,不匹配的更远。

这种对比学习让模型获得共享语义空间。输入一张图片和一组文本标签,CLIP 可以比较图像向量和文本向量的相似度,从而做 zero-shot 分类。

CLIP 的重要性在于,它把视觉和语言通过语义对齐连接起来。图像不再只是像素分类问题,而能和自然语言描述直接比较。


二、视觉 encoder 加语言模型

后来的视觉语言模型常采用一个套路:用 ViT 或其他视觉 encoder 提取图像特征,再用一个 projector 把视觉特征映射到语言模型可接受的 embedding 空间。

为什么需要 projector?因为视觉 encoder 输出的向量分布和语言模型 token embedding 分布不一样。直接塞进去通常不稳。projector 像一个接口层,把“视觉 token”翻译成语言模型能处理的前缀或上下文。

这种设计保留了强语言模型的生成能力,同时让它获得视觉条件。它不是让语言模型从零学会看图,而是把视觉表示接入已有的语言生成系统。


三、Flamingo:跨模态注意力

Flamingo 的代表性在于,它把视觉信息通过 gated cross-attention 接入冻结或部分冻结的语言模型,让模型在少样本视觉语言任务上表现强。

它不是简单拼接所有 token,而是设计专门的跨模态交互模块。视觉 encoder 负责图像表示,语言模型保持生成能力,cross-attention 在两者之间建立联系。

这个思路说明,多模态融合有不同层次:可以在 embedding 层拼接,可以在 attention 层交互,也可以在输出层 late fusion。不同设计对应不同成本和能力。


四、LLaVA:视觉指令微调

LLaVA 的关键是把视觉输入接入大语言模型,并用视觉指令数据训练模型回答图像相关问题。它更接近今天用户熟悉的“看图聊天”体验:用户发一张图,再用自然语言提问,模型用自然语言回答。

这条路线强调 instruction tuning。只把图像特征接进语言模型还不够,模型还要学会在对话格式中使用视觉信息,遵循问题,避免只凭语言先验胡猜。

LLaVA 也暴露出多模态幻觉问题:模型可能看错图,或者没有充分利用图像就按常识回答。多模态对齐不是一次 projector 训练就结束的。


五、SAM:promptable segmentation

SAM 和图文聊天模型不同。它关注的是分割:给定点、框、mask 或文本提示,输出图像中的对象 mask。它代表视觉基础模型的另一条路线:不是生成自然语言,而是生成结构化视觉结果。

SAM 的 promptable 思想很重要。用户不必为每个类别训练专门分割模型,而是用提示指定要分割的对象。模型把视觉任务也变成一种可提示的交互。

这说明多模态不只有“图像问答”。检测、分割、定位、OCR、导航、机器人控制,都需要不同输出形式。自然语言是重要接口,但不是唯一接口。


六、多模态数据和评测陷阱

多模态模型高度依赖数据。图文对的 caption 往往只描述显著对象,忽略空间关系和细节;网页 alt text 可能噪声很大;视觉问答数据可能有语言偏差,模型不看图也能猜中一部分答案。

评测也容易误导。一个模型能回答“图里有几只猫”,不代表它理解复杂空间关系;能读简单文字,不代表 OCR 稳定;能描述图片,不代表不会幻觉。

所以多模态模型必须同时评估感知、定位、关系、文本读取、推理和拒答能力。


七、关键概念回顾


八、常见误解

8.1 “多模态就是先给图片写 caption”

caption 是一种方式,但多模态还包括定位、分割、OCR、视频理解、工具调用和结构化输出。

8.2 “图像接进 LLM 后就不会幻觉”

不会。模型仍可能忽略图像、过度依赖语言先验或生成不存在的细节。

8.3 “所有模态最终都会变成同一种 token”

统一 token 接口很有吸引力,但不同模态的结构、采样率和输出要求不同,不能简单抹平。


九、下一步

多模态让 Transformer 进入图文理解。下一篇看生成式视觉:扩散模型为什么开始使用 Transformer backbone,DiT 和视频生成如何把图像/视频表示成 token 序列。


十、参考文献

  1. Radford, A. et al. “Learning Transferable Visual Models From Natural Language Supervision.” ICML 2021.
  2. Alayrac, J.-B. et al. “Flamingo: a Visual Language Model for Few-Shot Learning.” NeurIPS 2022.
  3. Liu, H. et al. “Visual Instruction Tuning.” NeurIPS 2023.
  4. Kirillov, A. et al. “Segment Anything.” ICCV 2023.

← 上一篇:45|ViT | 下一篇:47|Diffusion + Transformer

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】45|ViT:图像怎么变成 token

ViT 的关键不是把每个像素当成 token,而是把图像切成 patch,再把每个 patch 映射成向量序列。本文解释 CNN 的归纳偏置是什么,ViT 如何用 patch embedding、位置编码和 CLS token 处理图像,为什么它一开始依赖大数据,以及 DeiT、Swin Transformer 如何补足数据效率和层级结构。

2026-04-15 · transformer

【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text

T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。


By .