【Transformer 与注意力机制】45｜ViT：图像怎么变成 token

Transformer 原本是为序列文本设计的。图像看起来不像序列：它是二维网格，有局部纹理、边缘、形状和空间层级。ViT（Vision Transformer）提出的关键问题是：如果把图像切成一块一块 patch，再把 patch 当作 token，Transformer 能不能像处理句子一样处理图像？

答案是可以，但有条件。ViT 证明了在足够数据和算力下，纯 Transformer 可以在视觉任务上达到强性能。它也改变了多模态模型的想象方式：图像、文本、视频都可以被 token 化，然后进入同一个 Transformer 生态。

本篇能让你学会三件事：

图像如何被切成 patch token；
ViT 和 CNN 的归纳偏置差异；
为什么 ViT 对多模态模型很关键。

一、CNN 的归纳偏置

CNN 天生适合图像。卷积核只看局部区域，体现局部性；同一个卷积核在整张图上滑动，体现平移等变性；多层卷积逐步从边缘、纹理到形状，形成层级特征。

这些归纳偏置让 CNN 在数据不够大时也能学得很好。模型一开始就知道“附近像素更相关”“同一个特征可以出现在不同位置”。这不是从数据中完全学出来的，而是架构预设。

ViT 则减少了这些预设。它把图像交给通用 attention，让模型自己学习 patch 之间的关系。自由度更高，但数据需求也更大。

二、Patch embedding：图像变序列

ViT 不把每个像素当 token。那样序列太长，计算成本不可接受。它把图像切成固定大小 patch，例如 16×16。每个 patch 展平后通过线性投影变成一个向量，这就是视觉 token。

一张 224×224 的图像，如果 patch size 是 16，就得到 14×14=196 个 patch token。再加一个 CLS token，输入就变成类似文本的 token 序列。

位置编码仍然需要。patch token 的内容向量本身不告诉模型它在图像左上角还是右下角。ViT 给每个 patch 加位置 embedding，让模型知道空间布局。

三、CLS token 与分类

ViT 借鉴 BERT，加入一个 CLS token。经过多层 Transformer 后，CLS token 的输出被用于图像分类。它可以看所有 patch，并汇聚整张图的信息。

这个设计再次说明 Transformer 的统一性：无论文本还是图像，都可以用特殊 token 汇聚全局表示。不同的是，文本 token 来自 tokenizer，图像 token 来自 patch embedding。

当然，CLS token 不是唯一方案。后续视觉 Transformer 也常使用平均池化或其他聚合方式。重点不是 CLS 本身，而是 patch 序列可以被全局 attention 处理。

四、ViT 为什么需要大数据

ViT 早期在中小规模数据上不如强 CNN，原因正是归纳偏置少。CNN 带着视觉先验上场，ViT 需要从数据中学更多东西。如果训练数据足够大，ViT 的通用性和 scaling 能力会显现出来。

这和语言模型很像：通用架构往往更依赖规模。ViT 原论文在大规模预训练后展示了强性能，说明 Transformer 可以进入视觉，但不是在所有数据条件下天然优于 CNN。

DeiT 后来通过更强训练策略和蒸馏改善数据效率，证明 ViT 不一定只能靠超大私有数据训练。Swin Transformer 则重新引入层级结构和窗口 attention，让视觉 Transformer 更接近图像任务的空间特性。

五、Swin：窗口与层级

Swin Transformer 使用窗口 attention，只在局部窗口内计算 attention，并通过 shifted window 让不同窗口交换信息。它还构建多尺度层级表示，类似 CNN 从高分辨率到低分辨率逐步抽象。

这说明视觉任务并不一定需要完全抛弃归纳偏置。ViT 打开了“图像 token 化”的门，Swin 则把 Transformer 和视觉结构重新结合。

从更大视角看，Transformer 不是唯一正确的视觉架构，而是一种可以和局部性、层级性组合的通用模块。

六、ViT 对多模态的意义

多模态模型需要把图像和文本放到同一系统里。ViT 提供了一个自然接口：图像变成 patch token，文本变成 word/subword token。二者都可以进入 Transformer 或通过 projector 对齐。

CLIP、Flamingo、LLaVA 等模型都受益于这种表示方式。图像不再只是 CNN 特征图，而可以被看作 token 序列，与文本 token 发生对齐、交互和生成。

所以 ViT 的影响超出图像分类。它让“token 化世界”的想法变得更普遍。

七、关键概念回顾

Patch embedding：把图像 patch 映射成 token 向量。
CLS token：用于汇聚全局图像表示的特殊 token。
视觉归纳偏置：CNN 中局部性、平移等变性、层级结构等先验。
窗口 attention：只在局部窗口内计算 attention，降低高分辨率成本。
多模态 token 化：把不同模态都表示为 token 序列。

八、常见误解

8.1 “ViT 把每个像素当 token”

不是。ViT 通常把固定大小 patch 当 token，否则序列长度会过大。

8.2 “ViT 证明 CNN 没用了”

不成立。CNN 的归纳偏置仍然有价值，很多视觉 Transformer 也重新引入局部和层级结构。

8.3 “图像 token 和文本 token 完全一样”

它们都可以作为向量序列处理，但来源、结构和位置含义不同。

九、下一步

图像变成 token 后，多模态融合就有了基础。下一篇看 CLIP、Flamingo、LLaVA、SAM 如何把图像、文本和任务接口组织到同一个 Transformer 生态里。

十、参考文献

Dosovitskiy, A. et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.” ICLR 2021.
Touvron, H. et al. “Training data-efficient image transformers & distillation through attention.” ICML 2021.
Liu, Z. et al. “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows.” ICCV 2021.
Radford, A. et al. “Learning Transferable Visual Models From Natural Language Supervision.” ICML 2021.

← 上一篇：44｜MoE　|　下一篇：46｜多模态融合 →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer

Transformer系列导航

文章导航

目录