vit 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】45｜ViT：图像怎么变成 token

2026-04-15 | transformer | #transformer #vit #vision-transformer #patch-embedding #multimodal

ViT 的关键不是把每个像素当成 token，而是把图像切成 patch，再把每个 patch 映射成向量序列。本文解释 CNN 的归纳偏置是什么，ViT 如何用 patch embedding、位置编码和 CLS token 处理图像，为什么它一开始依赖大数据，以及 DeiT、Swin Transformer 如何补足数据效率和层级结构。