llava 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】46｜多模态融合：CLIP、Flamingo、LLaVA、SAM

多模态模型的核心不是把图片简单转成文字，而是让图像、文本、mask、视频等不同模态在表示空间、注意力结构和任务接口上对齐。本文用 CLIP、Flamingo、LLaVA、SAM 四条线解释图文对比学习、视觉语言连接器、视觉指令微调和 promptable segmentation。