【Transformer 与注意力机制】46|多模态融合:CLIP、Flamingo、LLaVA、SAM
多模态模型的核心不是把图片简单转成文字,而是让图像、文本、mask、视频等不同模态在表示空间、注意力结构和任务接口上对齐。本文用 CLIP、Flamingo、LLaVA、SAM 四条线解释图文对比学习、视觉语言连接器、视觉指令微调和 promptable segmentation。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
多模态模型的核心不是把图片简单转成文字,而是让图像、文本、mask、视频等不同模态在表示空间、注意力结构和任务接口上对齐。本文用 CLIP、Flamingo、LLaVA、SAM 四条线解释图文对比学习、视觉语言连接器、视觉指令微调和 promptable segmentation。