ai 标签归档

共 9 篇文章 · 返回首页

【Transformer 与注意力机制】01|为什么要从这里开始

这是【Transformer 与注意力机制】系列的第一篇,承担两件事:一是把这套五十多篇文章为谁写、解决什么问题、彼此之间是什么关系交代清楚;二是为完全没基础的读者画出一条从向量、点积、矩阵乘法走到自注意力、再走到大语言模型的爬升路径,让你在投入时间之前先知道终点在哪、路上要经过哪些坎、读完之后你会、还不会做什么事。

【开源许可与版权工程】AI 训练数据的版权:从 Books3、Common Crawl 到生成式模型侵权

一篇话讲清楚:网络爬取训练语料、书籍/代码/图片数据集、合成数据与 RAG 私域数据在著作权法上的真实边界。覆盖美国 fair use、欧盟 TDM 例外、日本 30-4 条、中国合理使用与生成式 AI 司法态度;逐个拆解 Books3、Common Crawl、LAION-5B、The Pile、StarCoder、Stack Exchange 等高频数据集的许可现状;给出工程团队在预训练、微调、RAG 三个场景下的可执行检查清单。