你在一个大模型团队,负责准备预训练(pre-training)语料。Leader 甩给你一个 250 TB 的磁盘阵列,说:“里面是爬下来的全网文本,还有从开源仓库下载的一些公开数据集,你清洗一下,两周后开训。”
你打开目录,看到:common-crawl-2024/、books3.tar、the-pile/、laion-5b-metadata/、stackexchange-dump/、github-code-clean/、wikipedia-zh/、news-archive-crawl/。你有点慌——这里面哪些是能用的?哪些用了要署名?哪些一旦被原告律师发现就是几亿美金的赔偿?
2023 年之后,这个问题已经不再是”理论风险”。《纽约时报》诉 OpenAI(The New York Times Company v. Microsoft Corporation and OpenAI Inc.,S.D.N.Y. 2023)、GitHub Copilot 集体诉讼(Doe v. GitHub,N.D. Cal. 2022)、Getty Images 诉 Stability AI(英美两地平行诉讼)、Authors Guild / Sarah Silverman 系列书籍作者诉 OpenAI / Meta / Anthropic、中国的春风画面案(北京互联网法院 2023)、奥特曼形象案(广州互联网法院 2024)——每一个都已经进入实质审理或做出实体判决。
这篇文章要回答三个工程师真正关心的问题:
- 我的训练数据,从法律上讲能不能用?在美国、欧盟、日本、中国的答案分别是什么?
- 业界高频使用的那些数据集——Common Crawl、Books3、LAION、The Pile、StarCoder、Stack Exchange、维基百科——它们的许可真相是什么?哪些已经是法律红线?
- 在预训练、微调、RAG 三个场景下,我要落地哪些可执行的合规动作?
如果你还没有理解数据作品在著作权法下的基本模型,建议先看 数据、语料、模型权重:创作性数据模型 和 中国 GPL 诉讼第一案系列。本文专注 AI 训练语料这一特定场景。
一、为什么 2023 年起诉讼集中爆发
1.1 ChatGPT 之前:学术灰色地带
2020 年之前,深度学习论文里引用”We scraped 400GB of web data”没人会起诉——那是学术研究,美国 fair use 的”非商业”和”转换性使用”两个要素都偏向被告,欧盟各国对科研也有各种研究例外,中国《著作权法》第 24 条第一款第六项也允许”为学校课堂教学或者科学研究”合理使用。ImageNet、Common Crawl、Wikipedia dumps 这些数据集被学界自由使用了十多年。
真正改变格局的事件是 2022 年底 ChatGPT 发布 与 2023 年初 Stable Diffusion / Midjourney / GitHub Copilot 的商业化。模型一旦能够(a)被收费、(b)产出接近原作的内容、(c)侵蚀原作者的市场——fair use 四要素里的”商业性质”与”对潜在市场的影响”两根针就同时扎了进来。
1.2 具象的损害:版权方终于有了”可证据”
起诉版权侵权的第一步,是证明被告接触了(access)原作并在其作品中有实质性相似(substantial similarity)。这两个要件在传统软件盗版里不难证明,但”AI 吞下了整个互联网”在 2022 年之前是一个抽象主张。
ChatGPT 改变了这一点。记者和研究人员开始发现:
- 让 ChatGPT 续写《纽约时报》2012 年的一篇调查报道,它几乎逐字复述了原文的后半段——纽约时报诉状附带了 100 多个”近乎逐字复制”的样本1。
- 让 GitHub Copilot 补全一段 GPL 代码的注释头,它会把原作者的姓名和 LICENSE 一起吐出来——这被 Doe v. GitHub 案的原告作为”模型记忆原始作品”的直接证据2。
- 让 Stable Diffusion 生成 “Getty Images”,图像右下角会出现扭曲但可辨识的 Getty 水印3。
这类”模型逐字吐出训练样本”的现象,在学术上称为训练数据记忆(training data memorization),Nicholas Carlini 等人 2021 年的论文 Extracting Training Data from Large Language Models 已经给出了方法论4。一旦可重现,法官就不会再把”AI 是否吸收了原作”当成需要论证的问题。
1.3 2023–2026 的案件地图
截至本文写作时,全球已经进入审理或做出实体裁决的主要案件包括:
| 司法辖区 | 案件 | 核心争议 | 状态 |
|---|---|---|---|
| 美国 | Thomson Reuters v. ROSS Intelligence | Westlaw 判例摘要用于训练法律 AI | 2025 年 2 月简易判决,fair use 抗辩失败5 |
| 美国 | The New York Times v. OpenAI / Microsoft | 新闻文本训练 + 模型输出复述 | 审理中(discovery 阶段) |
| 美国 | Authors Guild et al. v. OpenAI | 文学作品训练(合并了 Silverman、Chabon 等多起案件) | 审理中 |
| 美国 | Bartz et al. v. Anthropic(Books3 一案) | Anthropic 使用 Books3 训练 Claude | 审理中;Anthropic 已承认早期使用过 Books36 |
| 美国 | Doe v. GitHub / Microsoft / OpenAI | Copilot 未遵守开源协议 | 部分诉求被驳回,合同/DMCA 部分继续 |
| 美国 | Andersen v. Stability AI | 图像生成器训练数据 | 审理中 |
| 美国/英国 | Getty Images v. Stability AI | Getty 图库训练 + 水印残留 | 英国 2025 年 11 月一审宣判,Getty 部分胜诉7 |
| 欧盟/德国 | Kneschke v. LAION | LAION 数据集是否可以依赖 TDM 例外 | 汉堡地方法院 2024 年判决支持 LAION8 |
| 中国 | 春风画面案(广州互联网法院) | 生成图片构成复制/改编 | 2023 年判决,平台承担侵权责任9 |
| 中国 | 奥特曼形象案(广州互联网法院) | AI 生成奥特曼形象 | 2024 年判决,平台构成侵权10 |
| 中国 | 北京互联网法院”AI 文生图案”(李 vs 刘) | AI 生成图是否受著作权保护 | 2023 年判决,生成图可以构成作品11 |
最值得注意的两个信号:
- Thomson Reuters v. ROSS(2025.02)是美国首个在 AI 训练场景下明确否定 fair use 抗辩的实体裁决。法院认定 ROSS 使用 Westlaw 编辑过的判例摘要(headnotes)训练自家法律 AI,属于与原作品直接替代的商业使用,四要素第一和第四要素均不利于被告。
- LG Hamburg 的 LAION 判决(2024)是欧盟第一个从正面适用 DSM Directive 第 3 条(科研 TDM)的判例——但法院同时暗示,如果使用主体不是非营利研究机构,第 4 条的 opt-out 机制就会启动。
这两个判决合起来告诉工程团队一件事:“AI 训练天然就是 fair use / TDM”在任何司法辖区都不再是可以安全假设的前提。
1.4 三个标志性案件的工程解读
在展开法律框架之前,先把三个最具代表性的案件的事实细节拆清楚,后面的法律规则才能扎实落地。
(1)NYT v. OpenAI——“逐字复述”如何被证明
诉状附录 J 一共列出 100 组 “ChatGPT 输出 vs NYT 原文” 的对比,其中不少段落的重合度达到几百字级别,足以排除”偶然相似”。原告的证据链非常工程化:
- 选取一批 NYT 历史文章(含调查报道、影评、专栏);
- 用前 50–100 个词作为 prompt 喂给 ChatGPT / GPT-4(API 与产品端各做一遍);
- 记录完整输出;
- 与 NYT 原文做字符级 diff,标注相似段落。
工程启示:这套方法被所有版权方律师掌握后,变成了标准”侵权取证流程”。模型发布前的合规测试必须把这套流程反过来做一次——用内部知道的高版权风险语料做续写测试,观察 memorization 程度。Carlini 等人后来又发表了 Scalable Extraction of Training Data from (Production) Language Models(2023),提出了更有效的提取攻击,建议作为内部红队的参考实现。
(2)Doe v. GitHub——许可证声明被”剥离”的指控
Doe v. GitHub 的核心指控不是”GitHub 未经许可复制了我的代码”(原告承认代码是 MIT/Apache/GPL 这类可自由使用的许可),而是:
- 许多开源许可证要求保留版权声明(attribution)与许可证文本(notice);
- Copilot 在补全代码时只输出代码块本身,剥离了 LICENSE 头和作者行;
- 这构成对许可证条件的违反,从而等同于未授权使用。
法院 2024 年裁决中,多数”替代性违约”(breach of contract)诉求被驳回,但 DMCA §1202(禁止删除版权管理信息,CMI) 相关诉求继续审理。
工程启示:即使你的训练数据是 MIT/Apache 2.0 也不是”随便用”——保留版权声明的义务要延伸到模型输出。一种补救做法是在模型输出代码时尝试检索最接近的训练样本,并在相似度超过阈值时提示来源与许可。GitHub 2023 年推出的 Copilot “duplicate detection filter” 就是对这个问题的工程响应。
(3)Getty v. Stability AI (UK)——水印出现即击破第一要素
Getty 的证据里最具冲击力的一张图:让 Stable Diffusion 生成 “a group of football players”,输出图右下角出现了一个扭曲但明显是 “Getty Images” 的水印模式。这意味着:
- 模型确实吸收了水印与内容的关联;
- 模型训练不是”抽象特征学习”,而是”在 pixel 层级留下了原作的可识别指纹”。
这张图在英国 2025 年 11 月的一审中被反复引用。工程启示:训练数据的预处理管线必须把水印、logo、版权标识作为”红旗特征”检测并剔除,否则一旦出现在输出中,fair use / TDM 抗辩的第一要素(转换性)基本无法成立。
二、美国:fair use 四要素在 AI 训练中的适用
2.1 四要素回顾
美国《版权法》第 107 条规定的合理使用(fair use)四要素:
- 使用的目的与性质(purpose and character),是否具有”转换性”(transformative)、是否商业性;
- 原作品的性质(nature of the copyrighted work),事实性作品比创作性作品更偏向 fair use;
- 使用数量与实质性(amount and substantiality),占原作多大比例、是否抓取了作品”核心”;
- 使用对原作潜在市场的影响(effect upon the potential market)。
2.2 判例脉络:Google Books → Warhol → ROSS
Authors Guild v. Google(2d Cir. 2015)是 AI 训练方最喜欢引用的先例:Google Books 扫描了数百万册图书形成全文索引,只展示摘要片段,法院认定是具有高度转换性的 fair use。很多 AI 公司把这个判决直接类比到 LLM 训练上——“我也只是为了做索引/检索/生成式理解,没有把书完整展示给用户”。
但 Warhol Foundation v. Goldsmith(U.S. Supreme Court, 2023)收紧了”转换性”的边界12。最高法院强调:转换性不是”被告主观上有新目的就行”,而要看新作品是否与原作在同一市场竞争。如果 AI 生成的内容会替代原作的市场(例如 AI 生成的新闻替代《纽约时报》的订阅、AI 生成的图像替代 Getty 的授权),第一要素的权重会被第四要素吃掉。
Thomson Reuters v. ROSS(D. Del. 2025)把 Warhol 的逻辑直接套在 AI 训练上:ROSS 用 Westlaw headnotes 训练出的产品,与 Westlaw 本身在同一法律检索市场竞争,因此 fair use 抗辩不成立。
2.3 工程启示
把 ROSS、Warhol、Google Books 放在一起,能推出一个可操作的风险排序:
训练目标产品与原作越"同赛道",fair use 越危险。
▲ 高风险:用新闻训练新闻摘要 AI;用 Westlaw 训练法律 AI;用 Getty 训练图像生成
| 中风险:用通用语料训练通用 LLM(赛道不同,但输出可能踩到原作)
▼ 低风险:用公开论文训练分类器;用代码训练缺陷检测(非替代性)
在美国场景下,合规团队的关键动作:
- 记录训练目标产品的市场定位——不要在内部文档里写”替代 XX 平台”、“对标 XX 服务”,这类措辞在 discovery 阶段会被原告律师逐字引用。
- 对用于训练的”高价值受版权保护来源”做白名单管理——新闻、图书、专业数据库、付费图库需要单独走授权谈判。
- 对模型输出层加 memorization 过滤——如果模型会逐字吐出训练样本(verbatim output),第三要素(实质性)会直接翻转。
2.4 memorization 过滤的几种实现
工程上可参考的 memorization 过滤策略:
- Bloom filter / MinHash 去重:预训练阶段做文档级去重,显著降低记忆概率。FineWeb 的管线公开文档表明去重后模型困惑度下降、下游任务无损而 memorization 概率下降一个数量级。
- 输出相似度检索:在线推理时,将模型输出的每个长 span 在训练样本索引中做近邻检索,命中阈值(如连续 50 token 与单一样本重合度 > 80%)则触发重写或拒答。
- 差分隐私训练(DP-SGD):在特定高风险微调场景(医疗、新闻等)使用 DP-SGD 对梯度加噪。代价是训练效率与效果下降,但能从数学上给出 memorization 上界。
- 水印与指纹识别:对训练数据中的图像/代码片段预计算 perceptual hash 或语法指纹,在输出时检测。
GitHub Copilot 自 2023 年引入的 duplicate detection filter、Anthropic 在 Claude 3 之后加入的 “training data extraction” 抑制层,都是对以上第 2、4 种策略的落地。
三、欧盟:DSM Directive 的 TDM 例外与 EU AI Act
3.1 两个 TDM 条款
欧盟 2019 年的《数字单一市场指令》(Digital Single Market Directive, 2019/790/EU,简称 DSM)第 3、4 条确立了文本与数据挖掘(Text and Data Mining, TDM)的版权例外:
- 第 3 条:面向”研究机构与文化遗产机构”的 TDM 例外,权利人不能 opt-out,只要使用者合法访问了作品即可;
- 第 4 条:面向任何主体(包括商业公司)的 TDM 例外,但权利人可以通过”机器可读方式”保留权利(opt-out)。
这两条看起来很友好,但对商业 AI 公司构成了两个硬性义务:
- 使用者必须合法获取(lawful access)作品。如果你从盗版网站爬数据,TDM 例外根本不适用。
- 商业使用受制于opt-out 机制。网站在
robots.txt、HTTP 头、元数据里表明拒绝 AI 抓取,你就不能依赖第 4 条。
3.2 opt-out 的机器可读标准
欧盟目前主要承认以下三种机器可读的 opt-out 信号:
| 信号 | 示例 | 适用范围 |
|---|---|---|
robots.txt 中的
User-agent: GPTBot 段 |
Disallow: / |
网站级别 |
HTTP 响应头
X-Robots-Tag: noai, noimageai |
单页面级别 | 某些 CDN 已支持 |
| TDMRep / C2PA / IPTC 元数据 | 文件级别 | 图片、PDF 等二进制资源 |
TDMRep(TDM Reservation Protocol)是 W3C 社区组的提案,目标是让权利保留能写在 HTTP 头和 HTML 元数据里13。虽然还不是强制标准,但德国、法国的多数权利人组织已经采纳。
3.3 EU AI Act 的训练数据披露
EU AI Act(2024/1689 号条例)于 2024 年 7 月生效,对通用目的 AI 模型(General Purpose AI Model, GPAI)的提供者规定了14:
- 第 53 条:GPAI 提供者必须公开发布”一份关于用于训练的内容的充分详细摘要”(sufficiently detailed summary),格式由 AI Office 发布的模板确定;
- 第 53 条同时要求 GPAI 提供者制定并遵守版权合规政策,包括尊重第 4 条 TDM opt-out。
AI Office 于 2024–2025 年陆续发布了 Training Data Summary Template 与 GPAI Code of Practice。草案要求披露的粒度包括:主要数据源类别(Common Crawl / Wikipedia / 书籍 / 代码 / 合成数据等)、每个大类的时间范围与体量量级、如何处理 opt-out、如何处理个人数据。
3.4 工程启示
面向欧盟市场提供模型的工程团队,必须做到的三件事:
- 爬虫必须识别并尊重 opt-out——主流 AI
公司 2024 年后都发布了自己的
User-Agent(GPTBot、ClaudeBot、Google-Extended、CCBot、Bytespider
等)。你自己的爬虫也要注册一个可识别的 UA,并实现
robots.txt+X-Robots-Tag+ TDMRep 的三层解析。 - 留存数据抓取的”合法访问”证据——抓取时间、URL、HTTP 状态码、robots.txt 快照,全部入审计库。
- 按 AI Act 模板生成训练数据摘要,并与法务一起 review 后公开。
3.5 opt-out 的解析实现
把 robots.txt、HTTP 头、HTML meta、TDMRep
元数据这四路信号统一解析,是一个很小但容易出错的工程问题。下面给出一个最小实现轮廓:
from urllib.parse import urlparse
import urllib.robotparser
import requests
AI_BOTS = [
"GPTBot", "ChatGPT-User", "ClaudeBot", "anthropic-ai",
"Google-Extended", "PerplexityBot", "CCBot", "FacebookBot",
"Bytespider", "Amazonbot", "Applebot-Extended",
]
def opt_out_status(url: str) -> dict:
"""返回该 URL 是否对 AI 训练做了 opt-out,以及证据。"""
parsed = urlparse(url)
root = f"{parsed.scheme}://{parsed.netloc}"
evidence = {}
# 1) robots.txt
rp = urllib.robotparser.RobotFileParser()
rp.set_url(root + "/robots.txt")
try:
rp.read()
except Exception:
pass
for bot in AI_BOTS:
if not rp.can_fetch(bot, url):
evidence.setdefault("robots_txt", []).append(bot)
# 2) HTTP X-Robots-Tag
try:
resp = requests.head(url, timeout=5, allow_redirects=True)
xrobots = resp.headers.get("X-Robots-Tag", "").lower()
for token in ("noai", "noimageai", "noindex"):
if token in xrobots:
evidence.setdefault("x_robots_tag", []).append(token)
# 3) TDMRep 在 HTTP 层
tdm = resp.headers.get("tdm-reservation")
if tdm == "1":
evidence["tdm_reservation_http"] = tdm
except Exception:
pass
# 4) HTML meta(需 GET 正文;此处略去以保持示例简短)
return {"opted_out": bool(evidence), "evidence": evidence}这段代码给训练数据管道提供一个可执行的门禁:对每个样本的源 URL 调用一次,结果写入 DBOM;定期回溯已入库数据(源站可能新增 opt-out),回溯窗口建议 90 天。
四、日本著作权法第 30 条之 4:最宽松的”非享受目的”条款
日本 2018 年修订的《著作权法》第 30 条之 4 规定:在”不以享受作品所表现的思想或感情为目的”的前提下,可以在必要限度内使用作品。典型场景包括:
- 数据分析(包括 AI 训练);
- 技术开发与测试;
- 计算机信息处理。
这条被国际上视为”全世界对 AI 训练最友好的条款”。日本文化厅 2023 年《有关 AI 与著作权关系的见解》进一步确认:AI 训练阶段原则上属于 30-4 条的覆盖范围,但如果”不当损害著作权人利益”(比如直接爬数据库型作品的完整内容并替代其市场),则仍然可能构成侵权15。
生成阶段则完全适用一般著作权规则——AI 生成内容如果与现有作品构成实质性相似,仍可能构成侵权。
工程启示:如果你的模型训练主要在日本进行、训练实体是日本公司,30-4 条是很有价值的法律依据。但它只保护”训练”环节,不保护”部署后生成侵权内容”环节。
五、中国:合理使用、生成式 AI 暂行办法与司法态度
5.1 《著作权法》合理使用是否覆盖 AI 训练
中国《著作权法》第 24 条列举的合理使用情形是封闭式的,不含”文本与数据挖掘”或”AI 训练”的明确类目。最接近的两项:
- 第 24 条第一款第一项:“为个人学习、研究或者欣赏”——仅限个人,不适用商业训练;
- 第 24 条第一款第六项:“为学校课堂教学或者科学研究”——限制”翻译、改编、汇编、播放或者少量复制已经发表的作品”,且”不得出版发行”。
目前中国司法实践中尚没有明确把 AI 训练认定为合理使用的判决。多数学者的解读是:商业性 AI 训练必须通过授权取得数据,合理使用几乎无法抗辩。
5.2 《生成式人工智能服务管理暂行办法》
2023 年 7 月施行的《生成式人工智能服务管理暂行办法》(七部门联合发布)第 7 条明确规定16:
生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定: (一)使用具有合法来源的数据和基础模型; (二)涉及知识产权的,不得侵害他人依法享有的知识产权; (三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形; ……
这条的措辞相当严格——“合法来源”是一个高标准,而且没有 TDM 例外的类似概念。配套的《网络安全技术 生成式人工智能服务安全基本要求》TC260 标准要求语料库建设时”对单一来源语料内容超过 5% 的应进行合法性评估”。
5.3 关键判例
北京互联网法院”AI 文生图案”(2023)认定 Stable Diffusion 生成图如果体现了使用者的”智力投入”(选择模型、调整 prompt、挑选结果),可以构成著作权法意义上的作品17。这个判决解决的是输出端权属,没有直接回答训练数据合法性问题。
广州互联网法院”奥特曼形象案”(2024)更接近训练数据议题:原告持有奥特曼形象著作权,发现某 AI 平台可以生成高度接近的图像。法院认定平台构成复制权与改编权侵权,不论该形象是通过训练语料还是通过用户上传/平台自身工具”植入”到模型中。判决强调平台有”知识产权合规审查义务”18。
“春风画面”案(2023)则涉及训练期间的爬取——原告证明被告 AI 产品对原作的风格和具体画面元素做了”学习”,平台被认定承担侵权责任19。
5.4 工程启示
在中国本土训练/提供模型的团队,必须:
- 证明数据的”合法来源”——最安全的路径是:官方开放数据 + 自采数据(有合同) + 授权采购数据,尽量避免”爬取 + 合理使用”的主张;
- 建立知识产权预审机制——对高版权风险的类别(动漫形象、明星照片、文学作品、新闻、地图)单独白名单;
- 生成侧过滤——对模型输出做版权敏感词/形象识别,避免输出端侵权。这一层在中国司法实践下是”平台责任”的关键抗辩点(类似”红旗原则”)。
参见 中国 GPL 诉讼第一案系列 中关于合同/侵权责任构成的论述——AIGC 侵权认定也遵循相似框架。
5.5 PIPL、数据安全法与训练数据
除了著作权,国内训练数据还受《个人信息保护法》(PIPL)与《数据安全法》双重约束:
- PIPL 第 13 条 规定处理个人信息的合法基础——爬取含个人信息的网页要么取得同意(对大规模爬取几乎不现实),要么落入”已公开信息的合理处理”。后者的边界在 2024 年多起判决中被收紧:自行把信息挂在公开网页上并不等于同意被任何第三方以任意目的处理。
- 《数据安全法》 对”重要数据”与”核心数据”的跨境提供做了限制。训练语料含地理测绘、人口统计、关键基础设施信息的,跨境传输要走数据出境安全评估。
- TC260 BR-2024《生成式人工智能服务安全基本要求》 对语料提出了可操作的”语料合法性”、“语料来源多样性”、“安全过滤”三项要求。
工程上的最小动作:在 DBOM
中为每个数据源额外加两个字段:contains_personal_information
与
data_classification(一般/重要/核心),跨境训练前强制检查。
六、典型训练数据集的许可真相
下面逐一拆解业界高频使用的数据集。工程团队在采纳时最常犯的错误是把”数据集可以下载”等同于”可以商用训练”——下面你会看到大量反例。
6.1 Common Crawl
Common Crawl 是一家非营利组织每月做一次全网爬取,对外发布 WARC/WAT/WET 格式的数据,单月数据量约 400TB、涵盖几十亿个页面。几乎所有主流 LLM(GPT-3、GPT-4、LLaMA、Claude、Falcon……)的语料里都有 Common Crawl 或其衍生集(如 C4、RefinedWeb、FineWeb)。
许可真相:Common Crawl 本身不是版权所有者。它的 ToS 声明”我们只是提供访问接口,不授予对爬取内容的任何权利”20。
也就是说:使用 Common Crawl
训练,等于你自己直接爬取全网,所有版权风险原样传递给你。Common
Crawl 爬虫(UA 为 CCBot)会遵守
robots.txt,但这只意味着收录阶段合规,不代表你训练使用阶段合规。
2023 年起,The New York
Times、Reuters、BBC、CNN、大量新闻出版商通过
robots.txt 屏蔽了 CCBot。Common Crawl 的新月份
dump 因此逐步丢失新闻数据——但旧月份 dump
仍然保留了这些新闻内容,这在 NYT 诉 OpenAI
的诉状中被单独列为一项证据。
工程动作:
# 检查某个 URL 是否在当前 CC 月份 dump 中因 robots.txt 被排除
import requests
def is_opted_out(domain: str) -> bool:
try:
r = requests.get(f"https://{domain}/robots.txt", timeout=5)
text = r.text.lower()
return any(
f"user-agent: {bot}" in text and "disallow: /" in text
for bot in ["ccbot", "gptbot", "claudebot", "google-extended", "*"]
)
except Exception:
return False训练前最好对自己的语料做一轮二次 opt-out 过滤:即便 Common Crawl 当初抓到了,如果该域名现在明确 opt-out,就应从训练集中移除以降低风险。
6.2 Books3:法律红线
Books3 是 2020 年由 Shawn Presser 公开发布的数据集,包含约 19.6 万本英文书籍,总大小 37GB。它的来源是 Bibliotik——一个 BitTorrent 私有追踪器,长期以来以分享盗版电子书著称。
Books3 曾作为 The Pile 的一个子集被 EleutherAI 公开分发。GPT-J、GPT-Neo、LLaMA(第一版)、Bloom 的预训练语料中均有 Books3 的踪影。Meta 在 LLaMA 论文中列出了 “Books3” 作为数据源,这一行文字后来成为 Sarah Silverman 诉 Meta 案的核心证据之一。
2023 年 8 月,丹麦反盗版组织 Rights Alliance 向 Hugging Face 与 The Eye 发出下架通知,Books3 从公开可下载源头消失。2024 年 Anthropic 在 Bartz v. Anthropic 的答辩中承认,Claude 早期版本(v1、v2)的训练数据包含 Books3,并表示”后续版本已不再使用”21。
许可真相:Books3 没有任何合法授权——它是盗版电子书的打包。任何以商业为目的使用 Books3 训练模型的行为,在美国几乎无法主张 fair use(第一要素的”商业”、第二要素的”创作性作品”、第三要素的”完整复制”、第四要素的”直接损害图书市场”全部对被告不利)。
工程动作:
- 检查现存训练数据目录,搜索
books3、bibliotik、the_eye.eu等字样,确认未含在内; - 如果历史模型曾基于 Books3 训练,考虑重新训练一个干净版本,并保留新旧模型的训练语料对比作为未来诉讼的抗辩材料。
6.3 LAION-5B:链接数据集的争议
LAION-5B 是一个包含 58.5 亿条”图像 URL + 文本描述”对的数据集,由德国非营利组织 LAION e.V. 发布。Stable Diffusion 的训练基础之一。
许可真相:LAION-5B 只存链接和元数据,不存图像本身。LAION 据此主张:“我们不存图片,不涉及复制权”。然而:
- 训练方必须实际下载图像才能使用数据集——复制行为发生在训练方的机器上;
- 许多图像来自 Getty、Shutterstock、Alamy 等商业图库,以及创作者个人网站;
- 2023 年斯坦福互联网观察站发现 LAION-5B 中含有数千条疑似儿童性虐待材料(CSAM)链接,LAION 短暂下架后于 2024 年发布清理版(Re-LAION-5B)22。
Kneschke v. LAION(LG Hamburg, 2024)中,摄影师 Robert Kneschke 起诉 LAION 未经许可收录其照片。汉堡地方法院判决 LAION 可以依赖 DSM 第 3 条的科研 TDM 例外(因为 LAION 是非营利研究机构)。但法院同时强调:如果 LAION 是商业主体,或使用者是商业主体依赖第 4 条,原告在图片页面声明的”禁止自动化提取”文字已构成 opt-out,商业使用就不能成立23。
工程动作:
- 使用 LAION 训练商业模型时,不能直接继承”LAION 是研究机构”的抗辩——第 4 条才是适用的条款;
- 对 LAION 的 URL 列表做一轮 opt-out
过滤:检查每张图片域名的
robots.txt、HTTPX-Robots-Tag、页面 TDMRep 元数据; - 使用 Re-LAION-5B 而非原版 LAION-5B,避免 CSAM 合规问题。
6.4 The Pile、RedPajama、FineWeb
The Pile(EleutherAI, 2020)800GB,22 个子集。除 Books3 外,还包含 PubMed Central、arXiv、StackExchange、GitHub、USPTO 专利、Wikipedia、OpenSubtitles 等。每个子集的许可不一:
| 子集 | 许可情况 |
|---|---|
| Books3 | 盗版,已下架 |
| PubMed Central | 部分 OA,部分受限 |
| arXiv | 取决于作者选择的 license(CC BY / CC BY-SA / arXiv perpetual) |
| Stack Exchange | CC BY-SA 3.0 → 4.0 |
| GitHub | 取决于仓库 license |
| OpenSubtitles | 字幕,大多未授权 |
| Wikipedia | CC BY-SA 3.0(部分迁移至 CC BY-SA 4.0) |
| USPTO | 美国联邦政府作品,public domain |
RedPajama(Together AI, 2023)是对 LLaMA 训练语料的开源复刻,显式移除了 Books3,但保留了 Common Crawl、C4、GitHub、ArXiv、Wikipedia、StackExchange、Books(使用 Gutenberg 公共领域书籍而非 Books3)。
FineWeb(Hugging Face, 2024)是对 Common Crawl 的深度清洗版本,15T tokens,仅处理 Common Crawl,不混入其他来源,清洗管线公开24。FineWeb 继承 Common Crawl 的许可结构——“Common Crawl ToS + 原始网页版权”。
工程动作:
- 复合数据集不要整包引用——按子集分别做许可评估,并在内部数据 registry 里记录每个子集的 license、来源、opt-out 状态。
- 在 Dataset Card 中用 SPDX-like 标识明确每个子集许可:
# internal dataset registry (YAML)
datasets:
- name: the-pile-subset
sources:
- name: pile.pubmed_central
license: mixed-oa # 需人工审查具体文章
opt_out_check: required
- name: pile.books3
license: proprietary # 盗版,禁用
blocked: true
- name: pile.stackexchange
license: CC-BY-SA-4.0
share_alike_triggered: check-downstream6.5 StarCoder / The Stack:opt-out 机制的样板
The Stack(BigCode 项目,2022)和 The Stack v2(2024)是目前最大规模的开源代码数据集,v2 含 3TB+ 代码,来源是 GHArchive + Software Heritage。BigCode 训练了 StarCoder / StarCoder2 系列模型。
The Stack 在两个方面树立了行业标杆:
- 仅收录可识别 SPDX 许可证的仓库——v1 阶段仅保留 MIT、Apache-2.0、BSD 等宽松许可;v2 保留范围更广但均有 SPDX 标识;
- am-i-in-the-stack 检索工具——任何 GitHub 作者可以在 https://huggingface.co/spaces/bigcode/in-the-stack 检索自己的数据是否被收录,并通过填写表单 opt-out,opt-out 列表在下一版数据集中生效25。
许可真相:即使 The Stack 做了这些努力,仍然有两个争议:
- 即使是 MIT / Apache-2.0 代码,许可证通常要求保留版权声明——模型输出代码时是否要带原作者的版权头?Copilot 案的核心指控就是”系统化移除版权头”;
- GPL / AGPL 代码是否可以用于训练?The Stack v1 排除了 copyleft,v2 重新纳入但标注”需用户自行承担”。
工程动作:
# 简化:使用 SPDX 识别库检查语料中的协议分布
from pathlib import Path
import subprocess, json
def scan_licenses(repo_dir: str):
"""调用 scancode-toolkit 生成 SPDX 报告"""
out = subprocess.check_output([
"scancode", "--license", "--json-pp", "-",
repo_dir
])
report = json.loads(out)
stats = {}
for f in report.get("files", []):
for lic in f.get("licenses", []):
key = lic.get("spdx_license_key", "UNKNOWN")
stats[key] = stats.get(key, 0) + 1
return stats训练时可根据统计结果,对 GPL/AGPL 代码单独做处理(例如只用于推理阶段而非生成,或完全剔除)。参见 SCA、SBOM 与软件成分分析 中关于 scancode、ORT 的工具链介绍。
6.6 Stack Exchange / Stack Overflow:CC BY-SA 的传染性
Stack Exchange 全系列站点(含 Stack Overflow)的用户贡献内容以 CC BY-SA 发布——2011 年之前是 3.0,之后是 4.0。CC BY-SA 有两个关键条款:
- 署名(BY):必须合理注明原作者;
- 相同方式共享(SA):改编作品必须以相同或兼容许可发布。
争议点:AI 模型训练是否构成”改编”(adaptation)?如果构成,那么训练出来的模型权重理论上要以 CC BY-SA 发布——这会污染大量商业模型。
Creative Commons 官方 2023 年发表过立场说明:模型训练本身不必然构成 CC 意义上的改编,但模型如果输出与原作高度相似的内容,输出本身可能构成改编并触发 ShareAlike26。
工程动作:
- Stack Exchange 数据在微调对话能力中非常有价值(自然的问答结构),但务必在模型 Card 中列出 CC BY-SA 来源;
- 对模型输出做”署名建议”——当检测到输出与 Stack Exchange 高度相似时,提示”本答案可能改编自 Stack Exchange 上的 CC BY-SA 内容”;
- 避免直接把 Q&A 文本嵌入系统提示词(system prompt),因为系统提示词会被用户端截获并复制,CC BY-SA 条款会穿透。
6.7 维基百科 CC BY-SA
维基百科内容以 CC BY-SA 4.0(部分历史内容仍为 3.0)发布,和 Stack Exchange 同一框架,但维基百科的知识密度高、非虚构性强,在 LLM 训练中常单独作为高质量语料使用。
工程动作:模型 Card 至少注明 “Training corpus includes Wikipedia (CC BY-SA 4.0). Attribution: Wikipedia contributors.”。
6.8 数据集许可真相速查表
| 数据集 | 官方”许可” | 工程可用性 | 风险点 |
|---|---|---|---|
| Common Crawl | ToS / 无转授权 | 低~中 | 新闻出版商 opt-out;每月变动 |
| Books3 | 无 | 禁用 | 盗版来源,已下架 |
| LAION-5B / Re-LAION-5B | 非营利发布 | 中 | 商业场景不能套用科研 TDM;opt-out |
| The Pile | 混合(含 Books3) | 不可整包用 | 必须按子集拆分 |
| RedPajama / RedPajama-v2 | 复刻脚本(Apache-2.0) | 中 | 继承 CC / GitHub / Wikipedia 的条款 |
| FineWeb | 脚本 ODC-By 1.0 | 中 | 数据继承 Common Crawl 风险 |
| The Stack v2 | ODC-By 1.0 + 子仓库 SPDX | 中 | GPL / AGPL 代码争议;署名义务 |
| Stack Exchange dump | CC BY-SA 3.0/4.0 | 中 | ShareAlike 可能传染 |
| Wikipedia dump | CC BY-SA 3.0/4.0 | 中 | 署名与 ShareAlike |
| PubMed Central OA subset | 多样(CC 变体居多) | 高 | 区分 OA vs non-OA |
| arXiv | 作者选择(多为 CC 或 perpetual) | 中~高 | perpetual license 禁商业再分发 |
| Gutenberg(公版书) | Public Domain | 高 | 美国 public domain 标准,他国可能不同 |
| USPTO 专利 | Public Domain(美国政府作品) | 高 | 描述文字公共域,图纸另说 |
七、三类工程场景的合规清单
7.1 预训练(Pre-training)
预训练是版权风险最集中的环节——数据量最大、许可最杂、事后替换成本最高。
检查清单:
- 数据源清单
- 每一个数据源(目录/压缩包/URL 列表)对应一个 Dataset Card,含来源、许可、opt-out 状态、抓取时间;
- 禁用数据集黑名单:Books3、任何 BitTorrent 来源、任何声明 “noai” 的网站。
- 合法访问证据
- 爬虫日志:URL、HTTP 状态码、抓取时间、robots.txt 快照;
- 商业数据集采购的 invoice 与 License Agreement;
- 用户数据:取得同意/合同的存证。
- opt-out 尊重链路
- 爬取阶段:
robots.txt+X-Robots-Tag+ TDMRep; - 训练前再次扫描:域名是否新增 opt-out?若是则剔除。
- 爬取阶段:
- 语料清洗管线
- 去重(MinHash / SimHash)——减少 memorization 概率;
- 去除 PII(个人信息);
- 去除 CSAM、暴力等有害内容;
- 去除”版权高风险”类别(新闻全文、书籍节选、图库元数据)。
- 训练数据摘要
- 按 EU AI Act 模板生成公开摘要;
- 保留内部详细清单供诉讼/尽调时调取。
7.2 微调(Fine-tuning / RLHF / DPO)
微调阶段数据量小但每条数据的单价风险高——多数是人工标注或第三方贡献。
检查清单:
- 标注员合同:标注员/众包平台签署的是著作权转让还是使用许可?两者在 AI Act 披露义务下有差异。
- 用户贡献数据
- 产品 ToS 中必须明确用户允许其输入/反馈用于模型改进;
- 对于 ChatGPT / Claude 等 API 的企业客户,通常有”不用于训练”的默认选项——你作为调用方,使用客户数据做微调时要反向确认 ToS;
- 合成数据(synthetic data)
- 由强模型生成的数据——见下节专门讨论;
- 开放数据集微调
- Alpaca(基于 OpenAI text-davinci-003 生成)
- ShareGPT(用户导出的 ChatGPT 对话)
- Dolly(Databricks 员工贡献,CC BY-SA 3.0)
- OpenAssistant(CC BY 4.0) 每个都有自己的条款限制,Alpaca / ShareGPT 有 OpenAI ToS 风险。
常见微调数据集的许可速查:
| 数据集 | 声明许可 | 真实风险 |
|---|---|---|
| Alpaca / Alpaca-GPT4 | 作者声明 CC BY-NC | 底层由 OpenAI API 生成,触发 OpenAI ToS 的”禁止训练竞品”条款——商业模型训练不建议 |
| ShareGPT | 无官方声明 | 用户导出 ChatGPT 会话,同上 ToS 风险,且内容可能含他人受版权保护的素材 |
| Dolly 15k | CC BY-SA 3.0 | Databricks 员工人工写的,许可清晰;ShareAlike 的传染性对模型输出存在争议 |
| OpenAssistant OASST | Apache 2.0 + CC BY 4.0 | 全球志愿者贡献,采用宽松 CLA;总体最干净的开源对话数据之一 |
| LIMA | Non-commercial research | 商业不可用 |
| UltraChat | MIT | 早期由 GPT 生成——仍有竞品 API 争议 |
| WizardLM / Evol-Instruct | 多来源 | 含多轮 GPT 生成,商业慎用 |
| FLAN Collection | Apache 2.0 | Google 发布,由公开 NLP 数据集改造而来,需要回溯子集 |
| ChatQA / RLHFlow 系列 | 多种 | 读具体 Card |
| ANAH / MERaLiON / 中文对齐数据集 | 各异 | 国内场景需核对发布方授权 |
7.3 RAG / 私域检索
RAG(Retrieval-Augmented Generation)把外部文档向量化后在推理时检索,看似”没有训练”,但仍涉及复制权与改编权。
关键问题:向量化是否构成”复制”?
- 向量化把文本切块存入向量库——切块存储是复制;
- 向量本身是否算作品的复制?目前法律上没有明确答案。向量是对文本语义的压缩表示,在能够近似还原原文的情况下,应被视为复制;反之(如量化程度极高、无法还原)更接近”统计特征”。
- 保险做法:向量化和切块存储都按复制对待,必须有授权。
检查清单:
- 数据分层
- 客户私域文档:合同中明确允许向量化存储;
- 公开但受版权保护的文档(如第三方论文/书籍):按普通复制行为评估;
- 公开领域文档:无需特殊处理;
- 多租户隔离:A 客户的数据绝不能出现在 B 客户的检索结果;
- 出处标注:RAG 输出必须给出来源 URL + 作者 + 许可(CC BY / CC BY-SA 的必要条款);
- 缓存 TTL:如果源网站撤下内容或明确 opt-out,要能在 X 天内从索引中清除。
# 私域 RAG 的最小合规封装
from dataclasses import dataclass
from typing import Optional
@dataclass
class IndexedDoc:
doc_id: str
tenant_id: str # 多租户隔离
source_url: str
license: str # 记录 license 名称或 SPDX
ingest_time: str
opt_out_checked: bool
attribution_text: Optional[str] # CC BY 等需要的署名文本
def can_serve(doc: IndexedDoc, querying_tenant: str) -> bool:
if doc.tenant_id != querying_tenant:
return False
if not doc.opt_out_checked:
return False
if doc.license.startswith("proprietary") and doc.tenant_id != "internal":
return False
return True7.4 端到端场景走查:一个医疗问答产品
把以上三类场景合起来,看一个真实形状的产品如何落地:某团队要做”面向三甲医院医生的辅助问答系统”。
预训练:不自训,采用 Meta LLaMA 3 / Qwen 2.5 / Mistral 的开放权重。合规工作主要是读懂这些模型的 Community License 与训练数据声明,确认在医疗场景、面向中国用户可用(参见下一篇 模型许可证深度解析)。
继续预训练(continual pretraining):加入 100GB 中文医学语料。来源选择:
- PubMed OA 子集(英文,license 清晰)——直接可用,需保留署名;
- CNKI 中文医学期刊——走正式采购,获取训练用途许可;
- 医学教材——不要爬取,PDF 图书在任何司法辖区都是最高风险类别;
- 公立医院公开指南 / CDC / WHO 文件——政府作品,多为 public domain 或 CC。
监督微调:构造 5 万条 “病例 → 诊断建议” 对。来源选择:
- 与合作医院签署数据使用协议,医院提供脱敏病历;
- 众包医生标注——合同中明确著作权归项目方;
- 不使用竞品医疗大模型蒸馏;
- 不使用ShareGPT 中的医疗问答(来源不可信,且 OpenAI ToS 限制)。
RAG 层:接入医院 HIS / 知识库、UpToDate(如医院订阅)、诊疗指南库。关键:
- UpToDate 内容 只能在医院已有订阅的范围内向该医院医生展示;
- 每条 RAG 输出必须带引用与许可;
- PHI / PII 严格隔离。
出海:如果要卖给新加坡、欧盟的医院,需额外评估 GDPR、EU AI Act(医疗 AI 属 Annex III 高风险)、以及目的国对”医疗器械软件”的法规。
这套落地表明:对一个典型 AI 产品,训练数据合规不是”发布前最后一步”,而是每一个数据源在接入时都要做的门禁。
八、合成数据与模型蒸馏
8.1 模型 A 的输出能否用于训练模型 B?
合成数据(synthetic data)指由一个已有模型生成、再用于训练另一个模型的数据——典型用途是用 GPT-4 生成问答对微调小模型。
这一行为涉及两层许可:
- 生成 API 的 ToS——OpenAI、Anthropic、Google 的 API ToS 均包含”禁止使用输出训练与我们竞争的模型”条款。例如 OpenAI Business Terms 明确:“You may not use Output to develop models that compete with OpenAI.”27
- 底层数据的版权——如果 GPT-4 在训练阶段吸收了 NYT 的文本,蒸馏出的小模型理论上继承了同样的风险(虽然稀释了)。
8.2 ToS 违约 vs 著作权侵权
合成数据的法律风险主要来自合同违约(违反 ToS),而非著作权——OpenAI 不持有 GPT-4 输出的版权(美国版权局 2023 年明确 AI 生成内容一般不享有著作权保护)。
这意味着:
- 你用 GPT-4 蒸馏出的模型——OpenAI 可以封禁你的账号、起诉你违约、要求赔偿,但不容易主张著作权侵权;
- 如果 GPT-4 输出中 逐字包含 NYT 的文本,NYT 仍可以起诉你著作权侵权(你是”复制”的最终受益者)。
业界已有的公开案例:2023 年 11 月字节跳动暂停 OpenAI 账号——据 The Verge 报道,原因是被怀疑使用 GPT 输出训练自家豆包/云雀模型28。这是典型的 ToS 违约而非版权诉讼。
8.3 工程启示
- 不要依赖竞品 API 蒸馏你的核心模型——不但法律上有违约风险,被封号会直接阻断业务;
- 如果一定要做合成数据,选择明确允许的来源:
- 自己训练的模型的输出;
- 以”非营利 / 研究”为目的的开源模型(Apache-2.0 的 Mistral、LLaMA 系列需读懂其 Community License);
- 参考 模型许可证深度解析 中关于 OpenRAIL-M、LLaMA Community License 的条款差异。
- 对合成数据做溯源标注:哪些样本由谁的模型生成,以便日后有变故能精确剔除。
8.4 创作者侧的”反 AI 训练”技术
和 opt-out 的法律手段并行,创作者社区发展出了技术对抗手段。工程团队需要了解这些手段——它们不仅会”毒化”你的训练数据,还会在法律诉讼中被作为”权利人明确反对”的证据。
| 工具 | 目标 | 机制 |
|---|---|---|
| Glaze(芝加哥大学) | 图像风格保护 | 在图像上叠加人眼几乎不可见、但会扰乱 CLIP/SD 特征的扰动,使 AI 难以模仿风格 |
| Nightshade(同一团队) | 主动”毒化” | 在图像中植入会让模型在训练后把”猫”认成”狗”的目标错分样本 |
| HarmonyCloak | 音乐反训练 | 对音频做不可感知扰动,扰乱音乐生成模型 |
| Have I Been Trained? | 检索工具 | Spawning AI 维护的索引,让创作者查询自己作品是否进入 LAION 等数据集并 opt-out |
| ai.txt / Spawning DNT | 域名级声明 | 类似 robots.txt 的 AI 专用声明文件 |
工程启示:
- 训练前对图像数据做 Glaze / Nightshade 检测,被毒化的样本直接剔除——一方面避免污染模型,另一方面也是”权利人明确反对”的客观证据,继续使用会严重削弱 fair use / TDM 抗辩;
- 尊重
ai.txt、Spawning 的 DNT 列表,并在 DBOM 中记录查询时间。
九、企业落地建议
9.1 数据溯源表(Data Lineage)
最小字段集合:
| 字段 | 说明 |
|---|---|
| dataset_id | 内部数据集唯一 ID |
| source_type | crawl / purchased / user_generated / synthetic / partner |
| source_url 或 vendor | 来源 URL 或供应商 |
| license | SPDX 或自定义许可标识 |
| license_doc_hash | License 文件的 SHA-256(防篡改) |
| access_evidence | 爬虫日志 / invoice ID / 合同编号 |
| opt_out_checked_at | 最近一次 opt-out 扫描时间 |
| pii_scrubbed | 是否已脱敏 |
| copyright_risk_tier | low / medium / high |
| usage_scope | pretrain / finetune / rag / eval |
9.2 Dataset Card
Hugging Face Datasets 2023 年之后推荐的 Dataset Card 模板是社区事实标准29。在 Card 里必须有的段落:
- Dataset Description
- Source Data——子集拆开写
- Licensing Information
- Personal and Sensitive Information
- Known Limitations and Biases
9.3 SBOM for Data
类似 SBOM,DBOM(Data Bill of Materials) 是 2024 年之后开始形成的概念。目前 SPDX 3.0 引入了 “AI Profile” 和 “Dataset Profile”,允许在 SBOM 中描述模型与数据集30。
一份最小化的 SPDX 3.0 Dataset 片段:
{
"@type": "dataset_Dataset",
"spdxId": "SPDXRef-Dataset-MyPile",
"name": "MyPile-v1",
"dataset_datasetType": ["text"],
"dataset_datasetSize": 420000000000,
"dataset_dataCollectionProcess": "crawled via CCBot 2024-Q3",
"dataset_intendedUse": "pretraining of internal LLM",
"dataset_dataPreprocessing": ["dedup-minhash", "pii-scrub-v2"],
"dataset_hasSensitivePersonalInformation": "no",
"licenseConcluded": "LicenseRef-mypile-mixed"
}9.4 内部审批流
最小流程建议:
数据负责人提交 Dataset Card →
合规/法务 Review(检查来源、许可、opt-out)→
安全团队扫描(PII、CSAM、恶意内容)→
OSPO 归档到数据 registry →
训练平台按 dataset_id 引用(禁止直接 mount 原始目录)
关于 OSPO(Open Source Program Office)在这个流程中的角色,参见 企业开源办公室(OSPO)建设。
9.5 出海的额外要求
| 目的市场 | 额外要求 |
|---|---|
| 欧盟 | AI Act 训练数据摘要;尊重第 4 条 opt-out;GDPR 合规 |
| 美国 | 无强制披露,但应为潜在诉讼准备 discovery;各州 AI 法案(加州 AB 2013 起要求 GenAI 训练数据披露) |
| 日本 | 30-4 条可依赖但不绝对;生成侧仍按一般著作权 |
| 中国 | 网信办备案;合法来源证明;TC260 基本要求;知识产权预审 |
| 英国 | TDM 例外仅限非商业研究;商业场景需授权 |
| 韩国 | 著作权法第 35-5 条 TDM 例外(限合法获取的作品) |
关于跨境合规的其他要素(出口管制、实体清单),参见 出海合规:ECCN、实体清单。
9.6 一个常见误解的澄清
工程团队在讨论 AI 训练版权时常出现两个典型误解,有必要逐条澄清:
误解一:许可证里没有禁止训练就可以训练
不对。著作权的默认规则是”未经许可不得复制”,许可证是授权而非限制。CC BY 没有写”禁止 AI 训练”不代表允许 AI 训练——CC BY 允许的是”复制、发行、改编”,其中”是否包含用于 AI 训练”是当前法律上的开放问题。Creative Commons 官方倾向于认为 CC 许可不”反对” AI 训练但也不专门”授权”,建议训练方同时结合合理使用/TDM 例外做评估。
误解二:只要数据是”公开的”就可以用
不对。公开可访问不等于公有领域(public domain)。一篇博客在互联网上任何人都能打开,但它依然受著作权保护。“公开可访问”只在”是否满足 TDM 例外的 lawful access 前提”上有意义——它解决的是访问合法性,不解决后续使用合法性。
误解三:加了噪声、做了嵌入就不算复制
存疑。嵌入向量是否构成”复制”目前没有确定答案。但只要你的系统能从向量近似还原原文,法院倾向于认定复制行为成立。保守做法是”向量 + 分块原文存储”都按复制对待。
把这三条贴在团队 wiki 上,能挡掉一半以上的争论。
十、决策树
下面这张图把全文关键判断合并成一棵树,便于在审批会上快速过 review:
十一、与本系列其他文章的交叉引用
AI 训练数据合规不是一个孤立话题,它与本系列其他环节紧密耦合:
- 许可证基础:开源许可证全景、MIT、BSD、Apache 2.0 的真实区别、GPLv2、GPLv3、LGPL——用于评估 The Stack / StarCoder 语料中各仓库许可。
- 数据作品模型:数据、语料、模型权重:创作性数据模型——训练数据是否受版权保护的前置判断。
- 中国司法态度:中国 GPL 诉讼第一案系列——GPL 在中国被视为合同的路径,可类推到训练数据许可的强制执行。
- 工具链:SCA、SBOM 与软件成分分析——Scancode、ORT 可复用来扫描代码类训练语料;DBOM 扩展自 SBOM。
- 组织保障:企业开源办公室(OSPO)建设——OSPO 往往兼任 DSPO 的角色。
- 贡献者数据:CLA、DCO 与贡献者协议——用户贡献数据用于微调时的授权底座。
- 跨境合规:出海合规:ECCN、实体清单——模型导出与训练数据导出一样需要审视。
- 前后承接:闭源项目如何选择开源依赖——你的 LLM 产品本身也是一个”闭源二进制 + 训练数据 + 开源依赖”的复合体。
- 后续阅读:模型许可证深度解析:OpenRAIL-M、LLaMA、Apache 2.0 在大模型场景的真实区别——数据层合规后,权重层还有一层许可。
- 国内 AIGC 判例汇编:中国 AIGC 司法判例汇编——对本文第五节的判例做纵向展开。
本文为工程参考,不构成法律意见。涉及具体法律风险请咨询专业法律顾问。
十二、参考资料
法律法规与官方文件
- 美国《版权法》第 107 条(fair use):https://www.copyright.gov/title17/92chap1.html#107
- EU Directive 2019/790 (DSM Directive):https://eur-lex.europa.eu/eli/dir/2019/790/oj
- Regulation (EU) 2024/1689 (AI Act):https://eur-lex.europa.eu/eli/reg/2024/1689/oj
- 日本著作権法(30 条の 4):https://elaws.e-gov.go.jp/document?lawid=345AC0000000048
- 日本文化厅《AI と著作権に関する考え方について》(2024):https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/hoseido/r05_07/
- 中华人民共和国《著作权法》(2020 修正):http://www.npc.gov.cn/
- 《生成式人工智能服务管理暂行办法》(2023):http://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
- GB/T 网络安全技术 生成式 AI 服务安全基本要求(TC260):https://www.tc260.org.cn/
- California AB 2013(GenAI Training Data Transparency):https://leginfo.legislature.ca.gov/
主要判例
- Authors Guild v. Google, Inc., 804 F.3d 202 (2d Cir. 2015)
- Andy Warhol Foundation v. Goldsmith, 598 U.S. 508 (2023):https://www.supremecourt.gov/opinions/22pdf/21-869_87ad.pdf
- Thomson Reuters Enterprise Centre GmbH v. ROSS Intelligence Inc., D. Del. 2025
- The New York Times Co. v. Microsoft Corp. & OpenAI Inc., S.D.N.Y.:https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf
- Doe v. GitHub, Inc., N.D. Cal.:https://githubcopilotlitigation.com/
- Andersen v. Stability AI Ltd., N.D. Cal.
- Bartz et al. v. Anthropic PBC:https://www.courtlistener.com/docket/67569326/bartz-v-anthropic-pbc/
- Getty Images v. Stability AI (UK):https://www.judiciary.uk/
- Kneschke v. LAION e.V., LG Hamburg Az. 310 O 227/23:https://openjur.de/u/2490573.html
- 北京互联网法院 AI 文生图案(2023)
- 广州互联网法院 奥特曼形象案(2024)
数据集官方页
- Common Crawl:https://commoncrawl.org/
- The Pile:https://pile.eleuther.ai/
- RedPajama:https://github.com/togethercomputer/RedPajama-Data
- FineWeb:https://huggingface.co/datasets/HuggingFaceFW/fineweb
- LAION-5B / Re-LAION:https://laion.ai/blog/relaion-5b/
- The Stack / The Stack v2:https://www.bigcode-project.org/docs/about/the-stack/
- Am I in The Stack:https://huggingface.co/spaces/bigcode/in-the-stack
- Stack Exchange Data Dump:https://archive.org/details/stackexchange
- Wikipedia dumps:https://dumps.wikimedia.org/
- Project Gutenberg:https://www.gutenberg.org/
标准与规范
- SPDX 3.0 AI & Dataset Profile:https://spdx.github.io/spdx-spec/v3.0.1/model/AI/AI/
- Hugging Face Dataset Cards:https://huggingface.co/docs/datasets/dataset_card
- Model Cards for Model Reporting(Mitchell et al., 2019):https://arxiv.org/abs/1810.03993
- Datasheets for Datasets(Gebru et al., 2018):https://arxiv.org/abs/1803.09010
- W3C TDM Reservation Protocol:https://www.w3.org/community/tdmrep/
- C2PA(Content Provenance):https://c2pa.org/
社区与研究
- Nicholas Carlini et al., Extracting Training Data from Large Language Models:https://arxiv.org/abs/2012.07805
- Creative Commons on AI:https://creativecommons.org/2023/02/08/making-ai-work-for-creators-and-the-commons/
- BigCode Governance Card:https://huggingface.co/datasets/bigcode/governance-card
- EleutherAI Policy:https://www.eleuther.ai/papers-blog
工具
- scancode-toolkit:https://github.com/nexB/scancode-toolkit
- OSS Review Toolkit (ORT):https://oss-review-toolkit.org/
- datatrove(大规模语料管道):https://github.com/huggingface/datatrove
- Mozilla Common Voice(授权清晰的语音数据):https://commonvoice.mozilla.org/
上一篇:闭源项目如何选择开源依赖
下一篇:模型许可证深度解析:OpenRAIL-M、LLaMA、Apache 2.0 在大模型场景的真实区别
The New York Times Co. v. Microsoft Corp. et al., 诉状:https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf↩︎
Doe v. GitHub, Inc., Case No. 4:22-cv-06823, N.D. Cal.:https://githubcopilotlitigation.com/↩︎
Getty Images v. Stability AI 英国诉讼:https://www.gettyimages.com/eula#/lawsuit↩︎
Carlini et al., Extracting Training Data from Large Language Models, USENIX Security 2021:https://arxiv.org/abs/2012.07805↩︎
Thomson Reuters v. ROSS Intelligence, D. Del., 2025 年 2 月简易判决:https://news.bloomberglaw.com/ip-law/thomson-reuters-wins-first-major-ai-copyright-case-in-us↩︎
Anthropic 在 Bartz v. Anthropic 答辩中的相关披露:https://www.courtlistener.com/docket/67569326/bartz-v-anthropic-pbc/↩︎
Getty v. Stability AI UK 一审报道:https://www.reuters.com/technology/artificial-intelligence/getty-images-lawsuit-says-stability-ai-misused-photos-train-ai-2023-02-06/↩︎
LG Hamburg 判决(Az. 310 O 227/23):https://openjur.de/u/2490573.html↩︎
广州互联网法院”春风画面”案报道:https://www.court.gov.cn/↩︎
广州互联网法院”奥特曼”案(2024):https://www.court.gov.cn/↩︎
北京互联网法院 AI 文生图案(2023):https://www.court.gov.cn/↩︎
Andy Warhol Foundation v. Goldsmith, 598 U.S. 508 (2023):https://www.supremecourt.gov/opinions/22pdf/21-869_87ad.pdf↩︎
TDM Reservation Protocol:https://www.w3.org/community/tdmrep/↩︎
Regulation (EU) 2024/1689:https://eur-lex.europa.eu/eli/reg/2024/1689/oj↩︎
日本文化厅《AI と著作権に関する考え方について》(2024):https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/hoseido/r05_07/↩︎
《生成式人工智能服务管理暂行办法》:http://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm↩︎
北京互联网法院 AI 文生图案(2023):https://www.court.gov.cn/↩︎
广州互联网法院”奥特曼”案(2024):https://www.court.gov.cn/↩︎
广州互联网法院”春风画面”案报道:https://www.court.gov.cn/↩︎
Common Crawl Terms of Use:https://commoncrawl.org/terms-of-use↩︎
Anthropic 在 Bartz v. Anthropic 答辩中的相关披露:https://www.courtlistener.com/docket/67569326/bartz-v-anthropic-pbc/↩︎
Re-LAION-5B 公告:https://laion.ai/blog/relaion-5b/↩︎
LG Hamburg 判决(Az. 310 O 227/23):https://openjur.de/u/2490573.html↩︎
FineWeb Dataset Card:https://huggingface.co/datasets/HuggingFaceFW/fineweb↩︎
Am I in The Stack: https://huggingface.co/spaces/bigcode/in-the-stack↩︎
Creative Commons, Understanding CC Licenses and Generative AI:https://creativecommons.org/2023/02/08/making-ai-work-for-creators-and-the-commons/↩︎
OpenAI Business Terms:https://openai.com/policies/business-terms↩︎
The Verge 报道:https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-ai-ban↩︎
Hugging Face Dataset Cards:https://huggingface.co/docs/datasets/dataset_card↩︎
SPDX 3.0 AI & Dataset Profile:https://spdx.github.io/spdx-spec/v3.0.1/model/AI/AI/↩︎
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【开源许可与版权工程】中国 AIGC 司法案例集:从春风画面到奥特曼案的工程启示
系统梳理 2023 年以来中国司法实践对生成式 AI 的关键判决:北京互联网法院 Stable Diffusion 春风画面案、广州互联网法院奥特曼案、上海浦东新区奥特曼新案、杭州互联网法院 AI 生成图可版权性案,以及围绕训练数据、平台责任、深度伪造、声音人格权的典型案件。每个案例给事实、裁判要点、与他国判例的比较、工程合规启示。
开源许可与版权工程
面向中国工程团队的开源许可、版权与合规系列。从 GPL、AGPL、Apache、木兰协议到中国真实案例、SCA/SBOM 工具链与出海合规,讲清楚开源在工程落地中的坑与方法。
【开源许可与版权工程】中国 GPL 诉讼第一案系列:数字天堂、不乱买、罗盒
数字天堂 vs 柚子科技(2019)、不乱买案(2018)、罗盒 vs 玩友(2019–2020)——这批中国 GPL 诉讼案件厘清了 GPL 作为合同在中国法律框架下的效力,以及违反 GPL 的法律后果。本文梳理案件脉络、判决核心争议与工程合规启示。
【开源许可与版权工程】中国法下的软件著作权与开源
从《著作权法》2020 年修订到《计算机软件保护条例》,从软著登记到 GPL 在中国法下的合同说与许可说之争:面向工程师、架构师与 OSPO 的中国软件著作权实战指南。