【开源许可与版权工程】文档、数据、模型的许可：CC、ODbL、OpenRAIL、LLaMA 协议

开源许可证的世界长期被「软件许可证」一词所垄断：MIT、Apache、GPL、BSD，这些名字在工程师圈子里几乎是常识。但当一个项目里同时出现 README、文档站、配套数据集、预训练模型权重、微调脚本、评测集，一个「按 MIT 发布」的声明就已经无法覆盖全部资产了。

2022 年以后，随着大规模语言模型（Large Language Model，LLM）与生成式 AI 的爆发，这种错配尤为突出：发布方必须同时回答四类问题——代码以什么协议发布？文档以什么协议发布？训练 / 评测数据以什么协议发布？模型权重以什么协议发布？它们的组合决定了下游用户能做什么、不能做什么。

本文尝试把非代码资产的许可证体系讲清楚，包括：Creative Commons（CC）家族、开放数据库许可证（ODbL / ODC-BY / PDDL）、AI 模型的 OpenRAIL 家族、以 LLaMA 为代表的「开放权重但非开源」的社区协议、以及 Mistral / Qwen / DeepSeek / InternLM / 百川等中国与欧洲团队对 Apache 2.0 与 MIT 的选择。最后用一节来讲开源倡议组织（Open Source Initiative，OSI）在 2024 年 10 月发布的开源 AI 定义（Open Source AI Definition，OSAID）1.0，以及它对现有「开源模型」带来的冲击。

本文不是法律意见，是工程参考。它的目标是让一个发布模型或数据的工程师，能在读完之后做出下面这种判断：「我这个数据集适合 CC-BY 4.0 还是 ODbL 1.0？」「我把 LLaMA 3.1 微调之后发布，命名要不要带 Llama 前缀？」「我要不要申请 OSAID 认证？」

一、软件许可证为什么不适用于非代码内容

在讨论 CC、ODbL、OpenRAIL 之前，必须先把一件事讲清楚：MIT / Apache / GPL 这些软件许可证，从法理上讲，作用对象就不是文档、数据或模型权重。

1.1 著作权法对不同对象的作用方式

大多数国家的著作权法（Copyright Law）以 1886 年《保护文学和艺术作品伯尔尼公约》为底板，加上 TRIPS、WIPO 版权条约逐步演化。它保护的是「作品」——即「具有独创性并以某种有形形式表达」的文学、艺术、科学成果。它不保护：事实、思想、方法、算法本身。

这一条原则在不同类型的对象上带来了非常不同的后果：

代码：被视为「文字作品」（literary work），受著作权保护。MIT、Apache 2.0、GPL 正是用作者的版权人身份，反向许可下游使用。协议脱离版权就失效。
文档 / 文章 / 图片 / 视频：同样是文字 / 美术 / 视听作品，受著作权保护。理论上 MIT 也可以用，但 MIT 措辞是为「软件」设计的，对「发表」「署名」等细节没有规定，不符合文化作品的习惯。
数据（facts、measurements、coordinates）：在大多数司法区中，单个事实不受著作权保护。一张「北京的经纬度是 39.9042° N, 116.4074° E」的表不具独创性，任何人都可以复制。
数据库（database）：分两类。一类是「具有独创性的编排与选择」，例如一份精心挑选和分类的诗集，其「选择与编排」受著作权保护——这叫「汇编作品著作权」（Compilation Copyright）；另一类是「仅仅穷尽性列举事实」，例如一份街道号码簿，不具独创性，在美国不受版权保护（参见 Feist v. Rural Telephone, 1991）。
模型权重（model weights）：是几十到几千亿个浮点数构成的张量。它是不是「作品」？是不是「数据库」？抑或是某种全新的东西？法律界还在辩论。

1.2 汇编作品著作权：为什么数据库需要特殊对待

Feist 案确立了美国立场：单纯的事实收集不具独创性，汗水劳动原则（sweat-of-the-brow doctrine）不能成为版权基础。

欧盟的选择不同。1996 年《数据库指令》（Directive 96/9/EC）在著作权之外，为数据库设立了一项「特殊权利」（sui generis database right），保护对数据库内容的「实质性投入」。这项权利与独创性无关，持续 15 年，每次实质性更新重新起算。

这套差异直接导致：一份在美国可以随意复用的数据库，在欧盟可能构成侵权。 Open Database License（ODbL）正是为了同时覆盖这两种制度而设计的——即便你在的司法区不承认 sui generis database right，也通过合同约束（contract law）达到类似效果。

1.3 模型权重：软件、数据，还是新物种

主流观点有三派：

权重是软件的一部分：推理代码需要权重才能运行，缺了就跑不起来。
权重是训练数据的「函数」：把训练数据视为输入、训练算法视为算子、权重视为输出。于是权重的法律地位取决于训练数据本身的权利结构。
权重是新客体：像数据库 sui generis 一样，需要一类新的权利。

美国版权局在 2023 年 3 月《版权登记指南》和后续意见中给出的口径是：没有实质性人类创作介入的 AI 生成物，不能登记版权。 但这说的是 AI 生成的「输出」，不是权重本身。权重是否可版权保护，目前仍是开放问题。

工程实践中，大多数模型发布者选择用「许可证 + 服务条款」的组合来约束使用——不论权重本身是否可版权保护，只要你下载了它，就等同于接受了协议。 这是一种合同法层面的约束，而非版权法层面的。这正是 RAIL 家族最核心的法律设计。

1.4 OSI 的历史局限

OSI 在 1998 年成立时，其开源定义（Open Source Definition，OSD）只针对软件源代码。它的十条标准中多次出现「program」「source code」「compilation」等措辞，完全没有考虑数据、文档、训练权重。

在 2022 年之前，这并不是大问题——Creative Commons 处理文档图片、Open Knowledge Foundation 处理数据库、各家自行发布模型权重，各管一段。2022 年以后，随着 Stable Diffusion、BLOOM、LLaMA、Qwen 的相继开放，OSI 发现自己必须直接面对「开源 AI 是什么」的问题。OSAID 1.0 的难产（18 个月以上的社区协商）反映了定义非代码资产的开源身份有多难。

1.5 一个资产，一个协议

工程上更务实的做法是按资产类型分别给协议：

/project-root
├── src/                 # Apache-2.0
├── docs/                # CC-BY-4.0
├── datasets/train.csv   # ODbL-1.0 / CC-BY-4.0 / CC0
├── models/              # OpenRAIL-M / Apache-2.0 / LLaMA-Community-3.1
├── LICENSE              # Apache-2.0 (代码)
├── LICENSE-docs         # CC-BY-4.0
├── LICENSE-data         # ODbL-1.0
└── LICENSE-weights      # OpenRAIL-M / LLaMA-Community

Hugging Face 模型仓库的 tags.license 字段就是为这种场景设计的。PyPI 在新版元数据（PEP 639）中也允许 SPDX 表达式同时覆盖多个许可证。

二、Creative Commons 许可证家族（CC）

Creative Commons（知识共享）是 2001 年由劳伦斯·莱斯格（Lawrence Lessig）等人在美国创立的非营利组织，目标是为文学、艺术、科学类作品提供一套标准化的开放许可证。它并不是一个法律实体的集合，而是标准化的许可证模板——真正生效的是作者在作品上附加的那个 CC 许可证声明。

2.1 CC 许可证的四个要素

CC 通过四个模块化的要素组合出 6 种主要许可证：

要素	缩写	含义
署名（Attribution）	BY	必须署原作者名、来源、许可证
相同方式共享（ShareAlike）	SA	衍生作品必须使用相同的许可证
非商业性使用（NonCommercial）	NC	不得用于主要为商业利益的用途
禁止演绎（NoDerivatives）	ND	不得修改、改编、重混

从这四个要素可以组合出 6 种有效组合（SA 与 ND 互斥，因为 SA 要求允许演绎并要求演绎以相同协议发布，而 ND 禁止演绎，放在一起没有意义）：

CC BY          = 仅署名
CC BY-SA       = 署名 + 相同方式共享
CC BY-NC       = 署名 + 非商业
CC BY-NC-SA    = 署名 + 非商业 + 相同方式共享
CC BY-ND       = 署名 + 禁止演绎
CC BY-NC-ND    = 署名 + 非商业 + 禁止演绎

此外还有一个特殊的「CC0」，它不是 CC 许可证，而是著作权放弃声明。

从工程视角看，可以把这 7 种按「宽松度」排成一条线：

宽松 ───────────────────────────────────────────── 限制
 CC0  <  CC BY  <  CC BY-SA  <  CC BY-ND  <  CC BY-NC  <  CC BY-NC-SA  <  CC BY-NC-ND

2.2 CC-BY 4.0

CC-BY 4.0 是最常见、最推荐的「开放内容」许可证。它允许：

复制、分发、公开传播作品
修改、改编、基于作品创作衍生品
商业用途
任意媒介、任意格式

唯一的要求是：署名。署名的具体要求在 CC-BY 4.0 第 3 条中规定，工程界通常用「TASL」四元组概括：

Title：作品标题
Author：作者姓名或署名
Source：作品来源的 URI
License：协议名称与链接

一个标准的署名示例：

"快速排序" by Tony Hoare, from https://en.wikipedia.org/wiki/Quicksort,
licensed under CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0/)

CC-BY 4.0 在功能上非常接近软件界的 MIT 与 BSD-3-Clause：允许商用、允许修改、只要求署名。它是目前文档、教程、博客类作品的默认推荐协议。

2.3 CC-BY-SA 4.0

SA（ShareAlike，相同方式共享）本质上是「文化作品的 copyleft」。它要求衍生作品必须以相同或兼容的协议重新发布。这种「感染力」与 GPL 的机制完全一致。

最知名的 CC-BY-SA 使用者就是维基百科（Wikipedia）。维基媒体基金会 2009 年从 GFDL 迁移到 CC-BY-SA 3.0，然后在 2023 年 6 月把条款更新到 CC-BY-SA 4.0。这意味着：

如果你的应用里复制了维基百科的一段话，你发布的部分必须用 CC-BY-SA 4.0 或兼容协议重新发布；
你不能把维基百科内容嵌进一个完全私有的产品；
你必须提供署名、链接、协议声明。

CC-BY-SA 4.0 与 GPL 并不兼容。它们的条款来自不同的法律基础：GPL 是软件代码的版权协议，CC-BY-SA 是创作作品的版权协议。CC 组织明确指出：不建议把 CC-BY-SA 用于软件源代码，请用 GPL；也不建议把 GPL 用于文档，请用 CC-BY-SA。

2.4 CC-BY-NC 与 CC-BY-NC-SA

NC（NonCommercial）是最让工程界头疼的要素。CC-BY-NC 4.0 第 1(k) 条把「非商业」定义为「not primarily intended for or directed towards commercial advantage or monetary compensation」，中文大致是「非主要为商业利益或获取金钱补偿」。

这个定义有多模糊，看一下现实的边界案例：

个人博客开了 Google AdSense：算商业吗？大多数律师会说「是」，因为站点产生广告收入。
大学研究人员用 CC-BY-NC 数据集做研究：一般认为是非商业；但如果研究成果被产业化、或得到公司赞助呢？
公司内部 Wiki 引用 CC-BY-NC 图片：是否构成「为商业利益」？不同法域判决不一。
发布到 GitHub：GitHub 本身是商业平台。把 CC-BY-NC 作品放到 GitHub 并没有问题，但如果嵌入到一个 SaaS 产品里，就是另一回事。

Wikimedia 基金会、Debian 项目、开放获取期刊（Open Access Journal）都不建议使用 NC 条款，原因正是其模糊性使下游无法明确合规边界。

2.5 CC-BY-ND 与 CC-BY-NC-ND

ND（NoDerivatives）禁止演绎。它的典型用法：

新闻稿（press release）——希望整体传播，但不允许被断章取义或重新混编；
官方声明、法规文本草稿；
固定形态的艺术作品，例如摄影师发布原片希望不被修改。

注意两点：

ND 条款不妨碍「复制 + 原样分发」，因此仍可用作资料传播；
ND 条款下翻译是否构成演绎，在法律上有争议。CC 组织在 FAQ 中的立场是：「翻译几乎总是构成演绎」。

2.6 CC0（公共领域贡献）

CC0（读作「CC Zero」）是 2009 年引入的工具，用于把作品献入公共领域（public domain）。它的口号是「No Rights Reserved」。

CC0 不是一个许可证，而是一个三层法律结构：

首先尝试彻底放弃所有著作权（很多国家支持放弃，比如美国）；
如果当地法律不允许放弃（例如德国的「人格权」不可放弃），则退化为一个全球范围、永久、不可撤销的免费许可；
对于专利权、商标权等其它权利，声明不主张。

工程上，CC0 类似于软件的 0BSD 或 Unlicense。它被大量用于：

美国政府公开数据（data.gov 大量数据集）
Unsplash、Pixabay 的免费图片
Wikimedia Commons 中的部分内容
scikit-learn 的 toy datasets 中的样例

对数据集而言，CC0 是最少摩擦的选择，但它不处理 sui generis database right——在欧盟，如果你想放弃数据库特殊权利，应当使用 PDDL（见第三节）。

2.7 CC 许可证的版本问题

CC 许可证到目前已经迭代过 4 个版本：1.0、2.0、2.5、3.0、4.0。在工程中需要注意：

3.0 Unported vs 4.0 International：3.0 有「unported」和若干国家本地化版本（例如 CC-BY 3.0 China Mainland）；4.0 改为「International」，不再做本地化，目标是成为全球统一条款。
4.0 对 NC 的定义更清晰：把「商业用途」的判定锚定在「主要目的」而非「任何间接收益」。
4.0 对署名要求的灵活化：允许「以合理方式」署名，不再强制放在作品旁边。
4.0 显式处理 sui generis database rights：4.0 版本的 CC-BY 和 CC-BY-SA 明确覆盖欧盟数据库特殊权利，而 3.0 不覆盖。
4.0 引入可撤销的署名：作者可以要求下游不再署其名，以免被误认为「背书」。

新项目请一律用 4.0。 已经在 3.0 下发布的内容可以维持，但如果升级或重发，升级到 4.0 是常见做法。

2.8 CC 在中国的适用性

Creative Commons 中国大陆分部曾由中国人民大学法学院承担 affiliate 工作，后来 CC 国际在 2016 年取消了国家分部体系，统一以 CC 4.0 International 为核心。

在中国司法实践中，多个判决明确认定 CC 许可证的条款在合同法下是有效的：

2014 年世纪互联 vs 微博案（北京海淀区法院）：被告在使用原告 CC-BY-NC 图片时未署名、且用于商业广告，法院支持原告主张。该案是国内较早明确承认 CC 协议效力的判决之一。
2018 年图虫创意案、华盖创意系列案：多个涉 CC 图片授权的案件中，法院承认 CC 协议作为附加生效条件的合同约束力，若被告未履行署名义务，即使行为在 CC 允许的范围内，也视为「未获得授权」。
2021 年后，北京互联网法院多起案件：维基百科内容被未经署名转载，法院以 CC-BY-SA 作为认定侵权的依据之一。

中国的开放数据实践中使用 CC 协议的例子：

上海市公共数据开放平台使用「上海市公共数据开放署名条款」（自定义，但实质等同 CC-BY）；
清华大学 THUNews、中科院部分研究数据集采用 CC-BY-SA 或 CC-BY-NC；
北京大学语料库、哈工大 LTP 等工具的说明文档多采用 CC-BY。

对国内开发者而言，最安全的选择是：文档、教程、博客默认 CC-BY 4.0；希望维持开放生态的采用 CC-BY-SA 4.0；尽量避免 NC 与 ND，除非有明确理由。

三、数据库许可证

3.1 为什么数据库需要专门的许可证

前面提到，单纯事实不受版权保护，但事实的汇编可能受保护。进一步，欧盟的数据库特殊权利（sui generis database right）还保护「对数据库内容取得、核实、呈现的实质性投入」。

于是一份数据库在不同法域会有不同的权利结构：

在美国：只有「选择与编排」的独创性部分受版权；单纯枚举事实不受保护；
在欧盟：既可能受版权保护，也可能受 sui generis 权利保护；
在中国：《著作权法》第 15 条保护「汇编作品」，《反不正当竞争法》在一些数据爬取案件中被用来保护「实质性投入」。

用 CC-BY / CC0 许可一份数据库，在欧盟会留有 sui generis 缺口（CC 4.0 修复了这个缺口，3.0 没有修复）。这正是 Open Data Commons 系列协议存在的原因：它们明确覆盖数据库权利。

3.2 Open Database License（ODbL）

ODbL 1.0 由开放知识基金会（Open Knowledge Foundation）在 2009 年发布。它有三个核心要求：

署名（Attribution）
数据库的相同方式共享（ShareAlike for databases）
保持开放（Keep Open）：不得用技术措施禁止他人使用数据库

ODbL 区分两个概念，非常重要：

衍生数据库（Derivative Database）：对数据库本身做的修改、增补、重结构，构成衍生数据库，必须以 ODbL 重新发布；
产出作品（Produced Work）：使用数据库内容生成的、非数据库的东西，例如根据 OSM 渲染的一张地图图片、基于 OSM 计算的一份报告。产出作品不需要以 ODbL 发布，但仍须标注数据来源。

OpenStreetMap（OSM） 从 2012 年 9 月起全面采用 ODbL 1.0。这意味着：

你可以把 OSM 数据抽一份用到你的导航产品里——你的导航图片是「产出作品」，不受 SA 感染；
但你要给用户提供 OSM 的标注数据、基于它改出来的「衍生」标注库，必须以 ODbL 重新发布；
你不能加 DRM 或技术手段阻止别人下载这个派生库。

工程上常见的 ODbL 署名：

© OpenStreetMap contributors, licensed under the Open Database License
https://www.openstreetmap.org/copyright

3.3 ODC-BY（Attribution）

ODC-BY 1.0 是「仅署名」的数据库协议。它对应软件界的 BSD / MIT：

署名即可；
无 ShareAlike；
不强制保持开放。

适合那些希望数据尽可能被广泛使用（包括闭源产品）、但又希望保留署名的机构。

使用 ODC-BY 的典型案例：

部分机器学习评测集；
一些政府开放数据（美国、英国各级政府数据门户提供可选协议）；
学术领域的开放知识图谱。

3.4 PDDL（Public Domain Dedication and License）

PDDL 1.0 是数据库版本的 CC0：把所有著作权、数据库权利放弃到公共领域的极限状态。与 CC0 类似，它采用三层结构，在不允许放弃权利的法域退化为无条件许可。

PDDL 常用于：

美国联邦政府的大量开放数据集（政府作品在美国本身就属公有领域）；
学术机构希望数据被尽可能广泛复用，包括商业用途，且不希望下游有任何额外义务；
作为基础数据集的「种子」，希望被多次重组、混合、再发布。

3.5 中国数据许可实践

中国在数据许可层面的现状是：国家层面的法律框架（《数据安全法》《个人信息保护法》《生成式人工智能服务管理暂行办法》）关注的是数据合规与安全分级，而非许可证标准化。

工程上落到许可证层面的现实：

政府开放数据：多用自定义「开放条款」，常见要求是署名、非商业优先、与 CC-BY 思路相近。上海、北京、贵州、浙江、广东等地平台的条款各有差异，没有统一模板。
研究数据集：Hugging Face 上的中文数据集（wenetspeech、CLUE、CMMLU、WuDao 等）有不同选择：
- CLUE（中文语言理解评测基准）：不同子任务协议不同，多数允许研究使用；工业界使用需仔细核对各子数据集的原始协议。
- WuDaoCorpora（智源研究院）：限定研究用途，部分子集单独发布；
- Firefly、Belle、MOSS：多采用 Apache 2.0 / MIT / CC-BY-NC 不等；
- BAAI/COIG（北京智源）：早期 CC-BY-SA-NC，2024 年后部分子集转为 Apache 2.0。
垂直领域数据（金融、医疗、法律）：往往受行业监管，不宜公开许可，即便公开也附加使用限制。

3.6 数据集协议选择速查

场景	推荐协议
希望最大范围使用，放弃所有权利	PDDL 1.0（或 CC0）
仅要求署名	ODC-BY 1.0（或 CC-BY 4.0）
要求衍生数据库继续开放	ODbL 1.0
数据有隐私或受限因素	自定义协议 + 访问审批
欧盟用户为主	选 ODbL / ODC-BY / PDDL，避免单独用 3.0 以下的 CC

四、AI 模型许可证

4.1 模型权重的法律性质

模型权重是否受著作权保护？这是 2023 年以后迅速成为焦点的问题。目前可以确定的只有几件事：

模型权重不是「代码」，但发布时常与代码绑定；
权重的生成过程是机械式训练，缺少传统意义上的人类创作投入——这符合美国版权局「没有实质性人类创作介入」的排除标准；
但发布模型的实体对其发布、使用设定了条件，这些条件通过合同法生效——不论权重本身是否可版权保护，点击 / 下载 / 克隆的行为构成接受条款的意思表示。

正因为法律地位不清晰，模型许可证通常同时提供两种路径：

以版权许可的方式约束（「如果权重是作品，本协议是许可」）；
以合同的方式约束（「无论是否构成作品，使用者都必须遵守」）。

RAIL 家族和 LLaMA Community License 都采用这种双轨写法。

4.2 OpenRAIL 家族（Responsible AI Licenses）

RAIL（Responsible AI License）由 BigScience / Hugging Face / Licenses for AI 等社区力量推动，2022 年前后成型。核心理念是：

权重应当开放；
使用必须负责。

传统的 MIT / Apache 2.0 是「任何人、任何目的」；而 RAIL 在保留前者精神的同时，通过使用限制（Use Restrictions）禁止某些具体的有害用途。这在传统软件开源精神中是一个重大背离——OSI 不接受任何「use field restriction」（使用领域限制），因此 RAIL 协议在 OSI 的定义下不算开源。

4.2.1 RAIL

基础 RAIL 协议允许使用、分发、修改，但附加「使用限制」（Attachment A）。

4.2.2 OpenRAIL

「Open」意味着：源代码与模型权重可自由分发、允许商业化、允许演绎。在此基础上保留使用限制。OpenRAIL 有多个变体：

OpenRAIL-M（Model）：针对模型权重；
OpenRAIL-D（Data）：针对数据集；
OpenRAIL-S（Source Code）：针对源代码；
以及组合 OpenRAIL-MS 等。

最知名的用户是 Stable Diffusion v1（2022 年 8 月发布），采用 CreativeML Open RAIL-M。它允许：

商业使用（自行部署、提供 API 服务、商业模型训练）；
微调（fine-tune）并发布微调模型；
嵌入产品。

它禁止（节选）：

为生成儿童性虐待材料（CSAM）而使用；
骚扰、欺凌、造谣、中伤特定个体；
未经同意的深度伪造（deepfake）真实人物；
为规避医疗诊断义务、法律咨询义务而提供服务；
大规模制造虚假信息扰乱公共秩序。

注意：Stable Diffusion 之后的 SDXL 0.9 / 1.0 采用 SAI Non-Commercial License（SAI 非商业研究协议），后来 Stable Diffusion 3 又回到 SAI Community License，再到 2024 年底 Stability 进入财务困境后协议变动更为频繁。模型协议会随组织商业化策略而变——这是 AI 协议世界的一个重要结构性事实。

4.2.3 BigScience OpenRAIL

BLOOM（1760 亿参数，2022 年 7 月发布）采用 BigScience OpenRAIL-M。Attachment A 列出了 15 类禁止用途，包括（节选）：

违反法律法规的用途；
对个人的物理或精神伤害；
针对脆弱群体的剥削；
基于受保护特征（种族、性别、宗教、残疾等）的歧视；
未经同意的身份识别、监视；
医疗诊断未经专业资质的替代；
法律、金融决策的替代性服务；
……

使用者必须在下游传递这些限制。即便你只是基于 BLOOM 微调一个 7B 的中文模型，你的发布协议也必须包含同样的使用限制。

4.2.4 RAIL 的工程特点与隐患

RAIL 类协议的法律创新之处在于「use restriction」。它带来的工程挑战：

传递义务：下游模型必须在自己的协议中复制这些限制。
可执行性：违反 use restriction 是违约行为，发布方可以主张合同救济，但实务中执法成本极高——美国有少量此类案件，国内几乎空白。
与合规体系的关系：RAIL 的禁止用途清单与中国《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》有重叠，但并不完全对应。实际合规时，需要两套清单同时满足。

4.3 LLaMA 模型许可证

Meta 的 LLaMA 系列是 2023 年以后大模型开放运动的关键事件，也是理解「开放权重但非开源」的典型范本。

4.3.1 LLaMA 1（2023 年 2 月）

LLaMA 1 采用「Research-Only License」：

必须申请访问，由 Meta 审批；
仅限非商业研究用途；
不得向第三方再分发；
任何衍生模型也只能用于研究。

LLaMA 1 不是开源，甚至不算「开放权重」；它更接近「有限研究访问」。但 2023 年 3 月的权重泄漏事件直接改变了局面——从此「封闭的研究协议」不再现实。

4.3.2 LLaMA 2 Community License（2023 年 7 月）

LLaMA 2 的协议（2023 年 7 月 18 日发布）是一次明显的让步，也是一次精心的法务设计：

允许商业使用；
允许微调并发布微调模型（需保留 LLaMA 2 协议）；
例外：月活跃用户数（Monthly Active Users，MAU）超过 7 亿的产品，必须单独向 Meta 申请商业许可。
不得用 LLaMA 2 的输出训练其它大语言模型（排除 Meta 或其关联公司的模型）。
使用者必须在界面和文档中注明「Built with Meta LLaMA 2」。

两个条款值得重点看：

700M MAU 条款：精准挡住了 Google、Microsoft、Apple、字节跳动、腾讯、阿里巴巴这类超大规模平台。结论：除了最大的几家，谁都可以「免费」用；而最大的几家必须跟 Meta 坐下来谈。
反训练条款（Section 1.v.2）：「you will not use the Llama Materials or any output or results of the Llama Materials to improve any other large language model (excluding Llama 2 or derivative works thereof)」。这是一条反竞争条款，防止用 LLaMA 蒸馏出更强的非 Meta 模型。

这两条让 LLaMA 2 不可能得到 OSI 开源认证——OSD 第 5 条「不得歧视个人或团体」、第 6 条「不得歧视特定使用领域」都被违反。

4.3.3 LLaMA 3 / 3.1 Community License（2024 年 4 月 / 7 月）

LLaMA 3 与 3.1 延续了 Community License 的结构，做了几处调整：

700M MAU 条款保留：继续作为大厂区分条款；
反训练条款调整：LLaMA 3 起，Meta 要求下游模型若用 LLaMA 3 的输出训练，必须在模型名字里带上「Llama」前缀。这其实是把硬禁变成了「命名披露」要求。
商标条款：「LLaMA」「Llama」等字样的使用有特定规定，避免下游声称「Meta 背书」。
归属义务：仍需显示「Built with Llama」等语。

LLaMA 3.1 405B 的发布（2024 年 7 月 23 日）让这套协议影响到更大规模的生态——包括中国的 Llama-3.1-Chinese 系列、llama.cpp 兼容链路。

4.3.4 为什么 LLaMA 不是「开源」

把 LLaMA 2/3 与 OSI 的 OSD 十条并排看：

OSD 条款	LLaMA Community License
1. 自由再发布	✓ 允许
2. 源代码可获得	○ 权重可下载，训练代码未公开
3. 允许派生作品	✓ 允许
4. 作者源代码完整性	✓
5. 不歧视个人或团体	✗ 排除 700M MAU 以上组织
6. 不歧视特定使用领域	✗ 排除「用于改进其它 LLM」的用途
7. 协议随附作品	✓
8. 协议不针对具体产品	✓
9. 协议不限制其它软件	✓
10. 协议技术中立	✓

LLaMA 在 5 和 6 两条上违反 OSD。这就是为什么社区更准确地把它叫做「open weights」而不是「open source」。

4.4 Mistral 与真正的 Apache 2.0 模型

Mistral AI（法国，2023 年创立）在 2023 年 9 月发布 Mistral 7B，协议直接选了 Apache 2.0。这是第一款真正「开源级别」的主流 LLM：

任何用途（含商业）；
任何规模（无 MAU 限制）；
可用于训练其它模型；
只需保留版权声明与许可证文本。

2023 年 12 月，Mixtral 8x7B（MoE 架构，47B 激活参数）同样以 Apache 2.0 发布。2024 年 7 月 Mistral NeMo 12B（与 NVIDIA 合作）也是 Apache 2.0。

Mistral 的商业模式是「开放权重 + 商业 API + 企业版」：

社区版开源，用来获取开发者生态与信任；
旗舰版（Mistral Large、Mistral Medium）以商业 API 提供，协议为 Mistral Research License 或专有；
2024 年 7 月发布的 Mistral Large 2 采用「Mistral Research License」——研究与非商业可用，商业需单独授权。

对比 LLaMA，Mistral 的策略更干净：要么真的 Apache 2.0，要么就是商业模型。中间没有「看起来开源但限制一大堆」的灰色地带。这种二分法在社区中赢得了相当的信任感。

4.5 通义千问（Qwen）许可证演变

阿里巴巴通义千问（Qwen）的许可证策略是理解中国大模型协议演变的关键样本。

Qwen 1 系列（2023 年 8 月起）：自定义「通义千问许可协议」。允许商业使用，但月活用户数超 1 亿的产品需单独申请商业许可。结构上近似 LLaMA 2 Community License，但 MAU 阈值低一个量级。
Qwen 1.5（2024 年 2 月）：维持 Tongyi Qianwen License。
Qwen2 系列（2024 年 6 月起）：绝大多数子模型（0.5B / 1.5B / 7B / 57B-A14B）转为 Apache 2.0。只有 Qwen2-72B 保留「通义千问许可协议」（实际条款近似 LLaMA 2 Community License，有 MAU 门槛）。
Qwen2.5 系列（2024 年 9 月）：继续这种「小模型 Apache 2.0、旗舰 72B 定制协议」的分层。
Qwen3 系列（2025 年）：根据 Hugging Face 模型卡，进一步扩大 Apache 2.0 的覆盖范围。

这个走向非常清楚：在 Mistral 用 Apache 2.0 抢占开发者心智的压力下，阿里把 Apache 2.0 作为「中小型号」的默认选择，以最大化生态采纳；而在旗舰模型上保留商业护城河。

4.6 DeepSeek 与 MIT 许可证

深度求索（DeepSeek，2023 年成立）自始至终走的是「权重协议尽量宽松」的路线：

DeepSeek-Coder（2023 年 11 月）：权重采用自定义「DeepSeek License Agreement」，允许商业使用，限制较少；代码部分采用 MIT。
DeepSeek-V2（2024 年 5 月）：延续自定义协议，但条款相较 LLaMA 2 更为宽松。
DeepSeek-V3（2024 年 12 月）：同样采用「DeepSeek License Agreement」，允许商业化。
DeepSeek-R1（2025 年 1 月）：权重采用 MIT 许可证，且在模型卡中明确鼓励使用 R1 的输出来训练其它模型（这正是 LLaMA Community License 明确禁止的）。

R1 的 MIT + 鼓励蒸馏的组合让它在 2025 年第一季度迅速成为社区最热门的开放权重旗舰模型。它的协议策略和 LLaMA 2/3 形成强烈对照：不在协议上设门槛，把护城河建立在产品与服务之上。

4.7 书生·浦语（InternLM）/ 智源（FlagOpen）/ 百川（Baichuan）的协议变化

InternLM（上海人工智能实验室）

InternLM（2023 年 6 月）：自定义 InternLM License，研究免费，商业需申请；
InternLM2（2024 年 1 月）：权重协议切换为 Apache 2.0（小版本）加「允许免费商业使用的自定义许可」（大版本 20B 在 2024 年 1 月初的协议仍保留免费商业授权的申请流程，后续简化）；
InternLM2.5（2024 年 7 月）与 InternLM3（2025 年）：权重以 Apache 2.0 发布。

BAAI / FlagOpen（北京智源研究院）

BGE（BAAI General Embedding，2023 年 8 月）：MIT 许可证，是目前最广泛使用的中英 embedding 模型。
FlagEmbedding 代码：MIT；
Aquila 系列：
- Aquila v1：自定义 BAAI Aquila License（允许商业使用，但禁止输出内容被用作训练其它 LLM）；
- Aquila2（2023 年 10 月起）：条款逐步放宽，部分子模型切换为 Apache 2.0；
COIG（Chinese Open Instruction Generalist）：多个子集，协议不一（CC-BY-SA-NC、Apache 2.0 等）。

百川（Baichuan）

Baichuan-7B（2023 年 6 月）：Apache 2.0 开源社区版本；
Baichuan-13B（2023 年 7 月）：发布了两套——基础模型以自定义「Baichuan Community License」发布，允许商业使用，登记制免费授权；
Baichuan2（2023 年 9 月）：延续这种「社区免费 + 登记制商用」的 Community License；
后续企业级旗舰（Baichuan3、Baichuan4）转为纯闭源商业发布。

4.8 ChatGLM / GLM 系列（智谱）

清华大学 KEG 实验室 / 智谱 AI：

ChatGLM-6B（2023 年 3 月）：代码 Apache 2.0，权重采用「Model License」——非商业免费，商业用途需申请书面授权。
ChatGLM2-6B / ChatGLM3-6B：同类型 Model License；
GLM-4（2024 年 6 月起开源的 GLM-4-9B 系列）：协议切换为 Apache 2.0 风格的定制协议，商业使用需做简单登记；
GLM-4.5 / GLM-4-Plus（2024 年 9 月后）：部分开源部分闭源。

4.9 模型协议对比表

模型	机构	首发协议	最新代表协议	关键限制
LLaMA 1	Meta	Research-Only	已停更	仅研究
LLaMA 2	Meta	LLaMA 2 Community	同上	700M MAU、反训练
LLaMA 3.1	Meta	LLaMA 3.1 Community	同上	700M MAU、命名披露
Mistral 7B	Mistral AI	Apache 2.0	Apache 2.0	无
Qwen2-7B	阿里	Tongyi Qianwen License	Apache 2.0	小号无；72B 有 MAU
DeepSeek-V2	DeepSeek	DeepSeek License	DeepSeek License / MIT（R1）	少
DeepSeek-R1	DeepSeek	MIT	MIT	无
InternLM2	上海 AI Lab	Apache 2.0 / 免费商业	Apache 2.0	无
BGE	BAAI	MIT	MIT	无
Baichuan2	百川	Community License	Community License	登记制
ChatGLM3	智谱	Model License	GLM-4 Community	商用需登记
Stable Diffusion v1	Stability AI	CreativeML Open RAIL-M	已停更	使用限制
BLOOM	BigScience	BigScience OpenRAIL-M	同上	15 项使用限制

这张表揭示的趋势：2024 年后，中国大陆新一代旗舰模型更愿意用 Apache 2.0 / MIT；LLaMA 和部分商业闭源模型保留定制 Community License；RAIL 家族则在开源社区作为「负责任 AI」的旗帜继续使用，但在工业界的采纳率不高。

五、OSI 开源 AI 定义（OSAID 1.0）

5.1 为什么需要 OSAID

2022 年 Stable Diffusion、2023 年 LLaMA 2 的发布，让「开源 AI」成为热词。但如前所述：

LLaMA 2/3 不是开源（OSD 5、6 违反）；
Stable Diffusion 的 OpenRAIL-M 因 use restriction 也违反 OSD 6；
很多「开源模型」只发布权重，不发布训练数据、训练代码。

这造成一个词语危机——「开源 AI」到底指什么？是像 MIT 一样任何人任何用途？还是像 LLaMA 一样「大多数人免费用」？还是像 Stable Diffusion 一样「商业可以但不能做有害应用」？

OSI 从 2022 年启动 OSAID 研究项目，经过 18 个月左右的全球协商，2024 年 10 月 28 日在 All Things Open 大会上发布 OSAID 1.0。

5.2 OSAID 1.0 的核心要求

OSAID 1.0 为「开源 AI 系统」设定了四项自由：

使用自由（Use）：为任何目的使用系统，无需许可；
研究自由（Study）：检查系统组件、理解其工作方式；
修改自由（Modify）：为任何目的修改系统，包括改变输出；
分享自由（Share）：分享系统的副本与衍生品，不论是否修改。

要实现这些自由，OSAID 要求发布方提供三类「优先形式」（preferred form）：

数据信息（Data Information）：对训练、测试、验证所用数据的「充分详细描述」，使「技能娴熟的人员」能够复现一个功能等效的系统。这里允许：
- 若能完全发布数据，鼓励发布；
- 若因隐私、法律、商业约束无法完全发布，可用数据卡（data card）、数据声明（data statement）、数据集描述性文档替代；
- 数据必须可依法被复现——如果来源完全不可追溯，不符合要求。
完整训练代码（Code）：训练、数据处理、评测、推理的完整源代码，需以 OSI 认证协议发布；
模型参数（Parameters）：权重、超参数、架构文件，需以 OSI 兼容协议发布。

5.3 哪些模型符合 OSAID 1.0

OSAID 1.0 发布时，OSI 没有给出官方认证清单，但社区普遍认为当前符合的模型很少：

OLMo（Allen Institute for AI，2024）：权重、训练代码、训练数据（Dolma 数据集）全开放，被视为最接近 OSAID 的主流模型。
Pythia（EleutherAI）：基于 The Pile 训练，代码、权重公开，训练数据公开。
K2 / LLM360：完全开源的训练 pipeline，数据集公开。
BLOOM：权重和 ROOTS 训练数据公开，但 OpenRAIL 使用限制会让 OSI 的部分委员认为它未满足「任何目的使用」。
Qwen2、DeepSeek-R1、LLaMA、Mistral：虽然权重是 Apache/MIT/社区协议，但训练数据未公开，不满足 Data Information 要求。

也就是说：目前多数「开放权重」模型在 OSAID 口径下不是开源 AI。

5.4 OSAID 对中国 AI 生态的影响

中国 AI 团队面临的挑战与西方类似，但有几个独特点：

训练数据来源：大量中文预训练语料来自网页爬取、百度百科、知乎、微博等平台。权利归属、robots 协议、反爬条款、著作权共同构成复杂的合规图景。
政府数据与受限数据：部分中文数据集来自政府项目或受限来源，不具备公开条件；
数据共享平台的缺乏：国内缺少 Common Crawl、The Pile 级别的大规模开放语料；
合规层面的紧张：《生成式人工智能服务管理暂行办法》要求训练数据来源合法、内容健康，但这种合规要求与 OSAID 要求的「可复现」之间有微妙张力。

对国内模型团队的现实路径：

近期：权重以 Apache 2.0 / MIT 发布，训练数据以「数据卡」方式披露（描述来源比例、去重策略、质量过滤），避免主张 OSAID 认证；
中期：建设类似 OLMo 的完全开放的中文基础模型；
长期：推动中文开放语料联盟，让训练数据本身成为公开资源。

六、工程坑点

6.1 CC-BY-SA 与软件代码的混用

最常见的误用：开发者把 Wikipedia 的一段解释粘贴到代码注释里，整个代码仓库按 MIT 发布。

严格意义上，这段文本仍然要求以 CC-BY-SA 4.0 发布，且要求下游以同一协议分发。MIT 与 CC-BY-SA 并不兼容——MIT 没有 copyleft 要求，整个仓库用 MIT 相当于违反 SA 条款。

解决方案：

把引用的 Wikipedia 文字放在 docs/ 目录，docs/ 目录单独声明 CC-BY-SA 4.0；
或者用自己的语言重写（重述事实不受版权限制）；
或者以链接形式引用，不内嵌内容。

6.2 NC（非商业）条款的模糊性

NC 条款的边界争议在实务中每几年都会冒出来。一个经典案例：德国广播电台 Deutschlandradio 在 2013 年使用了一张 CC-BY-NC 的自行车选手照片，法院判决该电台作为公营媒体接受民众赞助，「即使不直接营利，整体运作具有商业属性」，构成违反 NC。

工程判断的底线：

只要存在广告、订阅、付费墙、附带的商业服务，用 CC-NC 内容都有风险；
公司内部使用（员工学习、培训）通常被视为商业上下文；
学术机构的非营利研究使用更安全，但一旦成果进入产业化，就要重新评估。

实务建议：能避免 NC 就避免。如果必须用 NC 素材，提前与作者协商商业授权。

6.3 模型许可证的下游传递

Fine-tune 一个 LLaMA 3.1 微调模型：

微调结果仍然受 LLaMA 3.1 Community License 约束；
发布时必须附带协议文本；
使用者仍需遵守 700M MAU 限制；
模型名必须带 Llama 前缀，除非符合豁免条件；
训练数据、训练代码的协议需另行说明。

Fine-tune 一个 Stable Diffusion 模型（CreativeML Open RAIL-M）：

微调结果仍然受 RAIL 协议约束；
15 项 use restriction 需要在下游文档中保留；
商业使用被允许，但使用者同样需要执行 use restriction。

很多 Hugging Face 上「开源微调模型」没有把这些限制显式传递，技术上属于违约状态。一旦上游发现并主张救济，下游处境会相当被动。

6.4 训练数据版权与模型输出版权

这是 2023 年以后最活跃的法律焦点。要点：

训练过程是否构成侵权：2023 年开始，New York Times v. OpenAI、Getty v. Stability AI、多位作家 v. OpenAI/Meta 等诉讼。焦点集中在「未经许可抓取并用作训练数据」是否构成版权侵权，以及是否适用「合理使用」（fair use）抗辩。
模型输出是否可版权：2023 年 3 月美国版权局指南认定「没有人类实质创作投入的 AI 生成物不可登记版权」；2023 年 8 月 Thaler v. Perlmutter 联邦法院判决支持该立场。
中国立场：2023 年 11 月北京互联网法院「AI 生成图片案」一审判决认定，用户通过精心的 prompt、参数调节和选择组合生成图像，构成人类独创性表达，AI 生成图可获得版权保护；这与美国立场差异显著。该判决未经更高审级确认。
训练数据披露义务：欧盟《AI 法》（2024 年 8 月生效，分阶段实施）要求通用目的 AI 模型（General-Purpose AI，GPAI）提供方公开训练数据的「足够详细的摘要」。这与 OSAID 的 Data Information 要求方向一致。

工程建议：

训练数据来源要尽早留痕——每次爬取都记录 URL、抓取时间、robots.txt 状态；
用公开授权的数据集优先（Common Crawl、OSCAR、CulturaX、The Pile、WuDao）；
模型输出加水印（SynthID 等），满足《生成式人工智能服务管理暂行办法》标识要求。

6.5 数据集混合许可证的 SBOM

当一个模型用上百个数据集训练，每个数据集协议不同，就需要一份「AI BOM」。相关标准：

CycloneDX ML-BOM（OWASP，2023 年）：在传统 SBOM 基础上扩展，增加 modelCard、dataCard、consideration 字段。
SPDX 3.0 AI Profile（2024 年 4 月）：在 SPDX 文档中增加 AI 相关元素类型，支持训练数据、模型、评测集的建模。
Hugging Face model card / dataset card：事实上的前端规范，YAML header 中包含 license、license_name、license_link、dataset_info 等字段。

这些标准都不具备强制力，但在企业 AI 合规体系中逐渐成为基础设施。工程上推荐做法：

每个训练数据集单独标注协议，能追溯到原始 URL；
使用 Hugging Face Hub 的 datasets API 时检查 .dataset_info.json 的 license 字段；
在模型发布时附带一份数据清单（data inventory），列出协议、来源、过滤方式。

七、选型建议

7.1 文档类

场景	推荐协议
教程、博客、API 文档	CC-BY 4.0
希望维持开放衍生的社区百科	CC-BY-SA 4.0
固定形态的官方声明	CC-BY-ND 4.0
完全献入公共领域	CC0

不推荐：CC-BY-NC 系列——NC 条款的模糊性往往给下游带来合规负担，反而降低传播效率。

7.2 数据类

场景	推荐协议
需要最大范围复用	PDDL 1.0 或 CC0
只要求署名	ODC-BY 1.0 或 CC-BY 4.0
希望衍生数据库保持开放	ODbL 1.0
涉及个人信息或受监管数据	自定义协议 + 访问审批

欧盟用户多的场景，优先选 ODC 系列（PDDL / ODC-BY / ODbL），因为它们明确处理 sui generis database right。纯美国场景下，CC0 / CC-BY 也可以接受。

7.3 模型类

目标	推荐协议
追求最广泛采纳，不设置门槛	Apache 2.0（Mistral、Qwen2、InternLM2）或 MIT（DeepSeek-R1、BGE）
希望保留反竞争条款	自定义 Community License（参考 LLaMA 2/3）
希望设置负责任使用限制	OpenRAIL-M（注意：会失去 OSI 开源身份）
要 OSI 官方开源 AI 认证	需要完整公开训练代码和数据信息（OSAID）

7.4 多资产项目的组合模板

一个推荐的默认组合：

代码       Apache-2.0
文档       CC-BY-4.0
数据集     CC-BY-4.0 或 ODbL-1.0
模型权重   Apache-2.0

这个组合覆盖了 99% 的开源项目需求，下游使用阻力最小，合规成本最低。

7.5 涉及中国场景的额外考量

合规优先：《生成式人工智能服务管理暂行办法》要求训练数据来源合法、不含违法信息；《数据安全法》《个人信息保护法》约束个人数据处理；
算法备案：提供生成式 AI 服务需要做算法备案，许可证选择不能替代备案义务；
内容标识：《互联网信息服务深度合成管理规定》要求深度合成内容显著标识，这与 RAIL 等协议的「禁止未经同意 deepfake」条款叠加，形成双重合规要求；
出口管制：部分 AI 模型可能受出口管制影响，许可证允许的行为不意味着监管允许的行为。

八、中国案例：国内大模型协议演变汇总

下表整理了国内具有代表性的大模型及其许可证演变（数据来自 Hugging Face 模型卡与官方仓库 README，截止 2025 年上半年公开信息）：

模型	机构	首发时间	首发协议	最新代表协议	关键限制
通义千问 Qwen 1	阿里巴巴	2023-08	Tongyi Qianwen License	—	100M MAU 门槛
通义千问 Qwen 2	阿里巴巴	2024-06	Apache 2.0（≤57B）/ Qwen License（72B）	Apache 2.0（多数）	72B 仍有 MAU 条款
通义千问 Qwen 2.5	阿里巴巴	2024-09	Apache 2.0（多数）	Apache 2.0	—
DeepSeek-Coder	DeepSeek	2023-11	DeepSeek License（权重）+ MIT（代码）	—	允许商业使用
DeepSeek-V2 / V3	DeepSeek	2024-05 / 2024-12	DeepSeek License	同前	宽松
DeepSeek-R1	DeepSeek	2025-01	MIT	MIT	无
书生·浦语 InternLM	上海 AI Lab	2023-06	InternLM License	—	商业需申请
InternLM2 / 2.5	上海 AI Lab	2024-01 起	Apache 2.0（多数）	Apache 2.0	—
InternLM3	上海 AI Lab	2025	Apache 2.0	Apache 2.0	—
BGE embedding	BAAI	2023-08	MIT	MIT	无
Aquila	BAAI	2023-06	BAAI Aquila License	Apache 2.0（部分）	早期禁止输出训练他 LLM
百川 Baichuan-7B	百川智能	2023-06	Apache 2.0	Apache 2.0	无
百川 Baichuan2-13B	百川智能	2023-09	Baichuan Community License	同前	登记制商用
ChatGLM-6B	清华/智谱	2023-03	Model License	—	非商业免费，商业申请
ChatGLM3-6B	清华/智谱	2023-10	Model License	—	商业申请
GLM-4-9B	智谱	2024-06	GLM-4 License	—	简化登记制

总体趋势（2023 - 2025）：

Apache 2.0 化：Qwen2、InternLM2、GLM-4-9B 等都将默认协议改为 Apache 2.0 风格；
MIT 进一步宽松：DeepSeek-R1、BGE 直接选 MIT，甚至鼓励蒸馏；
Community License 保留：主要用于旗舰模型（Qwen-72B、Baichuan2-13B、ChatGLM）以维持商业护城河；
RAIL 协议未在中国主流大厂广泛采用：国内更倾向于「许可证 + 监管合规」的二层结构，而非在协议内嵌使用限制。

这种趋势与国际生态同步——LLaMA 2/3 的 Community License 虽然名义上「可商用」，但在开发者心智里，干净的 Apache 2.0 / MIT 比任何带门槛的协议都更受欢迎。这也是 Mistral、DeepSeek 在 2024 年快速上位的重要原因。

附录 A：CC-BY-SA 4.0 关键条款逐条解读

很多工程师在实际项目里被 CC 协议绊住脚，往往是对 4.0 版本几个关键条款缺少细读。以下按 CC-BY-SA 4.0 官方法律代码的结构做精要解读，不替代原文，仅便于工程理解。

A.1 第 1 条：定义

CC-BY-SA 4.0 第 1 条定义了 13 个核心术语，其中对工程实践最关键的：

Adapted Material（改编材料）：指基于许可作品进行翻译、修改、编排、转换等形成的新作品，必须具备版权、相关权利或数据库权利。简单的格式转换（例如把 PDF 转成 ePub，不加修改）不构成改编。
BY-SA Compatible License：CC 组织单独公布「兼容协议清单」。4.0 版本的兼容协议目前仅包含少量 GFDL 旧版和部分自由艺术许可证，GPL 不在其中。
Effective Technological Measures（有效技术措施）：指 WIPO 版权条约意义上的 DRM 机制。协议第 2(a)(5)(A) 条禁止对许可作品加 DRM，下游不得用 DRM 包裹 CC-BY-SA 作品。
License Elements：即本文第 2.1 节提到的 BY、SA 等要素，出现在协议名称中。
Sui Generis Database Rights：欧盟数据库特殊权利。4.0 显式覆盖，3.0 不覆盖。

A.2 第 2 条：许可授予

第 2(a) 条以全球、免版税、非独占、不可撤销的方式，授予下游：

复制、分发许可作品的权利（在全部或部分作品上）；
创建、复制、分发改编作品的权利；
包括所有媒介、所有格式、当前已知或未来开发的技术手段。

注意不可撤销（irrevocable）三个字的分量。作者一旦发布，就不能单方面收回协议——这是 CC 家族作为「开放许可证」的骨架。如果你需要未来回收作品权利，不应选 CC。

第 2(b) 条处理例外与限制：协议不干涉各司法区已有的合理使用、合理引用、教学使用等例外。换言之，即使协议没有明说，法定合理使用仍然成立。

A.3 第 3 条：许可条件

这是最常被下游忽视的一节。

署名条件 3(a)

下游在分发作品或改编作品时，必须：

保留许可人所要求的署名标识（名称、化名、归属实体）；
保留版权声明；
保留一条说明本协议的声明；
保留免责声明条款（warranty disclaimer）；
提供协议文本的 URI 或超链接（理想情况）；
标明是否对作品进行了修改，若修改则保留此前修改的痕迹。

「合理方式」（reasonable manner）的具体实践：

在博客文章底部加一段「本文改编自 XXX，CC BY-SA 4.0」即可；
在电子书前言中统一列出；
在软件产品的「关于」页面列出第三方内容致谢；
不要求在每一页、每一段落都重复。

相同方式共享条件 3(b)

下游分发改编作品（不是原作品）时，必须：

采用 CC-BY-SA 4.0、后续版本、或 CC 列出的兼容协议；
保留协议文本或 URI；
不得对改编作品施加任何额外条款，限制协议赋予下游用户的权利。

第 3 项含义：你不能在你的 CC-BY-SA 衍生作品上加一条「禁止商业用户使用」——那会实质削弱 CC-BY-SA 允许的商业用途。

A.4 第 4 条：Sui Generis Database Rights

4.0 版本在第 4 条单独处理欧盟数据库特殊权利：

许可人放弃对授权使用提起 sui generis 诉讼的权利；
下游对数据库中「实质部分」的抽取或再利用会构成改编，进入第 3(b) 条的 SA 范围；
对数据库中「非实质部分」的使用不受协议限制。

这个设计让 CC-BY-SA 4.0 能够单独作为数据集协议用在欧盟——虽然 Open Data Commons 的协议在这个场景下更常见。

A.5 第 5 条：免责与责任限制

与大多数开源协议一致：明示无担保、不负瑕疵担保责任、不负间接损失责任。但各司法区强行法会覆盖部分条款——比如中国《民法典》下因故意或重大过失造成损害的责任不能通过协议排除。

A.6 第 6 条：终止

第 6(a) 条提供自动恢复机制：如果下游首次违反协议，只要在 30 天内发现并纠正，许可自动恢复。这是 CC 4.0 相对 3.0 最重要的改进之一——3.0 下一旦违反就永久失去许可。这一机制类似 GPLv3 的 cure 条款。

附录 B：SPDX 标识符与多许可证组合

SPDX（Software Package Data Exchange）是一套标准化的许可证标识符体系，由 Linux Foundation 维护。对非代码资产同样适用。

B.1 常见 SPDX 标识符

资产类别	协议	SPDX ID
代码	MIT	`MIT`
代码	Apache 2.0	`Apache-2.0`
代码	GPLv3	`GPL-3.0-or-later`
文档	CC BY 4.0	`CC-BY-4.0`
文档	CC BY-SA 4.0	`CC-BY-SA-4.0`
文档	CC0	`CC0-1.0`
数据	ODbL 1.0	`ODbL-1.0`
数据	ODC-BY 1.0	`ODC-By-1.0`
数据	PDDL 1.0	`PDDL-1.0`
模型	OpenRAIL-M	暂未标准化
模型	LLaMA Community	暂未标准化

B.2 SPDX 表达式语法

多协议组合用操作符表示：

# 二选一（用户可任选其一）
"MIT OR Apache-2.0"

# 共同生效（用户必须同时满足）
"Apache-2.0 AND CC-BY-4.0"

# 带例外
"GPL-3.0-or-later WITH Classpath-exception-2.0"

# 复杂嵌套
"(Apache-2.0 OR MIT) AND CC-BY-SA-4.0"

B.3 Hugging Face 模型卡的协议字段

Hugging Face Hub 的 README.md YAML header 支持：

license: apache-2.0            # 单一 SPDX ID
license_name: llama3.1         # 自定义名称（用于未进入 SPDX 的协议）
license_link: https://llama.meta.com/llama3_1/license
datasets:
  - mlfoundations/dclm-baseline-1.0
model-index:
  - name: MyFineTunedModel
language:
  - zh
  - en

当 license 不在 SPDX 清单中时，使用 license_name + license_link。

B.4 CycloneDX ML-BOM 示例片段

一份 ML-BOM 的核心结构（缩略）：

{
  "bomFormat": "CycloneDX",
  "specVersion": "1.5",
  "version": 1,
  "metadata": {
    "timestamp": "2025-12-01T00:00:00Z",
    "component": {
      "type": "machine-learning-model",
      "name": "MyFineTunedQwen2-7B",
      "version": "v0.1",
      "licenses": [
        {"license": {"id": "Apache-2.0"}}
      ]
    }
  },
  "components": [
    {
      "type": "machine-learning-model",
      "name": "Qwen2-7B",
      "version": "1.0",
      "licenses": [{"license": {"id": "Apache-2.0"}}]
    },
    {
      "type": "data",
      "name": "wikipedia-zh-20240801",
      "licenses": [{"license": {"id": "CC-BY-SA-4.0"}}]
    },
    {
      "type": "data",
      "name": "internal-sft-corpus",
      "licenses": [{"license": {"name": "internal-proprietary"}}]
    }
  ]
}

此类 BOM 文件配合 Sigstore / Rekor 等透明日志基础设施，可以为模型发布建立一条可审计的证据链。

附录 C：常见协议兼容性矩阵

下表展示几种常见协议之间的「单向兼容性」——即能否把 A 协议的内容纳入 B 协议的作品中。「是」意味着可以，「否」表示存在协议冲突，「条件」意味着在特定条件下可以。

A → B	MIT	Apache-2.0	GPL-3.0	CC-BY-4.0	CC-BY-SA-4.0	CC0	ODbL-1.0
MIT	—	是	是	—	—	—	—
Apache-2.0	是	—	条件*	—	—	—	—
GPL-3.0	否	否	—	—	—	—	—
CC-BY-4.0	是	是	是	—	是	否	是
CC-BY-SA-4.0	否	否	否	否	—	否	否
CC0	是	是	是	是	是	—	是
ODbL-1.0	条件	条件	否	条件	否	否	—

*Apache-2.0 向 GPL-3.0 的兼容是单向的：Apache-2.0 代码可纳入 GPL-3.0 工程，反向不可。

「—」表示协议适用对象不同，不构成典型兼容场景。

关键观察：

CC-BY-SA 是最「感染性」的协议——一旦用了，下游必须继续 CC-BY-SA（除非走 CC 兼容清单）；
CC0 几乎向所有协议开放；
代码类协议与内容类协议一般不直接混合，应当分目录分别声明。

附录 D：一个典型项目的 LICENSE 目录结构

给一个完整的中文 LLM 项目加协议的推荐布局：

my-llm-project/
├── LICENSE                         # Apache-2.0（代码）
├── LICENSE-DOCS                    # CC-BY-4.0（文档）
├── LICENSE-DATA                    # ODbL-1.0 或数据集列表
├── LICENSE-MODEL                   # Apache-2.0 或自定义
├── NOTICE                          # Apache-2.0 要求的通知文件
├── THIRD_PARTY_LICENSES.md         # 依赖清单
├── DATA_LICENSES.md                # 训练数据协议清单
├── MODEL_CARD.md                   # Hugging Face 风格模型卡
├── DATA_CARD.md                    # Data Information for OSAID
├── sbom.cdx.json                   # CycloneDX ML-BOM
├── src/                            # 代码
├── docs/                           # 文档
│   └── LICENSE                     # CC-BY-4.0
├── datasets/
│   ├── corpus-zh-clean/
│   │   └── LICENSE                 # 子数据集协议
│   └── eval-benchmark/
│       └── LICENSE                 # 子数据集协议
└── weights/
    ├── base-7b/
    │   └── LICENSE                 # 模型权重协议
    └── sft-7b/
        └── LICENSE

每个子目录都能被独立识别出对应协议，符合 SPDX 的 FILES 声明规范，也方便自动化工具（如 ORT、FOSSology、ScanCode）扫描。

附录 E：常见问答（FAQ）

Q1：把公司内部文档改写后以 CC-BY 4.0 发布，是否构成「公开发行」？

在中国著作权法下，这构成发行与信息网络传播行为，应经过公司知识产权部门审批。CC 协议只是授权文本，不改变原始著作权归属；若公司为职务作品的著作权人，未经授权的对外发布构成侵权。

Q2：LLaMA 2 的 700M MAU 条款，MAU 具体怎么计算？

协议第 2 条约定：「If, on the Llama 2 version release date, the monthly active users of the products or services… is greater than 700 million monthly active users」。这是一个快照口径——以发布当日计算一次。之后的月活涨到 7 亿并不自动触发，但新版本发布时会再快照。这对大厂的长期策略影响很大——他们可以在一个较小的基础上用 LLaMA，但若要把它嵌入旗舰产品线，仍需要和 Meta 谈。

Q3：CC-BY-SA 4.0 的维基百科内容能否嵌入 Apache 2.0 的开源软件？

代码本身维持 Apache 2.0；嵌入的文本（例如 help string、README 节选）作为「作品」单独受 CC-BY-SA 4.0 约束，且要求衍生作品维持同样协议。工程上的常见做法：

把引用部分放在独立的文档目录，声明其协议；
或把 Wikipedia 内容视为参考资料，不直接复制；
或用 CC-BY（非 SA）来源（例如部分政府百科、教材）。

Q4：OpenRAIL 的「使用限制」是否在中国法下可执行？

合同条款在中国法下一般有效，但违反协议的救济途径较窄：许可人可以依合同法主张损害赔偿，但很难申请禁令。现实中，更常见的做法是：通过下架、举报、平台侧执行（Hugging Face / Modelscope 等会对违反协议的模型采取下架措施）来实现协议的事实执行。

Q5：CC0 之后，我还可以对自己的作品主张版权吗？

CC0 是不可撤销声明。一旦发布，作者放弃所有可放弃的权利；即便在不允许放弃的法域，也给出了不可撤销的许可。你不能事后收回。如果未来需要商业化某个特定版本，请为每次发布保留原始「未 CC0」版本作为后续授权基础。

Q6：OLMo 这种全开放模型为什么依然需要做数据过滤？

OSAID 要求的是「训练数据信息」——可以是数据本身，也可以是充分详细的描述。即便要发布完整数据集，仍需过滤：

个人信息（PII）去除；
受版权保护但无授权的内容过滤；
有害内容（暴力、色情、歧视）过滤；
低质量文本去重与净化。

OLMo 背后的 Dolma 数据集就经历了严格的过滤流水线。过滤后的数据才能在 AI2 Impact License（一种开放数据协议）下发布。

Q7：LLaMA 3 要求下游模型命名带 Llama 前缀，是否等同商标授权？

更像是一种「披露义务」而非商标授权。LLaMA 3 的协议允许你使用 Llama 这个字样仅用于识别衍生作品的来源，不赋予任何其它商标使用权利。把 Llama 用于与 Meta 无关的产品宣传仍属侵权。工程上：微调模型命名 Llama-3.1-Chinese-8B-Instruct 合规，但不能用 Llama Enterprise Suite 之类商品化名字。

Q8：我把 Stable Diffusion 的 RAIL 协议下的权重再以 Apache 2.0 发布，可以吗？

不可以。RAIL 协议要求下游分发保留同样的 use restriction，Apache 2.0 没有此类限制。把 RAIL 模型直接以 Apache 2.0 发布会违反 RAIL 原协议。类似地，LLaMA 权重也不能被重新以 Apache 2.0 发布。

Q9：OSAID 1.0 是不是强制要求模型公开训练数据本身？

不是。OSAID 1.0 接受「数据信息」的多种形式，包括详细描述、数据卡、可复现方法。但这些描述必须让「技能娴熟的人员」能够复现一个功能等效的系统——这是一项非常高的要求，许多「只公开权重」的模型无法达到。

Q10：中国版权法下，AI 生成的图片能否被视为作品？

2023 年「AI 生成图片案」一审判决（北京互联网法院）支持作品属性。但该判决基于用户在生成过程中做了「精心的参数调节、prompt 设计、选择组合」的事实。若是直接调用模型 API、不加任何人工干预生成，目前主流观点仍倾向于不构成作品。该问题尚未经过最高人民法院明确表态，工程实务中仍建议在对外使用 AI 生成内容时做好人工干预记录。

附录 F：术语对照表

中文	英文	缩写 / SPDX
知识共享	Creative Commons	CC
署名	Attribution	BY
相同方式共享	ShareAlike	SA
非商业性使用	NonCommercial	NC
禁止演绎	NoDerivatives	ND
公共领域	Public Domain	PD
开放数据库许可证	Open Database License	ODbL
开放数据共享署名许可证	Open Data Commons Attribution License	ODC-BY
公共领域贡献与许可	Public Domain Dedication and License	PDDL
数据库特殊权利	sui generis database right	—
汇编作品著作权	Compilation Copyright	—
负责任 AI 许可证	Responsible AI License	RAIL
开放负责任 AI 许可证	Open Responsible AI License	OpenRAIL
模型许可证变体	OpenRAIL for Models	OpenRAIL-M
使用限制	Use Restriction	—
月活跃用户	Monthly Active Users	MAU
开源倡议组织	Open Source Initiative	OSI
开源定义	Open Source Definition	OSD
开源 AI 定义	Open Source AI Definition	OSAID
大语言模型	Large Language Model	LLM
通用目的人工智能	General-Purpose AI	GPAI
软件成分清单	Software Bill of Materials	SBOM
机器学习成分清单	Machine Learning Bill of Materials	ML-BOM
数据卡	Data Card	—
模型卡	Model Card	—
合理使用	Fair Use	—
字面拷贝	Verbatim Copy	—

附录 G：历史脉络时间线

为方便整体把握，把本文涉及的重要历史事件按时间排开：

1886 年：《保护文学和艺术作品伯尔尼公约》奠定现代著作权国际框架。
1991 年：美国最高法院 Feist v. Rural Telephone 案，否定「汗水劳动」作为版权基础。
1996 年：欧盟《数据库指令》确立 sui generis database right。
1998 年：OSI 成立，《开源定义》发布。
2001 年：Creative Commons 组织成立。
2002 年：CC 1.0 许可证发布；同年 BSD-style 许可证在内容领域开始被替代。
2007 年：GPLv3 发布，专利、DRM、Tivoization 条款完善；CC 3.0 发布（含 Unported 和本地化版本）。
2009 年：CC0 工具发布；ODbL 1.0 与 PDDL 1.0 发布；维基百科从 GFDL 迁至 CC-BY-SA 3.0。
2012 年：OpenStreetMap 全面迁至 ODbL 1.0。
2013 年：CC 4.0 国际版发布，整合 sui generis 权利。
2016 年：CC 国际取消国家分部体系，以 CC 4.0 统一。
2021 年：Hugging Face 与 BigScience 启动 RAIL 项目；GitHub Copilot 发布引发训练数据版权争议。
2022 年 8 月：Stable Diffusion v1 以 CreativeML Open RAIL-M 发布。
2022 年 11 月：ChatGPT 发布，引爆大模型商业化浪潮。
2023 年 2 月：Meta 发布 LLaMA 1（研究专用）；3 月权重泄漏。
2023 年 3 月：美国版权局发布 AI 生成内容注册指南；ChatGLM-6B 开源。
2023 年 6 月：Baichuan-7B（Apache 2.0）与 InternLM 开源。
2023 年 7 月：LLaMA 2 发布；《生成式人工智能服务管理暂行办法》在中国出台。
2023 年 8 月：Qwen 系列首发；Thaler v. Perlmutter 联邦法院判决 AI 生成物无版权。
2023 年 9 月：Mistral 7B 发布（Apache 2.0）。
2023 年 11 月：北京互联网法院 AI 生成图片案一审判决，与美国立场分歧。
2023 年 12 月：Mixtral 8x7B 发布；欧盟 AI 法文本定稿。
2024 年 1 月：InternLM2 转向 Apache 2.0。
2024 年 4 月：LLaMA 3 发布；SPDX 3.0 AI Profile 草案。
2024 年 6 月：Qwen2 与 GLM-4-9B 发布，主流转向 Apache 2.0。
2024 年 7 月：LLaMA 3.1（含 405B）发布，首次开放超大模型。
2024 年 8 月：欧盟 AI 法生效。
2024 年 10 月：OSI 发布 OSAID 1.0。
2024 年 12 月：DeepSeek-V3 发布。
2025 年 1 月：DeepSeek-R1 以 MIT 发布，鼓励蒸馏。
2025 年上半年：InternLM3、Qwen3 等新一代模型持续以 Apache 2.0 发布。

从时间线可以看到一个清晰的趋势：2022-2023 年是协议创新的爆发期（RAIL 家族、LLaMA Community），2024-2025 年是开放与合规框架逐步收敛的稳定期（Apache 2.0 成主流、OSAID 出炉、欧盟 AI 法生效）。工程团队在协议选型时，应当把这个大趋势作为背景判断：「开放权重 + 宽松协议 + 数据信息披露」正在成为新常态。

九、参考资料

Creative Commons, About The Licenses, https://creativecommons.org/licenses/
Creative Commons, CC BY 4.0 Legal Code, https://creativecommons.org/licenses/by/4.0/legalcode
Creative Commons, CC0 1.0 Universal, https://creativecommons.org/publicdomain/zero/1.0/
Wikimedia Foundation, Terms of Use / Licensing, https://foundation.wikimedia.org/wiki/Policy:Terms_of_Use
Open Data Commons, Open Database License (ODbL) v1.0, https://opendatacommons.org/licenses/odbl/1-0/
Open Data Commons, Public Domain Dedication and License (PDDL) v1.0, https://opendatacommons.org/licenses/pddl/1-0/
Open Data Commons, Attribution License (ODC-By) v1.0, https://opendatacommons.org/licenses/by/1-0/
OpenStreetMap Foundation, Licence and Legal FAQ, https://osmfoundation.org/wiki/Licence
EU Directive 96/9/EC on the Legal Protection of Databases
Feist Publications, Inc., v. Rural Telephone Service Co., 499 U.S. 340 (1991)
BigScience, BigScience OpenRAIL-M License, https://bigscience.huggingface.co/blog/the-bigscience-rail-license
Responsible AI Licenses (RAIL), https://www.licenses.ai/
Stability AI, CreativeML Open RAIL-M License（随 Stable Diffusion v1 发布）
Meta, LLaMA 2 Community License Agreement, https://ai.meta.com/llama/license/
Meta, LLaMA 3.1 Community License Agreement, https://llama.meta.com/llama3_1/license/
Mistral AI, Mistral 7B Apache 2.0 Release, https://mistral.ai/news/announcing-mistral-7b/
Qwen Team, Qwen2 Technical Report and Model Cards, https://huggingface.co/Qwen
DeepSeek, DeepSeek-R1 Model Card (MIT), https://huggingface.co/deepseek-ai/DeepSeek-R1
Shanghai AI Lab, InternLM2 / InternLM2.5 Model Cards, https://huggingface.co/internlm
BAAI, BGE / FlagEmbedding, https://github.com/FlagOpen/FlagEmbedding
Baichuan Inc., Baichuan2 Technical Report（arXiv 2309.10305）
THUDM / Zhipu AI, ChatGLM / GLM-4 Releases, https://huggingface.co/THUDM
Open Source Initiative, The Open Source AI Definition 1.0, https://opensource.org/ai/open-source-ai-definition
Open Source Initiative, The Open Source Definition, https://opensource.org/osd
EU AI Act（Regulation (EU) 2024/1689）
US Copyright Office, Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence, 88 Fed. Reg. 16190 (2023-03-16)
Thaler v. Perlmutter, 1:22-cv-01564 (D.D.C. 2023-08-18)
北京互联网法院（2023）京 0491 民初 11279 号「AI 生成图片案」
《中华人民共和国著作权法》（2020 年修订）
《生成式人工智能服务管理暂行办法》（国家互联网信息办公室等，2023-07-10）
《互联网信息服务深度合成管理规定》（2022-11-25）
OWASP CycloneDX, Machine Learning Bill of Materials (ML-BOM), https://cyclonedx.org/capabilities/mlbom/
SPDX, SPDX 3.0 AI Profile, https://spdx.dev/use/specifications/

本文为工程参考，不构成法律意见。涉及具体法律风险请咨询专业法律顾问。

上一篇：木兰许可证与国产开源许可

下一篇：红芯浏览器与”国产内核”往事：披皮事件的工程复盘

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-22 · architecture / opensource

开源之道系列导航

文章导航

目录