开源许可证的世界长期被「软件许可证」一词所垄断:MIT、Apache、GPL、BSD,这些名字在工程师圈子里几乎是常识。但当一个项目里同时出现 README、文档站、配套数据集、预训练模型权重、微调脚本、评测集,一个「按 MIT 发布」的声明就已经无法覆盖全部资产了。
2022 年以后,随着大规模语言模型(Large Language Model,LLM)与生成式 AI 的爆发,这种错配尤为突出:发布方必须同时回答四类问题——代码以什么协议发布?文档以什么协议发布?训练 / 评测数据以什么协议发布?模型权重以什么协议发布?它们的组合决定了下游用户能做什么、不能做什么。
本文尝试把非代码资产的许可证体系讲清楚,包括:Creative Commons(CC)家族、开放数据库许可证(ODbL / ODC-BY / PDDL)、AI 模型的 OpenRAIL 家族、以 LLaMA 为代表的「开放权重但非开源」的社区协议、以及 Mistral / Qwen / DeepSeek / InternLM / 百川等中国与欧洲团队对 Apache 2.0 与 MIT 的选择。最后用一节来讲开源倡议组织(Open Source Initiative,OSI)在 2024 年 10 月发布的开源 AI 定义(Open Source AI Definition,OSAID)1.0,以及它对现有「开源模型」带来的冲击。
本文不是法律意见,是工程参考。它的目标是让一个发布模型或数据的工程师,能在读完之后做出下面这种判断:「我这个数据集适合
CC-BY 4.0 还是 ODbL 1.0?」「我把 LLaMA 3.1
微调之后发布,命名要不要带 Llama
前缀?」「我要不要申请 OSAID 认证?」
一、软件许可证为什么不适用于非代码内容
在讨论 CC、ODbL、OpenRAIL 之前,必须先把一件事讲清楚:MIT / Apache / GPL 这些软件许可证,从法理上讲,作用对象就不是文档、数据或模型权重。
1.1 著作权法对不同对象的作用方式
大多数国家的著作权法(Copyright Law)以 1886 年《保护文学和艺术作品伯尔尼公约》为底板,加上 TRIPS、WIPO 版权条约逐步演化。它保护的是「作品」——即「具有独创性并以某种有形形式表达」的文学、艺术、科学成果。它不保护:事实、思想、方法、算法本身。
这一条原则在不同类型的对象上带来了非常不同的后果:
- 代码:被视为「文字作品」(literary work),受著作权保护。MIT、Apache 2.0、GPL 正是用作者的版权人身份,反向许可下游使用。协议脱离版权就失效。
- 文档 / 文章 / 图片 / 视频:同样是文字 / 美术 / 视听作品,受著作权保护。理论上 MIT 也可以用,但 MIT 措辞是为「软件」设计的,对「发表」「署名」等细节没有规定,不符合文化作品的习惯。
- 数据(facts、measurements、coordinates):在大多数司法区中,单个事实不受著作权保护。一张「北京的经纬度是 39.9042° N, 116.4074° E」的表不具独创性,任何人都可以复制。
- 数据库(database):分两类。一类是「具有独创性的编排与选择」,例如一份精心挑选和分类的诗集,其「选择与编排」受著作权保护——这叫「汇编作品著作权」(Compilation Copyright);另一类是「仅仅穷尽性列举事实」,例如一份街道号码簿,不具独创性,在美国不受版权保护(参见 Feist v. Rural Telephone, 1991)。
- 模型权重(model weights):是几十到几千亿个浮点数构成的张量。它是不是「作品」?是不是「数据库」?抑或是某种全新的东西?法律界还在辩论。
1.2 汇编作品著作权:为什么数据库需要特殊对待
Feist 案确立了美国立场:单纯的事实收集不具独创性,汗水劳动原则(sweat-of-the-brow doctrine)不能成为版权基础。
欧盟的选择不同。1996 年《数据库指令》(Directive 96/9/EC)在著作权之外,为数据库设立了一项「特殊权利」(sui generis database right),保护对数据库内容的「实质性投入」。这项权利与独创性无关,持续 15 年,每次实质性更新重新起算。
这套差异直接导致:一份在美国可以随意复用的数据库,在欧盟可能构成侵权。 Open Database License(ODbL)正是为了同时覆盖这两种制度而设计的——即便你在的司法区不承认 sui generis database right,也通过合同约束(contract law)达到类似效果。
1.3 模型权重:软件、数据,还是新物种
主流观点有三派:
- 权重是软件的一部分:推理代码需要权重才能运行,缺了就跑不起来。
- 权重是训练数据的「函数」:把训练数据视为输入、训练算法视为算子、权重视为输出。于是权重的法律地位取决于训练数据本身的权利结构。
- 权重是新客体:像数据库 sui generis 一样,需要一类新的权利。
美国版权局在 2023 年 3 月《版权登记指南》和后续意见中给出的口径是:没有实质性人类创作介入的 AI 生成物,不能登记版权。 但这说的是 AI 生成的「输出」,不是权重本身。权重是否可版权保护,目前仍是开放问题。
工程实践中,大多数模型发布者选择用「许可证 + 服务条款」的组合来约束使用——不论权重本身是否可版权保护,只要你下载了它,就等同于接受了协议。 这是一种合同法层面的约束,而非版权法层面的。这正是 RAIL 家族最核心的法律设计。
1.4 OSI 的历史局限
OSI 在 1998 年成立时,其开源定义(Open Source Definition,OSD)只针对软件源代码。它的十条标准中多次出现「program」「source code」「compilation」等措辞,完全没有考虑数据、文档、训练权重。
在 2022 年之前,这并不是大问题——Creative Commons 处理文档图片、Open Knowledge Foundation 处理数据库、各家自行发布模型权重,各管一段。2022 年以后,随着 Stable Diffusion、BLOOM、LLaMA、Qwen 的相继开放,OSI 发现自己必须直接面对「开源 AI 是什么」的问题。OSAID 1.0 的难产(18 个月以上的社区协商)反映了定义非代码资产的开源身份有多难。
1.5 一个资产,一个协议
工程上更务实的做法是按资产类型分别给协议:
/project-root
├── src/ # Apache-2.0
├── docs/ # CC-BY-4.0
├── datasets/train.csv # ODbL-1.0 / CC-BY-4.0 / CC0
├── models/ # OpenRAIL-M / Apache-2.0 / LLaMA-Community-3.1
├── LICENSE # Apache-2.0 (代码)
├── LICENSE-docs # CC-BY-4.0
├── LICENSE-data # ODbL-1.0
└── LICENSE-weights # OpenRAIL-M / LLaMA-Community
Hugging Face 模型仓库的 tags.license
字段就是为这种场景设计的。PyPI 在新版元数据(PEP
639)中也允许 SPDX 表达式同时覆盖多个许可证。
二、Creative Commons 许可证家族(CC)
Creative Commons(知识共享)是 2001 年由劳伦斯·莱斯格(Lawrence Lessig)等人在美国创立的非营利组织,目标是为文学、艺术、科学类作品提供一套标准化的开放许可证。它并不是一个法律实体的集合,而是标准化的许可证模板——真正生效的是作者在作品上附加的那个 CC 许可证声明。
2.1 CC 许可证的四个要素
CC 通过四个模块化的要素组合出 6 种主要许可证:
| 要素 | 缩写 | 含义 |
|---|---|---|
| 署名(Attribution) | BY | 必须署原作者名、来源、许可证 |
| 相同方式共享(ShareAlike) | SA | 衍生作品必须使用相同的许可证 |
| 非商业性使用(NonCommercial) | NC | 不得用于主要为商业利益的用途 |
| 禁止演绎(NoDerivatives) | ND | 不得修改、改编、重混 |
从这四个要素可以组合出 6 种有效组合(SA 与 ND 互斥,因为 SA 要求允许演绎并要求演绎以相同协议发布,而 ND 禁止演绎,放在一起没有意义):
CC BY = 仅署名
CC BY-SA = 署名 + 相同方式共享
CC BY-NC = 署名 + 非商业
CC BY-NC-SA = 署名 + 非商业 + 相同方式共享
CC BY-ND = 署名 + 禁止演绎
CC BY-NC-ND = 署名 + 非商业 + 禁止演绎
此外还有一个特殊的「CC0」,它不是 CC 许可证,而是著作权放弃声明。
从工程视角看,可以把这 7 种按「宽松度」排成一条线:
宽松 ───────────────────────────────────────────── 限制
CC0 < CC BY < CC BY-SA < CC BY-ND < CC BY-NC < CC BY-NC-SA < CC BY-NC-ND
2.2 CC-BY 4.0
CC-BY 4.0 是最常见、最推荐的「开放内容」许可证。它允许:
- 复制、分发、公开传播作品
- 修改、改编、基于作品创作衍生品
- 商业用途
- 任意媒介、任意格式
唯一的要求是:署名。署名的具体要求在 CC-BY 4.0 第 3 条中规定,工程界通常用「TASL」四元组概括:
- Title:作品标题
- Author:作者姓名或署名
- Source:作品来源的 URI
- License:协议名称与链接
一个标准的署名示例:
"快速排序" by Tony Hoare, from https://en.wikipedia.org/wiki/Quicksort,
licensed under CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0/)
CC-BY 4.0 在功能上非常接近软件界的 MIT 与 BSD-3-Clause:允许商用、允许修改、只要求署名。它是目前文档、教程、博客类作品的默认推荐协议。
2.3 CC-BY-SA 4.0
SA(ShareAlike,相同方式共享)本质上是「文化作品的 copyleft」。它要求衍生作品必须以相同或兼容的协议重新发布。这种「感染力」与 GPL 的机制完全一致。
最知名的 CC-BY-SA 使用者就是维基百科(Wikipedia)。维基媒体基金会 2009 年从 GFDL 迁移到 CC-BY-SA 3.0,然后在 2023 年 6 月把条款更新到 CC-BY-SA 4.0。这意味着:
- 如果你的应用里复制了维基百科的一段话,你发布的部分必须用 CC-BY-SA 4.0 或兼容协议重新发布;
- 你不能把维基百科内容嵌进一个完全私有的产品;
- 你必须提供署名、链接、协议声明。
CC-BY-SA 4.0 与 GPL 并不兼容。它们的条款来自不同的法律基础:GPL 是软件代码的版权协议,CC-BY-SA 是创作作品的版权协议。CC 组织明确指出:不建议把 CC-BY-SA 用于软件源代码,请用 GPL;也不建议把 GPL 用于文档,请用 CC-BY-SA。
2.4 CC-BY-NC 与 CC-BY-NC-SA
NC(NonCommercial)是最让工程界头疼的要素。CC-BY-NC 4.0 第 1(k) 条把「非商业」定义为「not primarily intended for or directed towards commercial advantage or monetary compensation」,中文大致是「非主要为商业利益或获取金钱补偿」。
这个定义有多模糊,看一下现实的边界案例:
- 个人博客开了 Google AdSense:算商业吗?大多数律师会说「是」,因为站点产生广告收入。
- 大学研究人员用 CC-BY-NC 数据集做研究:一般认为是非商业;但如果研究成果被产业化、或得到公司赞助呢?
- 公司内部 Wiki 引用 CC-BY-NC 图片:是否构成「为商业利益」?不同法域判决不一。
- 发布到 GitHub:GitHub 本身是商业平台。把 CC-BY-NC 作品放到 GitHub 并没有问题,但如果嵌入到一个 SaaS 产品里,就是另一回事。
Wikimedia 基金会、Debian 项目、开放获取期刊(Open Access Journal)都不建议使用 NC 条款,原因正是其模糊性使下游无法明确合规边界。
2.5 CC-BY-ND 与 CC-BY-NC-ND
ND(NoDerivatives)禁止演绎。它的典型用法:
- 新闻稿(press release)——希望整体传播,但不允许被断章取义或重新混编;
- 官方声明、法规文本草稿;
- 固定形态的艺术作品,例如摄影师发布原片希望不被修改。
注意两点:
- ND 条款不妨碍「复制 + 原样分发」,因此仍可用作资料传播;
- ND 条款下翻译是否构成演绎,在法律上有争议。CC 组织在 FAQ 中的立场是:「翻译几乎总是构成演绎」。
2.6 CC0(公共领域贡献)
CC0(读作「CC Zero」)是 2009 年引入的工具,用于把作品献入公共领域(public domain)。它的口号是「No Rights Reserved」。
CC0 不是一个许可证,而是一个三层法律结构:
- 首先尝试彻底放弃所有著作权(很多国家支持放弃,比如美国);
- 如果当地法律不允许放弃(例如德国的「人格权」不可放弃),则退化为一个全球范围、永久、不可撤销的免费许可;
- 对于专利权、商标权等其它权利,声明不主张。
工程上,CC0 类似于软件的 0BSD 或 Unlicense。它被大量用于:
- 美国政府公开数据(data.gov 大量数据集)
- Unsplash、Pixabay 的免费图片
- Wikimedia Commons 中的部分内容
- scikit-learn 的 toy datasets 中的样例
对数据集而言,CC0 是最少摩擦的选择,但它不处理 sui generis database right——在欧盟,如果你想放弃数据库特殊权利,应当使用 PDDL(见第三节)。
2.7 CC 许可证的版本问题
CC 许可证到目前已经迭代过 4 个版本:1.0、2.0、2.5、3.0、4.0。在工程中需要注意:
- 3.0 Unported vs 4.0 International:3.0 有「unported」和若干国家本地化版本(例如 CC-BY 3.0 China Mainland);4.0 改为「International」,不再做本地化,目标是成为全球统一条款。
- 4.0 对 NC 的定义更清晰:把「商业用途」的判定锚定在「主要目的」而非「任何间接收益」。
- 4.0 对署名要求的灵活化:允许「以合理方式」署名,不再强制放在作品旁边。
- 4.0 显式处理 sui generis database rights:4.0 版本的 CC-BY 和 CC-BY-SA 明确覆盖欧盟数据库特殊权利,而 3.0 不覆盖。
- 4.0 引入可撤销的署名:作者可以要求下游不再署其名,以免被误认为「背书」。
新项目请一律用 4.0。 已经在 3.0 下发布的内容可以维持,但如果升级或重发,升级到 4.0 是常见做法。
2.8 CC 在中国的适用性
Creative Commons 中国大陆分部曾由中国人民大学法学院承担 affiliate 工作,后来 CC 国际在 2016 年取消了国家分部体系,统一以 CC 4.0 International 为核心。
在中国司法实践中,多个判决明确认定 CC 许可证的条款在合同法下是有效的:
- 2014 年世纪互联 vs 微博案(北京海淀区法院):被告在使用原告 CC-BY-NC 图片时未署名、且用于商业广告,法院支持原告主张。该案是国内较早明确承认 CC 协议效力的判决之一。
- 2018 年图虫创意案、华盖创意系列案:多个涉 CC 图片授权的案件中,法院承认 CC 协议作为附加生效条件的合同约束力,若被告未履行署名义务,即使行为在 CC 允许的范围内,也视为「未获得授权」。
- 2021 年后,北京互联网法院多起案件:维基百科内容被未经署名转载,法院以 CC-BY-SA 作为认定侵权的依据之一。
中国的开放数据实践中使用 CC 协议的例子:
- 上海市公共数据开放平台使用「上海市公共数据开放署名条款」(自定义,但实质等同 CC-BY);
- 清华大学 THUNews、中科院部分研究数据集采用 CC-BY-SA 或 CC-BY-NC;
- 北京大学语料库、哈工大 LTP 等工具的说明文档多采用 CC-BY。
对国内开发者而言,最安全的选择是:文档、教程、博客默认 CC-BY 4.0;希望维持开放生态的采用 CC-BY-SA 4.0;尽量避免 NC 与 ND,除非有明确理由。
三、数据库许可证
3.1 为什么数据库需要专门的许可证
前面提到,单纯事实不受版权保护,但事实的汇编可能受保护。进一步,欧盟的数据库特殊权利(sui generis database right)还保护「对数据库内容取得、核实、呈现的实质性投入」。
于是一份数据库在不同法域会有不同的权利结构:
- 在美国:只有「选择与编排」的独创性部分受版权;单纯枚举事实不受保护;
- 在欧盟:既可能受版权保护,也可能受 sui generis 权利保护;
- 在中国:《著作权法》第 15 条保护「汇编作品」,《反不正当竞争法》在一些数据爬取案件中被用来保护「实质性投入」。
用 CC-BY / CC0 许可一份数据库,在欧盟会留有 sui generis 缺口(CC 4.0 修复了这个缺口,3.0 没有修复)。这正是 Open Data Commons 系列协议存在的原因:它们明确覆盖数据库权利。
3.2 Open Database License(ODbL)
ODbL 1.0 由开放知识基金会(Open Knowledge Foundation)在 2009 年发布。它有三个核心要求:
- 署名(Attribution)
- 数据库的相同方式共享(ShareAlike for databases)
- 保持开放(Keep Open):不得用技术措施禁止他人使用数据库
ODbL 区分两个概念,非常重要:
- 衍生数据库(Derivative Database):对数据库本身做的修改、增补、重结构,构成衍生数据库,必须以 ODbL 重新发布;
- 产出作品(Produced Work):使用数据库内容生成的、非数据库的东西,例如根据 OSM 渲染的一张地图图片、基于 OSM 计算的一份报告。产出作品不需要以 ODbL 发布,但仍须标注数据来源。
OpenStreetMap(OSM) 从 2012 年 9 月起全面采用 ODbL 1.0。这意味着:
- 你可以把 OSM 数据抽一份用到你的导航产品里——你的导航图片是「产出作品」,不受 SA 感染;
- 但你要给用户提供 OSM 的标注数据、基于它改出来的「衍生」标注库,必须以 ODbL 重新发布;
- 你不能加 DRM 或技术手段阻止别人下载这个派生库。
工程上常见的 ODbL 署名:
© OpenStreetMap contributors, licensed under the Open Database License
https://www.openstreetmap.org/copyright
3.3 ODC-BY(Attribution)
ODC-BY 1.0 是「仅署名」的数据库协议。它对应软件界的 BSD / MIT:
- 署名即可;
- 无 ShareAlike;
- 不强制保持开放。
适合那些希望数据尽可能被广泛使用(包括闭源产品)、但又希望保留署名的机构。
使用 ODC-BY 的典型案例:
- 部分机器学习评测集;
- 一些政府开放数据(美国、英国各级政府数据门户提供可选协议);
- 学术领域的开放知识图谱。
3.4 PDDL(Public Domain Dedication and License)
PDDL 1.0 是数据库版本的 CC0:把所有著作权、数据库权利放弃到公共领域的极限状态。与 CC0 类似,它采用三层结构,在不允许放弃权利的法域退化为无条件许可。
PDDL 常用于:
- 美国联邦政府的大量开放数据集(政府作品在美国本身就属公有领域);
- 学术机构希望数据被尽可能广泛复用,包括商业用途,且不希望下游有任何额外义务;
- 作为基础数据集的「种子」,希望被多次重组、混合、再发布。
3.5 中国数据许可实践
中国在数据许可层面的现状是:国家层面的法律框架(《数据安全法》《个人信息保护法》《生成式人工智能服务管理暂行办法》)关注的是数据合规与安全分级,而非许可证标准化。
工程上落到许可证层面的现实:
- 政府开放数据:多用自定义「开放条款」,常见要求是署名、非商业优先、与 CC-BY 思路相近。上海、北京、贵州、浙江、广东等地平台的条款各有差异,没有统一模板。
- 研究数据集:Hugging Face
上的中文数据集(wenetspeech、CLUE、CMMLU、WuDao
等)有不同选择:
- CLUE(中文语言理解评测基准):不同子任务协议不同,多数允许研究使用;工业界使用需仔细核对各子数据集的原始协议。
- WuDaoCorpora(智源研究院):限定研究用途,部分子集单独发布;
- Firefly、Belle、MOSS:多采用 Apache 2.0 / MIT / CC-BY-NC 不等;
- BAAI/COIG(北京智源):早期 CC-BY-SA-NC,2024 年后部分子集转为 Apache 2.0。
- 垂直领域数据(金融、医疗、法律):往往受行业监管,不宜公开许可,即便公开也附加使用限制。
3.6 数据集协议选择速查
| 场景 | 推荐协议 |
|---|---|
| 希望最大范围使用,放弃所有权利 | PDDL 1.0(或 CC0) |
| 仅要求署名 | ODC-BY 1.0(或 CC-BY 4.0) |
| 要求衍生数据库继续开放 | ODbL 1.0 |
| 数据有隐私或受限因素 | 自定义协议 + 访问审批 |
| 欧盟用户为主 | 选 ODbL / ODC-BY / PDDL,避免单独用 3.0 以下的 CC |
四、AI 模型许可证
4.1 模型权重的法律性质
模型权重是否受著作权保护?这是 2023 年以后迅速成为焦点的问题。目前可以确定的只有几件事:
- 模型权重不是「代码」,但发布时常与代码绑定;
- 权重的生成过程是机械式训练,缺少传统意义上的人类创作投入——这符合美国版权局「没有实质性人类创作介入」的排除标准;
- 但发布模型的实体对其发布、使用设定了条件,这些条件通过合同法生效——不论权重本身是否可版权保护,点击 / 下载 / 克隆的行为构成接受条款的意思表示。
正因为法律地位不清晰,模型许可证通常同时提供两种路径:
- 以版权许可的方式约束(「如果权重是作品,本协议是许可」);
- 以合同的方式约束(「无论是否构成作品,使用者都必须遵守」)。
RAIL 家族和 LLaMA Community License 都采用这种双轨写法。
4.2 OpenRAIL 家族(Responsible AI Licenses)
RAIL(Responsible AI License)由 BigScience / Hugging Face / Licenses for AI 等社区力量推动,2022 年前后成型。核心理念是:
- 权重应当开放;
- 使用必须负责。
传统的 MIT / Apache 2.0 是「任何人、任何目的」;而 RAIL 在保留前者精神的同时,通过使用限制(Use Restrictions)禁止某些具体的有害用途。这在传统软件开源精神中是一个重大背离——OSI 不接受任何「use field restriction」(使用领域限制),因此 RAIL 协议在 OSI 的定义下不算开源。
4.2.1 RAIL
基础 RAIL 协议允许使用、分发、修改,但附加「使用限制」(Attachment A)。
4.2.2 OpenRAIL
「Open」意味着:源代码与模型权重可自由分发、允许商业化、允许演绎。在此基础上保留使用限制。OpenRAIL 有多个变体:
- OpenRAIL-M(Model):针对模型权重;
- OpenRAIL-D(Data):针对数据集;
- OpenRAIL-S(Source Code):针对源代码;
- 以及组合 OpenRAIL-MS 等。
最知名的用户是 Stable Diffusion v1(2022 年 8 月发布),采用 CreativeML Open RAIL-M。它允许:
- 商业使用(自行部署、提供 API 服务、商业模型训练);
- 微调(fine-tune)并发布微调模型;
- 嵌入产品。
它禁止(节选):
- 为生成儿童性虐待材料(CSAM)而使用;
- 骚扰、欺凌、造谣、中伤特定个体;
- 未经同意的深度伪造(deepfake)真实人物;
- 为规避医疗诊断义务、法律咨询义务而提供服务;
- 大规模制造虚假信息扰乱公共秩序。
注意:Stable Diffusion 之后的 SDXL 0.9 / 1.0 采用 SAI Non-Commercial License(SAI 非商业研究协议),后来 Stable Diffusion 3 又回到 SAI Community License,再到 2024 年底 Stability 进入财务困境后协议变动更为频繁。模型协议会随组织商业化策略而变——这是 AI 协议世界的一个重要结构性事实。
4.2.3 BigScience OpenRAIL
BLOOM(1760 亿参数,2022 年 7 月发布)采用 BigScience OpenRAIL-M。Attachment A 列出了 15 类禁止用途,包括(节选):
- 违反法律法规的用途;
- 对个人的物理或精神伤害;
- 针对脆弱群体的剥削;
- 基于受保护特征(种族、性别、宗教、残疾等)的歧视;
- 未经同意的身份识别、监视;
- 医疗诊断未经专业资质的替代;
- 法律、金融决策的替代性服务;
- ……
使用者必须在下游传递这些限制。即便你只是基于 BLOOM 微调一个 7B 的中文模型,你的发布协议也必须包含同样的使用限制。
4.2.4 RAIL 的工程特点与隐患
RAIL 类协议的法律创新之处在于「use restriction」。它带来的工程挑战:
- 传递义务:下游模型必须在自己的协议中复制这些限制。
- 可执行性:违反 use restriction 是违约行为,发布方可以主张合同救济,但实务中执法成本极高——美国有少量此类案件,国内几乎空白。
- 与合规体系的关系:RAIL 的禁止用途清单与中国《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》有重叠,但并不完全对应。实际合规时,需要两套清单同时满足。
4.3 LLaMA 模型许可证
Meta 的 LLaMA 系列是 2023 年以后大模型开放运动的关键事件,也是理解「开放权重但非开源」的典型范本。
4.3.1 LLaMA 1(2023 年 2 月)
LLaMA 1 采用「Research-Only License」:
- 必须申请访问,由 Meta 审批;
- 仅限非商业研究用途;
- 不得向第三方再分发;
- 任何衍生模型也只能用于研究。
LLaMA 1 不是开源,甚至不算「开放权重」;它更接近「有限研究访问」。但 2023 年 3 月的权重泄漏事件直接改变了局面——从此「封闭的研究协议」不再现实。
4.3.2 LLaMA 2 Community License(2023 年 7 月)
LLaMA 2 的协议(2023 年 7 月 18 日发布)是一次明显的让步,也是一次精心的法务设计:
- 允许商业使用;
- 允许微调并发布微调模型(需保留 LLaMA 2 协议);
- 例外:月活跃用户数(Monthly Active Users,MAU)超过 7 亿的产品,必须单独向 Meta 申请商业许可。
- 不得用 LLaMA 2 的输出训练其它大语言模型(排除 Meta 或其关联公司的模型)。
- 使用者必须在界面和文档中注明「Built with Meta LLaMA 2」。
两个条款值得重点看:
- 700M MAU 条款:精准挡住了 Google、Microsoft、Apple、字节跳动、腾讯、阿里巴巴这类超大规模平台。结论:除了最大的几家,谁都可以「免费」用;而最大的几家必须跟 Meta 坐下来谈。
- 反训练条款(Section 1.v.2):「you will not use the Llama Materials or any output or results of the Llama Materials to improve any other large language model (excluding Llama 2 or derivative works thereof)」。这是一条反竞争条款,防止用 LLaMA 蒸馏出更强的非 Meta 模型。
这两条让 LLaMA 2 不可能得到 OSI 开源认证——OSD 第 5 条「不得歧视个人或团体」、第 6 条「不得歧视特定使用领域」都被违反。
4.3.3 LLaMA 3 / 3.1 Community License(2024 年 4 月 / 7 月)
LLaMA 3 与 3.1 延续了 Community License 的结构,做了几处调整:
- 700M MAU 条款保留:继续作为大厂区分条款;
- 反训练条款调整:LLaMA 3 起,Meta 要求下游模型若用 LLaMA 3 的输出训练,必须在模型名字里带上「Llama」前缀。这其实是把硬禁变成了「命名披露」要求。
- 商标条款:「LLaMA」「Llama」等字样的使用有特定规定,避免下游声称「Meta 背书」。
- 归属义务:仍需显示「Built with Llama」等语。
LLaMA 3.1 405B 的发布(2024 年 7 月 23 日)让这套协议影响到更大规模的生态——包括中国的 Llama-3.1-Chinese 系列、llama.cpp 兼容链路。
4.3.4 为什么 LLaMA 不是「开源」
把 LLaMA 2/3 与 OSI 的 OSD 十条并排看:
| OSD 条款 | LLaMA Community License |
|---|---|
| 1. 自由再发布 | ✓ 允许 |
| 2. 源代码可获得 | ○ 权重可下载,训练代码未公开 |
| 3. 允许派生作品 | ✓ 允许 |
| 4. 作者源代码完整性 | ✓ |
| 5. 不歧视个人或团体 | ✗ 排除 700M MAU 以上组织 |
| 6. 不歧视特定使用领域 | ✗ 排除「用于改进其它 LLM」的用途 |
| 7. 协议随附作品 | ✓ |
| 8. 协议不针对具体产品 | ✓ |
| 9. 协议不限制其它软件 | ✓ |
| 10. 协议技术中立 | ✓ |
LLaMA 在 5 和 6 两条上违反 OSD。这就是为什么社区更准确地把它叫做「open weights」而不是「open source」。
4.4 Mistral 与真正的 Apache 2.0 模型
Mistral AI(法国,2023 年创立)在 2023 年 9 月发布 Mistral 7B,协议直接选了 Apache 2.0。这是第一款真正「开源级别」的主流 LLM:
- 任何用途(含商业);
- 任何规模(无 MAU 限制);
- 可用于训练其它模型;
- 只需保留版权声明与许可证文本。
2023 年 12 月,Mixtral 8x7B(MoE 架构,47B 激活参数)同样以 Apache 2.0 发布。2024 年 7 月 Mistral NeMo 12B(与 NVIDIA 合作)也是 Apache 2.0。
Mistral 的商业模式是「开放权重 + 商业 API + 企业版」:
- 社区版开源,用来获取开发者生态与信任;
- 旗舰版(Mistral Large、Mistral Medium)以商业 API 提供,协议为 Mistral Research License 或专有;
- 2024 年 7 月发布的 Mistral Large 2 采用「Mistral Research License」——研究与非商业可用,商业需单独授权。
对比 LLaMA,Mistral 的策略更干净:要么真的 Apache 2.0,要么就是商业模型。中间没有「看起来开源但限制一大堆」的灰色地带。这种二分法在社区中赢得了相当的信任感。
4.5 通义千问(Qwen)许可证演变
阿里巴巴通义千问(Qwen)的许可证策略是理解中国大模型协议演变的关键样本。
- Qwen 1 系列(2023 年 8 月起):自定义「通义千问许可协议」。允许商业使用,但月活用户数超 1 亿的产品需单独申请商业许可。结构上近似 LLaMA 2 Community License,但 MAU 阈值低一个量级。
- Qwen 1.5(2024 年 2 月):维持 Tongyi Qianwen License。
- Qwen2 系列(2024 年 6 月起):绝大多数子模型(0.5B / 1.5B / 7B / 57B-A14B)转为 Apache 2.0。只有 Qwen2-72B 保留「通义千问许可协议」(实际条款近似 LLaMA 2 Community License,有 MAU 门槛)。
- Qwen2.5 系列(2024 年 9 月):继续这种「小模型 Apache 2.0、旗舰 72B 定制协议」的分层。
- Qwen3 系列(2025 年):根据 Hugging Face 模型卡,进一步扩大 Apache 2.0 的覆盖范围。
这个走向非常清楚:在 Mistral 用 Apache 2.0 抢占开发者心智的压力下,阿里把 Apache 2.0 作为「中小型号」的默认选择,以最大化生态采纳;而在旗舰模型上保留商业护城河。
4.6 DeepSeek 与 MIT 许可证
深度求索(DeepSeek,2023 年成立)自始至终走的是「权重协议尽量宽松」的路线:
- DeepSeek-Coder(2023 年 11 月):权重采用自定义「DeepSeek License Agreement」,允许商业使用,限制较少;代码部分采用 MIT。
- DeepSeek-V2(2024 年 5 月):延续自定义协议,但条款相较 LLaMA 2 更为宽松。
- DeepSeek-V3(2024 年 12 月):同样采用「DeepSeek License Agreement」,允许商业化。
- DeepSeek-R1(2025 年 1 月):权重采用 MIT 许可证,且在模型卡中明确鼓励使用 R1 的输出来训练其它模型(这正是 LLaMA Community License 明确禁止的)。
R1 的 MIT + 鼓励蒸馏的组合让它在 2025 年第一季度迅速成为社区最热门的开放权重旗舰模型。它的协议策略和 LLaMA 2/3 形成强烈对照:不在协议上设门槛,把护城河建立在产品与服务之上。
4.7 书生·浦语(InternLM)/ 智源(FlagOpen)/ 百川(Baichuan)的协议变化
InternLM(上海人工智能实验室)
- InternLM(2023 年 6 月):自定义 InternLM License,研究免费,商业需申请;
- InternLM2(2024 年 1 月):权重协议切换为 Apache 2.0(小版本)加「允许免费商业使用的自定义许可」(大版本 20B 在 2024 年 1 月初的协议仍保留免费商业授权的申请流程,后续简化);
- InternLM2.5(2024 年 7 月)与 InternLM3(2025 年):权重以 Apache 2.0 发布。
BAAI / FlagOpen(北京智源研究院)
- BGE(BAAI General Embedding,2023 年 8 月):MIT 许可证,是目前最广泛使用的中英 embedding 模型。
- FlagEmbedding 代码:MIT;
- Aquila 系列:
- Aquila v1:自定义 BAAI Aquila License(允许商业使用,但禁止输出内容被用作训练其它 LLM);
- Aquila2(2023 年 10 月起):条款逐步放宽,部分子模型切换为 Apache 2.0;
- COIG(Chinese Open Instruction Generalist):多个子集,协议不一(CC-BY-SA-NC、Apache 2.0 等)。
百川(Baichuan)
- Baichuan-7B(2023 年 6 月):Apache 2.0 开源社区版本;
- Baichuan-13B(2023 年 7 月):发布了两套——基础模型以自定义「Baichuan Community License」发布,允许商业使用,登记制免费授权;
- Baichuan2(2023 年 9 月):延续这种「社区免费 + 登记制商用」的 Community License;
- 后续企业级旗舰(Baichuan3、Baichuan4)转为纯闭源商业发布。
4.8 ChatGLM / GLM 系列(智谱)
清华大学 KEG 实验室 / 智谱 AI:
- ChatGLM-6B(2023 年 3 月):代码 Apache 2.0,权重采用「Model License」——非商业免费,商业用途需申请书面授权。
- ChatGLM2-6B / ChatGLM3-6B:同类型 Model License;
- GLM-4(2024 年 6 月起开源的 GLM-4-9B 系列):协议切换为 Apache 2.0 风格的定制协议,商业使用需做简单登记;
- GLM-4.5 / GLM-4-Plus(2024 年 9 月后):部分开源部分闭源。
4.9 模型协议对比表
| 模型 | 机构 | 首发协议 | 最新代表协议 | 关键限制 |
|---|---|---|---|---|
| LLaMA 1 | Meta | Research-Only | 已停更 | 仅研究 |
| LLaMA 2 | Meta | LLaMA 2 Community | 同上 | 700M MAU、反训练 |
| LLaMA 3.1 | Meta | LLaMA 3.1 Community | 同上 | 700M MAU、命名披露 |
| Mistral 7B | Mistral AI | Apache 2.0 | Apache 2.0 | 无 |
| Qwen2-7B | 阿里 | Tongyi Qianwen License | Apache 2.0 | 小号无;72B 有 MAU |
| DeepSeek-V2 | DeepSeek | DeepSeek License | DeepSeek License / MIT(R1) | 少 |
| DeepSeek-R1 | DeepSeek | MIT | MIT | 无 |
| InternLM2 | 上海 AI Lab | Apache 2.0 / 免费商业 | Apache 2.0 | 无 |
| BGE | BAAI | MIT | MIT | 无 |
| Baichuan2 | 百川 | Community License | Community License | 登记制 |
| ChatGLM3 | 智谱 | Model License | GLM-4 Community | 商用需登记 |
| Stable Diffusion v1 | Stability AI | CreativeML Open RAIL-M | 已停更 | 使用限制 |
| BLOOM | BigScience | BigScience OpenRAIL-M | 同上 | 15 项使用限制 |
这张表揭示的趋势:2024 年后,中国大陆新一代旗舰模型更愿意用 Apache 2.0 / MIT;LLaMA 和部分商业闭源模型保留定制 Community License;RAIL 家族则在开源社区作为「负责任 AI」的旗帜继续使用,但在工业界的采纳率不高。
五、OSI 开源 AI 定义(OSAID 1.0)
5.1 为什么需要 OSAID
2022 年 Stable Diffusion、2023 年 LLaMA 2 的发布,让「开源 AI」成为热词。但如前所述:
- LLaMA 2/3 不是开源(OSD 5、6 违反);
- Stable Diffusion 的 OpenRAIL-M 因 use restriction 也违反 OSD 6;
- 很多「开源模型」只发布权重,不发布训练数据、训练代码。
这造成一个词语危机——「开源 AI」到底指什么?是像 MIT 一样任何人任何用途?还是像 LLaMA 一样「大多数人免费用」?还是像 Stable Diffusion 一样「商业可以但不能做有害应用」?
OSI 从 2022 年启动 OSAID 研究项目,经过 18 个月左右的全球协商,2024 年 10 月 28 日在 All Things Open 大会上发布 OSAID 1.0。
5.2 OSAID 1.0 的核心要求
OSAID 1.0 为「开源 AI 系统」设定了四项自由:
- 使用自由(Use):为任何目的使用系统,无需许可;
- 研究自由(Study):检查系统组件、理解其工作方式;
- 修改自由(Modify):为任何目的修改系统,包括改变输出;
- 分享自由(Share):分享系统的副本与衍生品,不论是否修改。
要实现这些自由,OSAID 要求发布方提供三类「优先形式」(preferred form):
- 数据信息(Data
Information):对训练、测试、验证所用数据的「充分详细描述」,使「技能娴熟的人员」能够复现一个功能等效的系统。这里允许:
- 若能完全发布数据,鼓励发布;
- 若因隐私、法律、商业约束无法完全发布,可用数据卡(data card)、数据声明(data statement)、数据集描述性文档替代;
- 数据必须可依法被复现——如果来源完全不可追溯,不符合要求。
- 完整训练代码(Code):训练、数据处理、评测、推理的完整源代码,需以 OSI 认证协议发布;
- 模型参数(Parameters):权重、超参数、架构文件,需以 OSI 兼容协议发布。
5.3 哪些模型符合 OSAID 1.0
OSAID 1.0 发布时,OSI 没有给出官方认证清单,但社区普遍认为当前符合的模型很少:
- OLMo(Allen Institute for AI,2024):权重、训练代码、训练数据(Dolma 数据集)全开放,被视为最接近 OSAID 的主流模型。
- Pythia(EleutherAI):基于 The Pile 训练,代码、权重公开,训练数据公开。
- K2 / LLM360:完全开源的训练 pipeline,数据集公开。
- BLOOM:权重和 ROOTS 训练数据公开,但 OpenRAIL 使用限制会让 OSI 的部分委员认为它未满足「任何目的使用」。
- Qwen2、DeepSeek-R1、LLaMA、Mistral:虽然权重是 Apache/MIT/社区协议,但训练数据未公开,不满足 Data Information 要求。
也就是说:目前多数「开放权重」模型在 OSAID 口径下不是开源 AI。
5.4 OSAID 对中国 AI 生态的影响
中国 AI 团队面临的挑战与西方类似,但有几个独特点:
- 训练数据来源:大量中文预训练语料来自网页爬取、百度百科、知乎、微博等平台。权利归属、robots 协议、反爬条款、著作权共同构成复杂的合规图景。
- 政府数据与受限数据:部分中文数据集来自政府项目或受限来源,不具备公开条件;
- 数据共享平台的缺乏:国内缺少 Common Crawl、The Pile 级别的大规模开放语料;
- 合规层面的紧张:《生成式人工智能服务管理暂行办法》要求训练数据来源合法、内容健康,但这种合规要求与 OSAID 要求的「可复现」之间有微妙张力。
对国内模型团队的现实路径:
- 近期:权重以 Apache 2.0 / MIT 发布,训练数据以「数据卡」方式披露(描述来源比例、去重策略、质量过滤),避免主张 OSAID 认证;
- 中期:建设类似 OLMo 的完全开放的中文基础模型;
- 长期:推动中文开放语料联盟,让训练数据本身成为公开资源。
六、工程坑点
6.1 CC-BY-SA 与软件代码的混用
最常见的误用:开发者把 Wikipedia 的一段解释粘贴到代码注释里,整个代码仓库按 MIT 发布。
严格意义上,这段文本仍然要求以 CC-BY-SA 4.0 发布,且要求下游以同一协议分发。MIT 与 CC-BY-SA 并不兼容——MIT 没有 copyleft 要求,整个仓库用 MIT 相当于违反 SA 条款。
解决方案:
- 把引用的 Wikipedia 文字放在
docs/目录,docs/目录单独声明 CC-BY-SA 4.0; - 或者用自己的语言重写(重述事实不受版权限制);
- 或者以链接形式引用,不内嵌内容。
6.2 NC(非商业)条款的模糊性
NC 条款的边界争议在实务中每几年都会冒出来。一个经典案例:德国广播电台 Deutschlandradio 在 2013 年使用了一张 CC-BY-NC 的自行车选手照片,法院判决该电台作为公营媒体接受民众赞助,「即使不直接营利,整体运作具有商业属性」,构成违反 NC。
工程判断的底线:
- 只要存在广告、订阅、付费墙、附带的商业服务,用 CC-NC 内容都有风险;
- 公司内部使用(员工学习、培训)通常被视为商业上下文;
- 学术机构的非营利研究使用更安全,但一旦成果进入产业化,就要重新评估。
实务建议:能避免 NC 就避免。如果必须用 NC 素材,提前与作者协商商业授权。
6.3 模型许可证的下游传递
Fine-tune 一个 LLaMA 3.1 微调模型:
- 微调结果仍然受 LLaMA 3.1 Community License 约束;
- 发布时必须附带协议文本;
- 使用者仍需遵守 700M MAU 限制;
- 模型名必须带
Llama前缀,除非符合豁免条件; - 训练数据、训练代码的协议需另行说明。
Fine-tune 一个 Stable Diffusion 模型(CreativeML Open RAIL-M):
- 微调结果仍然受 RAIL 协议约束;
- 15 项 use restriction 需要在下游文档中保留;
- 商业使用被允许,但使用者同样需要执行 use restriction。
很多 Hugging Face 上「开源微调模型」没有把这些限制显式传递,技术上属于违约状态。一旦上游发现并主张救济,下游处境会相当被动。
6.4 训练数据版权与模型输出版权
这是 2023 年以后最活跃的法律焦点。要点:
- 训练过程是否构成侵权:2023 年开始,New York Times v. OpenAI、Getty v. Stability AI、多位作家 v. OpenAI/Meta 等诉讼。焦点集中在「未经许可抓取并用作训练数据」是否构成版权侵权,以及是否适用「合理使用」(fair use)抗辩。
- 模型输出是否可版权:2023 年 3 月美国版权局指南认定「没有人类实质创作投入的 AI 生成物不可登记版权」;2023 年 8 月 Thaler v. Perlmutter 联邦法院判决支持该立场。
- 中国立场:2023 年 11 月北京互联网法院「AI 生成图片案」一审判决认定,用户通过精心的 prompt、参数调节和选择组合生成图像,构成人类独创性表达,AI 生成图可获得版权保护;这与美国立场差异显著。该判决未经更高审级确认。
- 训练数据披露义务:欧盟《AI 法》(2024 年 8 月生效,分阶段实施)要求通用目的 AI 模型(General-Purpose AI,GPAI)提供方公开训练数据的「足够详细的摘要」。这与 OSAID 的 Data Information 要求方向一致。
工程建议:
- 训练数据来源要尽早留痕——每次爬取都记录 URL、抓取时间、robots.txt 状态;
- 用公开授权的数据集优先(Common Crawl、OSCAR、CulturaX、The Pile、WuDao);
- 模型输出加水印(SynthID 等),满足《生成式人工智能服务管理暂行办法》标识要求。
6.5 数据集混合许可证的 SBOM
当一个模型用上百个数据集训练,每个数据集协议不同,就需要一份「AI BOM」。相关标准:
- CycloneDX ML-BOM(OWASP,2023
年):在传统 SBOM 基础上扩展,增加
modelCard、dataCard、consideration字段。 - SPDX 3.0 AI Profile(2024 年 4 月):在 SPDX 文档中增加 AI 相关元素类型,支持训练数据、模型、评测集的建模。
- Hugging Face model card / dataset
card:事实上的前端规范,YAML header 中包含
license、license_name、license_link、dataset_info等字段。
这些标准都不具备强制力,但在企业 AI 合规体系中逐渐成为基础设施。工程上推荐做法:
- 每个训练数据集单独标注协议,能追溯到原始 URL;
- 使用 Hugging Face Hub 的
datasetsAPI 时检查.dataset_info.json的 license 字段; - 在模型发布时附带一份数据清单(data inventory),列出协议、来源、过滤方式。
七、选型建议
7.1 文档类
| 场景 | 推荐协议 |
|---|---|
| 教程、博客、API 文档 | CC-BY 4.0 |
| 希望维持开放衍生的社区百科 | CC-BY-SA 4.0 |
| 固定形态的官方声明 | CC-BY-ND 4.0 |
| 完全献入公共领域 | CC0 |
不推荐:CC-BY-NC 系列——NC 条款的模糊性往往给下游带来合规负担,反而降低传播效率。
7.2 数据类
| 场景 | 推荐协议 |
|---|---|
| 需要最大范围复用 | PDDL 1.0 或 CC0 |
| 只要求署名 | ODC-BY 1.0 或 CC-BY 4.0 |
| 希望衍生数据库保持开放 | ODbL 1.0 |
| 涉及个人信息或受监管数据 | 自定义协议 + 访问审批 |
欧盟用户多的场景,优先选 ODC 系列(PDDL / ODC-BY / ODbL),因为它们明确处理 sui generis database right。纯美国场景下,CC0 / CC-BY 也可以接受。
7.3 模型类
| 目标 | 推荐协议 |
|---|---|
| 追求最广泛采纳,不设置门槛 | Apache 2.0(Mistral、Qwen2、InternLM2)或 MIT(DeepSeek-R1、BGE) |
| 希望保留反竞争条款 | 自定义 Community License(参考 LLaMA 2/3) |
| 希望设置负责任使用限制 | OpenRAIL-M(注意:会失去 OSI 开源身份) |
| 要 OSI 官方开源 AI 认证 | 需要完整公开训练代码和数据信息(OSAID) |
7.4 多资产项目的组合模板
一个推荐的默认组合:
代码 Apache-2.0
文档 CC-BY-4.0
数据集 CC-BY-4.0 或 ODbL-1.0
模型权重 Apache-2.0
这个组合覆盖了 99% 的开源项目需求,下游使用阻力最小,合规成本最低。
7.5 涉及中国场景的额外考量
- 合规优先:《生成式人工智能服务管理暂行办法》要求训练数据来源合法、不含违法信息;《数据安全法》《个人信息保护法》约束个人数据处理;
- 算法备案:提供生成式 AI 服务需要做算法备案,许可证选择不能替代备案义务;
- 内容标识:《互联网信息服务深度合成管理规定》要求深度合成内容显著标识,这与 RAIL 等协议的「禁止未经同意 deepfake」条款叠加,形成双重合规要求;
- 出口管制:部分 AI 模型可能受出口管制影响,许可证允许的行为不意味着监管允许的行为。
八、中国案例:国内大模型协议演变汇总
下表整理了国内具有代表性的大模型及其许可证演变(数据来自 Hugging Face 模型卡与官方仓库 README,截止 2025 年上半年公开信息):
| 模型 | 机构 | 首发时间 | 首发协议 | 最新代表协议 | 关键限制 |
|---|---|---|---|---|---|
| 通义千问 Qwen 1 | 阿里巴巴 | 2023-08 | Tongyi Qianwen License | — | 100M MAU 门槛 |
| 通义千问 Qwen 2 | 阿里巴巴 | 2024-06 | Apache 2.0(≤57B)/ Qwen License(72B) | Apache 2.0(多数) | 72B 仍有 MAU 条款 |
| 通义千问 Qwen 2.5 | 阿里巴巴 | 2024-09 | Apache 2.0(多数) | Apache 2.0 | — |
| DeepSeek-Coder | DeepSeek | 2023-11 | DeepSeek License(权重)+ MIT(代码) | — | 允许商业使用 |
| DeepSeek-V2 / V3 | DeepSeek | 2024-05 / 2024-12 | DeepSeek License | 同前 | 宽松 |
| DeepSeek-R1 | DeepSeek | 2025-01 | MIT | MIT | 无 |
| 书生·浦语 InternLM | 上海 AI Lab | 2023-06 | InternLM License | — | 商业需申请 |
| InternLM2 / 2.5 | 上海 AI Lab | 2024-01 起 | Apache 2.0(多数) | Apache 2.0 | — |
| InternLM3 | 上海 AI Lab | 2025 | Apache 2.0 | Apache 2.0 | — |
| BGE embedding | BAAI | 2023-08 | MIT | MIT | 无 |
| Aquila | BAAI | 2023-06 | BAAI Aquila License | Apache 2.0(部分) | 早期禁止输出训练他 LLM |
| 百川 Baichuan-7B | 百川智能 | 2023-06 | Apache 2.0 | Apache 2.0 | 无 |
| 百川 Baichuan2-13B | 百川智能 | 2023-09 | Baichuan Community License | 同前 | 登记制商用 |
| ChatGLM-6B | 清华/智谱 | 2023-03 | Model License | — | 非商业免费,商业申请 |
| ChatGLM3-6B | 清华/智谱 | 2023-10 | Model License | — | 商业申请 |
| GLM-4-9B | 智谱 | 2024-06 | GLM-4 License | — | 简化登记制 |
总体趋势(2023 - 2025):
- Apache 2.0 化:Qwen2、InternLM2、GLM-4-9B 等都将默认协议改为 Apache 2.0 风格;
- MIT 进一步宽松:DeepSeek-R1、BGE 直接选 MIT,甚至鼓励蒸馏;
- Community License 保留:主要用于旗舰模型(Qwen-72B、Baichuan2-13B、ChatGLM)以维持商业护城河;
- RAIL 协议未在中国主流大厂广泛采用:国内更倾向于「许可证 + 监管合规」的二层结构,而非在协议内嵌使用限制。
这种趋势与国际生态同步——LLaMA 2/3 的 Community License 虽然名义上「可商用」,但在开发者心智里,干净的 Apache 2.0 / MIT 比任何带门槛的协议都更受欢迎。这也是 Mistral、DeepSeek 在 2024 年快速上位的重要原因。
附录 A:CC-BY-SA 4.0 关键条款逐条解读
很多工程师在实际项目里被 CC 协议绊住脚,往往是对 4.0 版本几个关键条款缺少细读。以下按 CC-BY-SA 4.0 官方法律代码的结构做精要解读,不替代原文,仅便于工程理解。
A.1 第 1 条:定义
CC-BY-SA 4.0 第 1 条定义了 13 个核心术语,其中对工程实践最关键的:
- Adapted Material(改编材料):指基于许可作品进行翻译、修改、编排、转换等形成的新作品,必须具备版权、相关权利或数据库权利。简单的格式转换(例如把 PDF 转成 ePub,不加修改)不构成改编。
- BY-SA Compatible License:CC 组织单独公布「兼容协议清单」。4.0 版本的兼容协议目前仅包含少量 GFDL 旧版和部分自由艺术许可证,GPL 不在其中。
- Effective Technological Measures(有效技术措施):指 WIPO 版权条约意义上的 DRM 机制。协议第 2(a)(5)(A) 条禁止对许可作品加 DRM,下游不得用 DRM 包裹 CC-BY-SA 作品。
- License Elements:即本文第 2.1 节提到的 BY、SA 等要素,出现在协议名称中。
- Sui Generis Database Rights:欧盟数据库特殊权利。4.0 显式覆盖,3.0 不覆盖。
A.2 第 2 条:许可授予
第 2(a) 条以全球、免版税、非独占、不可撤销的方式,授予下游:
- 复制、分发许可作品的权利(在全部或部分作品上);
- 创建、复制、分发改编作品的权利;
- 包括所有媒介、所有格式、当前已知或未来开发的技术手段。
注意不可撤销(irrevocable)三个字的分量。作者一旦发布,就不能单方面收回协议——这是 CC 家族作为「开放许可证」的骨架。如果你需要未来回收作品权利,不应选 CC。
第 2(b) 条处理例外与限制:协议不干涉各司法区已有的合理使用、合理引用、教学使用等例外。换言之,即使协议没有明说,法定合理使用仍然成立。
A.3 第 3 条:许可条件
这是最常被下游忽视的一节。
署名条件 3(a)
下游在分发作品或改编作品时,必须:
- 保留许可人所要求的署名标识(名称、化名、归属实体);
- 保留版权声明;
- 保留一条说明本协议的声明;
- 保留免责声明条款(warranty disclaimer);
- 提供协议文本的 URI 或超链接(理想情况);
- 标明是否对作品进行了修改,若修改则保留此前修改的痕迹。
「合理方式」(reasonable manner)的具体实践:
- 在博客文章底部加一段「本文改编自 XXX,CC BY-SA 4.0」即可;
- 在电子书前言中统一列出;
- 在软件产品的「关于」页面列出第三方内容致谢;
- 不要求在每一页、每一段落都重复。
相同方式共享条件 3(b)
下游分发改编作品(不是原作品)时,必须:
- 采用 CC-BY-SA 4.0、后续版本、或 CC 列出的兼容协议;
- 保留协议文本或 URI;
- 不得对改编作品施加任何额外条款,限制协议赋予下游用户的权利。
第 3 项含义:你不能在你的 CC-BY-SA 衍生作品上加一条「禁止商业用户使用」——那会实质削弱 CC-BY-SA 允许的商业用途。
A.4 第 4 条:Sui Generis Database Rights
4.0 版本在第 4 条单独处理欧盟数据库特殊权利:
- 许可人放弃对授权使用提起 sui generis 诉讼的权利;
- 下游对数据库中「实质部分」的抽取或再利用会构成改编,进入第 3(b) 条的 SA 范围;
- 对数据库中「非实质部分」的使用不受协议限制。
这个设计让 CC-BY-SA 4.0 能够单独作为数据集协议用在欧盟——虽然 Open Data Commons 的协议在这个场景下更常见。
A.5 第 5 条:免责与责任限制
与大多数开源协议一致:明示无担保、不负瑕疵担保责任、不负间接损失责任。但各司法区强行法会覆盖部分条款——比如中国《民法典》下因故意或重大过失造成损害的责任不能通过协议排除。
A.6 第 6 条:终止
第 6(a) 条提供自动恢复机制:如果下游首次违反协议,只要在 30 天内发现并纠正,许可自动恢复。这是 CC 4.0 相对 3.0 最重要的改进之一——3.0 下一旦违反就永久失去许可。这一机制类似 GPLv3 的 cure 条款。
附录 B:SPDX 标识符与多许可证组合
SPDX(Software Package Data Exchange)是一套标准化的许可证标识符体系,由 Linux Foundation 维护。对非代码资产同样适用。
B.1 常见 SPDX 标识符
| 资产类别 | 协议 | SPDX ID |
|---|---|---|
| 代码 | MIT | MIT |
| 代码 | Apache 2.0 | Apache-2.0 |
| 代码 | GPLv3 | GPL-3.0-or-later |
| 文档 | CC BY 4.0 | CC-BY-4.0 |
| 文档 | CC BY-SA 4.0 | CC-BY-SA-4.0 |
| 文档 | CC0 | CC0-1.0 |
| 数据 | ODbL 1.0 | ODbL-1.0 |
| 数据 | ODC-BY 1.0 | ODC-By-1.0 |
| 数据 | PDDL 1.0 | PDDL-1.0 |
| 模型 | OpenRAIL-M | 暂未标准化 |
| 模型 | LLaMA Community | 暂未标准化 |
B.2 SPDX 表达式语法
多协议组合用操作符表示:
# 二选一(用户可任选其一)
"MIT OR Apache-2.0"
# 共同生效(用户必须同时满足)
"Apache-2.0 AND CC-BY-4.0"
# 带例外
"GPL-3.0-or-later WITH Classpath-exception-2.0"
# 复杂嵌套
"(Apache-2.0 OR MIT) AND CC-BY-SA-4.0"
B.3 Hugging Face 模型卡的协议字段
Hugging Face Hub 的 README.md YAML header 支持:
license: apache-2.0 # 单一 SPDX ID
license_name: llama3.1 # 自定义名称(用于未进入 SPDX 的协议)
license_link: https://llama.meta.com/llama3_1/license
datasets:
- mlfoundations/dclm-baseline-1.0
model-index:
- name: MyFineTunedModel
language:
- zh
- en当 license 不在 SPDX 清单中时,使用
license_name + license_link。
B.4 CycloneDX ML-BOM 示例片段
一份 ML-BOM 的核心结构(缩略):
{
"bomFormat": "CycloneDX",
"specVersion": "1.5",
"version": 1,
"metadata": {
"timestamp": "2025-12-01T00:00:00Z",
"component": {
"type": "machine-learning-model",
"name": "MyFineTunedQwen2-7B",
"version": "v0.1",
"licenses": [
{"license": {"id": "Apache-2.0"}}
]
}
},
"components": [
{
"type": "machine-learning-model",
"name": "Qwen2-7B",
"version": "1.0",
"licenses": [{"license": {"id": "Apache-2.0"}}]
},
{
"type": "data",
"name": "wikipedia-zh-20240801",
"licenses": [{"license": {"id": "CC-BY-SA-4.0"}}]
},
{
"type": "data",
"name": "internal-sft-corpus",
"licenses": [{"license": {"name": "internal-proprietary"}}]
}
]
}此类 BOM 文件配合 Sigstore / Rekor 等透明日志基础设施,可以为模型发布建立一条可审计的证据链。
附录 C:常见协议兼容性矩阵
下表展示几种常见协议之间的「单向兼容性」——即能否把 A 协议的内容纳入 B 协议的作品中。「是」意味着可以,「否」表示存在协议冲突,「条件」意味着在特定条件下可以。
| A → B | MIT | Apache-2.0 | GPL-3.0 | CC-BY-4.0 | CC-BY-SA-4.0 | CC0 | ODbL-1.0 |
|---|---|---|---|---|---|---|---|
| MIT | — | 是 | 是 | — | — | — | — |
| Apache-2.0 | 是 | — | 条件* | — | — | — | — |
| GPL-3.0 | 否 | 否 | — | — | — | — | — |
| CC-BY-4.0 | 是 | 是 | 是 | — | 是 | 否 | 是 |
| CC-BY-SA-4.0 | 否 | 否 | 否 | 否 | — | 否 | 否 |
| CC0 | 是 | 是 | 是 | 是 | 是 | — | 是 |
| ODbL-1.0 | 条件 | 条件 | 否 | 条件 | 否 | 否 | — |
*Apache-2.0 向 GPL-3.0 的兼容是单向的:Apache-2.0 代码可纳入 GPL-3.0 工程,反向不可。
「—」表示协议适用对象不同,不构成典型兼容场景。
关键观察:
- CC-BY-SA 是最「感染性」的协议——一旦用了,下游必须继续 CC-BY-SA(除非走 CC 兼容清单);
- CC0 几乎向所有协议开放;
- 代码类协议与内容类协议一般不直接混合,应当分目录分别声明。
附录 D:一个典型项目的 LICENSE 目录结构
给一个完整的中文 LLM 项目加协议的推荐布局:
my-llm-project/
├── LICENSE # Apache-2.0(代码)
├── LICENSE-DOCS # CC-BY-4.0(文档)
├── LICENSE-DATA # ODbL-1.0 或数据集列表
├── LICENSE-MODEL # Apache-2.0 或自定义
├── NOTICE # Apache-2.0 要求的通知文件
├── THIRD_PARTY_LICENSES.md # 依赖清单
├── DATA_LICENSES.md # 训练数据协议清单
├── MODEL_CARD.md # Hugging Face 风格模型卡
├── DATA_CARD.md # Data Information for OSAID
├── sbom.cdx.json # CycloneDX ML-BOM
├── src/ # 代码
├── docs/ # 文档
│ └── LICENSE # CC-BY-4.0
├── datasets/
│ ├── corpus-zh-clean/
│ │ └── LICENSE # 子数据集协议
│ └── eval-benchmark/
│ └── LICENSE # 子数据集协议
└── weights/
├── base-7b/
│ └── LICENSE # 模型权重协议
└── sft-7b/
└── LICENSE
每个子目录都能被独立识别出对应协议,符合 SPDX 的
FILES 声明规范,也方便自动化工具(如
ORT、FOSSology、ScanCode)扫描。
附录 E:常见问答(FAQ)
Q1:把公司内部文档改写后以 CC-BY 4.0 发布,是否构成「公开发行」?
在中国著作权法下,这构成发行与信息网络传播行为,应经过公司知识产权部门审批。CC 协议只是授权文本,不改变原始著作权归属;若公司为职务作品的著作权人,未经授权的对外发布构成侵权。
Q2:LLaMA 2 的 700M MAU 条款,MAU 具体怎么计算?
协议第 2 条约定:「If, on the Llama 2 version release date, the monthly active users of the products or services… is greater than 700 million monthly active users」。这是一个快照口径——以发布当日计算一次。之后的月活涨到 7 亿并不自动触发,但新版本发布时会再快照。这对大厂的长期策略影响很大——他们可以在一个较小的基础上用 LLaMA,但若要把它嵌入旗舰产品线,仍需要和 Meta 谈。
Q3:CC-BY-SA 4.0 的维基百科内容能否嵌入 Apache 2.0 的开源软件?
代码本身维持 Apache 2.0;嵌入的文本(例如 help string、README 节选)作为「作品」单独受 CC-BY-SA 4.0 约束,且要求衍生作品维持同样协议。工程上的常见做法:
- 把引用部分放在独立的文档目录,声明其协议;
- 或把 Wikipedia 内容视为参考资料,不直接复制;
- 或用 CC-BY(非 SA)来源(例如部分政府百科、教材)。
Q4:OpenRAIL 的「使用限制」是否在中国法下可执行?
合同条款在中国法下一般有效,但违反协议的救济途径较窄:许可人可以依合同法主张损害赔偿,但很难申请禁令。现实中,更常见的做法是:通过下架、举报、平台侧执行(Hugging Face / Modelscope 等会对违反协议的模型采取下架措施)来实现协议的事实执行。
Q5:CC0 之后,我还可以对自己的作品主张版权吗?
CC0 是不可撤销声明。一旦发布,作者放弃所有可放弃的权利;即便在不允许放弃的法域,也给出了不可撤销的许可。你不能事后收回。如果未来需要商业化某个特定版本,请为每次发布保留原始「未 CC0」版本作为后续授权基础。
Q6:OLMo 这种全开放模型为什么依然需要做数据过滤?
OSAID 要求的是「训练数据信息」——可以是数据本身,也可以是充分详细的描述。即便要发布完整数据集,仍需过滤:
- 个人信息(PII)去除;
- 受版权保护但无授权的内容过滤;
- 有害内容(暴力、色情、歧视)过滤;
- 低质量文本去重与净化。
OLMo 背后的 Dolma 数据集就经历了严格的过滤流水线。过滤后的数据才能在 AI2 Impact License(一种开放数据协议)下发布。
Q7:LLaMA 3 要求下游模型命名带 Llama
前缀,是否等同商标授权?
更像是一种「披露义务」而非商标授权。LLaMA 3
的协议允许你使用 Llama
这个字样仅用于识别衍生作品的来源,不赋予任何其它商标使用权利。把
Llama 用于与 Meta
无关的产品宣传仍属侵权。工程上:微调模型命名
Llama-3.1-Chinese-8B-Instruct 合规,但不能用
Llama Enterprise Suite 之类商品化名字。
Q8:我把 Stable Diffusion 的 RAIL 协议下的权重再以 Apache 2.0 发布,可以吗?
不可以。RAIL 协议要求下游分发保留同样的 use restriction,Apache 2.0 没有此类限制。把 RAIL 模型直接以 Apache 2.0 发布会违反 RAIL 原协议。类似地,LLaMA 权重也不能被重新以 Apache 2.0 发布。
Q9:OSAID 1.0 是不是强制要求模型公开训练数据本身?
不是。OSAID 1.0 接受「数据信息」的多种形式,包括详细描述、数据卡、可复现方法。但这些描述必须让「技能娴熟的人员」能够复现一个功能等效的系统——这是一项非常高的要求,许多「只公开权重」的模型无法达到。
Q10:中国版权法下,AI 生成的图片能否被视为作品?
2023 年「AI 生成图片案」一审判决(北京互联网法院)支持作品属性。但该判决基于用户在生成过程中做了「精心的参数调节、prompt 设计、选择组合」的事实。若是直接调用模型 API、不加任何人工干预生成,目前主流观点仍倾向于不构成作品。该问题尚未经过最高人民法院明确表态,工程实务中仍建议在对外使用 AI 生成内容时做好人工干预记录。
附录 F:术语对照表
| 中文 | 英文 | 缩写 / SPDX |
|---|---|---|
| 知识共享 | Creative Commons | CC |
| 署名 | Attribution | BY |
| 相同方式共享 | ShareAlike | SA |
| 非商业性使用 | NonCommercial | NC |
| 禁止演绎 | NoDerivatives | ND |
| 公共领域 | Public Domain | PD |
| 开放数据库许可证 | Open Database License | ODbL |
| 开放数据共享署名许可证 | Open Data Commons Attribution License | ODC-BY |
| 公共领域贡献与许可 | Public Domain Dedication and License | PDDL |
| 数据库特殊权利 | sui generis database right | — |
| 汇编作品著作权 | Compilation Copyright | — |
| 负责任 AI 许可证 | Responsible AI License | RAIL |
| 开放负责任 AI 许可证 | Open Responsible AI License | OpenRAIL |
| 模型许可证变体 | OpenRAIL for Models | OpenRAIL-M |
| 使用限制 | Use Restriction | — |
| 月活跃用户 | Monthly Active Users | MAU |
| 开源倡议组织 | Open Source Initiative | OSI |
| 开源定义 | Open Source Definition | OSD |
| 开源 AI 定义 | Open Source AI Definition | OSAID |
| 大语言模型 | Large Language Model | LLM |
| 通用目的人工智能 | General-Purpose AI | GPAI |
| 软件成分清单 | Software Bill of Materials | SBOM |
| 机器学习成分清单 | Machine Learning Bill of Materials | ML-BOM |
| 数据卡 | Data Card | — |
| 模型卡 | Model Card | — |
| 合理使用 | Fair Use | — |
| 字面拷贝 | Verbatim Copy | — |
附录 G:历史脉络时间线
为方便整体把握,把本文涉及的重要历史事件按时间排开:
- 1886 年:《保护文学和艺术作品伯尔尼公约》奠定现代著作权国际框架。
- 1991 年:美国最高法院 Feist v. Rural Telephone 案,否定「汗水劳动」作为版权基础。
- 1996 年:欧盟《数据库指令》确立 sui generis database right。
- 1998 年:OSI 成立,《开源定义》发布。
- 2001 年:Creative Commons 组织成立。
- 2002 年:CC 1.0 许可证发布;同年 BSD-style 许可证在内容领域开始被替代。
- 2007 年:GPLv3 发布,专利、DRM、Tivoization 条款完善;CC 3.0 发布(含 Unported 和本地化版本)。
- 2009 年:CC0 工具发布;ODbL 1.0 与 PDDL 1.0 发布;维基百科从 GFDL 迁至 CC-BY-SA 3.0。
- 2012 年:OpenStreetMap 全面迁至 ODbL 1.0。
- 2013 年:CC 4.0 国际版发布,整合 sui generis 权利。
- 2016 年:CC 国际取消国家分部体系,以 CC 4.0 统一。
- 2021 年:Hugging Face 与 BigScience 启动 RAIL 项目;GitHub Copilot 发布引发训练数据版权争议。
- 2022 年 8 月:Stable Diffusion v1 以 CreativeML Open RAIL-M 发布。
- 2022 年 11 月:ChatGPT 发布,引爆大模型商业化浪潮。
- 2023 年 2 月:Meta 发布 LLaMA 1(研究专用);3 月权重泄漏。
- 2023 年 3 月:美国版权局发布 AI 生成内容注册指南;ChatGLM-6B 开源。
- 2023 年 6 月:Baichuan-7B(Apache 2.0)与 InternLM 开源。
- 2023 年 7 月:LLaMA 2 发布;《生成式人工智能服务管理暂行办法》在中国出台。
- 2023 年 8 月:Qwen 系列首发;Thaler v. Perlmutter 联邦法院判决 AI 生成物无版权。
- 2023 年 9 月:Mistral 7B 发布(Apache 2.0)。
- 2023 年 11 月:北京互联网法院 AI 生成图片案一审判决,与美国立场分歧。
- 2023 年 12 月:Mixtral 8x7B 发布;欧盟 AI 法文本定稿。
- 2024 年 1 月:InternLM2 转向 Apache 2.0。
- 2024 年 4 月:LLaMA 3 发布;SPDX 3.0 AI Profile 草案。
- 2024 年 6 月:Qwen2 与 GLM-4-9B 发布,主流转向 Apache 2.0。
- 2024 年 7 月:LLaMA 3.1(含 405B)发布,首次开放超大模型。
- 2024 年 8 月:欧盟 AI 法生效。
- 2024 年 10 月:OSI 发布 OSAID 1.0。
- 2024 年 12 月:DeepSeek-V3 发布。
- 2025 年 1 月:DeepSeek-R1 以 MIT 发布,鼓励蒸馏。
- 2025 年上半年:InternLM3、Qwen3 等新一代模型持续以 Apache 2.0 发布。
从时间线可以看到一个清晰的趋势:2022-2023 年是协议创新的爆发期(RAIL 家族、LLaMA Community),2024-2025 年是开放与合规框架逐步收敛的稳定期(Apache 2.0 成主流、OSAID 出炉、欧盟 AI 法生效)。工程团队在协议选型时,应当把这个大趋势作为背景判断:「开放权重 + 宽松协议 + 数据信息披露」正在成为新常态。
九、参考资料
- Creative Commons, About The Licenses, https://creativecommons.org/licenses/
- Creative Commons, CC BY 4.0 Legal Code, https://creativecommons.org/licenses/by/4.0/legalcode
- Creative Commons, CC0 1.0 Universal, https://creativecommons.org/publicdomain/zero/1.0/
- Wikimedia Foundation, Terms of Use / Licensing, https://foundation.wikimedia.org/wiki/Policy:Terms_of_Use
- Open Data Commons, Open Database License (ODbL) v1.0, https://opendatacommons.org/licenses/odbl/1-0/
- Open Data Commons, Public Domain Dedication and License (PDDL) v1.0, https://opendatacommons.org/licenses/pddl/1-0/
- Open Data Commons, Attribution License (ODC-By) v1.0, https://opendatacommons.org/licenses/by/1-0/
- OpenStreetMap Foundation, Licence and Legal FAQ, https://osmfoundation.org/wiki/Licence
- EU Directive 96/9/EC on the Legal Protection of Databases
- Feist Publications, Inc., v. Rural Telephone Service Co., 499 U.S. 340 (1991)
- BigScience, BigScience OpenRAIL-M License, https://bigscience.huggingface.co/blog/the-bigscience-rail-license
- Responsible AI Licenses (RAIL), https://www.licenses.ai/
- Stability AI, CreativeML Open RAIL-M License(随 Stable Diffusion v1 发布)
- Meta, LLaMA 2 Community License Agreement, https://ai.meta.com/llama/license/
- Meta, LLaMA 3.1 Community License Agreement, https://llama.meta.com/llama3_1/license/
- Mistral AI, Mistral 7B Apache 2.0 Release, https://mistral.ai/news/announcing-mistral-7b/
- Qwen Team, Qwen2 Technical Report and Model Cards, https://huggingface.co/Qwen
- DeepSeek, DeepSeek-R1 Model Card (MIT), https://huggingface.co/deepseek-ai/DeepSeek-R1
- Shanghai AI Lab, InternLM2 / InternLM2.5 Model Cards, https://huggingface.co/internlm
- BAAI, BGE / FlagEmbedding, https://github.com/FlagOpen/FlagEmbedding
- Baichuan Inc., Baichuan2 Technical Report(arXiv 2309.10305)
- THUDM / Zhipu AI, ChatGLM / GLM-4 Releases, https://huggingface.co/THUDM
- Open Source Initiative, The Open Source AI Definition 1.0, https://opensource.org/ai/open-source-ai-definition
- Open Source Initiative, The Open Source Definition, https://opensource.org/osd
- EU AI Act(Regulation (EU) 2024/1689)
- US Copyright Office, Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence, 88 Fed. Reg. 16190 (2023-03-16)
- Thaler v. Perlmutter, 1:22-cv-01564 (D.D.C. 2023-08-18)
- 北京互联网法院(2023)京 0491 民初 11279 号「AI 生成图片案」
- 《中华人民共和国著作权法》(2020 年修订)
- 《生成式人工智能服务管理暂行办法》(国家互联网信息办公室等,2023-07-10)
- 《互联网信息服务深度合成管理规定》(2022-11-25)
- OWASP CycloneDX, Machine Learning Bill of Materials (ML-BOM), https://cyclonedx.org/capabilities/mlbom/
- SPDX, SPDX 3.0 AI Profile, https://spdx.dev/use/specifications/
本文为工程参考,不构成法律意见。涉及具体法律风险请咨询专业法律顾问。
上一篇:木兰许可证与国产开源许可
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【开源许可与版权工程】开源世界全景:从 GNU 到大模型的四十年
一篇写给中国工程团队的开源世界地图:从 1983 年 Richard Stallman 发起 GNU 项目、1998 年 OSI 成立、2018 年 MongoDB 更改 SSPL,到 2020 年开放原子开源基金会成立、再到 2024 年大模型时代的 OpenRAIL 与 LLaMA 许可,把四十年的关键事件、基金会、协议演进和中国线索串成一张可直接指导选型的全景图。
开源许可与版权工程
面向中国工程团队的开源许可、版权与合规系列。从 GPL、AGPL、Apache、木兰协议到中国真实案例、SCA/SBOM 工具链与出海合规,讲清楚开源在工程落地中的坑与方法。
【开源许可与版权工程】MIT、BSD、Apache 2.0:宽松许可证的真实区别
深入对比 MIT、BSD 家族与 Apache 2.0 的条款差异:NOTICE 文件义务、专利授权、重新授权权利;BSD advertising clause 的历史与废除;ISC 许可证的关系;以及阿里、腾讯、字节内部为何强烈推荐 Apache 2.0 的工程原因。
【开源许可与版权工程】GPLv2、GPLv3、LGPL:Linux 内核为什么停在 v2
深入解析 GPLv2 到 GPLv3 的条款变化、Tivoization 反规避与 DRM 条款、专利终止条款;LGPL 链接例外的工程边界;以及 Linus Torvalds 拒绝升级到 v3 的真实原因与嵌入式生态影响。包含路由器厂商、国内 Android 设备的 GPL 合规真实案例。