能否禁止自己产出的内容成为 AI 的语料？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1030 天前的主题，其中的信息可能已经有所发展或是发生改变。

比如个人发布的博客文章和开源的代码，是否已有授权或协议能够禁止被作为 copilot/chatgpt 的训练语料？

如果没有，是否能创建一类 only for human 的著作权协议和开源协议？

听上去有些螳臂当车，但主要出于以下考虑：
1. 作者对自己创作的内容应有处置的自由
2. 不希望大公司利用个人免费分享的内容进行营利
3. 部分内容是否应该从源头上禁止 AI 获取？比如会对人的心理和生理造成损害的，带有歧视或偏见内容等等

语料

禁止

开源

内容

10 条回复 • 2023-03-31 13:07:00 +08:00

renmu

2023 年 3 月 31 日 via Android

你可以在 robots.txt 里标注

AI 发展太快，各种措施，监管，法律都还没出来

kop1989smurf

2023 年 3 月 31 日

目前不能。
这也是为何 Copilot 被集体诉讼的原因。

现在的机器学习 AI 的训练材料获取、模型、生成参数、产出，都是法外之地。

popguy

2023 年 3 月 31 日

希望有这样一种版权——可以用我的原创内容作为 AI 训练材料，但 AI 不能用于商业用途，否则按文章的 token 数计价每年给我授权费

raymanr

2023 年 3 月 31 日

我总觉得好像不久就要有些人跳出来嚷嚷了, 你以为你是谁, 人家大公司看得上你的东西之类巴拉巴拉的.

就像某些管家在电脑翻箱倒柜, 某些 APP 在手机上传这上传那一样

ttgo

2023 年 3 月 31 日

这种根据你的版权内容高度抽象后产出的内容，很难证明其关联性。
并且，他生成后的一段内容，可能只有 0.001%用到了你的语料，数量上也不会被定义为侵权。

jfj8848

2023 年 3 月 31 日

感觉很难举证，训练输出后相当于洗稿？

passall

2023 年 3 月 31 日

这个类似书评人，像樊登那样的，直接告诉你书的内容，还收钱的，也没看到会给人告。

hahastudio

2023 年 3 月 31 日

我觉得这样的需求是真是存在的，至少到目前为止，风格是一个只有作者自己才能产出的东西，但 AI 可以学个八九不离十
之前 stable diffusion 开始的时候，也有画师反对自己的作品被加到训练集里
GitHub Copilot 出来的时候，也有人不想把自己的 code 加到训练集里

不过放到现实，GitHub Copilot 说不把私有代码加到训练集里，但结果还是加了，维权的方法难于上青天。这还是机器可以识别的版权与作者产出放在一起，对 GitHub 很容易做到的事情都会这样，更不用说是其他方面的了。

Ericcccccccc

2023 年 3 月 31 日

连搜索引擎都可以不遵守不要爬的请求, 所以这个就更难了, 至少搜索引擎你能看见的摸得着, 用你在网络上的发言做预料训练很难被发现.

baobao1270

2023 年 3 月 31 日

当然可以，这当然可以作为著作权声明的一部分，但是需要注意的是可能和 CC 协议之类的不兼容。
但是举证困难，即使发现别人侵权，也很难得到有力的证据。