比如个人发布的博客文章和开源的代码,是否已有授权或协议能够禁止被作为 copilot/chatgpt 的训练语料?
如果没有,是否能创建一类 only for human 的著作权协议和开源协议?
听上去有些螳臂当车,但主要出于以下考虑:
1. 作者对自己创作的内容应有处置的自由
2. 不希望大公司利用个人免费分享的内容进行营利
3. 部分内容是否应该从源头上禁止 AI 获取?比如会对人的心理和生理造成损害的,带有歧视或偏见内容等等
1
renmu 2023-03-31 09:39:52 +08:00 via Android
你可以在 robots.txt 里标注
AI 发展太快,各种措施,监管,法律都还没出来 |
2
kop1989smurf 2023-03-31 09:42:43 +08:00
目前不能。
这也是为何 Copilot 被集体诉讼的原因。 现在的机器学习 AI 的训练材料获取、模型、生成参数、产出,都是法外之地。 |
3
popguy 2023-03-31 09:44:30 +08:00
希望有这样一种版权——可以用我的原创内容作为 AI 训练材料,但 AI 不能用于商业用途,否则按文章的 token 数计价每年给我授权费
|
4
raymanr 2023-03-31 09:56:47 +08:00
我总觉得好像不久就要有些人跳出来嚷嚷了, 你以为你是谁, 人家大公司看得上你的东西之类巴拉巴拉的.
就像某些管家在电脑翻箱倒柜, 某些 APP 在手机上传这上传那一样 |
5
ttgo 2023-03-31 10:06:29 +08:00
这种根据你的版权内容高度抽象后产出的内容,很难证明其关联性。
并且,他生成后的一段内容,可能只有 0.001%用到了你的语料,数量上也不会被定义为侵权。 |
6
jfj8848 2023-03-31 10:23:24 +08:00
感觉很难举证,训练输出后相当于洗稿?
|
7
passall 2023-03-31 10:31:12 +08:00
这个类似书评人, 像樊登那样的,直接告诉你书的内容,还收钱的,也没看到会给人告。
|
8
hahastudio 2023-03-31 10:32:42 +08:00
我觉得这样的需求是真是存在的,至少到目前为止,风格是一个只有作者自己才能产出的东西,但 AI 可以学个八九不离十
之前 stable diffusion 开始的时候,也有画师反对自己的作品被加到训练集里 GitHub Copilot 出来的时候,也有人不想把自己的 code 加到训练集里 不过放到现实,GitHub Copilot 说不把私有代码加到训练集里,但结果还是加了,维权的方法难于上青天。这还是机器可以识别的版权与作者产出放在一起,对 GitHub 很容易做到的事情都会这样,更不用说是其他方面的了。 |
9
Ericcccccccc 2023-03-31 10:56:59 +08:00
连搜索引擎都可以不遵守不要爬的请求, 所以这个就更难了, 至少搜索引擎你能看见的摸得着, 用你在网络上的发言做预料训练很难被发现.
|
10
baobao1270 2023-03-31 13:07:00 +08:00
当然可以,这当然可以作为著作权声明的一部分,但是需要注意的是可能和 CC 协议之类的不兼容。
但是举证困难,即使发现别人侵权,也很难得到有力的证据。 |