TL;DR:
简单来说,英伟达为了不让OpenAI在AI竞赛里甩开自己,急着出成绩,疑似“抄近路”搬空了数个盗版图书馆。现在作家们联手找上门索赔,皮衣客正面临一场事关“知识搬运工”还是“版权小偷”的法律巨震。
在AI界,英伟达(NVIDIA)向来是那个“卖铲子”给全村希望的大佬。但最近,这位大佬摊上大事了。五位作家联手把英伟达告上了法庭,理由简单粗暴:你家的大模型之所以这么聪明,是因为它“偷吃”了我们的书。
这场起诉不仅撕开了英伟达NeMo Megatron框架背后的秘密,更把AI行业一个公开的秘密——“影子图书馆”数据依赖症,彻底暴露在了聚光灯下。
证据确凿?英伟达的“秘密小路”
根据起诉书披露的“内幕”,英伟达在开发下一代大模型(内部代号听起来就很霸气:NextLargeLLM)时,曾遭遇过尴尬的闭门羹。2023年8月,英伟达本来想走正规途径,找图书出版商买数据授权,结果被人家果断拒绝了。1
眼看2023年的开发者大会就要开了,OpenAI那边ChatGPT正火得发烫,英伟达高层显然坐不住了。正规路走不通,那就“另辟蹊径”。
内部记录显示,英伟达居然主动联系了全球知名的“影子图书馆”Anna’s Archive。对方也非常“坦诚”,直接回复:我们的资源是非法的,你们确定要合作?结果,英伟达高层在一周内就批准了合作计划。2
调侃点评: 这种“明知山有虎,偏向虎山行”的勇气,用在技术研发上是极客精神,用在版权上可就成了法庭上的呈堂证供。
这次合作让英伟达拿到了大约500TB的盗版图书数据,包括Z-Library、LibGen等一众被FBI盯上的“地下知识宝库”。更离谱的是,英伟达不仅自己用,还给客户提供了自动化下载这些数据集的脚本。这哪是卖铲子,这简直是在教客户怎么翻墙进别人的果园。13
行业“潜规则”:高质量语料是刚需
为什么大模型公司非得盯着这些图书不放?因为在AI的食谱里,图书就是那种“高浓缩、有营养”的优质蛋白。
- 质量高: 比起乱七八糟的网页评论,图书经过编辑校对,逻辑清晰,是训练逻辑思维的极品。
- 获取易: “影子图书馆”整合了全球的盗版资源,对AI公司来说,简直是“一站式采购”,虽然这个“采购”没付版权费。
其实,英伟达并不孤单。在这条“白嫖之路”上,OpenAI、Meta、Anthropic等巨头早就排好了队。Anthropic为了平事,甚至同意支付至少15亿美元达成和解,创下了版权赔偿的纪录。4 相比之下,英伟达目前还在硬抗,坚持认为自己的行为属于“合理使用”。1
未来预测:白嫖时代要终结了吗?
目前的法律战场上,风向非常微妙。
一方面,Meta在类似的官司里赢了一点点。法院认为把书拿去练AI是“转换性用途”,因为AI不是为了让你免费看书,而是为了生成新内容。1 但另一方面,法官也警告了,这种“明知是盗版还猛灌”的行为,在道德和法律的边界线上反复横跳,很难永远被“合理使用”豁免。
现在的趋势很明显:
- 诉讼常态化: 作家和媒体机构不再忍气吞声,甚至开始拒绝集体诉讼,转而进行精准打击。
- 授权成主流: 比如《纽约时报》虽然在告OpenAI,但转身就跟亚马逊签了授权协议。1
对英伟达来说,2026年4月的听证会将是一个关键节点。如果败诉,皮衣客可能得从他卖显卡的巨额利润里,掏出一大笔钱来给作家们“补票”了。
最后唠两句: AI模型就像个无底洞,吃得越多长得越快。但如果吃的是“霸王餐”,最后这账单可能比数据本身还要贵。毕竟,在法治社会,即便是算力之王,也得学会给知识付费。