皮衣客也“白嫖”？英伟达被曝搬空盗版图书馆，AI巨头的“数据焦虑”藏不住了

简单来说，英伟达为了不让OpenAI在AI竞赛里甩开自己，急着出成绩，疑似“抄近路”搬空了数个盗版图书馆。现在作家们联手找上门索赔，皮衣客正面临一场事关“知识搬运工”还是“版权小偷”的法律巨震。

在AI界，英伟达（NVIDIA）向来是那个“卖铲子”给全村希望的大佬。但最近，这位大佬摊上大事了。五位作家联手把英伟达告上了法庭，理由简单粗暴：你家的大模型之所以这么聪明，是因为它“偷吃”了我们的书。

这场起诉不仅撕开了英伟达NeMo Megatron框架背后的秘密，更把AI行业一个公开的秘密——“影子图书馆”数据依赖症，彻底暴露在了聚光灯下。

根据起诉书披露的“内幕”，英伟达在开发下一代大模型（内部代号听起来就很霸气：NextLargeLLM）时，曾遭遇过尴尬的闭门羹。2023年8月，英伟达本来想走正规途径，找图书出版商买数据授权，结果被人家果断拒绝了。¹

眼看2023年的开发者大会就要开了，OpenAI那边ChatGPT正火得发烫，英伟达高层显然坐不住了。正规路走不通，那就“另辟蹊径”。

内部记录显示，英伟达居然主动联系了全球知名的“影子图书馆”Anna’s Archive。对方也非常“坦诚”，直接回复：我们的资源是非法的，你们确定要合作？结果，英伟达高层在一周内就批准了合作计划。²

调侃点评： 这种“明知山有虎，偏向虎山行”的勇气，用在技术研发上是极客精神，用在版权上可就成了法庭上的呈堂证供。

这次合作让英伟达拿到了大约500TB的盗版图书数据，包括Z-Library、LibGen等一众被FBI盯上的“地下知识宝库”。更离谱的是，英伟达不仅自己用，还给客户提供了自动化下载这些数据集的脚本。这哪是卖铲子，这简直是在教客户怎么翻墙进别人的果园。¹³

为什么大模型公司非得盯着这些图书不放？因为在AI的食谱里，图书就是那种“高浓缩、有营养”的优质蛋白。

其实，英伟达并不孤单。在这条“白嫖之路”上，OpenAI、Meta、Anthropic等巨头早就排好了队。Anthropic为了平事，甚至同意支付至少15亿美元达成和解，创下了版权赔偿的纪录。⁴ 相比之下，英伟达目前还在硬抗，坚持认为自己的行为属于“合理使用”。¹

目前的法律战场上，风向非常微妙。

一方面，Meta在类似的官司里赢了一点点。法院认为把书拿去练AI是“转换性用途”，因为AI不是为了让你免费看书，而是为了生成新内容。¹ 但另一方面，法官也警告了，这种“明知是盗版还猛灌”的行为，在道德和法律的边界线上反复横跳，很难永远被“合理使用”豁免。

现在的趋势很明显：

对英伟达来说，2026年4月的听证会将是一个关键节点。如果败诉，皮衣客可能得从他卖显卡的巨额利润里，掏出一大笔钱来给作家们“补票”了。

最后唠两句： AI模型就像个无底洞，吃得越多长得越快。但如果吃的是“霸王餐”，最后这账单可能比数据本身还要贵。毕竟，在法治社会，即便是算力之王，也得学会给知识付费。

引用