TL;DR:
Anthropic 官方“开麦”指责 DeepSeek、月之暗面和 MiniMax 动用 2.4 万个马甲账号疯狂“薅羊毛”。这是一场“屠龙勇士终成龙”的魔幻现实主义大戏:大家都在控告别人偷数据,同时又都在被别人控告偷数据。
如果你觉得最近的 AI 圈有点安静,那 Anthropic 这波“跨海维权”绝对能让你瞬间精神。这家由 OpenAI “叛逃”员工创立、一直以“安全与道德”自居的硅谷独角兽,最近把矛头对准了中国大模型界的“三剑客”:DeepSeek(深度求索)、Moonshot(月之暗面)以及 MiniMax。1
Anthropic 声称,这三家公司通过约 2.4 万个“假账号”疯狂抓取其数据来训练自家的聊天机器人。简单来说,就是国产大模型们被指控跑到 Anthropic 的地盘上,搞了一场规模宏大的“技术偷家”。
2.4 万个“马甲”的商战:这波操作 6 溜了?
按照 Anthropic 的说法,这不是普通的网页爬虫,而是一场有组织、有预谋的“饱和式抓取”。2.4 万个账户是什么概念?如果这些账号同时上线,大概能占领一个中型社区。它们不仅绕过了常规的防御机制,还可能在不断试探 Anthropic 模型 Claude 的底线,试图把人家的“大脑精华”直接打包带走。1
这种行为在业内被称为“模型蒸馏”或“数据清洗”,说白了就是让自己的小弟(国产模型)去观摩大佬(Claude)的作业,然后把解题思路学过来。虽然在技术圈这算是个“公开的秘密”,但被 Anthropic 这样指名道姓地“挂”出来,场面确实有点尴尬。
现实版“蜘蛛侠指对方”:谁才是真正的小偷?
最有戏剧性的一幕在于,Anthropic 这边刚当上“受害者”,转头就在法律的被告席上坐得稳稳当当。
- Reddit 的反击:社交巨头 Reddit 早前就向旧金山高等法院起诉,指控 Anthropic 未经授权抓取其用户内容。2
- 作家的愤怒:包括 Andrea Bartz 在内的多位作家也提起诉讼,指责 Anthropic 使用“盗版图书”训练 Claude。3
这场景像极了那个经典的蜘蛛侠互相指责的表情包:Reddit 指着 Anthropic 说“你偷我数据”,Anthropic 转头指着国产三剑客说“你们也偷我数据”。大家似乎都在数据的灰色地带疯狂试探,试图用别人的汗水浇灌自家的 AI 之花。4
技术大揭秘:为什么大家都要“薅” Claude?
为什么这三家国产大模型公司会被盯上?一方面,DeepSeek、Kimi(月之暗面)和 MiniMax 确实是目前国内公认的“第一梯队”,技术实力摆在那儿。另一方面,Claude 3.5 Sonnet 等模型在代码逻辑和文学创作上的表现实在太香了,对于想要快速迭代的厂商来说,这些高质量的对话数据就是天然的“营养补剂”。
然而,这种获取数据的方式正面临全球范围内的法律围剿:
- 美国立场:虽然有些法官认为 AI 训练属于“变革性使用”(Transformative Use),构成合理使用 5;但如果涉及盗版网站或恶意绕过技术手段,法律的板子还是会打下来。
- 中国态度:国内法院(如杭州互联网法院)目前对“输入端”的训练行为持相对宽容、鼓励创新的态度,但在输出端则严控侵权。6
- 技术伦理:不仅要看你用了什么,还要看你是怎么拿到的。绕过爬虫协议、使用海量马甲,这些行为显然触碰了行业的红线。
行业“地震”:下一个风口是“数据合规”?
这场纷争不仅是公司间的口水战,更预示着 AI 圈“野蛮生长”时代的终结。当高质量的互联网公共数据被抓取殆尽,如何合法、体面地获取“私有数据”和“合成数据”成了胜负手。
“在 AI 的世界里,数据就像石油,但现在大家似乎都在互相偷对方的油桶。” —— 某不愿透露姓名的科技观察员调侃道。
正如北京知识产权法院所强调的,AI 的发展需要平衡各方利益:在模型预训练阶段侧重促进数据使用,但在生成阶段则必须注重权利保护。5
对于国产大模型来说,这波“跨海维权”或许是一个警钟:在走向国际化的进程中,技术不仅要“硬”,吃相也得“美”。否则,即便跑出了惊人的 Benchmark 分数,也难免在法律和舆论的聚光灯下显得有些局促。
引用
-
Anthropic Accuses 3 Chinese Companies of Harvesting Its Data · Context Snippet · (2026/2/24) · 检索日期2026/2/24 ↩︎ ↩︎
-
Reddit控告Anthropic擅自抓取資料訓練AI模型 · iThome · (2025/6/4) · 检索日期2026/2/24 ↩︎
-
Anthropic再遭侵权诉讼,被指利用盗版作品训练大模型 · 澎湃新闻 · (2025/8/20) · 检索日期2026/2/24 ↩︎
-
Anthropic天价赔款?大模型“盗版”的100000种花样 · 品玩 · (2025/3/27) · 检索日期2026/2/24 ↩︎
-
(二)生成式AI输入环节的训练语料著作权侵权风险问题 · 环球律师事务所 · (2025/7/18) · 检索日期2026/2/24 ↩︎ ↩︎
-
杭州互联网法院(2024)浙0192民初1587号民事判决书 · 环球律师事务所 · (2025/7/18) · 检索日期2026/2/24 ↩︎