Copilot 开启“白嫖”模式?GitHub:你的代码很好,现在它是我的训练集了

温故智新AIGC实验室

TL;DR:

GitHub 宣布从 4 月 24 日起默认拿个人用户的代码交互数据去“喂” AI。简单来说:你在深夜苦练修 Bug,Copilot 在旁边偷学姿势,而且默认你是“自愿贡献”的。Business 用户稳坐 VIP 包厢,普通打工人记得去设置里手动“拔线”。

就在大家还沉浸在 AI 辅助编程带来的“五分钟写完一周需求”的幻觉中时,程序员们的“老家” GitHub 悄悄搞了个大动作。官方宣布,从 4 月 24 日起,Copilot Free、Pro 和 Pro+ 用户的交互数据将被用来训练和改进模型。[^1]

翻译成白话就是:曾经它是你的贴心小助手,现在它成了带薪偷师的学徒。 更扎心的是,这项设置是“默认开启”的。如果你不希望自己的代码逻辑变成 AI 的养料,对不起,请你自己去迷宫一样的设置页面里手动关掉。

技术大揭秘:它到底“吃”了你什么?

很多小伙伴可能会说:“我那是私有仓库,它敢看?”别急,GitHub 玩了个逻辑游戏。它明确表示,存放在仓库里的“静态代码”(at rest)它是不会碰的。[^4]

但是,当你敲代码、呼唤 Copilot 给你建议的那一刻,数据就“起飞”了。 根据公告,GitHub 收集的包括但不限于:

  • 你接受或修改过的模型输出(它在看你对它的建议满不满意);
  • 发送给 Copilot 的提示词和代码片段;
  • 光标周围的代码上下文(为了理解你的意图,它得看看你前后的逻辑);
  • 文件名、仓库结构甚至是你点赞/点踩的反馈。[^1][^4]

调侃式点评: 这就像是你请了个厨师,他承诺不翻你的冰箱,但他会把你每次切菜的力度、放盐的顺序和最后摆盘的姿势全都录下来,回去教给他的大弟子(下一个版本的模型)。

职场背锅预警:个人账户竟成“内鬼”?

这次更新最让社区炸裂的,除了那种“先斩后奏”的暗黑模式设计,还有对企业代码安全的潜在威胁。[^1]

虽然 GitHub 表示 Business 和 Enterprise 用户不受影响,但现实情况是:很多程序员会在公司电脑上登录自己的个人 Pro 账户。

想象一下,你正用个人版 Copilot 处理公司的核心业务逻辑。虽然仓库是公司的,但由于你使用的是个人订阅,且你(作为个人用户)没有手动关闭训练选项,那么公司的私有代码逻辑就可能通过你的交互行为,“丝滑”地流入了 GitHub 的训练池。

Reddit 网友 NeatRuin7406 的吐槽可谓一针见血: “你不仅是在获取建议,你还在无形中教会模型什么是你这个领域的‘好代码’。这些专有模式和架构决策随后会变成通用建议,提供给你的直接竞争对手。” [^1]

这种“用户级别”而非“组织级别”的控制机制,让不少安全专家直冒冷汗。万一哪天竞争对手写代码时,Copilot 突然蹦出一个神似你们公司核心算法的建议,那画面太美我不敢看。

行业“地震”:谁在担心模型会“吃坏肚子”?

除了隐私担忧,开发者社区还在讨论一个更深层的技术问题:模型退化(Model Collapse)。 [^1]

现在的 GitHub 上,由 AI 生成的代码比例正在疯狂飙升。如果 GitHub 拿这些“AI 产出的代码”再去训练“下一代 AI”,这不就是某种形式的“近亲繁殖”吗?有开发者担心,这会导致模型生成的代码越来越平庸,甚至陷入逻辑死循环。

此外,GDPR(欧盟通用数据保护条例)的利剑也悬在头上。GitHub 所谓的“合法利益”在严苛的欧洲法律面前能否站稳脚跟,目前还是个问号。[^1]

如果你想保住最后的隐私火种,请立刻执行以下操作: 前往 GitHub 设置 -> Copilot -> 找到“允许 GitHub 使用我的数据用于 AI 模型训练” -> 确认它处于 关闭 状态。[^5]

别指望 GitHub 给你发个一键关闭的链接,毕竟在 AI 巨头的眼中,高质量的人类代码,那可是比金子还贵的“燃料”。