你以为在薅AI羊毛，其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱

admin666ss2026-05-06汽车科技0

朋友，你有没有收到GitHub那封关于Copilot数据收集的政策更新邮件？如果你像大多数人一样直接划走了，那我建议你找个时间停下来认真看一眼。因为这封邮件的背后，藏着一个我们都不愿意承认的事实：你在白嫖AI工具的时候，你也在被“反向白嫖”。你以为在薅AI羊毛，其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱汽车科技

那个让我后背发凉的通知

四月二十四日，GitHub更新了Copilot的数据收集政策。从那天起，你输入的代码、模型的输出、光标周围的代码上下文、你写的注释和文档、文件名、仓库结构、导航模式，默认都会被用来训练GitHub的AI模型。重点来了：这些数据虽然不会分享给第三方AI提供商，但会分享给GitHub的关联公司——也就是微软。我看到这条通知的时候，第一反应是有点不舒服。后来仔细想想，这种不舒服的感觉是对的。我们每天在键盘上敲的那些代码，那些深夜debug时绞尽脑汁想出来的解决方案，那些反复修改后终于跑通的算法，在某个你看不见的服务器里，正在变成别人模型迭代的养料。你以为在薅AI羊毛，其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱汽车科技

为什么开源代码不够，平台还要你的数据？

你可能会问，GitHub上不是已经有全世界最大的开源代码库了吗？那些代码还不够训练AI吗？说实话，我一开始也有这个疑问。后来看到一个关于Cursor的报道，突然想明白了。Cursor拿到SpaceX的合作，估值六十亿美元。现在Cursor的产品形态和Codexapp、ClaudeCodeDesktop、Traesolo其实没什么太大区别。支撑它那么高估值的，更多是它的用户和数据——这些数据能帮助XAI进一步提升。Cursor在Composer2的报告里提到过一句话，让我印象很深：代码是大模型训练里最重要的一类数据来源，但真正面向软件工程Agent的模型训练，不能只停留在静态代码上，而要尽量贴近真实用户任务、代码库、工具调用和真实执行环境。翻译成人话就是：开源代码告诉你「软件最终长什么样」，但只有你的使用过程，才能告诉模型「软件是怎么一步一步被写出来的」。你以为在薅AI羊毛，其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱汽车科技

就好比你做选择题只看到答案C

我用一个特别简单的例子来说明这个逻辑。假设你现在看到一道选择题，答案是C。但你不知道题目是什么，不知道为什么选C，更不知道A、B、D为什么不对。这个孤立的答案对你有多大帮助？答案是：几乎没有。你下次遇到类似问题，依然不知道怎么判断，就算原题再摆到你面前，AI也不一定能认出来。开源代码就像这个孤立的答案C——它告诉你最终代码长什么样，但缺少了中间所有的推理过程：用户最初想解决什么问题？这个问题是怎么描述的？模型第一次给了什么方案？哪一步写错了？用户改了哪里？哪个方案被接受，哪个被拒绝？为什么这个patch被保留，另一个被删掉？这个改动最后有没有通过测试？用户究竟是要「能跑」，还是要「可维护」，还是要「符合项目风格」？这些过程信息，才是真正值钱的东西。你以为在薅AI羊毛，其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱汽车科技

你的数据在什么情况下最值钱？

这里有一个很多人不知道的秘密：数据不是一直值钱的，它有很强的时间窗口效应。什么时候的数据最值钱？新模型刚发布的时候。道理很简单：新模型能力刚提升，但还没被充分对齐，行为不稳定，在真实场景中会暴露大量边界情况，用户会尝试各种新玩法，提示词、工具用法、工作流都在快速演化。这个时间窗口产生的数据，信息密度是最高的。等模型成熟了，用户行为趋于稳定，大家形成固定用法，产生的数据虽然更多，但信息增量很小。所以你会看到，早期很多AI产品订阅价格特别便宜——那不是平台在做慈善，那是在用低价换你的行为数据。你的每一次交互、每一个选择、每一条反馈，都在帮平台训练更强大的模型。变相地说，你也是这些AI模型背后的「数据标注员」，只不过你没有拿到工资。现在模型起来了，数据够用了，算力开始紧张了，订阅价格就开始涨回去了。Copilot下架了Pro的Opus，Claude在考虑不让二十美元订阅用Code功能，Token价格涨声一片。这不是巧合，这是商业逻辑的必然回归。你以为在薅AI羊毛，其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱汽车科技

你能做什么？

我知道说到这里，你可能有点沮丧。但别急着emo，有些事情你还是可以做的。首先，去GitHub把你的数据收集开关关掉。去设置里面找到Privacy设置，把「GitHubUSECopilotdataforimprovement」这个选项关掉。别让沉默变成默认同意。其次，尽量选择有明确隐私承诺的平台。如果你用的AI工具连基本的隐私政策都不敢写清楚，那建议认真考虑一下。另外，如果你特别在意自己的代码隐私，可以考虑使用本地运行的模型，虽然效果可能没有那么好，但至少你的代码不会变成别人模型训练的养料。说到底，AI时代的数据主权问题才刚刚开始。我们都是在黑暗里摸索的先行者。我的建议是：保持警惕，保持关注，保持对自己数据的敏感度。你辛辛苦苦写的代码，值得被更好地对待。你以为在薅AI羊毛，其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱汽车科技