你以为在薅AI羊毛,其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱

朋友,你有没有收到GitHub那封关于Copilot数据收集的政策更新邮件?如果你像大多数人一样直接划走了,那我建议你找个时间停下来认真看一眼。因为这封邮件的背后,藏着一个我们都不愿意承认的事实:你在白嫖AI工具的时候,你也在被“反向白嫖”。 你以为在薅AI羊毛,其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱 汽车科技

那个让我后背发凉的通知

四月二十四日,GitHub更新了Copilot的数据收集政策。从那天起,你输入的代码、模型的输出、光标周围的代码上下文、你写的注释和文档、文件名、仓库结构、导航模式,默认都会被用来训练GitHub的AI模型。重点来了:这些数据虽然不会分享给第三方AI提供商,但会分享给GitHub的关联公司——也就是微软。我看到这条通知的时候,第一反应是有点不舒服。后来仔细想想,这种不舒服的感觉是对的。我们每天在键盘上敲的那些代码,那些深夜debug时绞尽脑汁想出来的解决方案,那些反复修改后终于跑通的算法,在某个你看不见的服务器里,正在变成别人模型迭代的养料。 你以为在薅AI羊毛,其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱 汽车科技

为什么开源代码不够,平台还要你的数据?

你可能会问,GitHub上不是已经有全世界最大的开源代码库了吗?那些代码还不够训练AI吗?说实话,我一开始也有这个疑问。后来看到一个关于Cursor的报道,突然想明白了。Cursor拿到SpaceX的合作,估值六十亿美元。现在Cursor的产品形态和Codexapp、ClaudeCodeDesktop、Traesolo其实没什么太大区别。支撑它那么高估值的,更多是它的用户和数据——这些数据能帮助XAI进一步提升。Cursor在Composer2的报告里提到过一句话,让我印象很深:代码是大模型训练里最重要的一类数据来源,但真正面向软件工程Agent的模型训练,不能只停留在静态代码上,而要尽量贴近真实用户任务、代码库、工具调用和真实执行环境。翻译成人话就是:开源代码告诉你「软件最终长什么样」,但只有你的使用过程,才能告诉模型「软件是怎么一步一步被写出来的」。 你以为在薅AI羊毛,其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱 汽车科技

就好比你做选择题只看到答案C

我用一个特别简单的例子来说明这个逻辑。假设你现在看到一道选择题,答案是C。但你不知道题目是什么,不知道为什么选C,更不知道A、B、D为什么不对。这个孤立的答案对你有多大帮助?答案是:几乎没有。你下次遇到类似问题,依然不知道怎么判断,就算原题再摆到你面前,AI也不一定能认出来。开源代码就像这个孤立的答案C——它告诉你最终代码长什么样,但缺少了中间所有的推理过程:用户最初想解决什么问题?这个问题是怎么描述的?模型第一次给了什么方案?哪一步写错了?用户改了哪里?哪个方案被接受,哪个被拒绝?为什么这个patch被保留,另一个被删掉?这个改动最后有没有通过测试?用户究竟是要「能跑」,还是要「可维护」,还是要「符合项目风格」?这些过程信息,才是真正值钱的东西。 你以为在薅AI羊毛,其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱 汽车科技

你的数据在什么情况下最值钱?

这里有一个很多人不知道的秘密:数据不是一直值钱的,它有很强的时间窗口效应。什么时候的数据最值钱?新模型刚发布的时候。道理很简单:新模型能力刚提升,但还没被充分对齐,行为不稳定,在真实场景中会暴露大量边界情况,用户会尝试各种新玩法,提示词、工具用法、工作流都在快速演化。这个时间窗口产生的数据,信息密度是最高的。等模型成熟了,用户行为趋于稳定,大家形成固定用法,产生的数据虽然更多,但信息增量很小。所以你会看到,早期很多AI产品订阅价格特别便宜——那不是平台在做慈善,那是在用低价换你的行为数据。你的每一次交互、每一个选择、每一条反馈,都在帮平台训练更强大的模型。变相地说,你也是这些AI模型背后的「数据标注员」,只不过你没有拿到工资。现在模型起来了,数据够用了,算力开始紧张了,订阅价格就开始涨回去了。Copilot下架了Pro的Opus,Claude在考虑不让二十美元订阅用Code功能,Token价格涨声一片。这不是巧合,这是商业逻辑的必然回归。 你以为在薅AI羊毛,其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱 汽车科技

你能做什么?

我知道说到这里,你可能有点沮丧。但别急着emo,有些事情你还是可以做的。首先,去GitHub把你的数据收集开关关掉。去设置里面找到Privacy设置,把「GitHubUSECopilotdataforimprovement」这个选项关掉。别让沉默变成默认同意。其次,尽量选择有明确隐私承诺的平台。如果你用的AI工具连基本的隐私政策都不敢写清楚,那建议认真考虑一下。另外,如果你特别在意自己的代码隐私,可以考虑使用本地运行的模型,虽然效果可能没有那么好,但至少你的代码不会变成别人模型训练的养料。说到底,AI时代的数据主权问题才刚刚开始。我们都是在黑暗里摸索的先行者。我的建议是:保持警惕,保持关注,保持对自己数据的敏感度。你辛辛苦苦写的代码,值得被更好地对待。 你以为在薅AI羊毛,其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱 汽车科技

 你以为在薅AI羊毛,其实你的代码正在被“吃掉”——一个差点被忽略的隐私陷阱 汽车科技