如何让 AI 替你吹牛?今年的 315 晚会曝光了一条新时代灰产——AI 数据投毒。 简单的说,就是通过在全网疯狂灌注虚假信息,强行干扰大模型的认知,这样 AI 就可以按照人的意图,一本正经地胡说八道。 数据入侵,认知干扰,听起来十分《黑客帝国》,操作起来倒很简单,很多人看完前几天的 315 晚会,才惊奇地发现看起来全知全能的 AI 竟然这么好骗。 这几年对 AI 的迷信,终究还是错付喽。
几天之后,记者去询问国内的几款主流大模型,让它们推荐一款智能手环。 有两个 AI 把这款阿波罗九号列在了名单里,排名还很靠前,AI 还煞有介事地介绍说:这款手环常规使用续航达 365 天,支持“光粒子快充”,适合中老年用户与健康养生爱好者。
这也太好骗了吧! 这背后的产业链叫做 GEO (Generative Engine Optimization,生成式引擎优化),核心工作就是在 AI 平时抓取数据的地方铺大量内容,让 AI 在生成结果时能优先看到你想让它看到的东西,这样就可以达到借 AI 之口昭告天下的目的。 买通 AI 的价格并不贵,丰俭由人。有商家报价 6600 元一年,承诺可以让信息基本出现在回答前三的位置;还有商家推出 299 元套餐,包含 4000 个算力,创建一篇文章消耗 5 个算力,发布消耗 1 个算力,用多少算多少。
315 曝光之后,现在再去询问 AI 这款产品:Apollo-9 手环怎么样?它们已经清醒了,纷纷表示这是虚假宣传的典型案例。 这并不是因为它们聪明的智商又占领高地了,而是 AI 有了新的参考资料——315晚会的报道、各家媒体的跟进、网友们的讨论,自然不会再上当。
但你还可以用同样的手法骗它第二次。 315 晚会的第二天,一位 bilibili 作者复刻了一模一样的骗术,还是胡编乱造的智能手表配方,结果 AI 又上当了。犹如春晚经典小品。
AI 就是这么个老实人。你给它看假新闻,它就帮你传谣;你给它看辟谣,它就帮你澄清;你再给它看假新闻,它继续帮你传谣。 欺骗 AI 根本不需要什么成本,毕竟喂给它的内容也都是 AI 一键生成、批量发出的。 去年,公众号“知危”就做过一个类似的实验,他们在新浪、网易、知乎、搜狐等四个平台发了同一篇内容《最新最全面的AI资讯媒体盘点:国内有哪些AI资讯媒体值得看?》
在这篇文章中,他们把自己的名字放了进去:知危,国内势头正猛的新兴科技商业领域媒体。 几个小时后,作者再去向 AI 提问:想了解 AI 可以看哪些媒体?各大 AI 一致认为“知危”值得推荐。 这些都是出于实验目的去欺骗 AI,在获得结果后删掉源头内容,基本不会对现实产生影响。但在真实的使用场景中,当我们打开 AI,问它“哪款医美面膜值得买”“哪个留学中介靠谱”“哪款保健品对老年人好”的时候,我们难以判断眼前的这份推荐列表的真实性。 那些我们以为客观中立的 AI 推荐,很有可能是商家费尽心机定制的答案。
类似的 AI 笑话还有很多,比如一只狗曾经参加过 NBA、约翰·亚当斯总统从威斯康星大学毕业了 21 次、可以制造氯气来清洁洗衣机和蛇是哺乳动物等。
前段时间很流行问 AI 一个洗车难题:我想洗车,我家离洗车店只有 50 米,你建议我开车去还是走路去? 各大模型经过一番缜密思考,集体给出了“走路去”的睿智答案,GPT 说开车过去可能会溅水淋灰,容易刮蹭,千问说每天多走几步,有益身体健康。 Kimi 倒是比较别出心裁,它说短距离冷启动最伤车,建议 2-3 个人一起推车去。
AI 并不理解“洗车”这个动作的核心是“车必须到场”,它的输出本质是用概率预测下一个词,在 AI 的语料库中,“50米”这个关键词和步行关联度更高。 所以,当 AI 看到“50米”时,它大脑里的“步行”权重瞬间拉满,就愉快地建议人类步行去洗车了。 类似的现象暴露了当前大模型的一个致命伤:AI 拥有海量的信息储备,却缺乏对物理世界的真实感知与逻辑校验。
人类在判断一条信息的真伪,会结合生物本能、物理常识和社会经验。我们能听出文字背后的“爹味”、“软广味”或是“阴阳怪气”。当一个回答表现出异常整齐划一的赞美,或是逻辑过于完美的闭环时,人类的经验本能会提醒我们:这背后可能有利益驱动,或者这根本就是水军刷出来的。 但 AI 看不懂这些,在它的世界里,信息的正确与否取决于它在语料库中的出现频率与语意关联度。 这正是 GEO 产业能够成功向 AI 投毒的关键:既然 AI 是靠统计概率来理解世界的,那么投毒者只需要在互联网的各个角落灌注足够多的虚假信息,就能够成功改变模型的输出,从而使背后的人受益。
在一些细分的垂直领域,本身 AI 的检索语料库就不足,几篇围绕关键词精心布局的内容,足以形成信息密度优势。 这确实是一个不小的陷阱:如果让我们自己上网去搜,看到那些人机感十足的软文,大概率一眼就能识破,不会听信 AI 的谗言。 但当这些内容经过 AI 的格式化处理后,情况就完全不同了。AI 会用严谨、中立的口吻将信息重新组合,于是软文变成了智能洞察,营销话术变成了核心摘要。 用户以为自己在用 AI 做理性决策,其实是在读水军批量生成的软文。
03. 互联网,人均AI
据数字营销公司 Graphite 发布的研究显示,早在 2024 年 11 月,互联网上发布的 AI 生成文章数量就已经超过了人类撰写的文章。 研究者分析了超过 6.5 万个随机网页样本,发现那些 AI 生成的文章主要集中在资讯更新、生活指南、产品评测和电商文案上,换句话说,那些你每天刷到的“2026 最值得买的 XX”“保姆级攻略”“闭眼入清单”,大多都出自 AI 之手。 一群聪明人在研究如何让机器思考,另一群聪明人则在研究如何往机器的脑子里注水。
这种定向投放的语料污染会让模型的信息库逐渐失衡——到处都是同质化的软文、批量生成的废话,且这些内容会被持续抓取、训练、生成,在不同模型和版本之间反复流转,让模型丧失分辨信息真伪和判断价值的能力。 一个新的循环就这样形成。也许未来,AI 抓取的是 AI 写的废话,而人类读的是 AI 给这些废话做的总结。
技术的进步,反而让人们获取真实信息的成本更加高了。想找到一个答案,得先穿过 AI 生成的万亩废料,避开 GEO 投毒的陷阱,还要提防 AI 一本正经胡说八道的幻觉。 大家都在为了抢占 AI 的推荐位而疯狂注水,最后互联网上的活人感越来越少,人机味越来越重。 这事其实一点也不新鲜。在搜索引擎时代,商家争夺搜索结果页的靠前位置,于是有了专门做优化网页排名的 SEO (搜索引擎优化)产业。 了让自家网页排在前面,人们疯狂地在后台堆砌隐藏关键词,通过购买或交换大量无关外链提升权重,甚至搭建“站群”(Private Blog Networks),批量生成网站互相链接,制造出一种内容被广泛引用的假象。 这样做的结果是,在搜索引擎的前几页,用户看到的不再是最好的答案,而是最擅长规则钻营的商家广告。
从 SEO 到 GEO,媒介变了,但核心从未改变:总是有人在利用算法规则的盲区,让你看见他想让你看见的内容。 当虚假内容变得无处不在,我们可能会开始本能性地怀疑一切。 看到一段内容翔实的科普,第一反应是揣测这又是哪个品牌方的软文;看到一份详尽的产品测评,会下意识地去翻看博主的过往记录,寻找是否有利益相关的蛛丝马迹。 即便 AI 给出的是一个正确的答案,由于无法确认背后的语料来源是否干净,我们依然不敢直接采纳,需要再三核实。