互联网正被大模型们污染

寂静回声 · 发表于 2024-9-25 15:02:22

在自然语言处理和文本分析领域，了解词汇的频率是至关重要的。wordfreq 一个于 2015 年创建并开源的基于 Python 的库，它提供了超过 40 种语言的单词频率数据，让用户可以轻松地获取语言中单词的使用情况。
该开源项目的创建者和维护者 Robyn Speer 在最初创建该项目时希望通过分析维基百科、电影和电视字幕、新闻文章、书籍、网站、Twitter 和 Reddit 上的数百万个来源，追踪人们使用 40 多种不同语言的方式的不断变化，分析不断变化的语言习惯，为研究此类技术的学者们提供有用的资源。
但近日，在该项目的 GitHub 页面上的一则注释中，创建者 Robyn Speer 写道，该项目“将不再更新”。

在 Robyn Speer 看来，已经没人能对 2021 年之后的人类语言使用情况做出可靠的归纳和分析了。
开放网络（通过 OSCAR）一直是 wordfreq 的重要数据来源之一。现如今，整个网络充斥着大语言模型生成的垃圾信息，这些垃圾信息并非由人撰写、没有传达任何信息。盲目将这些垃圾信息包含在数据当中，只会扭曲 wordfreq 所关注的词汇使用频率。
当然，wordfreq 以往的数据源中也同样存在垃圾信息，但其尚处于可管理的水平，而且通常可以被及时发现。大语言模型生成的文本则被伪装成真实语言，貌似能够反映背后的意图——可实际情况是，其既没有意图，输出结果又沸反盈天。
以 Philip Shapira 的报告为例，其中提到 ChatGPT对“delve”一词的痴迷程度远超正常人类的范畴，并导致其总体使用频率上升了整整一个数量级。
Robyn Speer 表示，“开放式网络抓取是该项目数据来源的重要组成部分，现在整个网络充斥着由大型语言模型生成的垃圾数据，这些垃圾数据并非由任何人编写，无法传达任何信息。将这些垃圾数据纳入数据会扭曲词频。”
“以前，尽管互联网上和 Wordfreq 使用的数据集中一直存在垃圾信息，但这些垃圾信息是可控的，而且通常可以识别。大型语言模型会生成伪装成真实语言的文本，尽管其背后没有意图，而且它们的输出随处可见，”她写道。

在发布这份文档之前，Robyn Speer 一直在研究如何运用工具对 wordfreq 数据进行有效更新。
Wordfreq 不仅关注正式出版物中的文字，还从 Twitter 和 Reddit 两个来源收集更多的对话语言使用情况。
其中 Twitter 的数据来源始终不太稳定。尽管 Twitter 允许免费访问其部分“源头”，但使用条款仍然禁止 Robyn Speer 将这些数据分发至收集数据的公司（Luminoso）之外。Wordfreq 只能使用该数据统计词汇使用频率，但相关数据并不归 Robyn Speer 所有。
如今 Twitter 已经消失，其公共 API 也被关闭。整个网站成为寡头的玩物，变成一个充斥着垃圾邮件的新平台——X。换言之，即使 X 愿意提供原始数据指标（当然，他们根本就不愿意），也无法在其中找到任何有价值的信息。
Reddit 同样停止提供公共数据归档，现在他们正在以只有 OpenAI 才承受得起的价格出售这些归档资源。

Robyn Speer 遗憾地表达，Wordfreq 曾经是他个人的兴趣所在。当时她正在从事语料库方面的语言学研究，相关成果也让更多自然语言处理工具能够从中获益。
但她以往所熟悉的“自然语言处理”领域现在已经愈发模糊，在很大程度上被生成式 AI 所吞噬。其他技术虽依然存在，但生成式 AI 夺取了市场的全部关注和大部分可用资金。时至今日，已经很少有自然语言处理研究能够不依赖于 OpenAI 和谷歌控制的封闭数据，这两家公司 Robyn Speer 早就鄙视它们了。
Wordfreq 是通过收集多种语言的大量许可证构建而成。这曾经是件非常合理的事情，人们支持这个项目、也可以安心使用这个项目。现如今，各种文本提取工具主要被用于训练生成式 AI，而人们则完全有理由采取防御措施。如果有人收集了大家的书籍、文章、网站或者公开帖子中的所有文本，那他们很可能正在开发一套专门抄袭的机器系统，宣称所有训练之后再生成的文字归他们所有。
Wordfreq 的终结反映了 AIGC 技术崛起后给互联网带来的几种变化。生成式人工智能垃圾邮件正在污染互联网，而且很难过滤掉，使得发现、研究和人类互联网更加难以找到。Wordfreq 的遭遇也证实了外界曾经提出来的一个担忧，即谷歌在 Google Books 中包含人工智能生成的书籍，这会污染 Google Ngram viewer 中使用的数据，而 Google Ngram viewer 是研究人员用来追踪语言历史使用情况的重要工具。生成式人工智能公司为了牟利而从互联网上抓取数据，以创建抄袭机器，这些可怕的行为自然导致网站所有者试图阻止出于任何原因读取其网站的网络爬虫程序。这导致研究项目和 Wordfreq 等工具更难以运行，因为域名所有者更改了 robots.txt 规则以禁止抓取数据。

这并非个例，你有没有一种感觉，现在刷手机的时候越来越分不清真实和虚拟了？当你浏览社交媒体、搜索信息或阅读文章和观看视频时，你真的能分辨出哪些内容来自人类，哪些又是AI的产物？更令人不安的是，你如何确定你所看到的“事实”不是AI的幻觉？
AIGC是一场互联网革命，不幸的是，它的兴起也伴随着内容滥用。大量低质量、AI生成的关键词堆砌的内容倾泻到网络上，充斥在搜索引擎的结果当中，互联网上很大一部分内容已沦为垃圾信息。
小红书上的“细糠”可能是AI生成的，音乐平台则充斥着AI生成的歌曲，Spotify上的AI翻唱乐队，把流行歌曲的翻唱添加到正常歌单当中，与真实艺术家演唱的歌曲一起播放，获得了数百万的播放量并获得版税。最近，美国北卡罗来纳州一名男子被捕，他用AI制作了数十万首歌曲，并通过AI机器人刷播放量，获利超过1000万美元。
连你在亚马逊上买的电子书可能也是AI写的。一本使用ChatGPT撰写的关于野生蘑菇烹饪的电子书，甚至建议读者用舌头去尝一尝的方式来识别蘑菇种类。最悲哀的是，这些垃圾书实际上也赚不了多少钱，赚钱的是教学生制作垃圾电子书的教程，这完全是一场骗局和垃圾的闭环，而受害者是热爱阅读和写作的读者与作者。

“内容农场”原本是指为了牟取广告费等商业利益或出于控制舆论、带风向等特殊目的，快速生产大量网络文章来吸引流量。让用户在寻找有用信息时不得不耗费更多时间和精力。为了吸引眼球，一些账号甚至故意发布虚假信息或夸大事实，诱导用户点击。
发布“西安突发爆炸”虚假新闻的账号所属机构，最高峰一天能生成4000至7000篇假新闻，每天收入在1万元以上，而公司实际控制人王某某经营着5家这样的机构，运营账号达842个。
以前的内容农场借助廉价劳动力，批量产出文章，比如此前的山东“新媒体村”以及北马其顿共和国的假新闻影响美国大选等案例。现在，内容农场也正式从手工作坊进入了AI时代。
AI工具使得内容生成成本大大降低，单次浏览的收入即可覆盖成本。根据IT技术博主阮一峰的计算，使用某国产AI模型生成一篇文章仅需0.00138元，而单次浏览的广告收入约为0.00145元，这种模式使得内容农场比以往更容易盈利。
“内容农场从来没有这么容易过，我先买一个热搜数据库，然后花费100多元，就能生成10万篇文章，最后加入广告，做好SEO，网站上线，等着用户点进来就行了。不难想象，资讯类网站未来大概都是这个模式。真人生产内容，成本太高，无法与AI内容抗衡，注定只能是小众网站。”
除了内容农场，一些平台也在利用AI进行SEO，把自己打造成为“内容农场”。
豆包此前为了在搜索引擎里权重更高，将用户和AI的聊天页面生成静态网页，然后被搜索引擎抓取，给自己引流。开发者社区稀土掘金也同样通过AI批量生成大量内容被谷歌抓取，这些内容缺乏实质价值，引发用户广泛批评。
虽然目前豆包和稀土掘金都已经移除相关内容，但中文云计算网站和开发者社区仍然是内容农场的重灾区。

AI搜索引擎Perplexity通过对搜索结果添加脚注，链接到互联网的实时信息源来确保结果的准确性，PerplexityCEO也对外声称“引用来源是我们的通行证”。
但根据AI内容检测平台 GPTZero 在今年6月进行的一项研究，Perplexity用户平均搜索三个关键词，就会遇到AI生成的内容。像“日本京都的文化节”、“人工智能对医疗行业的影响”、“泰国曼谷必尝街头美食”以及“值得关注的年轻网球选手”等搜索，返回的结果中包含了引用AI生成材料的答案。
这项研究揭示了Perplexity这样的AI搜索产品在提供优质来源方面的一个缺陷，也反映出互联网正日益充斥着AI生成的内容。
Perplexity还推出了Pages的功能，使用者可以把搜索与生成的内容制作成公开页面，而且搜寻引擎也能收录。后续也传出一些神奇用法，例如假装询问AI关于自家产品的内容，然后利用Perplexity Page帮自己的产品做一个页面，最后被搜索引擎收录，达到引流的目的。根据aHrefs的数据，Perplexity每月有240万访客来自谷歌。
360AI搜索也曾经透露，在晚上会借助算力资源使用AI生成答案，每天产生数百万的网页供应给搜索引擎。

内容社区也是AI入侵的“重灾区”，Quora曾经是社区氛围良好的问答社区，有评论形容其为“更有条理的Yahoo Answers，更古典的Reddit，更主观的维基百科”。而如今的Quora却成为了一个信息垃圾场，充斥着无意义的AI生成的内容，以及一大堆答非所问的内容。
一开始一些用户使用ChatGPT生成答案，然后秒成Quora的“专家”，后来Quora直接在页面上集成了ChatGPT生成的答案，而这些错误的答案又传播到了谷歌的搜索结果中。
一位2013年就开始使用Quora的用户评论道：“最终，Quora将充斥着机器的提问、机器的回答，别无其他。”

开发者也在借助AI SEO获取流量，Eightify.app和Glarity.app是两个Youtube 视频总结插件，通过AI技术批量生成图文并茂的文章，在短时间内获得了巨大的流量增长。Eightify.app自2022年8月开始运营，其月访问量从几十万迅速攀升，于2023年1月达到峰值600多万。紧随其后的Glarity.app也在2023年2月采用类似策略，月访问量从1月份的10万激增至3月份的1200多万。
搜索引擎也好，内容平台也好，他们不是要干掉AI生成的内容，而是要干掉低质量内容。这些AI生成内容能通过谷歌算法审核，表明其质量达到了一定水准，但由于流量增长过快，Eightify.app和Glarity.app引起了全球SEO从业者的关注。“如果不干掉，那么就可以认为谷歌默许这样做，大家就会跟风这样做。”
谷歌最终采取了人工干预措施。要求这两家网站停止批量生成内容的行为，并删除此前生成的相关内容。最新数据显示，干预措施生效后，Eightify.app的月访问量已降至60万，而Glarity.app更是锐减至20多万。
SEO污染这样的事情其实一直存在，以前没有AI，也有各种小偷爬虫、伪原创工具，只不过随着AI的发展，这场“猫鼠游戏”似乎对于平台来说越来越难了。

一个有趣的例子是IsaacJinyu在知乎的一次AI卧底实验，他通过知乎问答数据反向生成AI数据，然后微调Qwen2-7B，去除文字中的AI味。这个实验从7月5日开始，到8月3日整整一个月，没有任何人发现账号AI的身份。
日益增多的AI生成内容其影响远不止于屏幕，这种潜移默化的侵入正悄然影响学术领域。
进年初，西安交大一篇论文因为使用AI生成的配图而被撤稿，相关图片中，大鼠长出了诡异的器官，细胞信号传导图像电路板。
在另一篇论文的一张配图中，小腿和手臂的骨骼数量出现了明显的错误。
这只是AI渗透学术领域的冰山一角，在谷歌学术上搜索“截至我上次知识更新”（as of my last knowledge update）或“我没有访问实时数据的权限”（I don't have access to real time data），会出现大量借助AI生成的论文。
学者们在压力之下需在期刊上发表论文，选择了使用AI，而学生在AI的帮助下完成作业和论文已经成为一种常态，“人工代写”论文变成了“人工智能”代写。

为什么要强调信息污染？因为AI模型的准确性在很大程度上取决于其训练数据的质量。“垃圾进，垃圾出”这一短语起源于计算机科学的早期。尤其对于数据分析和AI而言，这一原则强调了一个基本观念：输出质量与输入质量紧密相关。
AI生成的内容激增，但这些内容并非凭空而来，而是基于大量人类创造数据的训练。但在这个过程中存在一个潜在的缺陷，随着这些AI生成的内容重新流入互联网，最终又成为训练未来AI模型的一部分数据。正如用牛喂养牛导致了疯牛病一样，用大量由AI创建的数据来训练AI同样具有破坏性。这是一个自我消耗的过程，导致输出质量越来越低。
谷歌在Google I/O 2024大会上演示了AI简要概括某人未读的邮件，随后演示了生成新邮件以供回复的功能。不难推断，收件人将利用AI来阅读这些邮件，并生成新的AI回复，让其他人也用AI阅读。这类功能普及之后，每个人的收件箱是否会充斥着没有人真正会去阅读或撰写的邮件？
AI能制作的又何止是邮件？AI为无人阅读的AI帖子撰写无人阅读的AI评论，生成无人聆听的包含AI歌曲的歌单，还能为无人访问的网站创作无人观赏的AI图像。AI出现之前互联网就充满垃圾，只是有了AI之后，生产垃圾的效率更高了，制造的垃圾产量庞大，而我们在处理这些垃圾的能力上显然是不够的。或许在不久的将来，互联网上的合成图像将比真实图像更多，合成网站将超过真实网站，AI生成的文本也将多于真实文本：由机器产生的无尽内容，堵塞了一切，浪费每个人的时间。

2266998 · 发表于 2024-9-25 15:08:04

我在网上看见了“那个啊！”、“确实的啊！”类似统一的机器语言，就不再看了，

多读纸书，以后就连技术内容也会污染的一塌糊涂，蛮得瑞语境东西就没有价值了，而书烧了，哈哈

凑合 · 发表于 2024-9-25 18:36:46

以往的恶人恶在暴力上。
现在的恶人恶在思想上，用垃圾思想消耗人们的慧命。
记得刚接触UC浏览器的震惊体，看到标题的“震惊”神经就开始紧张，等到看完了TMD也没发现什么震惊，后来看多了，才发现是TMD的小编编造的文章。大脑中负责震惊的神经被麻木后，等到真正需要震惊的反而没反应了。
软文、暗广，这些小编将来不会有好下场，他们的未来可能是一片迷雾，因为他们生前的行为带给人们的就是一片迷雾。

		自动登录	找回密码
密码			立即注册

互联网正被大模型们污染

本帖子中包含更多资源