当生成式AI制造垃圾而AI搜索使用垃圾作为信源时

寂静回声 · 发表于 2024-6-11 14:41:06

本帖最后由寂静回声于 2024-6-11 14:47 编辑

所谓能联网搜索的生成式AI，其实不是生成式AI，只能叫AI搜索。比如智谱AI、海螺AI、kimi AI等一众国货，关掉其联网搜索功能，那才是这些国产生成式AI的本色。

AI 搜索比起 ChatGPT，能联网，引用信源，不那么容易胡说八道了。但如果，信源本身就是垃圾呢？「林黛玉倒拔垂杨柳」的梗很多人都听过，最近在重温水浒传，我灵机一动，用中文问 Perplexity，「林黛玉的性格和鲁智深的性格有什么相似之处」。
回答得平平无奇，但引用来源出现了一个意想不到的角色：字节豆包大模型，抖音旗下的 AI 助手。
这难道是什么新奇的商战形式吗？点进去发现，内容就是用户和豆包的聊天记录，AI 回复得还很八股文。如果质量写得比营销号好就罢了，写成这样是罪加一等。
当我直接在 Google 搜索同一个问题，豆包又来刷存在感了，并且高居第二，和 Perplexity 引用的不是同一条，但点进去还是「首先」「其次」打头的废话连篇。
之前 The Information 报道过，Perplexity 使用 API 访问有关 Bing 和 Google 搜索排名的数据，这些数据决定了网页的相关性、质量和权威性。
换言之，如果豆包容易被 Google 搜到，可能也就更容易被 Perplexity 引用。这就让人好奇了，为什么豆包可以出现在搜索引擎？
等我登录豆包网页版的最新版本，答案出现了，它默认勾选了一个选项：允许分享内容被搜索引擎收录，在搜索结果页显示。现豆包已更新，不是默认勾选，用户可选择。
让用户和 AI 的聊天记录被索引，豆包似乎是开了先例。Perplexity、天工、秘塔、360 AI 都可以将聊天记录以链接形式分享，但没有看到类似豆包的选项。
ChatGPT 也支持以链接分享对话，但承诺只是用于个人之间的共享，不会出现在互联网的公共搜索结果。
早年的「内容农场」，盗取或拼凑他人文章，快速生产内容，凭借关键词优化、频繁更新等 SEO（搜索引擎优化）策略，抢占搜索页面的前排，赚取流量和广告费。
那时候，内容贡献者还是真人，每天生产数篇文章，但现在轮到了 AI，复制、粘贴、洗稿、批量产出的战斗力完全不在一个量级。
「林黛玉倒拔垂杨柳」「鲁智深唱葬花吟」本不是事实，说的人多了，权重高了，也就成了 AI 搜索眼中的事实，引用的信源，是知乎、抖音、简书用户编造出来的有鼻子有眼的故事。
如果信源成了 AI，结果只会更加惨烈。想象一下，更多 AI 生成内容被 Google 收录，AI 搜索参考 Google 的搜索排名，然后最终呈现在用户面前的，就是 AI 叠加 AI 的垃圾结果。
被投喂的人类，只能修炼得更加火眼金睛，从废话里挑出有用的干货。
平心而论，AI搜索有其存在的价值，毕竟有的时候我们就是只需要搜索网上实时信息，但不想自己去整理搜索结果。而AI搜索就可以做到人类提出问题，它们搜索、摘要、成文，自己已经是一个成熟的工作流，我们付出更少，但效率更高。
AI 搜索从原理上来说，是先搜索再总结，比起不联网的生成式AI的幻觉更少，核心技术之一是 RAG（检索增强生成）。
RAG 结合了信息检索和生成模型，信息检索根据用户查询，从庞大的文档库中找到相关信息；生成模型则将这些检索到的文档作为上下文，生成更加准确和详细的回答。
这里的文档库，可以是传统搜索引擎的索引库，也可以是法律等专有数据库、社交媒体等用户生成内容。
除了司空见惯的网页，AI 搜索产品们，似乎有一个不约而同的想法：提供多模态的信源。
360 AI 可以找到视频，秘塔可以找到播客和学术论文，Perplexity 可以搜索 Reddit 和 YouTube。
但 AI 搜索更多是提供一个引子，想要更多的详情内容，还是不能偷懒，要到信源的出处去看。
同时，还有一个有趣的现象，app 们正在推出内嵌的 AI 搜索功能，比如小红书内测的「搜搜薯」、微信读书的「AI 问书」，在既有的生态上发掘 AI 的落地点。从这个意义上说，它们也是 AI 搜索产品。
再结合豆包让 AI 内容在搜索结果页显示的操作，我们似乎又被提醒了一次移动互联网的内容分布情况。
移动互联网时代，不像之前的门户网站时代，app 之间彼此孤立，也很难被搜索引擎爬取。比如，输入公众号文章的标题，搜索引擎找不到原文，只能看到分发渠道。
同时，在传统搜索引擎上，广告等干扰项很多、低质量的营销号内容也很多，我们渐渐习惯了，系统看教程上 B 站，生活琐事提问用小红书，找文章用微信搜一搜。
而在 AI 搜索产品、AI 生成内容越来越多以后，以后可能又出现这样的局面——网页内容越来越良莠不齐，以数量取胜，而高质量的内容一如既往地保持封闭，变成了垂直 AI 搜索的护城河。
除了大而全的多模态 AI 搜索，可能也会有越来越多优秀的垂直 AI 搜索涌现。
比如，学术搜索引擎 Consensus 口碑较好，2 亿多篇论文的优质信源，再集合 AI 驱动的分析能力，答案总是会引用某个研究。
我们对于 AI 搜索的期待是，在用人话交流的交互过程中，更快地提供更好、更多样、更可视化、更个性化的内容，回答更加复杂和具体的问题。
然而，与此同时，搜索的内容和生态也正在被 AI 破坏，仿佛隐喻了 AI 的一体两面。
未来，AI 生成的内容肯定会越来越多。正反拉扯之中，找到更有用的信息，究竟是更难还是更简单，还是一个悬而未决的问题。

明明是与王小波，李顺起义有关

明明出自《梦溪笔谈》

是《梦溪笔谈》卷25杂志二

这是《梦溪笔谈》卷25杂志二原文

		自动登录	找回密码
密码			立即注册

当生成式AI制造垃圾 而AI搜索使用垃圾作为信源时

本帖子中包含更多资源

当生成式AI制造垃圾而AI搜索使用垃圾作为信源时