大模型根本没有任何判断力

寂静回声 · 发表于 2025-2-28 09:04:25

我用 DeepSeek 搜索：「好用的 AI 耳机是什么样的」，结果它给我的回答，竟让我似曾相识！
在答案中，它首先提到，好用的 AI 耳机核心要具备「精准翻译与跨语言交流」的功能，然后列举了两个场景。
这段描述，和我前几天写的一篇文章《「9 块 9」的中国 AI 耳机，疯狂收割老外》非常相似。文章主要介绍了 AI 翻译耳机在海外爆火，很受多元种族群体欢迎，「翻译」属于被忽视的刚需。
于是，我点开 DeepSeek 答案后面的参考文献 2 和 12，结果发现，这不就是我前几天自己写的首发于极客公园公众号的文章嘛。
我创作的内容，竟然又反作用于自己。
DeepSeek 为了回答问题，一共搜索了 50 个网页，最终挑出了 3 个重要网页（【2】【12】【9】）的内容来整合出答案，其中文献 2 和 12 是被转载到不同网站的同一篇极客公园的文章。
那么，为何这篇文章会被视为这个问题的最核心的参考文献？
原来，我在自己的文章当中多次使用了类似于「核心在于其满足了多元的移民聚集地区群体的刚需」、「他们需要 AI 翻译功能」等等解读用户需求的语句。显然，这些明确的对用户需求的解读、结论影响到了大模型的判断。
文献 9 是另一篇重要的核心参考文章，它的标题是《双十二耳机选购指南》，来自于网站「什么值得买」，文章的内容详细介绍了智能交互、AI 助手对于消费者的帮助。
《「9 块 9」的中国 AI 耳机》与《双十二耳机选购指南》这两篇文章的发布时间都不算久，而且它们还有几个共同的特点：
1. 比较深度，文章篇长，在 3000 字左右；
2. 对用户、市场需求的解读篇幅较多，而且都给出了十分明确的判断；
3. 正文内容与「好用」、「AI」相关度较高；
不过，这依旧没办法得出 DeepSeek 搜索、解答问题的规律。
于是，我将同样的问题抛给了接入 DeepSeek 的腾讯元宝。结果，它给出了全然不同的答案，但这也让我们距离发现规律更近了一步。
在答案中，它首先提到好的 AI 耳机核心要有「深度思考模型支持」，这与 DeepSeek 官网给出的优先级截然不同。
可以看到，腾讯元宝在回答中多次优先推荐「WISHEE AI 耳机」。巧合的是，他们的团队我刚好认识。
这是一个很酷的初创团队，不过他们的预算多用在研发方面，市场推广几乎还没有开始，知道他们的人极少，产品目前的销量也仅仅只有 1000 台左右。
可以说，他们的市场预算、影响力显然没有办法和华为、小米、索尼、科大讯飞、韶音等知名耳机品牌相提并论。
然而，就是这样一个曝光极少的初创品牌，却在AI给出的答案里，力压众多大牌，被放在了第一位。
很难理解这是为什么。
于是，我去翻看了一下元宝的思考过程，发现文献 1 和 7、8 贡献了很大力量。
文献 1 是一篇自媒体解读 WISHEE AI 产品的公众号文章，阅读量并不高；文献 7 和 8 是介绍 WISHEE AI 产品的新闻通稿，正文内容相同、标题不同，分别发布在了两个不同的门户网站上。
可以说，主要就是这 3 篇文章，让元宝 DeepSeek 大模型认定了 WISHEE AI 是更符合问题的答案。
那么，仔细看了这 3 篇文章后，我发现了它们的共同点：
1. 他们的文字措辞都给出了很明确的判断，比如，「更是一个不断进化的真正意义上的 AI 智能体」、「在 DeepSeek 加持下...... 更理解用户的需求、爱好、生活习惯、情绪等」、「WISHEE AI 耳机作为 AI 硬件无论是产品定位、体验以及个性化服务上都可以作为一个代表产品拿来与更多人分享」等等；
2. 都是近期发布；
3. 文章论述完整，都详细解读了 AI 耳机的市场趋势、产品功能特色、如何解决用户问题等要点。而且与 AI 相关内容的篇幅占比极高；
到了这一步，DeepSeek 如何挑选内容信源作为参考资料的规律逐渐明朗。但「好用的 AI 耳机是什么样的」这样的问题还是稍显复杂，干扰因素也比较多。
于是，我打算换个更简单、没那么商业的问题：「介绍一下媒体编辑作者苏子华」。我在极客公园公众号上发表过多篇文章，有些文章也被其他公号或者门户网站转载。那么，AI 搜索会如何根据这些文章来定义「苏子华」呢？
我将这个问题分别抛给了微信的「AI 搜索」和腾讯元宝，结果它们给出的回答里，我那没有存在感的个人公众号贡献了这个答案最重要的语料来源。我的个人公众号只发表过 3 篇文章，简单聊了聊日常生活观察和经历，阅读量寥寥。
但对于 AI 大模型来说，它构成了我的网络身份的重要组成部分，那是我在 AI 大模型眼中的样子。
也就是说，即便是被搁置在网络角落里的内容，在 AI 大模型遇到相关问题时，只要关联度足够高，大模型也会将它拾起，起到决定性作用。
因此，我们可以先总结一下：近期发布、观点鲜明、论述完整、正文关联度高的内容，更能够影响 AI 大模型给出的答案。这些内容甚至不必是由媒体大号、大 V 发表出来的，也不必具有很高的阅读量。
夸张些讲，我们作为普通个体也有机会，通过发布具有以上特征的文章，来影响 DeepSeek 给出的回答了。

373527271 · 发表于 2025-2-28 13:42:12

中文世界，遍地都是poo, 吃这个能长出智能，不信。

		自动登录	找回密码
密码			立即注册

大模型根本没有任何判断力

本帖子中包含更多资源

浏览过的版块