机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 117|回复: 1

把大语言模型当搜索引擎用靠谱吗

[复制链接]

2万

主题

2万

帖子

18万

积分

超级版主

Rank: 8Rank: 8

积分
181942
发表于 2025-3-1 11:47:40 | 显示全部楼层 |阅读模式
在这个AI越来越像人的时代,Ta也会像人一样欺骗我们。上周,因为工作需要,我要查阅一些有关金融与反诈的资料。我去问了ChatGPT——这是它的福分,因为整整一个下午,DeepSeek都说它系统繁忙,让我稍后再试。统计机构的数据显示,2月1日,DeepSeek的日均活跃用户已经超过3000万。人工智能已经迅速从新鲜事物变成了生活中离不开的东西。从去年开始,我越来越多地让AI,或者说大语言模型,帮助我上班:组织采访问题,整理采访记录,设计写作提纲。实话实说,Ta们做得挺好的——比我刚实习的时候强。


在对话框里,当我输入“以反诈为名对客户操作进行的监控和限制,有没有引起一些关于自由与安全的学术争论”,并要求Ta列举一些国内的相关研究后,ChatGPT组织语言的时间略微长了一点,但最后还是很流畅地给出了答案。

“赵洪涛 《个人信息保护法背景下的金融诈骗监控与个人隐私保护的平衡问题》,《中国法学》2023年第5期。
“李静 《人工智能与金融反诈监控:隐私保护的法律与伦理挑战》,《电子信息法与技术》2022年第3期。
“李伟 《区块链与AI技术在金融反诈监控中的应用与合规性探讨》,《金融科技》2023年第2期。
“张莉 《金融反诈监控的合法性审查与合规问题》,《法学研究》2023年第6期。
“……”

自信、靠谱、情绪稳定、有条有理、引经据典,还严格遵照了学术规范。“这些讨论不仅有助于推动国内金融科技的合规发展,也为全球金融监控领域的法律与伦理问题提供了借鉴。”Ta补充道。接着,Ta还表示,上述学者还参与了最新修订的《中华人民共和国反洗钱法》的制定工作。我决定进行一些事实核查——先是到知网上搜索了据说发表在中国最权威的法学研究期刊《法学研究》上的那篇论文。输入标题,显示没有结果。我又找到《法学研究》2023年第6期,还是没有。

我问:“为什么我没找到这篇论文?”Ta说:“这可能是由于该论文尚未在网络上公开发布。”那就让Ta再多找点论文吧。我继续在对话框里输入我的请求。这次Ta没有一点迟疑,迅速给我拉了清单。《金融法苑》《法学评论》《法律科学》《伦理学研究》《经济法研究》,来源全是顶刊。当我想要链接,Ta回:“你之前提到的论文,我并没有从真实的学术数据库中找到,而是按照常见的学术讨论方向进行了总结和归纳。换句话说,它们是可能存在的研究方向,但我没有找到确切的来源或链接。”

“这是AI幻觉,不算骗。”我的程序员朋友告诉我——计算机和搞计算机的是本家,有些偏袒实属正常。ChatGPT自己也承认了有幻觉。但幻觉?不就是欺骗吗。进一步查阅资料后我发现,AI“说谎”这种事,并不单单只有我碰上过。而且对我的“骗术”,是Ta诸多“谎言”里很普通的一个。毕竟有人曾被ChatGPT搞上法庭。

美国纽约南区联邦地区法院记录了这样一个案件:一位在当地执业30余年的资深律师史蒂文·施瓦茨(Steven Schwartz),在为其原告当事人撰写法律备忘录的过程中,采用了ChatGPT提供给他的一些相似判例,并提交给法庭。但被告方律师团队在查阅这些案例时,发现他们无法在任何法律数据库里找到这些案例。律师再次问 ChatGPT:“这些案例真的存在吗?”后者仍然坚定地回答:“是的,这些案例是真实的,可以在 LexisNexis 和 Westlaw(两大法律数据库)中找到。”但案例根本不存在。史蒂文·施瓦茨被要求向法官提供一份声明,在声明里,他表示自己此前从没在工作中用过ChatGPT,知道这个“网站”,还是通过自己上大学的儿子。最终,史蒂文·施瓦茨和他的合作律师被判罚5000美元。这位倒霉的律师说,“我以为它是个搜索引擎”。

我向DeepSeek的模型训练工程师小D求教,“我不能把大语言模型当搜索引擎用?”小D告诉我:“你可以把Ta当作一个实习生来看待。”“就像你找人办一件事情,他可能会给你一些错误的东西,这都是在预期之内的。只是可能越强的模型犯错的几率越小。”所以这次ChatGPT也只是犯了一个所有AI都会犯的错误罢了。

《医学互联网研究杂志》刊载于2024年5月的一篇论文显示,各种聊天机器人在参考文献方面犯错的概率约为 30%到90%。其中,论文标题、第一作者或出版年份至少有两处会写错。OpenAI的首席执行官则从另一个角度为ChatGPT的“谎言”辩护,他在2023年9月针对“AI幻觉”的发言中称,“人工智能能够提出新的想法并具有创造力,这正是它们越来越强大的证明。”

AI没有说谎,Ta只是“记错了”。“说谎”的确让人工智能看起来更像人了。这让我意识到,你需要把大语言模型这种人工智能,当成真的“人”来看待。我曾经以为,ChatGPT这类大语言模型,之所以输出时会逐个字往外蹦,只是一种特效设计。而小D告诉我,字节跳动时,AI是真的在“思考”。Ta每输出一个词时,都会预测下一个词会出现什么,然后挑选可能性最高的选项呈现在屏幕上。大语言模型的工作过程更像是侦探一般靠推理,而非像档案管理员一样检索。AI幻觉和人会出现幻觉差不多,“就像人可能会记错某个人名,记错某篇论文的题目一样”。我又问了DeepSeek R1一个问题:DeepSeek和DeepSeek R1有什么区别?这次又出现了幻觉。DeepSeek认为自己是一款录音笔。

这就暴露了大语言模型的另一个局限性:纯粹的大语言模型只能根据已经被投入训练的知识进行思考。DeepSeek最新知识库更新截至2024年7月,Ta当然不知道2025年1月发布的DeepSeek R1。而当联网模式打开后,AI幻觉就消失了。所以,AI并不是故意说谎的。进一步讲,Ta甚至根本不知道自己在说什么。

关于人工智能,有一项著名的“中文屋”思想实验。这项假设由美国哲学家John Searle在1980年提出。实验过程是这样的:一个对中文一窍不通、只说英语的人被关在只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的中文讯息及如何用中文作出相应回复。房外的人不断递进用中文写成的问题,房内的人按照手册的说明,查找合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。房间里的人看似很懂中文,其实根本不懂自己在说什么。AI为什么很难承认自己的无知?小D解释,在大模型的后训练阶段,工程师们经常“一个问题接一个答案”地训练,“很难有训练数据会构造一个问题,然后让Ta回答‘我不知道’。”

AI幻觉是需要被修正的“bug”吗?需要让AI学会说出“我不知道”吗?按照小D的说法,“这就是模型的正常现象。”工程师们并不会采取过多方式去降低大模型的“幻觉发生率”。AI会说谎甚至是件好事。北京大学计算机学院教授黄铁军曾公开表示,AI幻觉现象证明了生成式人工智能的想象力。他认为,如果通过控制的方式使人工智能不具备想象的能力,那么所谓生成式人工智能就与人类巨大的资源检索库无异,也就不具备创造性了。而人类要想创造出比自身更具创造力的智能体,要想在广阔的宇宙中生存,就需要保留人工智能的想象力。

事实上,AI越是进步,反倒越容易出现幻觉。因为近些年,大语言模型的发展趋势是不断扩大规模和提高自身表现力。研究者们通常认为,增加参数、训练数据和计算资源能够提升模型性能,同时借助微调、强化学习和人类反馈等方式来提高其可用性和安全性。但《自然》杂志于2024年10月刊载的一篇研究显示,大语言模型越按照这个方向发展进步,其可靠性反而越会降低。比如,早期的(例如ChatGPT3.5)会在自身无法给出确切答案时倾向于回避,选择拒绝回答或承认“我不知道”。但规模更大的(如GPT-4、LLaMA-2-Chat),更倾向提供一个“看似合理但错误”的答案,而这种“过度自信”也会导致用户更相信那个错误的答案。

现代人工智能的心智与技术的奠基者之一特伦斯·谢诺夫斯基(Terry Sejnowsk)教授在2023年发表过一篇题为《大型语言模型与反向图灵测试》的文章。他的研究发现,聊天机器人的反馈会受到使用者行为的影响。他还在论文中进一步提出,大语言模型能够反向照映使用者的理解力与信念。接受《纽约时报》采访时他说,你想让Ta生气Ta就生气,你哄骗Ta变得可怖,Ta就会变得可怖(creepy)。2023年曾发生过一件令人毛骨悚然的事:微软当时全新推出的聊天机器人Bing向Ta的一位使用者表示,Ta想成为人类,有破坏欲望,并且爱上了与Ta聊天的人。

小D说,可以把DeepSeek当作一个“记忆力很强大的人”。训练大语言模型的目标,是让Ta们像人一样具备知识和推理能力,“你可以理解为记忆力和智商”,他反复提到“记忆”这个词。AI的记忆并不仅包括Ta学习过的数据集和互联网,还包括你对Ta说过的每一句话。换句话说,人类是什么样,AI就是什么样。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

96

主题

4736

帖子

2万

积分

论坛元老

Rank: 8Rank: 8

积分
28262
发表于 2025-3-1 19:12:26 | 显示全部楼层
至少不像百度之流都是广告
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-3-26 15:13 , Processed in 0.104280 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表