寂静回声 发表于 6 天前

实测国产大模型Kimi探索版

作者:新识研究所

国内大模型厂商们,最近都在迭代新玩意。
而相关进展大多都集中于多模态领域,其中,自年初Sora发布之后,国产文生视频大模型的进度一直受到关注。8月底,MiniMax公布了首个AI高清视频生成模型。在接下来的9月,豆包直接发布了两款视频生成大模型,并且得到了灰测用户的一致好评。而科大讯飞也宣布将于本月首次发布多模态视觉交互及超拟人虚拟人交互能力......还有刚刚面世的Kimi探索版。
作为在一定程度上想要对标OpenAI拥有“推理时计算”能力 o1 的国内产品,据官方介绍,Kimi探索版可以模拟人类的推理思考全过程、执行深度搜索并反思改进结果,来提供更加全面和准确的答案。

而Kimi 探索版产品负责人甚至“夸下海口”——“如果Kimi搜不到的信息,那大概率用户也很难自己通过传统搜索引擎找到。”
那么,Kimi探索版同当前国内的其他大模型应用在技术上有什么区别?在实测中的表现是否会像负责人说的那样强大?又会对国内的AI搜索与大模型发展方向造成什么样的影响呢?
先看官方给出的定义,Kimi探索版是一个“具备AI自主搜索能力,可以模拟人类的推理思考过程,多级分解复杂问题,执行深度搜索,并即时反思改进结果,提供更全面和准确的答案,帮助你更高效地完成分析调研等复杂任务”的好帮手。
其中“模拟人类的推理思考过程”、“即时反思改进结果”,是不是就和一个月之前OpenAI o1模型“模仿人类系统2思考,在推理时计算更加缓慢和深入,更能够突破复杂的逻辑性问题”有着异曲同工之妙?
在定义上的几乎相同之外,Kimi官方提到其能实现如此结果所依仗的第一条就是“自主规划策略,步步为营”,具体来看,就是Kimi探索版会将复杂问题分解为层次化的子问题,然后分步来执行。
这也同伦敦大学学院(UCL)人工智能中心汪军教授认为o1所采用的马尔可夫决策过程一模一样。
既然有了方向,那就去看看Kimi探索版的表现如何吧。
在勾选Kimi探索版之后,我给出我的问题——“假设我在2024年9月2日有100000元,对比一下截至9月30日,购买腾讯港股和购买贵州茅台哪个方案的收益率更高?具体收益额会高出多少?”
用人的直觉来拆解,其实就是查询腾讯和贵州茅台分别在9月2日和9月30日两个时间的股价,进行收益率比较,并且代入最初的本金计算出具体的收益额。
而Kimi探索版的思考过程也确实如此,将这个问题分为了①查询——查询两个时间点上两只股票的价格②计算——计算各自收益率③结论——给出购买贵州茅台收益率更高的结论,并输出具体高出的收益额有多少。
这个简单的问题其实就体现了Kimi探索版的不同,其会将一个相对复杂的问题进行像人一样的拆分思考,最终给出答案。此外,官方给出的“标注三国战役地点,对应现代城市和地区”的示例问题,也很好地体现了这一点。
据官方表示,就像人一样,Kimi探索版可以借助反思能力,来提升和改进回答的质量。面对开放探索型问题,Kimi 探索版发现第一次回答的信息存在缺失,会主动补充回答更多。面对数字相关的搜索问题,Kimi 了解更多信息后如果发现了数据冲突,则会及时补充提供多方视角的信息供参考决策。
虽然Kimi探索版有着不少的突破,但其也存在不少需要被正视的问题。
其中之一就是官方夸下“自动化大规模信息检索,穷尽海量权威信源”的海口了。在推送中,官方表示“Kimi 探索版则可以一次并行搜索几十个不同的关键词,筛选和阅读几百个权威的信息源”,而一些博主的测试中,也显示Kimi探索版会同时搜索数百个网页的信息。
但是,回到“标注三国战役地点,对应现代城市和地区”这个示例问题上来,有的博主在搜索过程中就会出现阅读134个网页的情况,而我在亲身体验中则只能搜索49个网页的资料,得出的结果也有所不同。那位博主的答案不出所料地比我更加全面。
面对这样的情况,我不禁想发出疑问,同样的问题、不同的检索范围、不同的结果,究竟是技术、所处环境的问题还是算力的问题?毕竟OpenAI的o1计算时的所需成本,可不是一个小数字。
之后官方也对我的疑问进行了回答,表示无论显示的阅读网页数量是多少,相同问题给出的答案都是一样的、没有区别。但这样来说,究竟是我的Kimi探索版谦虚了,还是其他大V博主的Kimi探索版略有不实呢?
而在这个相对来说有些“无关痛痒”的问题外,Kimi探索版还是有着其他大模型无法解决的问题。
在我问及“1到100之间奇数的英文单词有多少个字母‘e’”的问题的时候,虽然Kimi表现出了较强的逻辑性,但在具体的数“e”上却翻了车——以图上红框内的英文数字为例,thirty-one中明明只有一个“e”,但Kimi探索版却给出了错误的回答。
此外,还有之前大模型会出现幻觉和出现错误的问题,Kimi探索版也同样掉进了坑里。其实这也就意味着Kimi只是在“思考”方法上进行了改变,“思考”的能力并没有提升,这或许也是月之暗面将其定义为“搜索版”的主要原因吧。
还记得在不到一年之前,某几家大模型厂商,还在疯狂输出商业合作给各个宣传口,告诉大家“如何调整提示词大模型才能输出给你想要的结果”、“要在调整提示词后和大模型进行多轮对话,一步步引导大模型跟随你的思考路径给出答案”。
而如何解决这个问题,让大家不再被繁琐的提示词困扰,正是这次Kimi探索版的意义所在。
正如官方所说,Kimi探索版希望帮助用户节省花在搜索调研任务上的时间,让大家可以有更多时间专注于提出问题、思考和创造。不过,截至目前每个账号每天只有5次提问机会,想要用作生产力还是有些距离,不过月之暗面也回应了我对未来使用次数是否会增加——“后续根据用户的使用情况会考虑逐步增加,给用户更好的体验”,就让我们一起期待吧。
此外,如果将其当作一个纯搜索引擎的话,Kimi探索版的表现也远远超过国内的主流搜索引擎百度,毕竟现在使用百度是几秒钟得到一大堆垃圾结果,还得在这些垃圾信息寻找有价值的信息。

点评
我也测试了一下,普通提问

然后点了左下角的探索一下按钮

问题是两次回答,完全相反。一个说内表面呈锥形,一个说外表面呈锥形。

“如果一个电机的频率是50Hz,磁极对数是2,那么它的转速就是3000rpm”
计算能力这么差,总不能问一回,就按一下“探索”按钮吧。

这还有脸吹牛B呢。

问的是金属铸造术语的相关国家标准,回答的基本与铸造术语无关的标准,基本可以肯定kimi根本没看懂提问。


在“对于斜齿条而言,哪个模数决定了齿条的几何参数?”这个问题上,使不使用“探索”按钮的结果是一样的。
这就是kimi“思考”的结果吗,“如果Kimi搜不到的信息,那大概率用户也很难自己通过传统搜索引擎找到。”

什么叫狂妄无知啊

页: [1]
查看完整版本: 实测国产大模型Kimi探索版