大模型90%的功能都很鸡肋

寂静回声 发表于 2024-10-21 13:33:14

在国内大厂卷了一年后，大模型的概念炒作阶段已经过去，随着AI升级后的效果显现，人们对大模型技术逐渐祛魅，大佬们开始思考，AI的机会到底在哪。
尤其近期有媒体报道，被称为“AI六小虎”的6家中国大模型独角兽（智谱、零一万物、MiniMax、百川智能、月之暗面、阶跃星辰）中，已经有两家逐步放弃预训练模型，业务重心转向AI应用，但产品端并没有见多大动作。
李彦宏也冷静了下来，他开始思考大模型的能力如何在业务和场景中应用。“简单机械地往产品中集成大模型的能力，意义不大，纯属过度焦虑。”回望去年他曾发表过的言论，今年的这句话似乎有些反转，但停下来思考技术如何服务于业务场景，确实是回到了正确的道路。
如果我们把AI产品分为两类，一类是AI native的产品，像豆包、通义千问、文心一言这类纯AI的对话类产品，这类产品如今已有了千万级用户量级的产品诞生，但和移动互联网时代的微信QQ 10亿+的用户量级还差得很远，留存率也是一个非常大的问题。
最近新出的支小宝，就是这类产品的典型代表，它刚出现时让不少人眼前一亮，用AI提升服务的质量的想法也很好。但细究整个操作路径，改善有限。它本应该帮助人节省时间，提高效率，但支小宝有些能力反而拉长了原来支付宝的使用链路。
举例，如果一个用户想坐公交，需要刷公交码，那他可以用手机的NFC直接刷码上车，不需要打开任何App就完成了这个操作。即便是没有NFC，也可以把交通码直接放在桌面，一键点开，耗费时长不到2s。但如果我用支小宝坐公交，我需要把APP打开，点开对话，再输入指令“我要坐公交”，等待2-3s加载出来，这个过程至少需要5s以上。
其次，从支小宝的AI能力上来看，大部分功能并未发挥出 AI 的能力，只要跳出产品定义好的指令模板提问，支小宝很快就会出现难以识别用户意图，回答无意义或瞎答的情况。现在大部分的功能看起来是通过产品侧，定义某个问题的回答模板，然后调用之前支付宝已支持的接口。
拿【查下我的社保】来举例，其实就是把原来支付宝社保小程序那个接口调了过来，然后app自动读取了你支付宝的个人信息，通过你的个人信息决定调哪个城市的小程序，如果是北京就会调【京通】，然后你就能在支小宝里进入这个小程序了。这个和你在支付宝里搜【社保】显示的内容没有任何区别，这里到底哪里用到了AI能力，好像也没有用到。
生活领域，头部电商APP也在努力寻找AI的落地场景。淘宝在去年九月就上线了智能助手【淘宝问问】，但目前我只在搜索栏找到了它的入口，目前主打的功能是辅助用户购物决策，这的确是一个很好的切入点，但目前给的建议很空泛，对用户几乎产生不了价值。
例如，我提了一个“推荐几款冲锋衣”的问题，小淘给我推荐了几个冲锋衣品牌的特点，想看具体的还得点击跳转。后面缀了一个千元以内的冲锋衣排行榜的卡片，但这并不是我想要的价位。说明AI还不能根据用户的消费习惯特征进行推荐，这一点不如直接在淘宝的页面搜索关键词再做筛选，还能更直观地看到详情图和价格。
同为电商领域扛把子的京东也在疯狂找AI购物助手的应用场景，和淘宝问问的定位很像，京东京言1.0同样也在帮用户做购物决策，它通过和用户对话的方式推荐商品，同时可以让AI划重点总结评论。
体验下来，发现京东京言的多轮对话理解能力较差，比如说推荐鼠标垫，中间插了一句无关紧要的话，再回去点我想要的鼠标垫款式，再推荐就变成了T裇。
同样让我觉得对用户产生不了价值的还有AI划重点功能，基本只能对好评进行总结，众所周知，电商的好评大多是被刷出来的，这种被滤镜过的内容生成AI评价，属于人为地让AI『报喜不报忧』，看了之后对用户没有任何意义。
无独有偶，用AI对评价进行总结的能力在饿了么也曾上线过，但是目前这个 APP 的AI入口都难以寻觅，据说之前上线过又很快下线了，原因可能是产品经理们也发现了，这一功能不仅碍眼，还对用户产生不了价值，并且还要浪费调用大模型的费用。
未来，或许这一功能可以迭代成让AI能识别真实的评价和刷单的评价，并对用户评价做出更加客观的总结和统计分析，差评好评都用更加多维和量化的方式展现出来，还能追溯到原评价的内容，做个完全公正的第三方AI，但这样一来，亮出差评又有可能会伤害商家的利益，这确实是一个很难权衡的问题。
再说说国内Top1的旅游类产品，在首页悬浮球上线了一个“携程问道”，它能帮助用户做旅行规划，也能推荐一些景点，但说实话，携程问道生成的干巴巴文字，并且你不知道它基于什么维度推荐。所以，或者直接去看携程的口碑榜和社区版块UGC发布的内容，现在携程问道给我的感觉是，很像搜索，但又没有搜索好用。
吐槽了那么多，并不是觉得现有的移动互联网app都不适合做AI，而是因为在已有的成熟移动互联网应用中嵌入AI能力，指望AI能为应用带来指数级的增长，这对目前的大模型能力来说，还有很长的路要走。
一个好的产品，首先应该解决用户的痛点，我们现在处在AI风口的时代，同时也是移动互联网的末期，这个时代有个特点，用户的痛点基本上都被挖掘完了，每当你发现一个用户可能存在的某个痛点时，你就会发现市面上早就有对应的产品在做这件事了，很难挖掘到某个用户没被解决的需求。所以，通过挖掘用户痛点，寄希望用AI来满足用户未被满足的需求，就成为一件非常困难的事情。
不可否认，的确有一些AI native产品找到了用户的痛点，并且完成了市场落地。这些产品大多集中在幻觉率容错程度高的场景。月见塔罗这类小众的AI占卜应用现在都已经落地并且盈利了，其实本质上就是结合用户的提问和塔罗牌的牌面检索知识库，并生成答案的过程，真人塔罗占卜得到的答案本身就模棱两可，所以即便是AI说错了答案，用户的感知也会非常非常低
例如虚拟女友，也是AI应用中最早落地的，这是因为在聊天的场景中，用户允许不完美的回应，在聊天的过程中往往更注重情感上的陪伴和互动，而不是追求绝对正确的答案，因此会对虚拟女友的一些小错误或不完美之处更加包容。
这些产品发现了用户的痛点——AI玄学产品，满足了用户对24h随时占卜、价格又便宜的需求；AI聊天类产品，满足了下沉市场里那些有情感陪伴需求的用户。但这些需求只是一小部分人群需要的，看起来并不是大众普遍存在的一些痛点，因此也很难落地成为现象级的应用。

幻觉率是大模型几乎永远无法避免的问题。因为训练AI的数据集不可能是完美的，存在着知识上的错误或某些内容的缺失，遇到未涵盖的情况时，AI就会编出一个答案，让你觉得煞有其事，但仔细考究就会漏洞百出。
生成式AI的本质是是对已有的数据和知识进行向量化的归纳，总结出下一个字符出现的概率。就连苹果也发文质疑——目前最先进的GPTo1根本不具备真正的逻辑推理能力，而是基于训练数据中的模式进行匹配，而非像人类一样进行符号和逻辑推导。
有人发现，此前测试回答正确的问题，只要改动一个小数据，答案大概率就会出现偏差。
在一些严肃场景中，我们发现AI落地成功的产品寥寥无几。为什么？因为严肃的场景不允许出现错误。
比如在销售服务客户的场景，设想如果AI来替代销售服务客户的话，一是很难对客户的一些情绪做出回应，二是AI总是倾向于“讨好”用户，如果AI给出了一个错误的成交价，这个错误到底应该归结于谁？假使企业宣布AI说的不算话，那又会导致越来越多的用户不愿意相信AI，依然会直接转接人工客服。
被寄予厚望的AI客服，虽然能给业务带来销量的提升，但却使得客户的满意度降低了，有用户评论：“作为消费者每次遇到AI客服真的就是怒火中烧，人工客服永远排不上。”
再比如在出行的场景，AI在某天告诉用户的预计起飞时间错了，导致用户错误地决定退票，这将给业务带来多大的损失。
比如百度的AI搜索，李彦宏声称AI搜索的结果永远不放广告，用户对百度上线AI搜索功能后评价却褒贬不一，有人说搜索的效率显著提升，有人则认为AI生成的内容不仅慢还“驴头不对马嘴”。
从百度近期的财报上看，目前AI搜索不仅对业务营收贡献甚微，还影响了百度的广告变现率，对传统的搜索业务带来了冲击。

大厂难做AI，小公司更难。因为大模型需要的算力成本太高，小公司无法承担得起。
如果是一家小型的创业公司，想要让LLM实现在严肃场景下的准确回答，就需要提供大量的优质数据集来训练模型，大量的人工来进行数据标注，那就要面临着GPU算力、部署算法、大模型成本、人力成本相关的问题，这需要非常高昂的成本。
要不要免费开放给用户使用，又是一个让产品经理纠结的问题。如果免费，那就意味着用户量级一旦增加，会面临着高昂的成本，而目前AI产品又没有找到合适的商业化方式；如果收费，那就意味着产品的竞争力会变弱，一些本就需求不旺盛的用户依然会选择保持原有的习惯。
为什么AI从出现到现在，两年半的时间，还没有出现一个杀手级的应用？就连有强大算力、有密集人才、愿意投入资金做AI的大厂，诸如字节、阿里、京东这类公司也难以让AI成功赋能现有的业务？
一是因为AI的使用门槛太高，它对于提问者的要求很高，而大多数人不会提问。就像Perplexity AI 的CEO在访谈中说的“我们最大的障碍不是Google，而是人们天生不会提问。” 没有高质量的输入就不会有高质量的输出，这就是为什么需要有AI提示词工程，因为在不同水平的提示词下，大模型的水平差异确实会非常大。
就拿某公司做的智能助手来说，后台看到的用户提问大多是一些口语化的短句，有人甚至连问题都无法描述清楚，指望用几个模糊不清的词让模型去理解，说实话一个硕士毕业的文科生都很难理解他的意图，大模型在意图理解能力上更弱了，它经常识别错误用户的意图，路由错了，就会出现答非所问的情况。
二是目前AI还处在初期阶段，复杂问题的处理还难解决。虽然在Coze上的智能体百花齐放，但这可能需要时间落地产业，就像是互联网的初期个人建站曾掀起大浪，成为大厂却都需要10年以上的时间。
现在有一个阅读类的智能体，主要功能是用户提供书名，它提供书籍的核心内容和背景资料，使用人数达到了46万。
现在市场共识，智能体是提升AI能力的捷径，通过Agent实现复杂问题的拆解处理。很多大厂产品经理，确实在探索智能体解决目前的问题，当然，智能体的工作流如何发挥最大效果，还需要时间探索。
以上两种方案是以发展的眼光解决问题，目前AI已经落地的业务就两种：
第一种是AI+写作/图像， AI的确可以帮助创作者几秒生成一篇文章或者一个图像，一些创作者通过生成百次以上获得满意的作品，生成完之后还需要对一些细节问题进行二次加工。
不可否认的是，如果一个会提问的作者用上AI，在信息搜集、内容整理、文章润色上的效率会翻倍。这一点的确赋能了无数自媒体创作者，有人成功做出来了百万粉丝的账号，有人运用AI洗稿一个人批量运营了上百个账号。
图像领域借助AI，很多传统产品也取得了效果，美图付费订阅用户数超1081万，同比增长50.1%，付费渗透率约为4.2%。美图负责人吴欣鸿表示：“目前美图产品的AI含量已经达到87%以上。”虽然开创性AI技术少，但美图确实利用开源尝到了AI红利。
第二种就是AI+ChatBot，除了我们熟知的豆包、文心一言、通义千问这类产品，AI情感陪伴类产品也出现了大规模的增长，一些产品如星野、叨叨、Character AI 等一些含有擦边的虚拟女友类产品已完成了商业落地。
在一些严肃场景下，也有一些面向C端用户的AI产品，只是目前还不成熟。例如Chat Law 能提供基础的法律咨询，完成简单的法律专业文书写作，医联能给人们线上问诊，多邻国的教育大模型能提供语言陪练、学习内容规划等，蚂蚁的蚂小财，能提供最新的财报资讯解读，还能分析某个基金的走势。
严肃场景下的垂直大模型通过增量预训练，注入该领域的专业知识，并进行指令微调，再运用 RAG（检索增强生成）来解决大模型在检索和生成能力上的不足，它能够让大模型从外部知识中快速找到与问题相关的信息，然后将这些信息重新整合到现有的答案中，使答案更加丰富具体、符合要求。
但这些场景下的垂直大模型能力尚且不够，距离能产品化还有很大的距离，还有很多的corner case没有解决，例如如何拒识领域外的问题，如何避免领域外的问题大模型出现“幻觉”的情况。

页: [1]

机械荟萃山庄's Archiver

大模型90%的功能都很鸡肋