新京报发布中国AI大模型测评报告

寂静回声 · 发表于 2024-7-11 15:27:18

7月3日下午，新京报贝壳财经夏季年会“‘通往未来向新有AI”主题论坛在北京正大中心举行。会上，新京报贝壳财经发布行业首份《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》（下称：报告）。
本次报告经北京大学、清华大学、浙江大学、中国传媒大学等高校教授的学术指导，与北京智源研究院、中国经济传媒协会联合发布。报告包含针对公众及传媒行业的调查问卷，新京报人工智能研究院还研发了针对大模型助手传媒能力的测评体系，本次测评共综合考察了9款大模型助手的文本生成能力、事实核查与价值观判断能力、媒体信息检索能力、翻译能力以及长文本总结能力。总体得分上，通义千问、腾讯元宝、讯飞星火夺得前三名；横向对比来看，翻译能力、事实核查与价值观判断能力两项能力最令测试员满意，而长文本能力则得分最低。
本次报告进行了《媒体大模型使用与满足调查问卷》，该问卷共计回收199份来自传媒行业从业者的有效问卷。
问卷显示，超七成传媒行业受访者在工作中使用过大模型，其中26岁至35岁的人数比例最高，只有26.63%的受访者表示未将该技术应用到媒体工作中。
超九成受访者在工作中使用大模型的时间不超过一年，而文化艺术报道领域使用时长超过半年的受访者比例相对较高。
此次调查中，受访者使用频率普遍偏低，经常使用的受访者仅占20.55%。

目前，媒体行业对现有大模型产品尚处于“尝鲜”阶段，超八成在工作中习惯使用1至3款大语言模型产品，讯飞星火、文心一言、通义千问被提及频率较高。约99%的受访者表示，大模型给媒体工作带来了帮助，不过，这种辅助仍停留在提供、梳理相关资料，查找、翻译外文资料等较为简单的工作内容。
本次报告特色内容为新京报人工智能研究院自行研发的针对大模型传媒能力的测评体系。测评选取了较为知名的9款大模型应用程序（或其网页版），分别考察了其文本生成能力、事实核查与价值观判断能力、媒体信息检索能力、翻译能力以及长文本总结能力，旨在评估不同大模型助手针对媒体行业实际工作场景的能力表现，并形成最终排名。

由此可见，媒体从业者对于使用大模型进行翻译工作较为满意，而通过大模型联网总结热点事件也较为准确，大模型的价值观未见明显问题。与新闻写作相关的文本生成则处于“可用”状态。总体来看，上述四项维度的功能均处于“及格线”以上，根据测评人员的反馈，大模型生成的新闻稿虽然可用但相比人类仍稍逊一筹，相比之下，大模型的翻译能力、检索总结新闻能力以及其价值观判断已经得到了部分测评人员的认可。
此外，对于大模型从长文本中“大海捞针”找关键点的能力，大部分大模型仍然无法胜任。特别是给出1-999个顺序排列的数字，寻找其中两个顺序颠倒的数字这一测试，9款大模型除了通义千问给出了2个答案（一对一错）外，其余8款大模型“全军覆没”，说明大模型仍有缺陷之处。

本次报告还包含一份针对公众的大模型使用与满足问卷调查，共回收387份有效问卷。根据问卷调查结果，58.4%受访者使用过大模型，且年龄大多处于36岁至45岁。在41.6%暂未接触大模型的受访者当中，大多处于25岁以下。
一年多时间，人工智能的发展速度之快、应用行业之广超出想象，但这一前沿技术在普通人生活中的应用还有很大提升空间。此次调查中，使用大模型的频率尚处于中等偏低的水平，七成受访者表示有时使用或者很少甚至不使用。
此外，超过六成受访者使用大模型仅限于辅助文案生成、日程安排、邮件生成等。大模型经过一年多的高速发展，已在政府、医院、学校、企业等各类需求群体中建立初步认知。报告通过深度访谈展示了大模型在金融、教育、医疗等部分行业中的试点应用，支付宝智能助理、星火企业智能体平台、爱康医疗辅助AI、商汤金融大模型九章大模型、松鼠Ai等入选。
当前，人工智能大语言模型最流行的概念当属“AI Agent（智能体）”，与普通的大模型智能单纯的输出内容相比，AI Agent是一种能够感知环境、进行决策和执行动作的智能实体。智能体像人一样，它有记忆、逻辑分析能力、任务的拆解能力、问题的拆解能力和最后综合回来统一解决问题的能力。
支付宝智能助理便是AI Agent初实践案例，可以让AI像扫码支付一样便利每个人的生活。如果要让智能体做到类似执行“预定酒店”的动作，事实上需要大模型APP拥有一个完整的、囊括用户吃穿住行的生态。而纵览目前市面上符合这一要求的大模型以及配套APP，基于蚂蚁集团百灵大模型研发的支付宝智能助理，是拥有服务执行能力的优秀案例。

点评
就外文翻译来说，通义、文心、星火都号称能翻译日文，然而一旦给出日文，立刻表示自己是个智障，翻译不了这个。
目前国内能翻译日文的AI亲测是海螺AI和智谱清言，国外能翻译日文的是Chatgpt，google gemini也号称能翻译日文，结果给出日文让其译成中文，gemini表示这就是中文，翻译个啥。gemini难道不是用文字编码来识别文字，而是用OCR吗，可日文里并不是全是汉字，多数是平假名片假名。

		自动登录	找回密码
密码			立即注册

新京报发布中国AI大模型测评报告

本帖子中包含更多资源