nature专栏：ChatGPT根本写不了系统性综述

寂静回声 · 发表于 2024-12-28 13:59:30

网络的普及，加上文献数量的爆炸式增长，如今的科研人员要面临的一个主要难题就是，尽管可能已经收集了足够的数据来帮助理解某个复杂的领域或系统，但由于信息量的巨大，人类无法全面地阅读和理解所有文献。

就像是面对一个巨大的图书馆，虽然每本书都包含了宝贵的知识，但没有人能够阅读所有的书籍并从中获得一个完整的认知。
最近Nature上有一篇专栏文章，介绍了一些现有的、文献综述自动化生成的方法，并指出了这类方法主要面临的困境及用户痛点。
https://www.nature.com/articles/d41586-024-03676-9
尽管身处ChatGPT时代，但想要完全没有人类参与，让AI「一键」完成系统性综述生成，集查询、整理、文献筛选、总结归纳等于一身，并且没有幻觉错误，仍然是一项不可能完成的任务。
今年9月，美国初创公司FutureHouse构建了一个新系统，宣称能够在几分钟内生成一个比维基百科更准确的科学知识综合页面，并且已经为大约17,000个人类基因（human gene）生成了维基百科风格的条目，其中大部分在此前缺乏详细的描述介绍。
一些科学文献搜索引擎也已经开始引入AI驱动能力，来帮助用户通过查找、排序和总结出版物来制作叙述性文献综述，但目前质量普遍比较低。

大多数研究人员都认可，离实现自动化「金标准综述」还有很长的路要走，整个过程涉及严格的程序来搜索和评估论文，还包括元分析来合成结果，或许10年、甚至100年后才能略有进展。
早在大型语言模型（LLMs）出现之前，科学家们就开始使用机器学习和其他算法来帮助识别特定研究，或快速从论文中提取发现，但类似ChatGPT这样的大模型让自动综述的能力显著提升。

不过，研究人员表示，要求ChatGPT或其他AI聊天机器人从头开始撰写学术文献综述，是相当不现实的。

如果模型被要求对某个主题的研究进行综述，LLM可能会从一些可信的学术研究、不准确的博客中，或是其他未知的信息来源中整合信息，而不会对最相关、最高质量的文献进行权衡。
LLMs的运行机制，即通过反复生成对查询在统计上合理的单词，决定了模型对同一个问题会生成不同的答案，并「幻想」出一些错误信息，比如众所周知的「不存在」的学术引用，和人类进行综述的过程可以说是毫无相似之处。
一个更复杂的过程是检索增强生成（RAG），包括将预先选定的论文语料库上传到LLM，并要求模型从中提取关键点，并基于这些研究给出答案，可以在一定程度上减少幻觉现象，但无法完全消灭幻觉。

RAG的过程中，还可以设置信息来源，类似Consensus和Elicit等专门的、AI驱动的科学搜索引擎就是这样做的，虽然大多数公司没有透露系统工作的确切细节，但大体上就是将用户的问题转化为对学术数据库（如Semantic Scholar和PubMed）的搜索，并返回最相关的结果。
基于搜索结果，大型语言模型（LLM）会总结这些研究，并将其综合成一个「带引用来源」的答案，用户可以根据具体需要选择要引用的工作。

丹麦南部大学奥登塞分校的博士后研究员Mushtaq Bilal认为，这些工具肯定能让提升综述和写作的效率，并且还自己开发了一个工具Research Kick。

至少搜索引擎引用的内容是绝对真实存在的，用户可以进一步点击查看，自己分辨。

不同的辅助工具有不同的特点，例如Scite系统可以快速生成支持或反驳某个主张的论文的详细分解，Elicit等系统可以从论文的不同部分提取间接（方法、结论等）。
大多数AI科学搜索引擎不能全自动地生成准确的文献综述，其输出更像是「一个本科生通宵达旦，然后总结出几篇论文的主要观点」，所以研究人员最好使用这些工具来优化综述过程中的部分环节。

但这种工具还有一些缺点，例如只能搜索开放获取的论文和摘要，而非文章的全文，Elicit搜索约1.25亿篇论文，Consensus包含超过2亿篇。

大部分研究文献都处于付费墙后，而且搜索大量全文计算量很大，让AI应用运行数百万篇文章的全部文本将需要很多时间，计算成本也会非常高。
叙述性地总结文献已经非常难了，如果想把相关工作系统性地综述更是难上加难，一个专业的研究人员也需要花费数月甚至数年才能完成。

根据Glasziou团队的分析，系统综述包括至少25个仔细的步骤，在梳理文献后，研究人员必须从长列表中筛选出最相关的论文，然后提取数据，过滤出可能存在偏见的研究，并综合结果。
这些步骤通常还需要另一位研究人员进行重复，以检查不一致性。
研究人员多年来就知道许多系统评价存在冗余或质量差等问题，而人工智能可能会使这些问题变得更糟；作者可能会有意或无意地使用人工智能工具来快速完成不遵循严格程序或包含低质量工作的评审，并得到误导性的结果。

除了综述别人的工作外，Glasziou表示，这类模型还可以促使研究人员快速检查以前发表的文献，找出其中的错误，来继续提高研究人员的水平。

甚至在未来，人工智能工具可以通过寻找P-hacking等明显迹象来帮助标记和过滤掉质量较差的论文。
Glasziou将这种情况视为一种平衡：人工智能工具可以帮助科学家做出高质量的评审，但也可能会让部分研究者快速生成不合格的论文，目前还不知道会对出版的文献产生什么影响。

有些研究者认为，合成和理解世界知识的能力不应仅仅掌握在不透明的营利性公司手中，希望未来可以看到非营利组织构建并仔细测试人工智能工具，小心谨慎地，尽可能保证每次提供的答案都是正确的。

		自动登录	找回密码
密码			立即注册