机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 84|回复: 3

生成式AI摧毁学术会议

[复制链接]

2万

主题

3万

帖子

19万

积分

超级版主

Rank: 8Rank: 8

积分
199916
发表于 昨天 09:44 | 显示全部楼层 |阅读模式
这绝不是耸人听闻,表面上看,正如山庄里有些人认为生成式AI,干不了复杂的活,干点简单的活总可以了吧。问题出在不是生成式ai干的活是复杂还是简单,而是它的经常性AI幻觉。这就好比一堆真话中掺杂了一句假话,能分辨得出来吗。




最近一段时间,对于 ICLR 2026 来说,真可谓是一波未平、一波又起。先是第三方机构对审稿意见的系统性统计发现,其中有 21% 完全由 AI 生成;后有 OpenReview 评审大开盒,波及到了 ICLR 2026 超过 10000 篇投稿。
今天,ICLR 2026 的审稿又被揭开一块遮羞布。事情是这样的:AI 生成内容检测平台 GPTZero 扫描了 300 篇投稿论文,发现其中有 50 篇在论文引用上至少包含一处明显的幻觉内容。


甚至有些幻觉引用还非常离谱,达到了匪夷所思的程度,就好像投稿者完全不检查一样。比如 GPTZero CTO 和联创 Alex Cui 在 X 分享的这个例子,投稿者给出的引用链接竟然是默认示例链接 example.com !
而有的例子中,作者名单就只是一串大写字母。

更令人担忧的是,这些存在幻觉内容的投稿已经经过了 3-5 名领域专家的同行评审,但他们中的绝大多数都未能识别出这些虚假的引用。
这意味着,如果这些投稿没有其他外部干预,就可能会被 ICLR 会议接收。部分投稿的平均分甚至达到了 8/10,这几乎可以确保它们被录用。

在实操过程中,GPTZero 列出了每篇论文中由检测工具标记、并由人工核实的具体幻觉示例。比如这样两篇论文,第一篇(TamperTok)的一篇引用论文确实存在,但所有作者都错了;第二篇(MixtureVitae)的一篇引用论文的前 3 位作者信息正确,而后七位作者不在论文中甚至是虚构出来的。
甚至还有「不存在的论文引用」。


存在幻觉的地方还包括:
作者和会议信息与引用论文相符,但标题略有不同,年份也有误;
arXiv ID 是真实的,但引用论文的作者和标题都不同;
引用论文存在,但是作者和页码都是错误的;
能找到与 URL 对应的引用论文,但作者不匹配。
GPTZero 表示,根据 ICLR 的编辑政策,即使只有一处明确的幻觉内容,也构成伦理违规,可能导致论文被拒稿。「我们目前只扫描了 2 万篇投稿中的 300 篇,我们预计在未来几天内将发现数百篇包含幻觉内容的论文。」



GPTZero 表示:「学期刊和学术会议正被生成式 AI、论文工厂(paper mills)和发表压力引发的投稿狂潮压垮。」
据统计,2016 年至 2024 年间,每年发表的科学文章数量激增了 48%,与此同时,撤稿和其他学术丑闻也层出不穷。许多科学会议和期刊都在苦于寻找合格的同行评审员,而评审员们则因日益增加的时间需求而感到「不堪重负」。
像 ICLR 这样的学术会议也面临着巨大的压力。ICLR 是全球最重要的人工智能研究人员年度盛会之一,然而最近许多会议投稿和同行评审都显示出 AI 撰写的迹象。这些迹象从行文冗长、滥用列举项,到伪造数据和「幻觉」,不一而足。


点评
所以我说AI是个傻逼,就是这个意思,因为它根本不知道自己在输出什么内容。或者说即使内容有幻觉,AI也不是故意生成的,因为它就是一个生成文字组合概率,它没有自我,但是这就坑了作者。有的作者用ai辅助写作,并不是想造假,就是真心想让ai干点简单的活,结果直接把自己给坑死了。


GPTZero 提议由人工来判断一条有缺陷的引用究竟是 AI 生成的,还是传统错误的产物。
虽然界限可能很模糊,但他们将「幻觉」定义为:使用生成式 AI 产生的引用,这些引用似乎是对一个或多个真实来源的标题、作者和/或元数据进行了改写或拼凑。


同行评审是学术出版的重要组成部分,但目前的体系让评审员和编辑们有些难以招架。

GPTZero 的幻觉检测为同行评审流程提供了两个关键益处。
将幻觉检测与 GPTZero 的 AI 检测器结合使用,允许用户同时检查 AI 生成的文本和可疑引用,甚至利用其中一个结果来验证另一个。
通过识别有缺陷的引用供人工审查,幻觉检测大大减少了验证文档来源所需的时间和人力。
GPTZero 表示:「我们希望,在 50 篇 ICLR 投稿中识别出这 50 个幻觉,能向那些面对投稿狂潮的人们展示幻觉检测的价值。我们的目标是让同行评审过程对每个人都更快、更公平、更透明。」


如果在 AI 领域的顶级殿堂里,连基本的真实性都需要依靠另一款 AI 工具来艰难维系,这无疑是一种巨大的讽刺。

ICLR 的遭遇并非孤例,它是当下学术界大炼模型与发表压力双重挤压下的必然产物。
当生成一篇看似专业的论文只需要几秒钟,而验证它的真伪却需要耗费数小时,这种不对称的对抗正在击穿同行评审的防线。那些高达 8 分的幻觉论文,就像是潜伏在学术共同体中的特洛伊木马,嘲笑着现有的评价体系。
GPTZero 的检测结果是一个警告,也是一个契机。它提醒我们,在拥抱 AI 带来的效率红利时,必须建立起与之匹配的数字安检机制。否则,未来的学术会议可能不再是思想碰撞的火花,而变成了一场 AI 生成内容(AIGC)的自我狂欢。



参考链接:
https://gptzero.me/news/iclr-2026/
https://x.com/yaroslavvb/status/1997748956210868641
https://x.com/slashML/status/1997719788160954547
https://x.com/alexcdot/status/1997152905980268750​​​​


回复

使用道具 举报

0

主题

170

帖子

1014

积分

金牌会员

Rank: 6Rank: 6

积分
1014
QQ
发表于 昨天 09:55 | 显示全部楼层
去年写论文确实发现这样的问题,我写好后输入DK然后让他给找参考文献,后面到知网上一核实,根本就没有这个论文,作者之类的也对不上,特别是毕业论文学术论文之类一定要核实,如果是搞职称之类的也无所谓
百亩庭中半是苔,桃花净尽菜花开;种桃道士归何处,前度刘郎今又来.
回复 支持 反对

使用道具 举报

0

主题

170

帖子

1014

积分

金牌会员

Rank: 6Rank: 6

积分
1014
QQ
发表于 昨天 09:57 | 显示全部楼层
补充一下,机械设计手册的作者是乱写的才引起注意去知网核实
百亩庭中半是苔,桃花净尽菜花开;种桃道士归何处,前度刘郎今又来.
回复 支持 反对

使用道具 举报

23

主题

695

帖子

1万

积分

论坛元老

Rank: 8Rank: 8

积分
14333
发表于 昨天 10:59 | 显示全部楼层
未来可能就是这样,既然是人工智能,人有好人坏人,AI也有好AI坏AI
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-12-12 15:27 , Processed in 0.387769 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表