当下主流的大模型,底层架构几乎清一色采用自回归生成范式,它的特性是单向建模。
单向建模的原理,是从前往后吐出一个个 token,用上一个字预测下一个字,因为只能从左往右的局限,就导致一个严重的缺陷:
这样的大模型,既没有逆向思维,也无法提前看到事物全貌。
科学家很早就意识到这个巨大缺陷。两年前,来自英国前沿人工智能工作组、纽约大学、牛津等机构的研究小组发现:一个训练于「A是B」的语言模型,无法推理出「B是A」。
他们向大模型提问,大模型明明知道「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」,但就是无法答出「Mary Lee Pfeiffer的孩子是汤姆·克鲁斯」。
现象被写成论文发布后,不少研究者们复现实验,并将参数从350M扩展到175B,但「AB逆转」问题依旧无法解决。
大家逐渐意识到,这是自回归范式问题,是底层架构问题。
后来,靠着堆算力、打补丁,引入深思考 Deep Research 模式,这个缺陷被暂时掩盖,各大模型头部厂商还是以日更周更的速度,迭代各种大模型。