合成数据递归下大模型的坍缩

寂静回声 · 发表于前天 17:03

过去十年，AI大模型之所以能大力出奇迹，是依托于互联网上几十年来全人类积累的、充满粗糙生命力的高质量原始语料，比如百科、学术文献、甚至论坛里人类互喷的黑话。到了今天，大模型研发最尴尬的现状是：人类攒了几千年的高质量语料，已经被这几年的 Scaling Laws 翻来覆去吃了个干净。高质量的原始数据很快成了稀缺资源。为了让模型性能继续提升，研发者们不得不尝试一件以前觉得荒唐的事，用 AI 生成的数据，去喂养下一代 AI。

在 AI 还没这么火之前，合成数据（Synthetic Data）在业界其实早就扮演起了高级数字替身的角色。
它的本质是统计学中的分布采样。最早，它是为了解决那些想用数据却不敢用或根本没数据的尴尬场景，在医疗与金融领域尤其突显：银行和医院想训练算法，但原始数据涉及用户隐私，无法直接用患者的数据训练模型。于是统计学家用借助生成对抗网络（GANs）或变分自编码器（VAEs）捕捉原始数据的协方差矩阵和边际分布，生成一套在统计学特性上几乎真假难辨的模拟数据。

GAN的核心是对抗训练，生成器从噪声中伪造数据，再让判别器不断分辨真假，二者反复博弈直到生成器能完美模仿真实分布；VAE则是通过编码器将数据压缩到 latent space，再由解码器生成新样本，强调概率建模。两者都能在不泄露具体隐私的前提下，保留数据的统计学骨架（均值、方差、相关性等都与真实数据一致）。
类似地，合成数据在自动驾驶与机器人领域也早已大显身手。你不可能为了训练避障让真车实打实撞一万次墙，于是工程师在CARLA、Unreal Engine等模拟器中生成海量合成数据，先在虚拟世界完成训练，再通过Sim-to-Real路径迁移到现实。在计算机视觉任务中，合成数据还常被用于数据增强，帮助平衡那些样本极少的罕见类别（如罕见病症图像）。

随着大模型时代的到来，合成数据的角色发生了质的飞跃。它不再仅仅是原始数据的统计模拟，而是摇身一变，成了一种逻辑蒸馏的燃料。
最早吃到甜头的是微软。2023年，他们让GPT-4这样的顶级模型生成干净、逻辑严密的合成教材，然后拿去训练Phi系列小模型。结果意外地发现，这些吃精粮的小模型表现竟然全面反超了那些靠互联网脏数据长大的大模型。他们因此喊出了那句后来广为流传的口号：Textbooks Are All You Need！

事实上，合成数据已在AI多领域大放异彩：
指令微调中，Self-Instruct方法让模型自我生成高质量指令-响应对，催生了Alpaca等高效小模型；
在代码推理，合成问题+逐步思考（CoT）轨迹显著提升了o1-like模型的链式推理能力；
多模态AI中，合成图像+精准标注用于训练视觉-语言模型（如CLIP变体）；
强化学习与机器人中，合成轨迹数据加速了策略优化，避免了真实世界的高昂试错成本国。
这一连串成功仿佛印证了一种妄念：
只要算力足够，数据不再是瓶颈。合成数据又便宜、又干净、还能无限量供应，那为什么还要继续翻那些充满口水话和逻辑漏洞的，比如现在的机械社区呢？

然而，这种数字兴奋剂带来的短期红利，很快就招致了统计学意义上的反噬。

2024 年，牛津与剑桥团队在《Nature》上发表了一项重磅实验，击碎了把合成数据当永动机的幻想。研究者做了一个递归实验：先用真实人类数据训练出第 0 代模型，然后让它生成合成数据，再去训练下一代，以此类推。
他们特意选取了一个知识边界清晰的主题：英国中世纪教堂建筑，作为测试案例，以观察递归的内容的逐代变化过程。
第 0 代：逻辑严密，能准确描述石材、拱顶和建筑风格。
第 5 代：语义边界开始模糊。开始把教堂的石材和周围的自然风景搞混，描述变得模棱两可。
第 9 代：开始整页整页地重复一段毫无意义的乱码：“长耳大野兔（Jackrabbits）有黑色、白色的毛发……野兔的尾巴……”
真正的逻辑熔断发生在第 9 代，此时模型已经彻底放弃了关于建筑的讨论，转而开始整页重复一段关于长耳大野兔毛色的乱码。

这种崩溃不是缓慢的性能下降，而是在某个临界点突然发生的模式坍缩。

在递归过程中，模型在每一代演进中都会丢失一点真实世界的复杂性，最终因为这种智力层面的近亲繁殖，彻底陷入了自我重复的癫狂。
这种现象被戏称为哈布斯堡 AI（Habsburg AI），正如历史上那个因近亲繁殖导致下巴畸形、家族绝嗣的欧洲皇室，当模型试图在影子的影子里寻找规律时，原本人类语料中那些充满起伏的噪声，那些细腻的比喻、生僻的文化符号以及独特的表达，被层层叠加的概率均值无情抹除。直到某个微小的随机误差在递归中被不断放大，整个概率分布最终滑向一个极窄的死胡同里，也就是那段关于野兔的废话。

这种崩溃并非偶然，而是合成数据递归训练的必然结果，它的根源隐藏在数据分布的逐步坍缩之中。

AI大模型本质上是一个概率拟合机。当它在拟合人类数据分布时，为了最小化经验风险，总是优先倾向于捕捉那些高频出现的平均模式，而丢弃那些低频的长尾分布，也就是那些罕见表达、独特的比喻、甚至是一些口误。
在单次生成中，这种去噪机制让输出显得更流畅稳健，更符合常识。但在多代递归训练中成了致命伤，第一代合成数据可能只是抹除了人类语言中的瑕疵，到了第二代，第三代…… 每一代都在上一代的基础上继续趋于平庸化。

从核密度估计（KDE）的视角来看，每一次用近似分布去拟合上一个分布，尾部概率都会被进一步削平，这种对尾部的系统性低估像雪球般不断累积，最终驱使整个数据分布的方差坍缩，分布越来越集中在均值附近，误差棒逐渐收敛，直至长尾彻底消失。
大模型就像一个患有数字洁癖的怪物，极度厌恶人类数据里的粗糙与不确定性，一心想要提纯出一套完美规律，结果反而亲手扼杀了智能赖以生存的多样性。
这一递归过程可被精确建模为离散时间马尔可夫链在token序列状态空间上的演化，由于每一代合成数据都在系统性地压缩分布的支撑集，生成分布的香农熵持续单调下降，最终概率质量不可逆地收敛至一个或少数几个吸收态。一旦落入这些吸收态，模型便彻底丧失进一步演化的可能性，只能永久锁定在高度重复的固定模式中。就像那只实验中反复出现的“长耳大野兔”，成为系统抵达这一数学终点的必然体现。
这也揭示了，过度的一致性正是退化的序幕。如果一个系统只允许最正确的信号存在，那么它最终只能通向虚无。（这句话蛮适合当下的中国）

参考资料：
[1] Shumailov (2024). AI models collapse when trained on recursively generated data.
[2] Gunasekar, S. et al. (2023). Textbooks are all you need. arXiv:2306.11644.
[3] Goodfellow, I. et al. (2014). NeurIPS 2014. Generative adversarial nets. 2
[4] Gerstgrasser, M. et al. (2024). Is model collapse inevitable? Breaking the curse of recursion by accumulating real and synthetic data. arXiv:2404.01413.

		自动登录	找回密码
密码			立即注册

合成数据递归下大模型的坍缩

浏览过的版块