人工智能重塑临床试验

寂静回声 · 发表于 2026-3-24 16:35:35

在过去的二十五年里，全球临床试验领域积累了惊人的数据量。

然而，一个悖论始终存在：尽管数据总量巨大，但在针对特定疾病的研究中，如CAR-T这种被称为"活的药物"的癌症治疗手段，单次治疗费用高达数十万美元。2022年时，大多数正在开发这类疗法的公司手里只有不到15名患者的数据。而Medidata的系统里躺着3500名接受过CAR-T治疗患者的完整数据却无法分享。
这里的矛盾显而易见：最需要数据的公司没有数据，拥有数据的公司基于各种无奈的原因把数据锁在各自的保险柜里。知识产权保护、患者隐私、商业机密，这些正当的理由在客观上减缓了救命药物的开发速度。
在达索系统科学大会上，Medidata 平台AI与数据科学副总裁Jacob Aptekar分享了他们如何用生成式AI破解这个悖论的故事。Jacob深入探讨了机器学习和合成数据如何成为推动临床研究的催化剂。他的团队开发出一种叫"Simulants"(模拟体)的技术，能够创造出几乎完美复制真实患者特征的"虚拟患者"，同时几乎完全消除隐私泄露风险。

传统的观念认为，医生面前摆着临床证据，脑子里装着医学院的训练，然后根据眼前的患者决定治疗方案。但我认为，从机器学习的角度看，我们可以把这个过程拆解得更本质一些。医疗的核心其实是“知识”，也就是临床数据与逻辑模型的结合。
所谓的医学训练，本质上就是一种复杂的模型。我们要理解生理系统是如何相互作用的，分子是如何影响细胞的，以及这些微观变化又是如何在人体这个宏观系统上体现出来的。这就像是人工智能的“训练阶段”，我们构建了一个对世界的理解框架。
有了模型之后，就进入了“推理阶段”。当一个具体的病人坐在你面前时，你需要在特定的背景下应用这些知识。这个背景可能是急诊室，也可能是社区诊所，环境的不同会直接影响你的决策。最后，治疗产生反馈，更新患者的状态，形成一个闭环。

在这个系统图中，知识的更新往往比患者状态的改变要慢得多。而我今天想要聚焦的，正是这个系统的核心——“地面真理”（Ground Truth）。也就是我们如何利用临床试验中收集的、极其严格且高质量的数据，去驱动那些最终决定生死的决策模型。
Medidata在过去25年里所做的，就是构建这个极其庞大的数据仓库。我们拥有EDC（电子数据捕获）系统，它记录了1100万患者的点点滴滴。由于这些数据是基于特定的假设、经过严格的质量控制收集来的，它们具有极高的科学价值，能告诉我们哪种疗法对哪些病人真正有效。

我们要解决的第一个难题是：如何处理那些极其特殊、极具挑战性的治疗场景。五年前，我们开始关注CAR-T细胞疗法。这是一种昂贵的、高度个性化的癌症治疗手段。我们发现，开发这种疗法的公司面临着严重的信息不对称，他们几乎没有人类数据可以参考。
2022年的数据显示，绝大多数处于临床阶段的公司，其拥有的患者数据规模小得可怜。而与此同时，Medidata的系统中其实静静地躺着3500多名CAR-T患者的数据。这本来是一个巨大的资源，但问题在于，这些数据分散在不同的申办方手中，被锁在各自的信息孤岛里。
要把这些数据释放出来，构建一个“虚拟孪生患者”，我们面临着一个集体的行动困境。我们需要让各方达成共识：数据分享必须基于慷慨的精神，但也必须伴随着严格的管理。我们不能草率地分享，必须保护患者的隐私和申办方的知识产权。

于是，生成式AI登场了。我们面临的技术挑战与处理图像完全不同。如果你有几十亿张图片，训练一个生成模型很容易，因为图片数量远超数据的自由度。例如你可以轻松捕捉到人类面部的每一个特征。但临床试验数据却极其小众，且异常“稀疏”。
在典型的临床试验中，可能只有100个患者，但我们收集的数据项却有几千个。这意味着数据的自由度几乎等于样本量。这种情况下，简单的机器学习模型会陷入困境：它无法分辨什么是真实的信号，什么是底层的噪声。
在临床上，一个极端的离群值（Outlier）可能代表了一个极具意义的医学发现，比如某个病人产生了严重的不良反应。如果你用传统的模型去强行平滑数据，你就会丢掉这些珍贵的边缘信号；如果你不做平滑，模型生成的又全是毫无意义的随机噪声。
这就好比你在迷雾中观察群山，你既要看清山峰的轮廓，又不能被飘过的浮云误导。传统的Transformer架构在处理这种极小规模且高维的数据时，往往表现得过于笨拙，它们要么记住了每一个细节（导致隐私泄露），要么就把一切都模糊化了。

为了突破这个困境，我们研发了一种名为“Simulants”的技术。这是一种基于数据增强的引导方法（Bootstrapping）。我们没有简单地去复制数据，因为那只会让噪声变得更刺耳。我们的做法更像是系统工程中的“重组”。
首先，我们将复杂的临床数据拟合到一个低维的“流形”（Manifold）上。你可以把它想象成高维空间里的一张平滑的纸。虽然原始数据点散乱分布，但它们其实遵循着某些内在的生理和医学逻辑，这些点必然会落在某个特定的几何结构上。

接着，我们在流形上寻找“局部邻域”。我们会找到那些在生理特征上非常相似的真实患者，然后通过一种巧妙的数学方式，重新组合他们的特征，在这些真实样本之间的空隙里产生新的“密度”。这就像是在两个已知的音符之间，谱写出一段和谐的过渡旋律。
这种做法其实借鉴了计算机视觉早期的经验，比如经典的AlexNet。那时候为了训练图像识别模型，工程师会对图片进行旋转、翻转和缩放。因为他们知道，无论是正着的脸还是倒着的脸，本质上都是脸。这种几何变换在不改变本质属性的前提下，极大地扩充了训练集。

我们的Simulants算法也是在做类似的事情。我们对临床试验患者进行“生理逻辑内”的变换，生成极其逼真的孪生兄弟姐妹。无论数据是向量形式还是序列形式，这个方法都适用。最终，我们得到了一组全新的、合成的患者数据，它们在统计特性上与真实数据高度一致。
我们在2022年发表的一篇论文中展示了成果。如果你观察生存曲线，你会发现黑色的原始数据线和红色的合成数据线几乎完全重合。从相关性分析、主成分投影到复杂的临床终点预测，合成数据都表现出了极高的保真度，几乎可以乱真。
这种“乱真”不仅仅是看起来像，而是它保留了最关键的医学逻辑。它能准确模拟出患者在接受治疗后的生存概率和疾病进展过程。这就给了我们一种前所未有的力量：我们可以通过模拟无数个“平行宇宙”中的患者，来探索那些在现实中难以进行的实验。

如果只是为了模拟，那还只是数学上的成功。Simulants真正的魔力在于它对隐私保护的突破。在医学界，共享数据最大的阻碍就是：即便你删除了姓名和证件号，通过剩余的几千项生理指标，依然能通过“重识别”技术把具体的人找出来。

我们的实验显示，如果只是简单地进行脱敏处理，数据的隐私流失率依然高达85%。这意味着，一个有心的人通过对比不同的数据库，依然有极高的概率锁定某位特定患者。这也是为什么各大药企对共享数据避之唯恐不及的原因。
但神奇的事情发生了。当我们使用Simulants生成合成数据时，隐私流失的曲线几乎跌到了零点。即便我把整套合成数据交给你，再给你两个真实患者的信息，其中一个参与了训练，一个没参与，你也没办法通过数学手段判断出到底是谁贡献了数据。

这就是数学的魅力。由于合成患者是基于邻域特征重新构建的，他并不对应现实中的任何一个具体个人，但他又完美继承了整个人群的生理规律。这就像是你根据一万个人的特征画出了一张“最美面孔”，这张脸很真实，但它并不属于任何一个真实存在的人。
这样一来，我们就在技术上解决了那个困扰已久的集体行动难题。药企们现在可以放心地把数据拿出来进行联合分析，因为他们的原始数据被安全地保护在数学的面纱之下。我们为虚拟孪生技术生产出了最纯净的“原材料”——那些去除了污染物、却保留了结构的砖块和木材。

有了这些安全的“建筑材料”，我们就可以开始构建宏伟的虚拟临床试验大厦了。以前，数据的获取是按个计算的，极其昂贵且缓慢。现在，我们拥有了一个可以随时产生无限样本的机器。接下来的问题就是：我们该如何向这个系统提问？
我曾被一名分析师问到：生产一个虚拟孪生患者的成本是多少？我的回答是：这取决于你有多大的好奇心，取决于你想问多少个问题。因为一旦模型建立，大规模的模拟和质询就变得极其廉价且高效。我们可以开始大规模地探索不同治疗策略下的可能性。

让我们回到CAR-T疗法的具体案例中。一个典型的患者旅程从癌症复发开始，经历临床入组、单采血浆、细胞制造、回输治疗，再到副作用管理和最终的康复或进展。在这个漫长的链条里，每一个环节都充满了不确定性。
在过去，药企可能只能观察15个真实病人的反应。但现在，我们可以利用Simulants技术产生无数个虚拟患者，去模拟他们在每一个环节的可能表现。我们可以寻找那些能预测最终疗效的基线特征，也可以模拟不同的免疫反应管理策略。

这种灵活性是前所未有的。我们可以观察特定亚群体的细微差异，甚至可以对这些虚拟患者进行在现实中绝不可能进行的“扰动实验”。比如，如果某种细胞制造的参数改变了，会对不同年龄段的患者产生什么后果？这些问题现在都有了答案。
通过与制药公司、CRO（合同研究组织）以及小型生物技术公司的合作，我们将这些AI洞察转化为实际的行动。我们不仅帮助他们加速了患者的招募，更重要的是，我们帮助他们找到了那些真正能从疗法中获益的临床人群，从而显著降低了试验的成本和风险。

不仅如此，我们还与学术界建立了深厚的联盟。在医学领域，工具的价值只有在被使用时才能体现。我们邀请了许多临床科学家和机器学习研究者，利用这些虚拟孪生患者的数据去探索各种有趣的科学假设。这种开放的协作模式，让很多原本埋藏在数据里的新发现得以重见天日。

目前，这些虚拟孪生患者技术已经开始深入到临床试验的操作细节中。比如，我们可以模拟患者的入组进度和依从性，甚至可以用虚拟数据去测试电子数据采集系统的配置是否合理。这就像是在正式演出前，进行了一场极其逼真的全要素模拟排练。
所有的努力最终都指向一个目标：效率。我们已经看到，这种基于证据的模拟已经帮助一些项目缩短了研发周期，开发出了全新的评价终点。在对抗病魔的战争中，每一分每一秒的节省，对于屏幕另一端的患者来说，都可能意味着生存的希望。

展望未来，我们正致力于将Simulants系统与更前沿的大语言模型（LLM）和Transformer架构相耦合。虽然我之前提到了Transformer在稀疏数据上的局限，但随着技术的发展，它们在处理非结构化信息方面展现出了惊人的天赋。
目前的临床数据大多是结构化的表格，但真实的医疗记录中还包含着大量的医生笔记、影像报告等非结构化信息。通过将生成式AI与这些复杂架构结合，我们可以创造出更加立体、更加真实的虚拟患者画像，涵盖从基因组学到生活方式的全方位信息。
当然，我们绝不能低估安全性的重要性。我们正在投入大量精力，让患者能够更清晰地了解和授权自己的数据用途。我们需要构建一套完整的协议，让每一个人都明白，他们的信息是如何在被妥善保护的同时，为全人类的医学进步做出贡献的。
最后，我想强调的是与监管机构的合作。科技的进步必须得到法律和规范的认可。我们正在与各类联盟合作，推动监管机构接受合成数据作为一种合法且有效的临床证据。我们需要证明，这些数学推导出来的洞察，在决策价值上是真实且可靠的。
总结一下，我们的目标是利用AI的力量，把那些沉睡在孤岛里的枯燥数据，转化成能够跳动、能够呼吸、能够提供答案的虚拟生命。这不仅仅是为了做生意，更是为了让更好的疗法能以更快的速度、更低的成本送到那些急需治疗的患者手中。
科学的本质就是不断扩展我们理解世界的边界。通过构建这些复杂的虚拟孪生，我们正在重新定义医学研究的范式。感谢大家今天的聆听，希望我们能一起见证这个由数学和算法编织而成的医疗新时代。谢谢大家！

在传统的医学研究中，人类更像是一个谦卑的观察者。我们站在实验室或病床旁，小心翼翼地收集数据，试图从那一点点可怜的样本中窥探大自然的奥秘。这种方式虽然严谨，但在面对CAR-T这种极端复杂的个性化医疗时，却显得力不从心——数据的稀疏性成了我们智力无法逾越的屏障。
而Medidata所展示的Simulants技术，本质上是工程师思维对传统医学的一次有力回击。它不再执着于“我手里有多少样本”，而是转向思考“我是否理解了这些样本背后的数学流形”。通过在高维空间里进行插值和重组，AI不仅扩充了数据的量，更深层地挖掘了数据的质。

最令人拍案叫绝的，是它对“离群值”的处理。在科学探索中，噪声是敌人，但异常点往往是先知。Jacob团队通过局部邻域的重采样，成功保住了那些具有临床意义的边缘信号，同时又过滤掉了无意义的随机扰动。这种对“信号与噪声”的精准拿捏，体现了极高的科学直觉。
当这种“虚拟孪生”技术与监管体系接轨，我们将迎来一个“计算模拟先于临床实验”的新时代。这不仅是制药成本的降低，更是对患者生命安全的极大尊重。我们不再需要在真实的患者身上进行所有盲目的试错，而是可以在赛博空间里完成千百次的推演。

		自动登录	找回密码
密码			立即注册