机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 46|回复: 0

人工智能重塑临床试验

[复制链接]

2万

主题

3万

帖子

20万

积分

超级版主

Rank: 8Rank: 8

积分
209812
发表于 3 天前 | 显示全部楼层 |阅读模式
在过去的二十五年里,全球临床试验领域积累了惊人的数据量。


然而,一个悖论始终存在:尽管数据总量巨大,但在针对特定疾病的研究中,如CAR-T这种被称为"活的药物"的癌症治疗手段,单次治疗费用高达数十万美元。2022年时,大多数正在开发这类疗法的公司手里只有不到15名患者的数据。而Medidata的系统里躺着3500名接受过CAR-T治疗患者的完整数据却无法分享。
这里的矛盾显而易见:最需要数据的公司没有数据,拥有数据的公司基于各种无奈的原因把数据锁在各自的保险柜里。知识产权保护、患者隐私、商业机密,这些正当的理由在客观上减缓了救命药物的开发速度。
在达索系统科学大会上,Medidata 平台AI与数据科学副总裁Jacob Aptekar分享了他们如何用生成式AI破解这个悖论的故事。Jacob深入探讨了机器学习和合成数据如何成为推动临床研究的催化剂。他的团队开发出一种叫"Simulants"(模拟体)的技术,能够创造出几乎完美复制真实患者特征的"虚拟患者",同时几乎完全消除隐私泄露风险。


传统的观念认为,医生面前摆着临床证据,脑子里装着医学院的训练,然后根据眼前的患者决定治疗方案。但我认为,从机器学习的角度看,我们可以把这个过程拆解得更本质一些。医疗的核心其实是“知识”,也就是临床数据与逻辑模型的结合。
所谓的医学训练,本质上就是一种复杂的模型。我们要理解生理系统是如何相互作用的,分子是如何影响细胞的,以及这些微观变化又是如何在人体这个宏观系统上体现出来的。这就像是人工智能的“训练阶段”,我们构建了一个对世界的理解框架。
有了模型之后,就进入了“推理阶段”。当一个具体的病人坐在你面前时,你需要在特定的背景下应用这些知识。这个背景可能是急诊室,也可能是社区诊所,环境的不同会直接影响你的决策。最后,治疗产生反馈,更新患者的状态,形成一个闭环。


在这个系统图中,知识的更新往往比患者状态的改变要慢得多。而我今天想要聚焦的,正是这个系统的核心——“地面真理”(Ground Truth)。也就是我们如何利用临床试验中收集的、极其严格且高质量的数据,去驱动那些最终决定生死的决策模型。
Medidata在过去25年里所做的,就是构建这个极其庞大的数据仓库。我们拥有EDC(电子数据捕获)系统,它记录了1100万患者的点点滴滴。由于这些数据是基于特定的假设、经过严格的质量控制收集来的,它们具有极高的科学价值,能告诉我们哪种疗法对哪些病人真正有效。


我们要解决的第一个难题是:如何处理那些极其特殊、极具挑战性的治疗场景。五年前,我们开始关注CAR-T细胞疗法。这是一种昂贵的、高度个性化的癌症治疗手段。我们发现,开发这种疗法的公司面临着严重的信息不对称,他们几乎没有人类数据可以参考。
2022年的数据显示,绝大多数处于临床阶段的公司,其拥有的患者数据规模小得可怜。而与此同时,Medidata的系统中其实静静地躺着3500多名CAR-T患者的数据。这本来是一个巨大的资源,但问题在于,这些数据分散在不同的申办方手中,被锁在各自的信息孤岛里。
要把这些数据释放出来,构建一个“虚拟孪生患者”,我们面临着一个集体的行动困境。我们需要让各方达成共识:数据分享必须基于慷慨的精神,但也必须伴随着严格的管理。我们不能草率地分享,必须保护患者的隐私和申办方的知识产权。

于是,生成式AI登场了。我们面临的技术挑战与处理图像完全不同。如果你有几十亿张图片,训练一个生成模型很容易,因为图片数量远超数据的自由度。例如你可以轻松捕捉到人类面部的每一个特征。但临床试验数据却极其小众,且异常“稀疏”。
在典型的临床试验中,可能只有100个患者,但我们收集的数据项却有几千个。这意味着数据的自由度几乎等于样本量。这种情况下,简单的机器学习模型会陷入困境:它无法分辨什么是真实的信号,什么是底层的噪声。
在临床上,一个极端的离群值(Outlier)可能代表了一个极具意义的医学发现,比如某个病人产生了严重的不良反应。如果你用传统的模型去强行平滑数据,你就会丢掉这些珍贵的边缘信号;如果你不做平滑,模型生成的又全是毫无意义的随机噪声。
这就好比你在迷雾中观察群山,你既要看清山峰的轮廓,又不能被飘过的浮云误导。传统的Transformer架构在处理这种极小规模且高维的数据时,往往表现得过于笨拙,它们要么记住了每一个细节(导致隐私泄露),要么就把一切都模糊化了。

为了突破这个困境,我们研发了一种名为“Simulants”的技术。这是一种基于数据增强的引导方法(Bootstrapping)。我们没有简单地去复制数据,因为那只会让噪声变得更刺耳。我们的做法更像是系统工程中的“重组”。
首先,我们将复杂的临床数据拟合到一个低维的“流形”(Manifold)上。你可以把它想象成高维空间里的一张平滑的纸。虽然原始数据点散乱分布,但它们其实遵循着某些内在的生理和医学逻辑,这些点必然会落在某个特定的几何结构上。



接着,我们在流形上寻找“局部邻域”。我们会找到那些在生理特征上非常相似的真实患者,然后通过一种巧妙的数学方式,重新组合他们的特征,在这些真实样本之间的空隙里产生新的“密度”。这就像是在两个已知的音符之间,谱写出一段和谐的过渡旋律。
这种做法其实借鉴了计算机视觉早期的经验,比如经典的AlexNet。那时候为了训练图像识别模型,工程师会对图片进行旋转、翻转和缩放。因为他们知道,无论是正着的脸还是倒着的脸,本质上都是脸。这种几何变换在不改变本质属性的前提下,极大地扩充了训练集。

我们的Simulants算法也是在做类似的事情。我们对临床试验患者进行“生理逻辑内”的变换,生成极其逼真的孪生兄弟姐妹。无论数据是向量形式还是序列形式,这个方法都适用。最终,我们得到了一组全新的、合成的患者数据,它们在统计特性上与真实数据高度一致。
我们在2022年发表的一篇论文中展示了成果。如果你观察生存曲线,你会发现黑色的原始数据线和红色的合成数据线几乎完全重合。从相关性分析、主成分投影到复杂的临床终点预测,合成数据都表现出了极高的保真度,几乎可以乱真。
这种“乱真”不仅仅是看起来像,而是它保留了最关键的医学逻辑。它能准确模拟出患者在接受治疗后的生存概率和疾病进展过程。这就给了我们一种前所未有的力量:我们可以通过模拟无数个“平行宇宙”中的患者,来探索那些在现实中难以进行的实验。

如果只是为了模拟,那还只是数学上的成功。Simulants真正的魔力在于它对隐私保护的突破。在医学界,共享数据最大的阻碍就是:即便你删除了姓名和证件号,通过剩余的几千项生理指标,依然能通过“重识别”技术把具体的人找出来。

我们的实验显示,如果只是简单地进行脱敏处理,数据的隐私流失率依然高达85%。这意味着,一个有心的人通过对比不同的数据库,依然有极高的概率锁定某位特定患者。这也是为什么各大药企对共享数据避之唯恐不及的原因。
但神奇的事情发生了。当我们使用Simulants生成合成数据时,隐私流失的曲线几乎跌到了零点。即便我把整套合成数据交给你,再给你两个真实患者的信息,其中一个参与了训练,一个没参与,你也没办法通过数学手段判断出到底是谁贡献了数据。


这就是数学的魅力。由于合成患者是基于邻域特征重新构建的,他并不对应现实中的任何一个具体个人,但他又完美继承了整个人群的生理规律。这就像是你根据一万个人的特征画出了一张“最美面孔”,这张脸很真实,但它并不属于任何一个真实存在的人。
这样一来,我们就在技术上解决了那个困扰已久的集体行动难题。药企们现在可以放心地把数据拿出来进行联合分析,因为他们的原始数据被安全地保护在数学的面纱之下。我们为虚拟孪生技术生产出了最纯净的“原材料”——那些去除了污染物、却保留了结构的砖块和木材。


有了这些安全的“建筑材料”,我们就可以开始构建宏伟的虚拟临床试验大厦了。以前,数据的获取是按个计算的,极其昂贵且缓慢。现在,我们拥有了一个可以随时产生无限样本的机器。接下来的问题就是:我们该如何向这个系统提问?
我曾被一名分析师问到:生产一个虚拟孪生患者的成本是多少?我的回答是:这取决于你有多大的好奇心,取决于你想问多少个问题。因为一旦模型建立,大规模的模拟和质询就变得极其廉价且高效。我们可以开始大规模地探索不同治疗策略下的可能性。


让我们回到CAR-T疗法的具体案例中。一个典型的患者旅程从癌症复发开始,经历临床入组、单采血浆、细胞制造、回输治疗,再到副作用管理和最终的康复或进展。在这个漫长的链条里,每一个环节都充满了不确定性。
在过去,药企可能只能观察15个真实病人的反应。但现在,我们可以利用Simulants技术产生无数个虚拟患者,去模拟他们在每一个环节的可能表现。我们可以寻找那些能预测最终疗效的基线特征,也可以模拟不同的免疫反应管理策略。

这种灵活性是前所未有的。我们可以观察特定亚群体的细微差异,甚至可以对这些虚拟患者进行在现实中绝不可能进行的“扰动实验”。比如,如果某种细胞制造的参数改变了,会对不同年龄段的患者产生什么后果?这些问题现在都有了答案。
通过与制药公司、CRO(合同研究组织)以及小型生物技术公司的合作,我们将这些AI洞察转化为实际的行动。我们不仅帮助他们加速了患者的招募,更重要的是,我们帮助他们找到了那些真正能从疗法中获益的临床人群,从而显著降低了试验的成本和风险。

不仅如此,我们还与学术界建立了深厚的联盟。在医学领域,工具的价值只有在被使用时才能体现。我们邀请了许多临床科学家和机器学习研究者,利用这些虚拟孪生患者的数据去探索各种有趣的科学假设。这种开放的协作模式,让很多原本埋藏在数据里的新发现得以重见天日。

目前,这些虚拟孪生患者技术已经开始深入到临床试验的操作细节中。比如,我们可以模拟患者的入组进度和依从性,甚至可以用虚拟数据去测试电子数据采集系统的配置是否合理。这就像是在正式演出前,进行了一场极其逼真的全要素模拟排练。
所有的努力最终都指向一个目标:效率。我们已经看到,这种基于证据的模拟已经帮助一些项目缩短了研发周期,开发出了全新的评价终点。在对抗病魔的战争中,每一分每一秒的节省,对于屏幕另一端的患者来说,都可能意味着生存的希望。

展望未来,我们正致力于将Simulants系统与更前沿的大语言模型(LLM)和Transformer架构相耦合。虽然我之前提到了Transformer在稀疏数据上的局限,但随着技术的发展,它们在处理非结构化信息方面展现出了惊人的天赋。
目前的临床数据大多是结构化的表格,但真实的医疗记录中还包含着大量的医生笔记、影像报告等非结构化信息。通过将生成式AI与这些复杂架构结合,我们可以创造出更加立体、更加真实的虚拟患者画像,涵盖从基因组学到生活方式的全方位信息。
当然,我们绝不能低估安全性的重要性。我们正在投入大量精力,让患者能够更清晰地了解和授权自己的数据用途。我们需要构建一套完整的协议,让每一个人都明白,他们的信息是如何在被妥善保护的同时,为全人类的医学进步做出贡献的。
最后,我想强调的是与监管机构的合作。科技的进步必须得到法律和规范的认可。我们正在与各类联盟合作,推动监管机构接受合成数据作为一种合法且有效的临床证据。我们需要证明,这些数学推导出来的洞察,在决策价值上是真实且可靠的。
总结一下,我们的目标是利用AI的力量,把那些沉睡在孤岛里的枯燥数据,转化成能够跳动、能够呼吸、能够提供答案的虚拟生命。这不仅仅是为了做生意,更是为了让更好的疗法能以更快的速度、更低的成本送到那些急需治疗的患者手中。
科学的本质就是不断扩展我们理解世界的边界。通过构建这些复杂的虚拟孪生,我们正在重新定义医学研究的范式。感谢大家今天的聆听,希望我们能一起见证这个由数学和算法编织而成的医疗新时代。谢谢大家!


在传统的医学研究中,人类更像是一个谦卑的观察者。我们站在实验室或病床旁,小心翼翼地收集数据,试图从那一点点可怜的样本中窥探大自然的奥秘。这种方式虽然严谨,但在面对CAR-T这种极端复杂的个性化医疗时,却显得力不从心——数据的稀疏性成了我们智力无法逾越的屏障。
而Medidata所展示的Simulants技术,本质上是工程师思维对传统医学的一次有力回击。它不再执着于“我手里有多少样本”,而是转向思考“我是否理解了这些样本背后的数学流形”。通过在高维空间里进行插值和重组,AI不仅扩充了数据的量,更深层地挖掘了数据的质。

最令人拍案叫绝的,是它对“离群值”的处理。在科学探索中,噪声是敌人,但异常点往往是先知。Jacob团队通过局部邻域的重采样,成功保住了那些具有临床意义的边缘信号,同时又过滤掉了无意义的随机扰动。这种对“信号与噪声”的精准拿捏,体现了极高的科学直觉。
当这种“虚拟孪生”技术与监管体系接轨,我们将迎来一个“计算模拟先于临床实验”的新时代。这不仅是制药成本的降低,更是对患者生命安全的极大尊重。我们不再需要在真实的患者身上进行所有盲目的试错,而是可以在赛博空间里完成千百次的推演。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-3-27 11:33 , Processed in 0.072389 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表