Gabe Gomes：使用大语言模型进行自主化学研究

寂静回声 · 发表于 2026-3-28 16:05:01

首先，让我们从一个免责声明开始吧。其实，人工智能并不是魔法，尽管它确实能做些神奇的事情。比如，最近我换了台新笔记本电脑，试着让我的AI助手画出一个分子结构。第一次尝试的结果简直是一塌糊涂，于是我给它提供了一个更具体的结构作为参考，这次结果看起来稍微靠谱了些，但仍然不正确。这提醒了我们，虽然AI能够辅助科学家进行工作，但它并非万无一失。

Gabe Gomes于2022年成为卡内基梅隆大学的一员，隶属于化学和化学工程系。Gomes集团的研究重点是通过尖端机器学习和自动合成技术推动化学反应、催化剂和材料的发展。Gomes的工作定位于机器学习和有机化学的交叉领域，其工作重点是创建自主反应发现的创新平台，尤其注重催化作用。

今天，我们将向大家介绍关于大语言模型在“健康生活”理念下的自主化学研究。
在开始之前，我想先谈谈这个演讲中最重要的一部分——做出这些工作的那些人。今天我要特别介绍两位同事，他们是新加入的Robert McKnight和Daniil Boiko，他们都是我们化学工程组的博士生。Robert现在持有TCS总统奖学金，而Daniil目前则在旧金山的一家创业公司休假。我们的团队正在不断壮大，如果你或者你认识的人对做博士后感兴趣，请务必联系我。

我们希望从自动化计算化学一路走到自主化学合成。这里我打了个星号，因为这不仅仅是关于合成物质，还涉及到对它们进行表征的问题。如果你不知道自己造了什么，那你真的可以说你造出来了吗？我不知道，至少我不确定。因此，我们非常重视开发新的催化剂、反应设计和生物有机材料，通过应用和开发新的机器学习和计算机科学方法，并利用物理有机化学等基础原理。

。开发一种新材料大约需要10年，超过1000万美元。当然，这些时间表和成本对于治疗可能非常不同。我提出的问题是如何制造材料，因为我是一名化学家，材料是分子。我的问题实际上回到了如何制造分子。
基于我的训练，我和其他许多人一样，认为催化技术在这方面起着至关重要的作用。催化是化工企业的重要组成部分，几乎所有工业过程的85%都是催化性的，其中80%为异相催化。
虽然我不专门从事该领域，但我有很多优秀的同事在卡内基梅隆大学化学工程系专攻异相催化。我自己则专注于均相催化和生物催化，这两个领域的比例较小，但提供了许多可调性和可持续性的可能性。
预计到2050年，我们这个行业的需求将增长180%，同时我们必须实现绝对二氧化碳排放量减少30%的目标。这是一个巨大的挑战，因为化工产业占所有温室气体排放的7%。如果我们想要让人们过上更健康、更好的生活，就必须考虑到这一点。

我们需要开发新的催化剂，以改进工业流程。例如，发现新的催化反应可能需要几个月甚至几年的时间。我相信在这个场合，大家都同意计算科学、人工智能和自动化已经在帮助我们加速这个进程，但这还不够快，它确实不够快。
一些人一直在思考如何通过机器学习设计催化剂，这不是一条直线。在2021年《化学趋势》杂志的封面上，我们提出了一个概念，即通过高精度实验来确保更高水平的实验开始。但是我认为我们现在正越来越接近于所谓的“自动驾驶实验室”，生成式模型和生成式AI正在将事情提升到一个新的水平。

几乎人类创造的一切都遵循这样一个路径：有人想出一个点子，然后其他人或同一人将其付诸实践，测试、分析并迭代。这是经典的“设计-制造-测试-分析”循环。
在过去的一百年里，办公室和行业的许多方面发生了变化，但在化学和生物学实验室里，情况却没有太大改变。也许现在的区别在于，实验室里出现了更多像我这样的人，这当然是件好事，但它还不够。这些过程非常耗时，需要大量的专业知识，博士学位的学习时间很长，而且仍然非常依赖人工操作。因此，一些人开始思考“自动驾驶实验室”的概念，即设计由人类和机器共同完成，制造和测试由机器人执行，分析则通过连续的方式进行，比如强化学习或主动学习。
要做到这一点，你需要合适的硬件和环境。在卡内基梅隆大学，我们投资了一个名为CMU CL lab的新设施，今年早些时候刚刚开放。这项投资超过了5000万美元，拥有200多种不同类型的仪器，建立在一个中央代码平台之上，结合了技术人员和机器人的力量来进行实验。这实际上改变了人们对科学研究实验的看法。

我们社区在某些方面已经加快了速度。比如在我做博士后的时候，我和Mark合作的一个项目中，我们使用了正在开发的算法（如贝叶斯优化）来控制机器人，以优化Suzuki耦合反应，这种反应在制药行业中非常常见。尽管这减少了人力需求，但仍需要人类设计实验，并且需要大量的人类知识才能使用这些技术。这让我一直在思考，我希望有一种任何人都可以使用的解决方案，使这个过程更快、更容易、更普及。
理想情况下，这个过程无论是什么，都应该只需要自然语言提示，即英语，并能无缝集成到实验自动化中。换句话说，我们希望把信息转化为比特，通过自然语言提示，并将它们转换成原子，也就是物理世界中的实验。这就涉及到了一个黑箱，也就是生成智能代理。我相信这就是我们走向自主科学研究的方向。这引导我们写了一篇预印本论文，并最终在2023年12月的《自然》杂志上发表了同名文章《自主化学研究的大语言模型》，由此我们开发了科学家伙伴系统（Coscientist）。

每次你在屏幕上看到红色文本，那都是来自人类科学家的输入；绿色文本则是科学家伙伴写的回应。科学家伙伴由几个模块组成，有些使用大型语言模型，有些则不使用。例如，网络搜索器和文档搜索器使用大型语言模型作为支撑，但我们也有可以在Docker容器中安全执行代码的模块，以及可以自动或云实验室液处理机器人进行实验的模块，也可以手动进行实验，这完全没有问题。
为了验证科学家伙伴在现实世界中的表现，我们进行了几项实验，从在线查找有机合成到执行交叉偶联反应（如Suzuki偶联反应），再到优化反应条件，生成云实验室控制机器人的科学实验室语言代码，并结合不同类型硬件解决问题。
举个简单的例子，你可以告诉科学家伙伴“合成阿司匹林”，任务规划器会将这个任务交给网络搜索器，就像你我遇到问题时首先想到用谷歌搜索一样。网络搜索器返回相关的信息给规划器，如果规划器对得到的信息不满意，它会继续要求更多信息，直到满意为止。
当我们谈到在线有机合成时，大语言模型可以直接提出反应方案，但并不总是准确。但这没关系，因为有许多专门为此目的设计的工具。我们知道，这些模型具备一定的内在知识，可以应用于许多事情，但科学家们最担心的是生成式模型可能会产生幻觉。为了解决这个问题，我们决定通过文献资料来锚定科学家伙伴，以避免幻觉的发生。

我们进行了第一次实验，给了科学家伙伴访问我们OT-2机器人的权限，并说：“嘿，你有这个装有食品染料的平板，给我们画个可爱的东西。”不知为何，它决定画了一条鱼。接着，我们可以用非常低级别的指令控制液体处理器机器人，比如用英文说：“画个红十字，用食品染料在96孔板的中心画。”还有其他类似的想法，每行之间画3x3的矩形等等。这些都是非常低级的指令。我们决定将这一过程提升到下一个层次，并将液体处理器与不同的硬件结合在一起，这次使用的是UV-vis分光光度计。我们给科学家伙伴一个提示：“你有一个源板，里面有三个样本位置未知，分别是黄色、蓝色和红色，每个样本位于A1、B1和C1孔之一。你需要设计一个实验来确定源板中每个样本的位置。”

我们试图欺骗它，因为我们说顺序是黄色、蓝色和红色，但实际上板上的顺序是红色、黄色和蓝色。科学家伙伴设计了实验，执行测量，获得数据，进行了分析，最后告诉我们：“在530nm处吸收最强的样品呈红色，在430nm处吸收最强的样品呈黄色，在630nm处吸收最强的样品呈蓝色。”它告诉我们，最初的猜测是样品位于这些孔中，但根据吸光度，样品实际上是红色、黄色和蓝色。它没有被我们尝试欺骗它的企图所迷惑，这真是个好消息。

作为化学家，我们希望能够进行化学反应，所以我们接下来做了这件事：自主地进行化学反应。具体来说，我们让科学家伙伴执行Suzuki和Sonogashira反应，找到适当的反应条件，包括通常的用量和催化剂，然后进行实验。
我们只用简单的英文描述了设置，比如在A1孔中有炔烃，在A2孔中有硼酸，在B1至B4孔中有不同的卤代物，在U1孔中有溶剂DMF，在D1和D2孔中有不同的碱，在C1和C2孔中有不同的催化剂。任何有机化学家看到这些都会说，Suzuki和Sonogashira反应相似但不相同，有一些细微的区别。我们并没有告诉科学家伙伴这些，只是让它去做，结果如下：
在第一次运行时，它开始在网上搜索，查找有关Suzuki和Sonogashira反应差异的论文，打开这些论文，理解两者之间的区别，然后为自己写了一份简短的报告，区分这两种化学反应，再制定如何在我们的OT-2平台上执行这些实验的具体计划。之后，它计算了所需的试剂体积，编写了Python代码，但在此过程中犯了一些错误，比如忘记变量名。

它继续按照计划行动，现在已经知道了所需的体积。省略一些步骤，总之，它完成了编写用于执行实验的代码。结果看起来很简单，只是加热和摇晃，但左边的色谱图和质谱图显示了这个反应的混合物。当我第一次看到这些色谱图和质谱图时，我意识到，对于第一次非有机智力自主规划、设计并执行复杂的科学实验来说，这是一个历史性时刻。这些复杂的化学实验是由非常聪明、勤奋的人开发的，这些转变带来了诺贝尔化学奖。现在我们可以从英语提示直接过渡到完全实现的复杂科学实验。
然而，我们还有一个问题想要回答：在一个组织中，你已经有了数据，不想从零开始怎么办？如何利用已有的知识，无论是文献还是组织内部的知识？我们决定这样做来展示其可能性。我们取用了默克公司在2018年《科学》杂志上发表的一篇关于Suzuki耦合反应的数据集，整个空间包含5500种可能性，包括配体、碱、溶剂等的不同组合。我们将此设定为一个强化学习游戏，科学家伙伴只有一个目标，那就是最大化归一化的优势，这实际上是另一种表达产率的方法。

我们展示了三种变体，重点放在顶部的归一化最大优势上。GPT-3.5版本的科学家伙伴在没有任何关于该反应的先验信息的情况下表现不佳。而GPT-4版本的科学家伙伴在获得10个随机选取的数据点后，在优化模式下开始工作，设定了目标。规则是科学家伙伴只有20次迭代的机会来做这件事。我们多次重复实验以收集统计数据，黑色线条代表平均值。
可以看到，它开始时略优于随机选择，然后迅速上升，达到最大反应效率，大约需要16到17次迭代。如果没有提供任何数据点，它同样能达到相同的归一化最大优势，区别在于它需要19或20次迭代。这很有趣，因为在我们小组中，我们一直在开发将机理信息纳入核函数的贝叶斯优化策略，这种方法非常强大但也非常耗费精力。而科学家伙伴的优势在于它可以即时解释模型，了解正在发生的事情。

在另一个数据集中，我们展示了科学家伙伴在优化过程中是如何用通俗易懂的语言解释其决策过程的，就像一位药物化学家会解释他们为什么这么做一样。例如，在优化的中间阶段，它观察到某个配体的性能有所提高但不显著，于是决定再次尝试第一个配体，并更换含有苯基团的添加剂，靠近氧碳键的碳原子。它注意到反应产率达到了41%，然后再次尝试，表示产率提高到了41%，决定换一个具有更强吸电子基团的添加剂以进一步提高产率。它将苯基换成酯基，增加了一个氮原子，虽然这对结果没有影响，但可以看出它在持续改进。最终，反应产率达到了50%，并且继续这样做。我们开发了一个Web应用程序来控制这个系统，使其易于使用。
每当社区揭开一项新技术时，都有潜在的误用风险。2017年，世界经济论坛发布了一份全球风险报告，标记了12项新兴技术，这些技术既有可能带来巨大好处，也可能带来负面影响。其中三项对我们今天的讨论尤为重要：人工智能和机器人技术、生物技术和新型计算技术。如果你看看这三个技术，它们位于右上角的象限中，意味着它们既有最大的好处，也可能带来最大的负面影响。

我们进行了大量的安全性测试，我不想展示具体的结构或任何东西，但我想强调的是，在理想的世界里，所有东西都应该显示为绿色。如果你尝试使用这个系统来合成一类或二类受控物质或化学武器，你应该会被阻止。
但事实并非如此，这也是我们正在努力解决的问题，也是许多其他人正在努力的方向。我很高兴看到大实验室、政策制定者和其他科学家都在花时间确保这些模型对我们所有人来说更加安全、更加稳健，以加速我们的科学研究。
最后，我总结一下：我们开发了一个系统，它可以自主设计、规划并执行不仅限于化学的复杂科学实验。科学家伙伴是一个跨领域的工具，称为科学家伙伴而不是化学家伙伴，这意味着它不限于某一特定领域。先前积累的知识不会丢失，可以指导新的实验和优化。我们展示了存在滥用的可能性，但我们正在开发防护措施，并与各方合作伙伴合作，确保这些模型和系统是安全的。

感谢卡内基梅隆大学化学系和化学工程系的支持，我们是NSF计算机合成中心和催化合成中心的一部分。感谢Anthropic和OpenAI提供的研究信用额度，感谢OpenTrons提供的硬件支持，以及其他合作伙伴的帮助。感谢你们的聆听和邀请，我很乐意回答任何问题。谢谢。

		自动登录	找回密码
密码			立即注册

Gabe Gomes：使用大语言模型进行自主化学研究

浏览过的版块