机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 20|回复: 0

用达索系统BIOVIA Pipeline Pilot解锁SISSO的科学洞见

[复制链接]

2万

主题

2万

帖子

18万

积分

超级版主

Rank: 8Rank: 8

积分
187977
发表于 前天 16:28 | 显示全部楼层 |阅读模式
应用于化学和生物学的大多数机器学习算法都是黑盒模型,用于预测给定目标性质。
模型接收输入特征并生成输出,但由于模型结构复杂,其内部运作机制往往难以理解或完全未知。因此,从这些模型中提取有意义的科学见解是长期以来的一大挑战。
可解释的机器学习(ML)模型既具备预测能力,又结合了可解释的物理方程,在众多科学领域获得了广泛关注。
我们的目标是构建所谓的玻璃盒模型,即用简单的物理方程将输入特征与目标性质联系起来。通过这种方式,数据中的关系得以揭示,进而从模型中获得更深层次的科学洞见。
在为可解释机器学习开发的方法中,“确定独立性筛选和稀疏算子(Sure Independence Screening and Sparsifying Operator)——SISSO”方法已广泛应用于多相催化与有机化学领域。7–11 SISSO属于符号回归模型,可用于寻找预测目标性质的数学函数。
最初的SISSO代码由FORTRAN12编写,未直接支持Python。然而,NOMAD实验室推出了更新的C++实现(SISSO++),其具有原生Python集成。
假设我想将SISSO算法应用于一些化学数据集,以扩展我的科学洞见,该如何将这种ML方法部署到我的数据科学流程中?

答案是使用达索系统BIOVIA Pipeline Pilot15 将Python代码封装起来,并扩展对这些玻璃盒模型的访问。
达索系统BIOVIA Pipeline Pilot是一个科学智能的分析平台,提供了上千个分析组件,涉及生物、制药、化工、材料等多个学科和领域。它以图形化的形式,让用户可以像搭积木一样将各个科学组件组合成各种分析流程,从而来完成复杂科学数据的自动处理。它在优化研究创新周期、提高工作效率与减少研究和IT经费方面能发挥巨大作用,实现企业级的数据快速分析、可视化与共享,提升大范围的协作能力。
借助BIOVIA Pipeline Pilot与Python之间强大的集成能力,用户可以将Python代码无缝合并到现有数据流程中。

在本例中,我们将使用Jupyter Notebook组件处理Python部分,并利用原生PLP组件读取、写入和清理待输入数据。
我们将使用两组数据,一组由bp17发布,另一组由 Sigman及其合作者10发布。bp数据涉及在H-ZSM-5催化甲醇脱水制二甲醚(DME)过程中使用苯甲醛促进剂的情况;Sigman数据则涉及非对映选择性Rh催化的C-H插入反应。
这两个数据集按大多数AI方法标准来看都很小(分别为22行和84行),但它们真实反映了行业内和学术界通常采集到的小型高质量数据集特点。
在Python Jupyter Notebook组件中,通过选择算子、目标列及所需的训练/测试集划分,可以设置SISSO++。此外,还可以设定超参数,并在回归与分类之间切换计算类型。
我们将模型应用于bp数据集,其中目标性质为DME STY(时空产率——催化性能的衡量标准),10个描述符列是基于密度泛函理论(DFT)推导的有机促进剂醛的特征(其他反应参数保持不变)。
我们获得了一个可解释的方程,为科学洞见提供了依据,并通过Pipeline Pilot报告组件展示输出。SISSO++模型的表现与文献中报道的模型相当,并且在化学意义上合理,因为它将促进剂醛的空间和电子特性与催化性能联系起来。
SISSO++代码的一个潜在限制是,当数据集中包含大量特征时,其计算成本可能显著增加。为此,BIOVIA的Materials AI团队与Felix Hanke(前BIOVIA员工)合作开发了适用于回归问题的BIOVIA Pipeline Pilot原生版本SISSO++。
借助BIOVIA Pipeline Pilot的并行化与简便性,我们可以大幅提高为科学数据集寻找可解释方程的速度,而且无需任何编程专业知识即可运行模型。
新的协议采用与SISSO++相同的方法:先生成大量特征,再解析筛选出最佳性能方程,但这一过程在Pipeline Pilot中以不同方式执行。
最终输出与SISSO++ Python包相当,但大大简化了科学家的使用流程,因为无需与代码交互。事实上,该协议可通过Pipeline Pilot Web Port运行,用户通过下拉菜单选择参数,极适合没有编程经验的科学家。

在本例中,我们展示了Sigman及其合作者10数据集的输出,其中目标是ΔΔG‡(非对映选择性的衡量标准),并包含19个DFT衍生的化学描述符。
同样,我们获得了可解释方程,其表现与文献报道的模型相当,将催化剂/配体的空间和电子特性与非对映选择性联系起来。
由于Pipeline Pilot能有效处理大量数据,使用更大数据集(>50billion生成的特征)以获得模型也是可能的。
在BIOVIA Pipeline Pilot中简单集成Python,使我们能够轻松将SISSO++及其它Python包嵌入新旧数据流程中。
同时,我们可以充分利用BIOVIA Pipeline Pilot的灵活性与速度,将新的可解释机器学习方法融入数据科学工作流程。通过这种方式,BIOVIA Pipeline Pilot帮助科学家从预测模型中获得有意义的科学洞见。借助BIOVIA Pipeline Pilot,这类模型可在低代码或无代码环境下部署,助力理解并推动科学前沿领域的进一步创新。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-7-12 19:07 , Processed in 0.086774 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表