GoCatal®之多指标贝叶斯优化算法
2023-12-12
技术中心

分享:

前言 

      在化工研发领域,为制造某种物质或材料,通常需要进行大量的化学实验去以寻找一种合理高效的最佳合成路径,而这些实验中又涉及到多种实验因素和工艺参数,如温度、溶剂、催化剂种类、底物浓度等,由于进行实际化学实验的成本极高(expensive to evaluate),需要消耗大量的实验材料和资源,因此在巨大的搜索空间中对全量的实验参数组合一一进行尝试在经济上是不切实际的。显然,如何有效减少实验尝试次数,快速高效地得到可使指标达到理想范围的实验因素组合,成为化工行业从业人员日益关注的重要问题。

     在该问题上,贝叶斯优化(Bayesian Optimization)就是一种相对较好的解决方案,其是一种用于超参数搜索的方法,已在多个领域表现卓越。如图1所示,当我们想要最大化某个指标时,随着贝叶斯优化方法的多轮迭代,其指标值整体呈现上升的趋势,证明了算法的有效性。

图1 单指标贝叶斯优化算法效果展示

     对于化学实验优化问题,贝叶斯优化算法也可有效地缩短找到较优实验因素组合的进程。

     但实际上,一方面,一个实验需要优化的并不仅仅是单个指标,而是会同时存在两个或两个以上的多指标(multi-objective),比如不仅要关注产物的收率,还要在此过程中尽可能地控制成本和预算,且很多时候指标之间甚至可以是相互矛盾的,这对于传统的贝叶斯优化来说是一个巨大的挑战,因其往往局限在对单个指标的优化上,在指标数增多的情况下适用性降低;另一方面,不同领域不同行业之间的知识背景相差很大,因此照搬经典贝叶斯范式难以取得较好的效果,通常需要结合一定的专业领域内知识和方法,才能更好地发挥出贝叶斯优化的优势。

   综上,现实情况的复杂性使得常规的贝叶斯优化算法难以有效地实现需求。

国工算法优势

     近期,国工智能基于当下前沿算法,并结合化工领域实际业务背景,将化学科学与人工智能技术深度融合创新(AI for Science),使用计算化学方法和人工智能优化算法相结合的方式,自主研发出了一套针对化学实验的多指标贝叶斯优化算法。该算法构建概率代理模型(Probabilistic Surrogate Model),通过高斯过程回归(Gaussian Process Regression)对当前历史数据进行拟合,并创新性地采用一种更加高效的采集函数,取出使得下一轮对指标改进程度最大的实验参数组合作为候选样本。该方法可为用户快速推荐出合理有效的实验因素组合。

国工自研实验优化算法具备以下特点和优势:

  • 多指标综合优化:传统贝叶斯优化往往局限在优化单个指标,不适用于同时含有多个待优化指标的复杂现实情境,国工自研算法在传统贝叶斯优化的基础之上,紧跟国内外研究前沿,扩展了贝叶斯优化的适用场景,能够有效地支持多指标优化任务。另外考虑到用户对多个指标可能有着不尽相同的关注程度,因此算法也支持为各个指标分配不同的优化权重,实现实验信息个性化灵活配置;

  • 支持离散实现数据:贝叶斯优化通常在连续空间中表现良好,但离散或混合空间中欠佳,国工自研算法可以接受实验因素的不同类型取值,连续型和离散型均可进行处理;

  • 极值判断:包括贝叶斯在内的许多优化算法,常常存在着固有的对极值判断的局限性,国工考虑结合计算化学领域的专业知识和方法(如势能面构建)等,对合理的极值判断加以支持。例如,当进行了200次或更多次的实验后,发现其实在第100次时已然达到了最优结果,但单纯靠算法本身是无法知晓的,因此我们可以通过势能面构建、能垒计算等计算化学的方法,与贝叶斯优化算法相结合,更加高效地判断到达极值的时点,从而将所需的尝试次数进一步降低;

  • 自动拟合修正:随着实验数据不断积累,模型对于真实的概率分布也将拟合得越来越好,通过不断修正更新先前的概率代理模型及采集函数,我们的算法将会推荐出更加合理有效的候选方案供用户选择;

     

     总结:综上所述,国工自研多指标实验优化算法能够适用于多种复杂应用场景,显著减少实验人员进行尝试的次数,节约时间和成本。

案例分析
    下面将结合一个具体的案例来对该算法进行说明。需要指出的是,这里我们以三因素双指标为例进行演示,但算法本身并不局限于待优化指标数以及各因素的取值个数。

     首先,打开国工智能数据大脑平台,进入实验优化界面,对实验信息进行配置。使用的指标分别是收率和成本,要求收率最大化及成本最小化,并可分配指标的权重,如图2。

图2 实验指标配置

     此外,还需对实验因素进行配置,这里我们利用温度、压强、催化剂这三个因素,配置好各自可取的因素值以及单位,对于连续型值,用户还可以按照范围进行输入。配置完因素后点击完成配置按钮即可,也可导入已有实验配置信息。

     其次,实验信息配置完成后,即可开始进行算法优化。在首轮没有历史数据的情况下,需要随机从搜索空间中生成用户指定个数的初始样本,这里以5个为例,如图3为轮次1的信息,这里的收率及成本实际值需要做实验进行回填,用户也可以根据自己的需求删除一些样本。

图3 初始化历史数据

     将各方案指标值填充后,点击方案推荐按钮,算法会读入轮次1的数据并推荐出用户指定个数的方案,这里仍以推荐5个为例,如图4,在轮次2中,算法提供了5组实验因素组合,同样的,用户可做实验对指标值进行回填。

图4 算法推荐方案

     最后,按照上述流程,将算法循环迭代多轮,对每轮推荐出的方案进行实验回填,直至两个指标均达到理想范围或者已经枚举出了所有的组合方案为止。为符合业务场景,我们还在算法内部增添了去重的功能,因此不会推荐出与历史数据重复的方案,且每轮推荐完成后,还可以点击实验分析对推荐效果进行可视化,也可将方案导出为excel文件作其他用途。

    下图为本示例最终推荐效果的可视化展示,取出每轮推荐方案中指标值较优的点绘制折线图,虽有所波动,但收率整体上朝着最大化的方向进行优化,同时成本也在逐渐最小化,并在第5轮推荐方案中二者均达到了可以接受的水平,证实了该算法的有效性。

图5 多指标优化算法效果

适用场景

 

  • 1.化工、材料、医药等领域需要进行大量实验的工厂实验室以及各大高校配备的实验室等;

  • 2.目前国工智能催化剂智能研发平台GoCatal®已集成部署了多个功能模块,可便捷地处理很多化工场景下的特定问题,该多指标贝叶斯实验优化算法可与其他组件协同,更好地实现客户的需求。

     

 

专利证书


 

相关标签