在《工程》杂志上发表的一篇评论中,科学家们探索了机器学习(ML)这一新兴领域及其在化学中的应用。题为“化学机器学习:基础和应用”,这篇全面的综述旨在弥合化学家和现代ML算法之间的差距,为ML在革命性化学研究中的潜力提供见解。
在过去的十年里,机器学习和人工智能(AI)取得了令人瞩目的进步,使我们更接近智能机器的实现。深度学习方法的出现和增强的数据存储能力在这一进程中发挥了关键作用。机器学习已经在图像和语音识别等领域取得了成功,现在它在以复杂数据和多种有机分子为特征的化学领域受到了极大的关注。
然而,由于缺乏对现代机器学习算法的熟悉,化学家在采用机器学习应用时经常面临挑战。化学数据集通常表现出对成功实验的偏见,而平衡的观点需要包括成功和失败的实验。此外,文献中合成条件的不完整记录带来了额外的挑战。
计算化学可以可靠地从量子力学计算中构建数据集,因此更容易接受ML应用。
这篇综述是对流行的化学数据库、ML模型中使用的二维(2D)和三维(3D)特征以及流行的ML算法的介绍性指南。它深入研究了三个特定的化学领域,其中机器学习取得了重大进展:有机化学中的反合成,基于机器学习电位的原子模拟,以及多相催化的机器学习。
这些应用要么加速了研究,要么为复杂问题提供了创新的解决方案。该综述最后讨论了该领域未来的挑战。
计算设备的快速发展和新的机器学习算法的发展表明,更多令人兴奋的机器学习应用即将出现,有望重塑机器学习时代化学研究的格局。虽然在这样一个快速发展的领域,未来很难预测,但不可否认的是,ML模型的发展将增强可访问性、通用性、准确性、智能,并最终提高生产率。
机器学习模型与互联网的集成为在全球范围内共享机器学习预测提供了一条有前途的途径。
然而,化学中ML模型的可转移性由于涉及不同的元素类型和复杂的材料而提出了一个共同的挑战。预测通常仍然局限于本地数据集,导致超出数据集的准确性下降。
为了解决这个问题,人们正在探索诸如全局神经网络(G-NN)潜力和具有更多拟合参数的改进ML模型等新技术。虽然数据科学领域的机器学习竞赛产生了出色的算法,但化学领域需要更多开放的机器学习竞赛来培养年轻人才。
令人兴奋的是,端到端学习,从原始输入生成最终输出,而不是设计的描述符,为更智能的ML应用带来了希望。例如,AlphaFold2利用蛋白质的一维(1D)结构来预测其三维结构。同样,在多相催化领域,端到端人工智能模型已经成功地解决了反应途径。这些先进的机器学习模型也有助于开发用于高通量实验的智能实验机器人。
随着机器学习领域的快速发展,化学家和研究人员了解其在化学中的应用是至关重要的。这篇综述作为一个有价值的资源,提供了ML的基础知识及其在各个化学领域的潜力的全面概述。随着机器学习模型的整合和科学界的共同努力,化学研究的未来有着巨大的希望。