有监督学习算法在材料科学中的应用.pdf
《有监督学习算法在材料科学中的应用.pdf》由会员分享,可在线阅读,更多相关《有监督学习算法在材料科学中的应用.pdf(10页珍藏版)》请在咨信网上搜索。
1、38第 5 卷第 4 期2023 年 8 月Vol.5No.4Aug.2023数据与计算发展前沿,2023,5(4)有监督学习算法在材料科学中的应用刘端阳1,魏钟鸣1,2*1.中国科学院半导体研究所,超晶格国家重点实验室,北京 1000832.中国科学院大学,材料科学与光电技术学院,北京 100049摘 要:【目的】本文希望对近年来机器学习在材料学研究中的应用做一概略的介绍,为相关的研究提供一定的参考。【文献范围】本文主要参考引述了近几年来材料数据库相关文献,以及使用机器学习算法进行材料性能预测、发现新材料的研究论文。【方法】本文介绍了有监督机器学习的处理流程,并介绍了多种有监督机器学习算法在
2、材料科学中的应用现状。【结果】机器学习算法,帮助总结了材料性能与材料的组成元素、晶格结构等的规律,对发现新材料具有重要的意义,而机器学习力场方法则展现出处理复杂的相变、界面等问题的潜力【局限】鉴于目前掌握的研究水平,主要重点介绍的是有监督机器学习方法在材料性能预测等几个领域的应用,对于无监督学习以及其他材料研究领域的引述尚缺乏。【结论】这是一个新兴的领域,未来将成为材料科学的一个重要组成 部分。关键词:机器学习;材料科学;神经网络;算法;性能预测Application of Supervised Learning Algorithms in Materials ScienceLIU Duany
3、ang1,WEI Zhongming1,2*1.State Key Laboratory of Superlattices and Microstructures,Institute of Semiconductors,Chinese Academy of Sciences,Beijing 100083,China2.Center of Materials Science and Optoelectronics Engineering,University of Chinese Academy of Sciences,Beijing 100049,ChinaAbstract:Objective
4、 This article aims to provide a brief overview of the applications of machine learning in materials research in recent years,offering a reference for related studies.Literature Scope Therefore,this article mainly references recent literature and materials databases and research papers utilizing mach
5、ine learning algorithms for material property prediction and new material discovery.Methods The article introduces the workflow of supervised machine learning and presents the current applications of various supervised machine learning algorithms in materials science.Results Machine learning algorit
6、hms help to identify patterns between material properties and factors such as composition elements and crystal structures,making them significant in the discovery of new materials.Additionally,force field methods using machine learning demonstrate potential in addressing complex phenomena like phase
7、 transitions and interfaces.Limitations Due to the ISSN 2096-742XCN 10-1649/TP文献CSTR:32002.14.jfdc.CN10-1649/TP.2023.04.004文献DOI:10.11871/jfdc.issn.2096-742X.2023.04.004页码:38-47 获取全文基金项目:中国科学院网络安全和信息化专项应用示范培育项目“集成电路用单晶硅加工工艺的人工智能辅助软件与平台”(CAS-WX2023PY-0101)*通信作者:魏钟鸣(E-mail:)专刊:“基础研究”联合专刊Special Issue:
8、Basic Research39数据与计算发展前沿,2023,5(4)刘端阳 等:有监督学习算法在材料科学中的应用limitations of the authors expertise,the focus of the article is primarily on the application of supervised machine learning methods in material property prediction and a few other areas.Citations regarding to unsupervised learning and other r
9、esearch fields in materials science are currently inadequate.Conclusions This is an emerging field that is expected to become an important component of materials science in the future.Keywords:machine learning;materials science;neural networks;algorithms;properties prediction1 有监督学习理论及其算法流程机器学习的理论首先
10、假定所有的数据都是在相同的隐藏统计规律下产生,同样的统计规律下产生了不同的数据样本点。特征是用于描述每个样本点的若干属性,不同的样本点其特征不同,为了使机器学习的效果更好,应提取到最能反映问题核心的样本特征;而模型则是通过样本特征映射到机器学习研究问题中关心的目标属性的一个映射或者说是程序中的函数,这些目标属性包括在分类问题中的所属类别,回归问题中的标签值等,应根据关心的问题类型选择适合的机器学习模型;而算法的选择要合理且有效,通过对训练数据的拟合,对模型参数进行优化,从而获得优化后可实用的模型。通常在有监督学习中,通过最小化损失函数来实现优化目标。目前,大量的材料数据库为机器学习提供了丰富的
11、训练数据,很多数据库都提供了材料的多种属性,如原子信息、晶格类型、空间群、晶格常数、能带带隙甚至其他各种材料物理化学属性。若以每种材料为一个样本点,这些属性都可以作为机器学习的样本特征或者标签。值得注意的是,很多时候需要挖掘出反映所关心问题的更深层的特征,往往需要搜寻相关其他的数据甚至对找到的一些原始特征进行转换。用于描述材料样本的原始特征可以分为以下三类:(1)原子信息,在这类特征类型中,不仅可以使用原子数目作为特征,还可以使用原子的其他属性,如电负性、香农半径等;(2)材料属性,例如晶格常数、空间群、吸收光谱等,这类特引 言近年来,随着实验科学的进步和材料计算科学的巨大发展,研究者们对数以
12、百万计的材料进行了实验合成,性能表征以及理论计算。在此基础上,已经建立了多种高质量的材料数据库,例如 Materials Project 1、C2DB2、AFlow3-4、GDB-135、和 QM96等。巨大的材料数据库为实现更多样化的材料功能提供了可能性,但另一方面也提高了优化和筛选材料的难度。与此同时,机器学习方法在计算机科学以外的许多领域中得到了应用,其核心是让机器自动从复杂的数据中学习到隐藏在其中的规律。因此,鉴于材料数据库越来越庞大,对材料的性能要求也越来越复杂,在材料科学的领域中,有相当多的学者在研究中引入了机器学习的方法7-15。从机器学习的分类来说,可以大致分为有监督学习、无监
13、督学习和强化学习,前两者的主要区别是训练数据中是否有明确的目标标签。在目前的材料科学领域中,仍然是以有监督学习为主。本文主要介绍有监督学习在材料科学研究中的应用现状。本文的结构如下:首先介绍机器学习的基本理论及其在材料科学研究中使用机器学习技术常用的流程;接下来对几种有监督学习技术及其在材料研究领域中的应用情况做了介绍;之后对有监督学习在这一领域的几个重点研究方向进行了叙述;最后对机器学习在材料科学中的应用进行简要总结,并展望本领域的一些研究前景。40数据与计算发展前沿,2023,5(4)刘端阳 等:有监督学习算法在材料科学中的应用征类似于原子信息,既适用于分类又适用于回归;(3)原子配置,对
14、于这种类型,原始特征是所有原子的类型和位置,往往不能直接用于机器学习模型,需要对其进行一定程度的转换。机器学习的模型和算法往往是一体的,不同的模型对应着不同的优化算法,因此很多时候其含义与语境有关,例如当提到机器学习的几大算法时,是指某种模型和算法的整体。针对问题的不同,适用不同种类的模型和算法。常见的有两类问题:分类问题和回归问题,这也是材料科学中常见的两类问题。所谓分类问题,是指将样本归类到不同的种类中,更细致的还可以分成二分类和多分类问题,其学习目标是一个分类,为了使模型是连续函数,能够使用梯度算法,在实际模型和算法中往往使用One-Hot 型的学习目标,并使用交叉熵作为损失函数。而所谓
15、回归问题,则学习的目标是一个标量,学习任务是使得模型得到的目标尽量准确,在训练数据集上则是要得到更为接近标签值。总体而言,需要根据问题的形式,选择一个合适的算法模型,其输入是样本点的特征,输出是分类或者回归的目标,然后按照问题的形式,选择一个合适、能够反映模型预测在训练数据集上优劣的基于目标的损失函数,按照特定算法和特定步骤优化模型参数减小损失函数,获得优化的模型。根据以上有监督学习的理论,在材料科学中的机器学习的流程如图 1 所示,按照流程顺序:(1)收集数据:要选择足够的合适的训练数据集,可以从现有的材料数据库中选择,也可以通过理论计算或实验自行产生;(2)特征工程与特征转换:根据需要对数
16、据集中材料样本点的原始特征进行筛选或转换;(3)建立模型,该模型的输入是筛选或转换后的材料特征,输出是问题关心的目标数据的形式;(4)模型训练,即使用模型对训练数据集中的规律进行学习,优化模型参数;(5)使用模型,将优化好的模型用于目标任务。在实际过程中,流程并非完全按照上述顺序操作,例如特征工程的特征筛选工作往往是要借助于模型训练的结果;再如对模型的超参数进行优化时,也是需要根据不同超参数的模型训练结果的优劣对模型进行筛选。2 几种有监督学习算法自从机器学习于 1957 年被提出以来,已研究出大量的机器学习算法。其中许多算法已经被应用于材料领域的机器学习中。选择合适的机器学习算法是机器学习研
17、究中的一个重要问题。对于有监督学习,分类和回归问题有不同适用的算法。如果特征与目标属性之间的关系不是近似线性,简单的线性算法无法给出很好的结果。本文将介绍材料研究领域中一些流行的机器学习算法。2.1 支持向量机监督学习的任务大致可以分为两种类型:分类和回归。分类的算法大致分为两种类型:线性和非线性。支持向量机(Support Vector Machine,SVM)具有线性和非线性的算法16。SVM 不仅仅是一个经典的算法,其概念还启发了许多其他算法的发展,特别是在许多流行算法中使用的对偶算法和核函数的概念17。对于分类问题,SVM 是一收集数据特征筛选与转换训练过程评估与使用模型原始特征标签图
18、 1 有监督学习流程的简略图示Fig.1 Simplified diagram of supervised learning process41数据与计算发展前沿,2023,5(4)刘端阳 等:有监督学习算法在材料科学中的应用个强大的工具,已被广泛应用于材料科学研究中。例如,SVM 被用于预测一种材料是半导体还是金 属18-20,一种半导体的能隙是直接的还是间接的21,或者其他性质22-23。2.2 核岭回归核岭回归(Kernel Ridge Regression,KRR)是代表性的核方法24。如 2.1 节所述,核方法的概念源自非线性 SVM。在核方法中,核心是核函数,它隐式地将初始特征转换
19、为一个新的高维特征空间。这将带来两个好处:更强地表达能力以及可以用在新特征空间中的线性拟合的方式实现在原始特征空间中的非线性拟合效果。为了避免复杂的计算,新特征并没有被显式计算出来,而是通过核函数计算它们的内积。基于这些新特征,可以应用线性分类或线性回归。显然,该方法的性能依赖于核函数,因此选择合适的核函数对于核方法非常重要。如果在最后的线性回归中添加岭项以避免不稳定的结果,那么就是 KRR。通过合适的核函数,KRR 表现出优秀的回归性能,包括较小的误差和较高的稳定性。因此,KRR 被广泛应用于关于材料的机器学习研究中25-28。由于KRR方法需要一个NN的格拉姆矩阵,其中 N 是样本点的数量
20、,它更适用于系统较小或样本较少的问题,如有机材料12,29-31。2.3 决策树虽然决策树(Decision Tree,DT)算法 CART32可以处理回归问题,但人们更倾向于使用决策树来解决分类问题。通过训练好的决策树,可以对新的示例进行正确分类。一个分类决策树的生成包括两个步骤的循环:根据某个规则选择一个特征,以及根据所选特征的取值集构建一些子节点。在流行的决策树算法中,ID333和 C4.534使用信息增益或信息增益比作为选择特征的判断依据,因此它们更适用于离散特征。CART 算法使用基尼指数作为特征选择的判断依据,因此更自然地适用于具有连续特征的问题。为了避免过拟合,有必要对生成的决策
21、树进行剪枝。在剪枝过程中,将某些子树缩减为其根节点,这可以被视为结构风险最小化。在生成决策树时,通过随机地从原始训练数据中选择一些数据,并在决策树每个特征选择的步骤中加上一定的随机因素,从而可以生成许多不同的随机决策树。如果需要对新示例进行分类,可以从每个决策树得到一个分类结果,最后可以使用多数投票来决定新示例的分类。这是随机决策森林(Random Decision Forest,RF)的著名算法35。RF 可以被看作是决策树的扩展。决策树和随机森林算法都被广泛应用于解决材料研究的许多问题,例如预测能隙7,26,36-37,其他材料属性22,23,38,39。2.4 人工神经网络人 工 神 经
22、 网 络(Artificial Neural Networks,ANN)具有较强的表达能力,若其具有足够的节点或参数,就可以以任意精度逼近几乎任何函数。而且 ANN 可以自动提取样本或输入数据的隐藏深层特征。由于这两个优势,ANN 被广泛应用于许多研究领域。在材料科学领域,研究人员将它们应用于形成能的预测8,29,40,能隙的预测26,31,39,其他材料属性的预测23,41-42等。2.5 其他算法除 了 SVM、KRR、DT、RF、ANN 之 外,还有许多其他算法被应用于半导体材料和半导体制造的研究中。受学术水平和文章篇幅的限制,无法在本节中介绍该领域的其他新算法。线性拟合方法是一组基础且
23、有用的方法。虽然其可能不适用于某些具有非线性因素的问题,但具有计算复杂性低的优点。线性拟合方法已经用于预测能隙19,26,38,磁性42数据与计算发展前沿,2023,5(4)刘端阳 等:有监督学习算法在材料科学中的应用属性11等方面。提升算法可以改善某种学习模型的训练效果,因此它已经在材料研究的许多领域中得到应用26,43-44。主动学习是一种先进的算法,它允许在预测中改善已学习模型,因此被应用于处理一些在训练之前难以收集足够合适数据的问题,例如机器学习力场(MLFF)14,45。除了这些算法之外,材料领域的研究人员还使用了其他算法,如遗传算法(GA)46、朴素贝叶斯(NB)47、迁移学习(T
24、L)48等。3 有监督学习的应用现状有监督学习技术的应用在材料研究领域中正经历快速发展的时期,并已经帮助研究人员取得了较大的进展。除了一些比较特别的研究方向,如半导体晶体生长中的动力学模拟49,通过自然语言处理(NLP)自动生成的带隙数据库50等,有监督学习方法在材料研究中主要用于三类问题。3.1 材料发现与设计一方面,通过分析大规模的材料数据库以及理论和实验的数据,机器学习可以预测材料的性质、优化材料的特定属性,并提供新的候选材料,有助于加快新材料的研发过程,节省时间和资源8,21。另一方面,分类是机器学习的一个重要类别,在材料领域,将不同的材料分类是一项重要的研究课题,这种分类对于新材料的
25、发现具有重要意义。通过机器学习算法,可以根据半导体材料的特征和性质将其分为不同的类别。这种分类可以帮助研究人员系统地组织和理解大量的材料数据,为新材料的发现和设计提供指导和启示。利用图卷积神经网络,麻省理工学院的研究人员预测了钙钛矿材料的能隙、形成能以及其他性 质8,且成功预测了这些钙钛矿材料的金属和半导体分类。图 2a 展示了晶胞的原子位置信息和无向图的映射关系;图 2b 展示了表示钙钛矿晶体的无向图如何作为神经网络的输入。该组的研究人员对 9,350 个测试晶体进行了模型训练和验证,获得了高达 90%的分类预测准确率。(a)(b)R Conv L1 hiddenPooling L2 hid
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 监督 学习 算法 材料科学 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。