剪切机械

CMS不平衡数据集的机器学习在3d5d

发布时间:2022/6/16 13:41:04   
寻找新的3d-5d双钙钛矿是设计用于自旋电子器件的新型磁性和磁电材料的重要要求。但第一性原理法计算量大,对材料数据库的建立具有很大的限制,效率较低。为了加快新材料数据库的建立,机器学习(ML)已经被用于寻找能够准确预测带隙、体模量和剪切模量的新材料。但是ML在应用中还存在一些关键问题,尚未引起足够的重视。其中之一是不平衡问题,即数据集中类的分布是倾斜的,这对结果有重要影响。有许多因素可能导致不平衡问题,例如,对良好数据的偏好、不同的标准和缺乏数据库。来自南京大学的WendiZheng等人研究了使用机器学习搜索双3d-5d钙钛矿的方法,采用阈值移动、过采样和欠采样三种方法来解决不平衡问题。为了估计不同的机器学习算法,避免不平衡数据集的影响,采用几何平均得分和准确度来代替传统的精度和召回率。在这三种方法中,欠采样法的准确率最高,为92%,几何平均分为0.82。在个候选化合物中,我们发现了个3d-5d双钙钛矿。在这里,3d过渡金属的强磁耦合和5d过渡金属的强自旋轨道耦合,新发现的3d-5d双钙钛矿结构拓宽了自旋电子学的设计路线。在对材料项目的数据进行收集和预处理后,首先使用统计学方法研究初始数据集的分布。如图1(a)所示,Ba、Sr和Ca是初始数据集中最常见的a位元素,已被广泛研究,它们都是二价阳离子。除了A位元素外,还发现了三种最常见的B位元素,即Ta、Sb和W。最常见的B位元素对是Ni-Ru、V-Fe、Mn-Ni。如图1(b)所示,所有研究元素的b位元素分布趋于均匀。如图1(d)所示,一些钙钛矿结构和非钙钛矿结构具有非常相似的戈德施密特容差因子和八面体因子。

图1初始数据集的数据分析。(a-c)初始数据集中最常见的A位、B位和B位阳离子对。(d)钙钛矿根据容差和八面体因子的结构图,红点和蓝点分别对应双钙钛矿和非双钙钛矿。

如表1所示,欠采样法RUSboost模型的几何平均分最高(0.82),准确率最高(92%),在双钙钛矿和非双钙钛矿之间取得了平衡。双钙钛矿的准确率(TruePositiveRate)为96.27%,非双钙钛矿的准确率(TrueNegativeRate)为70%。这意味着在三种基于缩放策略的衍生方法中,欠采样方法取得了最好的效果。此外,欠采样和集成方法在此工作中效果良好,可以推广到其他不平衡问题。

表1模型在测试集中的几何平均得分和精度。TPR(TruePositiveRate)表示双钙钛矿的准确性,TNR(TrueNegativeRate)表示非双钙钛矿的准确性。

由于RUSboost模型在所有模型中性能最好,因此采用RUSboost模型作为最终模型,并对所有数据进行训练。基于RUSboost方法的原理(欠采样和集成),可以得到各子模型特征的综合重要性,如图2所示。

图2RUSboost模型的特征重要性。

3d-5d双钙钛矿的概率频率如图3所示。可以看到,大多数化合物被预测为双钙钛矿,因为它们的概率大于0.5。为了清晰起见,根据化合物预测概率的值将其分为高[0.57,1.0]、中[0.50,0.57)和低[0,0.50)三大类,其中考虑的化合物分别约占20%、60%和20%。

图3RUSboost模型预测的3d-5d双钙钛矿概率的累积频率。

如图4所示,红色、橙色、紫色分别代表高、中、低概率范围。蓝绿色和黑色分别代表数据集中的双钙钛矿和非双钙钛矿。

图43d-5d双钙钛矿的预测。面板顶部的标题显示A位元素。左轴和下轴分别显示3d和5dB位元素。红色、橙色和紫色分别表示高[0.57,1.0]、中[0.50,0.57)和低[0,0.50)概率。青色和黑色分别表示初始数据集中存在的双钙钛矿和非双钙钛矿。

相关成果以“Machinelearningforimbalanceddatasets:Applicationinpredictionof3d-5ddoubleperovskitestructures”为题发表在ComputationalMaterialsScience上(Volume,June,Articlenumber),论文第一作者为WendiZheng,通讯作者为LanChen。

论文链接:



转载请注明:http://www.aideyishus.com/lkjg/589.html

------分隔线----------------------------

热点文章

  • 没有热点文章

推荐文章

  • 没有推荐文章