当前位置: 剪切机械 >> 剪切机械市场 >> CMS不平衡数据集的机器学习在3d5d
图1初始数据集的数据分析。(a-c)初始数据集中最常见的A位、B位和B位阳离子对。(d)钙钛矿根据容差和八面体因子的结构图,红点和蓝点分别对应双钙钛矿和非双钙钛矿。
如表1所示,欠采样法RUSboost模型的几何平均分最高(0.82),准确率最高(92%),在双钙钛矿和非双钙钛矿之间取得了平衡。双钙钛矿的准确率(TruePositiveRate)为96.27%,非双钙钛矿的准确率(TrueNegativeRate)为70%。这意味着在三种基于缩放策略的衍生方法中,欠采样方法取得了最好的效果。此外,欠采样和集成方法在此工作中效果良好,可以推广到其他不平衡问题。表1模型在测试集中的几何平均得分和精度。TPR(TruePositiveRate)表示双钙钛矿的准确性,TNR(TrueNegativeRate)表示非双钙钛矿的准确性。
由于RUSboost模型在所有模型中性能最好,因此采用RUSboost模型作为最终模型,并对所有数据进行训练。基于RUSboost方法的原理(欠采样和集成),可以得到各子模型特征的综合重要性,如图2所示。图2RUSboost模型的特征重要性。
3d-5d双钙钛矿的概率频率如图3所示。可以看到,大多数化合物被预测为双钙钛矿,因为它们的概率大于0.5。为了清晰起见,根据化合物预测概率的值将其分为高[0.57,1.0]、中[0.50,0.57)和低[0,0.50)三大类,其中考虑的化合物分别约占20%、60%和20%。图3RUSboost模型预测的3d-5d双钙钛矿概率的累积频率。
如图4所示,红色、橙色、紫色分别代表高、中、低概率范围。蓝绿色和黑色分别代表数据集中的双钙钛矿和非双钙钛矿。图43d-5d双钙钛矿的预测。面板顶部的标题显示A位元素。左轴和下轴分别显示3d和5dB位元素。红色、橙色和紫色分别表示高[0.57,1.0]、中[0.50,0.57)和低[0,0.50)概率。青色和黑色分别表示初始数据集中存在的双钙钛矿和非双钙钛矿。
相关成果以“Machinelearningforimbalanceddatasets:Applicationinpredictionof3d-5ddoubleperovskitestructures”为题发表在ComputationalMaterialsScience上(Volume,June,Articlenumber),论文第一作者为WendiZheng,通讯作者为LanChen。论文链接: