近来,中国科学院高能同步辐射光源(HEPS)光束线软件体系与高分辩纳米电子结构(Nano-ARPES)线站在使用无监督聚类算法区别样品外表不同电子结构区域的研讨方面获得重要发展。研讨人员开发的多阶段无监督聚类算法(Multi-Stage Clustering Algorithm,MSCA)经过主动提取能带在外表的一致性,明晰地区别出了MoS2/BN异质结中不同衬底或层数MoS2的散布,并完成了纤细能带差异的抓取。
Nano-ARPES线站经过聚集X射线光斑至纳米量级,使得研讨电子结构在外表微纳标准的散布成为可能。但是,样品外表的复杂性以及高维度的巨大数据量给Nano-ARPES的数据剖析带来了应战,特别是,因为某种诱导要素导致的纤细能带改变,比方由不同衬底或层数形成的二维资料特定能带劈裂,但是这些往往蕴含着丰厚的物理机制并且是研讨人员所重视的信息。针对这一问题,HEPS光束线软件体系的边苓竹工程师与Nano-ARPES线站的刘晨副研讨员协作开发了一种多阶段无监督聚类算法(Multi-Stage Clustering Algorithm,MSCA)。MSCA将K-Means算法使用于三个阶段的数据处理,别离完成了动量空间与实空间的聚类剖析,精确区别出了具有纤细差异的单/多层以及不同衬底的MoS2。相较于传统的无监督聚类算法,MSCA在聚类精度上提高了约20%。未来,该算法将集成到HEPS的数据收集体系(MAMBA),并使用于Nano-ARPES线站,完成数据收集过程中的在线精密聚类和能带提取,来提高Nano-ARPES数据收集功率,加快根底科研效果的产出。
一起,HEPS光束线软件体系还在活跃推进“大型科学软件结构+AI for Science”的科研范式,并与各课题组展开广泛协作,在同步辐射各类方法学的大数据处理使用中获得了一系列效果。