网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

主成分分析及聚类方法在碲镉汞晶片参数判别中的应用研究  PDF

  • 吴佳昊 1,2
  • 乔辉 1
  • 李向阳 1
1. 中国科学院上海技术物理研究所,上海200083; 2. 上海科技大学 信息科学与技术学院,上海201210

中图分类号: O471.2TP311

最近更新:2024-08-20

DOI:10.11972/j.issn.1001-9014.2024.04.008

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

基于主成分分析和聚类方法提出了一种碲镉汞晶片参数筛选方法,建立了对碲镉汞晶片参数进行筛选的数据模型,模型中通过对初始晶片数据进行清洗和分析,利用主成分分析(PCA)降维法和基于密度的聚类算法(DBSCAN),确定了晶片数据中最密集的区域。同时利用流片后得到高性能芯片的优质碲镉汞晶片参数拟合边界椭圆曲线,并将其作为优质晶片的判断标准,能够根据输入的晶片电学和光学参数生成晶片评级,得到了大于90%的覆盖率。

引言

碲镉汞材料因其具有电子有效质量小、吸收系数高以及工作温度高等优点,被广泛认为是一种重要的窄禁带红外半导体材料。由碲镉汞制成的探测器因其低噪声、高探测率和响应波段宽等特点,得到了广泛的应用。在碲镉汞探测器的制备工艺中,高性能碲镉汞材料的选片是关键步骤,相比更多依赖个人经验的定性判断,需要建立一种更为科学、客观、高效的晶片筛选方

1-2

作为一种三元系合金,碲镉汞材料由碲化镉和碲化汞两者组成,其禁带宽度以及光学和电学特性参数与组分x密切相关。碲镉汞材料的电学特性参数通常包括载流子浓度、电阻率和迁移率;光学特性参数通常包括材料的组分和透过率等。碲镉汞材料特性与器件性能参数密切相关。文献[

3]基于大量材料和芯片性能数据拟合出其所生长的碲镉汞材料电学参数的经验公式,给出了300 K下碲镉汞材料电子浓度、电子迁移率、电阻率与组分x之间的关系,并以此作为芯片制备中碲镉汞材料筛选的重要依据。国内的情况也类似,对于碲镉汞晶片参数的筛选主要基于大量流片经验的总结。这种材料筛选方式的缺点显而易见,筛选效率和准确性都受到限制。

目前,随着科研活动越来越多步入数据密集型的“第四范式时代

4,论文提出一种基于主成分分析和聚类算法的碲镉汞晶片参数筛选方法,通过对大量晶片测试数据进行处理和分析,建立了对碲镉汞晶片参数进行筛选的数据模型。论文的第一部分介绍了碲镉汞材料的电学和光学参数以及测试方法;第二部分介绍了主成分分析和聚类算法;第三部分介绍了基于大量碲镉汞材料电学和光学特性参数利用算法得到的碲镉汞材料参数筛选模型;最后一部分是文章的总结。

1 碲镉汞材料性能数据

1.1 碲镉汞材料

碲镉汞材料的生长采用碲作熔剂的移动加热器法(THM)。生长好的锭条从石英安瓿中取出后,经过切片、磨片、清洗、热处理等工艺后,得到直径为15 mm、厚度为600~700 μm的碲镉汞晶片。

1.2 电学参数测试

文章中碲镉汞材料的电学参数是通过范德堡法霍尔测试得到,霍尔测试中直接测试得到的参数为霍尔电压和电阻。以N型半导体为例,将正方形碲镉汞样品置于均匀磁场中,在材料中施加电流,电场方向与磁场方向相互垂直,假设电场沿x方向,磁场沿z方向,载流子在洛伦兹力的影响下将向负y方向偏移并聚集,从而在垂直于电场和磁场的方向上产生一个横向电场,即所谓霍尔电压。当横向电场力和洛伦兹力达到平衡状态,可用以下方程表示:

qEy-qvxBz=0. (1)

实际测试过程中,为了消除材料均匀性和电极接触等影响,需要进行电场和磁场反向取平均值。磁场沿+z轴方向的情况下,施加从触点1到触点3的电流I13,并测量触点2和触点4之间的电压V24P。然后将电流反向,得到I31并测得电压V42P。更换电场电极,得到电流I42下的电压V13PI24下的电压V31P。接着,将磁场反向,即为-z磁场,重复上述测量,得到I13I31I42I24相对应的V24NV42NV13NV31N。之后计算出VCVDVEVF

VC=V24P-V24N,VD=V42P-V42N , (2)
VE=V13P-V13N,VF=V31P-V31N . (3)

为了测量碲镉汞晶片的电阻,首先需要设定直流电流I。在触点1和触点2之间施加电流I21,然后测量电压V34。接着,将电流反向得到I12,并测得电压V43。通过重复这些步骤,测得V41V14V12V21V23V32等电压值。在测量之前和之后,还需要分别测量温度,以确保温度的稳定性。如果两次测量的温度相差超过1 ℃,则需要等待温度稳定后,才能继续测量上述电压值。

接下来,将测得的八个电压值除以相应的电流值,得到八个正电阻值。为确保测量一致性,需要确保电流反向后得到的电阻值相等,因此可以计算出两个特征电阻值RARB

RA=(R21,34+R12,43+R43,12+R34,21)/4 (4)
RB=(R32,41+R23,14+R14,23+R41,32)/4 (5)

RARB满足范德堡公

5

exp(-πRA/RS)+exp(-πRB/RS)=1 (6)

通过这些步骤,可以得到方块电阻RS,电阻率ρ可以通过ρ=RSd计算得出。

为了测量碲镉汞晶片的载流子密度,首先施加一个正向的磁场,设为沿z轴方向,然后施加一个从触点1到触点3的电流I13并测量触点2和触点4之间的电压V24PP指此时施加的磁场方向为正向),将电流反向即为I31并测得电压V42P,继续测量,得到电流I42下的电压V13PI24下的电压V31P。将磁场反向,此时为负向磁场,重复上述测量,得到I13I31I42I24和相对应的V24NV42NV13NV31N。此次测量也要注意温度一致性。计算:

VC=V24P-V24N , (7)
VD=V42P-V42N , (8)
VE=V13P-V13N , (9)
VF=V31P-V31N . (10)

片状载流子密度可由ns = 8×10-8IB/[qVC + VD + VE + VF)]计算得出,载流子密度n可以通过n = ns/d得到。

通过以上霍尔测量方法,可以获得碲镉汞晶片的电学参数,包括载流子浓度和电阻率。对碲镉汞N型晶片的电学参数测量结果,如图1图2所示。

图1  室温电子浓度关于组分的图像

Fig. 1  Electron concentration at 300 K for Hg1-xCdxTe materials

图2  室温电阻率关于组分的图像

Fig. 2  Electrical resistivity at 300 K as a function of composition

测量结果表明,在室温下,电子浓度和电阻率与组分x高度相关,因为组分x与碲镉汞晶片的禁带宽度直接相

6,从而直接影响了热激发下的载流子浓度和电阻率。

此外,如图3图4所示,随着组分x增大,低温电子浓度和低温电阻率变化基本没有规律,与组分关联较小,表明此时载流子不由热激发主导,而是主要来自杂质掺杂。

图3  低温电子浓度关于组分的图像

Fig. 3  Electron concentration at 77 K for Hg1-xCdxTe materials

图4  低温电阻率关于组分的图像

Fig. 4  Electrical resistivity at 77 K for Hg1-xCdxTe materials

1.3 光学参数测试

傅里叶红外光谱仪(FTIR)利用傅里叶变换的原理,将入射的红外光进行频率分解,以获取每个频率成分的信息。其工作原理基于迈克尔逊干涉技术,红外光源发出的光经过待测样品后进入干涉仪,利用固定镜和移动镜的光程差形成干涉条纹。干涉后的光进入探测器,探测器将光强信号转换为电信号。最后这组电信号经过傅里叶变换,得到样品对不同波长光的吸收信息,从而反映样品的组成信息。

由FTIR测量出碲镉汞晶片的透射率和组分x,得到图5

图5  透过率关于组分的图像

Fig. 5  Transmissivity for Hg1-xCdxTe materials

通过分析图像可以发现,透过率随着组分x的变化呈现出一个先下降后上升最后趋于稳定的趋势,这表明透过率与组分x之间存在较强的相关性。

2 基于主成分分析的机器学习算法

2.1 主成分分析

主成分分析(PCA)是一种广泛使用的数据降维算法,在多元变量分析领域,主成分分析被用作一种统计分析技术,以简化数据

7-8。该方法运用正交变换对一组潜在相关的变量观测值进行线性转换,将其投影为一系列线性无关的新变量,这些新变量被称为主成9-10

在对碲镉汞晶片样品进行电学和光学参数测量后,对其进行进一步的数据处理,并进行主成分分析。该分析旨在将原始n维特征映射到新的k维正交特征空间上,这些正交特征即为主成分。主成分分析在保留信息的前提下,将数据从原始空间转化到一组相互正交的新坐标轴上。这些新坐标轴的第一个坐标轴的方差最大,第二个坐标轴与第一个坐标轴正交且具有最大方差,其余坐标轴遵循相似规律。因此,通过这种方式,前k个主成分涵盖了数据绝大部分的方差,而后续主成分的方差逐渐趋近于零。通过保留前k个主成分,保存数据的绝大部分方差信息,实现数据降维。

对于数据集X={x1,x2,x3,,xn},为实现降维到k维,首先对数据进行去平均值操作,即去中心化,将每一维特征减去其各自的平均值。其次计算数据的协方差矩阵1nXXT,利用特征值分解方法对协方差矩阵1nXXT进行分解,得到特征值与相应的特征向量。对所得特征值进行从大到小的排序,并选择其中最大的k个特征值,将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。最终得到降维后的数据Y=PX,其中Y为数据在新的k维特征空间中的表

11-12

2.2 DBSCAN聚类算法

经主成分降维后的数据需要使用DBSCAN聚类算法找到数据点最密集的区域,并以此作为判别依据。

DBSCAN是一种基于密度的空间聚类算法,特点在于能够有效地在含有噪声的数据集中发现各种形状的聚类结构。该算法的核心思想在于根据数据点的密度情况来进行聚类,从而适应不同密度分布的数据集。它依赖于两个参数:epsilon和minPts。Epsilon确定聚类的最大半径,minPts定义形成聚类所需的最少样本数。DBSCAN从每个点出发,以epsilon为半径绘制圆,若圆内点数不小于minPts,则形成一个聚类。随后扩展该聚类,直至新加入点数不足minPts。通过调整epsilon和minPts,DBSCAN能有效划分样本点密集区域作为聚类,并过滤噪声

13-15

2.3 Alpha shape算法

通过聚类算法确定数据集中最密集区域的簇类后,需要找到该簇类的边界,通过判断数据点是否在边界内确定碲镉汞晶片评级。

Alpha shape是描述点集合在空间中的形状轮廓的一种方法,其基本思想是给点集中的每个点放置一个球,球的半径可调整。当半径很小时,球不相交,alpha shape就是点集本身。当半径增大,球开始相交,形成联通区域。Alpha shape由这些区域边界组成,反映了点集在此半径下的形状轮廓。具体来说,算法可以从点集出发构建一种特殊的三角剖分。当两个点所在球相交时,连接这两个点;当三个点所在球有公共交集时,用这三点构成一个三角形。随着α增大,三角剖分中包含的三角形越来越多,alpha shape就是其中的一部分。Alpha shape反映了点集在不同尺度下的拓扑结构,是理解和分析点集形状的有效工

16-17

3 计算结果

3.1 降维

将组分范围设置成0.18~0.3,因为光谱仪的截止波长是25 μm,能测到的最小组分是0.18,而组分位于0.3以上的晶片,用P型片做光伏片,T组分位于0.3以下的晶片,用N型片做光导片,这里只对N型片进行分析。接着对初始数据去除粗大误差值,每组包括六个属性,分别是室温电子浓度、室温电阻率、低温电子浓度、低温电阻率、透过率和组分。对数据进行主成分分析并计算每个主成分的方差,得到主成分的累计方差图如图6所示。

图6  主成分的累计方差图

Fig. 6  Cumulative variance plot of principal components

降维的初始数据有6类,因此横坐标的主成分最大数量为6,当主成分数为6时,得到的方差为100%。选取的主成分数越多,数据组的方差越大,数据组经过降维后保留的信息也越多,在尽可能保留更多信息的前提下选取合适的主成分数是PCA降维法的关键,一般来说选择方差在90%~95%之间的主成分数比较合理。图6表明,当该数据组降为2维时,方差达到了94%,此时既保留了足够多的信息量,又将数据降到了合适的维度以便后续处理,因此选择将6维数据组降至2维。降为2维后的数据如图7所示,此时数据点主要呈现V形分布,绝大多部分数据位于V形两侧,只有一小部分数据分布于V形之外。得到主成分分析的降维系数,写出经过尺度缩放后主成分计算公式:

PC1=-0.692n1+ 0.071 7ρ1+ 0.019 6n2+0.19 4ρ2+ 0.685T+ 0.092 3x , (11)
PC2=0.507n1+ 0.020 2ρ1+0.071 8n2+ 0.812ρ2+ 0.279T-0.005 30x , (12)

其中,n1是室温电子浓度,ρ1是室温电阻率,n2是低温电子浓度,ρ2是低温电阻率,T是透过率,x是组分。

图7  第一个主成分关于第二个主成分的图像

Fig. 7  Score plot of first principal component versus second principal component

3.2 聚类算法

对经过降维处理的数据运用DBSCAN聚类算法时,这一过程如图8所示。聚类算法将这些数据点划分为多个簇,其中蓝色的Cluster 0呈现出最大的聚集规模。该聚类过程有效地将大部分分散的噪声数据成功隔离。接着将经过流片验证的高质量晶片数据按照相同的模型进行缩放和PCA降维处理,将其整合到同一图像中,得到图9

图8  对初始数据进行DBSCAN聚类算法后的图像

Fig. 8  Cluster plot after DBSCAN clustering algorithm on original data

图9  优质长波和中波材料的主成分图像

Fig. 9  Principal component plot of high-quality long-wave and mid-wave materials

图9可以观察到,长波段(0.194 ≤ x ≤ 0.231)和中波段(0.259 ≤ x ≤ 0.283)晶片的聚类结果与实际情况高度吻合,这些晶片主要分布于图像中V字形状的两侧。

3.3 判别边界

运用alpha shape算法来界定聚集规模最大的簇的边界,并根据xy方向的平均值和标准差画出判别椭圆,将其作为判定高质量晶片的标准,具体示例如图10图11所示。图10呈现了长波段体晶材料所在的边界,而图11则描绘了中波段体晶材料的边界。长波材料和中波材料的椭圆方程分别为:

((xcos(45)+ysin(45))×0.254 - 0.292)2/0.5052 +((-xsin(45)+ycos(45))×0.143+0.026 1)2 / 1.3212= 1 , (13)
((xcos(45)+ysin(45))×0.230+ 0.333)2/1.2842+((-xsin(45)+ycos(45))×0.139-0.093 5)2/ 0.5942= 1 . (14)

图10  优质长波材料的判别椭圆图像

Fig. 10  Discriminant ellipse plot of high-quality long-wave materials

图11  优质中波材料的判别椭圆图像

Fig. 11  Discriminant ellipse plot of high-quality mid-wave materials

基于优质晶片数据点的聚集现象,把在椭圆内的数据点定义为A类晶片,在椭圆外的数据点定义为B类晶片,基于椭圆曲线和降维公式,可以把初始晶片电学参数和光学参数对应起来,得到长波材料和中波材料的判别公式分别为:

M=3.92×(-0.003 98 T+2.54n1×10-17+2.33n2× 10-18-0.016 2ρ1+0.078 8ρ2- 0.108 x- 1)2+6.93×(0.048 4 T+6.48n1×10-18+6.25n2×10-18+0.095 0ρ1+0.204ρ2+ 0.174x- 1)2-10.194  x  0.231 , (15)
M = 0.339×(-0.043 6 T+2.27n1×10-16+1.99n2× 10-17-0.161ρ1+0.674ρ2-x-0.680)2+5.21×(0.026 2 T+2.52n1×10-18+3.28n2×10-18+0.051 7ρ1+0.107ρ2+ 0.097 6x- 1)2-10.258  x  0.284 . (16)

当M<0,判别为A类晶片,当M>0,判别为B类晶片。经过验证,模型对优质长波晶片的覆盖率为91.4%,对优质中波晶片的覆盖率为90.6%。通过对整个晶片数据组进行筛选,得到长波段A类晶片占比为67.8%,中波段A类晶片占比为54.3%。

4 总结

本文提出了一种基于主成分分析和聚类方法的碲镉汞晶片参数筛选方法,针对包括电学参数和光学参数的碲镉汞晶片测试数据,利用主成分分析对高维度的数据进行降维,并通过DBSCAN聚类算法找到数据分布最密集的区域。最后使用alpha shape算法确定聚类区域的边界椭圆,作为判别优质晶片质量的标准,得到了较好的准确率。该方法利用经典算法,通过数据驱动实现了晶片参数的筛选,与传统经验方法相比,提高了筛选效率,使碲镉汞晶片筛选更具科学客观性。今后可继续收集更多碲镉汞晶片数据,扩充样本规模,并从更多维度考虑影响碲镉汞晶片质量的因素,进一步提升筛选的准确性。本研究也为后续大规模快速筛选碲镉汞芯片性能数据并在碲镉汞材料参数与芯片性能之间建立映射关系提供了基础。

References

1

Li X YSang M SXu G Qet al. Simulation on the saturation properties of room-temperature mid-wave infrared HgCdTe detectors[J]. (李向阳, 桑茂盛, 徐国庆, 等. 室温中波红外碲镉汞探测器激光辐照饱和特性的仿真[J].红外与毫米波学报), Journal of Infrared and Millimeter Waves, 20234202): 143-148. [百度学术] 

2

Sang M SXu G QQiao Het al. High speed uncooled MWIR infrared HgCdTe photodetector based on graded bandgap structure[J]. (桑茂盛, 徐国庆, 乔辉,等. 基于梯度能带结构的高速非制冷中波红外HgCdTe探测器[J].红外与毫米波学报),Journal of Infrared and Millimeter Waves, 2022416): 972-979. [百度学术] 

3

Higgins W MPultzG NRoy R Get al. Standard relationships in the properties of Hg1-xCdxTe[J]. Journal of Vacuum Science and Technology198972): 271-275. [百度学术] 

4

Zhonghua DZhifang L. The evolution of scientific research paradigm: The fourth paradigm of scientific research in the Era of big data[J]. Information and Documentation Services2013344): 19-23. [百度学术] 

5

I. J. van der Pauw. A method of measuring specific resistivity and Hall effect of discs of arbitrary shape[J]. Philips Res. Rep1958131): 1-9. [百度学术] 

6

Yang J R. Physics and Technology of HgCdTe Materials[M]. National Defense Industry PressBeijing. [百度学术] 

杨建荣. 碲镉汞材料物理与技术[M]. 北京国防工业出版社)2012808431-3. [百度学术] 

7

Vidal RMa YSastry S Set al. Principal component analysis[J]. Generalized principal component analysis201625-62. [百度学术] 

8

A. WeingesselK. Hornik. Local PCA algorithms[J]. IEEE Transactions on Neural Networks2000116): 1242-1250. [百度学术] 

9

Greenacre MGroenen P J FHastie Tet al. Principal component analysis[J]. Nature Reviews Methods Primers202221): 100. [百度学术] 

10

Sehgal SSingh HAgarwal Met al. Data analysis using principal component analysis[C]//2014 international conference on medical imaging, m-health and emerging communication systems (MedCom). IEEE201445-48. [百度学术] 

11

Groth DHartmann SKlie Set al. Principal components analysis[J]. Computational Toxicology: Volume II2013527-547. [百度学术] 

12

Kong XHu CDuan Zet al. Generalized principal component analysis[J]. Principal Component Analysis Networks and Algorithms2017185-233. [百度学术] 

13

Schubert ESander JEster Met al. DBSCAN revisited, revisited: why and how you should (still) use DBSCAN[J]. ACM Transactions on Database Systems (TODS)2017423): 1-21. [百度学术] 

14

Khan KRehman S UAziz Ket al. DBSCAN: Past, present and future[C]//The fifth international conference on the applications of digital information and web technologies (ICADIWT 2014). IEEE2014232-238. [百度学术] 

15

Hou JGao HLi X. DSets-DBSCAN: A parameter-free clustering algorithm[J]. IEEE Transactions on Image Processing2016257): 3182-3193. [百度学术] 

16

Edelsbrunner HMücke E P. Three-dimensional alpha shapes[J]. ACM Transactions On Graphics (TOG)1994131): 43-72. [百度学术] 

17

Edelsbrunner H. Alpha shapes-a survey[M]// Tessellations in the Sciences: Virtues, Techniques and Applications of Geometric Tilings2011. [百度学术]