摘要
基于主成分分析和聚类方法提出了一种碲镉汞晶片参数筛选方法,建立了对碲镉汞晶片参数进行筛选的数据模型,模型中通过对初始晶片数据进行清洗和分析,利用主成分分析(PCA)降维法和基于密度的聚类算法(DBSCAN),确定了晶片数据中最密集的区域。同时利用流片后得到高性能芯片的优质碲镉汞晶片参数拟合边界椭圆曲线,并将其作为优质晶片的判断标准,能够根据输入的晶片电学和光学参数生成晶片评级,得到了大于90%的覆盖率。
碲镉汞材料因其具有电子有效质量小、吸收系数高以及工作温度高等优点,被广泛认为是一种重要的窄禁带红外半导体材料。由碲镉汞制成的探测器因其低噪声、高探测率和响应波段宽等特点,得到了广泛的应用。在碲镉汞探测器的制备工艺中,高性能碲镉汞材料的选片是关键步骤,相比更多依赖个人经验的定性判断,需要建立一种更为科学、客观、高效的晶片筛选方
作为一种三元系合金,碲镉汞材料由碲化镉和碲化汞两者组成,其禁带宽度以及光学和电学特性参数与组分x密切相关。碲镉汞材料的电学特性参数通常包括载流子浓度、电阻率和迁移率;光学特性参数通常包括材料的组分和透过率等。碲镉汞材料特性与器件性能参数密切相关。文献[
目前,随着科研活动越来越多步入数据密集型的“第四范式时代
碲镉汞材料的生长采用碲作熔剂的移动加热器法(THM)。生长好的锭条从石英安瓿中取出后,经过切片、磨片、清洗、热处理等工艺后,得到直径为15 mm、厚度为600~700 μm的碲镉汞晶片。
文章中碲镉汞材料的电学参数是通过范德堡法霍尔测试得到,霍尔测试中直接测试得到的参数为霍尔电压和电阻。以N型半导体为例,将正方形碲镉汞样品置于均匀磁场中,在材料中施加电流,电场方向与磁场方向相互垂直,假设电场沿x方向,磁场沿z方向,载流子在洛伦兹力的影响下将向负y方向偏移并聚集,从而在垂直于电场和磁场的方向上产生一个横向电场,即所谓霍尔电压。当横向电场力和洛伦兹力达到平衡状态,可用以下方程表示:
. | (1) |
实际测试过程中,为了消除材料均匀性和电极接触等影响,需要进行电场和磁场反向取平均值。磁场沿+z轴方向的情况下,施加从触点1到触点3的电流I13,并测量触点2和触点4之间的电压V24P。然后将电流反向,得到I31并测得电压V42P。更换电场电极,得到电流I42下的电压V13P和I24下的电压V31P。接着,将磁场反向,即为-z磁场,重复上述测量,得到I13、I31、I42、I24相对应的V24N、V42N、V13N、V31N。之后计算出VC、VD、VE和VF:
, | (2) |
. | (3) |
为了测量碲镉汞晶片的电阻,首先需要设定直流电流I。在触点1和触点2之间施加电流I21,然后测量电压V34。接着,将电流反向得到I12,并测得电压V43。通过重复这些步骤,测得V41、V14、V12、V21、V23、V32等电压值。在测量之前和之后,还需要分别测量温度,以确保温度的稳定性。如果两次测量的温度相差超过1 ℃,则需要等待温度稳定后,才能继续测量上述电压值。
接下来,将测得的八个电压值除以相应的电流值,得到八个正电阻值。为确保测量一致性,需要确保电流反向后得到的电阻值相等,因此可以计算出两个特征电阻值RA和RB:
(4) |
(5) |
而RA和RB满足范德堡公
(6) |
通过这些步骤,可以得到方块电阻RS,电阻率ρ可以通过ρ=RSd计算得出。
为了测量碲镉汞晶片的载流子密度,首先施加一个正向的磁场,设为沿z轴方向,然后施加一个从触点1到触点3的电流I13并测量触点2和触点4之间的电压V24P(P指此时施加的磁场方向为正向),将电流反向即为I31并测得电压V42P,继续测量,得到电流I42下的电压V13P和I24下的电压V31P。将磁场反向,此时为负向磁场,重复上述测量,得到I13、I31、I42、I24和相对应的V24N、V42N、V13N、V31N。此次测量也要注意温度一致性。计算:
, | (7) |
, | (8) |
, | (9) |
. | (10) |
片状载流子密度可由ns = 8×1
通过以上霍尔测量方法,可以获得碲镉汞晶片的电学参数,包括载流子浓度和电阻率。对碲镉汞N型晶片的电学参数测量结果,如

图1 室温电子浓度关于组分的图像
Fig. 1 Electron concentration at 300 K for Hg1-xCdxTe materials

图2 室温电阻率关于组分的图像
Fig. 2 Electrical resistivity at 300 K as a function of composition
测量结果表明,在室温下,电子浓度和电阻率与组分x高度相关,因为组分x与碲镉汞晶片的禁带宽度直接相
此外,如

图3 低温电子浓度关于组分的图像
Fig. 3 Electron concentration at 77 K for Hg1-xCdxTe materials

图4 低温电阻率关于组分的图像
Fig. 4 Electrical resistivity at 77 K for Hg1-xCdxTe materials
傅里叶红外光谱仪(FTIR)利用傅里叶变换的原理,将入射的红外光进行频率分解,以获取每个频率成分的信息。其工作原理基于迈克尔逊干涉技术,红外光源发出的光经过待测样品后进入干涉仪,利用固定镜和移动镜的光程差形成干涉条纹。干涉后的光进入探测器,探测器将光强信号转换为电信号。最后这组电信号经过傅里叶变换,得到样品对不同波长光的吸收信息,从而反映样品的组成信息。
由FTIR测量出碲镉汞晶片的透射率和组分x,得到

图5 透过率关于组分的图像
Fig. 5 Transmissivity for Hg1-xCdxTe materials
通过分析图像可以发现,透过率随着组分x的变化呈现出一个先下降后上升最后趋于稳定的趋势,这表明透过率与组分x之间存在较强的相关性。
主成分分析(PCA)是一种广泛使用的数据降维算法,在多元变量分析领域,主成分分析被用作一种统计分析技术,以简化数据
在对碲镉汞晶片样品进行电学和光学参数测量后,对其进行进一步的数据处理,并进行主成分分析。该分析旨在将原始n维特征映射到新的k维正交特征空间上,这些正交特征即为主成分。主成分分析在保留信息的前提下,将数据从原始空间转化到一组相互正交的新坐标轴上。这些新坐标轴的第一个坐标轴的方差最大,第二个坐标轴与第一个坐标轴正交且具有最大方差,其余坐标轴遵循相似规律。因此,通过这种方式,前k个主成分涵盖了数据绝大部分的方差,而后续主成分的方差逐渐趋近于零。通过保留前k个主成分,保存数据的绝大部分方差信息,实现数据降维。
对于数据集,为实现降维到k维,首先对数据进行去平均值操作,即去中心化,将每一维特征减去其各自的平均值。其次计算数据的协方差矩阵,利用特征值分解方法对协方差矩阵进行分解,得到特征值与相应的特征向量。对所得特征值进行从大到小的排序,并选择其中最大的k个特征值,将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。最终得到降维后的数据Y=PX,其中Y为数据在新的k维特征空间中的表
经主成分降维后的数据需要使用DBSCAN聚类算法找到数据点最密集的区域,并以此作为判别依据。
DBSCAN是一种基于密度的空间聚类算法,特点在于能够有效地在含有噪声的数据集中发现各种形状的聚类结构。该算法的核心思想在于根据数据点的密度情况来进行聚类,从而适应不同密度分布的数据集。它依赖于两个参数:epsilon和minPts。Epsilon确定聚类的最大半径,minPts定义形成聚类所需的最少样本数。DBSCAN从每个点出发,以epsilon为半径绘制圆,若圆内点数不小于minPts,则形成一个聚类。随后扩展该聚类,直至新加入点数不足minPts。通过调整epsilon和minPts,DBSCAN能有效划分样本点密集区域作为聚类,并过滤噪声
通过聚类算法确定数据集中最密集区域的簇类后,需要找到该簇类的边界,通过判断数据点是否在边界内确定碲镉汞晶片评级。
Alpha shape是描述点集合在空间中的形状轮廓的一种方法,其基本思想是给点集中的每个点放置一个球,球的半径可调整。当半径很小时,球不相交,alpha shape就是点集本身。当半径增大,球开始相交,形成联通区域。Alpha shape由这些区域边界组成,反映了点集在此半径下的形状轮廓。具体来说,算法可以从点集出发构建一种特殊的三角剖分。当两个点所在球相交时,连接这两个点;当三个点所在球有公共交集时,用这三点构成一个三角形。随着α增大,三角剖分中包含的三角形越来越多,alpha shape就是其中的一部分。Alpha shape反映了点集在不同尺度下的拓扑结构,是理解和分析点集形状的有效工
将组分范围设置成0.18~0.3,因为光谱仪的截止波长是25 μm,能测到的最小组分是0.18,而组分位于0.3以上的晶片,用P型片做光伏片,T组分位于0.3以下的晶片,用N型片做光导片,这里只对N型片进行分析。接着对初始数据去除粗大误差值,每组包括六个属性,分别是室温电子浓度、室温电阻率、低温电子浓度、低温电阻率、透过率和组分。对数据进行主成分分析并计算每个主成分的方差,得到主成分的累计方差图如

图6 主成分的累计方差图
Fig. 6 Cumulative variance plot of principal components
降维的初始数据有6类,因此横坐标的主成分最大数量为6,当主成分数为6时,得到的方差为100%。选取的主成分数越多,数据组的方差越大,数据组经过降维后保留的信息也越多,在尽可能保留更多信息的前提下选取合适的主成分数是PCA降维法的关键,一般来说选择方差在90%~95%之间的主成分数比较合理。
, | (11) |
, | (12) |
其中,n1是室温电子浓度,ρ1是室温电阻率,n2是低温电子浓度,ρ2是低温电阻率,T是透过率,x是组分。

图7 第一个主成分关于第二个主成分的图像
Fig. 7 Score plot of first principal component versus second principal component
对经过降维处理的数据运用DBSCAN聚类算法时,这一过程如

图8 对初始数据进行DBSCAN聚类算法后的图像
Fig. 8 Cluster plot after DBSCAN clustering algorithm on original data

图9 优质长波和中波材料的主成分图像
Fig. 9 Principal component plot of high-quality long-wave and mid-wave materials
由
运用alpha shape算法来界定聚集规模最大的簇的边界,并根据x和y方向的平均值和标准差画出判别椭圆,将其作为判定高质量晶片的标准,具体示例如
, | (13) |
. | (14) |

图10 优质长波材料的判别椭圆图像
Fig. 10 Discriminant ellipse plot of high-quality long-wave materials

图11 优质中波材料的判别椭圆图像
Fig. 11 Discriminant ellipse plot of high-quality mid-wave materials
基于优质晶片数据点的聚集现象,把在椭圆内的数据点定义为A类晶片,在椭圆外的数据点定义为B类晶片,基于椭圆曲线和降维公式,可以把初始晶片电学参数和光学参数对应起来,得到长波材料和中波材料的判别公式分别为:
, | (15) |
. | (16) |
当M<0,判别为A类晶片,当M>0,判别为B类晶片。经过验证,模型对优质长波晶片的覆盖率为91.4%,对优质中波晶片的覆盖率为90.6%。通过对整个晶片数据组进行筛选,得到长波段A类晶片占比为67.8%,中波段A类晶片占比为54.3%。
本文提出了一种基于主成分分析和聚类方法的碲镉汞晶片参数筛选方法,针对包括电学参数和光学参数的碲镉汞晶片测试数据,利用主成分分析对高维度的数据进行降维,并通过DBSCAN聚类算法找到数据分布最密集的区域。最后使用alpha shape算法确定聚类区域的边界椭圆,作为判别优质晶片质量的标准,得到了较好的准确率。该方法利用经典算法,通过数据驱动实现了晶片参数的筛选,与传统经验方法相比,提高了筛选效率,使碲镉汞晶片筛选更具科学客观性。今后可继续收集更多碲镉汞晶片数据,扩充样本规模,并从更多维度考虑影响碲镉汞晶片质量的因素,进一步提升筛选的准确性。本研究也为后续大规模快速筛选碲镉汞芯片性能数据并在碲镉汞材料参数与芯片性能之间建立映射关系提供了基础。
References
Li X Y, Sang M S, Xu G Q, et al. Simulation on the saturation properties of room-temperature mid-wave infrared HgCdTe detectors[J]. (李向阳, 桑茂盛, 徐国庆, 等. 室温中波红外碲镉汞探测器激光辐照饱和特性的仿真[J].红外与毫米波学报), Journal of Infrared and Millimeter Waves, 2023, 42(02): 143-148. [百度学术]
Sang M S, Xu G Q, Qiao H, et al. High speed uncooled MWIR infrared HgCdTe photodetector based on graded bandgap structure[J]. (桑茂盛, 徐国庆, 乔辉,等. 基于梯度能带结构的高速非制冷中波红外HgCdTe探测器[J].红外与毫米波学报),Journal of Infrared and Millimeter Waves, 2022, 41(6): 972-979. [百度学术]
Higgins W M, Pultz, G N, Roy R G, et al. Standard relationships in the properties of Hg1-xCdxTe[J]. Journal of Vacuum Science and Technology, 1989, 7(2): 271-275. [百度学术]
Zhonghua D, Zhifang L. The evolution of scientific research paradigm: The fourth paradigm of scientific research in the Era of big data[J]. Information and Documentation Services, 2013, 34(4): 19-23. [百度学术]
I. J. van der Pauw. A method of measuring specific resistivity and Hall effect of discs of arbitrary shape[J]. Philips Res. Rep, 1958, 13(1): 1-9. [百度学术]
Yang J R. Physics and Technology of HgCdTe Materials[M]. National Defense Industry Press,Beijing. [百度学术]
杨建荣. 碲镉汞材料物理与技术[M]. 北京:国防工业出版社)2012,808431-3. [百度学术]
Vidal R, Ma Y, Sastry S S, et al. Principal component analysis[J]. Generalized principal component analysis, 2016: 25-62. [百度学术]
A. Weingessel, K. Hornik. Local PCA algorithms[J]. IEEE Transactions on Neural Networks, 2000, 11(6): 1242-1250. [百度学术]
Greenacre M, Groenen P J F, Hastie T, et al. Principal component analysis[J]. Nature Reviews Methods Primers, 2022, 2(1): 100. [百度学术]
Sehgal S, Singh H, Agarwal M, et al. Data analysis using principal component analysis[C]//2014 international conference on medical imaging, m-health and emerging communication systems (MedCom). IEEE, 2014: 45-48. [百度学术]
Groth D, Hartmann S, Klie S, et al. Principal components analysis[J]. Computational Toxicology: Volume II, 2013: 527-547. [百度学术]
Kong X, Hu C, Duan Z, et al. Generalized principal component analysis[J]. Principal Component Analysis Networks and Algorithms, 2017: 185-233. [百度学术]
Schubert E, Sander J, Ester M, et al. DBSCAN revisited, revisited: why and how you should (still) use DBSCAN[J]. ACM Transactions on Database Systems (TODS), 2017, 42(3): 1-21. [百度学术]
Khan K, Rehman S U, Aziz K, et al. DBSCAN: Past, present and future[C]//The fifth international conference on the applications of digital information and web technologies (ICADIWT 2014). IEEE, 2014: 232-238. [百度学术]
Hou J, Gao H, Li X. DSets-DBSCAN: A parameter-free clustering algorithm[J]. IEEE Transactions on Image Processing, 2016, 25(7): 3182-3193. [百度学术]
Edelsbrunner H, Mücke E P. Three-dimensional alpha shapes[J]. ACM Transactions On Graphics (TOG), 1994, 13(1): 43-72. [百度学术]
Edelsbrunner H. Alpha shapes-a survey[M]// Tessellations in the Sciences: Virtues, Techniques and Applications of Geometric Tilings, 2011. [百度学术]