王 雪,谢 淼*,周玲菲,王林军
(1.成都理工大学,四川 成都;
2.成都理工大学数学地质四川省重点实验室,四川 成都)
自然界中许多数据都属于成分数据,由于成分数据各行的和为一个定值(通常为常数1),导致数据组分之间具有闭合效应[1],存在一定的伪相关关系。同时成分数据的取值都介于(0,1),其所属空间属于“单形”空间,因此常用的统计分析方法在单形空间上存在很大的局限性。为了解决成分数据统计分析的局限性,J.艾奇逊[2]在《成分数据统计分析》中提出,常见的对数比方法能够打开成分数据之间存在的封闭性。周蒂[1]通过对前人在处理成分数据时相关方法的分析,提出了对数比转换作为成分数据统计分析的依据及存在的问题,并有针对性地寻找对数比转换后保留在数据中的重要信息的方法。大多数统计分析方法基于完整的数据集使用,无法直接应用于包括缺失值的数据集。目前李春轩[3], 张晓琴[4]等人对基于对数比变换后的成分数据空间插值进行了一系列的研究,形成了一套比较完整的成分数据缺失值填补处理体系。基于对数比变换的成分数据统计分析在国内外都得到了广泛的分析与应用[7-10],并且都取得了不错的成就,如张尧庭[6]在《成分数据统计分析引论》中,阐述了成分数据与多种分布(如逻辑正态分布、狄式分布族等)有关,并在此基础上介绍了成分数据统计分析的理论与方法等。
本文针对成分数据在进行主成分分析时,对于处理数据方法的选择进行研究。分别比较三种常用的对数比转换后的数据进行主成分分析后的效果,得到最优的数据处理方法,为成分数据的主成分分析建立一个初级的完整分析体系,文章结论可以广泛的应用在成分数据分析中,如对于大气成分数据的检测系统[11]等。
本文对“2022 年高教社杯全国大学生数学建模竞赛C 题”古代玻璃文物的66 条化学成分比例数据进行收集、整理。对该数据进行描述统计分析,不同化学元素含量值的最小值、最大值、均值、标准偏差、方差的结果如表1 所示(N 为有效个案数)。
表1 描述统计
依据原始数据的描述统计分析结果可以看出玻璃的化学成分含量的差异性,玻璃文物中二氧化硅和氧化铅的标准偏差分别为24.419 42 和19.425 37,这说明不同类型的玻璃文物中二氧化硅和氧化铅的含量值的离散性较大。
由于玻璃的化学成分含量数据属于典型的成分数据,因此下文将原始数据进行一定的对数比转换,打开玻璃成分数据的定和限制,再使用主成分分析方法进行分析。
2.1 成分数据分析
对任意D 元向量X=(X1,X2,...,XD)满足以下表达式:
式中,X 为D 元成分数据,记为X∈SD。D 为成分个数,Xi为第i 个成分,Xi对应的取值称为分量,表示i成分所占的比例。
成分数据因闭合效应而产生伪相关,从而不服从正态分布,给统计分析带来了很大的困难,对数比转换方法通过将原始数据从“单纯形”转换为“欧几里德”空间,解决成分数据引起的“定和效应问题”。常见的对数比转换方法有加性对数比转换、中心化对数比转换和等距对数比转换[4]。
其中,加性对数比转换是通过构建标准正交基将成分数据进行对数比转换,使得成分数据从D 维的单纯形数据转换为D-1 维欧式空间,公式如下:
式中,μi=log(X i/XD),i=1,2,…,d 即选用最后一位成分作为分母进行对数比转换。
中心化对数比转换方法是数据内每个成分分量相对于全部成分分量几何平均值的比值,转换后的数据是等形等距的。但由于clr 相对数据中心进行转换,变换后不改变数据的维数,但变换后的数据各分量之和为“0”,具有共线性的特点,公式如下:
式中,vi= log(Xi/g(X)),g(X)为成分分量Xi的几何平均值。
等距对数比转换方法是一种正交变换,在单纯形中的Aitchison 几何与标准欧几里德之间形成一对一关系,具有良好的几何特性,公式如下:
式中,ei(i=1,2...,D-1)为单形空间的一组标准正交基,选用不同的标准正交基可获得不同的变换结果。等距对数比变换满足了全成分或子成分协方差矩阵的对称性和满秩要求,解决了clr 变换产生的数据共线性缺点。
2.2 主成分分析
主成分分析也称主分量分析,是利用降维的思想,在损失很少信息的前提下将n 维特征映射到k 维上,这k 维是全新的正交特征也被称为主成分。主成分是P 个随机变量X,X,...,X的一些特殊的线性组合,其主要依赖于X,X,...,X的协方差矩阵A(或者是相关矩阵P),设随机向量有协方差矩阵A,其特征值为 λ1≥ λ2≥...≥ λp≥0[12]
考虑线性组合
即可得到
第一主成分即为方差最大的线性组合,同理依次可以得到所有主成分的线性组合表达式。
研究数据主要包括两类玻璃(铅钡玻璃、高钾玻璃)的化学成分含量,两种玻璃在氧化钾、氧化铅、氧化钡三种化学成分的含量上存在较大的差异。利用R计算出该批玻璃中氧化钾、氧化铅、氧化钡的偏度和峰度如表2 所示。
由上述结果显示,原始数据的偏度和峰度都比较高,与正态分布相差甚远,因此不能直接进行统计分析。将原始数据在进行了对数比变换后,数据的偏度和峰度明显降低,其中等距对数比变换数据与正态分布的峰度和偏度相似度较高,效果更好。
在用统计分析方法研究多变量的问题时,变量个数太多会增加问题的复杂性。在很多情形下,变量之间相关性会导致不同变量反映问题时信息重叠。主成分分析是一种广泛使用的数据降维算法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量。此外新变量之间不仅是相互独立的,在反映问题的信息方面也要尽可能保持原有的信息。
本文首先对原始数据、加性对数比变换、中心对数比变换和等距对数变换后的数据进行KMO 和Bartlett 的检验,判断是否可以进行主成分分析。
对于KMO 值:0.8 上非常合适做主成分分析,0.7~0.8 之间一般适合,0.6~0.7 之间不太适合,0.5~0.6 之间表示差,0.5 下表示极不适合,对于Bartlett 的检验,若P 小于0.05,拒绝原假设,则说明可以做主成分分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做主成分分析。因此根据表3 的数据显示,四组数据的Bartlett 检验P 值均远小于0.05,可以拒绝原假设,则说明可以做主成分分析。而四组数据只有加性对数比转换的KMO 值0.8以上,其余几组数据的KMO 值都比较小不太适合做主成分分析,见图1-4。
图1 原始数据
图2 中心对数比变换后的数据
图3 加性对数比变换后的数据
图4 等距对数比变换后的数据
表3 KMO 和Bartlett 的检验
由碎石图可知,若进行主成分分析,加性对数比变换后的数据只需要选择4 个主成分就可以涵盖全部变量的大部分信息,而原始数据、中心对数比变换、等距对数比变换后的数据均至少选择7 个主成分才能达到加性对数比变换数据得到的效果。
综上所述,基于KMO 值、Bartlett 检验以及碎石图,经过加法对数比转换的成分数据更适合做主成分分析,所得效果显著。
对主成分分析的加法对数比转换后的数据进行进一步的因子权重分析,查看各因子的贡献率。其中,主成分1 的权重为68.604%、主成分2 的权重为15.124%、主成分3 的权重为8.664%、主成分4 的权重为7.608%,见表4。
表4 因子权重分析
由成分矩阵表可以分别得出主成分1、主成分2、主成分3和主成分4 的模型表达式F。根据F 表达式来计算综合得分,并将综合得分按照降序进行排序,由此来得到样本的综合得分和排名情况。成分矩阵表如表5 所示,前五个样本的综合得分情况如表6 所示。
表5 成分矩阵表
表6 综合得分
本文通过对成分数据进行3 种不同的对数比变换,加法对数比变换后的数据与主成分分析结合得到了显著的效果,并有如下结论:
(1)由于定和效应的限制,成分数据不能满足正态分布的基本要求,因此数据未能通过KMO 检验和Bartlett 球形度检验,不能进行主成分分析。
(2)成分数据经过对数比转换后,等距对数比转换相较于加性、中心化的结果,其分布情况与正态分布相似度最高,正态检验效果显著。
(3)由于加性对数比转换过程中,数据从D 维度降至D-1 维度,即转换后每个维度的数据都可以表示为原始数据最后一列数据的线性组合,在降维分析中具有极大的优势。因此对加性对数比转换后的数据引入主成分分析,能够更有效地获取原始数据中所含的相关信息。
猜你喜欢加性等距原始数据GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATIONChina Report Asean(2022年8期)2022-09-02平面等距变换及其矩阵表示数学通报(2022年3期)2022-07-13ℤ2ℤ4[u]-加性循环码阜阳师范大学学报(自然科学版)(2022年1期)2022-04-02受特定变化趋势限制的传感器数据处理方法研究物联网技术(2020年12期)2021-01-27拟凸Hartogs域到复空间形式的全纯等距嵌入映射的存在性数学物理学报(2020年6期)2021-01-14企业家多重政治联系与企业绩效关系:超可加性、次可加性或不可加性系统管理学报(2018年3期)2018-08-13企业家多重政治联系与企业绩效关系:超可加性、次可加性或不可加性系统管理学报(2018年2期)2018-08-13全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶汽车零部件(2017年4期)2017-07-12保持算子束部分等距的映射数学物理学报(2016年3期)2016-12-01等距延拓以及相关问题中央民族大学学报(自然科学版)(2015年1期)2015-06-11