摘 要: 通过主成分分析并结合SPSS软件得到具有高信息含量的A第一主成分和A第二主成分,并分别确定A第一主成分和A第二主成分的函数解析式。在变量基础上增加A第一主成分变量,并再次通过主成分分析得到具有高信息含量的B第一主成分和B第二主成分,并分别确定B第一主成分、B第二主成分和综合主成分的函数解析式,对三者分别进行排序,确定患病与健康的判定指标。
关键词: 主成分分析;多因子综合分析;统计回归分析;SPSS技术
主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量,因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们希望变量个数较少,同时得到较多的信息。变量之间存在一定的相关关系,当2个变量之间有一定相关关系时,可以解释为这2个变量反映此课题的信息有些重叠。主成分分析是对原先提出的所有变量建立尽可能少的新变量,这些新变量在反映课题的信息方面尽可能保持原有的信息[1]。
人们到医院就诊时,通常要化验指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量,主要包括锌(Zn)、铜(Cu)、铁(Fe)、钙(Ca)、镁(Mg)、钾(K)及钠(Na)。表1是确诊病例的化验结果,其中1~30号病例是已经确诊为肾炎病人的化验结果,31~60号病例是已经确定为健康人的结果[2]。在论文中列出的数据是原始数据中1~10号病例及31~40号病例的数据,运用主成分计算时以所有数据为初始数据。
1 主成分分析模型
2 模型应用
2.1 问题分析解决
因C1=[X1 X2 … X7]*[U11 U12 … U17]T,因为特征值的方差贡献率为72.67 %,表明C1包含原变量中的绝大部分信息,则在原来7个因子的基础上引入C1作为第8个因子,C1=[0.70502、0.6341、0.87415、0.80724、0.4212、0.62897、0.37992、0.85489、0.57495、0.71527、-0.74635、0.03003、-0.30047、-0.03826、-0.80605、-1.32826、-0.5588、-0.00363、0.37216、-3.19199]。再将其做标准化变化,再次通过主成分分析并结合SPSS软件确定B第一主成分F1、第二主成分F2和综合主成分F。根据对这8个因子通过SPSS的因子分析如表4、表5所示。
由表5可知C1与5种元素有着显著的相关性[5],可见许多变量之间直接的相关性比较强,证明它们存在信息上的重叠。
2.2 主成分表达式
主成分个数提取原则为主成分对应特征值>1的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值<1,说明该主成分的解释力度还不如直接引入原变量的平均解释力度,因此一般可以用特征值>1作为纳入标准。通过表4可知,提取2个主成分,即m=2。从表5可知C1、Zn、Cu、Fe、Ca、Mg在B第一主成分上有较高的载荷,说明B第一主成分基本反映了这些指标的信息,K、Na在B第二主成分上有较高的载荷,说明B第二主成分基本反映了K、Na 2个指标的信息。所以提取2个主成分是基本反映全部指标的信息,所以决定用2个新的变量来代替原来的8个变量。通过SPSS将表5中的数据除以主成分相对应的特征值开平方根,得到两主成分中每个指标所对应的系数。将得到的特征向量与标准化后的数据相乘,然后就可以得到主成分表达式[6]:
由(1)、(2)、(3)式得到B第一主成分F1、B第二主成分F2和综合主成分F的数据及排名,如表6所示。
由表6可以看出第一主成分中以0为临界值,0.1为修正值,即(-0.1,0.1)为不稳定状态,此状态下的就诊人员将随机被确定为患者和健康者中的1个。而当F1>0.1时,将此时对应的就诊人员确定为健康者;当F1<-0.1时,将此时的就诊人员确定为患者。经此方法判定的患者与健康者与表1中的患者与健康者基本一致,并且与用综合主成分分析得到的结果基本一致。其判定的准确性可以达到95%以上,因此具备很强的可信性与科学性。
本文创新点在于模型中连续做了2次主成分分析,即二次主成分分析,并伴有大量的数据处理和数据分析,合理的结论背后拥有强大的理论支持和数据支持,具有很强的科学性和可信性。不过,确诊病人还是需要通过医生的具体分析,以达到所需效果。
参考文献
[1] 主成分分析[EB/OL].http://baike.baidu.com/view/45376.htm,2009-03.
[2] 北京工业大学数学建模竞赛初赛试题B题[EB/OL].http://www.wendang.com/soft/16922.htm,2008-05.
[3] 主成分分析[EB/OL].http://ec.njue.edu.cn/tjx/wf_dytjfx/slides/chap03.2009-05.
[4] 张文霖.主成分分析在SPSS中的操作和应用[J].理论与分析,2005(12):31-35.
[5] 王林辉.基于主成分分析的棉花品种综合评价及聚类分析[J].广东农业科学,2009(1):29-32.
[6] 董寒青.解析SPSS对主成分分析的计算技术[J].知识丛林,2004(3):117-118.