改进的主成分分析法对拟南芥基因的分析-AET-电子技术应用

改进的主成分分析法对拟南芥基因的分析

2015年微型机与应用第14期

代晓琳1，马学强1，2，王甜甜2

（1.山东师范大学信息科学与工程学院，山东济南 250014； 2.山东省分布式计算机软件新技术重点实验室，山东济南 250014）

摘要： 对拟南芥的幼苗进行不同盐浓度的处理，然后提取株系的RNA进行RNA-SEQ分析。为了能够对这些基因数据进行精确的分析，将对拟南芥幼苗的基因数据进行两步处理，首先对这些数据进行评估，包括对这些数据进行极差归一化，做直方图，使得对这些数据有大概的了解；然后提出了改进的主成分分析法的基因分析算法。改进的主成分分析法不仅包含了原始基因数据的全部信息，而且弥补了传统主成分分析法的缺陷，可以处理数据的非线性特征，还反映了数据间的变异信息，使得数据的处理更加简明、准确。结果表明，盐胁迫对拟南芥DNA到RNA（即转录）的后期对RNA前体的加工方式没有太大的影响。

关键词： 特征值贡献率标准化主成分分析法极差归一化

Abstract：

Key words :

　　摘要：对拟南芥的幼苗进行不同盐浓度的处理，然后提取株系的RNA进行RNA-SEQ分析。为了能够对这些基因数据进行精确的分析，将对拟南芥幼苗的基因数据进行两步处理，首先对这些数据进行评估，包括对这些数据进行极差归一化，做直方图，使得对这些数据有大概的了解；然后提出了改进的主成分分析法的基因分析算法。改进的主成分分析法不仅包含了原始基因数据的全部信息，而且弥补了传统主成分分析法的缺陷，可以处理数据的非线性特征，还反映了数据间的变异信息，使得数据的处理更加简明、准确。结果表明，盐胁迫对拟南芥DNA到RNA（即转录）的后期对RNA前体的加工方式没有太大的影响。

　　关键词：特征值；贡献率；标准化；主成分分析法；极差归一化

0 引言

　　在生物信息学中，基因[1]和环境控制着生物的性状，为了研究基因对生物的影响，先从拟南芥的幼苗中提取出来基因，然后对这些基因进行分析。因为幼苗受到盐胁迫的程度不同，所以基因的多变量问题会频繁出现，一旦变量增多，问题的复杂性和难度也会随之增加，在实际问题中，这些变量之间也具有一定的关系。为了能够从中选出少数的几个指标，使它们尽可能地包含原始变量的所有信息，又可以达到用较少的指标去体现原来基因的信息，因此可以用主成分分析方法进行分析，它能够比较客观地反映样本间的现实关系。

1 拟南芥幼苗的处理和基因的提取

　　1.1 拟南芥幼苗的处理

　　（1）对种子进行灭菌并且调制1/2MS培养基配方。

　　（2）种完后，用封口膜包好，防止染菌。在4℃的冰箱中放置3天，然后放到培养箱中竖直培养7天，等长出2片真叶后，移到NaCl浓度为50 mM、200 mM的1/2MS培养基上。

　　（3）不作任何处理，50 mM和200 mM盐浓度处理植株的取材时间分别为7天、48 h和12 h。

　　1.2 RNA的提取和RNA-SEQ检测

　　对拟南芥幼苗进行3种条件处理：正常未处理（cd0）、50 mM盐溶液处理（cd1）、200 mM盐溶液[2]处理（cd5）。cd0取两个株系，即cd0WT1、cd0WT2；cd1取3个株系：cd1WT0、cd1WT1、cd1WT2；cd5取3个株系cd5WT0、cd5WT1、cd5WT2。将上述株系提取它们的RNA送给公司进行RNA-SEQ数据分析。

　　因为DNA到RNA（即转录）的后期对RNA前体的加工方式（即剪接方式）的不同而造成了不同的剪接本，所以幼苗表现的性状会有所不同。实验对1 280条染色体上的基因进行了数据的分析，下面选一条拟南芥第5条染色体上的基因AT5G43280对实验做全面的概述。AT5G43280这条基因匹配的数据最符合实验生物最终结果，它有AT5G43280.1和AT5G43280.2两种剪接本形式。

　　将提取到的RNA通过技术转换成cDNA，这些cDNA被随机打碎成90 bp的片段，将大批量的随机打碎的片段（每个株系从192段到400片段不等）与AT5G43280.1和AT5G43280.2进行对比，计算出仅与AT5G43280.1匹配的基因片段所占比率、仅包含在AT5G43280.2的比率以及同时包含在这两种基因的片段的比率，通过对数据进行分析做出数据的表格如表1所示，极差归一化和直方图如图1所示。

　　表1中，0代表打乱的每一个90 bp与AT5G43280.1和AT5G43280.2都不匹配；1代表只存在于AT5G43280.1的片段数；2代表只存在于AT5G43280.2的片段数；3代表既包含在AT5G43280.1，又存在于AT5G43280.2中的片段数。

　　从AT5G43280数据分析可以得出：对未处理的（cd0）的拟南芥DNA到RNA（即转录[3-4]）的后期对RNA前体的加工方式大部分是AT5G43280.1剪接本形式，50 mM盐处理（cd1）、200 mM盐处理（cd5）的拟南芥DNA到RNA（即转录）的后期对RNA前体的加工方式大部分为AT5G43280.1剪接本形式。通过对这些基因数据进行分析得出：盐胁迫对拟南芥DNA到RNA（即转录）的后期对RNA前体的加工方式没有太大的影响。

2 利用改进的主成分分析方法对基因数据再次进行分析

　　在实际应用中，为了消除变量量纲的影响，往往对原始数据标准化，但是标准化在消除量纲或数量级影响的同时，也抹杀了各指标变异程度的差异信息。传统的主成分分析法[5]基于相关系数矩阵进行数据标准化处理，将数据间方差化为1，消除了数据量纲[6]和数据级影响的同时，也忽略了数据指标间的变异程度。因此本文采用中心化对数比进行原始数据变换。

　　2.1 改进的主成分分析方法步骤

　　（1）假定有n个样本，每个样本共有p个变量，构成一个n×p阶的数据矩阵X。

　　（2）对数变换法

　　采用中心化对数比进行原始数据变换，一是可以处理数据的非线性特征，二是可以充分反映数据间的变异性信息。

　　yij=lnxij（1）

　　（3）求解主成分

　　求解主成分时可以从样本协方差矩阵出发，也可以从样本相关系数矩阵出发。

　　计算相关系数矩阵：

　　R=r11 r12 L r1pr21 r22 L r2pM M L Mrp1 rp2 L rpp

　　其中，rij（i，j=1，2，3，…，p）为变量yi与yj的相关系数，rij=rji其计算公式为：

　　（4）计算特征值[7]与特征向量

　　①解特征方程|λI-R|=0，求出特征值，并使其按大小顺序排列（λ1≥λ2≥λ3…λP≥0），分别求出对应于特征值λi的特征向量。

　　②计算主成分贡献率[8]及累计贡献率。

　　贡献率：

　　累计贡献率：

　　累积贡献率[9]反映了前m个主成分综合原始变量信息的能力，通常是取较小的m，而且累积贡献率自达到一定的数值（85%）时，累积方差贡献率越大，这就表示前面的几个主成分包含的信息就越丰富。对于含有m个主成分的数据来说，每一个主成分都可以表示为：

　　fi=ei1z1+ei2z2+…+eizzp（i=1，2，3，…，m）

　　因此综合评价为：

　　 0@V$QK%$OG9@K[6_YJGMA(V.jpg

　　2.2 主成分的指标分成强、中、弱三部分

　　在对基因的分析中发现，各列（指标）之间的相关性高低影响着评价指标权重系数的分配，权重系数会明显地倾向于相关系数较高的变量，不同的研究者使用的评价标准不同，得到的结果也会有差距。又因为在不同盐浓度处理下幼苗提取的基因的数据量大，为了使最后得到的综合评价函数能够合理，可以把主成分的指标分成强、中、弱3部分，将相关性较强的指标分入到s1中，相关性较弱的指标分入到s2，剩下的分到相关性为中的s3中，s1+s2+s3=A（A为基因数据指标元素总体），所以相关性较强的指标得到函数f11，相关性为中的指标得到函数f22，相关性较弱的指标得到函数f33（在这3项中指标个数不一定相同），最终的综合函数为：F=f11+f22+f33。

　　3 实例分析

　　实验对拟南芥很多条染色体上面的基因作了研究，对从这些植株中提取的数据进行分析，目的是探讨用不同浓度的盐处理拟南芥幼苗，是否对DNA到RNA的转录方式有变化，导致拟南芥幼苗外形的变化。

　　（1）首先对这些数据采用中心化对数比进行原始数据变换，然后利用MATLAB求出数据的相关系数矩阵R：

　　 )XH3[09SQ6}((NE98E7}4PP.png

从计算出的相关系数矩阵可以看出，第1列、第2列、第4列的相关性比较强，第6列、第7列、第8列的相关性为中，第3列和第5列之间的相关性最弱。根据相关性强弱将它们分到s1，s2，s3中。求出R的特征值、差值、特征向量、贡献率和累积贡献率，进而求得主成分与变量之间的关系如表2所示。

　　第一主成分对所有主成分的贡献率为76.389 5%，而01所占的比重最大，因指标1表示由DNA到RNA的转录方式选择的是第一种剪接本，因此标准变化量为0、1、3时，这3个指标值比较大时，第一主成分的贡献率也就越大。第二主成分对所有主成分的贡献率为 17.155 0%，而2所占的比重比较大，指标2表示的是DNA到RNA的转录方式选择的是第二种剪接本，因此标准变化量为0、1、2、7时，这4个指标值比较大，第二主成分的贡献率也就越大。前两个主成分的累积贡献率达到了93.544 5%，因此可以只用前3个主成分进行后续的分析，后面主成分对总体的贡献率比较小，分别为5.6%、0.6%和0.1%，可以不对它们做出任何解释。

　　第一主成分分量的计算公式为：

　　f1=0.369 5z1+0.4z2+0.050 2z3+0.612 6z4-0.230 2 z6-0.522 2z8

　　第二主成分分量的计算公式为：

　　f2=0.336 9z1+0.248 8z2+0.666 8z3+0.139 0z4+0.253 1z6+0.544 6z8

　　综合评价函数为：F=a1f1+a2f2+…+amfm

　　F=0.34z1+0.348 2z2+0.114 3z3+0.491 7z4-0.132 3z6-0.305 4z8

　　又因为把主成分的指标分为强、中、弱3部分，所以最终的综合评价函数为F=f11+f22+f33。由f11=0.369 5z1+ 0.4z2+0.612 6z4，f22=0.050 2z3，f33=-0.230 2z6-0.522 2z8，可得：

　　F=0.369 5z1+0.4z2+0.050 2z3+0.612 6z4-0.230 2z6-0.522 2z8

　　由综合函数可以得到，s1中包含的指标0、1、3的相关性较强，改进的主成分分析方法使得相关性较强的集合更加明显，相关性较弱的集合相应地减弱，更容易分析盐胁迫对拟南芥基因的影响。由于0、1、3指标的意义，明显可以得到不同的盐浓度下DNA到RNA的转录方式基本都是选择第一种剪接本，拟南芥的幼苗在浓度越高的环境下生长的叶子黄而且小，主要是外界环境的作用，盐浓度对基因的改变不大。

4 结论

　　主成分分析方法在很多领域得到广泛的应用，一般来说，当研究的问题涉及很多变量时，变量间相关性明显，并且包含的信息有所重叠时，可以考虑用主成分分析方法。本文经过对PCA进行改进，更容易抓住事物的主要矛盾，使问题得到解决，通过对拟南芥基因数据的分析，预测的结论和实验得到的结果一致。在实际的评价中，应当从样本的客观性出发，兼顾主观客观两方面，分析不同的数据应当使用不同的PCA改进方法，以达到所需要的目的，并且能够更加准确地分析数据。

参考文献

　　[1] 王素平，郭世荣，李璟，等.盐胁迫对黄瓜幼苗根系生长和水分利用的影响[J].应用生态学报，2006，17（10）：1883-1888.

　　[2] 郭丽红，王定康，杨晓虹，等.外源乙烯利对干旱胁迫过程中玉米幼苗某些抗逆生理指标的影响[J].云南大学学报（自然科学版），2004，26（4）：352-356.

　　[3] SAKUMA Y， MARUYAMA K， OSAKABE Y， et al. Functional analysis of an Arabidopsis transcription factor， DREB2A， involved in drought-responsive gene expression[J]. The Plant Cell Online， 2006，18（5）：1292-1309.

　　[4] SHINOZAKI K， YAMAGUCHI-SHINOZAKI K. Gene networks involved in drought stress response and tolerance[J]. Journal of Experimental Botany， 2007，58（2）：221-227.

　　[5] 王正群，邹军，刘风.基于集成主成份分析的人脸识别[J].计算机应用，2008，28（1）：120-124.

　　[6] 王晓伟，闫德勤，刘益含.基于随机矩阵变换的快速PCA算法[J].微型机与应用，2013，32（20）：83-86.

　　[7] 盛骤，谢式千，潘承毅.概率论与数理统计（第4版）[M].北京：高等教育出版社，2008.

　　[8] 冯德俊，李永树，兰燕.基于主成分变换的动态监测变化信息自动发现[J].计算机工程与应用，2004，38（3）：199-202.

　　[9] 赵鹏，白振兴，范文同.基于主成分分析的快速图像匹配研究[J].电子技术应用，2010，4（11）：132-134.

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容