摘 要: 对拟南芥的幼苗进行不同盐浓度的处理,然后提取株系的RNA进行RNA-SEQ分析。为了能够对这些基因数据进行精确的分析,将对拟南芥幼苗的基因数据进行两步处理,首先对这些数据进行评估,包括对这些数据进行极差归一化,做直方图,使得对这些数据有大概的了解;然后提出了改进的主成分分析法的基因分析算法。改进的主成分分析法不仅包含了原始基因数据的全部信息,而且弥补了传统主成分分析法的缺陷,可以处理数据的非线性特征,还反映了数据间的变异信息,使得数据的处理更加简明、准确。结果表明,盐胁迫对拟南芥DNA到RNA(即转录)的后期对RNA前体的加工方式没有太大的影响。
0 引言
在生物信息学中,基因[1]和环境控制着生物的性状,为了研究基因对生物的影响,先从拟南芥的幼苗中提取出来基因,然后对这些基因进行分析。因为幼苗受到盐胁迫的程度不同,所以基因的多变量问题会频繁出现,一旦变量增多,问题的复杂性和难度也会随之增加,在实际问题中,这些变量之间也具有一定的关系。为了能够从中选出少数的几个指标,使它们尽可能地包含原始变量的所有信息,又可以达到用较少的指标去体现原来基因的信息,因此可以用主成分分析方法进行分析,它能够比较客观地反映样本间的现实关系。
1 拟南芥幼苗的处理和基因的提取
1.1 拟南芥幼苗的处理
(1)对种子进行灭菌并且调制1/2MS培养基配方。
(2)种完后,用封口膜包好,防止染菌。在4℃的冰箱中放置3天,然后放到培养箱中竖直培养7天,等长出2片真叶后,移到NaCl浓度为50 mM、200 mM的1/2MS培养基上。
(3)不作任何处理,50 mM和200 mM盐浓度处理植株的取材时间分别为7天、48 h和12 h。
1.2 RNA的提取和RNA-SEQ检测
对拟南芥幼苗进行3种条件处理:正常未处理(cd0)、50 mM盐溶液处理(cd1)、200 mM盐溶液[2]处理(cd5)。cd0取两个株系,即cd0WT1、cd0WT2;cd1取3个株系:cd1WT0、cd1WT1、cd1WT2;cd5取3个株系cd5WT0、cd5WT1、cd5WT2。将上述株系提取它们的RNA送给公司进行RNA-SEQ数据分析。
因为DNA到RNA(即转录)的后期对RNA前体的加工方式(即剪接方式)的不同而造成了不同的剪接本,所以幼苗表现的性状会有所不同。实验对1 280条染色体上的基因进行了数据的分析,下面选一条拟南芥第5条染色体上的基因AT5G43280对实验做全面的概述。AT5G43280这条基因匹配的数据最符合实验生物最终结果,它有AT5G43280.1和AT5G43280.2两种剪接本形式。
将提取到的RNA通过技术转换成cDNA,这些cDNA被随机打碎成90 bp的片段,将大批量的随机打碎的片段(每个株系从192段到400片段不等)与AT5G43280.1和AT5G43280.2进行对比,计算出仅与AT5G43280.1匹配的基因片段所占比率、仅包含在AT5G43280.2的比率以及同时包含在这两种基因的片段的比率,通过对数据进行分析做出数据的表格如表1所示,极差归一化和直方图如图1所示。
表1中,0代表打乱的每一个90 bp与AT5G43280.1和AT5G43280.2都不匹配;1代表只存在于AT5G43280.1的片段数;2代表只存在于AT5G43280.2的片段数;3代表既包含在AT5G43280.1,又存在于AT5G43280.2中的片段数。
从AT5G43280数据分析可以得出:对未处理的(cd0)的拟南芥DNA到RNA(即转录[3-4])的后期对RNA前体的加工方式大部分是AT5G43280.1剪接本形式,50 mM盐处理(cd1)、200 mM盐处理(cd5)的拟南芥DNA到RNA(即转录)的后期对RNA前体的加工方式大部分为AT5G43280.1剪接本形式。通过对这些基因数据进行分析得出:盐胁迫对拟南芥DNA到RNA(即转录)的后期对RNA前体的加工方式没有太大的影响。
2 利用改进的主成分分析方法对基因数据再次进行分析
在实际应用中,为了消除变量量纲的影响,往往对原始数据标准化,但是标准化在消除量纲或数量级影响的同时,也抹杀了各指标变异程度的差异信息。传统的主成分分析法[5]基于相关系数矩阵进行数据标准化处理,将数据间方差化为1,消除了数据量纲[6]和数据级影响的同时,也忽略了数据指标间的变异程度。因此本文采用中心化对数比进行原始数据变换。
2.1 改进的主成分分析方法步骤
(1)假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵X。
(2)对数变换法
采用中心化对数比进行原始数据变换,一是可以处理数据的非线性特征,二是可以充分反映数据间的变异性信息。
yij=lnxij(1)
(3)求解主成分
求解主成分时可以从样本协方差矩阵出发,也可以从样本相关系数矩阵出发。
计算相关系数矩阵:
R=r11 r12 L r1pr21 r22 L r2pM M L Mrp1 rp2 L rpp
其中,rij(i,j=1,2,3,…,p)为变量yi与yj的相关系数,rij=rji其计算公式为:
(4)计算特征值[7]与特征向量
①解特征方程|λI-R|=0,求出特征值,并使其按大小顺序排列(λ1≥λ2≥λ3…λP≥0),分别求出对应于特征值λi的特征向量。
②计算主成分贡献率[8]及累计贡献率。
贡献率:
累计贡献率:
累积贡献率[9]反映了前m个主成分综合原始变量信息的能力,通常是取较小的m,而且累积贡献率自达到一定的数值(85%)时,累积方差贡献率越大,这就表示前面的几个主成分包含的信息就越丰富。对于含有m个主成分的数据来说,每一个主成分都可以表示为:
fi=ei1z1+ei2z2+…+eizzp(i=1,2,3,…,m)
因此综合评价为:
2.2 主成分的指标分成强、中、弱三部分
在对基因的分析中发现,各列(指标)之间的相关性高低影响着评价指标权重系数的分配,权重系数会明显地倾向于相关系数较高的变量,不同的研究者使用的评价标准不同,得到的结果也会有差距。又因为在不同盐浓度处理下幼苗提取的基因的数据量大,为了使最后得到的综合评价函数能够合理,可以把主成分的指标分成强、中、弱3部分,将相关性较强的指标分入到s1中,相关性较弱的指标分入到s2,剩下的分到相关性为中的s3中,s1+s2+s3=A(A为基因数据指标元素总体),所以相关性较强的指标得到函数f11,相关性为中的指标得到函数f22,相关性较弱的指标得到函数f33(在这3项中指标个数不一定相同),最终的综合函数为:F=f11+f22+f33。
3 实例分析
实验对拟南芥很多条染色体上面的基因作了研究,对从这些植株中提取的数据进行分析,目的是探讨用不同浓度的盐处理拟南芥幼苗,是否对DNA到RNA的转录方式有变化,导致拟南芥幼苗外形的变化。
(1)首先对这些数据采用中心化对数比进行原始数据变换,然后利用MATLAB求出数据的相关系数矩阵R:
从计算出的相关系数矩阵可以看出,第1列、第2列、第4列的相关性比较强,第6列、第7列、第8列的相关性为中,第3列和第5列之间的相关性最弱。根据相关性强弱将它们分到s1,s2,s3中。求出R的特征值、差值、特征向量、贡献率和累积贡献率,进而求得主成分与变量之间的关系如表2所示。
第一主成分对所有主成分的贡献率为76.389 5%,而01所占的比重最大,因指标1表示由DNA到RNA的转录方式选择的是第一种剪接本,因此标准变化量为0、1、3时,这3个指标值比较大时,第一主成分的贡献率也就越大。第二主成分对所有主成分的贡献率为 17.155 0%,而2所占的比重比较大,指标2表示的是DNA到RNA的转录方式选择的是第二种剪接本,因此标准变化量为0、1、2、7时,这4个指标值比较大,第二主成分的贡献率也就越大。前两个主成分的累积贡献率达到了93.544 5%,因此可以只用前3个主成分进行后续的分析,后面主成分对总体的贡献率比较小,分别为5.6%、0.6%和0.1%,可以不对它们做出任何解释。
第一主成分分量的计算公式为:
f1=0.369 5z1+0.4z2+0.050 2z3+0.612 6z4-0.230 2 z6-0.522 2z8
第二主成分分量的计算公式为:
f2=0.336 9z1+0.248 8z2+0.666 8z3+0.139 0z4+0.253 1z6+0.544 6z8
综合评价函数为:F=a1f1+a2f2+…+amfm
F=0.34z1+0.348 2z2+0.114 3z3+0.491 7z4-0.132 3z6-0.305 4z8
又因为把主成分的指标分为强、中、弱3部分,所以最终的综合评价函数为F=f11+f22+f33。由f11=0.369 5z1+ 0.4z2+0.612 6z4,f22=0.050 2z3,f33=-0.230 2z6-0.522 2z8,可得:
F=0.369 5z1+0.4z2+0.050 2z3+0.612 6z4-0.230 2z6-0.522 2z8
由综合函数可以得到,s1中包含的指标0、1、3的相关性较强,改进的主成分分析方法使得相关性较强的集合更加明显,相关性较弱的集合相应地减弱,更容易分析盐胁迫对拟南芥基因的影响。由于0、1、3指标的意义,明显可以得到不同的盐浓度下DNA到RNA的转录方式基本都是选择第一种剪接本,拟南芥的幼苗在浓度越高的环境下生长的叶子黄而且小,主要是外界环境的作用,盐浓度对基因的改变不大。
4 结论
主成分分析方法在很多领域得到广泛的应用,一般来说,当研究的问题涉及很多变量时,变量间相关性明显,并且包含的信息有所重叠时,可以考虑用主成分分析方法。本文经过对PCA进行改进,更容易抓住事物的主要矛盾,使问题得到解决,通过对拟南芥基因数据的分析,预测的结论和实验得到的结果一致。在实际的评价中,应当从样本的客观性出发,兼顾主观客观两方面,分析不同的数据应当使用不同的PCA改进方法,以达到所需要的目的,并且能够更加准确地分析数据。
参考文献
[1] 王素平,郭世荣,李璟,等.盐胁迫对黄瓜幼苗根系生长和水分利用的影响[J].应用生态学报,2006,17(10):1883-1888.
[2] 郭丽红,王定康,杨晓虹,等.外源乙烯利对干旱胁迫过程中玉米幼苗某些抗逆生理指标的影响[J].云南大学学报(自然科学版),2004,26(4):352-356.
[3] SAKUMA Y, MARUYAMA K, OSAKABE Y, et al. Functional analysis of an Arabidopsis transcription factor, DREB2A, involved in drought-responsive gene expression[J]. The Plant Cell Online, 2006,18(5):1292-1309.
[4] SHINOZAKI K, YAMAGUCHI-SHINOZAKI K. Gene networks involved in drought stress response and tolerance[J]. Journal of Experimental Botany, 2007,58(2):221-227.
[5] 王正群,邹军,刘风.基于集成主成份分析的人脸识别[J].计算机应用,2008,28(1):120-124.
[6] 王晓伟,闫德勤,刘益含.基于随机矩阵变换的快速PCA算法[J].微型机与应用,2013,32(20):83-86.
[7] 盛骤,谢式千,潘承毅.概率论与数理统计(第4版)[M].北京:高等教育出版社,2008.
[8] 冯德俊,李永树,兰燕.基于主成分变换的动态监测变化信息自动发现[J].计算机工程与应用,2004,38(3):199-202.
[9] 赵鹏,白振兴,范文同.基于主成分分析的快速图像匹配研究[J].电子技术应用,2010,4(11):132-134.