《电子技术应用》
您所在的位置:首页 > 模拟设计 > 设计应用 > 一种基于Yarn云平台的基因启发式多序列比对算法
一种基于Yarn云平台的基因启发式多序列比对算法
电子技术应用
杨波1,徐胜超1,周继鹏2,王志坚1
1.广州华商学院 人工智能学院;2.暨南大学 信息科学技术学院
摘要: 提出一种基于Yarn云平台的基因启发式多序列比对算法。建立核酸替换等价矩阵作为基因启发式数学模型,构建Yarn云平台逻辑架构,通过对基因数据预处理、基因数据存储、基因序列比对、基因数据管理、基因数据分析等步骤,对数据分类保存,划分错误率较高的长序列,得到多个较短的基因片段。对不同片段实施定位,将其中的变长种子生成,进行骨架构建和孔隙填补,可以实现基因启发式多序列比对。结果表明,设计的算法在不同数据集下处理时间缩短,多序列比对SP(Sum of Pairs)的分值较高,实验验证了该多序列比对方法具有很好的应用价值。
中图分类号:TP393.4 文献标志码:A DOI: 10.16157/j.issn.0258-7998.245448
中文引用格式: 杨波,徐胜超,周继鹏,等. 一种基于Yarn云平台的基因启发式多序列比对算法[J]. 电子技术应用,2024,50(11):16-22.
英文引用格式: Yang Bo,Xu Shengchao,Zhou Jipeng,et al. Gene heuristic multi sequence alignment algorithm based on Yarn cloud platform[J]. Application of Electronic Technique,2024,50(11):16-22.
Gene heuristic multi sequence alignment algorithm based on Yarn cloud platform
Yang Bo1,Xu Shengchao1,Zhou Jipeng2,Wang Zhijian1
1.School of Artificial Intelligent, Guangzhou Huashang College; 2.School of Information Science and Technology, Jinan University
Abstract: This paper proposes a gene heuristic multi sequence alignment algorithm based on the Yarn cloud platform. Establish a nucleic acid replacement equivalence matrix as a genetic heuristic mathematical model, construct the Yarn cloud platform logical architecture, and classify and save the data through steps such as gene data preprocessing, gene data storage, gene data alignment, gene data management, and gene data analysis. Divide long sequences with high error rates, and obtain multiple shorter gene fragments. Implementing localization on different fragments, generating variable length seeds, constructing skeletons and filling gaps, can achieve gene heuristic multi sequence alignment. The results show that the designed algorithm reduces processing time on different datasets, and the sum of pairs (SP) score for multi sequence alignment is higher. This experiment verifies the practicality of the multi sequence alignment method.
Key words : biological data;parallel computing;distributed computing architecture;distributed database system;big data processing platform

引言

生物序列对比是生物信息学领域的核心内容。由于不同物种的基因序列长度不同,大量的重复序列高频率出现在每个物种的基因组中,因此每个物种都有一个多序列比对问题。最重要的工作是建立基因数据库,在基因数据库的建立过程中,对于基因启发式的多序列比对研究是重中之重。在比对的过程中,通过比较不同物种或同一物种不同基因的DNA序列,基因启发式多序列比对算法有助于理解基因的进化历史、功能和结构,通过比对多个基因序列的相似性和差异性,可以推断出这些物种之间的进化关系,从而了解物种之间是否有亲缘关系和演化到目前为止的历程。基因启发式多序列比对算法可以找出多个基因序列之间的共同结构和功能区域,这有助于预测新的基因功能,为药物设计和疾病治疗提供重要信息。总之,基因启发式多序列对比算法可以揭示基因的多种特点和规律,为生物学、医学和农业等领域的研究提供重要支持。

国内外众多学者都对基因比对算法有着深入研究。文献[1]提出了一种基于序列长度的高效多序列比对算法,该算法首先根据基因序列的长度将其划分为若干段,然后对每个分段排序,并与原始序列比对。文献[2]介绍了一种基于时间窗的DNA序列分段方法,该方法的核心步骤是将DNA序列依据其长度切割成多个区间,并对这些区间逐一比较分析。而文献[3]则侧重于基因序列比对原理的探讨,通过引入Logistic映射对混沌遗传算法的优化,有效提升了算法的收敛速度。在算法设计中,它明确了基因序列的遗传编码方式,并计算了相应的适应度值,同时考虑了碱基缺失情况的影响。此外,文中还设计了混沌遗传算子,实施了混沌变异操作,从而实现了基因序列的比对。文献[4]则提出了一种基于启发式策略的多序列比对算法。该算法首先利用启发式策略对多个基因排序,然后将所有排序后的结果比对。然而,DNA序列比对算法在实践中也面临一些挑战。由于DNA序列通常较长且序列间重叠率高,传统的比对算法往往耗时较长。同时,由于DNA序列的稳定性以及比对结果的单一性,基因数据信息在比对过程中损失较大,这在一定程度上影响了比对的准确性。因此,如何快速且准确地完成多个基因的比对,成为当前亟待解决的问题[5-8]。

云平台能够共享庞大的计算资源,并以服务的形式提供给用户,让用户能够按需灵活使用。Yarn云平台是云计算Apache Hadoop2.0生态系统中的一个关键组件,是用于资源管理和作业调度的分布式计算框架。利用Yarn在云环境中提供资源分配、作业调度和容错能力,使用户能够高效地利用云计算提供的计算能力。本文提出了一种基于Yarn云平台的基因启发式多序列比对算法,旨在提高比对效率和准确性。结合生物知识建立基因启发式数学模型,构建Yarn云平台逻辑架构,针对处理后的数据并行计算,提高处理效率,利用HBase数据库和基因段编码模块对数据的存储和处理,将序列比对的结果展示在数据库中。通过实验结果可知,本文的方法运行时间较短且SP分值高于0.9,具有良好的应用性能。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006204


作者信息:

杨波1,徐胜超1,周继鹏2,王志坚1

(1.广州华商学院 人工智能学院, 广东  广州511300;

2.暨南大学 信息科学技术学院, 广东 广州510632)


Magazine.Subscription.jpg

此内容为AET网站原创,未经授权禁止转载。