中文引用格式: 杨波,徐胜超,周继鹏,等. 一种基于Yarn云平台的基因启发式多序列比对算法[J]. 电子技术应用,2024,50(11):16-22.
英文引用格式: Yang Bo,Xu Shengchao,Zhou Jipeng,et al. Gene heuristic multi sequence alignment algorithm based on Yarn cloud platform[J]. Application of Electronic Technique,2024,50(11):16-22.
引言
生物序列对比是生物信息学领域的核心内容。由于不同物种的基因序列长度不同,大量的重复序列高频率出现在每个物种的基因组中,因此每个物种都有一个多序列比对问题。最重要的工作是建立基因数据库,在基因数据库的建立过程中,对于基因启发式的多序列比对研究是重中之重。在比对的过程中,通过比较不同物种或同一物种不同基因的DNA序列,基因启发式多序列比对算法有助于理解基因的进化历史、功能和结构,通过比对多个基因序列的相似性和差异性,可以推断出这些物种之间的进化关系,从而了解物种之间是否有亲缘关系和演化到目前为止的历程。基因启发式多序列比对算法可以找出多个基因序列之间的共同结构和功能区域,这有助于预测新的基因功能,为药物设计和疾病治疗提供重要信息。总之,基因启发式多序列对比算法可以揭示基因的多种特点和规律,为生物学、医学和农业等领域的研究提供重要支持。
国内外众多学者都对基因比对算法有着深入研究。文献[1]提出了一种基于序列长度的高效多序列比对算法,该算法首先根据基因序列的长度将其划分为若干段,然后对每个分段排序,并与原始序列比对。文献[2]介绍了一种基于时间窗的DNA序列分段方法,该方法的核心步骤是将DNA序列依据其长度切割成多个区间,并对这些区间逐一比较分析。而文献[3]则侧重于基因序列比对原理的探讨,通过引入Logistic映射对混沌遗传算法的优化,有效提升了算法的收敛速度。在算法设计中,它明确了基因序列的遗传编码方式,并计算了相应的适应度值,同时考虑了碱基缺失情况的影响。此外,文中还设计了混沌遗传算子,实施了混沌变异操作,从而实现了基因序列的比对。文献[4]则提出了一种基于启发式策略的多序列比对算法。该算法首先利用启发式策略对多个基因排序,然后将所有排序后的结果比对。然而,DNA序列比对算法在实践中也面临一些挑战。由于DNA序列通常较长且序列间重叠率高,传统的比对算法往往耗时较长。同时,由于DNA序列的稳定性以及比对结果的单一性,基因数据信息在比对过程中损失较大,这在一定程度上影响了比对的准确性。因此,如何快速且准确地完成多个基因的比对,成为当前亟待解决的问题[5-8]。
云平台能够共享庞大的计算资源,并以服务的形式提供给用户,让用户能够按需灵活使用。Yarn云平台是云计算Apache Hadoop2.0生态系统中的一个关键组件,是用于资源管理和作业调度的分布式计算框架。利用Yarn在云环境中提供资源分配、作业调度和容错能力,使用户能够高效地利用云计算提供的计算能力。本文提出了一种基于Yarn云平台的基因启发式多序列比对算法,旨在提高比对效率和准确性。结合生物知识建立基因启发式数学模型,构建Yarn云平台逻辑架构,针对处理后的数据并行计算,提高处理效率,利用HBase数据库和基因段编码模块对数据的存储和处理,将序列比对的结果展示在数据库中。通过实验结果可知,本文的方法运行时间较短且SP分值高于0.9,具有良好的应用性能。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006204
作者信息:
杨波1,徐胜超1,周继鹏2,王志坚1
(1.广州华商学院 人工智能学院, 广东 广州511300;
2.暨南大学 信息科学技术学院, 广东 广州510632)