《电子技术应用》
您所在的位置:首页 > 人工智能 > 设计应用 > 基于云计算的蛋白质折叠空间结构预测
基于云计算的蛋白质折叠空间结构预测
电子技术应用
徐胜超,杨波,王宏杰,毛明扬,蒋金陵,蒋大锐
广州华商学院 数据科学学院
摘要: 构建基于云计算的蛋白质折叠空间结构预测框架,通过数据云存储设备获取蛋白质序列原始数据,采用HDFS(Hadoop Distributed File System)分布式存储方式保存于云端。资源和队列管理器RQM(Resource Queue Management)开启云端虚拟机后,以之作为扫描节点(Sensor Node, SN),SN基于二维AB非格点模型建立最小蛋白质分子能量优化函数,采用局部搜索机制改进的量子遗传算法对其作优化求解。利用云端GPU设备处理模型训练数据,即可实现蛋白质折叠空间结构的自动化预测。实验结果表明:蛋白质序列能量势函数计算结果更小、执行效率更高、GDT-TS(Geothermal Development and Testing Tool Suite)评价指标值更大。
中图分类号:TP393.4 文献标志码:A DOI: 10.16157/j.issn.0258-7998.244973
中文引用格式: 徐胜超,杨波,王宏杰,等. 基于云计算的蛋白质折叠空间结构预测[J]. 电子技术应用,2024,50(8):10-16.
英文引用格式: Xu Shengchao,Yang Bo,Wang Hongjie,et al. Cloud computing based spatial structure prediction of protein folding[J]. Application of Electronic Technique,2024,50(8):10-16.
Cloud computing based spatial structure prediction of protein folding
Xu Shengchao,Yang Bo,Wang Hongjie,Mao Mingyang,Jiang Jinling,Jiang Darui
School of Data Science, Guangzhou Huashang College
Abstract: A prediction framework for the spatial structure of protein folding based on cloud computing is proposed and implemented. The original data of protein sequence is obtained through the data cloud storage unit and stored in the cloud using the HDFS distributed storage mode. After the resource and queue manager RQM (Requirements Quality Management) starts the cloud virtual machine, it is used as the Sensor Node which establishes the minimum protein molecular energy optimization function based on two-dimensional AB non-lattice model. The quantum genetic algorithm is adopted for local search mechanism to optimize its solution. The cloud GPU equipment is used to process the model training data to complete the automatic prediction of the spatial structure of protein folding. The experimental results show that the proposed approach can achieve the smaller calculation result of protein sequence energy potential function, the higher execution efficiency, and the higher GDT-TS (Geothermal Development and Testing Tool Suite) evaluation index value.
Key words : cloud computing;protein folding;spatial structure prediction;HDFS distributed storage;local search mechanism;quantum genetic algorithm

引言

蛋白质定义为由共价键实现若干种氨基酸相连的多肽链,是生命活动不可缺少的重要物质[1-2],因其高度参与,方使生命体具有活性[3]。分析蛋白质结构与功能对揭秘生物生命奥秘具有极其显著的研究意义[4-6]。

蛋白质分子具有较高的复杂度,直接通过能量函数确定蛋白质分子能量与结构的关系描述难以实现[7],因此,各种优化算法应运而生。谢腾宇等人[8]为了准确确定蛋白质折叠空间结构,设计了两步构象空间搜索框架,该方法虽具有较好的局部搜索性能,但数据处理量很高,难以取得突出的数据处理效率。包晨等人[9]构建的多尺度卷积和循环神经网络预测模型能够充分捕获氨基酸序列局部以及长程特征信息,将其作为多层双向长短期记忆网络的输入,实现蛋白质折叠空间结构的确定。徐胜超[10]提出基于云计算的蛋白质折叠模拟计算,研究了PERM算法的运行流程和面向MapReduce的子任务划分方式。上述方法在蛋白质折叠空间结构预测上是可行的,但受优化算法以及网络训练参数量的影响,使得蛋白质折叠空间结构预测计算量较高,面对庞大规模的数据处理量,如何提高算法执行效率成为当下急需解决的问题。

云计算技术采用虚拟化技术,能高效地聚集多个物理节点并行化方式实现大规模数据的高效处理,在高性能科学计算领域得到了广泛的认可[11-12]。因此,本文提出基于云计算的蛋白质折叠空间结构预测方法,本文云计算平台的软件在版本上比文献[10]已经提高了很多,在精准获取蛋白质构象的同时提高算法的运行效率。


本文详细内容请下载:

http://www.chinaaet.com/resource/share/2000006114


作者信息:

徐胜超,杨波,王宏杰,毛明扬,蒋金陵,蒋大锐

(广州华商学院 数据科学学院,广东 广州 511300)


Magazine.Subscription.jpg

此内容为AET网站原创,未经授权禁止转载。