工程论文栏目提供最新工程论文格式、工程论文硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于集成学习的植物蛋白质-蛋白质相互作用预测探讨

日期:2022年07月15日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:406
论文价格:150元/篇 论文编号:lw202207031129582209 论文字数:35266 所属栏目:工程论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇工程论文研究,本文提出了一种新颖的基于集成学习的计算方法来预测植物间的蛋白质相互作用。主要工作如下:首先从蛋白质数据库中收集植物蛋白质相互作用数据,并用随机抽取的方法建立负样本。这三种数据集分别是拟南芥 ( Arabidopsis ),玉米 ( Zea mays ) 和大米 ( Oryza sativa )。

第一章  绪

1.1 研究背景及意义

近几年来,伴随着高通量基因测序技术 [1]的快速发展和数以亿计的蛋白质序列数据的涌现,促进了医学,药学等相关学科的快速发展,同时也意味着后基因组时代 ( Post Genomic Era ) [2]已经全面到来。一门全新的交叉学科也就出现了,这门学科叫做生物信息学 ( Bioinformatics ) [3]。目前,Bioinformatics 是自然科学中最热门的领域之一,其本质就是处理实验中获得的生物数据,收集实验需要的信息,然后利用这些信息来进行某种生物功能的预测。随着数据挖掘技术的不断发展,越来越多的研究人员开始利用相关技术对从实验中收集到的蛋白质数据进行研究分析。蛋白质 ( protein )、DNA 和 RNA 等三种生物大分子遵循遗传的“中心法则” [4],对于所有细胞而言都是最重要的组成成分之一。蛋白质是由 20 种不同的氨基酸形成的多聚体,通过特殊的结构来发挥其生物学功能。表 1.1 展示了常用的 20 种氨基酸的中文和英文名称及其代表符号。蛋白质-蛋白质相互作用 ( Protein-protein interactions, PPIs ) [5]是指两个或两个以上的蛋白质经过非共价核苷键上的链接而相互构成一个蛋白质分子复合体的过程,它包括直接关联和间接关联,即物理关联和功能关联来建立细胞生化反应网络。研究蛋白质之间的相互作用一直以来都被认为是系统生物学研究的重点目标,因为这不仅有助于了解各种生命过程,而且有助于探索疾病的发病机制和寻找可能存在的药物靶点 [6-8]。

植物蛋白质之间的物理相互作用可能与多种生物功能有关,包括植物间的信号传导 [9]、植物防御系统的构建 [10]、植物的应激反应 [11]、植物体内的平衡控制 [12]  和相应的细胞器官形成原理 [13]。在分子功能水平上,蛋白质相互作用在蛋白质磷酸化 [14]、转录辅助因子募集 [15]、酶转录后激活或失活修饰 [16]、细胞骨架组装 [17]和转录蛋白激活 [18]等方面起着重要作用。由此可见,蛋白质-蛋白质的相互做用基本上在植物所有的生理,病理和发育过程中都有着不可代替的作用。所以,研究植物中的 PPIs  既是理解植物在生命活动中的重要基础,同时又被认为是后基因组时代,生物信息学最重要的研究课题之一 [19]。

1.2 国内外研究现状

迄今为止,已经有大量的方法被开发用于蛋白质相互作用的预测研究,如酵母双杂交系统 ( Y2H ) [23],亲和纯化质朴分析 ( AP-MS ) [24],荧光共振能量转移 [25]和双子荧光互补方法  [26]等。这些方法又可以大致分为五类:(1) 基于演化关系的研究方法 [27];(2) 基于蛋白质结构的研究方法 [28];(3) 基于蛋白质结构域的研究方法 [29];(4) 基于蛋白质基因组信息分析的研究方法 [30];(5) 基于氨基酸序列信息的方法 [31]。通常来说,前四种方法预测精度较高,但是它们通常需要蛋白质的先验信息,例如蛋白质的 3D 结构细节。然而,很多蛋白质目前并不知道此种先验信息。此外,这些方法都有其自身的局限性,如价格昂贵,耗时费力且总是受到假阳性高的困扰。另一方面,从理论上讲,蛋白质序列蕴含了预测 PPIs 的所有必要信息。伴随着蛋白质测序技术的快速发展,蛋白质序列信息正在呈现出一种爆炸式的呈现。因此,急需开发新颖的,基于序列的计算方法作为实验方法的一种补充手段,来预测植物中可能存在的蛋白质相互作用组 [32]。

近年来,国内外的专家学者们提出了很多利用蛋白质序列信息的计算方法来预测 PPIs。例如,Shen 等 [33]开发了一种新颖的计算方法,将支持向量机,核函数和三元特征结合起来表示氨基酸序列。超过 16000 对不重复的蛋白质组被用于构造计算模型,并且取到了较好的预测结果。该方法充分地证明了单独使用蛋白质氨基酸序列的信息已经具备了足够的能力来预测蛋白质间的相互作用。Liu 等 [34]提出了一种新颖的,基于序列的计算分析方法,命名为“协同进化分歧”,用来研究和预测人类蛋白质间的相互作用。此方法假设具有相似替换率的蛋白质组可能存在相互作用,将 14种脊椎动物的进化信息转换为似然比,并将它们结合起来推断它们中的相互作用。Zeng 等 [35]通过利用蛋白质的全局序列特征,提出了一个名为 DeepPPISP 的深度学习框架来准确的预测各种蛋白质间的相互作用。DeepP PISP 模型对于局部背景特征,使用滑动窗口来捕捉相邻氨基酸的特征。对于全局序列特征,使用了文本卷积神经网络来提取整个蛋白质序列的进化信息,然后将局部上下文和全局序列特征相结合来预测相互作用。

第二章  植物蛋白质相互作用的相关理论

2.1 植物蛋白质相互作用数据库

随着高通量技术的蓬勃发展,大量的植物蛋白质数据库出现并用于蛋白质序列数据的存储与利用。这些数据库为蛋白质组学的发展做出了很大的贡献。本文介绍了几个常用的数据库,本文所使用的蛋白质数据也出于这些数据库,包括 MINT, TAIR,  PPIM,  IntAct,  BioGRID 和  PRIN  数据库。表 2.1 给出了本文介绍的蛋白质数据库和相应链接。

工程论文怎么写

MINT [43]是一个公共的分子相互作用资料库,用于存放同行评议的期刊中报道的分子相互作用,旨在存储有关蛋白质相互作用的信息。蛋白质相互作用是从科学文献中提取的,并由专家在数据库中进行注释。该数据库中的蛋白质相互作用都是由实验得出且经过分子专家审核过的,目前该数据库涵盖了 668 个物种,共 124,071 个蛋白质相互作用关系。

TAIR [44]数据库是专门为存储模式植物拟南芥相关信息的数据库。它是一个以关系形式存在的大型数据库,包括基因图谱、蛋白质和群体数据。这些数据可以使用数据库内的工具进行搜索、下载和分析。

2.2 蛋白质序列离散数值化表示方法

蛋白质是动植物生命发展的重要物质基础,蛋白质的氨基酸序列决定了其功能与结构。为了更好地对蛋白质进行训练和预测,急需将长度不同的蛋白质序列编码成大小长度一样的特征描述符,然后通过利用机器学习的算法来解决分类问题,此外,有效的蛋白质序列表示方法可以显著提高预测模型的预测性能。

现阶段存在许多将氨基酸序列转化为多维特征向量的算法,例如蛋白质顺序表示、替代矩阵表示和三维结构等。在本文的所有工作研究中,笔者都采用了位置特异性评分矩阵 ( Position Specific Scoring Matrix, PSSM ) [49]来进行分析和编码各种植物蛋白质的氨基酸序列,它首次被引入用于检测远距离相关蛋白质。近年来,PSSM 被广泛应用于研究蛋白质组学和基因组学,包括预测蛋白质二级结构预测,无序区域和蛋白质结合位点等。给定一个蛋白质序列,它对应的 PSSM 矩阵是一个  N ×20  的矩阵,其中  N  表示蛋白质的长度,20 代表 20 种不同种类的氨基酸。

在本文中,笔者使用特定位置的迭代局部搜索工具 ( PSI-BLAST ) [50]来编码氨基酸序列,同时也可以获取植物蛋白质的先验进化信息。BLAST 可以搜寻序列之间的局部相似性区域。它能够将目标序列与数据库内的序列进行比较,然后计算出匹配的统计学意义,从而揣度出序列之间的进化信息,并且帮助识别基因家族成员。PSI-BLAST  是一个更敏感的  BLAST  程序,可以更加有效地检测蛋白质家族的新成员和边缘物种相似的蛋白质。PSI-BLAST 的特点是它可以使用剖面图来搜索数据库,用搜索出的结果构建新的剖面图,然后用新的剖面图再次搜索数据库,如此反复,直到没有新的结果产生。

第三章  基于沃尔什-哈达玛变换和旋转森林的蛋白质相互作用预测 ......................... 17

3.1  WHT-RoF 模型概述 ................... 17

3.1.1 基于 WHT 的特征提取方法 .............................. 17

3.1.2 旋转森林算法 ..................... 19

第四章  基于双树复小波变换与随机森林的蛋白质相互作用预测 ..................... 29

4.1  DTCWT-RF 模型概述 .......................... 29

4.1.1 基于 DTCWT 的特征提取方法 ............................ 29

4.1.2 随机森林算法 .................................... 30

第五章  基于快速傅里叶逆变换和旋转森林的蛋白质相互作用预测 .......................... 39

5.1  DTCWT-RF 模型概述 .......................... 39

5.1.1 基于 IFFT 的特征提取方法 ...........................