软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于CapsNet和ACNet的蛋白质磷酸化和亚磺酰化位点预测

日期:2022年02月23日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:622
论文价格:150元/篇 论文编号:lw202202161447445552 论文字数:26858 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇软件工程硕士论文,本文使用 ACNet 和多尺度 CapsNet 的集成神经网络框架对蛋白质磷酸化和亚磺酰化位点进行预测,主要工作如下:在特征选择方面,除了已经被广泛使用的 PSSM 和理化性质之外,引入以氨基酸成对能量矩阵为基础的 RECM 转换矩阵和 RECM 构成特征,使得融合之后的特征具备了序列中各氨基酸直接的关系。然后使用信息增益的方法对融合特征进行选择,去除冗余的特征,使用最优特征最为训练模型的输入。

第 1 章   绪

1.1   研究背景及意义

蛋白质是生命体的重要组成部分,参与调控生命活动,控制生长、能量代谢以及应急反应等。蛋白质翻译后修饰是一种重要的细胞控制机制,是指在编码基因 mRNA 翻译成蛋白质序列之后对一个或几个氨基酸残基添加修饰基团或者水解减去基团的一个共价加工过程,它可以改变蛋白质的物理性质和化学性质,如构象、疏水性、稳定性和活性等。

磷酸化是指把磷酸基添加到蛋白质氨基酸残基上的过程,主要发生在丝氨酸(Serine,S)、苏氨酸(Threonine,T)和酪氨酸(Tyrosine,Y)上,与 DNA 损伤修复、转录调节、信号传导以及细胞凋亡的调节等多种生物学过程密切相关[1-3]。乙酰化是指把乙酰基添加到蛋白质残基上的过程,主要放生在赖氨酸(Lysine,K)上,与基因表达和代谢等生物学过程相关[4]。甲基化一般发生在精氨酸(Arginine,R)或赖氨酸上,与基因表达的激活、延伸和控制有关[5]。可以发现同一种蛋白质翻译后修饰可以发生在蛋白质序列的不同种的氨基酸上,且同一种的氨基酸也可以发生多种不同的蛋白质翻译后修饰,如表 1.1 所示:

软件工程硕士论文怎么写

1.2   国内外研究现状

传统的方法主要是通过截取蛋白质中特定的肽段,利用实验的方法来确定翻译后修饰位点,如基于高通量质谱等技术的实验[6]。随着越来越多的蛋白质序列被发现,传统方法耗时耗力,已经不能满足需求了,因此很多研究人员和专家学者探索蛋白质序列的表示方法,基于生物信息学的方法来进行蛋白质翻译后修饰位点的预测,相比传统的实验方法,极大地提高了预测的效率。

1.2.1   蛋白质磷酸化修饰位点预测方法概述

基于机器学习的方法是蛋白质磷酸化修饰位点预测的选择之一,常用方法有支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)等。Xu 等人[7]提出了一种新的编码方法位置特定倾向矩阵(Position-specific  Prepensity  Matrices,PSPM),然后使用 PSPM 计算的核矩阵 SVM 用于预测蛋白质磷酸化修饰位点。PhosphoSVM 方法[8]使用香农熵(Shannon Entropy)、相对熵(Relative Entropy)、蛋白质二级结构(Secondary Structure)、蛋白质无序性(Protein Disorder)、K-最近邻分布(K-nearest Neighbor Profiles,KNN)等八种蛋白质序列的属性作为特征,使用 SVM 预测蛋白质磷酸化修饰位点。PhosPred-RF 方法[9]从信息理论特征、物理化学性质、单热编码等多个角度获取序列信息,基于随机森林算法,用于蛋白质磷酸化修饰位点预测。相比于传统的实验方法,使用机器学习的算法可以快速的得到预测结果,仅依赖于蛋白质的序列信息,降低了预测成本。

深度学习是近年来在机器学习的基础上发展起来的新的研究领域,已经被用于各个领域,也有一些学者将深度学习的方法应用到了蛋白质磷酸化修饰位点的预测中。Wang等人[1]提出的 MusiteDeep 方法是第一个被提出来的预测蛋白质磷酸化修饰位点的深度学习框架,它以蛋白质的单热编码作为输入,使用多层卷积神经网络作为特征提取器,采用一种新颖的二维注意机制进行磷酸化预测。2020 年 Wang 等人对 MusiteDeep 进行改进[2],在原来的基础上增加了一个胶囊网络,在预测过程中通过对两个独立网络的预测得分平均计算出最终得分。

第 2 章   论文相关深度学习知识

2.1    卷积神经网络简介

卷积神经网络(Convolutional Neural Networks,CNN)[21-23]是一种具有深度结构的前馈神经网络,主要通过卷积计算进行特征提取,具有表征学习能力,能够按照其阶层结构对输入信息进行准确分类。卷积神经网络主要由输入层、卷积层、激活函数、池化层和全连接层几个部分组成。

CNN 每部分的作用如下:

(1)输入层

输入层主要实现对原始数据进行预处理,主要包括去均值、归一化等过程。通过输入层,将输入的可能具有不同单位和规模的数据处理成统一的单位和规模,方便后续的计算。

(2)卷积层(Convolutional layer)

卷积层是卷积神经网络的核心基石,主要实现特征提取。该层包括两个关键的操作:局部关联和窗口滑动。卷积层是通过输入数据和卷积核进行图像特征学习的,并保留像素之间的关系,多个卷积层通过迭代提取复杂的特征。在进行卷积操作时,卷积核移动的像素幅度称为步幅。图 2.2 表示卷积过程,其中输入特征为5 × 5的矩阵,卷积核为3 ×3的矩阵,步幅为 1,输出结果为3 × 3的矩阵。输入矩阵中有一个和卷积核有相同尺寸的滑窗(绿色区域),每移动一次,就与卷积核做一次矩阵运算,将结果填到输出特征矩阵中对应的位置。

2.2    胶囊网络(CapsNet)简介

CapsNet 是一种新颖的深度学习网络框架,它对仿射变换具有鲁棒性。在 CapsNet中,胶囊被定义为由一组神经元组成的矢量,其参数可以代表在图像中呈现的特定类型实体的各种属性,如位置、大小和方向。每个活动向量的长度表示特定对象存在的概率,其方向表示该对象的属性。CapsNet 解决了 CNN 无法探索特征属性之间的关系(比如相对位置关系、相对大小关系等)的缺点。

CapsNet 通过动态路由机制[17]将信息从一层传递到另一层的方式,这意味着低层的胶囊预测高层胶囊的结果,只有当低层预测结果都一致时,高层胶囊才会被激活,高层与低层胶囊连接如图 2.7 所示:

中当类 k 存在时,𝑇𝑘的值为 1,𝑚+、𝑚−和𝜆为训练时应指定的超参数。 一个三层的简单胶囊网络如图 2.8 所示。在 PrimaryCaps 有32 × 6 × 6个胶囊输出(每个输出都是一个 8 维矢量)和在6 × 6的网格每一个胶囊共享它们的权重。DigitCaps层中的每个胶囊的活动向量的长度表示每个类的一个实例的存在,并用于计算分类损失。𝑊𝑖𝑗是 PrimaryCaps 层的每一个输出𝑢𝑖, 𝑖 ∈ (1,32 × 6 × 6)和𝑣𝑗, 𝑗 ∈ (1,10)之间的权重矩阵。

第 3 章   蛋白质特征表示以及特征选择 ......................... 16

3.1  特征表示 ............................. 16

3.1.1  位置特异性得分矩阵 ............................ 16

3.1.2  氨基酸的理化性质 ............................. 17

第 4 章   基于集成神经网络预测蛋白质磷酸化修饰 ......................... 21

4.1  引言 .................................... 21

4.2  磷酸化修饰位点数据集收集 ..................... 21

第 5 章   基于集成神经网络预测蛋白质亚磺酰化修饰 .......... 31

5.1  引言 ....................... 31

5.2  亚磺酰化修饰位点数据集 ................................... 31

第 5 章   基于集成神经网络预测蛋白质亚磺酰化修饰

5.1    引言

亚磺酰化是一种主要发生于半胱氨酸(Cysteine,C)上的蛋白质翻译后修饰,它涉及多种生物过程,包括细胞信号传导、蛋白质结合和蛋白质功能等。为了研究亚磺酰化的基础机制,许多方法如化学蛋白质组学方法被用来鉴定这些位点,例如通过半胱氨酸亚磺酸的特异性标记和质谱,实验检测了 700 种蛋白质中的 1000 多个亚磺酰化位点。但是这些方法通常都是耗时且繁琐的,因此为了提高快速和准确鉴定蛋白质亚磺酰化修饰位点的能力,一些学者已经开发了很多计算方法:基于支持向量机的 SVM-SulfoSite和 iS ulf-Cys、基于随机森林算法的 SulCysSite、基于深层卷积神经网络的 fastSulf-DNN等,这些方法极大地提高了亚磺酰化蛋白质翻译后修饰位点的鉴定效率。本文使用集成神经网络,以四种特征作为输入,对亚磺酰化修饰位点进行预测,并与现有方法进行比较,预测的准确率有一定的提升。

本文从现有的文献中收集了两个亚磺酰化修饰位点数据集,同时依据 UniProt/Swi