SulfData1 是 Bui 等人从 Carroll Lab、RedoxDB、UniProtKB 以及其他文献中收集的蛋白质亚磺酰化修饰位点数据集,并对其去除相似度高于 40%的蛋白质序列,最终得到的数据集如表 5.1 所示:
第 6 章 工作总结和展望
6.1 工作总结
蛋白质翻译后修饰与生命活动息息相关,对蛋白质序列的基础研究和药物的研发等极为重要,因此深入研究蛋白质翻译后修饰是很有必要的。随着生物技术的发展,越来越多的未知蛋白质序列被发现,如何依据蛋白质序列快速准确的预测蛋白质翻译后修饰位点具有重要的意义。神经网络作为深度学习的一种主要算法,在图像和自然语言处理等其他方向已经取得了不错的成果,将其应用到生物信息学中已经成为当下的一个研究热点。本文使用 ACNet 和多尺度 CapsNet 的集成神经网络框架对蛋白质磷酸化和亚磺酰化位点进行预测,主要工作如下:
在特征选择方面,除了已经被广泛使用的 PSSM 和理化性质之外,引入以氨基酸成对能量矩阵为基础的 RECM 转换矩阵和 RECM 构成特征,使得融合之后的特征具备了序列中各氨基酸直接的关系。然后使用信息增益的方法对融合特征进行选择,去除冗余的特征,使用最优特征最为训练模型的输入。
在网络框架方面,本文依据多尺度 CNN 的思想,对 CapsNet 进行改进,并引入 ACNet构造集成神经网络框架用于蛋白质磷酸化和亚磺酰化修饰位点预测。集成神经网络框架集合了多尺度和 ACNet 特征复用的优点和 CapsNet 能够保存特征的姿态信息的特性,可以充分利用残基序列中的特征信息和氨基酸在序列中的位置。实验结果表明,与其他磷酸化和亚磺酰化修饰位点预测方法相比,本文方法构造的模型测试结果更优,有效性也更高。
参考文献(略)