5.1.2 支持向量机 .............................. 40
第五章 基于快速傅里叶逆变换和旋转森林的蛋白质相互作用预测
5.1 IFFT-RoF 模型概述
5.1.1 基于 IFFT 的特征提取方法
在计算科学和工程领域,快速傅里叶变换 ( Fast Fourier transform, FFT ) 是最重要的算法之一。同时,它也是数字信号处理领域中最强大的算法之一。然而,当数据不是均匀采样时,FFT算法在许多实际应用中并不适用。出于这个原因,笔者使用快速傅里叶逆变换 [72]( Inverse Fast Fourier transform, IFFT ) 方法来获得时域的瞬态响应。图 5.1 给出了 IFFT 算法的工作流程框图。
IFFT 和 FFT 的唯一区别是,IFFT 的旋转因子是共轭的。在 FFT 中,旋转因子的不规则性可以通过加入正弦和余弦信号来解决。输入信号的正弦变换和余弦变换相叠加就可以得到二维信号的 IFFT。
第六章 总结与展望
6.1 工作总结
蛋白质相互作用的预测研究对于理解蛋白质如何通过协同工作来执行细胞功能非常重要。研究植物间蛋白质间相互作用不但能全面了解植物蛋白的功能,并且可以促进以植物蛋白质为基础的药物研究,使得人们进一步的了解生命的真谛。目前,主要的方法是基于高通量技术的方法和基于计算的方法。尽管高通量技术很有效,但是它不可避免的存在成本高,耗时长且假阳性率过高的缺点。因此,近年来,基于计算的方法越来越收到人们的重视。随着计算机技术的高速发展,越来越多的专家学者希望通过利用蛋白质氨基酸序列信息和机器学习算法来预测植物间的蛋白质-蛋白质的相互作用。
本文提出了一种新颖的基于集成学习的计算方法来预测植物间的蛋白质相互作用。主要工作如下:首先从蛋白质数据库中收集植物蛋白质相互作用数据,并用随机抽取的方法建立负样本。这三种数据集分别是拟南芥 ( Arabidopsis ),玉米 ( Zea mays ) 和大米 ( Oryza sativa )。工作挑战之一在于通过合理的算法将这些植物蛋白质序列转化为包含特征信息的数值矩阵。该算法不仅要将长度大小不一的氨基酸序列转化成数字矩阵,同时在蛋白质转化过程中也要保留其先验进化信息。因此,本文在研究中采用了位置特异性评分矩阵 ( PSSM ) 算法来编码蛋白质的序列并且保留与其相关的进化信息。
本工作的另一个主要创新点在于利用了三种不同的特征提取算法来从序列的离散数值矩阵中提取出包含进化信息的特征向量。这三种特征提取计算方法分别是沃尔什-哈达玛变换 ( Walsh-Hadamard Transform, WHT ),双树复小波变换 ( Dual tree complex wavelet transform, DTCWT ) 和快速傅里叶逆变换 ( Inverse Fast Fourier transform, IFFT )。将三种不同的特征描述符输入到两种不同的集成学习分类器来进行训练和预测,形成了“WHT-RoF”、“DTCWT-RF”和“IFFT-RoF ”等三种预测模型。通过分别与先进的深度学习算法,深度神经网络 ( Deep neural networks, DNN ), 传统的惰性学习算法,K 近邻模型 ( K-Nearest Neighbor, KNN ) 和使用最广泛的机器学习算法,支持向量机 ( Support vector machine, SVM ) 进行对比实验,进一步证明提出的模型的强大预测性能。
参考文献(略)