..........................
第三章 融合先验信息的增强归纳型矩阵补全算法 ....................................... 20
3.1问题建模 ............................... 21
3.1.1 归纳型矩阵补全 ......................... 21
3.1.2 融合先验信息的增强归纳型矩阵补全 .................... 23
第四章 基于 Katz 增强的归纳型矩阵补全算法 .................................... 36
4.1问题建模 .............................. 36
4.1.1 Katz 方法 ................................ 37
4.1.2 基于 Katz 增强的归纳型矩阵补全 ...................... 38
第五章 总结与展望 .................................. 46
4.1工作总结 ................................. 46
4.2研究展望 ................................. 47
第四章 基于 Katz 增强的归纳型矩阵补全算法
第三章提出的融合先验信息的增强归纳型矩阵补全算法在预测时有效利用了基因-疾病关联关系的先验稀疏性以及基因和疾病存在的关联一致性信息,预测效果有了一定的提升,达到了利用先验信息来增强归 IMC 算法的目的。然而,该算法是从挖掘利用基因和疾病数据的先验信息的角度来设计建模的,在提升预测效果的同时并没有考虑基因-疾病关联关系预测领域还存在的其它研究难点。
相对于人类已经发现的基因和疾病的庞大数量,每年被研究人员证实存在关联关系的基因和疾病数量都非常少。而现有的生物数据库仅记录了这部分基因-疾病间已确定存在的关联关系,绝大部分基因-疾病间是否存在关联关系并未可知,从而一方面导致数据集中基因-疾病间的已知关联数据极为稀疏,另一方面导致数据集中存在严重的数据偏斜问题,也就是说这些数据集中只记录少部分确定存在的关联关系(Positive 关系),并不记录任何确定不存在的关联关系(Negative 关系)。对于那些未知的关联关系(Unlabeled 关系),我们需要预测它们之间是否存在关联,这类问题在机器学习领域通常称之为 PU 学习问题。
............................
第五章 总结与展望
5.1工作总结
针对上述问题,本文基于基因-疾病关联关系矩阵的先验低秩特性,引入矩阵补全理论进行预测算法设计,同时,将基因-疾病关联关系预测问题建模为归纳型矩阵补全问题。在此基础上,分别从两个不用的角度提出了两种不同的增强归纳型矩阵补全模型,并对模型进行优化求解,有效解决了上述不足。 论文完成的具体研究内容如下:
(1)本文充分调研了基因-疾病关联关系预测问题国内外的研究现状,并调研了其中一些常用的方法、数据信息以及评价指标。同时,根据设计角度的差异将现有的预测方法大致分为以下三个类型:基于基因和蛋白质信息分析的预测方法、基于基因和疾病生物网络信息的预测方法以及基于基因-疾病关联关系矩阵补全的预测方法。并详细介绍了这些算法的设计思想和存在的不足之处。
(2)针对现有预测方法没有充分利用基因和疾病的先验信息的问题,提出一种融合先验信息增强归纳型矩阵补全算法。该算法基于矩阵补全理论,首先将该问题建模为归纳型矩阵补全问题对基因-疾病关联关系矩阵中的未知关联进行预测。接着,针对基因-疾病关联关系在现实中存在的先验稀疏性,引入先验稀疏正则化,利用 L1 范数来保持基因-疾病关联关系的先验稀疏性。其次,由于基因和疾病存在着关联一致性,引入先验流形正则化来保持基因和疾病的关联一致性信息。最后,提出了融合这两种先验信息的增强归纳型矩阵补全模型。同时,本文针对上述构建的基因-疾病关联关系预测算法的优化求解方法进行了研究。这里采用一种基于 PFBS 算法求解子问题的 ADMM 算法进行优化求解。并且在真实基因-疾病关联关系数据集上进行的实验验证了预测算法的有效性。
(3)针对现有预测算法会忽略的基因-疾病关联数据稀疏问题、关联数据偏斜遭遇 PU 学习问题,提出了一种基于 Katz 增强归纳型矩阵补全算法。该模型由基于 Katz 方法的预估计和基于归纳型矩阵补全方法的精化估计两步骤组成。具体地,先利用 Katz 方法基于基因-疾病异构网络对基因-疾病关联进行预估计,以期缓解关联数据稀疏和 PU 问题的影响;然而,受制于相似度网络的质量,Katz 方法在预估计基因-疾病关联时不可避免地会引入一些噪声,为此,将弹性网正则化技术引入传统的归纳型矩阵补全模型以增强其鲁棒性,进而用改进的归纳型矩阵补全模型来精化基因-疾病关联预测效果。针对上述基因-疾病关联关系预测算法,这里采用 PFBS 算法进行优化解。同样在真实的数据集上实验验证了预测算法的有效性。
参考文献(略)