本节从集成多组学数据开始,然后提出改进的识别模型 IMWS 。本章符号定义与第 2章中的符号定义类似,本节中共同处理部分简要描述,主要描述融合多组学数据以构造加权的非二元突变矩阵时的区别部分。
第 4 章 总结与展望
4.1 论文总结
随着高通量测序技术的飞速发展,使癌症驱动通路识别问题成为生物信息研究中的重要研究方向。驱动通路研究中的多组学数据融合的方法,可以有效解决之前研究所用的单组学数据的局限性。本文针对已有方法的不足提出了新的组学融合方法,新的识别模型和更加高效的求解算法,总结如下:
(1) 本文首先将三种类型的组学数据用于组学融合,提出新加权方式,对突变矩阵中每个突变值进行加权操作,将基因表达数据中包含的信息融合到突变数据中,构建加权的非二元突变矩阵。基于对非二元突变矩阵的覆盖度和互斥性的新度量,设计了一种新的识别模型用于在新矩阵上寻找符合两种特性的驱动通路。
(2) 提出了一种基于遗传算法的合作型协同进化算法 CGA-MWS 来求解新模型,算法引入基于贪婪思想的变异算子以获取更好的局部搜索能力,并且构建合作池保证种群多样性,使其能获取更好的全局搜索能力。利用模拟数据和真实生物数据,对方法 Dendrix、GA、iMCMC、MOGA、PGA-MWS 和 CGA-MWS 进行实验并且对结果进行分析。结果表明 CGA-MWS 算法识别出的信号通路中的基因在大多数情况下富集在已知的信号通路。同时,CGA-MWS 算法在求解不同规模问题时具有较好的性能和扩展性。
(3) 针对 CGA-MWS 方法中的数据融合方法,引入了 DNA 甲基化数据,进行差异甲基化分析,并通过基因表达数据与 DNA 甲基化数据的联系,以达到去除组学数据融合时引入的参数1λ 和2λ 的目的。针对 CGA-MWS 方法中模型不平衡问题,通过放缩模型中的ME(M) 的值使其与 CO(M) 处于同一取值范围,并且通过调和均值进一步对两个值进行平衡,提出了更平衡的求解模型 IMWS ,以寻找高覆盖和高互斥下二者更加平衡的驱动通路。
(4) 提出了更高效的合作型协同演化算法 ECA-IMWS 求解 IMWS 模型,算法在CGA-MWS 算法的基础上融入了粒子群算法用于扩充合作池,使其能获取到更好的全局搜索能力,并且在变异操作上融入了模拟退火思想,增加算法的局部搜索能力,使算法在不同数据规模下,有更加平衡的性能。在真实生物数据集上和模拟数据集上对算法 Dendrix、GA、PGA-MWS、CGA-MWS 和 ECA-IMWS 进行实验并且对结果进行分析。结果表明 ECA-IMWS 算法识别出的基因在更多数情况下富集在已知的信号通路。同时,ECA-IMWS算法在不同规模下均显示出高效性能,具有更普遍的适应性。
参考文献(略)