本文是一篇软件工程硕士论文,本文针对已有方法的不足提出了新的组学融合方法,新的识别模型和更加高效的求解算法,总结如下: (1) 本文首先将三种类型的组学数据用于组学融合,提出新加权方式,对突变矩阵中每个突变值进行加权操作,将基因表达数据中包含的信息融合到突变数据中,构建加权的非二元突变矩阵。基于对非二元突变矩阵的覆盖度和互斥性的新度量,设计了一种新的识别模型用于在新矩阵上寻找符合两种特性的驱动通路。
第 1 章 绪论
1.1 研究背景及意义
恶性肿瘤,即癌症,早已成为人类发病和死亡的主要原因,是人类面临的主要疾病之一,严重危害人类健康。2018 年《全球癌症报告》[1]指出“全球癌症新增患者中,中国新增癌症病例高居第一位”。2019 年发表在《Cancer Communications》杂志上的文章《中国目前的癌症状况》[2]中指出“与美国和英国相比,中国的癌症发病率较低,但是癌症死亡率比英国和美国高30.0%和 40.0% ”。
近年来中国癌症的发病数占全球的 23.7% ,死亡数占全球的30.0%[3]。《中国目前的癌症状况》中总结和分析了《2018 年全球癌症报告》、《2015 年中国癌症统计》以及 GLOBCAN 2018 在线数据库,并做出全面的总结:据估计,2018 年近 24% (总计 430 万)的癌症病例和30.0%(总计 290 万)的死亡病例发生在中国[2]。其中报告还指出,2018 年,中国男性中最常见的癌症是肺癌(占总病例的 21.9% )、胃癌(占总病例的13.5% )、结肠直肠癌(占总病例的12.8% )、肝癌(占总病例的12.4% )和食道癌(占总病例的9.0%)。中国女性最常见的癌症是乳腺癌(占总病例的19.2% )、肺癌(占总病例的13.3% )、结直肠癌(占总病例的11.3% )、甲状腺癌(占总病例的7.7% )和胃癌(占总病例的7.1% )。其中两性常因为肺癌而死,在癌症死亡人数中居首位[4-5]。社会压力日益增加,其中导致癌症发生的原因更加多样化,呈现多因素共同作用的结果,并且患者年龄越来越年轻化。癌症对人类的生命健康产生严重威胁,因此,针对癌症相关问题的研究具有长期研究的必要。
癌症问题研究中各种包含大量信息的庞大数据具有决定作用,其中高通量测序数据目前具有广泛应用。高通量测序数据通过高通量测序技术(High Throughput Sequencing)方式获得。高通量测序技术能够同时并行序列测定几十万到数百万个 DNA 分子序列,是癌症研究发展中的重要转折点。目前,高通量测序技术已经发展到第三代,能快速、高效、全面的对人类全基因组序列进行分析。目前,国际肿瘤基因组协作组(ICGC)[6]、癌症基因组图谱计划(TCGA)[7]等,获得了海量的癌症基因组数据,利用这些海量数据进行癌症问题的研究是生物信息学中重要的挑战之一。
1.2 知识介绍
由于驱动通路识别问题涉及到很多背景知识,本节将首先介绍与癌症驱动通路识别相关的术语:
(1) 基因(Gene):DNA 片段并且带有遗传信息,它编码基因产物(RNA 或蛋白质)。
(2) 基因突变(Gene Mutation):基因组 DNA 分子发生突然并且可遗传的变异现象。在一定的条件下基因可以从原来存在形式突变改变成另一种新的存在形式,就是在一个位点上,突然出现了新基因,代替了原有基因。
(3) 突变基因(Mutant Genes):发生了基因突变的基因叫做突变基因,它可能突然地出现祖先从未有的新性状。
(4) 驱动突变(Driver Mutation):使肿瘤细胞具有选择性生长优势的基因突变被称为“驱动突变”,对肿瘤的增值扩散具有重要的质的影响。
(5) 乘客突变(Passenger Mutations):功能上为中性,不被选择,不参与癌变过程有如“过客”,被称为乘客突变。
(6) 驱动基因(Driver Gene):导致癌症发生的突变基因是驱动基因。它在癌症的发生和发展中起重要作用。
(7) 驱动通路(Driver Pathway):癌症细胞中的驱动基因集合。
(8) 覆盖度(Coverage):驱动通路中的驱动基因在大量患者中都发生基因突变。
(9) 互斥度(Mutual Exclusivity):在驱动通路中仅有一个基因发生突变的患者数量。驱动通路中的一个驱动基因都会导致癌症发生。
(10) 单癌种(Single Cancer Species)研究:使用一种类型的癌症数据进行研究。
(11) 单驱动通路(Individual Driver Pathway):一组具有确定特征的驱动基因。
第 2 章 基于带参构造数值型矩阵的识别模型和算法
2.1 符号定义和问题模型
本章通过整合体细胞突变、拷贝数变异和基因表达三种组学数据,构造了加权非二元突变矩阵。基于加权非二元突变矩阵,通过定义新的覆盖度和互斥度的度量,提出了一种整合的癌症驱动通路识别模型。在此基础上,提出了一种基于遗传算法的合作型协同演化算法 CGA-MWS (Cooperative Coevolutionary Genetic Algorithm for Maximum Weight Submatrix) 求解新的识别模型。在真实生物数据集上和模拟数据集上对算法 Dendrix[24]、GA[25]、iMCMC[26]、MOGA[27]、PGA-MWS[28]和 CGA-MWS 进行实验对比分析。实验结果表明,与其它五种算法识别的信号通路相比,CGA-MWS 算法识别出的信号通路中的基因在大多数情况下富集在已知的信号通路。同时,CGA-MWS 算法的高效性使其在实际应用中具有实用性。
2.2 CGA-MWS 算法
在本节中,提出了一种基于遗传算法的合作型协同演化算法 CGA-MWS。输入加权的非二元突变矩阵P ×GA 和参数 K ,输出规模大小为 P ×K 的子矩阵 M 。下面先介绍CGA-MWS 算法的核心要素。
2.2.1 染色体编码及初始种群
染色体采用十进制编码方式,一条染色体表示一个个体,被用来代表该问题的解决方案 。 在 CGA-MWS 算 法 中 , 一 个 解 以 K 个 基 因 构 成 的 集 合 表 示 , 即( )1 2{ , , ..., } {1, 2, ,| |}, 1, 2, ,K iX=x x x x ∈ G i= K 。它以如下方法初始化:(1)产生数字1到G 的随机排列,每个数字表示矩阵 A 中的一个基因。(2)选择随机排列中的前 K 个基因来构建初始染色体。
通常,遗传算法需要更多的多样性而不会使种群恶化。使用精英策略和轮盘赌选择,保留进化种群中适应性最高的个体,并从父母种群中选择适应性较高的个体,以参与其它进化过程。
由于交叉算子可以提高遗传算法的全局搜索能力,因此提出了一种基于问题的交叉算子来继承父代到后代的属性。给定一对父母个体1X 和2X ,将它们的共有基因提取为两个后代个体1ˆX 和2ˆX 。为1X 和2X 中的剩余基因以及长度等于剩余基因数一半的二进制字符串随机生成一个统一的顺序。根据生成的二进制字符串的每一位,每个相邻的基因对分别分配到后代个体1ˆX 和2ˆX 中。例如,假设1X={1,4,5} 和2X={1,6,7} ,则首先将共同的基因‘1’提取到1ˆX 和2ˆX 中,即1ˆX={1} 和2ˆX={1} 。剩余的基因{4,5,6,7}被随机打乱,得到新顺序 <5,4,7,6> 。假设“10 ”为随机的二进制字符串,二进制字符串“1”表示将相邻的一对基因 <5,4> 分别分配到1ˆX 和2ˆX 中,二进制字符串“0”表示将相邻的一对基因 <7,6> 分别分配到2ˆX 和1ˆX 中,最终获得1ˆX={1,5,6}和2ˆX={1,4,7} 两个子代。步骤如图 2.3 所示。
第 3 章 基于无参构造数值型矩阵的改进识别模型和算法 .......................... 25
3.1 符号定义和问题模型 ................................. 25
3.2 ECA-IMWS 算法 .................................... 27
第 4 章 总结与展望 ........................ 42
4.1 论文总结 ................................... 42
4.2 未来工作展望 ...................... 42
第 3 章 基于无参构造数值型矩阵的改进识别模型和算法
3.1 符号定义和问题模型
在 CGA-MWS 方法中,引入了两个阈值参数1λ 和2λ 用于构造加权非二元突变矩阵,由于阈值选择不当可能对识别结果产生负面影响,并且针对不同癌症可能需要选择不同的参数值,因此 CGA-MWS 扩展性较弱。针对上述问题,在本章节中通过引入 DNA 甲基化数据,进行差异甲基化分析,旨在排除在基因表达数据中较高差异却没有明显对癌症产生影响的基因,在此基础上,达到去除两个阈值参数1λ 和2λ 的目的。基于新的加权非二元突变矩阵,提