软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于增强归纳型矩阵补全的基因—疾病关联关系预测软件工程研究

日期:2020年05月02日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:1494
论文价格:150元/篇 论文编号:lw202004291530375235 论文字数:32666 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇软件工程硕士论文,论文完成的具体研究内容如下:(1)本文充分调研了基因-疾病关联关系预测问题国内外的研究现状,并调研了其中一些常用的方法、数据信息以及评价指标。同时,根据设计角度的差异将现有的预测方法大致分为以下三个类型:基于基因和蛋白质信息分析的预测方法、基于基因和疾病生物网络信息的预测方法以及基于基因-疾病关联关系矩阵补全的预测方法。并详细介绍了这些算法的设计思想和存在的不足之处。(2)针对现有预测方法没有充分利用基因和疾病的先验信息的问题,提出一种融合先验信息增强归纳型矩阵补全算法。该算法基于矩阵补全理论,首先将该问题建模为归纳型矩阵补全问题对基因-疾病关联关系矩阵中的未知关联进行预测。接着,针对基因-疾病关联关系在现实中存在的先验稀疏性,引入先验稀疏正则化,利用 L1 范数来保持基因-疾病关联关系的先验稀疏性。其次,由于基因和疾病存在着关联一致性,引入先验流形正则化来保持基因和疾病的关联一致性信息。最后,提出了融合这两种先验信息的增强归纳型矩阵补全模型。同时,本文针对上述构建的基因-疾病关联关系预测算法的优化求解方法进行了研究。这里采用一种基于 PFBS 算法求解子问题的 ADMM 算法进行优化求解。并且在真实基因-疾病关联关系数据集上进行的实验验证了预测算法的有效性。


第一章 绪论


1.1研究背景

随着人类基因组草图和人类基因组计划(Human Genome Project, HGP)的顺利完成[1,2],人类生命科学的研究迈入了“后基因时代(Post Genome Era, PGE)”。基因组学的研究重点也由结构基因组学向功能基因组学转移,对于基因组功能的研究与探索被提上了一个新的高度并且朝着揭示疾病的发病机理的目标不断前进。同时,高通量测序技术以及计算机技术的快速发展,使得各种各样的生物数据呈爆发式增长。面对海量的生物信息,一些传统的生物研究手段已经收效甚微,如何利用不断发展的计算机技术来高效地揭示各类生物学奥秘,已经成为了后基因时代的一个巨大的挑战。由此,一门紧密结合了计算机科学、统计学、信息学、应用数学以及生命科学的交叉性学科——生物信息学[3]诞生了。作为一门新兴学科,其研究范畴十分广泛,涉及多种生物组学,当前的主要研究内容包括:生物信息获取、生物信息存储、基因测序和拼接、基因预测、RNA 结构预测、代谢网络分析、蛋白质结构预测、分子设计及药物设计等[4]。

一直以来,疾病作为威胁人类健康的头号杀手已经受到了全社会的广泛关注。根据LocusLink 数据库[5]和 OMIM(Online Mendelian Inheritance in Man)数据库[6]中对疾病表型数据的统计分析,人类的疾病已多达 17000 多种,而其中有很大一部分是基因疾病,包括了一部分单基因疾病和一部分多基因疾病。在现实生活中,有许多通过遗传基因遗传给下一代的疾病,通过早期的检测,可以很大程度地降低疾病遗传给下一代的风险。对于一些还未显现的家族性遗传病,也可以通过早期的检测进行及时的诊断和治疗。另一方面,研究表明存在一类疾病是由基因遗传信息与外在环境等因素共同作用产生的。如支气管哮喘[7],  除了遗传因素,还会与环境中的尘螨,花粉等因素有关。再如,霉变食物中含有的黄曲霉素是一种很强的致癌物,它能够通过抑制蛋白质的合成诱发某些特定基因突变从而导致癌症的发生[8]。针对上述疾病,可以通过严格控制环境中的诱病因素来预防此类疾病的发生。其次,在生物医药领域中,率先发现致病基因对于抢占制药研究高地有着举足轻重的作用,能够不断推动生物医药产业的蓬勃发展并带来巨大的经济效益。因为,发现致病基因,对于研究药物靶标,研制针对性药物有着重要的参考意义[9]。因此,预测疾病的致病基因对于理解疾病发生机制,疾病的临床诊断,早期预防和治疗有着重要的作用[10],同时也是生物信息学所面对的一个紧迫任务。

......................


1.2 研究现状

作为生物信息学研究领域的一个重要研究方向,基因-疾病的关联关系预测一直以来备受国内外研究者的关注,并且提出了许多有效的预测方法和新颖的解决问题的思路。早期的致病基因预测研究主要是通过实验的手段对候选基因和相关疾病特性进行分析研究,由于这种方法的复杂性通常会耗费大量人力物力,同时在某些情况下不得不进行活体检测,给病人带来感染的风险,效率低下,因此在实际应用研究中会受到很大限制[15, 16]。近来,生物实验手段和计算机技术的持续改进,大量的生物数据得到了不断的补充和完善。这也为基因-疾病关联关系预测问题的研究提供了一个新的契机,利用这类丰富的生物信息资源,同时结合强大的计算机技术,对致病基因进行高效预测,为最终确定致病基因提供有力的参考[17, 18]。目前,利用此类数据设计的基因-疾病关联关系预测算法主要可以分为以下几类:基于基因和蛋白质信息分析的预测方法、基于基因和疾病生物网络信息的预测方法、基于基因-疾病关联关系的预测方法。接下来,分别对以上三种预测方法的研究现状进行详细综述。

研究表明,在病变组织中,疾病的致病基因表达丰度很高[19, 20],研究中普遍认为在病变组织中表达丰度高的基因相较于表达丰度低的基因更有可能成为致病基因。Van Driel 等人把人类染色体定位区间对应到小鼠的染色体区间,然后从不同的生物信息数据库(如:OMIM,Medline,GXD,Swissprot,MGD  等)中搜集整合数据,提取出对应基因的基因表达信息,筛选出在病变组织中基因表达丰度高的基因作为候选致病基因,最终开发出了致病基因预测工具 GeneSeeker[21, 22]。由于相同疾病的致病基因一般具有相似的基因表达,Ugo Ala 等[23]从人和小鼠的微阵列数据中提取基因表达信息进行分析,选取表达相似的基因作为候选致病基因。Martin Oti 等[24]通过提取小鼠、线虫、酵母以及人的基因表达信息进行分析,同样筛选出表达特征相似的基因作为候选致病基因,实验表明融合更多物种的基因表达信息能够提升预测效果。然而,基于基因表达信息的预测方法有很大的局限性,一方面,基因表达数据的完整度和精确性有限,另一方面,某些疾病的产生与发展是一个多机体参与的复杂过程,因此利用基因表达信息进行复杂疾病的致病基因预测效果并不理想。

....................


第二章 课题研究基础


2.1 流形正则化

目前,随着数据量的不断增长,从海量数据中挖掘有效信息会面临一个问题:即许多数据都具有很高的维度,而这些高维数据中包含的大量冗余特征又会对最终结果造成影响。为了解决这一问题,研究者们利用数据降维技术将原始的高维数据映射到低维空间以提取数据中特定的特征信息,同时发现数据存在的内部结构和规律。现有的数据降维方法主要分为传统降维方法和流形学习方法两种。经过不断的研究和发展,流形学习方法已经得到了很大的扩充,并在实际应用中取得了理想的效果。流形学习的核心思想是:原始高维数据在高维空间中具有反映数据内在特征的流形结构。因此,流形学习通常在局部空间满足线性关系时,将原始高维数据非线性映射到低维空间。现有的主流的流形学习方法主要有等距映射[56](Isometric Mapping,简称 ISOMAP)、局部线性嵌入[57](Locally Linear Embedding,简称 LLE)、拉普拉斯特征映射[58](Laplacian Eigenmaps,简称 LE)等。

后期,基于一种流形假设(即流形上相互邻近的数据/样本具有相似的输出/标记),Belkin等人在 LE 算法的基础上提出了流形正则化(Manifold Regularization,  简称 MR)[59]来保持原始数据中的这种先验流形信息,以下重点介绍 MR 使用的 LE 算法。

......................


2.2相关生物数据介绍

随着生物实验技术的不断进步,各类生物数据信息不断完善,可以被用来进行基因-疾病关联关系预测的数据也越来越丰富。本节主要介绍在本文研究中一些常用的基因,疾病生物信息数据库以及在后续章节中使用的基因和疾病的特征获取方式。

2.2.1基因,疾病相关数据库

图 2.1 OMIM 数据库记录实例

生物信息学研究的不断深入,也造就了越来越多的基因-疾病关联关系被发现,研究人员将这些数据进行分析整理,形成了多个疾病相关数据库,也为进一步深入研究疾病的致病基因奠定了基础。本节将对后续章节使用的 OMIM 数据库做一个系统介绍。OMIM 数据库是一个综合性的,权威的生物信息数据库。OMIM 搜集了全世界各类生物医学文献上报道的各种人类基因与遗传疾病的研究成果,并且会不断更新增加这类数据。该数据库不仅收录了以孟德尔方式遗传的所有单基因病的相关资料,而且还收录了染色体病、多基因病、线粒体病方面的资料,涵盖病种丰富。OMIM 数据库中的每一条记录都会对应一个相关文献信息,用来解释该条记录的研究事实。这些信息包括但不限于疾病的致病基因、遗传疾病表型、致病基因位点等信息。同时,该数据库中的信息也会关联到其他的生物信息数据库,方便研究人员的使用。OMIM 为每一个记录的疾病都提供了一个唯一的 MIM 编号,可以方便研究人员搜索,每一个疾病的搜索页面都会给出疾病的相关信息并关联到其他数据库。以 Alzheimer disease  (MIM:104300)为例,OMIM 记录如图 2.1 所示。每个疾病的对应记录会给出相关基因及其在 Locus 数据库中的唯一编号,对应基因的位点也会列出。通过这个页面可以直接链接到页面中信息所对应的详细数据库,进一步挖掘研究该疾病的相