本文是一篇医学论文范文,本文利用公开数据库中SARSr-CoV的165条基因组序列数据,根据其感染宿主的不同分为感染蝙蝠、果子狸、人类的三组SARSr-CoV,使用现有处理软件以及多种编程语言灵活编写所需脚本,,中微卫星进行数量统计,类型统计以及微卫星在不同区域上的分布特征以探究微卫星在SARSr-CoV基因组中的分布模式以及三组感染不同宿主的SARSr-CoV之间微卫星的差异。结果显示,感染不同宿主的SARSr-CoV的基因组碱基序列相似度很高(>80%),且165条序列GC含量几乎完全相同,但其微卫星的数量,类型以及在基因组上的分布模式都具有差异性。由此提示微卫星可以作为物种微进化分析中的有效手段.
第 1 章 绪论
1.1 生物信息学简介
1.1.1 生物信息学的历史变迁及其含义
生物信息学(Bioinformatics)第一次被提出是在 1970 年,在当时,生物信息学所包含的研究方向与现在完全不同,Paulien Hogeweg 和 Ben Hesper 创造这个词时是用来代表研究生物系统中的信息(信号)过程的学科[1]。生物学以及生物信息学发展到今天,以计算机为主要研究工具对生命进行的数据计算分析成为了生命科学领域各方向中重要的组成部分。20 世纪 80 年代后,随着对大量基因研究的深入,出现了基因组学,研究者们试图对全基因组进行测序、分析和作图,基因组学被认为是最具有意义,最有希望揭开生命奥秘的手段,以此为契机,到1990 年,以美国为首展开了 20 世纪最伟大的科研活动之一,人类基因组计划被正式揭幕。且在不同物种中的测序工作也在马不停蹄地进行中,世界上第一个细胞的基因组全序列在 1995 年被成功测序,一年后,酵母的全基因组也完全展现在人们的眼中。随后,在 1998 年,人们对多细胞生物测序也宣布告捷,线虫基因组也被展现。在一年后更复杂的模式生物,果蝇的基因组被宣告成功测序。到1999 年年底,对人类的基因组出现战果,人体第 22 对染色在当年被测序成功。2000 年 6 月,人类基因组计划已全面竣工,人类的遗传物质已经毫无保留地完全展现在研究者的视线中。在此时期,对基因组大量测序的热潮中,生物信息学相关研究人员,为了更好地存储,检索珍贵的测序数据,搭建了许多生物数据数据库,例如著名的的 NCBI、SWISS-PROT 以及 EMB 数据库均于此时期被建立。
此时还出现了一批经典的比较算法,1988 年,Pearson 和 Lipman 共同发明了 FASTA 快速比较算法比较算法。两年后,1990 年,BLAST (Basic Local Alignment Search Tool)问世,现如今,FASTA 和 BLAST 的最新版本任然是是比较生物学每天都在使用的工具之一。
时至今日,获取数据已经不再是难题,测序时间和测序成本已经低到常人可以轻松负担。每个人如果需要,都可以在一天内得到自己的全基因数据。海量的数据不断地累计在数据库中,但数据的海量不代表信息的海量,在如此庞大的数据面前,人们从中挖掘到的信息却只是九牛一毛。由此生物信息方法显得尤为重要,由前人测得的海量数据中,提炼出有用数据,精炼为一般知识和规律,是生物信息学的首要目标,为揭开生物体奥秘提供一个可能的道路。
...........................
1.2 常用生物信息数据库
生物信息学研究最基本的基础是各类生物数据库,没有各类生物数据库大量生物数据的大量积累,生物信息学是无法进行研究的。基因组计划的完成积累了超大量的生物信息。当今世界中,测序的速度与成本都已经发生翻天覆地的变化,
一个领着平均工资的普通人可以花上自己一个星期的工资在一天之内拿到自己的基因组全序列数据。全球的生物研究者都在进行大量的测序工作,越来越多的物种都已经被测序成功,巨量的数据每天都被添加,积累到数据库中,面对这些堆积如山的数据,在研究者对其进行研究之前,首先需要的是找到在自己研究中将要使用到的数据。在这种研究需求的推动下,世界各地开始搭建生物信息数据库,方便全球的研究者方便地搜索,管理和下载自己所需要的生物信息。此外生物信息数据的增加不只是核酸序列的增加,还包括蛋白质序列,蛋白质三维结构预测,相应的文献数据的增加等等,这推动了专门的分类数据库的快速发展,现今生物数据库主要包括基因组数据库、蛋白质数据库、蛋白结构数据库等。
1.2.1 不同研究方向代表性数据库
截止 2013 年,Nucleic Acids Research 杂志统计了全世界 1512 个主要的分子生物学数据库[8]。下面简单列举了一些不同研究方向具有代表性的数据库(表1.1)。各种目的性,针对性不同的生物数据库,可以为相关专业人员提供其专业相关的数据。大量分类准确的数据库各司其职,不同研究方向的研究者都可在相关数据库中找到自己所需的数据,数据库的专业性更可以高效提高研究者管理维护数据的质量与效果。
........................
第 2 章 SARSr-CoV 基因组中微卫星分析
2.1 前言
微卫星序列是基因组中广泛存在的一种以 2-6 碱基为重复单元重复多次的简单重复序列,数量丰富,分布广泛,具有高度多态性[54]。大量研究表明,作为基因组一个重要的组分,微卫星在基因组中的非编码区,编码区,基因间区,都有大量分布,且影响着蛋白的功能、生物遗传以及基因调控,是基因组研究领域的一个热点[55-56]。微卫星序列在真核生物和原核生物基因组中普遍存在,并被广泛研究[57],但目前还没有 SARSr-CoV 基因组中微卫星序列相关报道。
2002 年到 2003 年,从亚洲开始,一直蔓延并爆发到全球的恐怖流行病,非典型性肺炎 (Severe acute respiratory syndrome, SARS)导致全世界范围内 37个国家 8098 例感染,其中 774 例死亡[48] ,死亡率为 9.6%[49],到了 2004 年,SARS 便迅速销声匿迹,已经没有任何有关 SARS 发病的报道[50]。
在同年 5 月,研究者从广州的市场中售卖的动物体内也采集到了SARS 冠状病毒的病毒样本,但被感染的动物未出现临床症状。此后,在 2005年,从中国蝙蝠体内采集到了数种与 SARS 冠状病毒相似性极高的新型冠状病毒,并取名为 SARS-like 冠状病毒[58-59]。蝙蝠虽携带 SARS-like 冠状病毒,但未表现出任何相关病症,推测出蝙蝠为 SARS-like 冠状病毒的天然宿主,系统发生分析显示,蝙蝠携带的 SARS-like 即为最终导致非典的元凶,并以果子狸作为中间动物宿主最终传播到人[60],导致疾病且在人群中传播。
本研究以 SARSr-CoV 基因组为研究对象,利用生物信息学方法,对基因组中的微卫星序列进行综合分析。试图从微卫星的角度,给予 SARSr-CoV 跨宿主进化的原因一点参考与提示。
.........................
2.2 材料与方法
2.2.1 基因组序列数据
从 NCBI 的 Genbank 数据库中查询并尽可能多地下载具有完整序列注释的165 条 SARSr-CoV 基因组全序列,并依据其感染宿主的不同分为三组,感染蝙蝠、人类以及果子狸的 SARSr-CoV 序列。因各 SARSr-CoV 基因组中 5’端与 3’端序列测序长度有着很大的差异性,为了在分析过程中将不同序列的基因区域对齐,所有 SARSr-CoV 基因组序列的 5’端与 3’端序列均被移除。简便起见,使用 B1-B37、C1-C24 与 H1-H104 来表示感染不同宿主的 SARSr-CoV 基因组序列,其中 B1-B37 为感染蝙蝠的 37 条 SARSr-CoV 基因组序列;C1-C24 为感染果 子 狸 的 24 条 SARSr-CoV 基 因 组 序 列 ; H1-H104 为 感 染 人 类 的 104 条SARSr-CoV 基因组序列 (表 2.1)。 原始全基因组序列长度为 28735~30309 nt,最长序列为 B24,最短序列为 B27。去除 5’端和 3’端后用于本文的序列片段长度为 28155~29690 nt,最长序列为 B24,最短序列为 B34。
..........................
第 3 章 SARSr-CoV 中微卫星序列宿主差异性分布分析 ................................. 27
3.1 前言 ............................... 27
3.2 材料与方法 .............................27
第 3 章 SARSr-CoV 中微卫星序列宿主差异性分布分析
3.1 前言
在上一章中,比较分析了感染蝙蝠、果子狸以及人类的 SARSr-CoV,结果显示三组病毒虽碱基组成高度相似(>80%),但其微卫星分布在整个基因组上无论是数量还是类型都存在差异。第二章的统计分析中发现了感染不同宿主SARSr-CoV 微卫星的差异,但只能得到基因组上微卫星的平均情况,实际上,微卫星在基因组的不同区域有着不同的突变率[16],且在基因组不同区域的微卫星拥有不同的功能[20],导致微卫星的分布是与基因组区域相关的,第二章的研究并没有显示出区域间微卫星分布的差异。在本章中,通过对基因组分割成许多小区域,并对各区域内