本文是一篇医学论文,本研究利用生物信息学方法,基于GEO、TCGA数据库筛选出前列腺癌Hub基因,建立前列腺癌风险预测模型并且对Hub基因的生物学过程、临床预后等相关方面进一步分析,为将来进一步探索前列腺癌的生物标记物,评估前列腺癌临床进展提供理论支持。
第一章 前言
1.1 前列腺癌
1.1.1 前列腺癌流行病学及病因
前列腺癌的发病率在全球范围内不断升高。在美国,前列腺癌位于最常被诊断的恶性肿瘤及癌症相关住院率的第二位[1]。根据全国501处肿瘤登记处数据,前列腺癌位于我国恶性肿瘤发病率的第六位,男性癌症致死率的第十位,占男性致死性恶性肿瘤的2.1%[2]。从不同收入地区分析,发达地区的前列腺癌发病率增长明显,前列腺癌的晚期生存率低[3]。根据2000年至2017年北京市登记的前列腺癌数据,城区的发病率(0.0091‰)高于郊区(0.0050‰)[4]。根据流行病学估算,随着前列腺癌的发病率不断上升,到2040年约有两百万新发病例,因前列腺癌而死亡的病例将达到约740000例[5]。
尽管前列腺癌的病因尚未明确,但研究表明,多种因素参与前列腺癌发生发展过程,如年龄、家族史、种族[6]和基因调控等[7]。同时,抽烟、超重或者肥胖、久坐和不健康的饮食习惯都是前列腺癌发生的促进因素[8]。其中,前列腺癌的发病风险随着年龄的增大而显著增加。根据前列腺癌流行病学数据[9],35岁至44岁的男性仅有0.6%诊断为前列腺癌,而65岁至74岁的男性发病率大幅度提高,上升至35%。研究者分析了前列腺癌风险的年龄依赖关系,观察到80岁以上男性的癌症病例数比50岁以下的男性高出约40倍[10]。种族对前列腺癌影响的结论尚未得到统一。一项从2003年至2013年涵盖了306100名前列腺癌患者的多队列研究显示,暂时未发现黑人种族与该疾病之间存在任何显着关联[11]。另外,研究者调查了564名40岁至79岁之间怀疑为前列腺癌(前列腺特异性抗原结果异常或者经直肠超声检查结果异常)的男性,通过单因素和多因素Cox分析表明,与非黑人人群相比,黑人人群中前列腺癌的发病率较高[12]。一项涵盖9766份研究记录、16个非洲国家的荟萃分析显示[13],在非洲地区前列腺癌的综合发病率为22/每十万人(95%置信区间: 19.93-23.97),超过亚洲[14]、欧洲[15]和北美洲的结果。与上述结论相似,Kelly等[16]人的一项涵盖28%美国人口的流行病调查进一步证实,非裔人种的前列腺癌发病率(38.3/每十万人)高于白种人群(17.3/每十万人)、高加索人种(18.9/每十万人)和亚裔人群(11.2/每十万人)。然而,上述危险因素和前列腺癌发生机制的关系并未明确。
1.2 生物信息学分析在前列腺癌的应用
利用公共数据库,生物信息学技术可挖掘前列腺癌相关数据,有助于从基因组学的角度进一步了解前列腺癌的发生发展过程,用于进一步的诊断和治疗。结合临床数据,生物信息学可以预测癌症进展,分析癌基因对预后的影响,指导临床用药和癌症的早期预防。
DNA芯片可以快速准确地检测差异表达基因。经过多年的发展,该技术已经成熟,并广泛应用于公共数据库[32]。基于数据库,预先设定一系列的阈值,可以筛选出癌症组织和非癌的正常样本之间的差异表达基因。
在本研究中,利用生物信息学的相关方法,结合多维度的数据库资料,筛选、分析前列腺的差异表达基因,建立前列腺癌风险预测模型,对筛选出的前列腺癌Hub基因进行生物过程、蛋白表达关系、参与代谢途径、免疫浸润、泛癌中表达特征等分析。此外,通过结合临床数据,验证筛选的前列腺癌Hub基因的表达水平及临床预后的关系,进一步探讨前列腺癌的相关分子机制,指导临床早期诊断及精准治疗。
第二章 材料与方法
2.1 工具
2.1.1 R语言和R studio
R 语言是统计学编程语言的一种,可用于统计计算、数据挖掘和绘图,由John Chambers及其同事开发。R语言可提供多种数据和图像的处理计数,如线性和非线性建模、经典统计检验、时间序列分析、分类及聚类数据处理等。
R studio是免费提供的开源集成开发环境(IDE),由J.J. Allaire于2009年建立。R studio作为支持Python和R语言的开发环境,用于执行、调试代码,绘图和工作区管理。
2.1.2 R 包(R packages)
R包是R语言环境下,包含可应用的代码和样本数据的数据集合。在R语言环境中,可以通过R studio 的library 指引并检索加载。截止至2019年6月,超过14,000种不同功能的R包在Comprehensive R Archive Network(CRAN)中提供下载和分享,可应用于R studio实现数据分析和绘图等功能。本研究主要应用的R包汇总如下(表1):
2.2 方法
2.2.1 数据集下载来源及提取
从美国基因表达综合数据库(Gene Expression Omnibus, GEO) dataset中输入关键词和检索过滤要求。数据检索的关键词为:prostate cancer,检索过滤要求为:entry type: datasets; study type: expression profiling by array; attribute name: tissue。从GEO数据库下载了GSE46602、 GSE3325 和 GSE104749三组基因表达数据集。其中,GSE46602为36例前列腺癌样本和14例正常前列腺组织样本;GSE3325为13例前列腺癌样本和6例前列腺组织样本;GSE104749为4例前列腺癌样本和4例的前列腺增生组织样本。
从TCGA数据库中下载 PRAD(前列腺癌)项目中 level 3 HTSeq-FPKM格式的RNAseq数据(肿瘤样本n=498、癌旁n=52),同时获取样本相应的临床信息,包括一般资料、肿瘤分期及预后状态等,将FPKM (Fregments Per Kilobase Per Million) 格式的RNAseq数据进行log2转化,去除基因表达谱与临床信息不匹配及临床信息缺失的样本。
在R语言(R 4.0.4)环境中,对选取并下载的GEO数据利用RMA(Robust Multichip Average)对进行Affymetrix芯片标准化处理,该过程主要包括背景修正,分位数归一化和汇总预处理。运用加载affy、AffyPLM等R包,将原始数据进一步转化为合适的矩阵。
第三章 结果 .............................. 11
3.1 前列腺癌数据集的特征 ............................... 11
3.2 前列腺癌数据集中差异表达基因 ......................... 11
3.3前列腺癌Hub基因的识别 ............................... 13
第四章 讨论 ..................... 26
4.1 前列腺癌Hub基因的意义 ............................... 26
4.2 前列腺Hub基因GO/KEGG结果分析 ........................... 26
第五章 结论 ........................ 31
5.1 主要结论 .................................. 31
5.2 研究展望 ............................... 31
第四章 讨论
4.1 前列腺癌Hub基因的意义
前列腺癌作为美国男性最常见的恶性肿瘤,全球约有21%的癌症病例为前列腺癌。目前,前列腺癌的治疗主要为药物治疗、手术治疗以及放化疗结合,给患者及家庭带来沉重的经济负担。因此,前列腺癌的预防和早期诊断尤为重要,利用生物信息学方法探索前列腺癌Hub基因,意义重大。
本研究结合GEO、TCGA等相关数据库,利用生物信息学技术,筛选出与前列腺癌相关的六个Hub基因(PCA3、AOX1、ANGPT1、HOXC6、ERG和TOP2A),并且建立前列腺癌风险预测模型,该模型能有效地评估前列腺癌的临床预后结局。通过对蛋白质-蛋白质相互作用网络的建立,基因功能及分子代谢途径的注解,进一步明确前列腺癌差异表达基因在蛋白组学、生物学功能中的作用。
最后结合前列腺癌组织学数据库、临床数据库验证,分析出前列腺癌Hub基因与临床分期、预后的关系。本研究从不同维度探索前列腺癌Hub基因,有助于探究前列腺癌的肿瘤标记物,指导临床精细化诊断和治疗。
第五章 结论
5.1 主要结论
本研究利用生物信息学方法,基于GEO、TCGA数据库筛选出前列腺癌Hub基因,建立前列腺癌风险预测模型并且对Hub基因的生物学过程、临床预后等相关方面进一步分析,为将来进一步探索前列腺癌的生物标记物,评估前列腺癌临床进展提供理论支持。主要结论如下:
(1)针对本研究的数据,前列腺癌Hub基因为:AOX1、PCA3、HOXC6、TOP2A、ERG及ANGPT1。构建的前列腺癌风险预测模型中TOP2A、HOXC6、PCA3及ERG是前列腺癌预后的危险性因素,AOX1及ANGPT1是前列腺癌预后的保护性因素。
(2)将筛选的前列腺癌差异表达构建出蛋白质-蛋白质相互作用网络,结合GO/KEGG数据库分析得出,前列腺癌差异表达基因主要参与细胞增殖、铁代谢及细胞周期等生物过程。
(3)筛选的Hub基因中,PCA3 和TOP2A与前列腺癌TNM分期、无进展间隔期(PFI)及免