本文是一篇医药学论文,本工作的目的是通过将基因组分析与TME相结合来识别BC分子分型。据我们所知,这是第一次使用大量数据集结合多种生物信息学方法来识别固有分型和 BC 患者的基因分类器签名。
第1章 绪论
1.1 研究背景
BC是是一种高异质性的肿瘤,在临床表现、形态、分子特征和对治疗的反应方面表现出显著的差异,并继续在世界范围内构成重大挑战。公元前的诊断可以追溯到3500年前[1],当时是根据疾病的明显迹象和症状进行分类的。在18世纪中期,人们认识到癌症是一种局部疾病,它会分期发展,而不是一种新的系统性疾病,这促使人们建议在乳腺肿瘤扩散到腋窝淋巴结之前就进行早期手术切除。直到20世纪下半叶,乳腺切除术仍然是BC的主要治疗方法。在此之前,切除的乳腺组织的病理检查主要是为了确认BC的诊断,而没有对疾病进行病理分层[2,3]。
20世纪60年代,科研人员发现了激素受体在癌症中的生物学意义,从而批准了抗雌激素药物他莫昔芬的使用。20世纪80年代我们见证了乳房x光筛查的引入[4],除了其他病理变量的预后重要性外,还发表了肿瘤类型和分级的组织学评估标准及其预后意义[5-7]。20世纪90年代,紫杉烷类和卡培他滨这两种重要的化疗药物被批准用于BC的辅助治疗。在这十年中,前哨淋巴结活检被引入,作为BC分期的完全腋窝淋巴结清除的替代方法,并确定了肿瘤抑制基因BRCA1和BRCA2的特定遗传突变。上世纪90年代末,首个靶向抗人表皮生长因子受体2(Human epidermal growth factor receptor 2,HER2)药物曲妥珠单抗(赫赛汀)被批准用于转移性BC的治疗。随着治疗手段的多样化以及人类对BC的认知逐渐加深,BC的预后分类以及病理诊断得到了巨大的改善。
21世纪初,随着固有分子分型的识别和多基因标记的发展,BC分子分类的概念被引入,标志着我们对BC的认识取得了重大进展[8]。尽管BC的形态学预后变量非常重要,但在过去20年里,由于微阵列和下一代测序等高通量分子技术的发展,这一方向在BC研究中逐渐占据主导地位,并随着靶向治疗的增加和精准的个性化医疗的发展而迅速扩大。
1.2 国内外研究现状
目前用于进行结果预测和治疗决策的方法是基于组织学分型和临床参数,例如疾病分期、转移和肿瘤的可切除性。然而,人类基因组计划的出现为基于全基因组、基因转录谱、蛋白质表达谱和突变图谱对肿瘤进行定量分析奠定了基础。这些分析方法有望更准确和精确地定义肿瘤分型,并更好地预测特定肿瘤类型对不同治疗的反应。例如,Perou等人根据基因表达特征将 BC 分为五种内在分子分型:基底样、正常样、HER2 富集和管腔 A 和 B,揭示了细胞起源的差异和肿瘤的不同进展[9]。另一项研究根据肿瘤突变的模式确定了 BC 的三种分型,命名为 1q/16q型、扩展型和复杂型[10]。
此外, 众所周知,癌症的发生、发展和治疗耐药性受肿瘤细胞与其TME之间遗传和表观遗传变化共同的影响。在 BC 患者中,高免疫浸润与更好的临床结果相关[11,12]。其中,较高的 CD8+ T 细胞浸润与雌激素受体(ER)阴性患者更好的OS 密切相关[13,14]。此外,高免疫浸润还与辅助化疗反应增强相关[15]。近年来,许多研究表明转录组数据可以解释 TME [16-19]。这些结果表明,白细胞相关基因的高表达与较低的乳腺癌复发风险相关[16,19,22,23]。值得注意的是,Ali等人和 Bense等人。最近在一项荟萃研究中报道了特定免疫细胞类型如何影响乳腺癌预后[16,24]。然而,免疫在 BC 中的作用和临床相关性仍需要通过更全面的分析来阐明。
第2章 乳腺癌亚型的鉴定
2.1 材料与方法
2.1.1 数据来源
目前,本研究一共使用了三个公开可用的数据集,分别来自癌症基因组图谱 (The Cancer Genome Atlas, TCGA, https://portal.gdc.cancer.gov/)[25],TCGA是一个公共资助的项目,旨在发现主要的致癌突变基因组以创建一个全面的癌症基因组图谱, 通过大规模基因组测序和综合多维分析分析了超过30个人类肿瘤的大型队列。全面的泛癌症分析扩展了目前对肿瘤发生的认识。该项目的一个主要目标是提供公开可用的数据集,以帮助改进诊断方法、治疗标准,并最终预防癌症; 第二个数据集来自乳腺癌国际联盟分子分类学数据库(Molecular Taxonomy of Breast Cancer International Consortium, METABRIC, http://www.ebi.ac.uk/ega/)[26],METABRIC研究是一项涉及2000名乳腺癌患者的大型分子分析研究,包括基因表达、拷贝数、基因突变和临床数据。旨在根据有助于确定最佳治疗过程的分子特征将乳腺肿瘤分类为更多的亚类,揭示了乳腺癌能够被划分的10种分型;第三个数据集是基因表达综合数据库(The Gene Expression Omnibus, GEO, https://www.ncbi.nlm.nih.gov/)[27], GEO是目前最大的完全公开的基因表达资源。该数据库拥有超过12万个样本,代表超过32亿次个体测量,涵盖200多种生物。
我们以 TCGA 获得的基因表达谱数据作为训练集,包含 103 个癌旁样本和 903 BC 样本。为了验证所建立模型的有效性,使用了来自METABRIC的基因表达数据,其中包括 154 个癌旁样本和 1826 个 BC 样本。
2.2 结果
2.2.1 预后相关分子分型的鉴定
使用 R 的 ConsensusClusterPlus 包,根据基因表达数据将 TCGA-BC 中的总共 1006 个样本聚类到不同的组中。随着共识矩阵(CM)K值的变化,CM中产生的分型(图1a -1d)及其对应的预后(图1e-1h)也不同。特别地,当maxK值等于3时,获得了三个与患者 BC 分子分型相关的分子分型,分别命名为分型S1 (n = 382) 、分型S2 (n = 328)和分型S3 (n = 296)亚组(图1b)。随后,使用对数秩检验对患者的基因表达数据进行 Kaplan-Meier 生存分析(图1e-1h)。有趣的是,仅当 K = 3 时,三个聚类亚组之间的预后差异具有统计学意义(Log-rank 检验P = 0.028 < 0.05,图1f),这与上述结果一致。具体而言,S2组患者预后最差,S3组患者预后最好(图1f) 。相反,在分型S1 的患者中观察到中度 OS(图1f)。此外,我们还评估了 CDF 曲线下面积的相对变化。结果显示,当K=3时,CDF曲线下面积没有明显增加,说明经过3个聚类后聚类结果趋于稳定(图1i)。此外,图1j 中描绘了这三个聚类中基因表达数据的主成分分析。因此,通过无监督一致性聚类,共分类出三个预后显着不同的BC分子分型,用于进一步研究。
第3章 预后模型的构建 ................. 14
3.1 材料与方法 ............... 14
3.1.1 风险预测模型的构建 ....................... 14
3.1.2 风险模型的预后价值评估 ................... 14
第4章 单细胞和免疫微环境分析 ......................... 20
4.1 材料与方法 ....................... 20
4.1.1. 单细胞分析 ............... 20
4.1.2 分子分型与临床因子的关联分析 ............. 20
第5章 总结 ...................... 27
5.1 总结与展望 .................... 27
5.2 讨论 ........... 27
第4章 单细胞和免疫微环境分析
4.1 材料与方法
4.1.1. 单细胞分析
近年来,单细胞 RNA 测序 (scRNAseq) 已成为一种强大的工具,可以使用差异表达的基因集作为参数来描述给定组织中不同细胞类型和/或“细胞状态”的组成。 scRNAseq 已被应用于评估乳腺癌的肿瘤异质性、肿瘤相关免疫细胞和治疗诱导的肿瘤进化。单细胞转录组测序技术可在肿瘤组织中进行细胞检测,逐一分选,检测基因的表达情况。鉴于测序过程技术错误,单细胞测序结果需随后纠正。如通过调节细胞基因表达水平上下限,然后剔除无效细胞。细胞凋亡和细胞机械性损伤导致测序时基因表达水平降低,可以通过调控线粒体相关基因与细胞整体基因中表达的比率,然后剔除相应的细胞。但是囿于各组织生理功能存在差异,它依赖于能量代谢,使组织细胞在表达水平上自然存在线粒体相关基因,因此,在单细胞分析过程中,筛选线粒体阈值需结合实际细胞类型。
为了进一步评估 BC 患者分子固有分型的异质性,对GSE118389数据进行了单细胞分析,其中包括六名具有基因表达谱数据的原发性BC患者[39]。首先,选择标准差较大(累积标准差>70%)的主成分。为了标准化GSE118389的表达矩阵,使用了 R语言软件的Seurat 包(版本号4.3. 0)[40],并使用了该包中实现的FindNeighbors和FindClusters进行细胞簇分析。此外,细胞簇之间的差异表达基因(DEGs)是通过Seurat包中的FindAllMarkers获得的,其基于以下标准:|对数倍数变化 (FC) | ≥ 1 且调整后的 p 值(根据默认错误发现率调整)≤ 0.05。最后,通过小提琴图观察由预后分型分类标签确定的细胞亚群,并通过R cellchat包 (版本号1.6.1)分析细胞