本文是一篇医学论文,本文以乳腺癌患者五年特异性生存情况预测为目标,向SEER数据库申请并获得大量患者完整病历,经过数据预处理得到病例数据超过23万条。在此数据上,使用医学统计中的方法和机器学习方法来预测乳腺癌患者的五年特异性生存情况,并对两种方法进行对比。
第1章 绪论
1.1 研究背景与研究意义
癌症作为全世界第二大死因,其发病率和死亡率一直呈现上升趋势[1]。乳腺癌是女性最常见的一类恶性肿瘤,其致死率居癌症第二位[2]。据2018年国际癌症研究机构调查的最新数据表明,全世界女性乳腺癌的发病率为24.2%[3],位居女性恶性肿瘤首位[4]。在我国,乳腺癌的发病率呈逐年上升趋势,每年有近30万女性被诊断出患乳腺癌,在东部沿海和经济发达地区,其发病率上升尤其显著。虽然乳腺癌具有较高的发病率,但其生存率相对其他癌症来说也较高,患者经过积极、有效的治疗,其5年生存率可达到73%左右,在医疗卫生水平较好的区域可达80%。
乳腺癌在早期,其症状大多不明显,进入晚期,往往伴有癌细胞的远处转移,甚至发生身体多个脏器的病变[5],从而危及病人生命。一般情况下,乳腺癌病人在完成了手术等初步的处理之后,疾病得以初步减轻和抑制,但仍具有复发的可能性。因此,当临床医生为患者制定介入或长期护理规划时,患者的预期存活时间也是一项很关键的影响因素[6]。
目前,乳腺癌患者的预期存活时间大多仅通过临床医生的个人经验来确定,该模式难免因临床医生经验的参差不齐导致患者治疗效果存在差异。据统计,临床医生凭借经验预测的患者的预期生存时间与患者真实生存时间的差异在7天以内的病例仅占25%,即便是身经百战的临床专家,其预测错误率也高达70%左右[7]。面对这一情况,寻找一个工具来辅助临床医生预测癌症患者的预期生存时间是有价值的。随着计算机软硬件技术的不断发展,利用目前不断成熟的大数据技术来辅助临床医生预测乳腺癌患者的预期生存时间正越来越受到重视。
1.2 国内外研究现状
1.2.1 基于医学统计的癌症患者生存预测研究现状
医学统计方法作为癌症研究中的经典方法,具有较长的研究历史。叶晔等(2020)[8]采用单因素和多因素分析探究不同分子分型Ⅳ期乳腺癌患者的预后及其影响因素。宋效清等(2021)[9]利用Lasso回归筛选出对乳腺癌有影响的因素,并构建Cox比例风险模型来评价乳腺癌患者的预后。张振伟等(2021)[10]采用单因素和多因素分析探究中晚期乳腺癌骨转移患者预后的独立影响因素,并且建立了Cox回归模型用于乳腺癌骨转移患者的预后预测。以上研究,运用较为常见的医学统计研究方法,采用单因素和多因素分析等方法探究癌症的预后因素,再建立Cox回归模型预测患者的预后情况。但Cox回归模型对于解释纳入因素之间的关系存在困难,且该方法大多用于分析群体,不太适用于个体患者的预后预测。
在得到癌症患者预后的影响因素后,大量研究者进一步建立列线图模型,对癌症患者的生存时间进行预测。Kattan等(2003)[11]建立了五年期胃癌特异性生存率的列线图,用一致性指数对准确性进行度量,通过引导来纠正乐观偏差,并将文章提出的模型与美国癌症联合委员会的分期预测能力相比,发现列线图的区分度更高。Roman等(2005)[12]将术前化疗(PC)后病理完全应答(PCR)和远处转移无瘤生存率(DMFS)相关的临床变量合并,基于多元逻辑回归开发PCR列线图并进行校准,使用Cox比例风险回归模型建立预测DMFS的列线图,在验证集中表现良好。Laurent等(2009)[13]基于Cox回归模型开发原发性阴茎鳞状细胞癌(PPSCC)患者特异性死亡率(CSM)的列线图,使用接受者操作特征曲线(ROC)下的面积来测试预测规则的准确性。
第2章 数据获取与预处理
2.1 SEER数据库
2.1.1 SEER数据库简介
本研究数据来源于监测、流行病学及预后数据库(Surveillance,Epidemiology and End Results,SEER)。SEER是一个关于肿瘤患者信息的、面向全世界公开使用的、规模相当巨大的数据库。该数据库主要由肿瘤发病率的情况以及人口数据两大部分组成[27]。
2.1.2 SEER中数据的获取方式
SEER作为公开数据库,有三种途径可以获取其中的数据,三种途径都应以签署有关协议为前提。此处仅介绍本研究获取所用数据的途径以及方法,该获取途径是三种获取途径中最简便和灵活的方法。
具体获取途径为:首先,需要进入SEER官网下载SEER*Stat软件并进行安装,然后,通过SEER*Stat软件进入互联网(其网址为:http://seer.cancer.gov/resources/),在软件的可视化界面中,根据研究内容,可以有选择的设置筛选条件,即可获得数据库中存在的且满足筛选条件的数据。
但需要注意的是,采用该途径进入互联网获取数据需要根据SEER提供的用户名和密码进入。该用户名和密码需要以个人或团体的身份提前申请,通过了申请,获得用户名和密码后方可登录SEER来获取数据。
2.2 队列选择
本研究所用数据通过SEER*Stat 8.3.9软件提取SEER中名为“Incidence-SEER Research Plus Data,18 Registries,Nov 2020 Sub(2000-2018)”的数据库中的数据,该数据库最近一次更新时间为2021年4月15日。
(1)纳入标准
SEER数据库中拥有多种癌症患者信息,为了找到符合课题的数据,在临床医师和专家的指导下,按照一定要求,从SEER中最终获得数据250861条。具体的数据纳入标准如下:
1)初次诊断年份为2004-2010年;
数据库中部分变量自2004年起才开始记录,2004年以前该变量数据缺失(例如:肿瘤大小)。同时据调查了解,该数据库最后一次的随访调查是在2016年的最后一天,根据本文的研究目标,必须确保病人的随访期大于5年。综合考虑,将初诊年份设置为2004-2010年。
2)性别为女性;
3)肿瘤病人发病部位为乳腺;
4)若患者死亡,则死亡原因为乳腺癌。
(2)构造分类变量
本研究以乳腺癌患者五年生存情况为预测目标,后文医学统计方法中所使用的列线图模型仅需将最后一次随访时患者的生存状态和存活月数结合,即可预测五年生存率,不需要再定义其他变量。其中存活月数是指初次确诊为乳腺癌起到最后一次随访时,患者存活的时间。
第3章 基于列线图的乳腺癌患者预后预测................................13
3.1 相关理论介绍.............................13
3.1.1 Kaplan Meier法单因素分析原理............................13
3.1.2 Cox多因素分析原理.......................................13
第4章 基于集成学习的乳腺癌患者预后预测..............................23
4.1 机器学习算法理论.................................23
4.1.1 决策树...........................23
4.1.2 随机森林.................................24
第5章 结论...............................38
5.1 总结............................38
5.2 不足和展望.....................39
第4章 基于集成学习的乳腺癌患者预后预测
4.1 机器学习算法理论
机器学习的众多模型可分为单一模型和集成模型。本文所涉及的决策树是单一模型,集成模型的思想是将多个模型进行组合来产生更强大的模型。常见的集成学习算法有装袋法(Bagging)、提升法(Boosting)和Stacking。 本文使用决策树模型、Bagging算法具有代表性的随机森林模型、Boosting算法具有代表性的梯度提升决策树模型以及Stacking思想的集成学习模型来预测乳腺癌患者五年特异性生存状态。
4.1.1 决策树
决策树是一种基本的分类和回归方法,本章讨论分类的决策树。决策树由结点和有向边组成。一颗决策树的结点有一个根结点、若干个内部结点和叶子结点。树的最高层是根结点,其包含所有样本,内部结点表示一个特征或属性,叶子结点表示一个类。有向边表示一个特征的不同取值。
如图4-1所示,决策树算法的过程为:
Step 1:从根节点开始,测试实例的任一特征,依据测试结果,为实例分配合适的子结点,此时的子结点对应着该特征的一个取值;
Step 2:重复Step 1,直至达到叶子结点则停止;
Step 3:将所有实例分到叶子结点的类中。
决策树常用的算法有ID3、C4.5和CART算法等,所有算法都包含特征选择、决策树生成和决策树剪枝过程[40]。
第5章 结论
5.1 总结
在研究了大量已有研究后发现,目前关于乳腺癌生存期预测的研究大多仅单一的使用医学统计中的列线图模型或采用机器学习方法,很少有文章比较两种方法的优劣。同时,我们还发现,乳腺癌因较高的五年存活率,在收集大量完整病历上有困难,过少的样本量不足以开展乳腺癌的预后研究。因此,本文以乳腺癌患者五年特异性生存情况预测为目标,向SEER数据库申请并获得大量患者完整病历,经过数据预处理得到病例数据超过23万条。在此数据上,使用医学统计中的方法和机器学习方法来预测乳腺癌患者的五年特异性生存情况,并对两种方法进行对比。
在医