本文是一篇计算机应用论文,本文提出了一种基于 Trusted-LGBM 的早期 AD 病变趋势预测模型。该模型基于 GBDT 算法,使用多棵回归树在不断迭代中逼近最优的损失函数。本文在此基础上根据 ADNI 公开数据集的特点,对受试者原始纵向数据进行空值填充与特征变换,并提出样本权重的概念对模型进行改进以解决模型输入的不确定性问题,同时采用 K-means 聚类算法对模型输入进行增强。实验表明,本文的改进方法针对早期 AD 病变趋势预测问题有着良好的效果,相比于使用其他模型的对照组,该模型拥有最高的 F1-score(0.784)和 AUC 值(0.91)。
1 绪论
1.1 研究背景及意义
阿尔兹海默症俗称老年痴呆。据国际阿尔兹海默症协会调查显示:全球的阿尔兹海默症患者在 2020 年已经达到了 5400 万人。在全世界的范围内,大约每分钟就会新增 20 位老年痴呆的患者。由于世界各国的人口老龄化程度的不断加剧,预计全球的阿尔兹海默症患者将在 2050 年达到 1.52 亿[1]。作为一种典型的痴呆症,阿尔兹海默症(AD)在许多国家和地区都占据着危险性疾病排行榜上的首位,是最可怕的疾病之一。中国也不例外,截止到 2019 年统计的数据,我国有1000 多万阿尔兹海默症患者,其数量已经达到世界第一,相当于全世界每 4 位阿尔兹海默症患者中就有一位来自中国[2],若保持增长趋势不变,到 2050 年中国的阿尔兹海默症患者将突破 3000 万人。虽然近年来人们对于阿尔兹海默症的认识越来越深入,但是许多国家和地区的阿尔兹海默症患者还在承受着心理上的耻辱感与社会隔离,这些患者对其所在的家庭造成了严重的困扰,亲人不得不背负沉重的负担。
阿尔兹海默症的发病因素非常复杂,包括环境因素、遗传基因及年龄,发病率会随着年龄的增长而不断升高。然而,由于对阿尔兹海默症的发病机制与病因缺乏深入的了解,截止目前在世界范围内尚无针对阿尔兹海默症的逆转疾病进程的特效治疗药物,对发病患者仅仅只能延缓其 AD 的发展进程[3]。阿尔兹海默症的临床表现为进行性的认知功能障碍与行为能力损害,即患者在不存在意识障碍的状态下,情绪、思维、记忆、视空间辨认、分析判断等方面的障碍[4]。其具有特征性的病理变化为大脑皮层萎缩、并且伴有神经原纤维缠结,β-淀粉样蛋白沉积与记忆性神经元减少(如海马区神经细胞),一些情形下还会促进老年斑的形成[5,6]。许多研究表明,受试者在认知正常(NC)、轻度认知障碍(MCI)与阿尔兹海默症(AD)之间的转化可以通过基因信息[7]、神经影像学图像[8,9]、生物标志物信息[10]、认知评估量表[11]及某些异常的临床指标变化进行一定程度的反映[12]。由此可知,在阿尔兹海默症的早期诊断中使用这些数据能够表征疾病的发展走向,这些数据在下文中将被统称为属性。
1.2 国内外研究现状
为了通过研究基因数据、生物标志物信息、医学影像数据、认知评估量表得分的变化来探索阿尔兹海默症的计算机辅助诊断技术。国内外的研究者在数据收集与机器学习模型方面都进行了大量有意义的实践,本节将就这些研究和工作进行介绍。
在数据收集方面,国内外的研究者为阿尔兹海默症建立了一系列相关的数据库,如国内的 AlzData 数据库[14],国外的 ADNI、OASIS、HCP、FCP 等数据库[15]都针对阿尔兹海默症的患者数据进行了有效地组织和管理。以 ADNI 为例,其包含四个研究阶段,分别为 ADNI 1、ADNI GO、ADNI 2 和 ADNI 3。ADNI 1 阶段包含 200 名认知正常(CN)的受试者、400 名轻度认知障碍(MCI)和 200 名阿尔兹海默症(AD)受试者数据。Clifford R 等人[16]利用 ADNI 1 阶段的受试者数据成功地获得了可以区分认知正常、轻度认知障碍与阿尔兹海默症的模型。ADNI GO 阶段在 ADNI 1 阶段的基础上增加了 150 名早期轻度认知障碍(EMCI)受试者,推动了对于轻度认知障碍异质性的更加深入的研究。ADNI 2 阶段在ADNI 1 和 ADNI GO 的基础上又增加了 550 名受试者,其中 150 名为晚期轻度认知障碍(LMCI),该阶段主要对之前的两个阶段的研究成果进行了补充和更新[17]。ADNI 3 阶段从 2016 年开始,目前仍未结束研究,该阶段主要针对临床诊断中受试者的 PET 与 fMRI 数据进行研究,并通过确定在阿尔兹海默症患者大脑中其他已知疾病的相关蛋白质与其致病基因来分析与 AD 间的关联。
在机器学习的模型研究方面,国内的研究人员主要基于以上提到的 ADNI 数据库中的受试者脑部影像数据进行分析。杜娇等人[18]提出了一种可将不同模态的图像融合的方法,该方法向医生提供的病变位置信息更加准确。吕鸿蒙等人[19]基于深度学习理论,选择 AlexNet 网络模型对 ADNI 数据库中的原始 MRI 数据集进行训练,实现了对 AD 的早期预测。程波等人[20]充分利用迁移学习的优势,采用相关学习领域的先验知识进行训练,弥补了其他研究过于集中同一学习领域的缺陷。鹿炜铭[21]等人使用受试者的横向数据进行分析,提出一种多阶段判别式事件模型(MDEBM)来估计患者疾病进展的时间线并对病情做出预测。
2 相关技术
2.1 核磁共振成像
核磁共振成像(MRI)是医学影像技术中重要的组成部分。其基本原理是将人体放置于特定的磁场环境中,并使用无线电射频脉冲激活人体组织中的氢原子核,使这些原子核中的带电粒子(质子)受到刺激后失去平衡。当射频脉冲停止发送时,这些原子核中的质子又会受到磁场力的影响重新对齐,此时释放的电信号会根据原子核所处的不同环境而变化,这些信号被接收设备所记录下来后,就能通过电子计算机的处理获取到可以显现人体内各种组织、结构上的差异的图像。MRI 特别适合对人体的软组织或非骨性部位进行成像。与计算机断层扫描(CT)不同,MRI 不会释放具有破坏性的 X 射线,并且能够得到比常规的 X 射线和 CT更加清晰的脊髓、大脑和神经等器官或组织的影像。
核磁共振成像技术对探究阿尔兹海默症的特征性病理变化非常有帮助,众多分析 AD 患者 MRI 的医学研究发现:随着病情的不断加重,患者大脑中的海马体(Hippocampus)、内嗅皮质(Entorhinal Cortex)与杏仁核(Amygdala)等主要负责记忆、策划和思考的区域会出现萎缩,其与健康者的对照如图 2-1 所示:
2.2 医学影像分割
随着 X 射线、CT、MRI、PET 等医学影像技术的发展,获取患者影像数据的门槛越来越低,但与此同时也带来了新的问题:对于医生和研究人员而言,感兴趣的区域往往在整个 MRI 影像中所占比例并不大,并且许多时候需要对一些组织或结构进行定量的分析。因此,需要借助图像分割技术帮助医生和研究人员找出感兴趣的区域,使分析过程更加高效、准确。
医学影像分割技术面临待分割数据成像复杂、干扰繁多、个体多样性等挑战,暂时还未形成统一的标准。目前,较流行的几种图像分割方法如图 2-2 所示:
3 基于 Trusted-LGBM 的早期 AD 病变趋势预测 ....................... 17
3.1 研究背景 ....................................... 17
3.2 问题描述 ...................................... 17
4 递进式早期 AD 病程预测 .................................. 27
4.1 研究背景 ........................... 27
4.2 递进式预测模型 .......................... 28
5 阿尔兹海默症自测系统的设计与实现............................... 36
5.1 系统需求分析 ..................................... 36
5.2 系统总体架构 .................................... 37
5 阿尔兹海默症自测系统的设计与实现
5.1 系统需求分析 研究
ADNI 公开数据集发现,在与阿尔兹海默症的早期诊断中密切相关的五类属性中,认知评估量表得分与 AD 的相关性占据首位,并且从数据获取的门槛来看,相比其他四类属性,除人口统计学信息以外的属性都需要借助外部医疗器械或设备才能够获取,且由于治疗资源的有限,受试者进行这些检查往往需要高昂的费用。因此认知评估量表以其高效性与易用性被广泛地应用于阿尔兹海默症的诊断当中,但当前的认知评估测试主要以纸质版的测试试卷来呈现,国内常用的测试量表有《蒙特利尔认知评估(MoCA)北京版》、《简易精神状态量表》等,完成该测试除量表试卷外还需要医护人员与受试者进行交互,而医护人员的时间与精力有限,采用面对面的方式对受试者进行认知评估并不适合在社区进行大范围筛查。并且,纸质版试卷的题目是固定的,多次测试会使得题目在受试者脑中留下记忆导致测试结果受到影响。因此,需要使用一种更加高效便捷的方法对认知评估测试的开展方式进行改进。
移动端的 APP 与 PC 端相比,具有方便、高效等优点。2020 年 12 月,由中国互联网络信息中心发布的中国互联网络发展状况统计报告[56]称:我国国内已经拥有 345 万款移动互联网 APP,且中国当前的网民结构中 50 岁以上