本文是一篇医学论文,本文主要分为两大部分开展工作,一是通过医学统计方法(Meta分析)找到影响AD的主要危险因素,二是利用机器学习方法对柳州市居民AD的发病风险进行预测。
第1章 绪论
1.1 研究背景
阿尔茨海默病(AD)俗称老年痴呆症,该病起病隐匿,发病周期较长,发病患者常伴有认知功能障碍、记忆力下降、情绪异常、注意力分散、言语能力受损、生活自理能力低下等症状[1]。该病最早由德国精神病学家和病理学家Alois Alzheimer于1907年发现[2]。流行病学资料显示,预计2030年全世界约有8200万人患有AD,而到2050年这一数字将达到1.52亿[3]。据统计,目前国内AD患者数量约为1000多万,约占世界总病例数的四分之一,居全球之首[4]。随着国内人口老龄化趋势不断加剧,AD的发病率也日益增高。一旦患病,不仅让患者自身遭受极大的精神折磨,而且还给整个家庭和社会带来沉重的经济负担和巨大的压力,因此加强对AD的防治研究意义重大。
AD发病机制极其复杂,目前尚未准确阐明。医学界比较公认的有Aβ沉积、Tau蛋白过度磷酸化、胆碱能损伤、氧化应激、激素紊乱、APP基因突变、自由基损伤等多种假说,其中以“β淀粉样蛋白假说”和“胆碱能损伤假说”为主流[5]。世界各国越来越重视对AD的治疗,每年在AD治疗药物上的研发费用呈指数上升,但到目前为止,尚未研制出治疗AD的有效药物。现阶段治疗AD的主要手段包括:中医治疗(中药配方、针灸等)、西医治疗(主要依靠胆碱酯酶抑制剂、脑血管扩张剂、抗氧化剂等药物)以及中西医结合治疗。但这些方法只能在一定程度上延缓轻型AD患者的病情,对于重型AD患者而言,并不能很好地改善其生活质量和延缓病情的发展。因此,寻找AD发病的危险因素,建立AD发病风险预测模型,通过医院筛查高危人群、社区进行AD预防知识宣传、个人改变生活方式相结合的模式来控制危险因素,从而降低AD的发病率显得极其重要。
1.2 国内外研究现状
1.2.1 AD危险因素的研究现状
国外学者对AD的危险因素研究涉及面广、分类比较细化。不少学者[6-10]采用病例对照研究或横断面研究方法找到AD的危险因素,主要包括年龄、教育程度低、不健康饮食、基因、糖尿病史、高血压、吸烟、肥胖等。Eiko[11]发现长期睡眠障碍是导致AD的一个重要因素;Mac Donald[12]认为低学历和血管疾病是AD的危险因素;Kosenko[13]的研究结果表明,红细胞代谢异常与AD的发病密切相关。有一些研究者利用各种痴呆评估模型筛选AD发病的危险因素:Barnes等[14]利用COX比例风险模型得到AD的危险因素,包括年龄、BMI、吸烟、酗酒、糖尿病、中风、抑郁等;Anstey等[15]研发了痴呆风险指数,筛选出影响AD的危险因素,主要是年龄、缺乏社交活动、抑郁、糖尿病、BMI、创伤性脑损伤、血清胆固醇、农药接触;Smith[16]通过纵向痴呆评估研究,发现遗传因素与AD高度相关。Olalla[17]、Emily[18]分别运用Meta分析和系统评价方法从单因素角度证明了抑郁症和女性是AD的危险因素。Grant[19]基于多个国家的膳食供应数据,利用生态学研究方法得出多肉膳食与AD高度相关。
随着人们对AD认识的逐步加深,国内关于AD危险因素的研究也越来越多,众多学者从年龄、性别、生活习惯、基础病史、家族基因等角度出发,通过不同方法展开单因素或多因素方面的研究。一些学者[20-23]运用Meta分析方法研究了单因素对AD的影响,比如婚姻不幸、牙周炎、创伤性颅脑损伤、农药;李笑阳[24]、李晓莹[25]从多因素角度去进行分析研究,发现年龄、文化水平低、缺乏体育锻炼、负性生活事件、AD家族史、心脑血管疾病、头部外伤、精神病史等因素对AD的影响最大。李梦莎和邵剑锋等[26-28]采用病例对照研究方法得出高龄、文化水平低、脑血管病史等9种因素容易诱发AD。魏振等[29]通过横断面研究方法得到早发型AD的诱发因素为听力受损、高血压病史、长期焦虑情绪和睡眠障碍。王寅旭等[30]通过地区抽样调查方法发现高龄、文化水平低、离婚(或丧偶)、性格怪癖和收入低下是影响AD的重要危险因素。一些学者[31-32]基于部分流行病调查资料对AD发病的相关因素进行汇总,得出高龄、女性、缺乏体育锻炼、不良饮食习惯、孤独、抑郁和心脑血管病是AD的主要危险因素。
第2章 理论知识分析
2.1 Meta分析介绍
Meta分析是基于统计学原理,对同一研究主题的多个独立研究结果进行综合定量分析的一种研究方法[53]。与传统的文献综述不同的是,Meta分析需要按照严格的流程筛选文献、合并分析统计量、综合考量各个研究之间的差异性,通过系统、客观的对多个研究结果进行综合定量分析,为研究者破解问题指明新的思路和方向。Meta分析凭借低成本、高能效的分析特性,被越来越多的研究者所关注,目前已成为循证医学研究中一项重要的研究手段。截止2021年,从中国知网发文数量来看,关于Meta分析的文章数量已有24万余篇,大约是2000年的34倍。
2.1.1 合并效应量的选择
效应统计量的选择是Meta分析的一个重要环节[54],效应统计量能够反应效应程度的大小,一般指试验组和对照组的差异标准化的统计量。之所以选取标准化效应量,是为了确保各研究的量纲一致,方便效应量的合并及研究间的比较。不同的效应量代表的实际意义有所差异,不同的试验类型和数据类型需要选用的效应量也有所不同。比如,相对危险度RR常用于随机对照试验或队列研究中;基于均值的效应量适用于连续型变量;比值比OR可用于队列研究、病例对照研究以及横断面研究中,而且适用于离散型变量。由于本文纳入的文献属于病例对照研究,且研究因素均为离散型变量,因此效应量采用比值比OR表示。比值比OR能够测量某种疾病与暴露因素的关联强度[55]。
为更清晰地展示OR的计算方法,给出了疾病与暴露因素关系的交叉表,如表2-1所示。
2.2 机器学习模型
机器学习常见的类型大致可分为三种:监督学习、无监督学习以及半监督学习。 监督学习是指根据给定的既有特征又有标签的数据集,通过机器训练学习找到特征和标签之间的联系,面对没有标签的数据,可根据特征判断出标签。监督学习技术分为分类和回归两种形式[64]。分类适用于预测离散型变量,回归适用于预测连续型变量。常用的分类算法有:决策树、支持向量机、朴素贝叶斯等。常用的回归算法有:线性回归、非线性回归、高斯回归等。
无监督学习是给出一组无标签的数据集,通过学习而得到数据的某种结构[65]。无监督学习的数据集中没有任何标签,这种学习模型常用于聚类。常用的聚类算法有Apriori算法、K-means聚类、层次聚类、谱聚类等。
半监督学习指综合利用有人工标注的类别数据和没有标注的类别数据,生成合适的分类函数[66]。这种学习模型既可用于分类,也可用于聚类。常用的算法有多视角算法、基于图的算法等。
本文研究的数据集,其标签变量是人工标注的结果,且只分为两类,值用0、1表示,属于二分类问题,符合有监督学习方法。因此,下文将主要介绍二分类问题相关的理论和方法。
2.2.1 Logistic回归
Logistic回归模型仍是一种线性模型,只不过是广义线性模型,它作为一种分类算法被广泛的应用于疾病诊断、客户流失等领域,从根本上解决了因变量是离散型变量的问题。它可以得到近似的预测概率,我们根据近似概率判断样本属于哪一类别。它的优点在于不需要提前对数据的分布进行假设,避免了对分布假设不正确带来的麻烦,Logistic回归的思路是先拟合边界,再建立边界与分类的概率联系,实际上是利用回归的思想去解决分类问题。
第3章 AD危险因素的Meta分析 ........................... 24
3.1 数据收集与处理 ........................................ 24
3.1.1 文献检索策略 .............................. 24
3.1.2 纳入与排除标准 ............................. 24
第4章 构建AD发病风险的预测模型 .............................. 36
4.1 数据预处理与描述分析 .............................. 36
4.1.1 数据预处理 .............................. 37
4.1.2 描述性分析 ......................... 37
第5章 结论 ................................. 47
5.1 总结 .................................... 47
5.2 展望 .................................. 48
第4章 构建AD发病风险的预测模型
4.1 数据预处理与描述分析
本文数据集来源于柳州市某医院2020年1月至2021年10月收集的AD患者及部分非AD患者的诊疗记录,共包含1188条数据,年龄分布在63岁至90岁之间。该数据集共有16个变量,变量的具体解释如表4-1所示。
第5章结论
5.1 总结
随着我国老龄化程度不断加重,AD的发病率也随之升高。由于其病因机制复杂、发病隐匿且病程较长,加之目前全球还没有高效的治疗方法,一旦患病不仅给家庭造成沉重负担,而且给广大医学工作者带来巨大挑战。因此,做好AD的预防工作显得尤为重要。本文主要分为两大部分开展工作,一是通过医学统计方法(Meta分析)找到影响AD的主要危险因素,二是利用机器学习方法对柳州市居民AD