本文是一篇医学论文,本文通过机器学习算法对POI的影响因素进行特征排序,找出对POI影响程度较大的因素。这样医生在诊断过程中能够重点关注这些因素,进而给予患者针对性的精准医疗。同时这对医生的诊断能提供更加科学的支撑依据,也对女性健康生活具有一定的指导意义。
第1章 绪论
1.1 研究背景
早发性卵巢功能不全是指女性在四十岁之前就发生了性腺功能的严重衰退。具体表现为继发性闭经、不孕等现象,常伴随着夜间入睡过程中多汗、失眠、记忆力减退等围绝经期症状。随着三胎政策的开放,以及女性生育条件的改善,对女性卵巢功能越来越重视。良好的卵巢功能是受孕的前提条件,不论是自然受精或是通过辅助生殖技术都要评估卵巢功能,更多的人被发现存在卵巢功能不全或向此发展的倾向[1]。现代医学把在女性四十岁以前,出现明显卵巢中产生的卵泡量下降、卵泡细胞质量降低,长期下去女性的生育能力甚至会下降并且女性的性激素也会相应的减少,出现这种症状的疾病在医学上被称为“卵巢储备功能低下”(diminished ovarian reserve,DOR)。当卵巢的储备功能变得越来越低的时候病情就会发展成“卵巢早衰”(premature ovarian failure,POF)。直到2016年,欧洲人类生殖与胚胎学会(ESHRE)针对卵巢功能持续恶化,从衰退到衰竭的发展这个过程,正式由“原发性卵巢功能不全”改名为“早发性卵巢功能不全”[2]。
影响患者确诊为POI的因素很多,根据目前的研究可以知道主要包括遗传学因素,免疫性因素、环境因素、医源性因素以及其他因素等[3-6],对于该病的具体病因研究还需要更加深入,在医学的治疗方案包括免疫治疗、激素替代治疗、干细胞治疗等。在患病期间,POI患者会出现如失眠、潮热盗汗等不同程度的雌激素缺乏症,长期患病则会出现心血管症状、骨质疏松等症状[7],而且在不能生育的压力和治疗的心理压力双重作用下,大多数患者对于长期治疗会产生顾虑和恐惧心理,这从一定程度上会影响患者病情的发展。所以对卵巢功能进行综合的准确评估,才能够及时的发现女性卵巢功能衰退的情况。通过综合分析对在诊女性的生活提出相应的医学方面的科学建议,才能够更好的改善女性的生活质量[2]。
1.2 研究目的与意义
1.2.1 研究目的
近年来,卵巢功能类的疾病发病率呈现上升的趋势,并且通过统计数据表明,该类疾病还出现了低龄化现象,越来越多的年轻女性被月经以及生育问题所困扰。与此同时,在经济快速发展和生活水平不断提高的背景下,女性的社会竞争压力逐渐增大,同时结婚和生育年龄将随之推后。女性的身体机能随着年龄的增长而下降,这在客观上就造成了女性生育能力下降的现状。所以有必要从一开始就关注到女性卵巢健康,探讨早期卵巢功能障碍的影响因素,针对POI的影响因素来对患者进行相应的生活指导,以此达到提前预防POI的目的。
本文数据来自于某市人民医院2020年到2021年收录的年龄大于18岁且小于等于40岁,因为妊娠、月经不调问题就诊的500例女性患者的临床数据和相关信息。通过搜集到的患者数据来进行特征选择,在机器学习的基础上来对影响早发性卵巢功能不全的特征指标进行排序,从而得到这些指标对患病的影响重要性。最后对排名前五的特征指标进行患病预测,再与基于所有数据的预测结果作比较。若预测结果好,这样在缺少病人某些信息时,可以通过这五个指标来进行初步预测。
第2章 相关理论简介
2.1 机器学习的分类算法
(1)逻辑回归
逻辑回归的英文全称为Logistic Regression。逻辑回归在线性模型基础上引入了对数几率函数,该函数目前用到的是sigmod函数,这样就能够将因变量的值转化在0和1之间[31]。
(2)支持向量机
支持向量机的英文全称为Support Vector Machine,简称为SVM。1963年Vanpik领导的AT&T Bell实验室研究小组提出了SVM这种新兴的有潜力的分类技术,该算法是一种模型识别方法,它主要是基于统计学习理论并且应用于模式识别领域[33]。SVM算法常用来进行二分类,主要目的是基于间隔最大化的原则对样本进行分割,这样就可以得到一个超平面,最终进行二分类的问题就转化为一个凸二次规划问题来进行求解[34]。
(3)决策树
决策树的英文全称是Decision Tree,简称为DT。是一种非参数的监督机器学习方法。它是一种非线性的具有树状结构的算法,经常用以预测目标的分类和回归。决策树的生成过程是一个递归过程,这个过程就是为了对最优特征属性进行递归选择。决策树中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,每个叶节点表示一种分类的结果[35]。
通过决策树能够轻松得到待测样本的类别信息,同时也能够知道整个决策树的逻辑构成,从而该模型更直观且可视化。决策树在处理问题上还易于追溯和倒推。决策树在一些敏感的任务比如智能医疗上都有所应用[36]。在本文研究中,决策树主要用于患者数据的分类预测,并且求得相应的预测精度指标,与其他算法进行预测效果评估比较。
2.2 性能评价标准
为了探究模型的好坏,通常将数据集按照一定比例随机分为训练集和测试集。训练集是一种学习模式,测试集是用来评估模式的质量。一些常用的评价指标包括马修斯相关系数(MCC)、接收机工作特性曲线下的面积(AUC)、准确率、真阳率(召回率)、真阴率(特异度)、F1-score值等[44]。
对于二分类问题,根据标签可以将样本划分为正例(医学上指的是良性)或者负例(医学上指的是恶性),通常用1或0来表示。对模型进行训练之后再对测试集进行分类时,医学上往往会出现四种情况:1)当患者实际是良性并且被预测为良性,称为真正类(True Positive,TP);2)若患者实际是良性,但是被预测为恶性,称为假负类(False Negative,FN);3)若患者实际为恶性,但是被预测为良性,称为假正类(False Positive,FP);4)若患者实际为恶性并且被预测为恶性,称为真负类(True Negative,TN)。根据患者的实际情况和诊断情况,可以得到以上四种情况相对应的样本数,绘制其二阶混淆矩阵如表2-1所示。
第3章 描述性分析 .................................. 13
3.1 患者一般情况分析 .................................... 13
3.1.1 年龄分布 ..................................... 13
3.1.2 职业分布 .................................. 13
第4章 POI影响因素研究 ...................................... 21
4.1 POI影响因素分析 ....................................... 21
4.2 目标人群筛选 ................................... 21
第5章 患病预测模型的实现 ................................ 25
5.1 建模过程设计 .................................. 25
5.2 不同模型性能结果 ................................ 25
第5章 患病预测模型的实现
5.1 建模过程设计
本文把所得数据按照8:2来划分训练集(N=400)和测试集(N=100)。在划分的时候尽可能使得样本正负例平衡,统计两个数据集的基本特征汇总在表5-1。由表5-1可以看出,训练集和测试集的年龄和正负例比例大体一致。
本文通过六种机器学习算法进行建模,其中用到的算法有逻辑回归、支持向量机、决策树、随机森林、XGBoost和KNN。对训练集做十次训练并取平均值来进行性能评估。本文选择马修斯相关系数(MCC)、F1 Score、准确率(Accuracy)、召回率(TPR)、特异度(TNR)和AUC来进行性能评估。
第6章 总结与展望
6.1 总结
早发性卵巢功能不全是卵巢衰退的发展阶段,由于病因复杂,目前已经出现患病低龄化的现象。该类疾病在不同阶段会有不同的临床表现,这在一定程度上也加大了中医诊断的难度。此外,患病女性不仅在心理上承担着月经紊乱和生育能力降低的焦虑,还会承受来自家庭和社会的外部压力,这从不同的方面也会导致病情的恶化。
本文研究发现年龄处于18岁到40岁的患者大多数都有不良的生活习惯,而且POI患者职业以体力为主。对于家族女性40岁前有月经紊乱病史或家族女性40岁前有绝经史的就诊患者,大部分都会确诊POI。年龄和职业在不同的证症中是没有差异性的。在纳入研究的500例患者的电子病历表数据中分析不同特征对早发性卵巢功能不全的影响程度并进行排序,通过机器学习算法对数据进行训练和测试得到的结果表明:从患者做过子宫或宫腔手术、受教育程度、年龄、是否有减肥史和是否吸烟的特征中可以初步预测月经不调的患者是否属于早发性卵巢功能不全患者。本文研究甚至可以得到单从这五个特征进行患病预测的结果比基于所有数据的患病预测结果还要准确的结论。这样当患者的电子病历表信息缺失时,可以通过排序前五的指标对患者进行初步患病预测,同时也可以从排序较高的影响因素对患者给予生活指导。
参考文献(略)