医学论文栏目提供最新医学论文格式、医学论文硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于数据挖掘的甲状腺疾病预测探讨

日期:2023年07月19日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:153
论文价格:150元/篇 论文编号:lw202307131511335406 论文字数:38555 所属栏目:医学论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇医学论文,本研究使用统计分析、数据挖掘的方法对广西某大学第二附属医院甲状腺相关疾病确诊患者检查数据进行了详细的分析。

第1章 绪论

1.1 研究背景

伴随着大数据应用的不断深化,在医疗领域大数据的关注度也在不断的提升。目前我国对于临床数据的研究处于起步阶段,技术还不够成熟,日益剧增的医疗数据背后隐藏的巨大价值还未能得到有效的挖掘和利用。但伴随着数据挖掘技术在医疗领域的应用不断增多,医疗数据背后的巨大价值正在通过高效的手段为临床提供高质量的医疗决策和分析方法。利用数据挖掘技术可以解决长期困扰传统医学的数据问题,比如:数据量大、纬度高、更新速度快、来源渠道多等,同时利用数据挖掘技术不仅可以得到更加准确的预测结果,还可以提高效率、节约成本。

目前数据挖掘技术在医学较多邻域均有涉及,但使用还不够广泛和深入。尤其在甲状腺疾病的研究中数据挖掘技术的应用还有待进一步深入,甲状腺疾病作为内分泌疾病中高频次发病的疾病之一,是继糖尿病之后的第二大类疾病,考虑到该类疾病中老年患病率较高,加之老年人身体素质和抵抗力都较差,已严重威胁到了其健康;同时在青年群体和中年群体中甲状腺疾病的发病率也在不断的提高,因此我们有必要了解甲状腺疾病相关的风险因素、探究相关检测指标的联合临床诊断价值,并采用多种预测方法对其类型进行预测研究,提高诊断水平。

近几年以来,医学信息化的步伐明显加快,产生的医学数据量越来越多,如何从海量的医学数据中探寻出最有价值的信息,寻找出数据背后的关系,成为了医学界当前非常重视的问题。数据挖掘技术与医学数据的结合能很好地应对医学数据的挑战。数据挖掘技术是由机器学习、深度学习在大数据分析上结合的产物,是一个从海量数据中提取挖掘出若干有价值信息或规律的复杂过程,目前已成为各行业争先研究大量数据背后价值的前沿方法。

1.2 研究意义

传统医疗中通过医生自身积累的专业知识和在临床过程中积累的经验所做出的疾病诊断,很可能受到城乡医疗差距大、专业器械先进程度不同、医生诊断水平有差异等的限制,出现误诊率偏高的现象,从而导致患者得不到及时的确诊而错失治疗的最佳时机也会带来经济的损失,医疗单位也会为此受到负面影响。通过数据挖掘技术可以提高诊断的准确率,很好的规避这些问题。

考虑到目前对于甲亢与甲减的确诊常用的诊断方法是利用甲状腺五项化验的化验指标(FT3、FT4、T3、T4、TSH)进行综合判断的,没有唯一的指标作为判断标准,且甲亢患者需要服用药物来降低亢进的甲状腺激素,或者通过手术治疗、碘放射治疗来降低亢进的甲状腺激素;而甲减患者则需要补充甲状腺激素。两者在适当的条件下会发生转化,例如当甲亢治疗过度时就会转变为甲减,甲减患者若服用过量甲状腺激素也会引起甲亢。同时在现有的相关研究中只是采用甲功五项和甲功八项的指标对患者进行甲亢与甲减区分,存在一定的局限性。针对上述的问题,本论文基于甲功五(八)项、生化指标及血液指标进行研究,利用Lasso回归进行变量筛选,然后在未进行变量筛选与变量筛选后两个数据集上分别建立三种分类预测模型,通过比较选出最优分类预测模型,以提高诊断的准确度。

因此,通过对广西某大学第二附属医院的甲状腺亢进/减退症确诊患者检查数据进行收集整理,深度挖掘、分析确诊患者的并发疾病状况,为确诊患者进行合理有效的并发疾病防治提供有效对策及科学依据。探究最优的分类预测模型,对甲亢甲减患者进行准确的区分,对未来降低就诊患者诊断误差有非常积极的作用。

第2章 相关技术理论介绍

2.1 Lasso回归简介

如今在医学统计领域中使用Lasso回归进行特征变量筛选已经越来越被重视,Lasso回归可以比较好的解决共线性问题,Lasso回归采用的是压缩估计的方法,可以通过构造惩罚函数使得模型变得更加精炼,主要是通过将一些相关度较低变量的回归系数压缩为零进行变量筛选。

2.1.1 Ridge回归模型原理

Ridge回归也被称为岭回归,主要是在一般线性回归模型损失函数的基础上加入了L2正则化的项和调节正则化项和线性回归项权重的系数α,其目的是可以解决直接使用线性回归模型产生的过拟合问题。

2.1.2 Lasso回归模型原理

Lasso回归又称线性回归的L1正则化,和Ridge回归的主要不同点就在于正则化项,Ridge回归使用的是L2正则化,而Lasso回归用的是L1正则化。

Lasso回归可以压缩变量系数,使其变小;同时还可以将一些相关度较低的变量系数压缩为0,所以是一种优良的特征选择方法,Lasso回归可以很好的解决Ridge回归模型变量多的缺点,同时也可避免发生过拟合。

2.2 BP神经网络简介

BP神经网络是一种常见的人工神经网络。其实质是一种多层前馈神经网络,特点是采用梯度下降算法进行收敛,然后实现反向传播修正后,最终达到预测要求。其中较为经典的三层BP神经网络模型,包括输入层、隐藏层及输出层。

2.2.1 BP神经网络原理

医学论文怎么写

第3章 数据来源及预处理 ...................... 17

3.1 数据来源 ........................... 17

3.2 数据预处理 ........................ 19

第4章 甲状腺疾病检查指标可视化分析 ................. 21

4.1 患者基础体征分析 .......................... 21

4.1.1 性别、年龄分布 ......................... 21

4.1.2 就诊年份分析 ................... 22

第5章 甲状腺疾病分类预测 ............................... 36

5.1 预测指标构建 .................... 36

5.2Lasso回归变量筛选 ..................... 36 

第5章 甲状腺疾病分类预测

5.1 预测指标构建

经过数据预处理后的数据集中共包括1436条有效数据,其中甲状腺功能亢进症确诊患者检查数据为1188条,甲状腺功能减退症确诊患者检查数据为248条。由于甲状腺功能减退症患者的数据量远小于甲状腺功能亢进症患者的数据量,为保证特征变量筛选及分类预测的准确性,采用将甲状腺功能减退症确诊患者的检查数据扩大两倍的方式,对数据集进行调整。经调整后的数据集中共包括1932条有效数据,甲状腺亢进/减退症确诊患者检查数据分别为1188、744条。

在原始数据集中共有45个自变量,考虑到在数据收集阶段,部分病历未在科室留存,无法将所设定时间内所有确诊患者检查数据纳入,因此将就诊时间变量排除,最终数据集中共有44个属性特征和1个标签数据。

纳入特征变量筛选前甲状腺疾病数据样本共有1932个,其中1188个1类标签样本,744个0类标签样本(1表示患甲状腺功能亢进症,0表示患甲状腺功能减退症),标签数据表如下表5-1所示:

医学论文参考

第6章 总结与展望

6.1 总结

本研究使用统计分析、数据挖掘的方法对广西某大学第二附属医院甲状腺相关疾病确诊患者检查数据进行了详细的分析,结论如下:

本次甲状腺相关疾病患者的有效检查数据为1436份,其中甲状腺功能亢进症患者检查数据为1188份,甲状腺功能减退症患者检查数据248份。年龄分布近似服从正态分布,数据的有效性较好;就患病性比差异而言,女性患者总患病的人数多余男性,同时女性患者患甲状腺功能亢进症与甲状腺功能减退症的人数均多余男性;患有甲状腺疾病的患者年龄大致服从正态分布,其中31-40周岁的患者居多;且根据不同年份患病人数分析得出,患有甲状腺功能亢进/减退症患者的人数随着年份不断增长。 

通过对患者的血糖检查指标进行分析可以得出,部分甲状腺功能亢进症患者与甲状腺功能减退症患者其血糖水平均有较为明显的升高和降低,在女性患者中表现尤为显著;血糖严重不良的患者人数较少,且血糖严重不良的患者随着年龄的不断增长而增多,在60岁以上的患者中发病率最高,但其概率仅仅只有2.99%。这表明甲状腺功能亢进症与甲状腺功能减退症患者的血糖会存在不同程度上的异常,且并发糖尿病的概率不高。因此我们在日常体检中若发现存在血糖异常应及时关注并检查甲状腺功能是否存在异常。

参考文献(略)