计算机应用论文栏目提供最新计算机应用论文格式、计算机应用硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于失衡数据分类计算机模型的药物蛋白质虚拟筛选方法

日期:2018年02月07日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:855
论文价格:150元/篇 论文编号:lw201705261022133281 论文字数:33546 所属栏目:计算机应用论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

第 1 章 绪 论


1.1 课题研究的目的和意义

随着计算机软硬件水平的不断提高,计算机的存储技术也在不断的发展。信息数据时代已经到来。因此,利用数据挖掘、机器学习等相关技术,从海量数据中提取出对生产、经营、日常生活有益的隐含信息已经是一种必然的趋势。在众多数据形态中存在一种特殊形态的数据集——失衡数据集(Imbalanced Data Sets, IDS)。这类数据集类别往往是分布不平衡的,类别之间甚至可能出现数量级的差异[1]。

.....................................


1.2 虚拟筛选的基本方法和研究现状

虚拟筛选可定义为:针对重要疾病特定靶标生物大分子的三维结构或定量构效关系(QSAR)模型,从现有小分子数据库中,搜寻与靶标生物大分子结合或符合 QSAR 模型的化合物,进行实验筛选研究[11]。

.....................................


第 2 章 基于分子对接的虚拟筛选相关介绍


2.1 分子对接原理基础知识

最初 I.D.Kuntz 根据配体与受体作用的“锁-钥原理”提出分子对接方法[39]。锁钥原理的基本思想是:蛋白质与分子之间的结合在空间上和能量上具有互补性,即满足空间构象的相互匹配和能量的相互匹配,是一种刚性的结合方法。

.....................................


2.2 基于分子对接的虚拟筛选

虚拟筛选是化合物进行生物活性筛选之前,通过在计算机上对化合物分子进行生物活性预测,在提高先导化合物质量的同时,降低了后期临床实验的成本。其中基于分子对接的虚拟筛选是在计算机上首先确定靶蛋白的活性结合位点,然后对配体与靶蛋白可能产生的空间构象进行搜索,最终利用打分函数对可能的空间构象进行打分,选择具有最好的空间构象的化合物作为候选化合物,进入临床筛选阶段。

.....................................


第 3 章 基于密度聚类边界采样方法................................. 21

3.1 失衡数据处理中的常用方法.................................... 21

3.2 常用的聚类采样算法............................ 23

第 4 章 基于 Adaboost-SVM 的药物蛋白虚拟筛选.....................37

4.1 支持向量机............................... 37

4.2 集成学习方法............................................ 42



第 4 章 基于 Adaboost-SVM 的药物蛋白虚拟筛选


4.1 支持向量机

SVM 是由 Vapnik 和 Cortes 提出的一种建立在统计学习理论和结构风险最小化等原理基础上的分类算法,具有避免局部最优解,抗“维度灾难”强等优点,而且对于小样本,非线性,高维数据等分类问题都有一定的优势,因此,目前被广泛应用于网络流分类,舆情分析,语音识别等领域。

...............................


4.2 集成学习方法

集成学习(Ensemble Learning)方法是失衡数据处理中常用的方法之一,该方法最早是由 Hansen 和 Salamon 提出的集成神经网络分类模型,利用多个神经网络对训练数据集进行学习,并将学习结果进行整合,并利用实验充分证明该方法能显著提供学习系统的泛化能力。正是由于此方法蕴含着巨大的潜力,越来越多的专家和学者对集成学习领域进行了更加深入的探索。

...............................


结论

随着生物化学,化学信息学等理论研究的不断深入,药物发现策略也在日益更新,计算机辅助药物设计成为了一种必然的趋势。本文通过对传统的基于分子对接虚拟筛选技术进行研究,分析了目前虚拟筛选技术所面临的问题,如打分函数的准确性问题以及训练集中大量的错误对接构象降低筛选准确率的问题。为了进一步提高先导化合物的筛选质量,本文通过将机器学习方法与虚拟筛选技术相结合的方式对传统虚拟筛选技术进行改进。

参考文献(略)