农业科技论文栏目提供最新农业科技论文格式、农业科技硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于深度学习的植物miRNA靶基因预测研究

日期:2020年11月05日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:900
论文价格:150元/篇 论文编号:lw202010221007226568 论文字数:35244 所属栏目:农业科技论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
CNN)是深度学习的代表算法之一,是一类具有监督学习能力的深层前馈网络,它具有平移不变、局部连接、权值共享等特性(Goodfellow et al.,2016)。深度学习理论被提出后,卷积神经网络的表征学习能力得到了关注(HintonGE et al., 2006),CNN 避免了传统识别算法中复杂的特征提取和数据重建过程,在计算机视觉和自然语言处理领域表现亮眼,更是图像识别领域的核心算法之一(Egmont-Petersen et al., 2002 )。而实际上基因序列可以看成是文本数据,因此采用CNN 能够产生较好的分类结果。卷积神经网络结构简易图如图 5 所示。

图 5 卷积神经网络结构简易图
..................................


3 植物 miRNA 靶基因预测数据获取和处理...................................16

3.1 数据获取..................................16

3.1.1 植物 miRNA 数据获取.......................... 16

3.1.2 miRNA-target 数据获取.................................18

4 基于深度学习的靶基因预测.............................25

4.1 网络模型实现.............................25

4.1.1 卷积阶段实现....................27

4.1.2 BiLSTM 阶段实现....................................29

5 植物 miRNA 靶基因预测系统设计与实现...........................40

5.1 系统设计与开发............................40

5.2 系统实现...............................41

5.3 小结.............................46


5 植物 miRNA 靶基因预测系统设计与实现


5.1 系统设计与开发

DeepMiRNA 系统的流程图如图 32 所示:

图 32  DeepMiRNA 系统流程图

系统的基本运行流程如下:用户输入网址后进入系统,系统主要有三个功能模块构成,首先是 DeepMiRNA 系统介绍模块,此模块对 DeepMiRNA 系统进行了功能简介并说明了用户操作的方法。其次是 DeepMiRNA 系统预测模块,用户在该模块的界面中输入待预测的植物 miRNA 序列和靶基因序列,系统会将数据读取后输入预测模型,输出该待预测靶基因是否为真实靶基因的结果。该模块提供正确的数据输入格式,也可以对用户输入的数据格式进行检验,若用户输入数据有误会进行提示。最后是 DeepMiRNA 系统文件上传模块,用户在此模块可以选择进行待预测序列文件的上传,将包含植物 miRNA 序列和靶基因序列的.fasta 文件上传进行统一预测,从而实现数据的批量预测,提高效率。该模块同样提供示例文件的下载,供用户进行对照从而上传正确的文件格式。

................................


6 结论与展望


6.1 研究结论

miRNA 在生物体中起到的重要作用是不言而喻的,因而 miRNA 及其相关课题也一直是生物领域研究的热点和重点。miRNA 和靶基因之间的相互作用,更是决定了生物体的生命进程,与动植物的生长发育等过程息息相关。本文对当前国内外在miRNA 靶基因方面的研究现状进行了大量的研究,在充分了解现有的 miRNA 靶基因预测方法后,提出了基于深度学习方法的植物 miRNA 靶基因预测算法研究。现将本文的主要研究结论总结如下:

(1)实验数据挖掘与预处理研究结论。虽然对于植物 miRNA 的研究相较于动物而言起步晚,但是目前也有不少较为权威和全面系统的植物 miRNA 数据库,这些数据库中基本涵盖了当前已经发现的全部植物物种的 miRNA 序列。综合对各种植物miRNA 数据库中数据类型与数量的评定,本文最终选择了 PMRD 数据库中的拟南芥、大豆、水稻三种植物 miRNA 序列数据。另外,通过 PMRD 数据库中提供的靶基因信息,利用 bedtools 等生信工具在三种植物的基因注释文件中获取到靶基因的序列。这些通过实验验证的靶基因用作模型训练与测试的正例数据集,负例数据集通过在 psRNATarget 工具中提高相关参数阈值获取,并利用 Fisher-Yates 随机排列生成洗牌算法对负数据集进行进一步的可靠处理。

原始基因数据不能作为深度学习模型的输入数据,因此对数据的处理进行了研究,找到了一种适用于基因序列的数据处理方式。数据处理过程主要包括序列长度补齐、数据编码和标签设置。因为 miRNA 序列是不定长的,通过对全部实验数据的统计,发现绝大多数的 miRNA 序列长度分布在 20-25nt,序列最长为 26nt;此外我们还尝试了截取序列长度进行预测结果的对比,分别截取了包含种子区域在内的前 8 位碱基和前 12 位碱基,但是预测准确率低于将序列补齐为 26nt 的处理方式,因此采取将全部序列长度按照 26nt 进行补齐;数据编码采用独热编码的方式;最后将正例数据集的标签设置为 1,负例数据集的标签设置为 0,至此完成了对输入数据的全部处理过程。

参考文献(略)