农业科技论文栏目提供最新农业科技论文格式、农业科技硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于深度学习的植物miRNA靶基因预测研究

日期:2020年11月05日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:887
论文价格:150元/篇 论文编号:lw202010221007226568 论文字数:35244 所属栏目:农业科技论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇农业科技论文研究,本文对当前国内外在miRNA 靶基因方面的研究现状进行了大量的研究,在充分了解现有的 miRNA 靶基因预测方法后,提出了基于深度学习方法的植物 miRNA 靶基因预测算法研究。现将本文的主要研究结论总结如下:(1)实验数据挖掘与预处理研究结论。虽然对于植物 miRNA 的研究相较于动物而言起步晚,但是目前也有不少较为权威和全面系统的植物 miRNA 数据库,这些数据库中基本涵盖了当前已经发现的全部植物物种的 miRNA 序列。综合对各种植物miRNA 数据库中数据类型与数量的评定,本文最终选择了 PMRD 数据库中的拟南芥、大豆、水稻三种植物 miRNA 序列数据。另外,通过 PMRD 数据库中提供的靶基因信息,利用 bedtools 等生信工具在三种植物的基因注释文件中获取到靶基因的序列。这些通过实验验证的靶基因用作模型训练与测试的正例数据集,负例数据集通过在 psRNATarget 工具中提高相关参数阈值获取,并利用 Fisher-Yates 随机排列生成洗牌算法对负数据集进行进一步的可靠处理。


1 绪论


1.1 课题背景及意义

生物体在不同的生长发育阶段,或是受到外界生物、非生物胁迫时需要精细地调控基因的表达水平。生物体控制基因的表达需要通过基因调控实现,而 RNA(核糖核酸)则在生物体的基因调控过程中广泛参与并起到重要的作用(April H et al.,2018)。生物体内存在着大量种类和功能各异的 RNA,包括信使 RNA(mRNA)、转运 RNA(tRNA)、基因组 RNA、小核 RNA(sn RNA)以及非编码 RNA 等,它们在生物进化过程中发挥着重要的作用。其中非编码 RNA 是近年来新发现的一类 RNA,这类 RNA 主要有 microRNA(miRNA)、siRNA、piRNA 等,虽然不编码蛋白质,但它们发挥着重要的调控功能,而 microRNA 就是非编码 RNA 中最重要的一类。研究植物miRNA 及其靶基因是在微观层面对于植物进行的研究,主要探讨在 RNA 层面上对于植物的生长、发育等过程所产生的影响。相比于植物的生长环境等外界或宏观因素,
植物 miRNA 及其靶基因,会在本质上作用于对植物细胞的发育、凋亡以及蛋白质的翻译和表达。近年来,microRNA 在基因精细调控中的作用越来越被重视。miRNA 在真核生物中普遍存在,是长度一般在 20-25 个核苷酸的非编码小 RNA 分子,通过负调控 mRNA 靶基因的转录表达水平,进而影响动植物的生长发育和疾病发生等多种生物学过程。
在植物中,miRNA 参与调控器官的形态建成、生长发育、种子大小,同时对于植物抵御外界生物(如病、虫等)和非生物(如干旱、温度、盐碱、贫瘠等)胁迫(Katarzyna K et al.,2014;LU Y Z et al.,2011),miRNA 也起着至关重要的作用。因此研究植物 miRNA 和靶基因之间的调控机制,对于改善农作物以及能源植物的产量品质和环境适应性具有非常重要的生物学意义,从而进一步推动农业生产和发展。

然而植物 miRNA 是如何产生的、植物 mi RNA 的很多功能和调控机制、以及在不同的环境条件下如何精细调控基因的表达水平并不十分清楚。因此揭示 miRNA 的功能和生物作用机制,尤其是 miRNA 靶基因的预测工作便尤为重要。研究表明每个mi RNA可调控约 200左右个基因,mi RNA依据生物环境靶向不同的基因从而发挥特定的调控功能,然而基于生物实验的方法一般只能验证单一生物环境下 mi RNA与基因之间的靶向关系,难以快速、大量地识别与 mi RNA相互作用的基因,因此通过深度学习的方法预测 mi RNA靶基因,能够脱离生物实验条件的限制,实现大批量数据预测,从而大大地提升实验效率并节约实验成本。

.............................


1.2 国内外研究现状

mi RNA 自 1993 年首次被发现,一直都是生物领域的热点话题并在 20 多年的研究进程中取得了诸多令人瞩目的成果。在对 mi RNA 的研究过程中,计算方法目前已成为挖掘 mi RNA 生物学价值的有利工具。大多数与 mi RNA 相关的计算方法都涉及对mi RNA 及其靶基因的预测,研究者目前也正在开发越来越多的计算算法和基于 Web的预测工具,以满足 mi RNA 研究者的需要。 其中最具代表性的是 mi RNA 数据库的建立,例如 mi RBase(Ana Kozomara et al.,2019),这些数据库不仅提供了可公开获得的 mi RNA 序列和基因注释,有些还提供了 mi RNA 靶基因,例如 Tarbase 数据库(Vlachos I S et al. ,2015)、mi Records 数据库(Xiao F et al.,2009)。
对 miRNA 靶基因预测的计算方法经历了两个过程,前期为从头预测方法(Abinitio),这类方法基于生物实验得出的靶向特征对候选基因进行筛选。为了开发用于识别 miRNA 靶基因的此类算法,需要遵循靶向特征原则(程爽,2016)。靶基因预测算法使用的一些靶向特征主要有三种:miRNA 与靶基因的碱基配对特征;miRNA-mRNA 的热力学稳定性和 miRNA 靶位点在不同物种之间的保守性(Ekimler S et al.,2014)。由于 Ab initio 算法几乎都是应用于动物靶基因的预测,所以下面仅简单介绍几种早期的经典靶基因预测算法,其他的经典算法总结如表 1 所示。miRanda 是在靶基因预测中开发的第一个软件且实现了在 Linux 等多个平台使用。该算法在序列匹配特征方面设置打分矩阵,考虑 miRNA-mRNA 热稳定性和保守性特征,要求靶位点在多物种 3’UTR(3'非编码区)比对中相同位置碱基相同。PicTar 算法会检查 3'UTR的序列与 miRNA 种子区域的碱基匹配,根据其热力学稳定性过滤保留的序列,并为每个 预测的目 标计算 隐马 尔 可夫模型 ( HMM ) 最 大似然分 数。RNA22 算法(Miranda K C et al., 2006 )采用一二阶马可夫模型强调 miRNA-基因二聚体的互补匹配特征和自由能特征,但不依赖于靶基因的跨物种保守性特征(陈功等,2011)。miTarget( Kim SK et al.,2006)采用 SVM(支持向量机)方法,该算法使用 152 项正例数据和 83 项负例数据,特征提取考虑热力学稳定性,并根据碱基匹配情况提取 20个位置的匹配特征。

...............................


2 基础知识介绍


2.1 miRNA 相关知识介绍


2.1.1 miRNA 概述

MicroRNA (mi RNA)是一种以非编码 RNA 基因产物为主的小分子,它来源于存在于各种多细胞生物体内的较大的前体 RNA 片段。mi RNA 的长度在 20-25 个核苷酸转录本(nt),存在少数会短于 20nt。mi RNA 通过与靶 m RNA 的相互作用来抑制基因功能(Ambros V,2008)。

mi RNA 基因以单拷贝、多拷贝或基因簇等多种形式存在于基因组中,而且绝大部分定位于基因间隔区。其转录独立于其他基因,并不翻译成蛋白质,而是在体内代谢过程中起到多种调控作用(华友佳等,2005)miRNA 在多个水平上调控基因的活性,尤其在生物体的转录、翻译和蛋白降解过程中,即作为表达调控的元调节因子。

2002 年,来自俄勒冈州立大学、罗格斯大学、麻省理工学院与莱斯大学和奥地利科学院的四个研究小组分别报道在植物拟南芥中发现了 mi RNA,这是最早在植物中发现的 mi RNA(Llave C et al., 2002;Mette M F et al., 2002 ;Park W et al., 2002;Reinhart B J et al., 2002)。
随着时间推移和生物测序技术发展,目前已在多种生物体内鉴定出超过 38589 条保守的或物种特异的 mi RNA(王洁等,2019)。相比于早年风升火起的动物 mi RNA研究,尽管植物 mi RNA 研究起步晚但凭借如高通量测序、荧光定量 PCR 等方法的推进,及自身在保守性特征上的优势,针对植物 mi RNA 在近年来也取得了很多显著的研究成果。目前已有大量实验验证 mi RNA 在植物生长和发育过程中发挥着关键作用(秦力,2016)。不仅如此,近年来陆续有研究表明植物 mi RNA 可以实现跨物种调控基因表达。如蜂粮中的一种植物 mi RNA 通过基因调控,可以对幼蜂的卵巢和后期生长发育进行抑制,从而使其成长为工蜂(Zhu K et al., 2017)。

............................


2.2 深度学习技术应用

2019 年的全国“两会”,人工智能成为热点话题,继“互联网+”被写入政府工作报告后,“智能+”也出现在政府工作报告中。而深度学习可以看做人工智能和机器学习的子集。简单来说,深度学习是从数据中学习表示的一种数学框架,强调从连续的层(layer)中进行学习。深度学习将机器学习中的特征工程步骤自动化,极大地简化了机器学习工作流程。本文在研究中心使用的深度学习方法主要包括卷积神经网络(CNN)和循环神经网络(RNN)的变体双向长短期记忆网络(Bi LSTM),在CNN 中的全连接层还使用到了两种激活函数,在第四章中使用了 XGBoost 方法进行了模型对比,因此下面主要介绍这四方面内容

2.2.1 卷积神经网络

卷积神经网络(