计算机论文范文栏目提供最新计算机论文范文格式、计算机论文范文硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于多源异构的海洋要素数据服务平台探讨与实现

日期:2021年11月15日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:570
论文价格:150元/篇 论文编号:lw202110281054351889 论文字数:35855 所属栏目:计算机论文范文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
相关标签:计算机论文范文

本文是一篇计算机论文范文,本文选题来源自课题组横向项目《海洋大数据服务系统—多源数据管理系统》,在对多源海洋要素信息数据的现状及信息化程度进行深入调查与研究的基础上,对不同来源的海洋要素数据进行特征分析,并基于 WebGIS 技术实现对海洋要素数据的管理、可视化和共享,针对多源异构数据难以存储和管理的问题建立了多源异构海洋要素数据服务平台。通过对海洋要素数据集成系统得到的数据进行统一整合管理,完善数据服务,构建元数据实体,实现海洋环境数据各类公开海洋要素数据的数据发布、查询检索以及多形式数据共享,提供海洋环境要素数据的数据收藏以及数据下载,满足用户对海洋环境要素数据共享的多样化需求。


第 1 章 绪论


1.1 研究目的和意义

自二十一世纪以来,我国的海洋经济一直呈稳步提升的状态,政府也一直高度重视海洋经济的发展,“十四五”规划和 2035 年远景目标纲要第三十三章明确指出要积极拓展海洋经济发展空间[1]。海洋领域及其相关产业的发展和建设脚步都在不断加快,但单一纯粹的海洋开发与发展战略已经跟不上时代潮流发展的内在要求,因此发展结合海洋数据科学技术的智慧海洋是未来的重要方向[2]。

海洋环境要素数据种类包括叶绿素浓度数据(CHL-a)、盐度数据(Salinity)、海洋水温数据(SST)、洋流(Current velocity)等[3]。其中海面温度(SST)是指海面附近海洋的温度。出于很多原因,了解海洋这部分的温度绝对至关重要。对于海洋学家,气象学家和气候学家来说,这是海洋与大气之间能量交换的标志/结果之一。对于海洋生物学家而言,正是决定不同生物有机体发育的参数。对于渔民而言,重要的温度变化(在地图上热锋显示)表明捕鱼区多。海面盐度是估算海洋对气候影响的关键参数。除温度外,盐度是决定海水密度并因此决定水团对流和再出现的关键因素。洋流对冷水团块的作用极大地影响了世界两极海冰的形成,并携带了海洋食物来源和地球周围的海洋生物,并影响了降雨模式,风模式,飓风和季风。通过输送热量和能量,洋流在塑造地球许多区域的气候中起着重要作用。浮游植物(植物浮游生物)是海洋食物链中的第一个环节,也是大多数鱼类食物的主要来源[4]。这些浮游植物体内含有丰富的叶绿素,可促进海洋中的光合作用,对维持地球上的碳氧循环起到了重要作用。海洋资源的可持续管理已成为当今社会的主要工作,了解海洋表层叶绿素含量是衡量初级生产以及全球海洋健康的重要方法。因此对海洋环境要素数据进行有规律性地集成和解析对以后进一步深化数据挖掘的研究和应用具有重要意义。

...........................


1.2 国内外研究现状及发展趋势

基于多源异构的海洋要素数据服务平台建设最核心的工作就是异构数据集成,通过对来自不同数据源、互相关联的异构海洋数据集成起来,经过一系列的处理工作,整合成用户可以直接使用的满足实际需求的数据格式[9]。

目前国外学者对异构数据集成的相关研究工作和国内相比处于领先地位,不仅采用了更丰富更实用的技术,特推出的产品种类也较为齐全,建立了较为完善的数据集成平台。其中大部分产品在实际推广应用中都取得了比较满意的效果,得到了市场的认可。Nundloll Vatsala 针对洪水风险管理领域的异构数据问题,提出一种利用语义 Web 和自然语言技术来解决数据格式中出现的不一致问题,将结构化数据与非结构化数据结合成统一的数据模型以获取不同数据源的信息[10]。Kalayci Tahir Emre 和 Bricelj Bor 等人提出一个基于知识图的数据集成框架以简化对车辆和相关运输系统运输积累数据的访问和分析[11]。为了便于城市智能交通数据的处理和分析,Thiago Sobral 和 Teresa Galvao 等人设计了一个基于葡萄牙 Porto 市交通数据的智能交通数据集成系统 VuMo 和一个知识辅助可视化工具 KVTs[12]。Donny Jackson 认为在远程医疗领域,医疗数据领域的数据孤岛是远程医疗的瓶颈之一,并对此展开论证和讨论[13]。Cho Daegu 则通过大数据技术处理建筑行业的数据管理问题,他提出一种一体化数据管理的数据处理算法以减少数据库建立和修改的时间,极大地改变现场工程师对数据管理较为棘手的现状[14]。

国内对于数据集成的研究相比国外一些发达国家要晚上不少,但发展比较快[15]。目前很多高校和企业都非常关注这一领域的研究,对数据集成技术做了很多有益尝试,一般都是针对实际项目进行设计,取得的成果也不容忽视。如作者陈毅飞针对杨凌国家级农业高新技术数产业区提出一种基于多源异构数据的杨凌水肥信息管理系统,为多遥感协同作物水肥针对技术的数据供给问题提供了技术支持[16]。考虑到对雷电数据的分析与统计对相关雷电预报工作的重要性,邵一丹对目前气象行业雷电信息集成可视化做了相关的研究,基于 WebGIS 技术实现了雷电信息集成及系统的开发,完成了雷电信息的格式转换和雷电信息的统一管理[17]。

...........................


第 2 章 相关技术及工具


2.1 数据集成

2.1.1 数据集成概述

前期信息化系统建设缺少顶层设计,不同业务部门的信息系统独立运行,相互间信息数据不能共享,随着数据量的不断增加“数据烟囱”现象越发严重,极大的阻碍了现代信息化建设[22]。为了解决“数据烟囱”问题,数据集成的研究开始逐渐被人们重视。数据集成的原理就是将分布在不同的数据源中的异构数据在物理上或者规律上集合在一起,通过一系列标准化操作,转化成符合用户需求的统一数据格式[23]。

2.1.2 数据集成方法

目前比较成熟的数据集成方法主要分为两类,一类是在逻辑上实现数据集成的模式集成方法,另一类是在物理上实现数据集成的数据复制方法[24]。模式集成方法实现的核心是建立一个能够表示不同数据源数据结构、语义的全局模式。通过这一模式对来自不同数据源的数据进行数据集成和数据共享。它的特点是数据源对数据请求者透明,即数据请求者只需要提出数据请求而不需要了解数据的物理存储位置。标准的模式集成方法主要有联邦数据库(Federated database)和中间件模式(Middleware pattern)[25][26]。与模式集成方法相比,数据复制方法则更为常见,它的原理则是将不同异构数据源中的数据直接拷贝到对应的目标数据,从而实现异构数据间的数据集成和共享。数据仓库(Database)就是这类数据集成方法的代表[27]。

(1)联邦数据库:联邦数据库作为模式集成方法出现相对较早,其在各数据源之间建立起联邦模式,联邦模式中的数据源相互之间开放一部分数据模式,联邦数据库架构如图 2.1 所示。联邦数据库根据各个数据源间的关联耦合度差别可以区分为紧密耦合联邦数据库和松散耦合联邦数据库[28]。紧密耦合集成度较高,它是指在联合模型中使用唯一的全局模型,并将每个数据源的数据模型映射到这个全局模型,以实现联合模型中异构数据源的数据集成。松散耦合采用的是联邦模式,这种方法让用户使用一种在数据源间通用的查询语句自主实现各类数据集成需求。但是这种模式由于出现较早,缺点也很明显,与其他模式相比查询效率相对较低,容易出现死锁等问题。

图 2.1 联邦式数据库架构

图 2.1 联邦式数据库架构

.........................


2.2 ETL 技术

ETL 是数据集成的核心组成部分,任务主要是将分布在不同地域的异构数据源中的数据从数据源端经过抽取、转换并最终加载到指定数据仓库[30],是构建数据仓库的开端,也是数据仓库模式中最主要的环节。

在设计 ETL 时一般分为数据抽取(Extract)、数据转换(Transform)以及数据加载(Load)三个阶段[31]。数据抽取是指将分布在各个不同数据源中的数据抽取到临时数据库的操作,在抽取过程中针对不同的数据源和用户需求,抽取方式也有更细致的方式划分[32]。数据转换主要是对于语义异构的数据(同名异义、同义异名等)以及其它一些特殊的数据要求进行处理的过程。设定数据转换规则是整个 ETL 过程中最为复杂的一步,通常会占用整个 ETL 过程 80%的工作量。此外数据转换也包含数据清洗的过程,主要是指将一些不符合要求的数据(比如有缺失的数据、无效的数据或错误的数据等)通过预先设定的过滤条件过滤并返回给数据源对应的过滤信息。作为最后一步的数据加载过程需要对经过清洗转换后数据进行判断,看是否满足需求,若满足则加载到目标数据仓库中。ETL 工作模型如图 2.4 所示。

图 2.4 ETL 工作模型

图 2.4 ETL 工作模型

..............................


第 3 章 基于 ETL 的异构海洋要素数据集成方案研究...........................13

3.1 数据集成方案架构......................................13

3.2 数据标准化流程........................................13

第 4 章 海洋要素数据异常数据检测方法的研究和改进..............................23

4.1 基于 K-means 算法的异常数据检测方法研究..............................23

4.1.1 K-means 算法简介..................................23

4.1.2 基于 K-means 的异常数据点检测.........................25

第 5 章 多源异构海洋要素数据服务平台................................