计算机软件论文栏目提供最新计算机软件论文格式、计算机软件硕士论文范文。详情咨询QQ:1847080343(论文辅导)

云存储的关键技术计算机软件研究

日期:2020年03月24日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:1120
论文价格:150元/篇 论文编号:lw202003212317577745 论文字数:32255 所属栏目:计算机软件论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇计算机软件论文,本文围绕如何存储云网络中的数据以降低成本与时延、提高数据的可靠性、均衡网络负载展开研究,取得的主要成果如下:(1)本文对现有的云存储系统中的数据存储策略进行了较为详细地归纳和分析,主要分为完全副本备份方式和纠删码冗余方式,发现完全副本方式虽然提高了数据的可靠性,且延迟小,但其消耗的空间成本是巨大的;而纠删码冗余存储的方式能节省大量的存储空间,但延迟与可靠性却不如完全副本方式。因此本文提出一种将碎片备份与 LT 码结合的自适应数据冗余策略 ADRS(Adaptive Data Redundancy Strategy)。该策略能根据当前网络状态动态调整参数以优化系统性能,当服务器节点发出的数据量较小时,以碎片备份方式为主;当服务器节点发出的数据量较大时,以 LT 码冗余方式为主。仿真结果表明,ADRS 充分融合了碎片备份和 LT 码冗余的优势,虽然增加了少量存储空间,但降低了平均时延,提高了系统的可靠性。ADRS 策略根据当前具体网络状态调整阈值、分块数、副本数、冗余度等参数,实现优化系统性能的目标。这种动态的方案更能适应云存储网络需求的多样化,尤其是网络条件恶劣,差错率较高的情况。


第一章 绪论


1.1 研究背景及意义

云计算[1]降低了计算机的成本,拥有几乎无限的存储容量,越来越多的用户选择将数据存储到云中,因而滋生了许多提供云基础服务的供应商,其中属 Amazon[2]、Google[3]和Microsoft[4]等最为出名,用户数最多。进一步带动了服务器数据提供商的发展,比如Dropbox[5]。在信息技术蓬勃发展的今天,网络中的数据量是庞大且飞速增长的,那么存储这些数据就需要几乎呈指数增长的存储空间。因此云存储技术被广泛地应用于为满足企业和个人对存储空间的需求。

在存储系统[6]中,我们可以保存操作系统、服务程序、用户应用程序的海量数据。云存储中包含了集群管理、网格技术、并行处理和分布式处理技术,集成了云网络中各类存储设备,共同合作为用户提供相应的服务与功能。分布式存储中的很多问题在云存储中也依然存在,如数据容错、路由效率、信任安全、系统扩展、搜索算法、访问性能等,如何解决以上问题成为目前刻不容缓的课题。简要的云存储拓扑结构如图 1.1 所示。

图 1.1 云存储简要拓扑结构

................................


1.2 研究目标与方法

目前现有的云环境下数据存储冗余方案有很多,但冗余的加入势必需要以通信成本和存储空间为代价,如何在引入冗余的同时,降低通信成本、减少存储空间、缩小访问延迟并提高数据可靠性将成为接下来研究的主要目标。同时,在冗余存储方案中研究了副本如何产生后,下一步就该考虑副本生成的数量以及副本存放的位置。基于网络的动态变化,副本数和副本位置应随网络变化而进行动态调整。在满足网络数据可用性的前提下,保证副本数最小,副本位置存放合理,能够有效地减少通信成本,降低访问时延,实现负载均衡。本文具体的研究目标如下:

(1)针对云存储网络的容错性,提出一种新的云存储冗余算法,以实现降低平均时延,提高系统可靠性的目标;

(2)针对网络状态不断更新的情况,设计出一种动态副本优化模型,降低存储空间和通信成本,实现负载均衡。

本文遵循如图 1.2 所示的方法进行研究。首先调研云环境下的数据存储问题相关的文献,归纳和分析现有存储策略的适用场景和性能优缺点;根据调研结果,分成两个子课题:云数据存储策略的研究、动态副本管理优化模型的研究。明确不同子课题下的研究重点;根据子课题下的研究问题进行数学建模,设计数据存储算法;然后从理论角度分析算法的优缺点;最后搭建仿真环境,通过仿真验证所提算法,并将其与在相同应用场景下现有的云存储与数据管理算法进行比较。

图 1.2 云存储关键技术的研究方法

..................................

第二章 云存储关键技术研究


2.1 云存储的数据冗余策略

在云存储网络环境中,活跃的存储节点有一定概率会发生失效。为了保证在某些存储节点失效时,存储在这些节点中的数据仍可被其他节点或用户使用,必须以冗余的方式存储网络中生成的数据。我们根据冗余方式的不同将云存储的数据冗余策略主要分为两大类进行讨论:一类是完全副本备份冗余的数据存储策略,另一类是基于纠删码冗余的数据存储策略[15]。

2.1.1 完全副本备份冗余的数据存储策略

完全副本备份冗余方式对数据进行直接拷贝,生成副本,并存储在不同的服务器上。只要存在一个副本保持数据的完整性,那么用户就可以正常获取这个数据。很多著名的存储系统都采用了完全副本冗余方式,如 GFS[3]、Atmos[16]、Ceph[17]等。完全副本冗余方式有可靠性高、降低访问延迟、处理简单的优势。

完全副本备份技术管理简单,但消耗很大的存储空间和通信开销,网络性能明显降低。

完全副本备份冗余技术可以分为基于文件和基于文件分块这两种冗余模式:

1. 基于文件的副本备份

基于文件的副本备份技术是将文件整个地复制很多份并分别存储于不同存储节点,当检索数据时,每个文件的多个分布于不同节点的副本中只要有一个完整的副本存在,就可以恢复出原始文件。

2. 基于文件分块的副本备份(也称为碎片备份)

基于文件分块的副本备份技术是将文件分成块后复制一定数量的副本,然后将其保存在不同存储节点中。它与上面基于文件的副本备份方式是不同的,区别在于:基于文件的副本备份中拷贝的文件是完整的,而基于文件分块的副本备份中拷贝的文件是先经过分块处理的碎片副本。基于文件分块的副本备份冗余策略已经应用在很多领域,其中最著名的是谷歌文件系统 GFS(Google File System)和 Hadoop 分布式文件系统 HDFS[18](Hadoop Distributed FileSystem),这种备份方式不仅实现简单,而且能均衡负载。

............................


2.2 云存储的副本管理策略

在云存储中,副本可以用来减少访问延迟,最小化网络流量。如何管理网络中产生的副本是提高数据可用性的一个重大挑战。目前有两种主要的副本管理策略:静态副本管理策略和动态副本管理策略[39]。因动态副本管理策略更适用于云存储环境,本节主要讨论动态副本管理策略。

2.2.1 静态副本管理策略

在静态副本[40-42]管理中,副本位置是预先明确确定的,副本的创建和删除是由用户或系统管理员决定的。静态副本用于将最流行的数据以静态方式复制到其他节点。也就是说,副本的位置是不变的,不支持自动创建副本和管理副本位置。显然这并不适合应用在多变的云存储环境中。

2.2.2 动态副本管理策略

动态副本策略是指可以根据不断变化的访问模式和当前资源的可用性自动地创建和删除副本。使用动态副本能减少数据访问时间,网络的存储资源能得到更有效地利用。但是如果动态副本策略设计不合理,可能会造成数据传输效率降低,消耗大量节点能量与存储空间。因此,设计动态副本管理策略必须考虑避免不必要的副本。

文献[43]基于云计算环境的特点,设计了基于资源位置聚类的资源管理模型,然后利用用户访问的局部性特征,设计了动态副本管理策略。该策略考虑数据存储主机节点和用户之间的位置关系,选择可用度性能最优的节点放置副本,不仅保证了系统负载平衡,同时降低了平均响应时间。但是该动态副本策略是基于历史数据的,所以存在一定的滞后,如果请求数目随时间变化较大,算法性能可能会降低。

文献[44]提出了一种动态副本放置机制以降低带宽消耗和响应延迟。首先考虑副本数,提出云存储系统区域划分的层次结构,DRA 算法用来计算副本存放位置,为了缩小副本分布范围,进行放置节点的筛选,实现副本在系统中的优化放置。然而在实际应用中,节点筛选过程会消耗资源,且求解 DRA 算法时会恢复出错误的数据。

...............................


第三章 一种自适应的云存储数据冗余策略...................................... 15

3.1 研究背景........................15

3.1.1 数据的碎片备份....................... 15

3.1.2 LT 码.........................15

第四章 一种改进的云存储动态副本管理方案..............................32

4.1 研究思路...........................33

4.2 一种改进的动态副本管理方案 IDRMS........................... 33

第五章 总结与展望............................... 48

5.1 工作总结.....................................48

5.2 工作展望........................................49


第四章 一种改进的云存储动态副本管理方案


4.1 研究思路

结合 2.2 节对现有副本管理方案的研究,我们发现在大规模云存储系统中,节点出错率较高,数据副本作为一种存储数据的有效方法,得到了广泛地应用。然而,大多数副本方案没有充分考虑到,当用户需要访问大量的距离自身位置遥远的副本时,会引起较高的成本和较大的延迟。

因此,本章提出一种改进的动态副本管理方案 IDRMS(an Improved Dynamic ReplicationManagement Scheme)。通过引入预测模型,优化副本在云存储节点中的位置,并最终实现最小化总通信开销和网络延迟。当用户频繁请求距离较远的数据包时,为降低开销、提高数据的有效性,IDRMS 将副本移动