引言
在数字化油田的形成中,油田建立了统一数据模型以及油田级的数据中心,但是大量的数据分别存储在不同的信息载体中。针对这种情况,油田内部公司也有自己的搜索引擎,用来管理各油田分公司内部的信息。搜索引擎技术在油田信息收集、查询中的应用,大大提高了油田用户查找信息效率,但是对于整个油田来说,由于公司与公司之间使用相对独立的集中式搜索引擎,在这种情况下要实现公司之间,乃至整个油田内部的数据共享,仍然是比较困难。
在前一阶段工作中,我们已经针对企业搜索管理框架以及企业搜索安全管理体系进行研究,把搜索前的异构数据源信息收集,搜索后结果的处理,通过第二方的索引库整合在一起,形成了一套较为完整的集中式油田搜索引擎查询、管理体系。
随着油田企业的高速发展以及信息的快速膨胀,当前大型集中式油田搜索引擎面临规模扩展、数据更新速度和用户专业化、需求多样化等一系列挑战。分布式搜索引擎在一定程度上解决了集中式油田信息搜索引擎扩展的限制,但目前国内外针对油田数据的分布式信息检索系统尚处于研究实验阶段,在油田资源的描述和选择技术上存在复杂度高、更新慢、扩展困难等一系列瓶颈,在结果相关度、油田分布式资源控制机制上仍存在很大局限,如搜索查询精度不理想、分布式信息提取不准确、不及时,对不同索引库要求同构等。因此急需性能良好、扩展性强、可行性强的油田信息搜索引擎系统。
此外由于油田内部各集中式搜索引擎存在空间上和时间上的差异,并没有形成一个统一的体系,所以人们在查找资料时,往往不知道要从哪个搜索引擎系统入手,并目_各搜索引擎之间存在着分布性和自治性的差异,从而产生了油田内部搜索引擎如何集成到某一统一体系的问题。各油田分公司信息系统之间数据具有分布性、自治性等特点,使得油田信息搜索引擎的统一管理成为一种必然需求。
本文研究了联邦模式下的企业搜索引擎相关理论和技术,对现有搜索引擎集成方法进行分析,提出了一种基于联邦模式的油田信息搜索引擎构建方法。
第一章绪论
1.1问题的提出
随着油田企业的不断发展,数据量口益增加。为了解决油田内部数据共享的问题,并使油田企业用户方便、快捷的获取所需要的企业数据,企业模式的油田信息搜索引擎纷纷走入各油田企业的视线,油田内部的一些分公司(例如大庆油田勘探开发研究院),这些公司建立起了应用于本公司的油田搜索引擎。但是这些搜索引擎彼此之间相互独立,用户使用其搜索出来的结果只局限于用户所在公司。为了实现企业间搜索引擎数据快捷、安全的共享,本文提出在油田范围内,建立联邦模式的油田数据信息搜索引擎体系。
基于联邦模式的体系结构,不是一种完全受中央控制器集中控制的分布式自治性结构,它利用通用的接口或中间组件,为某一应用的网络化服务提供开放、标准的接口和协议,将特定的服务和集成系统环境中提供的通用服务分离开,具有重要研究意义和应用价值。这样做的优势是:应用系统集成在某一标准体系下时,既可以不损害自身原有的结构,又可以实现系统内资源的实时共享。只要按照一定的规则或是接口规范,油田内拥有搜索系统的分公司都可将它集成到联邦体系之中。
1.2研究现状
随着互联网的不断发展,互联网中的资源也随之迅速增长,搜索引擎慢慢成为广大互联网用户获取所需信息的重要渠道之一。用户对第一代搜索引擎的使用出现于1994年,从此以后,搜索引擎成为互联网用户使用最多的网络信息检索系统之一,当时的搜索引擎数据索引库容量小,收集的网络资源不全面,加之搜索引擎技术不是于分成熟,所以导致用户的查询效率偏低。随着搜索引擎技术的不断革新和发展,搜索引擎收集信息的能力得到很大提高,不仅收集信息的覆盖率有很大提高,索引数据库的容量有了大幅度的扩充,同时查询效率也得到提升。随后出现的Google、雅虎、百度等搜索引擎作为网络信息检索的标志性检索应用项目,为广大互联网用户提供了便捷的查询服务,用户在浏览器中输入一个查询关键词,就可以在短时间内获取大量与这个词相近或相关的资源所以说,当前的互联网搜索技术已经可以满足人们在互联网中获取有用信息的需求。
3.2 异构搜索引擎集成面临........ 32
3.3 异构搜索引擎的集成........ 32-34
3.4 集成接口规范 ........ 34-37
3.4.1 层次结构........ 35
3.4.2 对象模型........ 35-37
3.5 本章小结........ 37-38
第四章 联邦油田信息搜索引擎........ 38-45
4.1 元搜索引擎相关概念........ 38-41
4.1.1 元搜索引擎........ 38-39
4.1.2 常见的元搜索引擎........ 39-41
4.2 元搜索引擎技术在油田........ 41-42
4.2.1 应用思想........ 41-42
4.2.2 发展趋势........ 42
4.3 基于元搜索引擎技术........ 42-44
4.3.1 联邦模式结果查询........ 42-43
4.3.2 基于元搜索引擎技术........ 43
4.3.3 联邦模式下的排........ 43-44
4.4 本章小结........ 44-45
第五章 系统设计与实........ 45-56
5.1 联邦搜索引擎系统........ 45
5.2 联邦搜索引擎管理功能........ 45-49
5.2.1 用户管理........ 45-46
5.2.2 源类型管理........ 46-47
5.2.3 管理员管理........ 47
5.2.4 主题管理........ 47-48
5.2.5 数据源管理........ 48
5.2.6 联邦搜索引擎管理........ 48-49
5.3 标准异构集成接口........ 49-50
5.4 调度和排序算法........ 50-52
结束语
信息社会,尤其是网络技术的飞速发展,将油田信息化发展带进了一个崭新的信息时代。油田信息资源越来越呈现出异构,海量,动态的分布特点,油田企业搜索引擎也随着油田数据的增加而被油田各分公司所使用,但是目前各个分公司之间的搜索引擎相对独立。为了实现企业间搜索引擎数据快捷、安全的共享,本文提出在油田范围内建立联邦模式的油田信息搜索引擎体系。
本文提出了构建基于联邦模式的油田信息搜索引擎,在论文的撰写过程中,主要完成了以下几项工作:
1.理论及相关技术的研究。总结了目前集中式油田信息搜索引擎现状,介绍了联邦模式搜索技术的发展历程和研究现状。研究了联邦模式搜索的相关理论,并且分析现有油田信息搜索在大规模扩展时可能会面临的问题,引出本文的研究内容,提出一套合理的解决方案。