第1章绪论
伴着全球信息化进程的不断深刻同网络信息用户数量的不断增长,网络上海量的信息可供用户检索和使用。但是用户如何快速有效地检索到自己需要的信息是一个关键的问题,为解决从海量信息中查找所需信息的问题,人们发展了信息检索技术。初期,这个领域的研究者针对各自的母语或者网络上的主流语言英语提出了各种信息检索方法,因此便产生了搜索引擎。搜索引擎是管理网络信息资源的主要工具,利用它可以加快信息的交流,提高信息资源的利用率,实现信息化服务的高效性、智能性,为用户查询所需信息提供更为方便、更为全面的信息化搜索服务。
1.1搜索引擎的简介
(1)搜索引擎的定义
从用户的角度来看,搜索引擎所呈现给使用者的是包含查询信息框的页面,在查询框中输入所查询的关键词或短语,通过Web浏览器提交到搜索引擎,搜索引擎便会给出包含用户所输入的关键词或短语的信息列表,搜素引擎其实并不是真正意义上的互联网搜索,它搜索的实际上是预先整理好的网页索引数据库,真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个词(关键字)进行索引,建立索引数据库的全文搜索引擎
(2)搜索引擎的原理
①数据采集
爬行模块负责对维、哈、柯文网站的收集,通过Crawler下载维、哈、柯文网页及文档,预处理并存储到HTML文档库中;从HTML文档库中读取已下载的页面数据,并提取页面正文,将正文字符转换成标准Unicode字符,并对维、哈、柯二种语言进行字符编码映射,关键词映射,再经过分词(关键词)、停用词过滤、词根切分等处理之后生成索引关键词序列并存储到索引库中。
②建立索引数据库
通过文本转换得到索引项,对每个索引项在各文档中的出现次数和包含该索引项的文档数进行统计,获得词频和文档频率倒数,用“词一文档”的关系建立倒排索引。因为维、哈、柯文存在语言上的二义性无法为二种语言的数据建立一个索引表,故采用基十重定位技术的Unicode编码方案(Relocated Unicode Format简记为RuniForm)。在此编码方案中,维、哈、柯文字母根据各自的字母表顺序分别安排在二个不同的区域(仍然在060006FF),自动获得各自的语言标识信息初步的试验结果表明,这种方案有效地消除了语言上的二义性,便十建立多语种索引、进行多语种排序和多语种查询。
③在索引数据库中搜索排序
用排名算法计算各文档与查询词的相关度。所有的排名算法都要基十某种检索模型,信息检索模型主要有布尔模型、概率模型、向量模型、本体模型和语言模型。文档扩展、重排名等技术常被应用十排名算法中。以语言模型为框架,结合维、哈、柯文的特性研究文档扩展模型、排名模型。目标是提出充分考虑了维、哈、柯文特性的排名模型。
④对搜索结果进行处理和排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已计算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
(3)搜索引擎的组成框架
搜索引擎的组成框架一般主要有爬行模块,分析模块,索引模块以及用户界面组成。爬行模块负责在WWW上发现信息资源并进行收集。分析模块则将已经搜集到的信息进行词干切分、分词、并计算关键词的频度,最终构造出一个正向的索引表。索引模块则是根据分析结果构建出倒排索引表并进行维护,同时也要实时接受用户的检索请求,提供检索服务。用户界面则负责接收用户的查询请求,并由检索的结果形成结果页提交给用户。
第2章 索引技术的概述..................................16-28
2.1 签名文件索引(Signature File Index) ................16-18
2.2 倒排索引(Indexed) ..................................18-21
2.3 后缀树(Suffix tree) 及后缀数组 (Suffix array)........21-26
2.4 索引技术的分析和对比................................26-28
第3章 后缀数组的构造算法及实验结果的对比....................28-37
3.1 后缀数组构造索引在维、哈、柯搜索引擎中的提出.........28
3.2 维、哈、柯搜索引擎中两种索引技术的结构...................28-30
3.3 后缀数组的算法简介................................30-37
第4章 后缀数组的应用实现及实验分析................................37-48
4.1 维、哈、柯语言文字中的不同编码.....................37-38
4.2 Unicode的简介................................38-40
4.3 后缀数组的实例演示过程................................40-45
4.4 后缀数组实验结果的分析说明........................45-48
总结
随着Internet的发展与成熟,互联网的规模和其所蕴含的信息量正在以惊人的速度增长,广大用户也希一望通过WWW快速、准确的获得全面的信息。如何在浩繁的信息量目_杂乱无序、但却蕴藏着巨大潜在价值的信息中快速、准确地搜索出有用的信息已经成为我们关注的主要问题。索引存在的目的主要就是为了加快查询的速度,提高查询结果的查准率。所谓建立索引,就是将这些待搜索的信息进行一定的分析,并将分析的结果按照一定的组织方式存储起来,通常是存储在文件之中的。存储了分析结果的文件,更准确的说,存储了分析结果的文件的集合就是所谓的索引。需要查询某信息时,根据用户的查询请求,在索引中进行查找。因为索引是按照一定的结构组织起来的,所以它的查询速率将会很快。本文的主要研究工作如下:
对搜索引擎定义和原理进行了概述,同时介绍了搜索引擎的分类以及发展趋势,并对维、哈、柯搜索引擎的研究现状进行了简单介绍。