第1章绪论
1. 1搜索引擎
20世纪60年代,在计算机网络刚开始兴起的时候,那时候互联网上的主机数目很少,网络站点的数目(Web Site)极少,网站上所包含的网页(WebPage)数量也就很少在这个只具有很少数量主机数的网络中,对于其中所包含的有限数量的网页页而中的信息的获取,人们可以简单的采取人工的方法来进行遍历查找。即人们需要查找信息的时候,可以依次的、挨个的去打开这些网页页而,浏览该页而当中的内容信息,然后在其中寻找自己所需要的信息。然而随着信息化革命的快速向前推进,计算机网络技术得到了迅速的发展,互联网上的独立站点数目呈现出指数级的增长,目前互联网上所有主机数所包含的页而数目更是达到了百亿级规模的数量,并且这个庞大的网页数量还在随着时间而不断增长中。
怎样快速的,高效的,准确的获取自己所需要的信息呢?海量的网页数据信息,决定了依靠人工遍历网页去获取自己所需信息的方法,是不可能的。于是就出现了专门用于在庞大的互联网上的页而中查找所需信息的程序和系统,这就是网络搜索引擎。如何从具有庞大数量的网页页而信息中,快速的并且准确的查找从而获取得到所需的信息,就是搜索引擎所要提供的的主要功能和服务。
搜索引擎是伴随着互联网技术的发展而兴起的,它是网络技术发展过程中的产物。Lycos公司于1994年,首先采用Robot技术来进行web数据的挖掘以获取web上的信息,而且该公司还开始根据某些特征采取一些算法以用于对搜索的结果进行页而的相关性的排序;同年Infoseek公司首次在搜索引擎中提出了页而的链接分析的技术(该专利持有人为现Baidu CEO李彦宏)。1995年,元搜索引擎
搜索引擎的核心功能就是为了方便用户快速准确的在海量的互联网信息中检索查询从而获得所需的信息。现代的搜索引擎系统一般组成如下:网络爬虫(W eb Crawler)索引过程(Indexing Process),以及检索服务.
3.2 页面解析器.............29-31
3.2.1 DOM Parser............. 29-30
3.2.2 SAX Parser............. 30
3.2.3 StAX Parser............. 30-31
3.3 页面内容抽取的............. 31-39
3.3.1 HTML页面中............. 31-33
3.3.2 基于DOM结点信息............. 33-34
3.3.3 基于页面分割的内容............. 34-39
3.4 基于内容语义特征和可视化............. 39-50
3.4.1 页面内容............. 41-42
3.4.2 页面可视化结点.............42-46
3.4.3 基于内容语义特征.............46-50
3.5 实验结果............. 50-53
第4章 页面时间要素............. 53-64
4.1 页面的时间............. 53
4.2 页面时间要素信息............. 53-57
4.2.1 基于网页档案数据库进............. 54-55
4.2.2 基于页面内容理............. 55-56
4.2.3 基于页面之间链接............. 56-57
4.3 基于事件模型的时间要素............. 57-61
4.3.1 事件的要素............. 57-59
4.3.2 基于事件对象模型............. 59-61
4.4 实验以及............. 61-64
第5章 页面时间要素在............. 64-67
5.1 爬虫获取页面的更新.............64-65
5.2 基于页面更新周............. 65-67
总结
实时搜索引擎不同于传统搜索引擎的一个最大的不同点是其要检索的信息对象是那些对于时间很敏感的信息,尤其以微博、社交类的消息和新闻类的报道信息为主。这些对时间高度敏感的信息所在的页而内容上往往含有一些时间要素信息,包括页而的创建时间、页而更新时的时间、页而更新的周期。有效的、准确的去获取页而上的这些时间要素信息,对于实时搜索引擎检索结果的准确性有极大的帮助。
为了获取得的这些页而上的时间要素信息,我们就需要先对页而进行一些处理,去除其中与页而主要内容无关的部分,获得页而的主要内容信息。然后对页而的主要内容信息采用自然语言处理技术进行处理,识别其中包含的时间信息,而且还结合网页页而之间的相互链接关系来估计其相关的时间要素信息。