第一章绪论
1.搜索引擎简介
什么是搜索引擎
随着信息技术在全世界按照前所未有的速度迅猛发展,互联网上的信息也迅速膨胀,从浩如烟海的数据中查找用户关心信息将越来越困难。快速高效地为用户提供需要的信息资源已经成为互联网市场的第一大需求,搜索引擎技术的出现第一次尝试着去满足这一需求。传统的搜索引擎以互联网上web信息为基础,通过用户输入的查询条件为用户提供信息检索服务。在互联网技术发展的
早期,第一代web技术的引领者Yahoo公司作为网络搜索引擎的先驱者,成功开发了基于网站分类目录的搜索模式,既以树形的结构来组织和统计网站信息,当这一创新产品成功推向市场时,对传统web用户的信息获取方式带来了一次突破。用户通过点击树形目录来查找自己想找的网站信息,信息通过简单的过滤分类和聚合,第一次实现了从海量数据中的用户信息查询。虽然Yahoo的技术革新与现在的互联网搜索引擎相去甚远,但是它顺应了互联网用户对信息获取准确性和高效性的迫切需求,Yahoo搜索的巨大成功极大地激励了各个互联网公司的技术革新,各种搜索技术和公司如雨后春笋般不断呈现。在互联网企业的激烈竞争中凭借着在搜索引擎技术方面的强大领先地位,互联网第一的交椅也从Yahoo I顷利交接到Googte的手中。
搜索引擎技术现阶段主要可以分为三大类
(1)全文索引:分析处理互联网上各个网站的信息(以网页文本信息为主),将相关数据存入数据库中,利用用户查询的关键词及相关条件快速高效地从数据库中查找用户需要的web信息,少卞按照各个搜索引擎的评分原则对查询命中的web进行评估打分,最后按照得分的高低顺序返回结果。
按照web信息的来源划分,全文搜索引擎又可以被划分为两大类,首先第一类借助互联网检索程序,也就是俗称的“蜘蛛”Spider程序从互联网上收集大量的web网站数据,在分析处理数据的基础上建立网页数据库,搜索结果按照索引规则从数据库中调出,大型的互联网公司比如 Google采用这一类技术;另一类技术则是从节约成本的角度,采取租用其他搜索公司的数据库的方式,省去对web数据的收集整理和存储工作,用户检索和检索算法需要的web数据皆来自第三方的数据库。搜索引擎按自定义的排序规则输出结果,Lycos搜索引擎便采用这种技术。
(2)目录索引:采用人工对web上的网站进行筛选评估,这一操作完全依赖手工进行。网站发布者将网站发布到互联网以后,目录编辑人员会浏览你的网站,并根据网站的来源、地域、主题和面向受众等对网站进行分类评估,满足一定的条件以后添加你的网站进入目录系统,目录系统中的网站一记录由多维索引进行维护,多维索引依赖不同的门类对记录进行分类。进行查询信息时,可以借助关键词在索引中查找相关记录,也可以按门类输出所有记录。
(3)推送搜索引擎:也叫Propelling搜索,是指搜索引擎搜集记录用户的行为,用户连接互联网以后,通过用户cookie或者用户登录信息识别用户,据此推送搜索引擎按照用户以往上网习惯进行个性化的信息推送服务,即用户接入互联网以后,搜索引擎自动选择用户需要的信息推送给用户,用户不需任何操作便可以得到自己想要的信息。实现上网冲浪的自动化和智能化。
2.搜索引擎的发展趋势
搜索引擎已经深入每一个互联网用户的生活,并成为一个重要的研究开发领域。搜索引擎是一个动态的系统,其中包含了云计算,信息采集、机器学习、分布式存储、数据挖掘、自然语言处理、计算机网络、数据聚类分类等很多领域的理论和技术。而在数据急速膨胀的今天,对搜索引擎的研究和改进具有很巨大的现实意义。从1995年到2011年存储设备的价格下降了99%,而信息量增长则成指数膨胀截止2010年,互联网上的网站信息己经达到100亿P,预计到达2015年互联网的信息量还将增加1000倍。尤其在云计算技术的推动下搜索引擎这种高效便捷的信息获取方式将在未来相当长的一段时间内保持热门地位。未来的搜索引擎必将合理借助云的存储和运算能力,依赖互联网庞大用户群和巨大的市场前景,搜索引擎将会产生巨大的经济价值,2010年福布斯杂志预计一到2015年直接或间接由互联网技术产生的GDP将会超过全球GDP的30%,整合当前技术快速抢占新兴市场的竞争己经在各大互联网公司展开。在计算机科学领域和信息产业界的高度关注下,下一代的搜索引擎的竞争必定在高效性、准确性和预估性上展开。
第三章 系统详细.............39-54
3.1 系统选型............. 39-40
3.2 高效分词算法............. 40-42
3.3 词频统计的............. 42-45
3.4 文档去同质化............. 45-48
3.5 用户个性化............. 48-53
3.6 预处理加速............. 53-54
第四章 推送信息服务设计............. 54-65
4.1 关键词库的编码............. 54-56
4.2 基础关键词库............. 56
4.3 拓展关键词库............. 56-58
4.4 推送搜索算法............. 58-65
4.4.1 搜索性能............. 58
4.4.2 推送搜索算法基本............. 58-59
4.4.3 基本概念介绍............. 59-62
4.4.4 主题相关搜索............. 62-65
第五章 系统应用............. 65-72
5.1 运营商内部数据............. 65-67
5.1.1 基本检索............. 65
5.1.2 高级检索............. 65-66
5.1.3 检索结果............. 66-67
5.2 外围数据检索............. 67-69
5.2.1 基本检索............. 67
5.2.2 高级检索............. 67-68
5.2.3 检索结果............. 68-69
5.3 词频统计查询............. 69-71
5.3.1 热门词汇............. 69-70
5.3.2 用户关注热点............. 70-71
5.4 热门网页............. 71-72
总结
个性化的推送搜索引擎适应了web3.0的发展,其为用户提供智能化、个性化和自动化的信息服务是搜索引擎的发展方向。本系统为运营商市场开发人员和管理决策人员提供优质高效的信息服务,有效提高了运营商队市场与客户变化的反应速度,为运营商的产品设计、市场规划和战略决策提供了完美的数据支持。相信随着软硬件的不断发展,个性化的推送系统将会推广到互联网应用的各个方面。在系统需求分析、系统设计和系统测试的每个阶段,都与运营商进行了深入透彻的合作。针对运营商具体的需求方案和业务特点结合数据分析与挖掘的理论基础,论述了个性化推送搜索引擎的理论和具体实现过程。
本课题设计的系统己经进入到用户测试阶段,在用户测试过程中系统取得了较好的运营表现,在长时间的运营过程中没有发生系统宕机和重大漏洞,系统新增的功能也已经开始研发,以后系统将会逐步完善。系统开发是有实验室团队牵头,在某电信运营商的支持与帮助下进行的,在系统的需求分析阶段我