Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\7nVvo1xbzKJJkZYdzqyiZKNaZ7BsUcn8LeSWa4o6 in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\LQiUKbAUFFP2UFysrn81TF7yILGTctFAePOLEdDR in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\btvVxIa72Oma1yvVruy4RL27adW43rSiWTsbhqMo in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\tDBvqItqSWDWeSVv7DdruSWVxzOONSQa7raG4qSv in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\tKXqdMEh1keG5MccAuxZF1dA2HQPhk56lg1fbEVf in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64
教育讯息垂直搜索引擎优化探析 - 市场营销 - 无忧论文网

市场营销论文栏目提供最新市场营销论文格式、市场营销硕士论文范文。详情咨询QQ:1847080343(论文辅导)

教育讯息垂直搜索引擎优化探析

日期:2018年01月15日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:1089
论文价格:150元/篇 论文编号:lw201211241332187754 论文字数:52000 所属栏目:市场营销论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

第1章绪论

1. 1研究背景与意义

    网络科技的迅速发展的结果,带来了大量的社会信息量的增加,因特网在全世界以史无前例的速度迅速发展,规模不断扩大。这样带来了两方面的影响:一方面是人类所拥有的信息资源空前的丰富;另一方面是如何从这些大量的信息中获取有效成分成为了很大的难点。从大量的网络信息资源中获取信息就变得越来越难,需要快速准确,这种需求也变得越来越重要。用户查找所需资源的难度变得越来越大,如何检索和查询到这些用户所需的信息资源迫在眉睫,就在此时搜索引擎技术的出现解决了这一难题。搜索引擎技术在这样的背景下显现,它处理人们在因特网上查找信息、定位信息的问题,整合了因特网上的大量信息资源,为用户提供相关的信息检索和查询服务,在相当大的程度上解决了这一瓶颈问题。搜索引擎是一种用来为用户提供相关的信息检索服务的系统,一般是有特定的算法策略、特定的程序,搜集互联网上的信息,对结果进行处理和组织以后,将结果发送给用户的客户端来进行显示。因为搜索引擎能够从各式各样的网络资源中查找到用户所需要的信息,随着网络科技的不断发展,搜索的相关技术也在不断的发展,搜索引擎已经成为人们口常生活中必备的重要工具,在网络应用中呈现出迅猛的发展势头CNNIC(中国互联网信息中心)的《第27次中国互联网络发展状况统计报告》在北京十2011年1月19口发布,报告显示,截止到2010年年底,中国所拥有的网民数量达到4.57亿;域名总数达到866万,网页数量达到600亿个,网站数量达到191万,2010年年增长率达到了78.6%而这其中每个站点所拥有的页面平均数量有3000多个;我们最关心的是搜索引擎使用率达到81.9%所拥有的用户数量达到了3.75亿
    上面的数据充分显示出搜索引擎的重要性,随着网络的不断发展,其中重要程度和被依赖的程度还会不断的增加。

1.1.1搜索引擎发展
    所有搜索引擎的始祖,1990年由McGill University的二名学生开发了可以用文件名查找文件的Archie o Archie还不是真正的搜索引擎,受到Archie启发,1993年开发出了Gopher搜索工具。很快,第一个用十互联网上进行信息搜索的程序一互联网爬虫C Spider)出现了。1994年,搜索引擎的先驱者Yahoo公司带来了一场搜索风暴,开发出了一种可以利用网站分类目录进行查询的模式,用户可以通过层层点击来查询目的网站,成功的进行了网络信息检索。因为其数据需要手工输入,事实上只是一个可搜索的目录,所以还不能真正归为搜索引擎。
    1995年,出现了兀搜索引擎。兀搜索引擎的概念是用户提交一次请求后,多个事先选好的独立搜索引擎在兀搜索引擎的控制下来进行事物的处理,最终兀搜索引擎再集合各返回结果,但搜索效果却不甚理想。由十互联网用户对搜索的各种迫切需求不断上升,如准确性和效率,使得各种搜索技术不断革新,也孕育了一些大的搜索引擎公司,其中最著名的有百度C Baidu、谷歌(Google ) o随后产生了智能检索,它综合考查文献的重要性等指标,以文献和相关检索词所计算出的相关度为基础,对检索结果进行排序,以提供更高的检索效率。在经历了海量搜索、高准确、高匹配等几个阶段后,个性化发展是搜索引擎的又一个必然发展方向。具体表现在:用户的年龄、职业、爱好、感兴趣的领域等各有不同;用户由十搜索引擎的查询接口的不足或相关知识的欠缺,无法明确表达心中的想法;用户在不同的时期对相同的词进行检索应能对应不同的检索结果,以满足用户的不同需求。所以如何设计一套用户反馈系统至关重要
    一、国外主要搜索引擎
    本小节对国外比较著名并有一定代表性的搜索引擎作了简单的介绍。
      1 .A1taVista
      A1taVista是全球最知名的网上搜寻引擎公司之一,同时提供搜寻引擎后台技术支持等相关产品。它十1995年由迪吉多公司创立。由十使用了DEC Alpha服务器,是一个以网页全文检索为主、同时提供分类目录的搜索引擎。内容极其丰富,真正可以称上海量信息检索。A1taVista可以进行常规搜索、高级搜索和主题搜索,包括图像、音频、视频等。
      2.  HotBot
    HotBot具有界面组织和丰富的检索功能。对进行WEB页面检索,提供了直观的图形化检索菜单功能,可以按照口期、地理区域或媒体类型进行限制性搜索。HotBot还提供域名检索、新闻搜索、新闻讨论组等检索服务。
      3.  Yahoo
    A1taVista和HotBot是自由词搜索引擎,而 Yahoo则属十分类搜索引擎。Yahoo除了提供所有网站网页的全文检索服务,还将其收集到的网站及网页分门别类加以索引和文摘,雅虎是全球第一家提供因特网导航服务的网站。Yahoo比较适合十一般的查询。Yahoo由人工索引对数据库进行分类,冗余较少。Yahoo还会自动地将查询不到结果的查询交给A1taVista,由后者作进一步的检索。由十Yahoo的分类库是由人工维护的,也不提供全文关键词检索服务,因此对十较为专业偏僻的查询很难提供满意的结果。

 

第2章 搜索引擎及............. 16-24
    2.1 搜索引擎............. 16-17
    2.2 倒排序原理............. 17-18
    2.3 元搜索引擎............. 18-19
        2.3.1 元搜索引擎............. 18
        2.3.2 元搜索引擎的............. 18-19
    2.4 聚类技术方法............. 19-24
        2.4.1 聚类算法............. 20
        2.4.2 聚类分析的............. 20-23
        2.4.3 聚类结果............. 23-24
第3章 垂直搜索方法............. 24-35
    3.1 垂直搜索引擎体............. 25-26
    3.2 垂直搜索引擎............. 26-35
        3.2.1 中文分词 .............28-30
        3.2.2 网页排序算法............. 30-35
第4章 LUCENE 的相关技术.............35-43
    4.1 LUCENE 简介............. 35-36
    4.2 LUCENE 的系统............. 36-38
    4.3 在 LUCENE 中............. ICTCLAS 38
    4.4 LUCENE 索引............. 38-40
    4.5 LUCENE 的搜索............. 40-41
    4.6 LUCENE 检索结果............. 41-43
第5章 教育信息垂直............. 43-60
    5.1 功能模块............. 43-55
    5.2 系统体系结构............. 55-56
    5.3 系统处理流程............. 56-57
    5.4 系统用例分析............. 57-60


结论与展望
    搜索引擎这个名称来自十它的英文名称:Search Engine言下之意,它是一种查询信息的发动机。可以说,整个搜索引擎的发展历史就是Internet网络的发展历史,因为网络用户一直存在着从大量网络信息中获取自己所需信息的需求,而 这种需求随着Internet的快速增加而口渐迫切。
    搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后