市场营销论文栏目提供最新市场营销论文格式、市场营销硕士论文范文。详情咨询QQ:1847080343(论文辅导)

企业公司级搜索引擎优化策划和执行

日期:2018年01月15日 编辑:ad201203011400045776 作者:无忧论文网 点击次数:1050
论文价格:150元/篇 论文编号:lw201209201159397156 论文字数:45600 所属栏目:市场营销论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

第一章绪论

1.1引言

    在信息化飞速发展的今天,无论是企业、政府、学校等组织内部还是外部都存在着多种信息源。互联网上的信息量巨大,而组织内部存在的知识文档数量也正呈爆炸性趋势增长。在这种状况下,能在组织内更快、更准确的搜寻自己需要的信息具有现实的意义。研究和实现企业级搜索引擎优化和提取技术,将使得各个组织能从有限的资源里面搜集到更多的信息,从而实现对企业内外部数据的高效获取和有效组织。
    据2010年1月中国互联网络信息中心(cmc)发布的《第二十五次中国互联网络发展状况统计报告》m,截至2009年12月31日,中国网民规模达到3.84亿人,普及率达到28.9%。网民规模较2008年底增长8600万人,年增长率为28.9%,中国网民规模增长有所放缓。
    从表1-1中可以看出,目前已有73.3%的网民在使用搜索引擎,即2.81亿的人群从搜索引擎中受益。其位列于网络应用使用率排名的第三位,仅次于网络音乐和网络新闻。
    就目前而言,简单的文本结果已逐渐不能满足检索用户的需求,需要从精度与广度对检索结果进行深化的挖掘。个性化、社区化检索是从用户角度对用户检索习惯进行分析,重新组织结果,从而提高检索结果的精度;而广度即是对每个检索结果提供更多的可用信息,而不只是传统的标题(Title)、摘要(Summary)与URL的提取,还可以用图片、资源发布时间等,对检索结果进行一系列的扩展,使用户得到更多关于资源的信息,从而更准确地定位自己所需要的资源。
    而企业级搜索引擎是面向各组织、机构专门信息网的专网搜索引擎,需要处理的资源总量不如互联网搜索引擎,但是资源繁杂,对信息的需求也远远不止于简单的检索结果,还需要结合搜索、数据库查询、语义与句法的分析、分类与聚类、相关性分析等技术整合资源,提炼出更具价值的数据支持。
    从上可以看出,企业级搜索引擎需要更多、更为准确的信息提取技术,而企业级搜索引擎的资源数量有限也为信息提取在时间复杂度上的容忍提供了可能,这也就是本文的立足点。

1.2企业级搜索引擎现状研究

1.2.1搜索引擎发展现状
    1951年,Calvin Mooers首次提出了“信息检索(Information Retrieval,  IR)”这一概念,并界定了信息检索需要解决的问题:信息检索是信息的潜在用户将信息需求转换为一张文献来源信息列表的过程或方法,而这些文献包含有对其有用的信息。信息检索涵盖了对信息的描述以及为了查询而对信息进行的规范化工作,还涵盖了用于进行检索操作的任何系统、技术和机器[f2l0
    现在的搜索引擎按照其工作方式,主要可分为目录索引类搜索引擎、全文搜索引擎和元搜索引擎:
    C1)目录索引类搜索引擎:虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词C Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open DirectoryProject CDMOZ), LookSmart等;
    C2)全文搜索引擎:它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。全文搜索引擎中最具代表性的有Google·百度等;


摘要 5-6
Abstract 6
第一章 绪论 9-14
    1.1 引言 9-10
    1.2 企业级搜索引擎现状研究 10-13
        1.2.1 搜索引擎发展现状 10-11
        1.2.2 企业级搜索引擎...........  11-12
        1.2.3 企业级搜...........  12-13
    1.3 本文的主要工作 13
    1.4 本文的组织结构 13-14
第二章 相关技术研究 14-27
    2.1 搜索引擎的基本架构 14-16
    2.2 信息抽取 16-18
        2.2.1 信息抽取的基本概念 16-17
        2.2.2 信息抽取........... 17-18
    2.3 Lucene 索引 18-21
        2.3.1 Lucene 索引介绍 18
        2.3.2 Lucene 索引结构 18-20
        2.3.3 多文件........... 20
        2.3.4 复合索引结构 20-21
    2.4 文本聚类 21-23
    2.5 相关的JAVA 技术 23-26
        2.5.1 Servlet 23-24
        2.5.2 AJAX 24-26
    2.6 本章小结 26-27
第三章 系统总体设计 27-38
    3.1 设计目标 27
    3.2 系统的总体架构和工作流程 27-29
    3.3 系统 各模块的实现 29-37
        3.3.1 系统的...........  29-30
        3.3.2 系统的分析模块 30-31
        3.3.3 系统的........... 31-32
        3.3.4 系统的检索模块 32-33
        3.3.5 用户接口 33-37
    3.4 本章小结 37-38
结论 52-54
参考文献 54-57
致谢 57

结论
        在信息化飞速发展的今天,无论是企业、政府、学校等组织内部还是外部都存在着多种信息源。互联网上的信息量巨大,而组织内部存在的知识文档数量也正呈爆炸J险趋势增长。在这种状况下,能在组织内更快、更准确的搜寻自己需要的信息具有现实的意义。研究和实现企业级搜索引擎优化和提取技术,将使得各个组织能从有限的资源里面搜集到更多的信息,从而实现对企业内外部数据的高效获取和有效组织。基于这个前提,本文在校内企业级搜索引擎的性能和功能上作了一定的扩展,其目的在于提高系统的可用性,并为用户提供更好的用户体验和访问效率,提高检索效果,主要的论文工作和结论如下:
1、系统的总体优化
    为了增加系统的稳定性与可用性,本文从爬虫的控制优化,页面去重,索引字段的设计等方面,对校内企业级搜索引擎进行讨论,并给出了对应的方案。这些方案虽然有一定的局限性(如文中所述),但是对于以后系统的扩展具有相当的参考价值。