搜索引擎下Web分类技术探析 (第2页) - 市场营销

搜索引擎下Web分类技术探析

日期：2018年01月15日编辑：ad201107111759308692 作者：无忧论文网点击次数：1405

论文价格：150元/篇论文编号：lw201209241945306479 论文字数：50400 所属栏目：市场营销论文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

bsp; 3.2.1 Web 页面采集策略 24-25
        3.2.2 多线程处理 25-27
    3.3 信息抽取 27-30
        3.3.1 信息抽取概述 27-29
        3.3.2 数据抽取评价指标 29-30
    3.4 基于 DOM 的........... 30-38
        3.4.1 DOM 30-32
        3.4.2 HTML 解析 32-36
        3.4.3 Web 信息抽取 36-38
4 基于改进的决........... 38-51
    4.1 文本预处理 38-40
        4.1.1 分词 38-39
结论 56-57
参考文献 57-62
在学研究成果 62-63
致谢 63

结论
本文首先介绍了Web文本分类的国内外研究现状，阐述了关于文本分类的理论基础及其关键技术，如文本表示模型、特征选择、分类方法等。在Web的采集阶段，分析了Web的基本结构和特点，如Web文本信息特点、Web的组织结构、页而信息和网页的噪音等，阐明了采集Web页而的方法和采集策略。
信息抽取是Web页而采集后重要的预处理过程，在文中介绍了信息抽取的相关概念和现在流行的信息抽取方法，本文在学习总结前人有关Web分类知识的基础上，针对Web文本的布局结构特点，对网页进行分块处理，并提出了基于信息块位置不同的去噪方法，有效去除网页噪音，最后利用DOM模型提取网页文本信息。