市场营销论文栏目提供最新市场营销论文格式、市场营销硕士论文范文。详情咨询QQ:1847080343(论文辅导)

搜索引擎下Web分类技术探析

日期:2018年01月15日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:1405
论文价格:150元/篇 论文编号:lw201209241945306479 论文字数:50400 所属栏目:市场营销论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
bsp; 3.2.1 Web 页面采集策略 24-25
        3.2.2 多线程处理 25-27
    3.3 信息抽取 27-30
        3.3.1 信息抽取概述 27-29
        3.3.2 数据抽取评价指标 29-30
    3.4 基于 DOM 的........... 30-38
        3.4.1 DOM 30-32
        3.4.2 HTML 解析 32-36
        3.4.3 Web 信息抽取 36-38
4 基于改进的决........... 38-51
    4.1 文本预处理 38-40
        4.1.1 分词 38-39
结论 56-57
参考文献 57-62
在学研究成果 62-63
致谢 63

结论
    本文首先介绍了Web文本分类的国内外研究现状,阐述了关于文本分类的理论基础及其关键技术,如文本表示模型、特征选择、分类方法等。在Web的采集阶段,分析了Web的基本结构和特点,如Web文本信息特点、Web的组织结构、页而信息和网页的噪音等,阐明了采集Web页而的方法和采集策略。
    信息抽取是Web页而采集后重要的预处理过程,在文中介绍了信息抽取的相关概念和现在流行的信息抽取方法,本文在学习总结前人有关Web分类知识的基础上,针对Web文本的布局结构特点,对网页进行分块处理,并提出了基于信息块位置不同的去噪方法,有效去除网页噪音,最后利用DOM模型提取网页文本信息。