3.2.2 多线程处理 25-27
3.3 信息抽取 27-30
3.3.1 信息抽取概述 27-29
3.3.2 数据抽取评价指标 29-30
3.4 基于 DOM 的........... 30-38
3.4.1 DOM 30-32
3.4.2 HTML 解析 32-36
3.4.3 Web 信息抽取 36-38
4 基于改进的决........... 38-51
4.1 文本预处理 38-40
4.1.1 分词 38-39
结论 56-57
参考文献 57-62
在学研究成果 62-63
致谢 63
结论
本文首先介绍了Web文本分类的国内外研究现状,阐述了关于文本分类的理论基础及其关键技术,如文本表示模型、特征选择、分类方法等。在Web的采集阶段,分析了Web的基本结构和特点,如Web文本信息特点、Web的组织结构、页而信息和网页的噪音等,阐明了采集Web页而的方法和采集策略。
信息抽取是Web页而采集后重要的预处理过程,在文中介绍了信息抽取的相关概念和现在流行的信息抽取方法,本文在学习总结前人有关Web分类知识的基础上,针对Web文本的布局结构特点,对网页进行分块处理,并提出了基于信息块位置不同的去噪方法,有效去除网页噪音,最后利用DOM模型提取网页文本信息。