软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于语义指纹和Simhash的文本去重方法探讨与实现

日期:2022年01月06日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:610
论文价格:150元/篇 论文编号:lw202112281010503913 论文字数:33256 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
相关标签:软件工程硕士论文
行分词处理;二是判重模块,判断分词后文本的相似性;三是入库模块,该模块将去重的文本数据导入数据库。

软件工程硕士论文参考


第 6 章 总结与展望


6.1 总结

本文提出一种基于语义指纹和 Simhash 的中文文本快速去重方法。根据中文文本的特点,在 Simhash 算法的基础上改进了中文文本的语义指纹生成方法,并结合 single-pass 快速聚类算法对语义指纹进行快速聚类,实现了中文文本的快速重复数据去除过程。同时,在实验过程中,从算法运行速度、精度、鲁棒性等方面与 Shingle 算法进行了比较,证明了该方法的优越性。本文的方法还有待于进一步的改进,在后续的研究中将进一步探讨分布式环境下文本语义指纹值的计算。另外,文本和其他文本都存在大量的噪声,因此有必要进一步研究中文文本的特征提取方法,以优化语义指纹计算。

尽管本文研究取得了一定的成果,但汉语作为一门非常复杂的语言和不断变化的语言环境,还有很长的路要走。首要的研究问题是如何使文本去重算法的生命周期和范围尽可能长。

本研究对直接或明确与标题相关的文献有较好的效果。然而,对于汉语这种大量隐喻、指称或虚假指称的语言来说,在很多情况下,标题不能直接指向本文所表达的中心思想和意义。在这一点上,有必要在今后的研究中挖掘更多的文档语义特征信息。对于语言的处理对象来说,用机械计算机来处理灵活的信息是一个很大的挑战。如何使程序具有学习功能,适应更多的环境,是每个学科都必须面对的问题。

参考文献(略)