基于语义指纹和Simhash的文本去重方法探讨与实现 (第2页) - 软件工程硕士

基于语义指纹和Simhash的文本去重方法探讨与实现

日期：2022年01月06日编辑：ad201107111759308692 作者：无忧论文网点击次数：668

论文价格：150元/篇论文编号：lw202112281010503913 论文字数：33256 所属栏目：软件工程硕士论文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

行分词处理；二是判重模块，判断分词后文本的相似性；三是入库模块，该模块将去重的文本数据导入数据库。

软件工程硕士论文参考

第 6 章总结与展望

6.1 总结

本文提出一种基于语义指纹和 Simhash 的中文文本快速去重方法。根据中文文本的特点，在 Simhash 算法的基础上改进了中文文本的语义指纹生成方法，并结合 single-pass 快速聚类算法对语义指纹进行快速聚类，实现了中文文本的快速重复数据去除过程。同时，在实验过程中，从算法运行速度、精度、鲁棒性等方面与 Shingle 算法进行了比较，证明了该方法的优越性。本文的方法还有待于进一步的改进，在后续的研究中将进一步探讨分布式环境下文本语义指纹值的计算。另外，文本和其他文本都存在大量的噪声，因此有必要进一步研究中文文本的特征提取方法，以优化语义指纹计算。

尽管本文研究取得了一定的成果，但汉语作为一门非常复杂的语言和不断变化的语言环境，还有很长的路要走。首要的研究问题是如何使文本去重算法的生命周期和范围尽可能长。

本研究对直接或明确与标题相关的文献有较好的效果。然而，对于汉语这种大量隐喻、指称或虚假指称的语言来说，在很多情况下，标题不能直接指向本文所表达的中心思想和意义。在这一点上，有必要在今后的研究中挖掘更多的文档语义特征信息。对于语言的处理对象来说，用机械计算机来处理灵活的信息是一个很大的挑战。如何使程序具有学习功能，适应更多的环境，是每个学科都必须面对的问题。

参考文献（略）