第 6 章 总结与展望
6.1 总结
本文提出一种基于语义指纹和 Simhash 的中文文本快速去重方法。根据中文文本的特点,在 Simhash 算法的基础上改进了中文文本的语义指纹生成方法,并结合 single-pass 快速聚类算法对语义指纹进行快速聚类,实现了中文文本的快速重复数据去除过程。同时,在实验过程中,从算法运行速度、精度、鲁棒性等方面与 Shingle 算法进行了比较,证明了该方法的优越性。本文的方法还有待于进一步的改进,在后续的研究中将进一步探讨分布式环境下文本语义指纹值的计算。另外,文本和其他文本都存在大量的噪声,因此有必要进一步研究中文文本的特征提取方法,以优化语义指纹计算。
尽管本文研究取得了一定的成果,但汉语作为一门非常复杂的语言和不断变化的语言环境,还有很长的路要走。首要的研究问题是如何使文本去重算法的生命周期和范围尽可能长。
本研究对直接或明确与标题相关的文献有较好的效果。然而,对于汉语这种大量隐喻、指称或虚假指称的语言来说,在很多情况下,标题不能直接指向本文所表达的中心思想和意义。在这一点上,有必要在今后的研究中挖掘更多的文档语义特征信息。对于语言的处理对象来说,用机械计算机来处理灵活的信息是一个很大的挑战。如何使程序具有学习功能,适应更多的环境,是每个学科都必须面对的问题。
参考文献(略)