(1) 提出了基于 LDA 主题模型的多特征中文自动摘要方法。首先,在传统文本特征的方法下,我们结合了 LDA 主题模型的特征,因此可以从多个角度判断句子的重要性。其中,根据句子的主题分布和文档的主题分布两者之间的相似性判断文档中句子的重要程度,再结合基本的四个文本特征,加权和计算出句子的得分。若句子得分越高,就说明该句子越能反映文档的主题,那么该句子就可选为候选摘要句。
(2) 提出冗余控制模型。当计算句子得分之后,我们选取得分高的句子作为摘要候选集合。但是在候选集合中容易出现若干个在同一主题上中心思想相同的句子,因此冗余控制模型会对内容重复的句子做出筛选,从而使得摘要的性能指标显著提高。
(3) 实现中文自动摘要系统。本文实现的中文自动摘要系统在 ROUGE 测评中取得了很好的成果,实验结果表明摘要的质量在一定程度上有着明显的提高。实验评价得出的数据说明了基于 LDA 和冗余控制的多特征模型是有效的,并且有助于摘要的生成。
参考文献(略)