语言学论文栏目提供最新语言学论文格式、语言学硕士论文范文。详情咨询QQ:1847080343(论文辅导)

面向中文信息处理的数量模糊限制语识别探讨

日期:2021年12月24日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:762
论文价格:150元/篇 论文编号:lw202112081048359626 论文字数:62522 所属栏目:语言学论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
相关标签:语言学论文
,"含有","达","等于","包含","值","相当于","花费","提高","增加","增长","高出","长出","贵","隔","减少","减小","下降","降到","加快","回缩","分","裁剪","成","出现","发生","发行","距","隆起","歼敌","年产","溶解","生产","年产","死亡","析出","近","发生","分泌","使","用","只有","得","仅","以","经","从","经","比","高","低","宽","轻","多","少","长","短","大","小","深"} #“约”后接词集一#

为方便计算机理解和操作,我们对数量模糊限制语的规则进行了形式化表述,构建了它们各自的规则集。我们为每一个规则都制定了标号,如 Rule1 表示第一个规则,以此类推。其中 Rule1~Rule8 表示本文中八个数量模糊限制语各自的规则,Rule9~Rule12表示数值型数量模糊限制语(分为前加数值型和后加数值型两类)、非数值型数量模糊限制语、数值和非数值兼有型数量模糊限制语三个类别的整体识别规则。

语言学论文参考


第七章 结语

为提高中文数量模糊限制语识别准确率,促进信息抽取的发展,本文从中文信息处理的角度,通过自建语料库,对高频数量模糊限制语进行了较为深入的穷尽式的考察。在语料库在线和 BCC 语料库中随机抽取了部分语料构建了一个具有 62000 句语料规模的语料库,其中包括原始研究语料 16000 句,扩展语料 35000 句,验证语料 11000 句。

通过参阅前人的研究成果,对数量模糊限制语进行了重新定义,并根据研究对象的语法特点,提出了一套有助于计算机识别的分类方法,将本文中的八个数量模糊限制语“左右”“约”“以上”“许多”“一些”“大量”“多”“几”分为了数值型数量模糊限制语、非数值型数量模糊限制语以及数值和非数值兼有型数量模糊限制语。

在自建语料库的基础上,从句法位置、固定搭配和邻接字符串三个方面分别对涉及到的三类数量模糊限制语的语料进行了量化分析,从中得出了八个高频数量模糊限制语各自的识别规则,并在此基础上总结出其所属类别数值型、非数值型、数值和非数值兼有型数量模糊限制语的总的识别规则。最后,对这些规则进行形式化的表达以及人工验证,结果表明这些数量模糊限制语的识别正确率较高,均在 95%以上,识别效果较好。此外,本文还详细分析了可能影响该验证结果的三个内外因素。

本文的研究成果可能会在一定程度上辅助计算机的识别,但是仍存在一些问题有待后续解决。首先,由于时间有限,本文构建的语料库规模相对较小,且具有一定的封闭性,对“左右”“约”等扩展语料的考察以及“许多”“一些”词表的总结难免出现遗漏,影响数量模糊限制语的识别准确率。其次,我们提取的识别规则对现有语料库的依赖性较强,有些规则之外的语言事实可能考察不到。再者,汉语语言灵活多样,一般的规则可能并不适用,而且有些语言现象需要跨句考察,这就需要再增加一些特殊规则辅助处理,这些因素都增加了计算机的识别难度。希望在今后的研究中继续扩大语料库规模,增加更多的文本类型,挖掘更多更新的语言现象,补充完善现有规则,进一步提高识别效能。

参考文献(略)