本文是一篇语言学论文,本文的研究成果可能会在一定程度上辅助计算机的识别,但是仍存在一些问题有待后续解决。首先,由于时间有限,本文构建的语料库规模相对较小,且具有一定的封闭性,对“左右”“约”等扩展语料的考察以及“许多”“一些”词表的总结难免出现遗漏,影响数量模糊限制语的识别准确率。其次,我们提取的识别规则对现有语料库的依赖性较强,有些规则之外的语言事实可能考察不到。再者,汉语语言灵活多样,一般的规则可能并不适用,而且有些语言现象需要跨句考察,这就需要再增加一些特殊规则辅助处理,这些因素都增加了计算机的识别难度。希望在今后的研究中继续扩大语料库规模,增加更多的文本类型,挖掘更多更新的语言现象,补充完善现有规则,进一步提高识别效能。
第一章 绪论
1.1 选题依据
模糊话语广泛存在于自然语言之中,当说话人无法提供或不愿提供某些确定的信息时,往往会有意使用模糊限制语来缓和语气或使言语表达更为客观稳妥。Lakoff(1973)最先提出模糊限制语这一概念,即把内容变得模糊或更不模糊的词语,包含模糊限制语的信息属于模糊限制信息,即不确定信息。
不确定信息的识别对计算机的语义理解和消歧具有十分重要的意义和作用,而不确定信息的识别又在极大程度上依赖于模糊限制语的识别,可见模糊限制语的识别是十分重要且必要的。就目前的研究而言,中文模糊限制语的研究大多集中于理论层面,从计算机识别角度研究的还比较少,且多是利用算法和模型进行研究,虽取得了一定的成果,但在语义的识别和消歧问题上还存在一些难以解决的困难,识别效果尚不理想,准确率还有待于提高。
数量模糊限制语作为模糊限制语的一个小类,可以对话题真值产生一定程度的影响,且在自然语言文本和日常交际中使用广泛,因此具有较高的研究价值。
1.2 研究目的及意义
1.2.1 研究目的
词语在不同语境中表达的意义是有差别的,模糊限制语也并不是在所有情况下都表示模糊语义,需要根据不同的上下文语境进行语义的判断识别,如“二十岁左右”中的“左右”就是数量模糊限制语,它表示了一种数量上的不确定性;而“左右两侧”中的“左右”就不是模糊限制语,它不表示模糊性,只单纯地表示方位,可见语境的不同可能会导致歧义的出现,因此有必要对模糊限制语进行语义识别和词义消歧,以便提高计算机的识别效率。而现有研究在模糊限制语的语义识别和词义消歧效果方面还不太理想,因此本文拟针对现有研究的不足之处,结合语言学理论和计算机处理方法从语言学本体方面对中文数量模糊限制语的识别规则进行探究,并提出形式化的建议,希望对提高计算机识别效能有所帮助。
1.2.2 研究意义
数量模糊限制语及其模糊限制信息广泛存在,能够深入语言学本体,对它们进行深层语义的识别规则的研究,不仅可以在某种程度上帮助机器解决识别方面的问题,提高识别准确率,还能进一步促进信息抽取研究的发展,提高信息提取的准确性和可靠性。作为信息检索的关键一步,它们的识别具有极其重要的研究意义和应用价值。
随着计算机处理技术的迅速发展和人工智能的不断深入,越来越多的研究领域开始重视不确定信息和事实信息的抽取,如文本挖掘、情感分析、观点检测、问答系统等,这就使得模糊限制信息的识别变得越来越重要。如果机器能最大程度地准确理解并识别语言中的模糊语义,就可以迅速从大量信息中甄别并排除不确定性信息,从而获取具有较高信息价值的确定信息或事实信息。由此可见,不论是机器识别还是应用研究,模糊限制语的识别均存在研究上的必要性和迫切性。
第二章 数量模糊限制语的定义和分类
2.1 数量概说
“数量”广泛存在于我们的日常生活中,是我们认知世界和反映世界的重要因素。学者们也各自从自己的研究角度出发对“数量”进行了多方面的探讨。经过梳理,笔者发现学界在对“数量”概念的理解以及表现方式上存在较大的分歧,相当一部分人将“数量”与“程度”“量”两个概念相混淆,在术语的使用上也较为混乱,对三者之间的关系也缺乏相对清晰的认识。尤其是在“数量”和“量”两个概念上,许多学者难以区分,而直接将“数量”等同于“量”,这其实是将数量的范围扩大化了。因此,理清“数量”的概念、表现方式以及它与“量”和“程度”之间的关系对本文的研究十分重要。
2.1.1 数量与程度、量之间的关系
《现代汉语词典(第 7 版)》对数量、程度、量作了如下定义:
【数量】名,事物数目的多少:要保证~,也要保证质量。
【程度】名,①文化、教育、知识、能力等方面的水平:文化~|自动化~。②事物变化达到的状况:天气虽冷,还没有到上冻的~。
【量】①古代指测量东西多少的器物,如斗、升等。②能容纳或禁受的限度:饭~|气~。③数量;数目:降雨~|饱和~|质~并重。④估计;衡量:~力|~才录用。
从释义来看,三者的差别比较明显,可它们在作为范畴来使用时,又容易发生混淆,或彼此并列,或彼此包含……目前为止,还尚未形成一种相对公认的看法,这也成为目前研究中的一大难题。
吕叔湘(1942)在《中国文法要略》中将“数量”看成是一种范畴来讨论,但并未对此给出一个明确的概念,此外他还认为程度范畴隶属于数量范畴,“只是就一般情形而论,程度的表达只能借用一部分数量词来活用”①。
李宇明(2000)认为数量和程度都属于量范畴的一种情况,一个称为“精确的量”,一个称为“度量”,只不过,有的“程度”可以量化为“数量”。
全湘燕(2006)对数量范畴进行了梳理,并建立了一个新的类别系统,将数量范畴分为了数量和级量(级范畴),数量又分为了数范畴和量范畴。这其实是将数量范畴和量范畴的概念混淆了,实际上,该作者已经将“数量”等同于“量”了。
2.2 定义
2.2.1 模糊限制语的定义
模糊限制语的概念一经提出,便逐渐引起了学者们的关注,随着人们对模糊限制语认识的不断发展,模糊限制语的定义也经历了一个不断完善的过程。Lakoff(1973)最先对模糊限制语进行了界定,认为其是“words whose job is to make things fuzzier or lessfuzzy”②,并通过举例重点对 sort of,regular 等典型的模糊限制语进行了详细说明,且对比了使用模糊限制语、不使用模糊限制语以及使用不同的模糊限制语产生的不同的表达效果。
Crystal(1997)基于语用视角,把模糊限制语界定为“一组表达不确定概念或限定条件的语言元素”③,并列举了 sort of,roughly,more or less 等几个例子进行了简单说明。
Channel(2000)将模糊限制语理解为能够影响说话者或作者表述内容的真值程度的词或表达形式,④并借助于实际语料对不同语境中的模糊限制语进行了讨论分析。
何自然(1985)借鉴了 Lakoff 的定义,对模糊限制语进行了较为详细地讨论,他认为模糊限制语就是那些不能使听话人获取确定信息的词语以及能够表达说话人主观推测或犹疑的词语。
苏远连(2002)在 Lakoff 定义的基础上,对模糊限制语进行了重新界定,即“限制模糊词语的模糊程度或使精确词语变模糊的词语”②。
黎千驹(2007)认为模糊限制语是既可以修饰限制模糊中心词又可以修饰限制明晰中心词以改变中心词模糊程度的词语。
从目前的研究来看,模糊限制语并未形成一个明确的统一的定义,学者们各自从自己的研究领域和研究角度出发探讨了对模糊限制语的认识。综上,本文在前人研究成果的基础上,对模糊限制语提出了一个较为明确的定义,即模糊限制语就是具有改变事物模糊程度功能的能够影响话题真值的或表达说话人的主观猜测、提出的客观依据从而使话语符合交际需要的词、短语、固定结构等的表达方式。
第三章 数值型数量模糊限制语的识别规则分析.......................................18
3.1 “左右”的识别规则分析..............................18
3.1.1 预处理.................................18
3.1.2 句法位置分析..................................22
第四章 非数值型数量模糊限制语的识别规则分析................................58
4.1 “许多”的识别规则分析.........................58
4.1.1 句法位置分析.............................58
4.1.2 邻接字符串分析.........................60
第五章 数值和非数值兼有型数量模糊限制语识别规则分析.........................82
5.1 “多”的识别规则分析....................................82
5.1.1 句法位置分析..................................82
5.1.2 邻接字符串分析...........................84
第六章 数量模糊限制语的自动识别
6.1 相关概念
为方便描述规则以及编写程序,本文在借鉴相关研究论文的基础上自行定义了一些相关概念,并采用“#”进行注释,符号之间的语句表示注释内容。
我们定义了以下几个变量:
C #候选词#
X #候选词的词性#
QBC,QAC,QC,HC,HAC,HBC #数量模糊限制语的前三个字符与后三个字符#
QBX,QAX,QX,HX,HAX,HBX #数量模糊限制语的前三个字符与后三个字符的词性#
BD={",","。","、",";",":","?","!","(",")","“","”","——","……"} #标点符号集#
YC1={"占","为","有","需","须","是","要","含"