第一章 绪 论
1.1 研究对象与选题意义
在现代汉语词汇中,存在大量的“把握”“把持”“把关”“把手”“把势”等由“把”组成的词,这些词都是在“把”之后再加上另一个语素(或其他构词成分)组合而成。在本文中,为了方便理解和行文,我们就将这种由“把”之后再加上一个语素(或其他构词成分)组成而成的结构称为“把 X”,“X”在这里代表“把”之后的语素(或其他构词成分)。然而,在现代汉语里,“把 X”结构是非常多的,“X”可以是单音节的,也可以是多音节的,比如,“把兄弟”、“把玩良久”、“把持不定”等等,鉴于时间和精力有限,也限于篇幅,本文将只选取其中的单音节“X”作为考察对象,也就是说,本文的研究对象是双音节结构“把 X”,而且“把 X”的范围只限于从在《现代汉语词典》(第六版)中选取。“信息处理”在这里指“中文信息处理”,用简单的话说,就是计算机对汉语的字、词、短语等语言单位进行的输入、输出、识别和理解等操作。本文面向信息处理,着重研究如何让计算机对“把 X”进行正确而又高效的识别和切分,换句话说,就是让计算机学会辨认“把 X”是否是词,而我们探讨的就是“把 X”什么情况下是词,什么情况下不是词。经过学者们积极不懈的探索和努力,目前的自动分词也取得一定可喜的成果,但分词精度并不理想。信息处理之所以困难重重,是因为它只能完全依靠有限的词表和有限的规则来辨别字串,现代汉语中还存在大量同形非词字串,它们在很大程度上加重了切分的难度和准确度。
……….
1.2 相关研究
我们先简单介绍“把”的相关研究,然后介绍“把 X”的相关研究,最后介绍信息处理方面的相关研究。“把”字句的研究在相当长的的一段时期内是一个热门话题,不少前贤大师都已进行过积极探索,到目前为止,相关的的本体理论研究和应用研究成果也很丰硕,陆俭明、郭锐曾说过,国内外有关“把”字句的论著(包括未发表的学位论文在内)不下 500 项,80 年代以来有关“把”字句的研究有 300 项左右。“把”字句本体研究主要涉及“把”字句的宾语、动词、语义特征、与相关句式的转换、语用特点、语法意义等,从初期黎锦熙、王力和吕叔湘的“三家学说”到后来的“把”字句的历时演变分析,再到后来朱德熙、宋玉柱等人的相关句式转换的研究,研究成果令人欣喜,不仅如此,彭学修(2005)、席留生(2013)等分别从修辞功能、主观性实现机制来探讨“把”字句,王景荣(2002)等从具体方言中探讨“把”字句………可以说相关的论文角度广、篇幅多,成果甚是可喜。除了“把”字句的本体研究,闻静(2012)、王凤璋(2005)、张梅(2009)等还从第二语言习得和偏误分析的角度探讨了“把”字句,对“把”字句的教学提出了积极的意见。虽然“把”字句的研究很多,但与本文的关系不大。除了“把”字句,“把”的相关句式很多,还有“把+个+NP+VC”(2005 年张谊生)、“我把你这个 NP”(2008 年范会兵)“看+把+NP+X”(2009 年张凤龙)、“把……给 V”(2001 年王彦杰)、“把+O+VR+L”(2012 年唐依力)等相关句式和构式的研究。在现代汉语中,也有为数不少的对词“把”的研究,这些大都集中在不同的方言环境中不同的词性“把”的考察分析,比如,陈娟(2012)考察了表量助词“把”的历时演变和特殊用法,李志忠(2005)论述了北疆方言里虚词“把”的用法,黄晓雪(2006)总结了宿松方言里“把”的处置义和被动义产生的时间过程,胡云晚(2006)总结了洞口方言中给予义动词“把”的频率和相关句式。除此之外,吕叔湘(1984)研究了“把”字用法,高云龙(2011)从认知角度详细考察了“把”的意义,董玉芝(2007)从历时的角度概述了“把”从先秦至今的用法,勾勒出了“把”的概貌………相关论文还有很多,在此不一一赘述。虽然此方面的论文不少,但与本文的研究关系不大。
………..
第二章 “把 X”词频分类
通过对《现代汉语词典》(第六版)的逐一查找,我们提取了 26 个“把 X”双音节词。我们也发现,在《现代汉语词典》中还有像“把兄弟”这样的三音节词,由于篇幅和精力有限,本文暂不对其进行重点考察,只考察 26 个“把 X”双音节词;而且,词典中“把子”是个多音词,鉴于本文的研究目的是对“把 X”的识别,所以只收录为一个词条“把子”。借助相关软件,我们在 2000 多万文本语料中提取了 43306 条含有“把 X”字串的句子1,通过对这些例句的考察,我们发现,有的“把 X”字串在所有文本语料中全部是词,有的“把 X”字串全部不是词,为了对它们有个更好的把握和简便的辨认处理,本章从词频入手进行分类,所谓词频就是某个词在一定语言文本中出现的频率,我们人工逐一排查分析每条例句,对 26 个“把 X”的词频比率统计如下:
……….
2.1 0%词频的“把 X”
由前面我们所得的表 1 来看,表中的“词数”表示的是“把 X”以词的形式在语料文本中出现的次数,考察表 1 我们不难发现,5 个“把 X”的词数都是 0,也就是说,它们在语料库中没出现过词的形式;表中的“总数”代表字串“把 X”在语料库中出现的次数,它们有可能是短语结构,有可能是非句法结构关系;表中的“比率”表示的是“把 X”词占所有“把 X”字串的比重,5 个“把 X”的词频率都是 0%,也就是说它们在我们的语料库中都没有出现过词的形式。
……..
2.2 100%词频的“把 X”
由前面的表 2 来看,表中的“词数”表示的是“把 X”以词的形式在语料文本中出现的次数,表中的“总数”代表字串“把 X”在语料库中出现的次数,它们有可能是短语结构,有可能是非句法结构关系,表中的“比率”表示的是“把X”词占所有“把 X”字串的比重,观察表 2 不难发现五个“把 X”的词频率都是100%,也就是说五个“把 X”字串在语料中全部是词,不存在其他结构关系的情况。“把盏”在语料中出现了 5 次,我们以它为例进行考察如下:(4)龙向光一伙儿缩在家中暗房里唉声叹气,高勇一伙儿聚在酒楼【把盏】欢庆,都与我无关。 只是遗老遗少像江河洄流聚到湾里新锐少壮恣肆汪洋滔滔不绝时,我感到打水漂小男孩的寂寞无聊。 (柯云路_父亲嫌疑人)(5)岛上近来发生的事情在他们的瞳孔里飞来窜去。 不远处,汤狗和熊向魁正各自一边闷闷地【把盏】自斟,独自在石墙的松明子底下黑成一团。但两人的注意力都集中在小声说话的黑汉们身上。 (毕飞宇_这一半)(6)跟小李谈过之后,宋长玉热情地请小李喝了酒。【把盏】之际,小李向宋长玉提了一个要求,让宋长玉顿感不悦。小李说,因红煤厂矿不在矿工报的报道范围之内,写宋长玉的稿子要见报,宋矿长要给矿工报交一点赞助费。 (刘庆邦_红煤)
…………
第三章“把 X名”的辨认分析 ..... 25
3.1“把 X名”的辨认分析 ......25
3.2“把 X名”的词性考察 ......41
3.3“把 X名”的词频考察 ......43
3.4 小结.......44
第四章“把 X动”的辨认分析 ......45
4.1“把 X动”的辨认分析 ......45
4.2“把 X动”的词性考察 ......4
4.3“把 X动”的词频考察 ......50
4.4 小结.......51
第五章“把 X形”的辨认分析 ..... 52
5.1“把 X形”的辨认分析......52
5.2“把 X形”的词性考察......54
5.3“把 X形”的词频考察......55
5.4 小结 ......55
第六章“把 X”辨认规则梳理
前面三章,我们立足语料,考察了“把 X名”、“把 X动”和“把 X形”在不同形式下的句法分布特征,为计算机自动识别“把 X”词挖掘了所需的本体理论知识。本章主要在前面三章的基础上,构建计算机自动识别“把 X”过程中所需的词表;总结概括由非句法结构“把 X”和短语结构“把 X”造成的歧义所需的规则,来从总体上梳理计算机的辨认方法。
6.1 词表构建
根据第二章引言,我们知道本文的研究对象“把 X”共有 26 个,通过 2.1的表 1,发现有 5 个词频为 0,不在研究范围之内,因此,我们的研究对象只有21 个,现把这 21 个“把 X”作为总表,如下:在 2.1 我们发现像“把柄”等几个词的词频为 100%,不存在短语或其他形式,因此,像这些 100%词频的词可以通过词表匹配的方法让计算机进行辨认,无需我们提取规则让计算机辨认它们不同的句法性质,鉴于它们辨认方法的特殊性,我们把它们单独归到一个表里,如下:计算机在信息处理时,可能会遇到不同性质形式的“把 X”,我们现在总结所有用到的辨认规则。文本自动检索“把 X”例句时,我们把此时的规则记为 R0:我们采用最大匹配法,在文本中,依次向右扫描,检测到和表 F0 匹配的“把 X”的例句,输出结果;接着往下扫描,直到扫描结束。我们先把“把 X”与词表(F1)相匹配,此时的规则记为 R1:如果匹配成功,就说明“把 X”为词;如果匹配不成功,就进行下一步。这样就辨认出了词频为 100%的“把 X”。
……….
总结
本文以“把 X”的自动识别为研究目标,为了便于研究,首先第二章我们按词频对所有“把 X”进行了分类,因为 0%词频的“把 X”暂不作为我们考察的对象,而 100%词频的“把 X”又鉴于它们辨认方法的特殊性单独收录到一个词表,方便计算机进行辨认,这样进一步明确了研究对象。第三章到第五章我们按照“X”的性质分类讲解了“把 X”的辨认规则,每章都是先考察非句法结构和短语结构的“把 X”,然后再考察“把 X”作词时的词性和词频,对它们的词汇化程度做了个简单的考察。第六章我们把辨认规则和流程步骤进行了梳理,总结了辨认中所