本文是一篇语言学论文,本文主要描述了日常交际中“你看”的四种使用类型,通过观察语料特征,总结出各种类型“你看”的使用规则,根据这些规则设计相应的规则集和流程图,最后使用验证语料人工验证规则的准确率。
第一章 绪论
1.1 选题缘由
“你看”在日常口语交际中使用频率很高,甚至有时会作为个人的口头禅,随着口语语料库的日渐成熟,这些日常生活中难以记录下来的口语资料便有了归宿,这对研究人们在日常环境中如何使用语言提供了便利。
“你看”作话语标记的研究在英语中早有涉及,译为“look”。英语分词系统以分隔符作为分词标志,“look”无疑会被当作一个词来标注,由此,我们想到汉语中的话语标记“你看”在分词和词性标注系统中是否也会被认为是一个整体。
本文共找了 13 个分词系统,对行为义“你看”、认知义—征询标记、言语义—话语标记“你看”和其他类“你看”进行分词和词性标注,标注结果共有三种:一是“你/r 看+后续内容”,二是“你/r 看/v”,三是“你/r 看/u”。标为“你/r 看+后续内容”的分词软件有 4 个:结巴中文分词、FoolNLTK、Stanza(斯坦福大学分词系统)、HanLP。标为“你/r 看/v”的分词软件有 8 个:SnowNLP、PKUSeg(北京大学开源分词工具)、THULAC(清华大学中文词法分析工具包)、LTP(哈工大自然语言处理工具箱)、CoreNLP(斯坦福自然语言分析库)、LAC(百度中文词法分析工具)、国家语委在线分词系统、搜狗分词。在同一分词软件中标注为“你/r 看/v”和“你/r 看/u”两种的有 1 个:传媒语言语料库在线分词标注系统。没有分词软件将作话语标记的“你看”标注为一个整体,也无法对“你看”的各种类型进行区分标注,更没有分词软件将其标注为话语标记。为提高分词系统的准确率,给话语标记“你看”制定识别规则是有必要的。
固定搭配字符集识别规则
.............................
1.2 研究目的及意义
1.2.1 研究目的
“你看”使用广泛,观察各种分词软件的分词处理结果,并不能识别“你看”的话语标记用法。本文希望通过提取各种类型“你看”的规则,帮助提高分词系统和机器识别的准确率。这篇论文期望达到的目的有:首先,通过对“你看”的语料分析,判断出“你看”的各种用法;其次,对“你看”不同类型的共现字符、前后连接串、前后连接词性、固定搭配字符等形式做出较详细的语言学描写,使用排除法,总结出话语标记“你看”在文本中出现时的规则;最后通过自建识别系统,借助这些规则达到使机器正确识别话语标记及非话语标记“你看”的目的。
本文面向中文信息处理研究话语标记“你看”,在本体研究的基础上对“你看”的不同类型进行分析、统计和总结,建立相应的机器识别规则集,以期提高该类短语的分词和词性标注的准确率,为计算机规则编写提供思路。
1.2.2 研究意义
语言和语言处理技术是一个关乎国计民生的重大课题,在经济和信息技术快速发展的今天,中文信息处理已成为具有高度战略意义的重要课题。孙晓(2010)指出,自然语言处理中的主要任务之一是词处理,包括词语切分、词性标注、未定义词识别、词义排歧。①中文自然语言处理系统在应用方面使用(例如机器翻译和信息抽取)的基础就是中文分词,因此中文分词是自然语言处理的重点问题之一。在词的识别层面,词性标注与中文分词一样,同样是一个很重要的问题。
近年来,话语标记从西方传入中国并逐渐发展起来。胡文婷(2019)指出要想深入研究话语标记,需要发掘以下五个方面:(1)厘清概念;(2)基于类的系统性研究,如:坦言类、“x 不 x”类等;(3)基于类型学的跨语言考察;(4)基于方言语料的考察;(5)理论创新。以上都是“你看”的本体研究,随着中文信息处理的发展,语言与机器识别相结合的应用研究越来越重要。在“你看”的语言发展历程中,“你看”的意义逐渐虚化,甚至已经失去其基本的视觉义,“你”不再局限于指代第二人称代词,“看”不再表示祈使义“让对方用眼睛接触某物”,虚化了的“你看”作为一个整体,经常表示对下文将要表达的内容的提醒或强调。这种情况给机器分词和词性标注带来困难,因此,对于话语标记“你看”的机器识别研究有其必要性。
..............................
第二章 “你看”的分类
2.1 行为义
现代汉语中,行为义“你看”是由第二人称代词“你”和视觉动词“看”构成的主谓结构,其意义为“你”和“看”的意义相加,表示使视线接触某物。“看”在《说文·目部》中的释义为:“看,睎也。从手下目。”可见,“看”的本义与视觉行为义有关。表行为义的“你看”具有动作性,对话中的听话者在说话者说出“你看……”的指令后,随即会做出用眼睛看的动作。纵观“看”的语义变化,“看”的语用含义在不同的语言环境中各有不同,“看”由开始的视觉行为义逐渐演变出认知义以及表提醒的话语标记,这个过程中产生了一些延伸义,我们将“看”在使用过程中由本义演变出来的部分义项也看作是行为义“你看”。郝双双(2010)结合语料情况,查阅了四本具有代表性的词典,《动词用法词典》《古今汉语词典》《现代汉语八百词》《现代汉语词典》,总结了“看”的 22 个义项:1.使视线接触人或物 2.观看,阅读,欣赏 3.看望,拜访 4.诊治,使…获得诊治 5.照料,料理,关心 6.观察 7.对待 8.看出,意识到 9.看重,认识到 10.想 11.取决于 12.尝试,试试 13.考虑,推测 14.认为 15.以为 16.判断,表示预见到某种变化趋势 17.估量,评价 18.问问,听听 19.表示提醒对方注意 20.提醒,表关心 21.提醒,表责备 22.提醒,表警告威胁。本文考察了《现代汉语词典(第 7 版)》,结合实际语料,认为“你看”还有一个义项:23.提醒,表赞同或寻求赞同。由此,本文认为现代汉语共时平面“看”的义项共有 23 个,其中 1-12 是行为义“你看”的义项,13-17是表示认知义“你看”的义项,18-23 是言语义的“你看”。
下面是在语料库中检索到的“你看”行为义义项的部分用例:
(1)梁文道:但是当时张爱玲的样子,因为没有几个人见过她,所以当时你看到张爱玲这张照片的时候,你一下子就联想起来,以前我们常见到她年轻的那个模样,你甚至可以怀疑这是张爱玲吗?(凤凰卫视\锵锵三人行\梁文道:金日成逝世朝鲜师生连哭 10 天用口水当眼泪\2011-12-21)
(2)一本名著可能会影响你一生,【你看】一场演唱会可能追星一下,过了。所以这个东西我们讲还是有区别。(北京人民广播电台\议政论坛\中小企业促进法实施条例\2010-09-27)
(3)你就可以生活的很好,你做普通人生活很困难。说实在话,你做个普通人,【你看】病都成问题。(凤凰卫视\锵锵三人行\加藤嘉一:日本人的性开放在非常私秘的地方\2011-09-24)
.........................
2.2 认知义—征询标记
征询标记“你看”是行为义“你看”发展到认知义阶段产生的构式,此时的“你看”没有了“看”视觉义的典型动词特征,具有话语标记的一些特征,但因其具有认知义义项,有一定的概念义,也不是典型的话语标记。认知义“你看”在句子中多用于表示征询,我们将其称为征询标记。
2.2.1 征询标记的界定和特征
曹秀玲(2010)探讨了“你V”语法化过程及相关问题,她在文章中写到,沈家煊(2003)指出,“你+V”由主谓结构到话语标记的发展演变印证了“行、知、言”三个概念域的存在和总体发展路向,即:行域→知域→言域。“你+V”从动作义到认知义再到篇章义,也是结构式自身语义逐渐弱化而主观性和元语言功能逐渐增强的过程。①“看”在使用过程中与第二人称代词“你”的结合越来越紧密,视觉动作义逐渐虚化,主观性不断加强,由此产生了“你看”认知义的义项,多表征询,用于询问听话者的观点、看法、意见、推测等。
学界对“你看”表示征询的用法已有研究。曾立英(2005)描写了“你看”的分布,分析了“你看”主观化的演变历程,指出“你看”的征询义主要表现为一种询问态度。严川(2012)提到征询标记“你看”后多为疑问句,用于询问听者的意见。殷树林、李君(2011)详细论述了“你看”的征询标记用法,分析了征询义“你看”的语用功能。曹秀玲(2010)指出,征询标记“你看”以祈使形式要求听话人对问题做出回答。陈振宇、朴敏秀(2006)考察了“你看”的情态意义和语用条件,指出凡可以变换为“依你看”的表示征询义,“看”后常接疑问形式表征询,不可接反问句。“你看”作征询标记时,用于询问听话人的认识、预测或提议。如:
(22)主持人:你看我现在,陶书记,我也要报名,参加你们的话剧,【你看】我能在剧当中扮演一个什么角色?
陶勋花:我看你啊,你只能演耙耳朵。(中央电视台\乡约\《乡约温江万春》节目文稿及同期\2012-05-03)
(23)大家都会从家里的电器说起:【你看】,原来哪一样不是城市里才有?现在呢,不是一样样都跑到我们农村来了吗?(中央电视台\中国新闻\2009-10-05)
图 4-1 识别流程图
..................................
第三章 识别规则的提取 ................................. 28
3.1 行为义“你看”的主要规则 ..............................