您好, 访客   登录/注册

基于语料库的兼类词隐性知识挖掘研究

来源:用户上传      作者:盛玉麒

  摘  要:运用基于语料库的知识挖掘方法,采用“二级标注”模式获得词类次范畴的类型信息,深入挖掘现代汉语兼类词的隐性知识,期待为语言教学与研究、语言信息处理、网络舆情分析等诸多领域的理论与实践提供积极的参考。
  关键词:语料库;兼类词;隐性;知识挖掘
  一、语言研究的语料库转向
  (一)网络时代新趋势
  一個转向(哲学的语言学转向)和两个革命(信息革命和语言学革命)引起了语言学研究范式的语料库转向。基于语料库的知识挖掘几乎涵盖了所有基础科学和应用学科。各种与人类活动相关的行为和心理情感倾向,都可以从语言交际、言语行为、话语方式中发现端倪和深层次的信息。
  网络对人类社会活动的多维度映射,构建出丰富多彩、生机勃勃的认知世界,成为获取信息、知识的广域资源库。语言学的实证主义研究路线获得了无比充分的海量语料,几乎可以从任何一个角度、定量分析、探索解决任何复杂性问题。
  (二)“约定俗成”的背后
  语言是一个音义结合的交际符号系统。“音义结合”是语言的心理认知属性,“交际”是语言的社会功能属性,“符号”是语言的编码属性,而“系统”则是语言的组织结构属性。
  对于所有使用母语的人来说,都是在幼儿阶段(语言习得关键期),就毫不费力地“获得”了母语的“听说”能力,词汇句法语义,甚至包括常用的语用规则。3-5岁的儿童所获得的母语能力,可以终生享用的同时,也在习焉不察中“获得”了母语“赋予”的认知、思维、逻辑、文化等“模式”或“模态”,并且非常牢固地将这些“内化”为“习惯”。
  这一现象可以从心理学的“获得性无助”假说得到令人信服的解释。因此,“习惯”了的语言又具有了“制度性”特征——只能服从其规则并受规则的约束,久而久之,不但习惯了这种规则,能“自由”地“享用”这些规则,甚而“自觉”地用这些规则指导和帮助其他人更好地“掌握”和“使用”这些规则。通常在对一些语言现象说不出合理解释的时候,最后一句挡箭牌就是“习惯”。
  (三)“习惯”的背后
  具有“下意识”特点的“习惯”往往会成为实施语言内部“监控”的制度性规则①。这里面的机制很耐人寻味。对于每一个咿呀学语阶段的儿童来说,无法参与“约定俗成”,只有默默地服从和接受所有的规则。偶尔有自己的创造,也会轻易地被“大人们”给“纠正”过来。
  大人们之间的话常常会有自己的创新、创造,有充分自主的选择性,互相影响交互作用的发生都是建立在自主选择的基础上。新词、新语、新用法说的人多了,就逐渐被“约定俗成”。这个“习惯”的背后,实际上是“统计学”的“大数定律”在起作用。好像选举制度的“多数决”规则,只不过语言的“多数决”只有无条件服务于社会每个成员,却没有任何权利关系,因此也就非常平和自然。贡献者无名无利,使用者无忧无虑。
  (四)“群体无意识”的背后
  “群体无意识”是一个社会心理学术语,指的是群体对于涉及每个人的事情或规则表现出无可无不可的态度。虽然与所有人有关,却认为与己无关,漠不关心。
  因为母语的规则系统是所有母语者自幼获得的能力——毫无例外——所有人都“习惯”地自然而然地遵从。没有任何勉强和丝毫的不快。感觉不到规则对于个人的言语行为有任何不适应。这种“群体无意识”的规则的存在等于“不存在”。
  但是,对于二语习得者和从事二语教学者来说,这种“群体无意识”的规则系统,恰恰是应该发现、提取和研究的“隐性”语言知识的重点。
  (五)语言知识的显性与隐性
  1.显性知识
  语言的显性知识都是有特征标记的。例如构词语素、搭配关系、上下文等,都是显而易见的存在。书面上所有的汉字都是“形音义”的统一体。读者可以根据词典释义获知该字的形音义解释,从而获知汉字语素所构成的词语的“原型”意义。所谓“白纸黑字,铁证如山”,所有这些都有案可稽,有书为证,查而可知、信而可证。
  汉字的构型理性很注重意义,如果某个人名字中有“女”旁的字,就可以推断主人是位女性。汉语的亲属称谓能清楚地区别复杂的亲属关系。社会称谓也有标志性,“张处”“李局”“王总”等等,都是显性的知识。
  但是因为汉语没有形态,很多语义都依靠语境提示和补充,例如“有关单位”“有关部门”“相关人员”等,都模糊不清但又经常会遇到。这些模糊的表达一旦离开了上下文,可能就不知所云。
  而“显性知识”在具体的语境应用中也往往会“失效”,甚至会误导读者理解真实语义。例如:“花”在词典的解释中兼有名词、动词、形容词等不同用法。“眼花了不戴花镜看什么都花里花哒的”,写出来都是一个“花”字,说出来的语音也没有什么不同,但在句中不同位置的意义和句法功能却不一样。这种差异要由具体的上下文语境提供“区别性特征”①。由此看来,词典中的“显性知识”还不是真正的“显性”。
  “上”的显性知识是表示空间方位的意义,但是,“说不上”“吃不上”“看不上”中的“上”与空间意义无关;“下去”表示动作行为的空间趋向意义,“看不下去”“吃不下去”和“活不下去”中的“下去”都不是空间趋向意义。
  这些不能直接从显性知识推导出真实语义的,都是隐性知识在起作用。
  2.隐性知识
  几乎所有非直接使用“原型”语义用法的,都存在着隐性知识。例如:“一脸的无奈”“背一屁股债”中的“一”,不能换成“二”或“三”等其他的数词,这就隐含了“一”在句中并非等同一般数词;而在“一看见我扭头就走”中的“一”,就更明显不是数词而是副词了。
  又如回答“你都知道啥?”的问话时,说“我能知道啥?我啥都不知道!”,这三句话中的“啥”都隐含疑问代词的非疑问用法,都需要结合上下文语境才能正确理解。
  因为汉语没有形态、语法范畴主要依靠虚词和语序来表达,而句法、语义、语用则要依靠具体的上下文语境获得解释。这就使得汉语“隐性知识”的类型和数量远远超出显性知识。   以往的语言学研究,有“例不十法不立”的原则,意思是只有十个以上的例证,才能确立一条规则。这虽然是很基础的标准,由此也看出传统的依靠看资料、抄卡片搜集例证的研究方式,委实辛苦不易。相比之下,通过语料库方法,发现隐性知识的工具和技术手段都不可同日而语。
  二、语料库的资源价值
  (一)大规模真实文本
  1.大规模
  我国第一部《现代汉语频率词典》[1]由北京语言学院语言教学研究所专家团队采用人工和计算机相结合的办法,从1979年11月到1985年7月完成,历时将近6年。共统计了200万字的语料,统计到不同汉字4000余个,不同词语31000余条[2]。目前研究生毕业论文写作自建语料库的规模一般也动辄数千万字符。由此可见,在信息网络时代,大规模真实文本语料库给语言研究提供了多么优渥无比的便捷和资源。
  2.多样化
  语言能力的无限性和语言规则的能产性,让所有使用语言的健全人几乎可以随心所欲地自由思考和表达。个性化的话语方式和话语作品成就了语言的多样化特征。同义、近义、大同小异的话语方式、不同地域、不同领域、不同职业、不同年龄、不同性别等差异,都会产生不同的话语特征。从多样化中提取语言知识是语言习得、教学与应用研究的重要内容。
  3.复杂性
  世界上凡是与人有关的几乎都具有“复杂性系统”的属性特征。心理、行为、情感、审美、兴趣、性格等差异,在语言态度、话语方式、语体风格、语用原则等方面,形成不同的色彩特征。战狼式的狂怼、醉汉似的豪言;脱口秀的口无遮拦、谦谦君子的温文尔雅;闺蜜般的私语,乡愿样的调侃,冠冕堂皇的高大上,滴水不漏的外交辞令,菜市大妈的斤斤计较,网群之间的连珠吐槽……,随着网络的普及发展,网络语言和网络文化随之日新月异。从全息角度看待信息爆炸带来的网言网语和多元化话语方式,不再简单作为边缘化“噪音”雪藏,而是当成客观性真实话语的自然常态,是知识挖掘的宝贵资源。
  4.真实性
  从100年前结构主义语言学之父索绪尔提出“语言”和“言语”的区别,并强调通过言语研究语言的主张以来,实证主义一直成为语言学界遵从的不二法则。即使在乔姆斯基唯理主义的“语言学革命”大潮中,基于实证主义的研究路线仍然稳居学界的主流。许多形式句法研究者也大量采用丰富的例证,细致入微地分辨“能说的”和“不能说的”、“合法的”和“不合法的”话语方式。说到底,真实性仍然越来越彰显出顽强的生命力和有效的解释力。因此,真实文本语料库就是语言研究价值的唯一寄托和依靠。
  社会语言学创始人拉波夫为了调查到“真实话语”可谓绞尽了脑汁。“人们的话语随场合的不同而不同(包括风格、社团、家庭、社会、地位等等),这并不稀奇,也不难理解。难就难在如何让说话人能下意识地说出你让他说的话。这是一个极其重要的问题,因为如果得不到说话者最自然、最真实的话语,那么一切结果都不可靠。”[3]
  (二)充分必要
  基于语料库的隐性知识挖掘必须实现充语料和研究对象的“充分必要”。这不仅是数量规模上要满足充分和必要性,同时在操作过程中也要体现出来。
  当代语言学界对于研究的充分必要主要体现在“充分描写、充分解释和充分预测”上。
  1.开放资源的可控方式
  开放的网络资源,汹涌如潮的海量信息,要保证研究的“充分必要”,就要给定研究对象一个明确的范畴。好比物理学的“标准温度”、数学的直线、平行线的定义一样。通过充分考虑的选材原则和科学设计的抽样方法,所建立的“抽样语料库”就给定了研究对象的可控性范围。在这个可控性范围内就可以实现充分的描写和充分的分析与预测。至于“充分”的程度和效果如何,取决于研究者自身的认真和努力程度。就语料库本身来说,所提供的具有可控性的真实文本资料,为研究提供了充分必要的保障。
  2.定量定性分析
  一直以来强调的定量基础上的定性分析,是借鉴自然科学方法提高语言研究科学性的典型范式,也是学界的共识。
  定量分析的基础在于足够的样本量。以往的汉语研究从“例不十法不立”的举例证明,到百分比,再到基于语料库的量化分析,逐渐发展出相关性分析、方差分析、曲线分析、透明度分析等。所采用的数据特征、隐显性类型、呈现方式等,都为定性分析提供了更加科学实用的方法和手段。
  3.证明与证伪
  学術研究的科学性、结论的可信性要求该研究能够“证明”和“证伪”,即任何人都可以对整个研究采用的原始样本数据进行查验和审核。以往依靠“口耳之学”进行的田野调查结果,常常因为时过境迁,物是人非,无法进行有效的复核和验证。甚至问卷调查,特别是网络问卷调查,充满了随机性和不确定性,难以进行有效的“证明”和“证伪”。
  语料库则不然。无论任何时候,原始文本语料都会完好如初,所有分词标注、统计分析的工具软件和资料数据,也都可以重复n遍。即使有误差或疏漏,都可以顺藤摸瓜,找出原委。这就无形中保证了研究过程的可重现性,从而提升了研究结论的可信度。
  三、汉语兼类词知识挖掘
  (一)从“词无定类”到承认“兼类”
  中国第一部语法专著《马氏文通》的作者马建忠(1845—1900)曾说过:“字类凡九,举凡一切或有解,或无解,与夫有形可形、有声可声之字胥赅矣。字分九类,足类一切之字。无字无可归之类,亦类外无不归之字矣。”[4](P23)“字无定义,故无定类。而欲知其类,当先知上下之文义何如耳。”[4](P24)马建忠在这里所说的“字”实际指的是“词”,“字类”就是“词类”。可见他在承认词类的基础上,还是认为汉语“词无定类”。
  著名语言学家王力认为:“我们应该承认一词多类的事实的存在。一个词如果有两个以上的经常职务,就应该承认它是属于两个或更多的词类。”[5](P319)现在的教科书和权威语文工具书《现代汉语词典》《现代汉语规范词典》等都增加了词类标注。由“词无定类”的模糊状态演进到词典中有了明确的词类标记。身兼多类的“兼类词”不断露出水面,蔚为壮观。例如:“把”的词典释义兼有“动词”“名词”“量词”“介词”四种,有人造出兼类融于一句的例子,如:   (1)一把把车把把住。
  在例(1)中,“把”的词类依次为“量—介—名—动”。
  (2)除了校徽别别别的。
  在例(2)中,三个“别”的词类分别是“副—动—形”。
  (二)兼类词的动态分布
  词典工具书并没有提供兼类词所兼不同词类的语用特征和使用频度分布等信息,而这又恰恰是习得、教学与研究都需要的隐性知识。
  通过对自建的1400万字符的当代汉语流通语料库①的统计发现,兼类词“把”的介词用法词次高达24820次,其次是量词用法1633次,数词用法8次,动词用法6次,未见名词用法。
  对于词典“把”字下未收入的数词用法,查找原文,发现确有实例。如:
  (3)让/v 我/r 也/d 意兴阑珊/i 一/m 把/m 的/b
  (4)这个/r 老/a 花花公子/i 为了/p 和/ag 年轻/a 情人/n 作爱/nr 经常/a 大/a 把/m 大/a 把/m 地/j 吃/v 伟哥/nr ,/w
  《现代汉语词典》(第7版)对“把”的释义顺序,前6项都是动词用法,第7项是方言用法,第8、9项是名词用法,第10项是量词用法,第11项才是介词用法[6](P49)。而实际统计发现:“介词”用法居首,高达24820词次;其次为量词用法,1633词次;数词和动词用法词次很低,没有统计数据价值。具体如表1所示:
  我们使用中国科学院计算所研发的“ICTCLAS”自动分词系统进行分词和词性标注,在抽样校对时,发现“把”有一例副词用法,原句如下:
  (5)他们/r 也/c 把/d 煽/vg 情/n 路数/n 发挥/v 到/v 极点/n ,/w
  例(5)中的“把”应该是介词无疑。那么,为什么自动分词软件会标错呢?
  实际上计算机自动标注所依据的原则是上下文语境和搭配关系。判断介词的规则是后接名词性成分。这句话后接的“煽/v”是动词性成分。机器根据规则排除介词后,就会从动词的前加词类中寻找。动词前面可能出现的词类主要有“名、形、动、副”等类。机器的智能有限,在名词主语和动词谓语中心词之间,最大可能就是“副词”了。这个案例提示我们,机器恪守“规则”所遭遇到的例外“陷阱”,恰是值得深入挖掘的问题所在。
  (三)自动标注的兼类词
  自动分词标注词性工具软件所执行的是国家标准GB/T 13715-92《信息处理用现代汉语分词规范》。该规范明确说明:“为叙述方便,本规范沿用了把词分为名词、动词、形容词、代词、数词、量词、副词、介词、连词、助词、语气词、叹词、象声词等十三类的方法。”[7](P2)
  考虑到书面汉语的复杂性和智能化信息处理应用的需要,“ICTCLAS”自动分词系统设计了“二级标注”模式,增加了多项下位小类,具体如表2所示:
  从表2可以看出,形容词用为副词、形容词用为名词、动词用为副词、动词用为名词等都是显性“兼类词”,至于人名、地名、机构名词、专有名词、处所名词、时间名词等,都是名词大类下的小类。
  显然,“二级标注”对兼类词的隐性知识挖掘提供了极大便利。即使有些标注可能存在偏误,也已经大大减轻了研究者的工作量,起码给出了大致范围和类别,可作为剥茧抽丝、精挑细选的基础。
  1.兼类词的动态分布
  根据当代汉语流通语料库的统计发现,兼类呈多样化分布。例如:
  人名兼地名,如:阿里(/nr64—/ns55)①;
  人名兼产品名,如:大宝(/nr7—/nz64);
  名兼地名,如:大巴(/n75—/ns11),灯市(/n4—/ns3);
  形兼名,如:典型(/a218—/n199),典雅(/a47—/an9);
  形兼名兼地名,如:安康(/a3—/an15—/ns9);
  动兼名兼动名,如:登记(/v156—/n7—/vn499);
  形兼动兼动名兼形名,如:低迷(/a61—/v8—/vn1/an17);
  动兼名兼量,如:兜(/v91—/n7—/q3);
  动兼量兼名兼人名,如斗(/v307—/q42—/n23—/nr3)。
  当代汉语流通语料库兼类词动态分布情况,具体如表3所示:
  表3中的“兼类数”是指兼类词所兼的词类数,“兼类种”是指不同的兼类词个数。不管一个词兼几个类,只算是一个“兼类种”。根据自动分词软件的二级分词标准,下位小类也按不同词类对待。
  2.兼类词动态频度分布
  单纯从兼类词的所兼词类的多少,还不能真正揭示兼类词的本质特征。因为重要的参数是在于所兼的词类在使用频度方面的分布差异。
  分析发现,兼有9个词类的“单”,副词(d)类334次、副词性语素(dg)299次、形容词性语素(ag)249次、区别词(b)238次、姓名(nr)211次、名词性语素(ng)52次、形容词(a)24次,简称(j)5次、后接成分(k)1次。低频区没有统计学价值,去掉小类“副素、形素、名素”以及姓名、后接成分等,就只剩副詞、区别词和形容词三类了。
  下面以列表举例的方式来展示兼类词不同兼类的使用频度的分布情况:
  【麒按】表内不同兼类的使用频次均按降频排列(下同)。从数据看,兼2类的兼类词内部分化明显。“打扮”动词269词次,名词92词次,名词用法占动词用法269次的34.2%;占全部词次361的25.5%。可见,“打扮”所兼词类之间的使用频次差异。表中所列其他四个兼类词“打包、爱好、打算、打印”的使用频次差异也十分明显。
  兼类词频次分布上的差别化特点,是否可据以推测频次量差与内部分化存在一定的正相关系,有待全面对比和深入探讨。   【麒按】表内所列兼类词各类频次之间有比较明显量差。由于增加了“人名/nr、地名/ns”和“名性语素字/ng、前接成分/h、简称/j”等小类,增加了所兼“词类”数。
  【麒按】表6中,“白”的形容词(/a)用法最多,其次为姓名(/nr)用法和副词(/d)用法。在现代汉语中,“白”的动词用法不多,如:“老黄/nr 白/v 了/u 他/r 一/m 眼/q ,/w”“一/m 夜/q 工夫/n 急/ad 白/v 了/u 头/m 发/q ,/w”。
  在现代汉语中,“文”的动词用法已不多见,不过,在成语中仍有保留,如成语“文过饰非/i”中的“文”就保留了动词用法。而在句子“虚词/n 失实/vn 、/w 巧/ad 文/v 乱/v 真/a ,/w”中,“巧文乱真”虽然不是成语,但是,逐词切分标注时,也可看出“文”的动词用法。
  同时,也不能排除误标记的情况,如下列例句中的“文”都标错了:
  特色/n融合/v型/k文/v创/vg产业/n、/w
  品类/n丰富/a的/b西夏/n文/a佛经/n。/w
  两岸/n同胞/n同宗/v同/c文/a,/w
  觉得/v文人/n言/vg商/vg,/w非/h文/a非/h商/n。/w
  去掉小类后,“白”只剩下“形容词、副词、动词”3类;“文”只剩下“动词、形容词”2类。
  【麒按】去掉小类后,“东”只剩“方位词”1类;“成”只剩“动词、形容词、量词”3类。
  【麒按】如上分析,去掉小类,再忽略10次以下用例,“从”只兼“介词、连词”2类;“错”只兼“动词、副词、名词、形容词”4类。
  【麒按】“单”只剩“副、区别、形”3类;“过”只剩“助、动、副”3类。
  通过上述分析,我们可以得出以下结论:
  第一,“二级分类”可以获得更细化的分类,增加了兼类词的选择范围;
  第二,特殊小类对兼类词语法功能研究的参考价值不大,但对其他应用如舆情分析、情感分析等具有特殊意义;
  第三,10次以下的低频区用例除非特殊需要(“长尾”挖掘①),可以忽略不计。
  3.兼类词的语域分布
  当代汉语流通语料库的语料来源领域包括经济、政治、法律、文化、卫生、体育、文学、网络、博客等九类。因此,可以获得词汇使用情况在不同领域的分布信息。例如,兼类词“把”在不同语域中的使用情况,具体如表10所示:
  根据表10信息可以发现,介词“把”的用法不仅词次最高,而且在所抽样的9类语域均有使用。其中,文学类居首,多达8580词次,其次为网络8412词次,第三为博客2274词次。其他依次为政治861词次、体育680词次、经济442词次、文化342词次、卫生311词次,法律类最少,只有46词次。这可能与“把”字句构式的语体、语用特征有关,因为突出宾语焦点的变形处置句具有很强的主观化特征,所以不太适合法律领域强调客观、公正的话语方式。
  四、结论与展望
  (一)结论
  通过当代汉语流通语料库的定量分析,挖掘汉语兼类词的隐性知识,有以下几点发现:
  1.现代汉语词类具有鲜明的“上下文相关”语法特征。这与前辈提出的“依句辨品”原则具有传承性,也证明了前贤所论的合理性和独到之处。
  2.没有形态标记的汉语隐含大量“非显性”功能属性,“一成不变”的汉字记录的书面汉语掩盖了古今汉语演变的蛛丝马迹。
  3.自动分词软件“二级标注”模式增加了兼类词隐性知识挖掘空间,具有重要参考价值。有些小类如“姓名”“专名”等,在自然语言理解、舆情分析等领域具有重要的参考价值。
  4.基于大规模真实文本语料库知识挖掘,可以透过“不动声色”的字面表层获得深藏不露的隐性知识,因而具有广域的研发空间和应用前景。
  (二)展望
  1.语料库加工质量决定挖掘质量
  语料库规模和加工质量直接关系到知识挖掘的水平和质量。因为各方面条件的限制,采用人工抽样校对的方法,难免存在大量疏漏和偏误,直接影响到知识挖掘结果的信度。这是本研究的不足和缺憾。
  2.兼类词隐含语法化信息
  兼类词所兼的主要词类之间,隐含着大量“语法化”的信息,例如“动词、介词、副词、连词”兼类,数量分布差异实际上反映的是语法化程度的差异。语言共时系统是历时系统的映射,共时系统中并存的“兼类”现象,在一定程度上反映了不同历时层面的语法化状态。这一“假说”有待深入挖掘和大数据求证。
  本文在写作过程中参阅了前辈时贤的大量论著,恕不一一具名,谨此一并致谢。
  参考文献:
  [1]北京语言学院语言教学研究所.现代汉语频率词典[Z].北京:北京语言学院出版社,1986.
  [2]常宝儒.关于《现代汉语频率词典》的編纂问题[J].辞书研究,1986,(4).
  [3]本刊特约记者.社会语言学创始人拉波夫[J].世界汉语教学,2001,(1).
  [4]马建忠.马氏文通[M].北京:商务印书馆,1998.
  [5]王力.关于词类的划分[A].王力文集·第十六卷[C].山东教育出版社,1990.
  [6]中国社会科学院语言研究所词典编辑室.现代汉语词典(第7版)[Z].北京:商务印书馆,2016.
  [7]国家技术监督局.中华人民共和国国家标准GB/T 13715-92信息处理用现代汉语分词规范[Z].1992—10—04.
转载注明来源:https://www.xzbu.com/1/view-15293694.htm