">

语言学中的语音词汇和语法问题

摘要:语音、词汇、语法三个角度对现代汉语进行了一个简单概要的勾勒,在以往传统的语言学教材中一般还有“文字”、“修辞”两节内容。需要注意的是,语言学本身是一门十分庞杂的学科,知识体系与研究方法或因语言不同而有区别,或因派别主义不同而有区别。但无论是何种语言,亦或是何门何派,在进行自然语言处理时我们要面临的永远是一个个真实的语料和具体的语言现象。理论是用来指导实践,拓宽我们研究思路的,究竟最后采用何种理论,这只是一个“白猫黑猫”的问题。(本文原创,转载必须注明出处.)

什么是语音

语音是通过人类发音器官发出的、有意义内容并用于社会交际的声音。它既是语言的物质外壳,又是语义的重要载体。因此,自然界中的虫鸣鸟叫不是语音,甚至我们日常发出的诸如咳嗽、哭笑、打鼾、轻哼等声响,由于其本身并不能传达确定的语义而应用于交际,也不能算作是真正的语音。
有一个简单的判断标准,在普通话中有字可以表示的音就是语音。“他呼呼大睡”中的“呼呼”模拟了“他”睡觉时发出的声音,是语音(注意:“呼呼”并不就是人类睡觉时实际发出的声音,它是抽象的、符号化后的拟声词)。另外,孩童们在玩闹时用手作枪模拟子弹发射的[biubiu]声不是语音,虽然它的表意在这里似乎很明确,但缺乏字形的现状表明,这个音目前还未被大众所认可,能用于社会交际。

语音的三大属性

物理属性

语音的本质是音波,是发声体振动而产生。因此语音同自然界其他声音一样拥有音高、音强、音长、音色四种要素。

  • 音高 指的是声音的高低,它是由发声体振动的频率(单位Hz)决定的。单位时间内发声体振动的次数越多,其声音就越高,反之亦然。
    一般说来,大的、粗的、厚的、长的、松的物体振动慢;小的、细的、薄的、短的、紧的物体振动快。反映到人声上,一般来说成年男性声带长且厚,所以音高低;而儿童与妇女之所以常被认为“嗓子尖”则是缘于他们的声带常短而薄。
    音高的区别,在汉语里就构成了声调与语调的区别。

  • 音强 指的是声音的强弱,它是由发声体的振幅(单位dB)决定的。发声体振动时摆动幅度越大,其声音就越强,反之亦然。
    反映到人声上,一般来说用力越大,肺部呼出气流越强,声带振动越剧烈,声音就越响亮;反之如窃窃私语时,音强就较弱。
    音强的区别,在汉语里就构成了轻重音的区别。

  • 音长 指的是声音的长短,它是由发声体的振动时长决定的。发声体振动时间越长,其声音就越长,反之亦然。
    音强的区别,在汉语普通话里虽未用来区别意义,但在一些外语和方言中其区别词义的作用却较为明显。如:
    英语:[][]粤语:[ban]奔[baan]班。

  • 音色(音质、音品) 指的是声音的特色,它是由发声体振动时产生的不同音波波纹的曲折形式决定的。它的影响因素有发音体材质、发音方法以及共鸣器的形状。反映到人声上,千人千语就是音色影响声音的最好例子。

以上物理四要素在自然语音中是难以分割的,它们在不同语言或方言中分别起着不同的区别作用。其中,音色是任何语言中最基础也是最重要的区别因素,如“足球”与“篮球”两个词的第一个字“足”[zú]与“篮”[lán]就是音色截然不同的两个语音。另外在汉语普通话中,音高带来的所谓“阴平、阳平、上声、去声”四调与音强所带来的轻重音(如“东西”的两个音[dōng xī]和[dōng xi])也起着十分重要的区别作用。

生理属性

语音是由人的发音器官发出的,后者根据参与发音过程的先后顺序可分为三个部分:肺、气管、胸腔、横膈膜等呼吸器官,它们主要通过呼出气流为发音提供原动力;喉头、声带等发声器官,粘附在喉头的软骨上由两片薄膜构成的声带在气流冲击下发生振动,形成音波;咽腔、鼻腔、口腔处的调音器官,它们将把从声带传出的音波进行加工,从而产生我们人耳听到的各种语音。

社会属性

语言是一套符号系统,语音作为其重要组成部分也是如此。语音的社会性质主要有以下三个方面:

  • 语音与相应语义之间的关系是非必然的,约定俗成的。汉语普通话中的[dà lù]可以用来指代陆地,也可以用来指代宽广的道路。不同语言间的音义规定差别则更为明显,同样是苹果,英国人就会说成是“apple”。
  • 语音具有地域性、民族性。上面说到音义之间的对应关系是人为规定的,但是这种规定如果不能得到一个区域内特定群体的广泛认同,人与人之间就无法进行有效的交流。如果进一步放任音义关系的随意扩展,那么就有可能产生《圣经》中“巴别塔”般的悲剧。为了避免上述现象的发生,不同民族和地区的人们在地理文化的差异下便产生了成百上千种各具特色的语言。
  • 语音具有系统性。这就意味着不同语言或方言拥有着不同的语音元素以及不同的内部关系。同样是说“牛奶”和“男人”这两个词,北京人和四川人就会有两种不同的发音结果(四川方言存在[n][l]不分的情况)。

语音单位

音素

音素是音色角度划分而出的最小语音单位,分为元音、辅音两大类。例如,“看”[kàn]就可以划分出“k、a、n”三个各有特色的音素。
元音音素发音时气流振动声带,在口腔、咽腔等处不受阻碍,辅音相反。
元音又叫母音,在现代汉语普通话中共有10个,分别是7个舌面元音:α[Α]、o[]、e[ɣ]、ê[ε]、i[i]、u[u]、ü[y];2个舌尖元音:-i[]、-i[];以及一个卷舌元音:er[]。
辅音又叫子音,在现代汉语普通话中共有22个:b[]p[]m[]f[]d[]t[]n[]l[]g[]k[]h[]j[]q[]x[]zh[]ch[]sh[]r[]z[]c[]s[]ng[],其中前21个都可以作为声母,而ng[]只可做韵尾。

音节

音节是音素构成的,在交谈时自然感到的语音单位。一般情况下一个汉字就表示着一个音节,儿化音节诸如“花儿”[huār]等则是用两个汉字代表一个音节的特例。

声母、韵母、声调

  • 声母 普通话中共分为21个,是主要由辅音构成的音节前段。例如,在“表”[biǎo]这个音节里,辅音b就是它的声母。特别注意,有些音节不以辅音开头,我们习惯上将元音前头那部分看做是零,叫做“零声母”。例如“乌”[wū]开头没有辅音,就算是零声母音节。而ū前的w在拼音书写时既是一种隔音符号,也提示了ū前面实际发音中半元音[w]的存在。因此,“零声母”未必就是零,但其不以辅音开头的特点却是肯定的。
  • 韵母 普通话中共分为39个,是由元音或元音加辅音构成的音节后段,可分为韵头、韵腹、韵尾三个轻重长短不一的部分。韵头只有i、u、ü三个;韵腹是韵母的主干,是其必不可少的部分且声音在三部分中最为清晰响亮;韵尾只能由元音i、u和鼻辅音n、ng四个充当。来看一例,在“壮”[zhuàng]这个音节里,辅音“zh”是它的声母,“u”是它的韵头,“a”是它最为响亮的韵腹,“ng”是它的后鼻韵尾。另外请注意,并不是所有音节都有声母、韵头、韵尾,如上文所举“乌”[wū]的例子,它就只有韵腹u。
  • 声调 贯穿于一个音节、具有区别意义作用的音高变化。调类是声调的种类,普通话中共有四种:阴平、阳平、上声和去声,它们的调值分别为55、35、214、51(此处采用赵元任的“五度标记法”,见下图)。

音位

音位是一个具体的语言系统中能够区别意义的最小语音单位,也就是按语音的辨义作用归纳出的音类。在具体的某种语言或方言里人们可以发出的音素很多,但音位的数量却是有限的。例如“妈”[m]与“怕”[p]的声母[m][p]就是两个音位,它们区别意义;而如“巴”[b]“班”[bn]“帮”[bng]中的α实际上分别读作[A]、[a]、[α](称作“音位变体”),是三个不同的元音,只不过因为三者的音色不会因读错而导致人们的误解,因此我们常把它们归纳到一个音位里去。

记音符号

历史上汉语的记音方法很多,诸如反切法、“注音符号”(至今台湾等部分地区还在使用)
标记等。现在国内通行的是1958年审议通过的《汉语拼音方案》,相信绝大多数读者们在小学语文课堂上就学习了相应的知识,在此就不再赘述。
另外需要重点介绍的,也是目前国际上通用的记音符号就是国际音标(International Phonetic Alphabet,简称IPA)。它采用一符一音原则,大部分符号采用拉丁小写字母及其变体(如倒写、反写、合写、添加附加符号等)。
现特将国际音标简表、三种记音符号对照表罗列如下,至于国际音标里部分普通话中没有的符号发音敬请有兴趣的读者自行上网检索,这方面的语音资料网上很多,尤以赵元任和瞿霭堂两位先生的发音最为经典,可供参阅。

共时语流音变

变调

  • 轻声 四声在一定条件下念得比原调短而弱的特殊音变现象。具有区别词义、区别词性等作用,如曾举过的“东西”例(见P),又如“对头”[][]。
  • 上声的变调 两个上声相连,前一个调值从214变成35(上上相连变阳平),例如“蒙古”[];上声后接其余三调或轻声,这个上声变为半上21,例如“好的”[];三个及以上上声音节相连的变读还请读者自行尝试总结规律,当然亦可参阅相应的现代汉语教材,尤以黄伯荣、廖序东主编的《现代汉语》(上下册)最为经典。
  • “一、不的变调” “一、不”在单念、词句末以及“一”用在序数中时读作原调;去声前二者一律变为上声35,例如“一个”“不去”;在非去声前,“一、不”皆读去声51,例如“一天”“不开心”;“一、不”嵌在相同的动词、形容词间皆读作轻声,例如“瞅一瞅”“行不行”;“不”处于可能补语中变读轻声bu,例如“起不来”。
  • “七、八的变调” “七、八”在去声前可变做阳平35,亦可不变。例如“七岁”“八路”。
  • 其他变调 除上述三类外,还有一些变调可供有兴趣的读者下来自行总结,此处举上几例,如“远远儿的”(“AA儿的”式,第二个“远”常独阴平55)、“乱蓬蓬”(“ABB”式,“蓬蓬”常独阴平55)。

儿化

一个音节中韵母带上卷舌音色的特殊音变现象。与轻声一样,儿化也具有区别词义、区别词性的作用,如“头”“头儿”,“盖”“盖儿”;此外,儿化后的字词常带有细小、轻松、喜爱、亲切的感情色彩,如“小猫儿”“脸蛋儿”。
(三)“啊”的音变 语气词“啊”受前字末尾音素的影响往往产生音变,共有6种,举几例如下:“吃呀喝呀”“困难哪”“还爬楼哇”(此处记“啊”音变后的字)。此外几种读者可自行参阅相关教材。


词汇

什么是词汇

词汇又叫语汇,是某种特定语言里所有词和固定短语的总和。

词汇单位

语素

构词的单位,语言中最小的音义结合体。例如“笔”就是一个语素,它的语音形式是[sh],它的词汇意义是“写字、画图的工具”语法意义是“名词、量词”及相关的语法作用。

从音节角度看,语素有单复音节之分。现代汉语中绝大部分是由一个音节构成的语素,如“天、地、人、山、海、的、啥、啊”等;而复音节语素是指由两个及其以上音节构成的语素,如“蝴蝶、鸳鸯、玻璃、抠门、布宜诺斯艾利斯”等;另外还有小于一个音节的特殊语素,如“鸟儿”的“儿”字因是儿化标记,只算做半个语素。

有一个简单的判别语素的方法——“替代法”,即用一个新语素替代尚未确定为语素的语言单位,其间还要注意替代前后另外一个未被替代的语素,其意义不能发生变化。举上文“抠门”例,该词虽可被替换为“铁门”“抠鼻子”等,然而“抠门”合在一起表示的“小气、不大方”义,并非拆开后各自的“用手指或细小的东西挖”“建筑物的出入口”等义简单组合就可得到。对于复音节语素,其语义常常是确定的,其组成元素也往往是不容随意更改的。
从表意虚实看,语素还分为实语素和虚语素。前者有具体的词汇意义,如“天、人、喜”等;后者则只表示抽象的语法意义,如“吗、的、老(公)”等。
从构词能力看,还有成词语素与不成词语素之分。前者又叫自由语素,指既能单独成词又可以与其他语素组合成词的语素,如“马跑了。”这句话中的成词语素“马”既可以单用,也可以组合成“白马、骏马、老马”等入句。而不成词语素则是指不能独立成词,必须和别的语素组合在一起的语素,也称黏着语素。不成词语素又可以分为两类,一类位置自由、承担了所成词部分乃至全部的基本意义,如“卉、健、民、丽”等,它与成词语素合在一起被称作词根,是词义的承担者;另一类位置固定只表示一些附加语义,被称作词缀,依所在位置被进一步分为前缀、中缀、后缀,如“者、第、化(白热化)、里(稀里哗啦)”等。

词由语素构成,是语言中最小的、能够独立运用的音义结合体。例如“打水”可被拓展成“打热水”因此是短语,不是最小的词。再如上文的不成词语素“卉”,生活中我们从不单说这个字,相反语义相近的“花”就可以,因此也不能算作能够独立运用的词。

固定短语

词语之间的固定搭配,一般不能随意增减或改换其中的元素;与之相对应的是自由短语,它可以依据表达的需要临时组合词语。我们常说的“短语”其实是后一种自由短语,它十分能产,例如“看报、看电视、看球赛”等。固定短语又可分为专名与熟语两类。前者以企事业单位名居多,如“四川大学”、“全国计算语言学学术会议”、“国营长虹机器厂”等;后者包括成语(“七上八下、东倒西歪”等)、惯用语(“炒鱿鱼、穿小鞋”等)、歇后语(“哑巴吃黄连──有苦说不出”等)。

缩略语

语言中被压缩或省略的词语,主要有简称、数词略语两种形式。前者如“彩色电视机──彩电”、“工人联合会──工会”、“马萨诸塞州──麻省” 等;后者如“三个代表”、“三好学生”、“五讲四美”等。

词的构造

单纯词:只由一个语素构成的词。最简单的单纯词主要是单音节词,如“花、山、人、好、吗”等,另有一部分是多音节的,主要有以下几类。

  • 联绵词 由两个不同音节连缀而成的,不能拆分为两个语素解释其义的单纯词,又具体分为三种。

    (1) 双声 指两个音节声母相同的联绵词,如“琵琶、参差、蹊跷、仓促”等。

    (2) 叠韵 指两个音节韵母(或只是韵腹韵尾)相同的联绵词,如“骆驼、琢磨、叮咛”等。

    (3) 其他 指两个音节声韵母皆不同的联绵词,如“鸳鸯、峥嵘、马虎”等。

  • 叠音词:指两个相同音节重叠构成的词,其中任何一个音节都只有音而没有义(或没有组合后的新义),它们只有合在一起构成一个复音节语素才有意义。如“孜孜、娘娘(单说表母亲,合说后意义发生变化)、草草、狒狒”等。

  • 拟声词:指用来模拟声音的词。如“叮叮当、扑哧、叽里咕噜”等。

  • 音译外来词 指对音翻译外民族语言而得的词,其中任何一个音节都只表音而不表原义。如“海参崴、麦克风、朱古力”等。

合成词 由两个及以上语素构成的词,主要由以下几类。

  • 复合词:指由两个及以上不同词根构成的合成词,从词根间关系看,又可细分为五类:

    (1) 联合式 也称并列式,词根语素之间地位平等,意义相同、相近、相关或相反,例如“建造、车马、迟早、忘记”等。其中“忘记”一词,实际承担语义的只有“忘”这一词根语素,另一词根并不表意,我们把这类词也称作“偏义词”。

    (2) 偏正式 前一词根修饰、限制后一词根,例如“莲子、南瓜、嫩绿、风行”等。其中前两个例子中心词根是名词性语素,也称为定中式;后两个例子中心词根是动词、形容词性语素,也称状中式。

    (3) 述宾式 前一词根表示动作行为,后一词根表示前者所支配关涉的对象,例如“司机、主席、化石”等。

    (4) 主谓式 前一词根表示被陈述主体,后一词根陈述前一词根,也称“陈述式”。例如“月食、自强、胆小”等。

    (5) 补充式 后一词根补充说明前一词根的动作结果、事物单位等,例如“打倒、课本、改正”等。

此外还有介宾式(如“从前,当天”等)、连动式(如“走访、病故”等)、兼语式(如“讨(人)厌,请(人)教”)等,这三者因数量较少,在有的论著中前者被归入述宾式,而后二者则被归入联合式中。

  • 重叠词 由相同词根语素重叠构成的合成词,例如“妹妹、弟弟、常常”等。

  • 附加词 由词根词缀构成的合成词,“前缀+词根”的叫前加式,“词根+后缀”的叫后加式,另有加中缀的情况。例如“老虎、老公、石头、馒头、稀里糊涂、古里古怪”等。

另外,“词汇单位”一节所讲之“缩略语”中有部分词汇诸如“北大、社科”等因组成元素间关系密切,社会认可度高、使用广泛,有时我们也将其看成是一种特殊的合成词。现代汉语中双语素合成词是占绝大多数的,当然还有更多数量的语素构成的词,篇幅有限难以展开介绍,但还请读者留意在分析这些词时一定要留意它们内部的多层性。如“老虎机”中外层关系“老虎”修饰“机”,属偏正式;内层关系“老”又做“虎”的前缀,属附加式。

词义及其分类

什么是词义

词义是词的意义,广义上包括词汇意义和语法意,本章中所讲“词义”通常指词汇意义。

词义的分类

  • 理性义 也称概念义,是词义中反应事物概念的意义部分。例如“货币:政府法律规定强制使用,可充当交易的媒介、价值的标准、记帐的单位及延期支付的工具”、“飞船:运送东西的飞行器”等。一般来说,词典里对各条词目的解释就是该词的理性义。另外,理性义还可以分为通用义与专门义。同样是“水”,生活中人们只会把它解释为“一种无色、无臭、透明的液体”,而在化学实验室里“水”就变成了“氢、氧两种元素组成的无机物”。

  • 色彩义 也称附属义,是附着在理性义之上旨在表达评价、形象等内容的词义部分。可细分为以下几类。

    (1) 感情色彩 有褒义、贬义、中性词之分,例如“英雄、伟人、汉奸、抠门、大海、学习”等。

    (2) 语体色彩 有书面语和口语之分,例如“进食──吃饭,交谈──唠嗑”等。

    (3) 形象色彩 能使人产生关于事物形态、颜色、声音等具体形象联想的词义部分。例如“蝴蝶兰、迎客松、鹅黄、啦啦队”等。

    (4) 文化义 一些词出自经典、诗文、民间传说等,本身就具有丰富的历史文化内涵,引人联想。例如“松龟──长寿,莲花──洁净,乌鸦──噩讯”等。

义项与义素

义项

词的理性意义的分项说明。例如“经过”就有两个义项:一是“通过”,二是“经历的过程”。一个词若同时拥有几个义项,那其中必有一个义项是最为基本、常用的,我们把它称作基本义;其他的一些义项一般都是由它直接或间接转变而来的,我们称之为转义。根据转义产生的方式,又可以细分为两种:引申义与比喻义。前者是基本义经过推演而形成的意义,如“锤”基本义是“ 敲打物件的器具”,后来也引申为“用锤敲打”这一动作;后者是基本义被用来比喻另一事物后逐渐固定下来的新意,如“手足”原指手脚,后也用它来比喻“兄弟”。

根据词义项的多少我们可以将其分为单义词和多义词。值得注意的是,日常生活中我们很容易把多义词与一些特殊的同音词混淆在一起。多义词顾名思义就是有两个及以上义项的词,而同音词则是语音相同而意义毫无联系的一组词。试看一对例子:“广”是一个多义词,既可以在“宽广”中指“ 面积、范围宽阔”;又能在“广开言路”中作动词,表“扩大、扩充”义。而“花”则是由一组同音词构成的,一组以“花朵”为基本义,另一组如“花钱、花销”等,则是词义与前者毫不相干的另一组词。

义素

和语音学部分所讲的“音素”、“音位”类似,词义部分也有义素与义位两组概念。前者是最小的不能独立运用的意义单位,也称词的语义特征;后者则是最小的能独立运用的意义单位,略等于之前所讲的义项。有了这样一组概念,接下来我们就可以使用一种名为“义素分析法”的手段来深入分析词的内部意义构成,举例如下。

父亲──[+男性+长辈+血亲] 伯父──[+男性+长辈-血亲]

妹妹──[+女性 -长辈+血亲] 姨妈──[+女性+长辈-血亲]

要注意,只有相关的词才可以进行义素分析,反之如“大海”与“狗”,因二者词义相差过大而很难总结出较为短小的几条区别特征。另外义素的选取也尤为重要,要仔细分析出一组可以区别目标词的特征,然后用“[]”将其标注出来,在前面用“+”“-”号进行分析。

语义场

物理学上把物理量在空间中某个特定区域内的分布称为场,有温度场、引力场、电场、磁场等。语义学中也引入了“场”的概念,从而形成了语义场,它是根据词义的共同特点或关系划分出来的类。同场词有着共同的语义区别特征,同时其各个义素前正负号的差异又将它们在同一个语义场中做出区别。

例如:

词 共同义素 区别义素

        运动项目        陆上项目        评分        计时

游泳        +                -            -            +

跳水        +                -            +            -

体操        +                +            +            -

跨栏        +                +            -            +

有些读者在阅读到上文“只有相关的词才可以进行义素分析”时可能会有些疑惑,不知具体什么样的联系才可以叫作“相关”。在语义场概念引入后,我们就可以对这个问题作出一定程度上的解答——只要词在同一语义场内,就可以认为其具有相关性,从而进行义素分析。那么语义场到底有哪些呢?根据场中各成员间的关系不同,语义场可以粗分为以下几类。

(1)类属义场 场内成员同属于一个更高层的类,如“诗歌──散文──小说”都属于文学体裁类,其中“诗歌”、“散文”等我们称其为下位词,“文学体裁”我们称其为上位词。上下位的概念是相对的、不断转换的,如“诗歌”就可以进一步细分为“古诗、近体诗、现代诗歌”等。

(2)顺序义场 场内成员之间存在着某种顺序排列,如“状元──榜眼──探花”、“立春──雨水──惊蛰”等。

(3)同义义场 场内成员意义相同或相近,如“高兴──开心──喜悦”、“集合──汇合──聚集”等。

(4)反义义场 与同义义场相反,场内成员意义相反或相对,如“高贵──卑贱”、“干净──邋遢”等。

(5)其他关系义场 除上述义场外,仍有部分语义关系无法得以充分归纳,所以将其单列一项,一齐算入“其他关系义场”。例如:“父母──子女”、“前边──后边”等。

词汇的构成

现代汉语词汇分为基本词汇与一般词汇两类。前者具有稳固性、能产性、全民通用性等特征,是机器翻译训练集的理想词源;后者包括古语词、方言词、外来词、行业语、熟语以及新兴的网络用语等,这些词数量多、适用范围窄、更新速度快,是专语语料库的主要面向对象,但并不适合作为给机器自动学习的词汇语法教科书。


语法

什么是语法

语法

语法是语言三要素之一(另有语音、语义),专指一种语言中语素、词、短语和句子等有意义的语言单位由小到大组合所依据的规则。在术语层面,“语法”除了指代上述的语法规律外,还可以指代研究这些语法规律及其系统的科学——语法学。
与语音和词汇不同的是,语法一般比较抽象(抽象性)、变化相对缓慢(稳固性)、因地区民族不同而存在着明显差异(民族地域性)。
语法单位主要有四级,从小到大依次是:语素、词、短语、句子。前两级我们已在之前的篇章中有所涉及,它们在语法中的具体组合规则以及新出现的后两级我们将在在随后的几章中一一予以系统介绍。

句法成分

即句法结构的组成成分,根据成分间存在的陈述、支配等关系可细分为五组:主语和谓语、述语和宾语、定语和中心语、状语和中心语、中心语和补语。
主语是被陈述对象;而谓语则是用来陈述主语的,二者是陈述关系。例如:“她的新发型非常漂亮”,大主语是“她的新发型”,大谓语是“非常漂亮”。
述语又叫动语,表示发生的动作行为;而宾语表客观事物,二者之间是支配、涉及关系。例如:“小明吃完了一大碗饭”,大动语是“吃完了”,大宾语是“一大碗饭”。
修饰语位于中心语之前,用来描写或限制中心语。根据后接中心语的性质又分为定语和状语两种。定语修饰名词性短语里的中心语,而状语则修饰谓词(动词、形容词)性短语里的中心语。在“她的新发型非常漂亮”中,“她的”和“新”作定语修饰中心语“发型”;“非常”作状语修饰中心语“漂亮”。
补语是跟在谓词性短语里的中心语后面的补充成分,起补充说明的作用。例如:“今天超市里的苹果便宜得很”中“很”就作补语来补充说明中心语“便宜”的程度。
此外还有一种独立于八大配对成分之外的特殊句子成分——独立语。它不与句中其他成分产生结构关系,只是出于语用或表达的需要在句中起特定的表意功能。可分为插入语、称呼语、感叹语、拟声语四类,例如:事情已然如此,你说,我还能怎么办?“、老王,你去哪儿?”、“啊,我马上就来。”、“咚咚咚,响起了敲门声。”。

词类

词类是词在语法性质方面划分出的类别,主要依据三个标准:语法功能、形态和意义。其中尤以语法功能标准最为重要,它主要指词的组合能力以及充当句法成分的能力。在三条标准的指导下,词可先粗分为两类:实词与虚词。前者可以单独充当句法成分,意义较为具体;而后者不能充当句法成分,只能伴随实词发挥语法意义。二者还可进一步细分,具体如下。

实词

  • 名词 表示人、事、物、时、地等的名称,又分:

    (1) 专有名词 巴金、美国、社会主义。

    (2) 普通名词 母亲(个体名词)、大众(集合名词)、经济(抽象名词)、烟花(物质名词。

      ① 时间名词 盛夏、清晨、曾经、北魏。
      ② 处所名词 周围、城郊、厨房(欧洲、美国、成都等地名既是专有名词又是处所名词。
      ③ 方位名词 上、左、东、后面、以上。
    

    语法特征 :常作主语、宾语和定语,一般不作状语(时间名词例外);一般可被数量短语修饰,却不能加副词“不”;大多能跟在介词后头构成介词短语;一般不能重叠;单复数同形。

  • 动词 表示动作行为、心理活动以及存现等,又分:

    (1) 动作动词 听、说、读、写、打击、革新。

    (2) 心理动词 爱、恨、害怕、焦虑、希冀。

    (3) 存(变)现动词 有、在、灭亡、变化、发展。

    (4) 使令动词 叫、让、给、请、令、要求。

    (5) 判断动词 是、称、叫、等于。

    (6) 能愿动词 能、会、敢、要、可以、应该。

    (7) 趋向动词 去、来、上、过、出、进去、起开。

    (8) 形式动词 进行、给予、加以。

    语法特征:大多可作谓语(中心语)、动语;能被否定副词“不、没、没有”修饰;除少数心理动词和部分能愿动词外,一般前面不能加程度副词;多数可以后接“着、了、过”;有些动作动词可以重叠,且表意发生一定变化(表短促、尝试、轻松等义)。

  • 形容词 表示事物的形状、性质和状态等,又分:

    (1) 性质形容词 好、英勇、聪慧、大、高、瘦弱。

    (2) 状态形容词 冷清、乌黑、干巴巴、滑不溜秋。

    语法特征:常作定语和谓语(中心语);不带宾语(部分兼类词除外,如“严肃纪律”中的“严肃”既可作形容词又可作动词);多数可被程度副词“很、太”等修饰;部分可重叠,且重叠后意义常趋向加深或适中,不能再被“很”修饰;单音形容词可附加叠音词缀或其他词缀(如“硬邦邦”,亦不能再加“很”修饰)。

  • 区别词 一种特殊的形容词(非谓形容词),表示事物的区别性特征,往往成对出现。例如:“男:女、土:洋、国营:民营、小号:中号:大号”等。

    语法特征:单用只能作定语,多数可以扩充为“的”字短语(如“假的、坏的”等);组成联合短语(如“的”字短语)后可充当主谓宾(如“我要中杯”);单用时否定需用“非”而不能用“不”。

  • 数词 分基数词和序数词以分别表示数目和次序。前者包括“零”至“九”共10个系数词以及“十”到“兆”共6个位数词;后者一般则是在基数前加“第、初”等词构成,当然也有用天干地支、拉丁字母等表次序的情况。

    语法特征:常需和量词组合成数量短语入句,充当定状补;“俩”、“仨”可以看作是“两个”、“三个”的合体词,后不能再加“个”,其意义与功能和数量短语同。

  • 量词 又称“单位词”,表示计算单位,又分:

    (1) 名量词 用以计算人或事物的数量,有个体量词(“根、条、把”等)、集体量词(“群、批、副”等)、度量词(“寸、升、吨”等)之分。这三种也叫“专用名量词”,另有从名词、动词处借用来的名量词,如“一瓶水、一抔土”等。

    (2) 动量词 用以计算动作次数多少以及持续时间长短,如“下、次、场、番”等。另有借用的动量词,如“嗷一嗓子、打一拳、算了一算”等。

    语法特征:常位于名词和数词之间,数量短语可作定状补宾;许多单音节量词可以重叠,且重叠后意义常趋向每一、逐一、多等义,不能再作状语、宾语;有时也可单独入句,但常常是对数词“一”的省略(如“我有个朋友”等);量词与名词的搭配关系并不固定,随方言习惯而各有差异。

  • 副词 表示范围、程度、时间等义,常用以修饰动词、形容词性词语,又分:

    (1) 表示范围 全、都、皆、均、总、共、齐、就、只、单、光。

    (2) 表示程度 很、非常、极、最、十分、太、越发。

    (3) 表示时频 立即、曾经、刚刚、一向、再次、偶尔。

    (4) 表示肯否 必须、一定、别、未、莫、没有、勿。

    (5) 表示语气 竟然、岂非、偏、难怪、未免、只好。

    (6) 表示处所 到处、处处、随处、四处。

    (7) 表示关联 遂、就、再、又、仍。

    (8) 表示情态方式:匆匆、一味、亲自、暗自、随意。

    语法特征:皆可作状语,例外如“极”、“很”等还可作补语;一般不单独成句,只有“别、不、当然、何苦”等可以单用于省略句;部分副词可以起关联作用(如“越跑越快、又蹦又跳”等)。

  • 代词 起代替、指示作用的词,语法功能与所代指语言单位大体相当,又分:

    (1) 代名词 有一般代名词(包括人称、疑问、指示)、处所代词、时间代词、数量代共4种,如“我、什么、这、哪里、这会儿、多少”等。

    (2) 代谓词 怎么、这样。

    (3) 代副词 多么、那么。

    (4) 其他指示代词 各、每、旁的、其他。

    语法特征:一般单用,不被别的词所修饰;使用灵活,有任指、虚指等用法(如“明天吃什么呢”、“多少钱他都不卖”等)。

  • 拟声词 也称“象声词”,用以模拟事物的声音,如“轰、哞、叮咚、呼啦啦”等。

    语法特征:常在句中作状语,有时后加“地”、“一声”等(有人把能加上“一声”的称作“单纯拟声词”,不能的称作“合成拟声词”);还可作定谓补,亦能单独成句。

  • 叹词 表示感叹、应答或呼唤的词,如“唉、哎、啊、喂、哦、嗯”等。

    语法特征:常作句子独立语,亦可单独成句。

虚词

  • 介词 也称“前置词”,常在实词、短语前组成介词短语,用以修饰或补充谓词性词语。可分为:

    (1) 表示施受关系 让、被、叫、把、给。

    (2) 表示原因、目的:因为、为了、由于。

    (3) 表示方式:据、按、照、依、靠、以。

    (4) 表示关涉对象:和、跟、同、比、对、关于。

    (5) 表示时间、处所、方向 自、从、往、到、至、趁着、当着。

    语法特征:主要作状语,少数也能作补语、定语;多由动词虚化而来(如“比、给、叫”等),有些介词还处于过渡阶段,判断标准是介词不可重叠、不能单独作谓语(中心语)、不能加动态助词“着了过”。

  • 连词 也称“连接词”,用以连接词、短语、分句和句子等成分并表示其间逻辑语义关系的虚词,又分:

    (1) 主要连接词和短语 和、跟、同、与、及、或。

    (2) 主要连接词语或分句 而、并、且、或者。

    (3) 主要连接复句中的分句 虽然、然而、与其、因此、只要。

    语法特征:不能单独充当句子成分,需连接词语才可表达语法意义;常与副词配合成关联词语;有些特殊兼类词(如“和、同、跟”等)既是介词也是连词,需加以区分。

  • 助词 附着在实词、短语或句子前后表示一定的结构关系或语法意义,又分:

    (1) 结构助词 的、地、得、之(定语后接“的”、状语后接“地”、补语前加“得”)

    (2) 动态助词 着、了、过。

    (3) 尝试助词 看(轻声。

    (4) 时间助词 来着、的(如“饭后是我洗的碗”等。

    (5) 约数助词 把、来、多、左右。

    (6) 比况助词 似的、一般、一样 。

    (7) 其他助词:所、连、给、等、们。

    语法特征:必须跟在别的词语前后,且后接的都读轻声,前加的都读原调。

  • 语气词 也称“语(气)助词”,主要附在句末或句中停顿处表示语气,念作轻声。可分为:

    (1) 陈述语气词 的、了、吧、啊、呢、嘛、嘞。

    (2) 疑问语气词 吗、吧、么、呢。

    (3) 祈使语气词 吧、了、啊。

    (4) 感叹语气词 啊。

    语法特征:语气词常跟语调一起表达语气,因此同一个语气词可能会因语调不同而出现在好几种不同的语气中(如“啊”);语气词可以连用,并具有一定的层次性(第一层为“的”,第二层为“了”,第三层为“啊、吗、吧、呢”),一般全局的基本语气由最后一个语气词决定。

短语

什么是短语

短语也叫“词组”,是词和词按照一定的语法规则和语义搭配关系组合起来的,没有句调的语言单位。词组成短语的主要语法手段有语序和虚词两类,前者主要体现在词组的直接组合中,后者主要体现在间接组合里,例如“努力工作/工作努力、老人与海/老人的狗”等。
如何区别词和短语呢?一个简单的方法就是看这个语言单位是否可以插入其他成分进行扩展而自身意义还不发生较大的变化。例如“黑板”原指一种教具,若是强行拓展为“黑色的板”,就会变成一种泛指概念;而网络热词“心累”中间加入程度副词拓展为“心好累”,词义本身并无改变,只是程度加深了。

短语的类型

  • 组合分类
    (1) 主谓短语 前主后谓 ,说明主语是什么或怎么样,二者间是陈述说明关系。例如:时光||飞逝(名||动)、空气||清新(名||形)、明天||周二(名||名)、他的话||我不相信(名||主|谓)

    (2) 动宾短语 前动后宾,表示做什么、有什么、是什么,二者间是支配、涉及关系。例如:提高|免疫力(动||名)、喜欢|热闹(动||形)、开始|学习(动||动)、喜欢|你(动||代)、买|两袋(动||数量短语)

    (3) 偏正短语 由修饰语和中心语组成,二者间是修饰与被修饰的关系,又分为定中(有时以结构助词“的”为标志)、状中两类(有时以结构助词“地”为标志)。例如:海上钢琴师、雨果的秘密、爱乐之城、海边的曼彻斯特(定中)、不停地说、电话联系、这么做、一米长(状中)

    (4) 中补短语 也称补充短语,由两个谓词组成,前为中心语后为补语,二者间是补充说明关系,有时补语前有结构助词“得”作为标志。例如:讲得<好>(动·形)、学<会>(动·动)、跑了<一圈>(动·数量短语)、高兴<极>了(动·副)

    (5) 联合短语 由语法地位平等的两个及其以上部分组成,其间是联合关系(可细分为并列、选择、递进等关系),有时用“与、和、或”等词连接。例如:罗密欧与朱丽叶(并列)、生存还是毁灭(选择)、讨论并通过(递进)

    (6) 其他短语 除开以上五种基本短语,另有连谓(多个谓词性成分连用,如“外出见面”)、兼语(动宾和主谓短语套用,如“祝你幸福”)、同位(前后两项不同词语指向同一事物,如“美国总统特朗普”)、方位(主要表示处所、范围或时间,如“放学后”)、量词(分数量和指量,如“一根、哪款”)、介词(如“[为中华崛起]而读书”)、助词(分“的”字、比况、“所”字等,如“好吃的、傻瓜似的、所了解”)等短语,在此不再一一赘述,感兴趣的读者可以自行查阅相关书籍。

  • 功能分类,依照短语的句法功能相当于那类词而划分为:

    (1) 名词性短语 包括主谓、偏正、联合、同位、量词、方位、“的”字短语

    (2) 谓词性短语 分为动词性短语和形容词性短语,包括主谓、偏正、中补、联合等

    (3) 加词性短语 包括偏正短语(如“高质量”)和介词短语(如“向北走”)

短语的歧义

我们把意义单一的短语称作“单义短语”,把含有两个及其以上意义的短语称作“多义短语”。对于后者,人们在日常对话或篇章理解中常可通过背景信息或上下文进行语义排歧,然而当计算机处理这些字面上完全相同的短语时事情就没那么简单了。理清歧义产生背后的原因,有助于我们对目前的机器理解机制进行改进。

  • 结构关系不同产生的歧义

A. 共享-单车,动宾,动宾短语(相当于“共享什么”)

B. 共享-单车,定中,偏正短语(相当于“什么单车”)

  • 语义关系不同产生的歧义

A. 鸡-不-吃-了,主-谓-状-中,主谓短语(相当于“不吃鸡了”)

B. 鸡-不吃了,主-谓状中,主谓短语(相当于“鸡不吃食了”)

  • 结构、语义关系皆不同产生的歧义

A. 咬-死-了-猎人-的-狗,动-谓-中-补-定-中,动宾短语(相当于“猎人的狗被咬死了”)

B. 咬-死-了-猎人-的-狗,定-中-动-宾,偏正短语(相当于“狗咬死了猎人”)

以上分析短语时用到的框式图解方法称作“层次分析法”,它要求分析到词,层层二分(兼语、联合与连动例外),是国内传统现代汉语研究常用来分析各级语法单位的切分工具。层次分析法先是切分,再是定性;既可以由小到大(组合法),也可以由大到小(切分法)。

此外,西方语言学家乔姆斯基还提出了一种“X-bar”理论用来分析句法结构,其形式正是我们常在外文自然语言处理教材中看到的二叉树。应用这套理论,上文提到的三种例外也全部可以进行二分表示,具体内容请有兴趣的读者自行参阅原著《Lecture on Government Binding》(1981)或外文语言学教材如《An Introduction to Language》(Eighth Edition)等进行学习。

单句

什么是单句

句子是用以实际交际的基本语言单位,带有一定语调并表达相对完整的意思。而单句则是由短语或词构成的句子,在句子结构上与“复句”相对。

单句的分类

单句大体有两种分类角度:根据句法成分的搭配格局分出的结构类,也叫句型;根据整个句子的语气语调分出的语气类,也叫句类;具体如下。

  • 句型

    (1) 主谓句 由“主语+谓语”构成的单句,根据谓语核心的词性还可分为三小类:动词性谓语句、形容词性谓语句和名词性谓语句。例如:“故乡的月光不知让多少人魂牵梦绕。”(动谓)、“这块石头硬邦邦的。”(形谓)、“明天礼拜天。”(名谓)。

    (2) 非主谓句 主谓句的补集,常由单个词或短语组成,分不出主谓语。主要分为:名词性非主谓句、动词性非主谓句、形容词性非主谓句、叹词句和拟声词句几类。例如:“妖怪啊!”(名)、“加油!”(动)、“妙极了!”(形)、“哎哟!”(叹)、“砰!”(拟)。

  • 句类

    (1) 陈述句 给出一定事实信息并带有陈述语气、语调的句子。常用平调、平而略降调,根据陈述内容的不同还可分为叙述句、描写句、判断句三类。例如“我下班回家了。”(叙述)、“同志们的工作热情都十分高涨。”(描写)、“你就是我失散多年的亲人呐!”(判断)。

    (2) 疑问句 用提问索取相关信息并带有疑问语气、语调的句子。多数用升调,根据疑问标记方式还可分为是非问、选择问、正反问和特指问四类。例如:“你饿了吗?”(是非)、“我们是去公园还是去逛街?”(选择)、“你来不来?”(正反)、“谁动了我的奶酪?”(特指)。

    (3) 祈使句 要求受话人实施某种行为的句子,常用短促的降调。例如:“放下武器!”。

    (4) 感叹句 表达强烈情感的句子,常用舒缓绵长的降调。例如:“人心不古哇!”。

几类特殊句式

句式是根据句子的局部结构特征划分出来的句子类型,体现了语言在形式与表意等方面的特色。现代汉语中常见的、有结构特点的句式主要有主谓谓语句、双宾句、连谓句、兼语句、存现句、“把”“被”诸字句等。因篇幅有限,在此就不一一赘述这些特殊句式的构成与特点,请有兴趣的读者自行参阅相关教材,本书但举几例于下供大家思考品味。例如:“什么大风大浪他没见识过?”(主谓谓)、“老师告诉小华明天比赛。”(双宾)、“这大饼吃起来咯牙。”(连谓)、“你妈妈喊你回家吃饭!”(兼语)、“天墙上挂着一副世界地图。”(存现)、“你可把我气坏了!”(“把”字句)、“小明被人打了。”(“被”字句)。

析句方法

一个单句可以从句法、语义、语用等角度进行分析,其中单句的句法分析仍可以沿用我们之前介绍的层次分析法,在此就不再赘述了。而语义分析最常见的有三种方法,分别是:语义特征、语义角色和语义指向。其中语义特征的表示方法有点类似于之前讲过的义素分析法,都是用[+/-A]来进行标注;语义角色则是根据词语间的相互关系将其划分为“时间/处所”、“施/受/与事”、“工具”、“动作”、“结果”等成分;至于语义指向则是利用箭头将句中指向不明的两个成分关联起来。

最后,若是要对句子进行语用分析,有几组概念必须先做了解。在实际交流过程中,人们常常会出于各种各样的需要故意对句子成分进行简省或调换,这些变化后的句型统一叫做“变式句”。其中简省了成分的叫“省略句”,调换了句子成分的叫“倒装句”。面对以上变式句的语用分析,我们第一步要做的就是通过扩展、移位转换等辅助手段将其变为正常结构及语序的句子来进行分析。

复句

什么是复句

上文已经提到“复句”是结构上与“单句”相对的句子类别。它特指由两个及以上意义相关而结构上互不包含的分句,加上贯通前后的句调后所构成的句子。

复句的意义分类

根据复句分句间的语义关系,我们可以把复句相应地分为联合复句、偏正复句两大类。各分句间意义地位平等且无主从之分的复句叫联合复句(等立复句),反之句类有主从、正偏之分的就叫偏正复句(主从复句)。二者之下又可以进一步细分,具体如下。

  • 联合复句

    (1) 并列复句 前后分句分别对有关联的几件事情或同一事物的不同方面进行叙述,常用意合法或“一方面……一方面”“既……又”等关联词语连接。例如:“读诗使人灵秀,数学使人周密。”(意合法)、“低碳不仅是一种生活方式,也是一种生活态度。”(关联词)。

    (2) 承接复句 前后分句按时空、逻辑等顺序说明相关的动作或情况,常用分句顺序或关联词“然后”“接着”“便”等连接。例如:“湖水滋润着湖边的青草,青草喂肥了羊群,羊奶哺育着少女的后代子孙。”(顺序)、“他说家里还有事,就提前走了。”(关联词)。

    (3) 解说复句 用后一分句解释说明或归纳概括前面的分句,有总分和解释两种关系,一般不用关联词,以分句间语义关系连接。例如:“我从国外给你带回来了一盒巧克力,榛子味的。”(解释)、“世上有两样东西不可直视,一是太阳,二是人心。”(总分)。

    (4) 选择复句 提出两种或多种可能的情况进行选择,常用“是……还是”“要么……要么”“宁可……也不”等合用关联词连接。例如:“如果我不在家,就是在咖啡馆。如果不是在咖啡馆,就是在往咖啡馆的路上。”

    (5) 递进复句 用后面分句进一步解释说明前句的意思,从而构成由浅入深的表达格局,反之亦可。常用关联词“不但……而且”“尚且……何况”“甚至”等连接。例如:“木犹如此,人何以堪。”

  • 偏正复句

    (1) 条件复句 偏句提出条件,正句说明这一条件推出的结果。有充足条件、必要条件、无条件三类,常用关联词“只要……就”“只有……才”“任凭”等连接。例如:“只要人人都献出一点爱,世界将变成美好的人间。”(充足)、“只有社会主义才能救中国,只有中国特色社会主义才能发展中国。”(必要)、“无论是谁,都会在不经意间失去什么。”(无条件)。

    (2) 假设复句 偏句先提出假设,正句再说明将产生的结果。有一致和相背两类关系,常用关联词“如果……那么”“即使……也”等连接。例如:“如果你不说出去,就没有人会知道。”(一致)、“你要是不方便的话,也可以明天来。”(相背)。

    (3) 因果复句 偏句说原因,正句表结果。有说明和推论两种关系,常用关键词“因为……所以”“既然”等连接。例如:“因为一个小小的失误,这次的行动彻底失败。”(说明)、“小明这题都算错了,可见他上课没有认真学。”(推论)。

    (4) 目的复句 偏句说行为,正句表明目的。有得到和避免两类,常用关联词“为了”“以免”等连接。例如:“你把这些零食都带上,路上才好充饥。”(得到)、“一块儿上,省得我一个个收拾你们!”(避免)。

    (5) 转折复句 前后分句语义上相对或相反。依转折强度不同,有重转、轻转、弱转之分。常用关联词“虽然……但是”(重)、“然而”“却”(轻)、“只是”“不过”(弱)等连接。例如:“虽然已是家财万贯,他却仍郁郁寡欢。”

多重复句与紧缩句

根据结构层次的数量,复句可以划分成“一重复句”和“多重复句”两类。我们之前所举的例句大多都是一重复句,而多重复句则是由两个及以上结构层次嵌套使用得到的句子。分析时常常根据各分句间的关系,第一层复句用|,第二层复句用||,以此类推将句中组合层次进行切分,并在竖线旁标明结构关系。例如:“老家没有高楼大厦,||递进甚至没有电灯电话,|转折可那儿的人们关系单纯亲切,||并列生活自在悠闲。”

紧缩句是取消了分句间语音停顿,压缩了某些关联词语,结构上更为紧凑的复句。它与单句中的连谓句颇为相像,分析时要仔细辨认,区别主要在于结构上有无关联词,语义上有无各类关系。例如:“他俩见面交谈起来。”(连谓)、“他俩一见面就交谈起来。”(紧缩)。


参考文献

  1. GitHub
  2. 图书:《自然语言处理理论与实战》

完整代码下载

源码请进【机器学习和自然语言QQ群:436303759】文件下载:自然语言处理和机器学习技术QQ交流

作者声明

本文版权归作者所有,旨在技术交流使用。未经作者同意禁止转载,转载后需在文章页面明显位置给出原文连接,否则相关责任自行承担。

白宁超 wechat
扫一扫关注微信公众号,机器学习和自然语言处理,订阅号datathinks!