闲聊 VOT、韵律和音系
VOT, Voice Onset Time, 又叫“发声起始时间”,是语音学里一个非常重要的概念。VOT 从声学角度描述了传统语文学/语言学对于所谓清浊的区分(以下为方便打字,我都使用VOT)。其定义非常简单,就是声带震动起始时间与口腔除阻时间的差。
VOT = T_{voice}-T_{release}
如果 VOT 是负值,那么声带先于口腔除阻,意味着辅音成阻过程中有声带震动产生的低频能量。如果 VOT 是正值但小于 20ms 的话,人的听觉系统会将声带震动起始和除阻识别为同时事件,成阻其间没有低频能量,除阻瞬间声带震动产生周期震动。如果 VOT 是正值但大于20ms的话,人类的听觉系统会将除阻和震动识别为一先一后两个事件,口腔除阻前后都没有声带震动产生的能量。这个关系大致可以描述为下图 [1] :
VOT 为负值的话反应在听觉上就是所谓的带声辅音,或浊音,如果 VOT 为正的话就是不带声辅音,或清音。VOT 如果长至20ms以上被描述为不仅不带声而且还送气。
这种从声学和物理角度给出的关于传统所谓音系清浊的定义会给人一种错觉,好像人类语言对于口腔成阻和声带震动的“语言架构上”的安排只有这三种可能性。可正如我之前在这篇回答( 什么是实验语音学?其与语音学、语言学以及应用语言学的关系是怎样的? )里提到的一样,即使在上面三个范畴内部,不同语言也会对 VOT 有不同的安排,甚至会出现有些语言音系上的所谓送气音与别的语言的所谓不送气音 VOT 相当的情况。
影响 VOT 值的不仅仅是各语言不同的音系,或“语音语法知识” [2] 。众所周知,语言虽然是一个具有静态结构且相对稳定的复杂系统,但是落实到话语层面,这些相对稳态的结构是需要被我们的调音器官(调音器官包括口腔内各器官和手势)执行并且输出成语音或手势(手语)信号的。调音器官的具体执行落实到生理或物理层面会受到诸多因素影响,这些因素也影响 VOT 。
在这篇文章里我想带大家简单了解一下哪些语言上的因素会左右实际观测到的 VOT 值。
1. 韵律
语言学上所说的韵律 (prosody) 并不只包括声调、语调、音高等超音段 (suprasegmental) 特征。超音段特征只是韵律实现的一个方面,韵律还包括了短句的构成 (phrasing) 这类结构性特征。因为人的生理结构限制,说话过程中需要调整呼吸,所以语言单位的产出计划 (speech planning) 必须进行一定程度的切分。有时候这种切分就带有不仅仅是生理意义,而是语言意义。比如我之前在想法里问过怎么区分: (2\times3)^2 和 2\times3^2 。如果考虑我们只有下面这个音段序列的话,
er cheng yi san de ping fang
区分就只能通过在哪里插入一个暂停来体现:
er cheng yi san || de pingfang
er || cheng yi san de pingfang
这样的暂停的不同安排会导致语音产出细节上非常大的变化。下图显示的是我自己用普通话读上面这两个句子产生的频谱图和基频图。
可以看出不仅仅暂停变换了位置,两个模式下音节“二”和“三”的产出模式也非常不一样。在“二乘以三,的平方”中,“二”大概是 195 ms,“三”是大约 378ms。而在“二,乘以三的平方”中,“二”达到了 278ms,而“三”变成了 285 ms。“二”和“三”各自增减了大约 90ms 的时长。
暂停在声调模式上也有一定影响。“二”的四声在“二乘以三,的平方”中只下降到了大概 125hz 附近,在“二,乘以三的平方”中下降到了100hz出头,而他们的起始点都是差不多的频率。“三”的一声在下图中略带拱形,而在上图中则非常平。
在汉语这样音高 (pitch) 的声调 (tone) 功能比语调 (intonation) 功能显著的语言中,这样的韵律边界的调整可能主要依赖于插入暂停来实现。而在英语这样语调显著的语言中韵律边界还可以通过各种各样的语调来区分 [3] :
图中展示的是下面两个句子的区别:
When danger threatens, your children call the police.
When danger threatens your children, call the police.
当暂停在 threatens 后插入时,边界调 (boundary tone) H% 粘合在了 threatens 词尾,当暂停出现在 children 后时,边界调粘合在 children 词尾。
韵律不仅仅是关于在哪里插入边界(暂停),还包括哪些句中要素比别的要素更加凸显的问题 (prominence)。比如,
Who went to school?
James went to school。
Where did James go?
James went to school 。
当焦点在 James 上时,核心音高 (nuclear pitch) H*出现在 James 上。而当 school 成为焦点时,H* 就出现在 school 上:
音系学的一个分支语调音系学 (intonational phonology) 就是研究人们说话的时候是怎样对一段长语音流进行切割,这样的切割安排与其他的语言要素比如句法和音系等等有什么联系的学问。一般而言从语言结构角度来说,音系学认为韵律主要有两个功能:
- 分界功能 delimitative function
- 凸显功能 culminative function [4]
分界功能即刚才提到的在什么地方划分怎样的合适的边界。不同的边界的“强度 (strength)”也会不一样,比如英语中一般认为可以划分三个层次的边界:语调短语边界 (intonational phrase boundary),中间短语边界 (intermediate phrase boundary) 和韵律词边界 (prosodic word boundary)。这样一来我们就可以从韵律角度将 When danger threatens your children, call the police 分拆成下面这样的结构 [5] :
在这个韵律层级的最底层是音段,依次往上是音节、韵律词、中间短语和语调短语。
凸显功能就决定在每个这样的韵律短语,或韵律域中,哪个语言单位比其他语言单位在韵律层面更突显。反映在上面这幅图中就是,哪个词获得 L+H* 这个核心音高。在第一个语调短语 (IP) 中是 danger,在第二个 IP 中是 police。
2. 韵律与VOT
那么接下来我们要问的问题就是,这个性质和 VOT 有什么关系呢?语音学家通过研究发现韵律边界对处于韵律边界附近的语音单位的产出模式有着微小但又显著的影响,比如边界前的音节普遍会被拉长 [6] [7] 。
那 VOT 会怎样随着韵律结构的不同而变化呢?一个显而易见但却不一定正确的猜想是“VOT在韵律边界会被拉长”。这个答案对又不对。对是因为 VOT 随着韵律边界的强度的增长而变长确实是重复观察到的现象。比如韩语的送气音的 VOT 在其他条件不变的情况下,就很明显的随着韵律边界的强度提升而变长 [8] 。
英语中也观察到了类似现象 [9] :
但是,这只针对清送气音而言。清不送气或者浊音的 VOT 所受到的影响很小。比如在英语的 /sC/ 复辅音序列中,研究发现在 sC 前方的韵律边界强度对辅音 C 的 VOT 并没有什么影响 [10] :
这有可能是因为清不送气音在词首出现时 VOT 出现的天花板效应。一方面英语的音系上的浊音在词首清化了,所以 VOT 必须大于0。而另一方面 VOT 又不能很长,因为长 VOT 区段还有清送气音占着,如果继续增长的话词首的送气对立就消失了,会导致音系信息丢失。
有趣的是,荷兰语中的清音甚至还呈现出相反的性质:随着韵律边界强度的上声 VOT 值反而下降 [11] :
看起来虽然荷兰语和英语一样在词首都只区分清送气和不送气,但是清送气音的语音性质却相当不一样。所以 Cho 在论文中认为这是因为荷兰语中这个清送气音带的语音特征是 [-spread glottis],而英语中则是 [+spread glottis] 的缘故。因为一个取值为负,一个取值为正,所以在辅音处在强韵律位置时强化的方向是相反的。
更加有趣的是,不论在刚才的英语还是荷兰语的数据中都出现了韵律边界和凸显度之间有趣的交互作用。比如在英语数据中,Cho 和 McQueen 发现,如果辅音前紧跟着韵律边界而不是s(即s#C),并且单词本身并没有接受核心音高 (nuclear pitch accent,参见刚才 James went to school 的例子) 的话,韵律边界强度越高则 VOT 也越长:
上图中左边两组数据显示当音节被核心音高所标记的时候,韵律边界的强度对 VOT 是没有影响的。当核心音高消失以后,边界首位的 C 的 VOT 随着强度上升而上升,而紧跟在边界首位的 s 后边的 C 却 VOT 随着强度上声而下降。
荷兰语中也呈现出非常类似的效应。即边界强度效应只在目标音节不被词重音标记时才显现出来:
那是什么原因导致的这一行为呢?语音学家猜测这是因为 VOT 的扩张应该是有一个上限的,而韵律的分界功能和凸显功能就会在这里呈现此消彼长的竞争性关系:如果 VOT 随着凸显功能(重音或者核心音高)变化的话,那么就没有多少空间再留给边界强化功能发挥作用了。是另外一种天花板效应。
从调音的角度来看,VOT 其实携带的是元音的一部分信息。我在这篇回答里写过如何看待音节首末位不同的调音动作的时间组织:
元音的调音动作与辅音的调音动作在音节首是几乎同时发生的,并不因为声门的状态而改变。可是因为VOT的存在,元音调音动作的一部分可能并没有完全反映到周期性乐音音信号上。所以从调音语音学角度来说,对清辅音而言,与其说 VOT 是辅音的性质,倒不如说它是和元音的调音同时发生的事件。 因此韵律的凸显功能在进行韵律强化时延长元音的同时也延长了与元音的调音同时进行的 VOT,也就是声门打开这个动作。而强化不是无休止地加进各种可能要素进行扩张,于是形成了天花板效应。如果韵律的凸显功能强化了 VOT 的话,韵律的分界功能就没有操作空间了。
VOT 可以说是语音学中最基础的几个概念之一了,语音学家已经对其进行了将近 60 年研究。可正如我们在上面看到的,从理论角度出发,可以说 VOT 的本质还并不是完全清楚。对于一个小小的参数的深入研究依然可以给我们带来许许多多有关语言和语言结构到底是什么的有趣的观察和思考。
参考
- ^ https://www.researchgate.net/publication/317958353_Learning_and_teaching_of_foreign_language_pronunciation_in_multilingual_settings_A_questionnaire_study_with_teachers_of_English_French_Italian_and_Spanish/figures?lo=1
- ^ Kingston, J., & Diehl, R. L. (1994). Phonetic knowledge. Language, 70(3), 419-454.
- ^ Cho, T. (2016). Prosodic boundary strengthening in the phonetics–prosody interface. Language and Linguistics Compass, 10(3), 120-141.
- ^ 国内有翻译作“达顶性”。我觉得这个词虽然是基于 culminative 这个词的词汇义翻译,但是用于描述韵律结构有点不明所以,所以私译为“凸显”。
- ^ 同注 3
- ^ Gussenhoven, C., & Rietveld, A. C. (1992). Intonation contours, prosodic structure and preboundary lengthening. Journal of Phonetics, 20(3), 283-303.
- ^ Berkovits, R. (1993). Utterance-final lengthening and the duration of final-stop closures. Journal of Phonetics, 21(4), 479-489.
- ^ T. Cho and P. A. Keating, “Articulatory and acoustic studies on domain-initial strengthening in Korean,” Journal of Phonetics, vol. 29, no. 2, pp. 155–190, 2001, doi: 10.1006/jpho.2001.0131.
- ^ T. Cho and P. Keating, “Effects of initial position versus prominence in English,” Journal of Phonetics, vol. 37, no. 4, pp. 466–485, Oct. 2009, doi: 10.1016/j.wocn.2009.08.001.
- ^ T. Cho, Y. Lee, and S. Kim, “Prosodic strengthening on the /s/-stop cluster and the phonetic implementation of an allophonic rule in English,” Journal of Phonetics, vol. 46, no. 1, pp. 128–146, Sep. 2014, doi: 10.1016/j.wocn.2014.06.003.
- ^ T. Cho and J. M. McQueen, “Prosodic influences on consonant production in Dutch: Effects of prosodic boundaries, phrasal accent and lexical stress,” Journal of Phonetics, vol. 33, no. 2, pp. 121–157, 2005, doi: 10.1016/j.wocn.2005.01.001.