基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 ·...

10
http://www.sinoss.net - 1 - 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 刘金桥 彭建国 (湖南大学文学院,湖南长沙,410082) 摘要:本文采用 PENTA 模型作为实验工具,对长沙地方普通话固化变体的单字进行音高实验研究,考察 长沙地方普通话固化变体的音高特征。长沙地方普通话是以长沙方言为基础的本地人在学习普通话过程中 产生的一种中介语,分别是一般变体和固化变体,固化变体具有系统稳定、语感统一、功能明确等特征, 我们选取定型性较强的固化变体作为研究对象。通过调查、收集录音材料,利用 PENTA 音高模型进行语 音标注,然后通过机器学习,提取并分析音高目标参数,并与相关语言参数进行对比。在目标参数基础上, 进行音高基频曲线拟合,拟合效果良好。 关键词PENTA 模型;音高实验;长沙地方普通话;固化变体 中图分类号: H0 文献标识码:A 一、PENTA 模型简介 PENTA 音高模型(The Parallel Encoding and Target Approximation Model)是许毅基于 声调语言的复杂音高特性,提出的基频曲线的拟合和预测方法,是一种适用于声调语言的音 高模型,翻译为“平行编码及目标趋近模型”(Xu2004)。PENTA 模型目前多用于研究 汉语普通话的韵律特征,具体研究对象包括普通话的声调、连续变调、焦点、话题、情感语 调等(Xu1999 2001 2009),也有少量用于方言和民族语音高研究的实例,如以山东方言 西齐区的济南、聊城、淄博为实验研究对象,采用声学实验方法对比分析 3 个方言在焦点语 音实现方面的异同(段文君、贾媛、冉启斌, 2013);研究彝语中清浊塞音对声调的影响(王 蓓,2010),维吾尔语中疑问和焦点对语调的共同调节作用(吐尔逊·卡得、王蓓,2013等。上述研究表明,PENTA 模型适用于像汉语这种语调层次结构复杂的声调语言,能够用 于对汉语语调和声调的复杂关系进行考察,以音节为单位进行基频的数学建模、参数提取以 及基频合成,更有利于揭示汉语音高表现的底层编码机制,更适用于汉语的语句音高曲线的 生成和预测。 模型的基本原理在于平行编码和目标趋近,主要功能是提取音高目标参数、拟合音高曲 线以及检验拟合结果,主要操作工具为 PENTA Trainer,许毅及其同事在完成 PENTA 模型 的理论研究后,先后开发了基于 PENTA 模型的操作工具 PENTA Trainer1 (Xu & Prom-On 20102014)及其改进版 PENTA Trainer2 (Xu & Prom-On 2014)。二者的主要区别体现在参数 提取方法上的改进,PENTA Trainer1 采用的参数提取方法是逐个音节进行局部最优搜索,

Transcript of 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 ·...

Page 1: 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 · 高模型,翻译为“平行编码及目标趋近模型”(Xu,2004)。PENTA 模型目前多用于研究

http://www.sinoss.net

- 1 -

基于 PENTA 音高模型的长沙地方普通话固化变体

单字音高实验研究

刘金桥 彭建国

(湖南大学文学院,湖南长沙,410082)

摘要:本文采用 PENTA 模型作为实验工具,对长沙地方普通话固化变体的单字进行音高实验研究,考察

长沙地方普通话固化变体的音高特征。长沙地方普通话是以长沙方言为基础的本地人在学习普通话过程中

产生的一种中介语,分别是一般变体和固化变体,固化变体具有系统稳定、语感统一、功能明确等特征,

我们选取定型性较强的固化变体作为研究对象。通过调查、收集录音材料,利用 PENTA 音高模型进行语

音标注,然后通过机器学习,提取并分析音高目标参数,并与相关语言参数进行对比。在目标参数基础上,

进行音高基频曲线拟合,拟合效果良好。

关键词:PENTA 模型;音高实验;长沙地方普通话;固化变体

中图分类号: H0 文献标识码:A

一、PENTA 模型简介

PENTA 音高模型(The Parallel Encoding and Target Approximation Model)是许毅基于

声调语言的复杂音高特性,提出的基频曲线的拟合和预测方法,是一种适用于声调语言的音

高模型,翻译为“平行编码及目标趋近模型”(Xu,2004)。PENTA 模型目前多用于研究

汉语普通话的韵律特征,具体研究对象包括普通话的声调、连续变调、焦点、话题、情感语

调等(Xu,1999 2001 2009),也有少量用于方言和民族语音高研究的实例,如以山东方言

西齐区的济南、聊城、淄博为实验研究对象,采用声学实验方法对比分析 3 个方言在焦点语

音实现方面的异同(段文君、贾媛、冉启斌,2013);研究彝语中清浊塞音对声调的影响(王

蓓,2010),维吾尔语中疑问和焦点对语调的共同调节作用(吐尔逊·卡得、王蓓,2013)

等。上述研究表明,PENTA 模型适用于像汉语这种语调层次结构复杂的声调语言,能够用

于对汉语语调和声调的复杂关系进行考察,以音节为单位进行基频的数学建模、参数提取以

及基频合成,更有利于揭示汉语音高表现的底层编码机制,更适用于汉语的语句音高曲线的

生成和预测。

模型的基本原理在于平行编码和目标趋近,主要功能是提取音高目标参数、拟合音高曲

线以及检验拟合结果,主要操作工具为 PENTA Trainer,许毅及其同事在完成 PENTA 模型

的理论研究后,先后开发了基于 PENTA 模型的操作工具 PENTA Trainer1 (Xu & Prom-On

2010、2014)及其改进版 PENTA Trainer2 (Xu & Prom-On 2014)。二者的主要区别体现在参数

提取方法上的改进,PENTA Trainer1 采用的参数提取方法是逐个音节进行局部最优搜索,

Page 2: 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 · 高模型,翻译为“平行编码及目标趋近模型”(Xu,2004)。PENTA 模型目前多用于研究

http://www.sinoss.net

- 2 -

然后对具有相同编码方式(即具有相同功能成分)的音节进行参数平均。这种方法存在两个

缺陷:1.对某个音节提取出的参数是最适合这个音节的,但并不一定适合所有具有和该音节

相同功能成分的其他音节;2.由于误差函数的复杂性,参数提取时容易陷入局部最优解,而

不能得到全局最优解。PENTA Trainer2 它采用的是一种全局的随机优化方法,能有效克服

上述缺陷,简单来说,它是把具有相同功能成分的所有音节当成一个整体来训练,得到的参

数是使得所有这些音节的综合误差最小,而且在优化过程中采用了模拟退火的随机优化算

法。由于 PENTA Trainer2 更为先进,本文后续研究都是以它作为操作工具,该操作工具是

嵌入了 Java 程序的 Praat 脚本,可以直接将其插件安装在 Praat 软件中使用,安装成功后 Praat

界面如图 2.2 所示。从图中可以看出,PENTA Trainer2 具有四个功能:标注(Annotate)、

导入(Import)、学习(Learn)和合成(Synthesize)。

二、长沙地方普通话固化变体界定

地方普通话作为上位概念,在各地有具体形式,如“萧山普通话”“长沙普通话”等,

劲松、牛芳(2010)深入考察长沙普通话,认为长沙普通话内部可以分为两个层次,除了有

基本的地域变体,还有一种固化变体。彭建国、刘金桥(2017)也认为这种固化变体具有定

型性,系统稳定,语感统一,功能明确,使用者一般属于高学历年轻群体,这些人一方面能

够使用标准普通话,一般在正式场合使用,另一反面在特定的使用场合或者面对特定的交流

对象时,为了实现拉近心理距离等交际目的,会选择放弃标准的普通话而使用固化变体。社

会方言是指同一地域的社会成员在文化教养、职业、阶层、年龄等方面的社会差异而形成不

同的社会变体,所以我们认为长沙普通话的固化变体具备地域方言和社会方言的双重特征。

我们认同上述观点,在长沙地区的地方普通话中存在两种界限清晰的变体形式,即一般

变体和固化变体,一般变体就是前人研究的“长沙地方普通话”,在长沙地区通常称作“塑

料普通话”,简称“塑普”。本文的研究对象是长沙地方普通话固化变体,为了行文方便,

下文中用“普通话”表示“标准普通话”,“地普”表示“地方普通话”,“一般变体”表

示长沙地方普通话一般变体,“固化变体”表示长沙地方普通话固化变体。我们可以从两种

变体形式的差别来界定固化变体:1.从语言系统来说,一般变体是从不同个体的偏误中概括

出来的,不同个体的偏误既具有共同性,也具有差异性,不具备统一性;固化变体的系统具

有定型性,个体偏误具有统一性,因此固化变体不是从个体偏误中概括出来的,是对既有系

统的记录和描写。2.从这两种变体与方言和普通话的关系来说,中介性是它们的共性,即它

们都是在学习和使用普通话的过程中产生的一种中介语。但一般变体作为中介语具有动态

性,即呈现非固定态,个体的差异性可能较大,并且随着不断学习和使用而逐渐向标准的普

通话靠拢;而固化变体作为中介语是静态的,即呈现固定态和稳定性。它们与标准的普通话

并存并用,刻意保持与标准普通话的距离,属于固化的中介语。3.从功能来说,一般变体并

无特定功能,对使用者个人来说,是一种学习普通话过程中自然发生的现象,而固化变体具

有特定的功能,在与标准普通话和当地方言并存并用中体现出来,使用者根据不同的场合和

Page 3: 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 · 高模型,翻译为“平行编码及目标趋近模型”(Xu,2004)。PENTA 模型目前多用于研究

http://www.sinoss.net

- 3 -

需要选择不同的变体或方言,一般来说,正式和严肃的场合使用标准普通话,体现地域身份

的场合使用方言,而需要同时体现地域身份和社会地位的场合则使用固化变体。

三、语音材料收集

(一)单字语料

我们在中国语言文字网提供的普通话测试卷中的基础上,根据实验需求设计单音节语

料,由于本文的研究对象是地方普通话,还需考察长沙方音对其产生的影响,因此结合普通

话和长沙方言的调类选取 60 个单音节例字。首先依据普通话的四个调类,每个调类选取 10

个字作为例字,共 40 个例字,根据调类进行编号,分别用 T1、T2、T3、T4 表示。我们采

用李兵、刘彦妮(2006)《长沙方言单字调以及变调的实验语音学报告》中新派长沙方言的

声调实验结果,长沙方言一共有六个调类。为了整合单音节例字,提高实验效率,我们选取

的普通话阴平、阳平、上声、去声例字在长沙方言音系中分别属于阴平、阳平、上声和阴去

调,也就是说 T4 既是普通话的去声调,也是长沙的阴去调;另外再加入长沙方言音系中的

阳去字和入声字,共 20 个例字,编号为 T5、T6,一共 60 个单音节例字作为建立单字调模

型的样本,详见表 1。

表 1 固化变体单音节例字

编号 调类 普通话调值 长沙话调值 例字

T1 阴平 55 23 姑 灯 收 车 拉 低 官 鸡 刀 亲

T2 阳平 35 13 爬 连 蚕 蛇 云 肥 婆 毛 吴 门

T3 上声 214 42 古 锁 洗 九 口 崽 水 米 小 酒

T4 去声/阴去 51 45 怕 课 布 肺 桂 算 剁 霸 兔 叫

T5 阳去 (51) 21 饿 步 大 话 在 夏 坐 雾 路 倍

T6 入声 * 24 答 节 落 入 达 八 屋 急 六 百

具体每个调类选字的标准是尽量控制除音高以外的其他影响因素,以保证例字能够更准

确地反映音高信息。首先声母会对后面的元音基频产生影响,因此尽量避免声母是鼻音、边

音或者零声母,我们倾向于选择不送气塞音声母;而且在其他条件一样的情况下,高元音的

基频会比低元音高,即元音固有基频不同,因此为尽量减少影响因素,单韵母例字为最佳。

还要注意在同一声调中,为保证例字的平衡性和代表性,尽量让每种声韵搭配都有例字,尽

量避免声母对基频产生影响,并保证元音高低、前后的平衡。

(二)发音人信息

长沙地普的固化变体具备地域方言和社会方言的双重特征,固化变体的使用群体主要集

中在长期生活在长沙地区的高学历人群中,尤以能够流利讲述长沙方言的大学生、中学生为

代表,他们的母语一般为长沙方言,汉语普通话作为第二语言,因此他们既有使用长沙方言

和固化变体的大背景,也有普通话学习与应用的交际环境,日常生活中普通话和固化变体并

存并用,甚至在这个群体中固化变体的使用频率可能更高,而且内部一致性很强,在语音上

Page 4: 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 · 高模型,翻译为“平行编码及目标趋近模型”(Xu,2004)。PENTA 模型目前多用于研究

http://www.sinoss.net

- 4 -

有明显表征。

综上,我们在长沙市芙蓉区某中学选取发音人,首先通过走访和谈话的形式来选取发音

人,在正式录音前进行试录,确保发音人具有代表性,能够真实反映固化变体的语音特征,

最终确定 6 位发音人(3 男 3 女),发音人信息具体见表 2。发音人均出生于长沙,父辈是

长沙人,发音人长期在本地生活和学习,没有久居外地的经历,会讲长沙话和普通话,口齿

清晰、发音自然。

表 2 固化变体发音人信息

编号 姓名 性别 出生年月 掌握语言

M1 XYH 男 2002.3 长沙话、普通话

M2 YH 男 2003.10 长沙话、普通话

M3 CJX 男 2004.3 长沙话、普通话

W1 TSY 女 2003.8 长沙话、普通话

W2 YYY 女 2003.7 长沙话、普通话

W3 LKQ 女 2002.12 长沙话、普通话

(三)录音和校音

录音在安静的教室里完成,录制设备为联想电脑 ThinkPad T440,录音软件使用斐风

2.1.2,麦克风为得胜 CM-450-L,外置声卡是德国坦克 DMX 6Fire USB,采样率为 44100HZ,

采样精度为 16bit,保存为 wav 格式的语音文件,语音信息处理软件 Praat5.4.04,数据处理

软件为 Microsoft Excel2010 等。实验前向发音人讲解实验目的,在正式录音前发音人需要充

分熟悉语料并进行指导和试录。录音过程,为避免发音定势影响,将单音节和双音节的语料

顺序打乱,避免相同声调及相同声调组合的语料连续出现。语料共包括 60 个单字,每个例

字读两遍,一共 6 位发音人,共得到 720 个单字样本。

采集的语音样本物理随机性较大,不能直接进行实验,需要对这些语音数据进行校准。

许毅编写的 Praat 脚本 ProsodyPro,能够对语音音高数据进行规整和平滑处理,通过运行脚

本可以在一定程度上消除错误音高数据对分析结果的影响,以及辅音等局部因素的细微干

扰,使得音高数据更能反映声调、语调等韵律特性。但如果原始的音高数据出现跳点、断点

等错误音高数据,则会直接影响此脚本对音高数据的处理效果。所以在运行脚本之前,需要

对全部语料的音高数据进行了细致的核查,并手工修改了跳点、断点和非正常截断等类型的

音高错误,以确保原始音高数据基本正确,然后再利用脚本对原始音高数据进行规整、插值

和平滑处理。

四、固化变体单字调实验结果

(一)语音材料标注

我们对得到对 720 个单字样本,按照调类进行编码后,对其进行 PENTA 操作。首先逐

字标注,所谓标注,就是给每个音节进行平行编码,注意编码对象不一定是以音节为单位,

实验操作是根据自己的功能成分分析的需要,利用操作工具 PENTA Trainer2 自身具备多层

标注功能,人工地在 Praat 上对语音材料进行细致的韵律标注,标注完成后,会自动在语音

Page 5: 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 · 高模型,翻译为“平行编码及目标趋近模型”(Xu,2004)。PENTA 模型目前多用于研究

http://www.sinoss.net

- 5 -

文件夹中生成标注文件,用于后期机器学习与基频拟合。单音节字的标注内容分为两层,标

注示例见图 1,第一层音节(Syllable)、第二层标注声调类型(Tone),音节层的标注对

象是整个音节,声调类型的的标注范围需要特别注意,因为前人多项实验证明,声调信息主

要由韵母承载和表现,所以需要去除声母段;但是调型段和韵母段不完全一致,单独发音时

往往伴随有弯头段和降尾段,而实验证明 F0 跟声调音高相联系的函数分布不是连续的,不

是全部基频段都能引起字音声调音高的感觉,弯头段、降尾段的基频不具有声调音高意义(林

茂灿,1996),因此需要结合语音和调型段走势,来确定调型层的编码区间。将声调信息统

一标注在调型段,也可以为后期拟合提供准确的时间参考点,将拟合的音高曲线中非调型段

部分的音高数据予以剔除,以便考察拟合的音高数据和原始的音高数据之间的相关性系数,

也就是说调型段是音高目标参数的分析单元。至于标注内容,PENTA 脚本中不能识别国际

音标,因此音节层标注为拼音;调型层的标注,参考前文中对语音材料的编号,单字六组分

调类分别标注为 1/2/3/4/5/6。

图 1 单字标注示例

(二)单字音高目标参数

标注完成后对单字进行分调类学习,学习内容是包含标注文件和语音文件的文件夹,学

习完成后会得到最优 RMSE 的一组音高目标参数,分别是斜率、相对高度以及趋近速度。

我们将其视作最为最优参数,每个字得到一组参数,共 60 组,再根据已有的调类信息,求

取各个调类的统计均值以及同调类内部标准差,具体实验结果见表 3。

表 3 单字调音高目标参数

调类 编号 数据类别 Slop(m) Height(b) Strength(λ)

阴平 T1 均值 -0.05 1.89 43.43

标准差 2.25 1.44 16.98

阳平 T2 均值 19.81 1.17 24.91

标准差 7.79 0.83 8.45

上声 T3 均值 -34.9 -4.63 23.22

标准差 8.79 1.12 5.59

去声/阴去 T4 均值 18.81 4.01 36.27

Page 6: 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 · 高模型,翻译为“平行编码及目标趋近模型”(Xu,2004)。PENTA 模型目前多用于研究

http://www.sinoss.net

- 6 -

标准差 7.55 1.38 11.48

阳去 T5 均值 19.5 2.78 30.51

标准差 7.68 5.20 11.93

入声 T6 均值 2.26 0.77 21.40

标准差 *21.55 2.39 6.60

观察表 3 中各调类各参数的标准差数值,阴平、阳平、上声、去声、阴去五组的音高目

标参数标准差均较小,具有统计意义;而入声组 m 值的标准差过大,说明 PENTA 在学习入

声组例字时,反映出组间差异非常大,组内成分不具有统计聚类意义,也就是说依据长沙方

言进行分类的入声组的字体现在固化变体中,分布过于离散,随机性很大,无法成功聚类,

并且具体分析入声组每个字的参数,发现 m 值均与其在普通话话调类参数接近。而阳去组

和去声组数据十分相近,但是是否能合并为一个调类,需要进行显著性检验,P 值为 0.075,

大于 0.05,说明两组数据之间不存在显著差异。因此,我们认为固化变体不存在独立的入声

调,阴去和阳去之间不存在差异,全都归属去声调。

具体分析 3 中的各个参数,m 和 b 的内部统一性和显著度较高,代表斜率的 m 值和说

明高度的 b 值决定了基频曲线的形状。首先看斜率,同一调类例字的斜率分布区间在均值左

右,m 的数值能够反映各个调类的升降情况,m=0 对应的音高目标为平调、m>0 对应的音

高目标为升调、m<0 对应降调,m 的绝对值能够反映声调的幅度,绝对值数值越大,调型

升降的幅度就越大。根据表中数据,也可看出 m 最具有判别意义的声学参数,与单字声调

的音高走势密切相关。其中阴平调 m 值为-0.05,是典型的平调;阳平 18.81,是典型的升调;

阴去和阳去的 m 值之间不存在显著差异,而且与样品的斜率相近,说明阳平调和去声调型

走向相同,声调曲线走向可能是平行状态;比较特殊的是上声,在固化变体中上声的斜率值

为-34.9,是斜度较大的降调。我们结合斜率参数以及标准差,可以大致得出每个调类的斜

率区间,阴平为[-3,+3],阳平为[12,26],上声为[-47,-26],去声为[6,30]。b 值用于说明音高

目标相对于基频均值是上升还是下降,观察表中的 b 值,除了上声的为负值,其余均为正值,

而且数值较小,这与上面得出的调型升降也能相互照应,平调和升调的 b 值为正值,降调的

b 值为负值,说明上声的基频在平均值以下。

对于 λ这个音高目标参数,没有直接对应的声学特征,其原因在于,利用 PENTA Trainer2

提取音高目标参数时,会将初始音高值 F0(0)设定为参考值,在此基础上得到音高数据的

相对高度和趋近速度,其目的主要在于消除不同语言样本之间的音阶差异。因此,代表

strength 的 λ 值反映的是相对趋近速度,但是发音过程中普遍存在的物理随机性,初始音高

也普遍存在差异,所以我们认为 λ无法体现各调类音高特征之间的显著关联,也就是不具有

直观的声学意义。

(三)相关语言对比

为厘清长沙地方普通话固化变体和普通话之间的区别与联系,我们将普通话和固化变体

的单字音高目标参数进行对比,具体对比结果见表 4,表 4 中普通话的音高目标参数数据来

Page 7: 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 · 高模型,翻译为“平行编码及目标趋近模型”(Xu,2004)。PENTA 模型目前多用于研究

http://www.sinoss.net

- 7 -

源于《PENTA 音高模型的可行性研究》(李爽,2015)。

表 4 单字音高目标参数对比

调类 编号 相关语言 Slop(m) Height(b) Strength(λ)

阴平 T1 普通话 -1.98 1.43 11.61

固化变体 -0.05 1.89 43.43

阳平 T2 普通话 25.71 2.44 11.88

固化变体 19.81 1.17 24.91

上声 T3 普通话 50.79 -3.60 9.68

固化变体 -34.9 -4.63 23.22

去声 T4 普通话 -71.8 -6.53 15.56

固化变体 18.81 4.01 36.27

对三项音高目标参数的对比结果进行分析,阳平和阴平差别较小,说明普通话和固化变

体的这两个声调音高目标接近。差别较显著的是上声和去声,普通话的上声单字斜率为

50.79,说明整个发音过程中音调上升幅度很大,而固化变体的上声斜率为-34.9,是个斜度

很大的降调;去声的在斜率上正好相反,普通话去声为大斜度降调,固化变体是升调,上声

幅度并不大,但是起点很高,是四个声调中最高的,说明固化变体的去声是高升调。

将固化变体和普通话的音高目标参数进行相关性比对,得到的四个调类的相关性系数,

分别为 F 值 0.98、0.96、0.93、0.95,说明固化变体和普通话之间相关度高,我们认为固化

变体属于普通话范畴。

五、单字调拟合情况

完成标注和学习后,得到每个调类的音高目标参数,根据对固化变体的单字调进行拟合,

拟合的机制原理和学习类似,都是底层音高目标不断趋近基频曲线,趋近的过程实际上就是

音高目标参数不断迭代的过程。PENTA Trainer2 的默认迭代次数为 700,通过预实验,我们

得出结论固化变体单字进行学习训练,迭代次数接近 700 次时,均方根误差一般能够达到

0.09,而且进一步优化的可能性较小。根据不断迭代得到的最优参数以及原始基频曲线,

PENTA Trainer2 的拟合模块就得到拟合的基频曲线,我们选取去声调拟合情况作为示例,

具体见图 2。图中显示的是拟合指令的操作界面,该界面分为三栏,第一栏是指令按钮,主

要包括放大显示缩小显示、显示全部、播放原始基频和拟合基频等指令,第三栏显示的标注

信息。第二栏是拟合的核心内容,是音高曲线对比的直观显示,蓝色曲线代表原始基频,红

色曲线代表拟合基频,绿色直线是底层音高目标,拟合曲线是通过底层音高目标和原始基频

共同得到的。

Page 8: 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 · 高模型,翻译为“平行编码及目标趋近模型”(Xu,2004)。PENTA 模型目前多用于研究

http://www.sinoss.net

- 8 -

图 2 去声单字拟合示例

拟合完成后,PENTA Trainer2 能够直接得出原始基频和拟合基频之间的均方根误差和

相关性系数,具体见表 4。

表 4 固化变体单字调拟合均方根误差和相关性系数

调类 编号 RMSE P

阴平 T1 0.083 0.993

阳平 T2 0.096 0.983

上声 T3 0.125 0.953

去声 T4 0.094 0.986

通过拟合图中原始基频和拟合基频的贴合程度,以及与音高目标的位置关系,我们可以

得出结论:阴平的拟合效果最优,其次是去声、阳平和上声,这种现象主要是由声调的调型

不同导致的。根据 PENTA Trainer2 的学习和拟合机制,我们知道拟合的过程是以渐进的方

式不断向目标趋近的过程,趋近过程需要通过调试音高和强度完成,因此音节末尾的基频曲

线更接近音高目标,例如,在实现一个“升”的音高目标时,由于持续向音高目标逼近,其

最快的基频上升过程发声在音节末尾处。许毅(Xu,1999)提到的这个“滞后”现象在固

化变体阳平、上声、去声中都有体现。

表 4 的统计数据包括均方根差和相关性系数,除了上声,其他三个调类的拟合的音高数

据和原始音高数据之间的均方根差小于 0.1,上声的为 0.125,然后相关性系数均达到 0.95

以上,说明拟合基频和原始基频之间高度相关。至于上声,通过拟合示例图 3.5,我们可以

看出原始基频和拟合基频之间贴合较好,但是与底层音高目标在调头和调中部分差别显著,

音高目标直线要高出许多,直到调尾段才出现贴合,我们认为造成这种现象的原因是上声调

内部差异较大,是四个调类中发音最不稳定的,通过机器学习得到的最优参数无法完全表征

上声的音高特征。

六、结语

本文通过 PENTA 音高模型对固化变体单字调进行音高实验分析,得到固化变体单字的

音高目标参数,可以得出结论:作为中介语的长沙地方普通话固化变体,受到长沙话和普通

话的综合影响,单字调各调类内部一致性很强,依据音高目标参数的数值和标准差,我们可

Page 9: 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 · 高模型,翻译为“平行编码及目标趋近模型”(Xu,2004)。PENTA 模型目前多用于研究

http://www.sinoss.net

- 9 -

以得出四个调类的斜率范围,分别为[-3,+3],[12,26],[-47,-26],[6,30]。将相关语言的特征

参数、调类、调值进行对比,首先固化变体和普通话各个调类的音高目标参数之间的相关性

系数很高,而且都分为阴平、阳平、上声、去声四个调类,但在调型和调值上,尤其是上声

和去声,明显受到长沙话的影响,因此我们认为固化变体属于普通话范畴,但是调型、调值

受普通话和长沙话的共同影响。

利用 PENTA Trainer2 学习和拟合模块对固化变体单字的应高特征进行训练和拟合后,

得到固化变体单字调四个调类的拟合基频曲线,结合拟合情况图,并参考拟合基频与原始基

频之间的均方根误差和相关性系数等统计数据,可以看出固化变体单字调总体拟合度高,

PENTA 对固化变体单字的学习效果良好,表明得出的最优音高目标参数能够有效拟合固化

变体的单字调,能够反映单字调的实际音高情况。同时我们也观察到了拟合过程中的“滞后”

现象,这是因为拟合的过程是以渐进的方式不断向目标趋近的过程,趋近过程需要通过调试

音高和强度完成,固化变体上声组内部差异相对较大,导致拟合效果不是特别理想。

参考文献

[1]Xu, Y. Effects of tone and focus on the formation and alignment of F0 contours. Journal of Phonetics, 1999.

[2]Xu, C. X, Xu, Y. and Luo, L-S. (1999). A pitch target approximation model for F0 contours in Mandarin. In

Proceedings of The 14th International Congress of Phonetic Sciences, San Francisco, 1999.

[3]段文君,贾媛,冉启斌.山东方言焦点语音实现的共性和差异性特征——以济南、聊城、淄博方言为例[J].

清华大学学报(自然科学版),2013,(06):835-838.

[4]吐尔逊·卡得,王蓓,维吾尔语中疑问和焦点对语调的共同调节作用[J]. 计算机应用,2013,33(3):784-788.

[5]劲松,牛芳.长沙地方普通话固化研究——地方普通话固化的个案调查[J].语言文字应用,2010(4).

[6]彭建国,刘金桥. 地方普通话的语言学思考[J].通化师范学院学报,2017(7).

[7]Xu, Y. and Prom-on, S. Toward invariant functional representations of variable surface fundamental

frequency contours: Synthesizing speech melody via model-based stochastic learning. Speech Communication 57,

2014.

[ 8 ]李兵 , 刘彦妮 . 长沙方言单字调及变调的实验语音学报告 [J]. 湖南大学学报 ( 社会科学

版),2006(04):107-112.

[9]林茂灿.普通话两音节间 FO 过渡及其感知[J]. 中国社会科学,1996,(04):159-174.

[10]李爽.PENTA 音高模型的可行性研究[D].中国社会科学院研究生院,2015.

Page 10: 基于 PENTA 音高模型的长沙地方普通话固化变体 单字音高实验研究 · 高模型,翻译为“平行编码及目标趋近模型”(Xu,2004)。PENTA 模型目前多用于研究

http://www.sinoss.net

- 10 -

Experimental Study of Tone and Height of Solidified Variation Mandarin

in Changsha Based on PENTA Model

LIU Jinqiao PENG Jianguo

(College of Literature, Hunan University, Hunan/Changsha, 410082)

Abstract:In this paper, the experimental model as a tool PENTA, Changsha regional standard variant

word cured experimental study conducted pitch, pitch parameters investigated Changsha Local

Mandarin cured variants. Changsha is one kind of local Putonghua interlanguage Changsha

dialect-based locals produced in the process of learning Mandarin, are generally cured variants and

variants, variants have cured system is stable, unified sense of language, a clear function and other

characteristics, we selecting styling cured variants strong study. Through investigation, collecting

recording material, the use of PENTA pitch model for voice annotation, and then through machine

learning, pitch target parameters extracted and analyzed, and compared with the relevant language

parameters. The target parameter basis, the fundamental frequency pitch curve fitting, excellent in

fitting.

Keywords: PENTA Pitch Model; Pitch Experiment; Local Changsha Mandarin; Solidified Variation

mandarin

作者简介: 刘金桥,湖南大学文学院研究生,研究方向为语言学及应用语言学。

彭建国,湖南大学文学院副教授,文学博士,硕士生导师,研究方向为语言学及应用语言学。