前后鼻音韵母的参数合成方法及感知范畴测量方法、装置的制造方法

文档序号:10472268阅读:527来源:国知局
前后鼻音韵母的参数合成方法及感知范畴测量方法、装置的制造方法
【专利摘要】本发明的实施方式提供了前后鼻音韵母的参数合成方法及感知范畴测量方法、装置,其中,该前后鼻音韵母的参数合成方法包括:获取包含前后鼻音音节的若干语音信号,并确定关键音段;通过处理每个语音信号的关键音段的第二共振峰曲线和第三共振峰曲线,合成第二共振峰连续统和第三共振峰连续统;利用第二共振峰连续统、第三共振峰连续统,以及第二共振峰和第三共振峰以外的其他共振峰,合成关键音段连续统;将关键音段连续统中每个合成的关键音段与关键音段以外的其他音段拼接得到合成语音。本发明为参数法合成鼻音提供了新方法,所合成的前后鼻音韵母连续统可应用于前后鼻音知觉空间的范畴化测量,打开了计算机辅助鼻音教学的新思路。
【专利说明】
前后鼻音韵母的参数合成方法及感知范畴测量方法、装置
技术领域
[0001] 本发明的实施方式设及语音处理技术,特别是关于计算机辅助语音设备中的语音 识别技术,具体的讲是一种前后鼻音韵母的参数合成方法及感知范畴测量方法、装置。
【背景技术】
[0002] 本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的 描述不因为包括在本部分中就承认是现有技术。
[0003] 日常生活中我们常常遇到前后鼻音不分的人,既包括来自很多方言区的中国人, 也包括学习汉语的外国人。而普通话中有鼻音音节502个,约占音节总数的42%;且运502个 音节中又有60%左右因为前后鼻音的音位对立造成意义上的不同。前后鼻音不分造成字词 的混淆W及意义上的歧解,不仅给我们日常交流带来不便,也对外国人学习汉语语音、鼻音 音节所对应的汉字、词汇,甚至理解相应的句子,产生了非常不利的影响。例如对于日本学 生而言,大量研究证实,日本学习者在感知和产出普通话前后鼻音节时遇到了较大问题。他 们学习汉语的语音时最难的部分即为鼻音。
[0004] 如果能及时发现汉语普通话学习者的鼻音偏误问题,并给予他们准确、有效的反 馈,将会大大地提高他们的普通话发音的准确度。
[0005] 另外,在信息科学和计算机科学迅速发展的今天,语音合成技术取得了巨大的进 步。高清晰度、高自然度,乃至高表现力的语音合成技术和系统不断涌现,被广泛应用于信 息查询、自动报警、人机交互乃至计算机辅助语言学习等领域。语音合成技术甚至可W提供 各种人类难W发出的、声学参数精确控制的合成语音,对于语音学、语音感知、语音教学等 研究和应用有着重要价值。语音合成技术的种类主要有参数合成和语料库合成两种,参数 合成的基本理论假设是语音的产生可W看作滤波器对于激励声源的滤波结果,语料库合成 则是基于细小片段语音拼接来产生连续语流的方法。两种方法各有特点,都是目前研究的 执占。 "、、'、、、〇

【发明内容】

[0006] 前后鼻音韵母在汉语普通话中载有重要的信息传递作用,但是已有的研究表明很 多汉语母语者及二语学习者在其习得上存在较大困难。知觉分辨是语音范畴习得的基础, 为了能够测量不同母语背景被试的普通话前后鼻音知觉空间,需要有关键声学参数渐变的 "前后鼻音韵母连续统"作为测量工具。但是在语音合成研究中,由于鼻腔共鸣的复杂性,相 比于其他音素的语音合成,鼻音音节合成一直是一个难点。
[0007] 普通话的前后鼻音音节可分为Ξ个部分:元音段、过渡段和鼻音尾。已有的研究发 现鼻韵母的元音段和过渡段含有该鼻韵母的主要辨别信息。在研究本发明的过程中,通过 基于自然音节剪切和拼接样本的语音感知实验,发明人发现鼻音尾对于汉语母语者辨认鼻 音作用很小,过渡段对于汉语母语者辨别前后鼻音类型起决定性的作用,而当元音段和过 渡段位置线索冲突时,汉语母语者又会倾向于依赖过渡段。运也就是说,过渡段载有对于普 通话母语背景者关于前后鼻音知觉分辨的关键声学线索,通过进一步研究发现,运一关键 声学线索可W归结为前后鼻音音节的过渡段在其第二共振峰F2、第Ξ共振峰F3具有不同的 分布情况。基于此项发现,前后鼻音韵母的参数合成就可W绕开复杂的鼻音尾合成问题,而 利用一般的参数合成法合成出具有较高前/后辨识度的鼻音韵母。
[0008] 为此,本发明提出一种前后鼻音韵母的参数合成方法、一种前后鼻音韵母的感知 范畴测量方法、一种前后鼻音韵母的参数合成装置、一种前后鼻音韵母的感知范畴测量装 置,为计算机辅助鼻音学习提供条件。
[0009] 在本发明实施方式的第一方面中,提供了一种前后鼻音韵母的参数合成方法,包 括:
[0010] 确定一对前后鼻音音节,获取包含所述前后鼻音音节的若干语音信号,并确定所 述每个语音信号的关键音段;
[0011] 提取所述每个语音信号的关键音段的第二共振峰曲线和第Ξ共振峰曲线;
[0012] 通过处理所述每个语音信号的关键音段的第二共振峰曲线和第Ξ共振峰曲线,合 成第二共振峰连续统和第Ξ共振峰连续统;所述第二共振峰连续统包括多条合成的第二共 振峰曲线,所述第Ξ共振峰连续统包括多条合成的第Ξ共振峰曲线;
[0013] 利用所述第二共振峰连续统、所述第Ξ共振峰连续统,W及第二共振峰和第Ξ共 振峰W外的其他共振峰,合成关键音段连续统;所述关键音段连续统包括多个合成的关键 音段;
[0014] 将所述关键音段连续统中每个合成的关键音段与关键音段W外的其他音段拼接 得到合成语音。
[0015] 在本发明实施方式的第二方面中,提供了一种前后鼻音韵母的感知范畴测量方 法,包括:
[0016] 根据前述的前后鼻音韵母的参数合成方法得到前后鼻音韵母连续统;
[0017] 利用所述前后鼻音韵母连续统中的各个合成语音,对若干被试进行前后鼻音感知 测试;
[0018] 基于所述前后鼻音感知测试的结果,利用logistic回归模型确定回归系数;
[0019] 利用所述回归系数确定所述若干被试的前后鼻音感知范畴。
[0020] 在本发明实施方式的第Ξ方面中,提供了一种前后鼻音韵母的参数合成装置,包 括:
[0021] 关键音段确定模块,用于确定一对前后鼻音音节,获取包含所述前后鼻音音节的 若干语音信号,并确定所述每个语音信号的关键音段;
[0022] 共振峰提取模块,用于提取所述每个语音信号的关键音段的第二共振峰曲线和第 Ξ共振峰曲线;
[0023] 共振峰连续统合成模块,用于通过处理所述每个语音信号的关键音段的第二共振 峰曲线和第Ξ共振峰曲线,合成第二共振峰连续统和第Ξ共振峰连续统;所述第二共振峰 连续统包括多条合成的第二共振峰曲线,所述第Ξ共振峰连续统包括多条合成的第Ξ共振 峰曲线;
[0024] 关键音段连续统合成模块,用于利用所述第二共振峰连续统、所述第Ξ共振峰连 续统,W及第二共振峰和第Ξ共振峰W外的其他共振峰,合成关键音段连续统;所述关键音 段连续统包括多个合成的关键音段;
[0025] 语音合成模块,用于将所述关键音段连续统中每个合成的关键音段与关键音段W 外的其他音段拼接得到合成语音。
[0026] 在本发明实施方式的第四方面中,提供了一种前后鼻音韵母的感知范畴测量装 置,包括:
[0027] 如前所述的前后鼻音韵母的参数合成装置;
[0028] 测试模块,用于利用所述前后鼻音韵母的参数合成装置合成的前后鼻音韵母连续 统中的各个合成语音,对若干被试进行前后鼻音感知测试;
[0029] 回归模型计算模块,用于基于所述前后鼻音感知测试的结果,利用logistic回归 模型确定回归系数;
[0030] 范畴确定模块,用于利用所述回归系数确定所述若干被试的前后鼻音感知范畴。
[0031] 借助于上述技术方案,本发明基于包含前后鼻音音节的若干语音信号,确定载有 前后鼻音区分特征的关键音段(元音段和过渡段,或者,只有过渡段),针对关键音段合成具 有连续变化趋势的第二共振峰曲线和第Ξ共振峰曲线,在此基础上继续合成具有连续变化 趋势的关键音段,最后合成具有连续变化趋势的合成语音,从而得到前后鼻音韵母连续统; 利用合成的前后鼻音韵母连续统对被试进行前后鼻音感知测试,结合logistic回归模型可 有效确定被试的前后鼻音感知范畴。本发明为参数法合成鼻音提供了新方法,所合成的前 后鼻音韵母连续统可用作鼻音知觉空间的范畴化测量,可有效地解决语音教学中的鼻音教 学难点问题,打开了计算机辅助鼻音教学的新思路。
【附图说明】
[0032] 通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述W及其他目 的、特征和优点将变得易于理解。在附图中,W示例性而非限制性的方式示出了本发明的若 干实施方式,其中:
[0033] 图1为本发明提供的前后鼻音韵母的参数合成方法的流程示意图;
[0034] 图2为阴平音节吁an"的语料标注示意图;
[0035] 图3为合成第二共振峰连续统和第Ξ共振峰连续统的流程示意图;
[0036] 图4为第二共振峰连续统的示意图;
[0037] 图5为第Ξ共振峰连续统的示意图;
[0038] 图6为合成关键音段连续统的流程示意图;
[0039] 图7为关键音段连续统的矩阵形式示意图;
[0040] 图8为关键音段连续统中某一关键音段的共振峰曲线示意图;
[0041] 图9为W前鼻音音节/an/和后鼻音音节/哪/为例合成前后鼻音韵母连续统的过程 示意图;
[0042] 图10为对合成语音的关键音段进行能量调整的对比示意图;
[0043] 图11为前后鼻音韵母的感知范畴测量方法的流程示意图;
[0044] 图12为根据中国被试的前后鼻音感知测试结果绘制的感知曲线;
[0045] 图13为中国被试对元音段和过渡段的fan-fang组前后鼻音韵母连续统的前后鼻 音感知范畴示意图;
[0046] 图14为中国被试对过渡段的fan-fang组前后鼻音韵母连续统的前后鼻音感知范 畴示意图;
[0047] 在附图中,相同或对应的标号表示相同或对应的部分。
【具体实施方式】
[0048] 下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出运 些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非W任何 方式限制本发明的范围。相反,提供运些实施方式是为了使本公开更加透彻和完整,并且能 够将本公开的范围完整地传达给本领域的技术人员。
[0049] 本领域技术人员知道,本发明的实施方式可W实现为一种系统、装置、设备、方法 或计算机程序产品。因此,本公开可W具体实现为W下形式,即:完全的硬件、完全的软件 (包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
[00加]示例性方法一
[0051] 本发明提供一种前后鼻音韵母连续统合成方法,如图1所示,该方法包括:
[0052] 步骤S11,确定一对前后鼻音音节,获取包含前后鼻音音节的若干语音信号,并确 定每个语音信号的关键音段;
[0053] 步骤S12,提取每个语音信号的关键音段的第二共振峰曲线和第Ξ共振峰曲线;
[0054] 步骤S13,通过处理每个语音信号的关键音段的第二共振峰曲线和第Ξ共振峰曲 线,合成第二共振峰连续统和第Ξ共振峰连续统;第二共振峰连续统包括多条合成的第二 共振峰曲线,第Ξ共振峰连续统包括多条合成的第Ξ共振峰曲线;
[0055] 步骤S14,利用第二共振峰连续统、第Ξ共振峰连续统,W及第二共振峰和第Ξ共 振峰W外的其他共振峰,合成关键音段连续统;关键音段连续统包括多个合成的关键音段;
[0056] 步骤S15,将关键音段连续统中每个合成的关键音段与关键音段W外的其他音段 拼接得到合成语音。
[0057] 本发明基于包含前后鼻音音节的若干语音信号,确定载有前后鼻音区分特征的关 键音段(元音段和过渡段,或者,只有过渡段),针对关键音段合成具有连续变化趋势的第二 共振峰曲线和第Ξ共振峰曲线,在此基础上继续合成具有连续变化趋势的关键音段,最后 合成具有连续变化趋势的合成语音,运些合成语音之间呈现前鼻音韵母至后鼻音韵母的连 续变化趋势。
[0058] 基于本发明的思想,前后鼻音韵母的元音段和过渡段的第二共振峰、第Ξ共振峰 存在不同分布,载有关于前后鼻音知觉分辨的关键声学线索,通过修改前后鼻音韵母的元 音段和过渡段的第二共振峰、第Ξ共振峰,即可在前鼻音韵母和后鼻音韵母之间进行转换, 实现前后鼻音韵母的参数合成。
[0059] W下分别针对该方法中的每个步骤进行详细介绍:
[0060] 步骤S11,确定一对前后鼻音音节,获取包含该前后鼻音音节的若干语音信号,确 定每个语音信号的关键音段。
[0061 ] 首先,确定一对前后鼻音音节。例如可W是/an/和/巧也可W是传 η/和/巧/,还可W 是/in/和/i如。为了方便说明,W下均W前鼻音音节/an/和后鼻音音节/邱/为例。
[0062]其次,获取被试朗读的包含该前后鼻音音节的若干语音信号。为确保本发明得到 的合成结果更具普遍意义,可令被试朗读多种辅音声母和该前后鼻音音节组成的音节,例 女曰吁an"和吁ang","dan"和"dang","san"和"sang","kan"和"kang","pan"和 "pang"等等。
[0063] 然后,对获取的每个语音信号进行语料标注。具体的,包括标注辅音声母、元音段、 过渡段和鼻音尾。图2所示为一位女性被试朗读阴平音节"fan"的语音信号的波形、能量和 共振峰。图2中有两层标注,第一层是拼音层,包含音节的声韵调信息,第二层是音段结构 层,分为四个部分:辅音声母Τ',元音段V',过渡段"a~"和鼻音尾V'。标注元音段和过渡 段的边界时,主要考虑波形、能量和共振峰运Ξ个因素。如图2所示,过渡段的波形与元音段 差异较大,同时能量方面大幅衰减,其共振峰也没有元音段那么稳定。另外,标注时应尽量 将边界落在元音段、过渡段和鼻音尾的波形起始原点,W便之后合成音节时音段拼接顺杨, 提高合成语料的自然度。
[0064] 最后,根据语料标注的结果,确定每个语音信号的关键音段。目前已有的研究发现 元音段和过渡段载有分辨前后鼻音的声学线索,尤其过渡段载有分辨前后鼻音的关键声学 线索,基于此项研究,本发明着重对元音段和过渡段进行研究。因此,在设定关键音段时需 要考虑元音段和过渡段。可选地,令关键音段为元音段和过渡段,或者仅为过渡段,从而确 定每个语音信号的关键音段的步骤为确定每个语音信号的元音段和过渡段,或者仅确定每 个语音信号的过渡段。
[0065] 为了研究关键音段是否载有分辨前后鼻音的声学线索,本发明通过步骤S12~S14 来合成具有连续变化趋势的关键音段,即关键音段连续统。
[0066] 步骤S12,提取所述每个语音信号的关键音段的第二共振峰曲线和第Ξ共振峰曲 线。
[0067] 本步骤可采用目前已有的共振峰提取算法实现,本发明对此不作限定,可根据实 际需要选择。
[0068] 步骤S13,通过处理所述每个语音信号的关键音段的第二共振峰曲线和第Ξ共振 峰曲线,合成第二共振峰连续统和第Ξ共振峰连续统。
[0069] 本步骤是基于已有的语音信号的关键音段的第二共振峰曲线和第Ξ共振峰曲线, 合成具有连续变化趋势的第二共振峰曲线,和具有连续变化趋势的第=共振峰曲线,W此 作为后续合成具有连续变化趋势的关键音段(即关键音段连续统)的基础。
[0070] 具体实施时,本步骤可通过图3所示的步骤实现:
[0071] 步骤S31,按照时间顺序在每个语音信号的关键音段的第二共振峰曲线和第Ξ共 振峰曲线上各选取N个点,并确定每个点的第二共振峰值和第Ξ共振峰值。
[0072] 实际发音测试中,不同被试朗读同一音节(例如由相同的辅音声母和前/后鼻音音 节组成)所产生的语音信号可能会不同,同一被试在不同时刻朗读同一音节(例如由相同的 辅音声母和前/后鼻音音节组成)所产生的语音信号也可能不同,同一被试朗读包含相同 前/后鼻音音节的不同音节(例如同样的前/后鼻音音节与不同的辅音声母组成的音节)所 产生的语音信号也可能不同,运些不同可能体现在语音信号的时长不同,各个音段的共振 峰不同等等。考虑到运些,本发明需要获取被试发出的语音信号的平均水平,W使后续的合 成结果可信度更高。
[0073] 由于每个语音信号的关键音段的时长可能是不同的,相应的第二共振峰曲线和第 Ξ共振峰曲线的长度也是不同的,考虑时长归一化,本步骤选取N个点的过程可W是:将每 个语音信号的关键音段的第二共振峰曲线等分成N-1段,各段的端点总共N个,运N个点即被 作为被选取点,同样的,将每个语音信号的关键音段的第Ξ共振峰曲线等分成N-1段,各段 共N个端点作为被选取点。
[0074] 具体实施时,本步骤选取N个点的过程也可W是其他方式,例如,按照时间顺序,将 每个语音信号的关键音段的第二/Ξ共振峰曲线等分成N'-1(N'>N)段,各段的端点总共Ν' 个,从其中选取Ν个作为最终选取的点。
[0075] 步骤S32,针对所述Ν个点中的每个点,分别计算所述若干语音信号中所有包含前 鼻音音节的语音信号在该点的第二共振峰值的平均值和第Ξ共振峰值的平均值,W及分别 计算所述若干语音信号中所有包含后鼻音音节的语音信号在该点的第二共振峰值的平均 值和第Ξ共振峰值的平均值。
[0076] 首先,按照包含的是前鼻音音节还是后鼻音音节对步骤S11获取的若干语音信号 进行区分,假设分为前鼻音组(由全部包含前鼻音音节的语音信号组成)和后鼻音组(由全 部包含后鼻音音节的语音信号组成)。
[0077] 其次,针对所述Ν个点中的每个点,确定前鼻音组中各个语音信号的第二共振峰值 和第Ξ共振峰值,计算运些第二共振峰值的平均值,W及运些第Ξ共振峰值的平均值,运两 个平均值分别是当前点处前鼻音组的第二共振峰值的平均值和第Ξ共振峰值的平均值。假 设当前点记为i(i = l,2,3'''N),前鼻音组在当前点的第二共振峰值的平均值记为F2ai,则前 鼻音组全部N个点的第二共振峰值的平均值为F2al,F2a2,F2a3,…F2aN,前鼻音组在当前点的 第Ξ共振峰值的平均值记为F3ai,则前鼻音组全部N个点的第Ξ共振峰值的平均值为F3ai, F3a2,F3a3,,,,F3aN。
[0078] 类似的,针对所述Ν个点中的每个点,确定后鼻音组中各个语音信号的第二共振峰 值和第Ξ共振峰值,计算运些第二共振峰值的平均值,W及运些第Ξ共振峰值的平均值,运 两个平均值分别是当前点处后鼻音组的第二共振峰值的平均值和第Ξ共振峰值的平均值。 当前点记为?α = 1,2,3···Ν),后鼻音组在当前点的第二共振峰值的平均值记为F2bi,则后鼻 音组全部N个点的第二共振峰值的平均值为F2bl,F2b2,F2b3,…F2bN,后鼻音组在当前点的第 Ξ共振峰值的平均值记为F3bi,则后鼻音组全部N个点的第Ξ共振峰值的平均值为F3bi, F3b2,F3b3,-"F3bN〇
[0079] 步骤S33,针对Ν个点中的每个点,W所有包含前鼻音音节的语音信号在该点的第 二共振峰值的平均值作为第一初始值,W所有包含后鼻音音节的语音信号在该点的第二共 振峰值的平均值作为第一结束值,将第一初始值至第一结束值的数值(包含第一初始值和 第一结束值)进行M-1等分;将N个点对应的第k个化=1,2,3···Μ-2)等分点的数值相连接,将 Ν个点的第一初始值相连接,将Ν个点的第一结束值相连接,共合成Μ条第二共振峰曲线,运 合成的Μ条第二共振峰曲线即组成了第二共振峰连续统。
[0080] 图4所示为第二共振峰连续统的示意图。在得到图4的例子中,前鼻音音节为/an/, 后鼻音音节为/巧/,关键音段包括元音段及过渡段,在关键音段上选取10个点,前鼻音组全 部10个点的第二共振峰值的平均值为F2al,F2a2,F2a3,…。之。",后鼻音组全部10个点的第二 共振峰值的平均值为F2bi,F2b2,F2b3,···FSbio。对于当前点i,F2ai为该点的第一初始值,F2bi 为该点的第一结束值,将F2ai至F2bi的数值(包含边界)进行9等分,总共8个等分点,将全部 10个点对应的第1个等分点、第2个等分点…第8个等分点的数值相连接,分别得到F2-LI肥2 ~F2-LI肥9各条曲线,将全部1 ο个点的第一初始值相连接得到曲线F2-LI肥1,将全部10个 点的第一结束值相连接得到曲线F2-LI肥10。
[0081] 步骤S34,针对Ν个点中的每个点,W所有包含前鼻音音节的语音信号在该点的第 Ξ共振峰值的平均值作为第二初始值,W所有包含后鼻音音节的语音信号在该点的第Ξ共 振峰值的平均值作为第二结束值,将第二初始值至第二结束值的数值(包含第二初始值和 第二结束值)进行Μ-1等分;将Ν个点对应的第k个化=1,2,3···Μ-2)等分点的数值相连接,将 Ν个点的第二初始值相连接,将Ν个点的第二结束值相连接,共合成Μ条第Ξ共振峰曲线,运 合成的Μ条第Ξ共振峰曲线即组成了第Ξ共振峰连续统。
[0082] 图5所示为第Ξ共振峰连续统的示意图。在得到图5的例子中,前鼻音音节为/an/, 后鼻音音节为/α?]Λ关键音段包括元音段及过渡段,在关键音段上选取10个点,前鼻音组全 部10个点的第Ξ共振峰值的平均值为F3al,F3a2,F3a3,···F3al0,后鼻音组全部10个点的第二 共振峰值的平均值为F3bi,F3b2,F3b3,···F3bio。对于当前点i,F3ai为该点的第一初始值,F3bi 为该点的第一结束值,将F3ai至F3bi的数值(包含边界)进行9等分,总共8个等分点,将全部 10个点对应的第1个等分点、第2个等分点…第8个等分点的数值相连接,分别得到F3-LI肥2 ~F3-LI肥9各条曲线,将全部10个点的第一初始值相连接得到曲线F3-LI肥1,将全部10个 点的第一结束值相连接得到曲线F3-LI肥10。
[0083] 步骤S14,利用第二共振峰连续统、第Ξ共振峰连续统,W及第二共振峰和第Ξ共 振峰W外的其他共振峰,合成关键音段连续统。
[0084] 要合成具有连续变化趋势的关键音段(即关键音段连续统),首先要合成其中的每 个关键音段。由于关键音段可表征为多种共振峰曲线的组合,因此要合成关键音段,不仅需 要第二共振峰曲线、第Ξ共振峰曲线,还需要其他几种共振峰曲线(例如第一共振峰曲线)。 需要说明的是,为了研究第二共振峰和第Ξ共振峰对分辨前后鼻音的影响,在合成关键音 段时,应保证所采用的其他共振峰曲线是固定不变的,即只改变第二共振峰和第Ξ共振峰。
[0085] 具体实施时,本步骤可采用图6所示的过程实现:
[0086] 步骤S61,将第二共振峰连续统中的第二共振峰曲线与第Ξ共振峰连续统中的第 Ξ共振峰曲线两两组合,得到多个互不相同的曲线组合。
[0087] 承前所述,将第二共振峰连续统中Μ条第二共振峰曲线与第Ξ共振峰连续统中Μ条 第Ξ共振峰曲线两两组合,可得到Μ*Μ个互不相同的曲线组合。
[0088] 步骤S62,将每个曲线组合与第二共振峰和第Ξ共振峰W外的其他共振峰合成关 键音段;将合成的关键音段组成所述关键音段连续统。
[0089] 承前所述,Μ*Μ个互不相同的曲线组合恰好合成Μ*Μ个互不相同的关键音段,运Μ*Μ 个互不相同的关键音段即组成了关键音段连续统。具体实施时,关键音段连续统可采用矩 阵表示,其中的行和列分别表示第二共振峰曲线、第Ξ共振峰曲线,每个元素代表一个合成 的关键音段。例如将图4所示第二共振峰连续统中的第二共振峰曲线与图5所示的第Ξ共振 峰连续统中的第Ξ共振峰曲线两两组合,再与统一的其他共振峰曲线合成关键音段,得到 如图7所示的关键音段连续统,其中坐标为(F2-LI肥5,F3-LI肥5)的点对应的关键音段如图 8所示,为图4中的F2-LI肥5、图5中的F3-LI肥5 W及合成所用的第一共振峰曲线。
[0090] 步骤S15,将关键音段连续统中每个合成的关键音段与关键音段W外的其他音段 拼接得到合成语音。
[0091] 前面步骤合成了关键音段,为了合成可用于计算机辅助语音测试和学习所用的鼻 音,本步骤还需要将运些合成的关键音段与关键音段W外的其他音段进行拼接,得到完整 的合成语音。具体实施时,该过程可借助于已有的语音学软件(如Praat)实现,具体过程为: 首先设定辅音声母(:和鼻音尾?;其次,如果关键音段仅包含过渡段^^则还需设定元音段¥, 将过渡段F对应的各个合成的关键音段作为变量输入;如果关键音段包含元音段V和过渡段 民则将元音段V和过渡段t?对应的各个合成的关键音段作为变量输入;最后,得到各个变量 对应的合成语音。该过程根据关键音段包含的元音段和/或过渡段来调整输入的变量。
[0092] 由于运些合成语音是呈现前鼻音韵母至后鼻音韵母的连续变化趋势,因此可将步 骤S15得到的全部合成语音形成的集合作为前后鼻音韵母连续统。前后鼻音韵母连续统中 的每个合成语音都可W看作是前鼻音韵母到后鼻音韵母(或后鼻音韵母到前鼻音韵母)渐 变的任意一个"中间态"。
[0093] 如图9所示,W前鼻音音节/an/和后鼻音音节/叫/为例合成前后鼻音韵母连续统, 设定辅音声母C为?',鼻音尾为V'和"ng",关键音段包含元音段和过渡段,采用由如图4所 示的第二共振峰连续统与图5所示的第Ξ共振峰连续统合成的关键音段连续统(图7所示的 10*10矩阵)作为变量输入,分别得到从阴平音节吁an"渐变到吁ang"的各个合成语音,和从 阴平音节吁ang"渐变到"fan"的各个合成语音,运些合成语音共同组成了对应元音段和过 渡段的化η-化ng组前后鼻音韵母连续统。
[0094] 在研究本发明的过程中发现,由于关键音段的能量比起其他音段的能量更大一 些,因此通过W上语音拼接过程得到的合成语音的整体听感不够自然,为了避免对后续应 用造成不良影响,可选地,本发明可在得到合成语音之后,对每个合成语音中的关键音段的 能量进行适当调整,使其更接近原始语料的能量曲线,听感也趋近于自然音节。
[00M]如图10所示,(a)为通过语音拼接过程得到的合成语音"fan"的能量和波形图示, 其中关键音段的能量相较于其他音段来说明显更大,(b)为对(a)中合成语音"fan"的关键 音段进行适当调整后的能量和波形图示,更接近原始语料的能量曲线。
[0096] 示例性方法二
[0097] 本发明还提供一种前后鼻音韵母的感知范畴测量方法,如图11所示,该方法包括:
[0098] 步骤Sill,根据示例性方法一中的前后鼻音韵母的参数合成方法得到前后鼻音韵 母连续统,利用前后鼻音韵母连续统中的各个合成语音,对若干被试进行前后鼻音感知测 试;
[0099] 步骤S112,基于前后鼻音感知测试的结果,利用logistic回归模型确定回归系数;
[0100] 步骤S113,利用回归系数确定若干被试的前后鼻音感知范畴。
[0101] W下分别对该方法中的各个步骤进行详细介绍。
[0102] 步骤S111,利用前后鼻音韵母连续统中的各个合成语音,对若干被试进行前后鼻 音感知测试。
[0103] 测试过程为让被试听辨前后鼻音韵母连续统中的各个合成语音,记录听辨结果是 自。鼻首首节还是后鼻首首节〇
[0104] 例如,采用图9得到的对应元音段和过渡段的化n-fang组前后鼻音韵母连续统,选 择多名普通话水平二级甲等W上、听力正常的汉语母语者作为中国被试。如图12所示为中 国被试对特定曲线组合(分别由图5中的第Ξ共振峰曲线F3-LI肥10和图4中的各条第二共 振峰曲线F2-LI肥1~F2-LI肥10组成)所对应的合成语音的听辨结果,其中,横坐标为图4中 的各个第二共振峰曲线F2-LI肥1~F2-LI肥10,纵坐标为听辨结果的比例。图12的听辨结果 表明,在第Ξ共振峰曲线F3-LINE10固定的情况下,逐渐移动第二共振峰曲线F2-LI肥1~ F2-LI肥10,感知为吁an"的比例由100%逐渐减小至0.00%,感知为吁ang"的比例由0.00% 逐渐增大至1〇〇%dF2-LI肥1~F2-LI肥5与F3-LI肥10的曲线组合中,绝大多数中国被试听 辨结果为吁曰心',在F2-LI肥8~F2-LI肥10与F3-LI肥10的曲线组合中,绝大多数中国被试听 辨结果为吁ang",在F2-LI肥5~F2-LI肥8与F3-LI肥10的曲线组合中,中国被试的听辨结果 特征不明显。
[0105] 步骤S112,基于前后鼻音感知测试的结果,利用logistic回归模型确定回归系数。
[0106] 具体的,利用前后鼻音感知测试的结果绘制感知曲线,该感知曲线的第一坐标轴 记录所述前后鼻音韵母连续统中各个合成语音的编号,第二坐标轴记录被试的前后鼻音感 知比例。图12所示的曲线即为一条感知曲线(其中合成语音的编号采用其对应的第二共振 峰曲线的编号表示),实际得到的感知曲线还有很多条类似的曲线。
[0107] 该步骤所采用的logistic回归模型为:
[010 引
[0109] 其中,X为所述感知曲线上的点在第一坐标轴上的坐标值,L为所述感知曲线上的 点在第二坐标轴上的坐标值,Pi为前后鼻音的识别率,bi为回归曲线的斜率,bo为回归曲线 的截距,所述的回归系数包括Pi、bi、bo。
[0110] 利用所述感知曲线上的点即可计算出回归系数Pi、bi、bo。
[0111] 步骤S113,利用所述回归系数确定所述若干被试的前后鼻音感知范畴。
[0112] 具体的,当识别率Pi为0.5时,相应的X值为范畴边界,运里用xcb表示,范畴边界xcb 可通过W下公式得到:
[0115] 范畴边界的宽度被定义为Pi分别为0.化和0.75时两点间的线性距离。
[0116] 范畴边界越窄,范畴化倾向更明显。
[0117] 利用图9得到的对应元音段和过渡段的fan-fang组前后鼻音韵母连续统,中国被 试的前后鼻音感知范畴如图13所示,其中,横坐标为第Ξ共振峰曲线F3-LINE1~F3- LI肥10,纵坐标为第二共振峰曲线F2-LI肥1~F2-LI肥10。交点为范畴边界(Pi为0.5),交点 相连而成的曲线表示中国被试对相应的合成语音的听辨结果为前后鼻音音节各占50%;范 畴下边界(前鼻音的Pi为0.75)?下的区域,75% W上的中国被试听辨为前鼻音音节"fan"; 范畴上边界(前鼻音的Pi为0.25)?上区域,75% W上的中国被试听辨为后鼻音音节 吁ang",范畴上、下边界之间区域对应的合成语音处于中国被试的感知混淆区间。
[0118] 若利用对应过渡段(关键音段仅包括过渡段)的化η-化ng组前后鼻音韵母连续统, 中国被试的前后鼻音感知范畴如图14所示。
[0119] 实施例一
[0120] 被试为22名普通话水平二级甲等W上、听力正常的中国研究生。
[0121] 实验一采用的前后鼻音韵母连续统中前后鼻音音节为/an/和/哪/,关键音段包括 元音段和过渡段,包括由吁an"渐变到吁ang"的各个合成语音;
[0122] 实验二采用的前后鼻音韵母连续统与实验一采用的前后鼻音韵母连续统的区别 仅在于关键音段只包括过渡段。
[0123] 实验一和实验二的被试情况和实验过程相同。
[0124] 实验过程为:每个合成语音重复Ξ次,W尽量减少被试误判的可能性及其影响。所 有合成语音通过E-prime 2.0软件随机呈现,界面有中文指导语。被试逐个在隔音效果良好 的语音实验室内使用AKG监听式耳机进行听辨。每两个合成语音之间呈现一张无声图片,W 弱化上一个合成语音对其后刺激的前摄影响。全部合成语音随机分为四组,每组之间有休 息时间,W减小疲劳效应。整个实验时长约30分钟。
[0125] 实验一得到的前后鼻音感知范畴如图13所示,实验二得到的前后鼻音感知范畴如 图14所示。
[0126] 实验一实际是利用合成的元音段和过渡段的连续统进行听辨测试,实验二实际是 利用合成的过渡段的连续统进行听辨测试。两因素方差分析结果表明,无论是实验一还是 实验二,第二共振峰F2的主效应都非常显著(p<.001),即中国被试听辨利用不同第二共振 峰F2得到的合成语音时,其结果存在显著差异。而第Ξ共振峰F3的主效应则都不显著(P述鍛 = .98;p^g殺翊鍛=1.0),表明第Ξ共振峰F3的变化对中国被试辨别前后鼻音的结果没有重 要的影响。
[0127] 发明人利用本发明提供的方法进行了大量的实验研究,运些实验结果表明基于过 渡段和元音段的第二共振峰、第Ξ共振峰合成的前后鼻音韵母连续统能够测量出母语者的 鼻音感知范畴,元音段及过渡段对汉语母语者判断前后鼻音音节都起了非常重要的作用, 其中有统计上显著影响的最关键声学线索是第二共振峰F2,母语者对改变第二共振峰F2和 第Ξ共振峰F3合成的前后鼻音韵母连续统具有范畴感知能力。
[012引示例性装置一
[0129]本发明还提供一种前后鼻音韵母的参数合成装置,包括:关键音段确定模块、共振 峰提取模块、共振峰连续统合成模块、关键音段连续统合成模块、语音合成模块。
[0130]关键首段确定板块,用于确定一对自U后鼻首首节,获取包含所述自U后鼻首首节的 若干语音信号,并确定所述每个语音信号的关键音段;
[0131] 共振峰提取模块,用于提取所述每个语音信号的关键音段的第二共振峰曲线和第 Ξ共振峰曲线;
[0132] 共振峰连续统合成模块,用于通过处理所述每个语音信号的关键音段的第二共振 峰曲线和第Ξ共振峰曲线,合成第二共振峰连续统和第Ξ共振峰连续统;所述第二共振峰 连续统包括多条合成的第二共振峰曲线,所述第Ξ共振峰连续统包括多条合成的第Ξ共振 峰曲线;
[0133] 关键音段连续统合成模块,用于利用所述第二共振峰连续统、所述第Ξ共振峰连 续统,W及第二共振峰和第Ξ共振峰W外的其他共振峰,合成关键音段连续统;所述关键音 段连续统包括多个合成的关键音段;
[0134] 语音合成模块,用于将所述关键音段连续统中每个合成的关键音段与关键音段W 外的其他音段拼接得到合成语音。
[0135] 可选地,共振峰连续统合成模块进一步包括:点选取模块、共振峰平均值计算模 块、第二共振峰连续统合成模块、第Ξ共振峰连续统合成模块。
[0136] 点选取模块,用于按照时间顺序在所述每个语音信号的关键音段的第二共振峰曲 线和第Ξ共振峰曲线上各选取N个点,并确定每个点的第二共振峰值和第Ξ共振峰值;其中 N为自然数;
[0137] 共振峰平均值计算模块,用于针对所述N个点中的每个点,分别计算所述若干语音 信号中所有包含前鼻音音节的语音信号在该点的第二共振峰值的平均值和第Ξ共振峰值 的平均值,W及分别计算所述若干语音信号中所有包含后鼻音音节的语音信号在该点的第 二共振峰值的平均值和第Ξ共振峰值的平均值;
[0138] 第二共振峰连续统合成模块,用于针对所述N个点中的每个点,W所述所有包含前 鼻音音节的语音信号在该点的第二共振峰值的平均值作为第一初始值,W所述所有包含后 鼻音音节的语音信号在该点的第二共振峰值的平均值作为第一结束值,将所述第一初始值 至所述第一结束值的数值进行M-1等分;将所述N个点对应的第k个等分点的数值相连接,将 所述N个点的第一初始值相连接,将所述N个点的第一结束值相连接,共合成Μ条第二共振峰 曲线,将合成的所述Μ条第二共振峰曲线组成所述第二共振峰连续统;其中,Μ为自然数,k = 1,2,3···Μ-2;
[0139] 第Ξ共振峰连续统合成模块,用于针对所述Ν个点中的每个点,W所述所有包含前 鼻音音节的语音信号在该点的第Ξ共振峰值的平均值作为第二初始值,W所述所有包含后 鼻音音节的语音信号在该点的第Ξ共振峰值的平均值作为第二结束值,将所述第二初始值 至所述第二结束值的数值进行M-1等分;将所述N个点对应的第k个等分点的数值相连接,将 所述N个点的第二初始值相连接,将所述N个点的第二结束值相连接,共合成Μ条第Ξ共振峰 曲线,将合成的所述Μ条第Ξ共振峰曲线组成所述第Ξ共振峰连续统。
[0140] 可选地,点选取模块,进一步包括:等分模块、端点确定模块。
[0141] 等分模块,用于将所述每个语音信号的关键音段的第二共振峰曲线等分成Ν-1段, 选取等分得到的各段的Ν个端点;
[0142] 端点确定模块,用于将所述每个语音信号的关键音段的第Ξ共振峰曲线等分成Ν- 1段,选取等分得到的各段的Ν个端点。
[0143] 可选地,关键音段连续统合成模块,进一步包括:曲线组合模块、关键音段合成模 块、关键音段集成模块。
[0144] 曲线组合模块,用于将所述第二共振峰连续统中的第二共振峰曲线与所述第Ξ共 振峰连续统中的第Ξ共振峰曲线两两组合成互不相同的曲线组合;
[0145] 关键音段合成模块,用于将每个所述曲线组合与第二共振峰和第Ξ共振峰W外的 其他共振峰合成关键音段;
[0146] 关键音段集成模块,用于将所述合成的关键音段组成所述关键音段连续统。
[0147] 可选地,前后鼻音韵母的参数合成装置,还包括:能量调整模块,用于调整所述合 成语音中关键音段的能量。
[0148] 可选地,关键音段为元音段和过渡段。运种情况下,语音合成模块具体用于:将所 述关键音段连续统中每个合成的关键音段与辅音声母和鼻音尾拼接得到合成语音。
[0149] 可选地,所述关键音段为过渡段。运种情况下,语音合成模块具体用于:将所述关 键音段连续统中每个合成的关键音段与辅音声母、元音段和鼻音尾拼接得到合成语音。
[0150] 可选地,该前后鼻音韵母的参数合成装置,还包括:前后鼻音韵母连续统合成模 块,用于将得到的全部所述合成语音组成前后鼻音韵母连续统。
[0151] 示例性装置二
[0152] 本发明还提供一种前后鼻音韵母的感知范畴测量装置,包括:示例性装置一中提 供的前后鼻音韵母的参数合成装置,W及测试模块、回归模型计算模块、范畴确定模块。
[0153] 测试模块,用于利用所述前后鼻音韵母的参数合成装置合成的前后鼻音韵母连续 统中的各个合成语音,对若干被试进行前后鼻音感知测试;
[0154] 回归模型计算模块,用于基于所述前后鼻音感知测试的结果,利用logistic回归 模型确定回归系数;
[0155] 范畴确定模块,用于利用所述回归系数确定所述若干被试的前后鼻音感知范畴。
[0156] 可选地,回归模型计算模块,进一步包括:感知曲线绘制模块、坐标选取模块、回归 系数计算模块。
[0157] 感知曲线绘制模块,用于利用所述前后鼻音感知测试的结果绘制感知曲线,该感 知曲线的第一坐标轴记录所述前后鼻音韵母连续统中各个合成语音的编号,第二坐标轴记 录被试的前后鼻音感知比例;
[0158] 坐标选取模块,用于在所述感知曲线上选取多个点,并确定所述选取的点的坐标 值;
[0159] 回归系数计算模块,用于将所述选取的点的坐标值代入如下的logistic回归模型 中,计算回归系数:
[0160]
[0161] 其中,X为所述感知曲线上的点在第一坐标轴上的坐标值,L为所述感知曲线上的 点在第二坐标轴上的坐标值,Pi为回归曲线的识别率,bi为回归曲线的斜率,bo为回归曲线 的截距,所述的回归系数包括Pi、bi、bo。
[0162] 可选地,范畴确定模块,进一步包括:范畴边界确定模块、范畴上边界确定模块、范 畴下边界确定模块。
[0163] 范畴边界确定模块,用于将所述回归曲线的识别率Pi为0.5时的X值确定为范畴边 界;
[0164] 范畴上边界确定模块,用于将所述回归曲线的识别率Pi为0.25时的X值确定为范 畴上边界;
[0165] 范畴下边界确定模块,用于将所述回归曲线的识别率Pi为0.75时的X值确定为范 畴下边界。
[0166] W上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,W上所述仅为本发明的具体实施例而已,并不用于限定本发明的保 护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本 发明的保护范围之内。
[0167] 尽管在附图中W特定顺序描述了本发明方法的操作,但是,运并非要求或者暗示 必须按照该特定顺序来执行运些操作,或是必须执行全部所示的操作才能实现期望的结 果。附加地或备选地,可W省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步 骤分解为多个步骤执行。
[0168] 尽管在上文详细描述中提及了前后鼻音韵母的参数合成装置和前后鼻音韵母的 感知范畴测量装置的若干模块,但是运种划分仅仅并非强制性的。实际上,根据本发明的实 施方式,上文描述的两个或更多模块的特征和功能可W在一个模块中具体化。反之,上文描 述的一个模块的特征和功能可W进一步划分为由多个模块来具体化。
[0169] 虽然已经参考若干【具体实施方式】描述了本发明的精神和原理,但是应该理解,本 发明并不限于所公开的【具体实施方式】,对各方面的划分也不意味着运些方面中的特征不能 组合W进行受益,运种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和 范围内所包括的各种修改和等同布置。
[0170] 本领域技术人员还可W 了解到本发明实施例列出的各种说明性逻辑块 (illustrative logical block),单元,和步骤可W通过电子硬件、电脑软件,或两者的结 合进行实现。为清楚展示硬件和软件的可替换性。111日'油日叫日日13;[1;^7),上述的各种说明 性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。运样的功 能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员 可W对于每种特定的应用,可W使用各种方法实现所述的功能,但运种实现不应被理解为 超出本发明实施例保护的范围。
[0171] 本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可W通过通用 处理器,数字信号处理器,专用集成电路(ASIC),现场可编程口阵列或其它可编程逻辑装 置,离散口或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功 能。通用处理器可W为微处理器,可选地,该通用处理器也可W为任何传统的处理器、控制 器、微控制器或状态机。处理器也可W通过计算装置的组合来实现,例如数字信号处理器和 微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类 似的配置来实现。
[0172] 本发明实施例中所描述的方法或算法的步骤可W直接嵌入硬件、处理器执行的软 件模块、或者运两者的结合。软件模块可W存储于RAM存储器、闪存、ROM存储器、EPROM存储 器、EEPR0M存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介 中。示例性地,存储媒介可W与处理器连接,W使得处理器可W从存储媒介中读取信息,并 可W向存储媒介存写信息。可选地,存储媒介还可W集成到处理器中。处理器和存储媒介可 W设置于ASIC中,ASIC可W设置于用户终端中。可选地,处理器和存储媒介也可W设置于用 户终端中的不同的部件中。
[0173] 在一个或多个示例性的设计中,本发明实施例所描述的上述功能可W在硬件、软 件、固件或运Ξ者的任意组合来实现。如果在软件中实现,运些功能可W存储与电脑可读的 媒介上,或W-个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电 脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可W 是任何通用或特殊电脑可W接入访问的可用媒体。例如,运样的电脑可读媒体可W包括但 不限于341、1?01、66?1?01八0-1?01或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任 何可W用于承载或存储W指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理 器读取形式的程序代码的媒介。此外,任何连接都可w被适当地定义为电脑可读媒介,例 如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双 绞线、数字用户线(D化)或W例如红外、无线和微波等无线方式传输的也被包含在所定义的 电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、错射盘、光盘、DVD、软盘 和蓝光光盘,磁盘通常W磁性复制数据,而碟片通常W激光进行光学复制数据。上述的组合 也可W包含在电脑可读媒介中。
【主权项】
1. 一种前后鼻音韵母的参数合成方法,其特征在于,包括: 确定一对前后鼻音音节,获取包含所述前后鼻音音节的若干语音信号,并确定所述每 个语音信号的关键音段; 提取所述每个语音信号的关键音段的第二共振峰曲线和第三共振峰曲线; 通过处理所述每个语音信号的关键音段的第二共振峰曲线和第三共振峰曲线,合成第 二共振峰连续统和第三共振峰连续统;所述第二共振峰连续统包括多条合成的第二共振峰 曲线,所述第三共振峰连续统包括多条合成的第三共振峰曲线; 利用所述第二共振峰连续统、所述第三共振峰连续统,以及第二共振峰和第三共振峰 以外的其他共振峰,合成关键音段连续统;所述关键音段连续统包括多个合成的关键音段; 将所述关键音段连续统中每个合成的关键音段与关键音段以外的其他音段拼接得到 合成语音。2. 根据权利要求1所述的前后鼻音韵母的参数合成方法,其特征在于,所述的通过处理 所述每个语音信号的关键音段的第二共振峰曲线和第三共振峰曲线,合成第二共振峰连续 统和第三共振峰连续统,包括: 按照时间顺序在所述每个语音信号的关键音段的第二共振峰曲线和第三共振峰曲线 上各选取N个点,并确定每个点的第二共振峰值和第三共振峰值;其中N为自然数; 针对所述N个点中的每个点,分别计算所述若干语音信号中所有包含前鼻音音节的语 音信号在该点的第二共振峰值的平均值和第三共振峰值的平均值,以及分别计算所述若干 语音信号中所有包含后鼻音音节的语音信号在该点的第二共振峰值的平均值和第三共振 峰值的平均值; 针对所述N个点中的每个点,以所述所有包含前鼻音音节的语音信号在该点的第二共 振峰值的平均值作为第一初始值,以所述所有包含后鼻音音节的语音信号在该点的第二共 振峰值的平均值作为第一结束值,将所述第一初始值至所述第一结束值的数值进行M-1等 分;将所述N个点对应的第k个等分点的数值相连接,将所述N个点的第一初始值相连接,将 所述N个点的第一结束值相连接,共合成Μ条第二共振峰曲线,将合成的所述Μ条第二共振峰 曲线组成所述第二共振峰连续统;其中,Μ为自然数,k = 1,2,3···Μ-2; 针对所述Ν个点中的每个点,以所述所有包含前鼻音音节的语音信号在该点的第三共 振峰值的平均值作为第二初始值,以所述所有包含后鼻音音节的语音信号在该点的第三共 振峰值的平均值作为第二结束值,将所述第二初始值至所述第二结束值的数值进行Μ-1等 分;将所述Ν个点对应的第k个等分点的数值相连接,将所述Ν个点的第二初始值相连接,将 所述N个点的第二结束值相连接,共合成Μ条第三共振峰曲线,将合成的所述Μ条第三共振峰 曲线组成所述第三共振峰连续统。3. 根据权利要求2所述的前后鼻音韵母的参数合成方法,其特征在于,所述的按照时间 顺序在所述每个语音信号的关键音段的第二共振峰曲线和第三共振峰曲线上各选取Ν个 点,包括: 将所述每个语音信号的关键音段的第二共振峰曲线等分成Ν-1段,选取等分得到的各 段的Ν个端点; 将所述每个语音信号的关键音段的第三共振峰曲线等分成Ν-1段,选取等分得到的各 段的Ν个端点。4. 根据权利要求2所述的前后鼻音韵母的参数合成方法,其特征在于,所述的利用所述 第二共振峰连续统、所述第三共振峰连续统,以及第二共振峰和第三共振峰以外的其他共 振峰,合成关键音段连续统,包括: 将所述第二共振峰连续统中的第二共振峰曲线与所述第三共振峰连续统中的第三共 振峰曲线两两组合成互不相同的曲线组合; 将每个所述曲线组合与第二共振峰和第三共振峰以外的其他共振峰合成关键音段; 将所述合成的关键音段组成所述关键音段连续统。5. 根据权利要求1所述的前后鼻音韵母的参数合成方法,其特征在于,还包括:调整所 述合成语音中关键音段的能量。6. 根据权利要求1~5任一所述的前后鼻音韵母的参数合成方法,其特征在于,所述关 键音段为元音段和过渡段。7. 根据权利要求6所述的前后鼻音韵母的参数合成方法,其特征在于,所述的将所述关 键音段连续统中每个合成的关键音段与关键音段以外的其他音段拼接得到合成语音,包 括: 将所述关键音段连续统中每个合成的关键音段与辅音声母和鼻音尾拼接得到合成语 音。8. 根据权利要求1~5任一所述的前后鼻音韵母的参数合成方法,其特征在于,所述关 键音段为过渡段。9. 根据权利要求8所述的前后鼻音韵母的参数合成方法,其特征在于,所述的将所述关 键音段连续统中每个合成的关键音段与关键音段以外的其他音段拼接得到合成语音,包 括: 将所述关键音段连续统中每个合成的关键音段与辅音声母、元音段和鼻音尾拼接得到 合成语音。10. 根据权利要求1所述的前后鼻音韵母的参数合成方法,其特征在于,还包括:将得到 的全部所述合成语音组成前后鼻音韵母连续统。11. 一种前后鼻音韵母的感知范畴测量方法,其特征在于,包括: 根据权利要求10所述的前后鼻音韵母的参数合成方法得到前后鼻音韵母连续统; 利用所述前后鼻音韵母连续统中的各个合成语音,对若干被试进行前后鼻音感知测 试; 基于所述前后鼻音感知测试的结果,利用logistic回归模型确定回归系数; 利用所述回归系数确定所述若干被试的前后鼻音感知范畴。12. 根据权利要求11所述的前后鼻音韵母的感知范畴测量方法,其特征在于,所述的基 于所述前后鼻音感知测试的结果,利用logistic回归模型确定回归系数,包括: 利用所述前后鼻音感知测试的结果绘制感知曲线,该感知曲线的第一坐标轴记录所述 前后鼻音韵母连续统中各个合成语音的编号,第二坐标轴记录被试的前后鼻音感知比例; 在所述感知曲线上选取多个点,并确定所述选取的点的坐标值; 将所述选取的点的坐标值代入如下的logistic回归模型中,计算回归系数:其中,X为所述感知曲线上的点在第一坐标轴上的坐标值,L为所述感知曲线上的点在 第二坐标轴上的坐标值,P:为回归曲线的识别率,h为回归曲线的斜率,b〇为回归曲线的截 距,所述的回归系数包括Pi、bi、bo。13. 根据权利要求12所述的前后鼻音韵母的感知范畴测量方法,其特征在于,所述的利 用所述回归系数确定所述若干被试的前后鼻音感知范畴,包括: 将所述回归曲线的识别率Pi为〇. 5时的X值确定为范畴边界; 将所述回归曲线的识别率Pi为〇. 25时的X值确定为范畴上边界; 将所述回归曲线的识别率Pi为〇. 75时的X值确定为范畴下边界。14. 一种前后鼻音韵母的参数合成装置,其特征在于,包括: 关键音段确定模块,用于确定一对前后鼻音音节,获取包含所述前后鼻音音节的若干 语音信号,并确定所述每个语音信号的关键音段; 共振峰提取模块,用于提取所述每个语音信号的关键音段的第二共振峰曲线和第三共 振峰曲线; 共振峰连续统合成模块,用于通过处理所述每个语音信号的关键音段的第二共振峰曲 线和第三共振峰曲线,合成第二共振峰连续统和第三共振峰连续统;所述第二共振峰连续 统包括多条合成的第二共振峰曲线,所述第三共振峰连续统包括多条合成的第三共振峰曲 线; 关键音段连续统合成模块,用于利用所述第二共振峰连续统、所述第三共振峰连续统, 以及第二共振峰和第三共振峰以外的其他共振峰,合成关键音段连续统;所述关键音段连 续统包括多个合成的关键音段; 语音合成模块,用于将所述关键音段连续统中每个合成的关键音段与关键音段以外的 其他音段拼接得到合成语音。15. 根据权利要求14所述的前后鼻音韵母的参数合成装置,其特征在于,所述共振峰连 续统合成模块进一步包括: 点选取模块,用于按照时间顺序在所述每个语音信号的关键音段的第二共振峰曲线和 第三共振峰曲线上各选取N个点,并确定每个点的第二共振峰值和第三共振峰值;其中N为 自然数; 共振峰平均值计算模块,用于针对所述N个点中的每个点,分别计算所述若干语音信号 中所有包含前鼻音音节的语音信号在该点的第二共振峰值的平均值和第三共振峰值的平 均值,以及分别计算所述若干语音信号中所有包含后鼻音音节的语音信号在该点的第二共 振峰值的平均值和第三共振峰值的平均值; 第二共振峰连续统合成模块,用于针对所述N个点中的每个点,以所述所有包含前鼻音 音节的语音信号在该点的第二共振峰值的平均值作为第一初始值,以所述所有包含后鼻音 音节的语音信号在该点的第二共振峰值的平均值作为第一结束值,将所述第一初始值至所 述第一结束值的数值进行M-1等分;将所述N个点对应的第k个等分点的数值相连接,将所述 N个点的第一初始值相连接,将所述N个点的第一结束值相连接,共合成Μ条第二共振峰曲 线,将合成的所述Μ条第二共振峰曲线组成所述第二共振峰连续统;其中,Μ为自然数,k= 1, 2,3···Μ-2; 第三共振峰连续统合成模块,用于针对所述Ν个点中的每个点,以所述所有包含前鼻音 音节的语音信号在该点的第三共振峰值的平均值作为第二初始值,以所述所有包含后鼻音 音节的语音信号在该点的第三共振峰值的平均值作为第二结束值,将所述第二初始值至所 述第二结束值的数值进行M-1等分;将所述N个点对应的第k个等分点的数值相连接,将所述 N个点的第二初始值相连接,将所述N个点的第二结束值相连接,共合成Μ条第三共振峰曲 线,将合成的所述Μ条第三共振峰曲线组成所述第三共振峰连续统。16. 根据权利要求15所述的前后鼻音韵母的参数合成装置,其特征在于,所述点选取模 块,进一步包括: 等分模块,用于将所述每个语音信号的关键音段的第二共振峰曲线等分成Ν-1段,选取 等分得到的各段的Ν个端点; 端点确定模块,用于将所述每个语音信号的关键音段的第三共振峰曲线等分成Ν-1段, 选取等分得到的各段的Ν个端点。17. 根据权利要求15所述的前后鼻音韵母的参数合成装置,其特征在于,所述关键音段 连续统合成模块,进一步包括: 曲线组合模块,用于将所述第二共振峰连续统中的第二共振峰曲线与所述第三共振峰 连续统中的第三共振峰曲线两两组合成互不相同的曲线组合; 关键音段合成模块,用于将每个所述曲线组合与第二共振峰和第三共振峰以外的其他 共振峰合成关键音段; 关键音段集成模块,用于将所述合成的关键音段组成所述关键音段连续统。18. 根据权利要求14所述的前后鼻音韵母的参数合成装置,其特征在于,还包括:能量 调整模块,用于调整所述合成语音中关键音段的能量。19. 根据权利要求14~18任一所述的前后鼻音韵母的参数合成装置,其特征在于,所述 关键音段为元音段和过渡段。20. 根据权利要求19所述的前后鼻音韵母的参数合成装置,其特征在于,所述语音合成 模块具体用于:将所述关键音段连续统中每个合成的关键音段与辅音声母和鼻音尾拼接得 到合成语音。21. 根据权利要求14~18任一所述的前后鼻音韵母的参数合成装置,其特征在于,所述 关键音段为过渡段。22. 根据权利要求21所述的前后鼻音韵母的参数合成装置,其特征在于,所述语音合成 模块具体用于:将所述关键音段连续统中每个合成的关键音段与辅音声母、元音段和鼻音 尾拼接得到合成语音。23. 根据权利要求14所述的前后鼻音韵母的参数合成装置,其特征在于,还包括: 前后鼻音韵母连续统合成模块,用于将得到的全部所述合成语音组成前后鼻音韵母连 续统。24. -种前后鼻音韵母的感知范畴测量装置,其特征在于,包括: 权利要求23所述的前后鼻音韵母的参数合成装置; 测试模块,用于利用所述前后鼻音韵母的参数合成装置合成的前后鼻音韵母连续统中 的各个合成语音,对若干被试进行前后鼻音感知测试; 回归模型计算模块,用于基于所述前后鼻音感知测试的结果,利用logistic回归模型 确定回归系数; 范畴确定模块,用于利用所述回归系数确定所述若干被试的前后鼻音感知范畴。25. 根据权利要求24所述的前后鼻音韵母的感知范畴测量装置,其特征在于,所述回归 模型计算模块,进一步包括: 感知曲线绘制模块,用于利用所述前后鼻音感知测试的结果绘制感知曲线,该感知曲 线的第一坐标轴记录所述前后鼻音韵母连续统中各个合成语音的编号,第二坐标轴记录被 试的前后鼻音感知比例; 坐标选取模块,用于在所述感知曲线上选取多个点,并确定所述选取的点的坐标值; 回归系数计算模块,用于将所述选取的点的坐标值代入如下的logistic回归模型中, 计算回归系数:其中,X为所述感知曲线上的点在第一坐标轴上的坐标值,L为所述感知曲线上的点在 第二坐标轴上的坐标值,P:为回归曲线的识别率,h为回归曲线的斜率,b〇为回归曲线的截 距,所述的回归系数包括Pi、bi、bo。26. 根据权利要求25所述的前后鼻音韵母的感知范畴测量装置,其特征在于,所述范畴 确定模块,进一步包括: 范畴边界确定模块,用于将所述回归曲线的识别率Pi为〇. 5时的X值确定为范畴边界; 范畴上边界确定模块,用于将所述回归曲线的识别率Pi为0.25时的X值确定为范畴上边 界; 范畴下边界确定模块,用于将所述回归曲线的识别率PzSO.75时的X值确定为范畴下边 界。
【文档编号】G10L13/10GK105825847SQ201610149425
【公开日】2016年8月3日
【申请日】2016年3月16日
【发明人】张劲松, 郝丽霞, 解焱陆, 时书菊, 曹文
【申请人】北京语言大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1