语音标注方法及装置的制造方法

文档序号：9616933阅读：748来源：国知局

语音标注方法及装置的制造方法
【技术领域】
[0001]本发明实施例涉及信息技术领域，尤其涉及一种语音标注方法及装置。
【背景技术】
[0002]随着信息技术的飞速发展，有声读物或有声小说进入人们的日常生活，有逐步代替传统文本阅读方式的趋势。而网络上已有的海量的具有丰富变化的语料(比如有声小说)，能够实现更全的模型上下文覆盖，提供更加丰富的韵律现象，但是网络上的语料数据并不具备语音合成系统必需的语音标注信息。
[0003]目前音段标注主要采用使用基于隐马尔科夫模型的浅层结构进行音段标注，即首先提取出输入语料的语音特征、文本特征和韵律特征，采用隐马尔科夫模型对语音特征和文本特征进行训练，对语音特征和文本特征进行对齐，得到初始音段标注结果即每段语音和文本的对应关系，然后再对音段标注、韵律特征、语音特征和文本特征进行训练，得到最终的音段标注结果和声学模型。
[0004]但是，上述基于隐马尔科夫模型的浅层结构的建模能力较弱，对于网络上发音风格变化丰富的语料，音段标注结果欠佳。

【发明内容】

[0005]本发明实施例提供一种语音标注方法及装置，能够准确的对输入语料进行音段标注。
[0006]第一方面，本发明实施例提供了一种语音标注方法，包括:
[0007]采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；
[0008]采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系；
[0009]将所述第二音段标注结果做为语音合成时采用的音段标注结果。
[0010]第二方面，本发明实施例还提供一种语音标注装置，包括:
[0011]初始标注训练模块，用于采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；
[0012]深层标注训练模块，用于采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系，将所述第二音段标注结果做为语音合成时采用的音段标注结果。
[0013]本发明实施例首先采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；然后采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系；将所述第二音段标注结果做为语音合成时采用的音段标注结果。本发明实施例能够准确的对输入语料进行音段标注。
【附图说明】
[0014]图1A为本发明实施例一提供的语音标注方法的流程示意图；
[0015]图1B为本发明实施例一提供的语音标注方法中的提取的音频信号示意图；
[0016]图2为本发明实施例二提供的语音标注方法的流程示意图；
[0017]图3为本发明实施例三提供的语音标注装置的结构示意图。
【具体实施方式】
[0018]下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
[0019]本发明实施例提供的语音标注方法的执行主体，可为本发明实施例提供的语音标注装置，或者集成了所述语音标注装置的终端设备(例如，智能手机、平板电脑等)或服务器，该语音标注装置可以采用硬件或软件实现。
[0020]实施例一
[0021]图1为本发明实施例一提供的语音标注方法的流程示意图，如图1所示，具体包括:
[0022]S11、采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；
[0023]其中，所述第一声学模型可为现有技术中存在的具有音段标注功能的声学模型，所述第一声学模型为第一发音者对应的声音模型。例如，采用现有技术中基于隐马尔科夫模型的浅层结构训练得到声学模型。所述输入语料具体可为从网络上获取的有声读物，例如有声小说等。所述文本特征为所述输入语料对应的文本通过查字典等方式得到的音子序列，所述音子序列即为所述文本的汉语拼音。输入语料对应的文本是通过该输入语料的相关资料获取的，例如，有声小说，可以直接获取小说文本，作为输入语料的文本。
[0024]所述语音特征为所述输入语料中的语音信号，可按照一定窗长和窗移，变换成一个随时间变化的多维向量。具体来说，一般以25ms为一个窗口，将该窗口内的语音波形变换成一个多维向量，然后窗口向后移动5ms，继续进行该操作，直到语音信号结束，最后一句语音波形信号，就变换成一个随时间变化的多维向量。
[0025]将语音特征和文本特征对齐是指对于输入语料中的语音特征和文本特征中找出一个最优的对齐路径。由于上述音频信号切分时可能造成的不准确性，所以需要从文本特征中找出与音频特征尽可能对应的音子序列，即拼音。
[0026]为了使后续语音合成时得到的发音更为动听，可进一步对所述输入语料进行韵律标注，具体的韵律标注方法可采用人工进行标注。那么在采用第一声学模型对输入语料的特征信息进行对齐时，也将韵律标注一起进行训练，得到第一音段标注结果，此时所述第一音段标注结果中包含语音特征、文本特征和韵律标注三者的初始对应关系。
[0027]具体的，对于获取的输入语料，首先对它进行预处理，即提取出对应的语音特征和文本特征，其中，所述语音特征和文本特征可采用向量化的特征向量序列表示。例如，对于一段WAV格式的输入语料，提取的文本为“这是#2命运#1之战#3，是#1人族#2与#1黑暗#1种族的#1碰撞#3’是#1黎明#1原力#3、燃烧#1黑石#3、喷涌#1蒸汽#3、轰鸣#1枪械#3、巨大#1粗糙#1机械#2与#1黑暗#1原力的#1对决#3 ! ”。其中，在提取文本时加入了韵律标注，上述例子中的文本即是加入了韵律标注的文本特征。其中#1，#2，#3分别代表了三种停顿级别，#1代表韵律词，#2代表韵律短语，#3代表语调短语，级别越高停顿时间越长，其中大小关系为#1〈#2〈#3。根据文本可通过查询字典的方式得到如下文本特征:
[0028]X~X-sil+zh_e’ 0#0/A:0(0 ；0(0/B:0+0 ；0+0/C:2)4 ；11) 11/E:0-0-0 ；0/F:0]0]0 ；
0]0 I 0] 0 = 0] 0 ?X] 0/G: 2#6#6 ；0/H:X<X<r ；0<0 | 0〈0 = 0〈0/1:0-0/J: 0>0 ；0>0 | 0>0/K: 3-3/L:0i0il ；0i0|0/M:0'0 ;0/U:48’ 25 ;8’ 7/T:0_0 ；0_4|4
[0029]X~sil-zh+e_sh，1#2/A:0(0 ；0 (0/B:2+4 ；11 + 11/C:2) 3 ;20) 20/E: 0-0-0 ；0/F:2]6]6 ；1]2|1]6 = 1]6 ?e]0/G:2#ll#ll ；l/H:X<r<n ；0<2|0<2 = 0〈0/1:0-0/J:3>3 ;1>3|l>3/K:6-6/L:0ilil ；lil|58069/M:Γ7 ;0/U:48，25 ;8，7/T:0_0 ；4_4|4
[0030]sil~zh-e+sh_iii，2#1/A:0(0 ；0(0/B:2+4 ; 11 + 11/C:2) 3 ;20) 20/E: 0-0-0 ；0/F:2]6]6 ；1]2|1]6 = 1]6 ?e]0/G:2#ll#ll ；l/H:X<r<n ；0<2|0<2 = 0〈0/1:0-0/J:3>3 ;1>3|l>3/K:6-6/L:0ilil ；lil|58069/M:Γ7 ;0/U:48，25 ;8，7/T:0_0 ；4_4|4
[0031]zh~e-sh+iii_m’ 1#2/A:2(0 ；0 (0/B:2+4 ；11 + 11/C:2) 3 ;20) 20/E: 0-0-0 ；0/F:2]6]6 ；2]l|2]5 = 2]5 ?iii]1/G:2#11#11 ；0/H:X<r<n ；0<2|0<2 = 0〈0/1:0-0/J:3>3 ；1>3|l>3/K:6-6/L:0ilil ；lil|51146/M:Γ7 ;0/U:48，25 ;8，7/T:0

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨鹏;康永国;盖于涛;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人