基于汉语韵律结构和重音的联合预测模型构建方法及系统与流程

文档序号：13166619阅读：173来源：国知局

本发明涉及人机交互总语音合成技术领域，更具体地，涉及一种基于汉语韵律结构和重音的联合预测模型构建方法及系统。

背景技术：

准确的韵律结构和重音描述以及从文本信息中预测韵律结构和重音一直是语音合成中至关重要的一步，是提高合成语音自然度和表现力、构建和谐人机交互技术的重要组成部分。韵律结构和重音模型能够刻画出语音中的抑扬顿挫与轻重缓急，进而提高合成语音的表现力和自然度。韵律结构和重音建模与预测对语音合成、人机交互等的发展具有重要意义。

虽然，在这个领域已经有很多的研究工作，但是韵律结构和重音的预测还有很多问题至今没有很好的解决。其中，在文本特征的描述上，所用的词向量特征都是事先训练好的词向量模型，这些词向量的值在进行韵律结构和重音模型训练中，并没有随着任务的不同而进一步得到调整。此外，在韵律结构和重音的预测模型选择上，对于上下文文本特征的考虑还不够全面。并且，现有的关于汉语韵律结构和重音的研究中，已经表明韵律结构和重音之间存在较为紧密的联合。而现有的关于汉语韵律结构和重音的预测中，韵律结构预测和重音预测是被当成两个比较独立的任务而分别进行建模的，并没有将它们之间的这种关系考虑进去。

技术实现要素：

为了解决现有技术中的上述问题，即为了解决将汉语韵律结构和重音结合，以准确预测文本信息中韵律结构和重音，本发明提供了一种基于汉语韵律结构和重音的联合预测模型构建方法及系统。

为实现上述目的，本发明提供了如下方案：

一种基于汉语韵律结构和重音的联合预测模型构建方法，所述构建方法包括：

对多个训练语料进行预处理，得到预处理文本；

对所述预处理文本进行分词处理，得到分词文本信息；

根据所述分词文本信息确定对应文本的词向量特征序列；

基于注意力机制的循环神经网络rnn的编码-解码，对所述词向量特征序列进行编码、解码处理，建立基于汉语韵律结构和重音的联合预测模型，用于预测待处理文本的韵律结构和重音。

可选的，所述对多个训练语料进行预处理，具体包括：

对所述训练语料进行规则化处理，纠正多音字发音错误；和/或对数字进行正则化处理。

可选的，所述根据所述分词文本信息确定对应文本的词向量特征序列，具体包括：

根据所述分词文本信息，通过查找词表的方法查到所对应词的词向量，确定对应文本的词向量特征序列；

其中，所述词表的初始值是基于连续词袋模型cbow训练得到的。

可选的，所述建立基于汉语韵律结构和重音的联合预测模型，具体包括：

基于双向rnn的编码器从正向和反向读取所述词向量特征序列，确定所述编码器在每一时间步的隐状态；

基于无向rnn的解码器进行解码，得到表征基于汉语韵律结构和重音的联合预测模型的解码状态函数，用于预测待处理文本的韵律结构和重音。

可选的，所述建立基于汉语韵律结构和重音的联合预测模型，还包括：

提取各训练语料中的韵律结构和重音标注结果作为目标值；

根据解码状态函数计算各训练语料的预测值；

根据所述目标值和预测值调整所述预测模型的状态参数。

可选的，所述基于双向rnn的编码器从正向和反向读取所述词向量特征序列，确定编码器在每一时间步的隐状态，具体包括：

前向rnn按照正向读取词向量特征序列x＝(x1,x2,...,xt)，并在每一时间步i产生正向隐状态fhi，其中，fhi＝(fh1,...,fht)，i＝1,2,...,t；f表示预测模型的正向隐状态参数；

后向rnn按照反向读取词向量特征序列并生成反向隐状态bhi，其中，bhi＝(bht,...,bh1)；b表示预测模型的反向隐状态参数；

根据所述正向隐状态fhi和反向隐状态bhi确定编码器在每一时间步的隐状态hi，其中，hi＝[fhi,bhi]。

可选的，所述基于无向rnn的解码器进行解码，具体包括：

获取时间步(i-1)的无向rnn的解码器解码状态si-1及对应的标签yi-1；

获取当前时间步i的双向rnn的编码器的隐状态hi和语义向量ci；

根据解码状态si-1、标签yi-1、隐状态hi及语义向量ci确定当前时间步长i对应的无向rnn的解码器的解码状态si；其中，si＝p(si-1,yi-1,hi,ci)，p()表示关系函数。

可选的，根据以下公式确定所述语义向量ci：

ei,k＝g(si-1,hk)；

其中，g()表示神经网络，i、j、k分别表示时间步长序号，且i＝1,2,...,t，j＝1,2,...,t，k＝1,2,...,t。

可选的，所述预测模型分为三个层级，第一层级为韵律词、第二层级为韵律短语，第三层级为词调短语；

在预测待处理文本的韵律结构和重音时，在第一层级，预测韵律词的同时预测重音；

在第二层级和第三层级中，移除重音预测，并将前一层级的预测结构作为当前层级的输入，通过与待处理文本的词向量序列进行拼接得到对应的预测结果。

为实现上述目的，本发明还提供了如下方案：

一种基于汉语韵律结构和重音联合的预测模型构建系统，所述构建系统包括：

文本预处理模块，用于对多个训练语料进行预处理，得到预处理文本；

分词模块，用于对所述预处理文本进行分词处理，得到分词文本信息；

词向量确定模块，用于根据所述分词文本信息确定对应的词向量特征序列；

建模模块，用于基于注意力机制的rnn的编码-解码，对所述词向量特征序列进行编码、解码处理，建立基于汉语韵律结构和重音的联合预测模型，用于预测待处理文本的韵律结构和重音。

根据本发明的实施例，本发明公开了以下技术效果：

本发明通过对多个训练语料进行预处理、分词处理获得分词文本信息，得到对应文本的词向量特征序列，进而基于循环神经网络，建立基于汉语韵律结构和重音的联合预测模型，充分考虑汉语韵律结构与重音的关系，实现对待测文本的准确预测。

附图说明

图1是本发明基于汉语韵律结构和重音联合的预测模型构建方法的流程图；

图2是本发明基于汉语韵律结构和重音联合的预测模型构建系统的模块结构示意图。

符号说明：

文本预处理模块—1，分词模块—2，词向量确定模块—3，建模模块—4。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明提供一种基于汉语韵律结构和重音联合的预测模型构建方法，通过对多个训练语料进行预处理、分词处理获得分词文本信息，得到对应文本的词向量特征序列，进而基于循环神经网络，建立基于汉语韵律结构和重音的联合预测模型，充分考虑汉语韵律结构与重音的关系，实现对待测文本的准确预测。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明基于汉语韵律结构和重音联合的预测模型构建方法包括：

步骤100：对多个训练语料进行预处理，得到预处理文本；

步骤200：对所述预处理文本进行分词处理，得到分词文本信息；

步骤300：根据所述分词文本信息确定对应文本的词向量特征序列；

步骤400：基于注意力机制的rnn(recurrentneuralnetwork，循环神经网络)的编码-解码，对所述词向量特征序列进行编码、解码处理，建立基于汉语韵律结构和重音的联合预测模型，用于预测待处理文本的韵律结构和重音。

其中，在步骤100中，首先收集在韵律结构和重音方面与待处理文本的风格近似的大量训练语料，创建数据库，约为15g，文本语料越多，预测的准确度越高。且所述数据库中存储有训练语料及其对应的韵律结构和重音标注结果。

进一步地，所述对多个训练语料进行预处理，具体包括：

对所述训练语料进行规则化处理，纠正多音字发音错误；和/或对数字进行正则化处理。

在步骤300中，所述根据所述分词文本信息确定对应文本的词向量特征序列，具体包括：

根据所述分词文本信息，通过查找词表的方法查到所对应词的词向量，确定对应文本的词向量特征序列；

其中，所述词表的初始值是基于cbow(continuousbag-of-words，连续词袋模型)训练得到的。并在后续训练过程中，不断更新所述词向量模型训练，使得所述词表不断更新，以丰富词表，从而提高对待处理文本预测的准确度。

在步骤400中，所述建立基于汉语韵律结构和重音的联合预测模型，具体包括：

步骤401：基于双向rnn的编码器从正向和反向读取所述词向量特征序列，确定所述编码器在每一时间步的隐状态。

步骤402：基于无向rnn的解码器进行解码，得到表征基于汉语韵律结构和重音的联合预测模型的解码状态函数，用于预测待处理文本的韵律结构和重音。

进一步地，所述建立基于汉语韵律结构和重音的联合预测模型，还包括：

步骤403：提取各训练语料中的韵律结构和重音标注结果作为目标值；

步骤404：根据解码状态函数计算各训练语料的预测值；

步骤405：根据所述目标值和预测值调整所述预测模型的状态参数。所述状态参数包括预测模型的正向隐状态参数和预测模型的反向隐状态参数。

其中，在步骤401中，所述基于双向rnn的编码器从正向和反向读取所述词向量特征序列，确定编码器在每一时间步的隐状态，具体包括：

步骤4011：前向rnn按照正向读取词向量特征序列x＝(x1,x2,...,xt)，并在每一时间步i产生正向隐状态fhi，其中，fhi＝(fh1,...,fht)，i＝1,2,...,t；f表示预测模型的正向隐状态参数；

步骤4012：后向rnn按照反向读取词向量特征序列并生成反向隐状态bhi，其中，bhi＝(bht,...,bh1)；b表示预测模型的反向隐状态参数；

步骤4013：根据所述正向隐状态fhi和反向隐状态bhi确定编码器在每一时间步的隐状态hi，其中，hi＝[fhi,bhi]。

由于rnn本身的时序建模特性，使得编码器在最后时刻的隐状态也就携带了源输入序列的全部信息。

在步骤402中，所述基于无向rnn的解码器进行解码，具体包括：

步骤4021：获取时间步(i-1)的无向rnn的解码器的解码状态si-1及对应的标签yi-1。

步骤4022：获取当前时间步i的双向rnn的编码器的隐状态hi和语义向量ci。

进一步，可根据公式(1)-(3)确定所述语义向量ci：

ei,k＝g(si-1,hk)(3)；

其中，g()表示神经网络，i、j、k分别表示时间步长序号，且i＝1,2,...,t，j＝1,2,...,t，k＝1,2,...,t。

步骤4023：根据解码状态si-1、标签yi-1、隐状态hi及语义向量ci确定当前时间步长i对应的解码状态si；其中，si＝p(si-1,yi-1,hi,ci)，p()表示关系函数。

其中，所述无向rnn的解码器相对于所述双向rnn的编码器而言，在解码过程中没有方向性。所述基于无向rnn的解码器在进行解码的时候，除了仅仅利用基于双向rnn的编码器的每一时间步的隐状态表示hi外，进一步引入注意力机制(即引入语义向量ci)。由于引入了注意力机制，因而解码器在解码的时间步i时的状态si是由解码器在时间步(i-1)的状态si-1，及对应的标签yi-1，跟当前时刻对齐的“编码器”隐状态hi和语义向量ci共同决定的。

其中，所述语义向量ci是无向rnn的编码器的隐状态序列[h1,...,ht]的加权平均，即公式(1)，能够为无向rnn的解码器提供更多的前后向信息。

本发明引入多任务学习机制进行韵律结构和重音的联合预测建模。具体而言，将所述预测模型分为三个层级，第一层级为韵律词(pw)、第二层级为韵律短语(pph)，第三层级为词调短语(iph)；在预测待处理文本的韵律结构和重音时，在第一层级，预测韵律词的同时预测重音；在第二层级和第三层级中，移除重音预测，并将前一层级的预测结构作为当前层级的输入，通过与待处理文本的词向量序列进行拼接得到对应的预测结果。

在韵律结构第一层级韵律词预测的同时，加入了另一个任务(即加入另外一个解码器)同时预测重音。其中，两个任务之间的编码器和词向量层是共享的。在模型训练时，整个模型的损失函数为两个任务的误差和，即两个解码器的误差。该误差会被进行方向传播，以进行模型参数的调整。在进行韵律结构另外两个层级(即韵律短语和语调短语)预测的时候，移除掉重音预测这一任务。并且韵律结构前一层级的预测结果，将会作为当前层级的输入，并与通过所述词向量层转换后的序列进行拼接，再送入到编码器中。

进一步地，基于注意力机制的rnn的编码-解码的韵律结构和重音联合预测模块，利用所述基于注意力机制的rnn的编码-解码的韵律结构和重音联合预测模型，输出对应文本的韵律结构预测和重音预测的结果。

利用预先训练好的词向量模型对词向量进行初始化，利用基于注意力模型和多任务学习的方法对汉语韵律结构和重音联合进行建模以预测待处理文本的韵律结构和重音信息。

本发明主要通过特征层面和模型层面对音素时长建模和预测进行了改善。在特征层面，建立了属于韵律结构和重音的词向量模型，使得对文本特征的描述更加精确。在模型层面，采用基于注意力模型和多任务学习的方法，对汉语韵律结构和重音进行联合建模。从而大大提高了汉语韵律结构和重音预测的性能。该预测结果用于指导语音合成的后端进行语音合成，进而提高了合成语音的自然度和表现力。

此外，本发明还提供一种基于汉语韵律结构和重音的联合预测模型构建系统。如图2所示，本发明基于汉语韵律结构和重音的联合预测模型构建系统包括文本预处理模块1、分词模块2、词向量确定模块3及建模模块4。

其中，所述文本预处理模块1用于对多个训练语料进行预处理，得到预处理文本；所述分词模块2用于对所述预处理文本进行分词处理，得到分词文本信息；所述词向量确定模块3用于根据所述分词文本信息确定对应的词向量特征序列；所述建模模块4用于基于注意力机制的rnn的编码-解码，对所述词向量特征序列进行编码、解码处理，建立基于汉语韵律结构和重音的联合预测模型，用于预测待处理文本的韵律结构和重音。

相对于现有技术，本发明基于汉语韵律结构和重音联合的预测模型构建系统与上述基于汉语韵律结构和重音联合的预测模型构建方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陶建华;郑艺斌;李雅
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：便于调节的脚手架的制作方法
上一篇：设置多功能底座的高层建筑搭建架的制作方法