韵律层级标注方法和装置的制造方法

文档序号：9434110阅读：1446来源：国知局

韵律层级标注方法和装置的制造方法
【技术领域】
[0001] 本发明涉及文语转换技术领域，尤其涉及一种韵律层级标注方法和装置。
【背景技术】
[0002] 语音合成，又称文语转换技术，是一种能够将文字信息转化为语音并进行朗读的技术。语音合成系统性能的主要评价指标主要包括可懂度和流畅度两方面。现有的语音合成系统在可懂度方面已经基本成熟，但是在流畅度方面和人们真实的发音仍然存在一定的差距。而影响语音合成系统流畅度的关键因素是韵律层级预测的准确性。韵律层级预测的方法主要利用人们发音停顿的特点，根据停顿的时间长度，将韵律分为不同的韵律层级。韵律层级结构通常包括韵律词、韵律短语、语调短语等。如图1所示。其中，PW、PPH和IPH分别表示韵律层级结构中的韵律词、韵律短语和语调短语。从图1可看出，韵律层级结构具有一定的包含关系，即韵律词〈韵律短语〈语调短语。韵律预测就是对文本中各个单词的韵律层级进行分类。
[0003] 目前，韵律层次预测方法采用条件随机场CRF模型进行预测。首先，将文本切分成多个单词，然后获得单词对应的特征，分别训练得到韵律词模型、韵律短语模型以及语调短语模型，然后采用逐级预测的方式对文本的韵律结构进行预测，即首先对韵律词进行预测，然后将当前的预测结果作为特征对韵律短语进行预测，最后对语调短语进行预测。另外，基于CRF模型的韵律层级预测方法，为了在韵律词模型、韵律短语模型以及语调短语模型中引入上下文信息，需要对上述模型的特征进行左右扩展，并且引入人工编写的特征模板对上述模型进行训练。
[0004] 但是，基于CRF模型进行预测的方法具有以下缺点：1、采用特征左右扩展的方式扩展的范围有限，无法构建单词之间较远距离的上下文关系。2、使用单词作为特征训练得到的模型泛化性差。3、采用逐级预测的方式一旦在前一级韵律预测中出现错误，在对下一级韵律预测时会传递错误，最终导致预测错误。

【发明内容】

[0005] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种韵律层级标注方法，该方法基于双向长短时记忆模型对韵律层级进行标注，有效地解决了文本序列中分词的上下文特征扩展范围有限的问题，并且一次性对韵律层级进行标注，避免了标注时错误传递的问题。
[0006] 本发明的第二个目的在于提出一种韵律层级标注装置。
[0007] 为了实现上述目的，本发明第一方面实施例提出了一种韵律层级标注方法，包括： S1、获取文本序列；S2、将所述文本序列切分为多个分词，并提取所述分词的特征；S3、将所述特征作为输入，并基于双向长短时记忆模型获得对应的输出结果；以及S4、根据所述输出结果对所述文本序列的韵律层级进行标注。
[0008] 本发明实施例的韵律层级标注方法，基于双向长短时记忆模型对韵律层级进行标注，有效地解决了文本序列中分词的上下文特征扩展范围有限的问题，并且一次性对韵律层级进行标注，避免了标注时错误传递的问题。
[0009] 本发明第二方面实施例提出了一种韵律层级标注装置，包括：获取模块，用于获取文本序列；处理模块，用于将所述文本序列切分为多个分词，并提取所述分词的特征；计算模块，用于将所述特征作为输入，基于双向长短时记忆模型获得对应的输出结果；以及标注模块，用于根据所述输出结果对所述文本序列的韵律层级进行标注。
[0010] 本发明实施例的韵律层级标注装置，基于双向长短时记忆模型对韵律层级进行标注，有效地解决了文本序列中分词的上下文特征扩展范围有限的问题，并且一次性对韵律层级进行标注，避免了标注时错误传递的问题。
【附图说明】
[0011] 图1是现有技术中韵律层级分类的效果示意图。
[0012] 图2是根据本发明一个实施例的韵律层级标注方法的流程图。
[0013] 图3是根据本发明一个实施例的韵律层级标注装置的结构示意图一。
[0014] 图4是根据本发明一个实施例的韵律层级标注装置的结构示意图二。
【具体实施方式】
[0015] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0016] 下面参考附图描述本发明实施例的韵律层级标注方法和装置。
[0017] 图2是根据本发明一个实施例的韵律层级标注方法的流程图。
[0018] 如图2所示，韵律层级标注方法可包括：
[0019] Sl、获取文本序列。
[0020] 举例来说，文本序列为"那时新旧思想的碰撞可谓激烈"。
[0021] S2、将文本序列切分为多个分词，并提取分词的特征。
[0022] 例如，可将文本序列"那时新旧思想的碰撞可谓激烈"切分为"那时"、"新旧"、"思想"、"的"、"碰撞"、"可谓"和"激烈"，然后分别将上述分词转换为词向量，并将词向量作为对应分词的特征。
[0023] S3、将特征作为输入，并基于双向长短时记忆模型获得对应的输出结果。
[0024] 其中，双向长短时记忆模型由输入门、遗忘门、输出门、状态单元和 LSTM(Long-Short Term Memory,长短时记忆网络）结构输出五部分组成，具体公式如下：
[0025] 公式 1 :
[0026] 公式 2 :
[0027] 公式 3 :
[0028] 公式 4 :
[0029] 公式 5 :
[0030] 假设文本序列X = (Xl，x2,...，χτ)，T为文本序列的长度，X1表示第一个分词的词向量，X2表示第二个分词的词向量，X T表示第T个分词的词向量。对于时刻t，其对应的词向量表示为Xt，将Xt作为特征进行输入，通过上述公式计算出X 3寸应的输出结果m t。其中，W 为权重矩阵，b为偏置向量，W和b为参数，通过语料库训练获得。i为输入门、f为遗忘门、为输出门、c为状态单元、m为LSTM结构输出。Θ表示向量按元素的乘积。〇为sigmoid 函数，g为状态单元的输入激活函数，h为状态单元的输出激活函数，g和h -般为tanh函数。
[0031] S4、根据输出结果对文本序列的韵律层级进行标注。
[0032] 在获得输出结果之后，可对输出结果进行归一化，并计算出输出结果的概率值，然后根据概率值对文本序列的韵律层级进行标注。
[0033] 具体地，可根据以下公式计算输出结果的概率值。
[0034] 公式 6
[0035] 公式 7
[0036] 其中，Whn为权重矩阵，b h为偏置向量，与公式1-5中的W和b同样为参数，可通过训练获得。P为softmax函数，表示为
[0037] 由于输入的是词向量，则计算出的输出结果也为向量。
[0038] 在本发明的实施例中，韵律层级为三级，则计算出的概率值是个三维向量，第一维度表示韵律词，第二维度表示韵律短语，第三维度表示语调短语，P = (〇.8,0. 1，0. 1)，第一维度的数值最大，即词向量1^皮标注为韵律词的概率最大。
[0039] 同理，可分别计算出文本序列中乂1至xT的输出结果，从而根据输出结果对文本序列韵律层级进行标注。
[0040] 此外，本发明实施例的韵律层级标注方法还可包括步骤S5。
[0041] S5、训练双向长短时记忆模型。
[0042] 具体地，可从语料库中获取海量的训练文本，再将训练文本转换为词向量进行表示，然后将词向量作为输入特征，并基于深度神经网络和双向长短时记忆网络训练双向长短时记忆模型。其中，深度神经网络DNN可包括前馈神经网络。对双向长短时记忆模型进行训练的过程，就是对公式1至公式5中的W和b这两个参数进行训练的过程，通过不断地对W和b进行训练，能够更加准确地对文本序列的韵律层级进行标注，且双向长短时记忆模型鲁棒性更好。
[0043] 另外，为了提高双向长短时记忆模型的性能，还可将词长和词性等特征，与训练文本的词向量一起，共同作为训练文本的输入特征，训练双向长短时记忆模型。
[0044] 本发明实施例的韵律层级标注方法，基于双向长短时记忆模型对韵律层级进行标注，有效地解决了文本序列中分词的上下文特征扩展范围有限的问题，并且一次性对韵律层级进行标注，避免了标注时错误传递的问题。
[0045] 为实现上述目的，本发明还提出一种韵律层级标注装置。
[0046] 图3是根据本发明一个实施例的韵律层级标注装置的结构示意图一。
[0047] 如图3所示，韵律层级标注装置可包括：获取模块110、处理模块120、计算模块 130和标注模块140。
[0048] 其中，获取模块110可用于获取文本序列。举例来说，文本序列为"那时新旧思想的碰撞可谓激烈"。
[0049] 处理模块120可用于将文本序列切分为多个分词，并提取分词的特征。例如，可将文本序列"那时新旧思想的碰撞可谓激烈"切分为"那时"、"新旧"、"思想"、"的"、"碰撞"、 "可谓"和"激烈"，然后分别将上述分词转换为词向量，并将词向量作为对应分词的特征。
[0050] 计算模块130可用于将特征作为输入，并基于双向长短时记忆模型获得对应的输出结果。
[0051] 其中，双向长短时记忆模型由输入门、遗忘门、输出门、状态单元和 LSTM(Long-Short Term Mem

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：付晓寅;李秀林;康永国;徐扬凯;陈志杰;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：一种信息处理方法和电子设备的制造方法
上一篇：韵律层级预测模型的生成及韵律层级预测方法和装置的制造方法