一种基于LSTM的电声门图语音转换方法与流程

文档序号：19949136发布日期：2020-02-18 10:03阅读：648来源：国知局

技术简介：
本发明针对无法发声患者通过电声门图恢复语音的需求，提出基于LSTM的语音转换方法。通过提取电声门图的基频、能量等特征并拼接，构建40维特征序列；利用LSTM网络训练音素预测模型，以交叉熵衡量合成语音与标准语音的相似度；最终通过KLATT合成器将预测音素转化为真实语音，实现从电声门图到语音的精准转换。
关键词：电声门图,LSTM语音转换

本发明设计一种基于lstm的电声门图语音转换方法，该方法可以通过获取当前时刻和过去时刻的电声门图数据的输入，预测当前应合成的语音，属于计算机领域。

背景技术：

电声门图(electroglottograph，简称egg)是通过放置在喉部的两个电极采集到的说话时喉部的声带运动信息，与人发出的语音信息具有极高的相关性，从中提取特征可以用来恢复出对应的语音信息。

共振峰语音合成技术是目前较成熟的语音合成技术。共振峰语音合成利用声道对语音激励的共鸣特性，通过提取声道每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。配置共振峰滤波器的参数，即可以控制合成不同的语音。

在实际应用中，不少患者由于不同原因难以发出声音，但其声带依然能够振动，如果可以通过提取患者的电声门图来合成语音，则可以极大帮助患者恢复交流的能力。

技术实现要素：

为了从电声门图数据中恢复语音数据，本发明提出了一种基于lstm的电声门图语音转换方法。

本发明提出的一种基于lstm的电声门图语音转换方法，其方法步骤为，

步骤a：对电声门图提取特征并拼接。

电声门图通过检测声带振动时的阻抗来检测声带闭合分开的情况，反映声带振动的规律性，其中包含着与语音相关的丰富的特征。为实现对语音的预测，选择提取电声门图信号的基频，单位时间能量，频率微扰，振幅微扰作为训练特征。电声门图信号是以时间为轴的一维信号，将其以20ms的长度分帧，计算该帧内电声门图的基频，单位时间能量，频率微扰，振幅微扰，再与前9帧计算的特征进行拼接，即可将电声门图信号转换成40维特征序列。

步骤b：对转换语音和标准语音的相似度进行设计。

设计一种计算合成语音与标准语音相似度的方法，所用来计算相似度采用的标准语音，并非是真实语音的采样数据，而是由标准语音分解得到的音素序列；合成语音也不是真实的合成语音数据，而是模型输出的音素预测序列。通过将标准语音和合成语音以音素的形式序列化，则将语音合成的问题转化成了对当前时刻音素预测的问题。合成语音与标准语音的相似度计算问题，即转化成了标准音素序列与预测音素序列的相似度计算问题。采用交叉熵作为计算两序列相似度的方式，交叉熵越大，相似度越低。

步骤c：对音素预测模型进行训练。

应用中还提供了一种基于lstm(long-shorttermmemory)的音素预测模型设计方法，lstm模型是一种特殊的rnn模型。在传统的rnn模型中，模型参数的更新使用的是随时间反向传播算法(bptt)，当时间间隔变长时，需要回传的残差会呈现指数下降，造成梯度弥散的问题，导致网络参数更新缓慢，难以收敛。而lstm网络的提出正是为了解决传统rnn网络难以实现长期记忆的问题。

首先准备大量语料，从语料中提取音素序列作为标准数据，并从多个患者获得语料相应的电声门图数据，将其转化成特征序列作为模型的训练数据。结合电声门图信号产生的特征序列与lstm网络，可实现预测模型的训练和预测模型对音素的预测。

在模型的训练中，将一批语料对应的电声门图特征序列输入到lstm网络中，进而得到一个音素预测序列，并使用交叉熵作为损失函数(lossfunction)，结合反向传播和学习率自适应算法对模型进行优化。

步骤d：使用训练好的模型由电声门图转换而得的特征序列对当前音素进行预测并以此合成语音。

在实际应用中采用的语音合成器是klatt共振峰语音合成器。klatt共振峰语音合成器通过对六个共振峰的控制，产生各种各样的语音。该合成器使用串联支路产生元音，使用并联支路产生辅音，配置klatt合成器里并联滤波器与串联滤波器的参数与清浊音开关的状态，即可合成相应的语音。本申请预先将汉语普通话32个基本音素及其相应的klatt合成器参数作为键值对存入字典，根据预测模型对当下因素的预测，直接从字典中读出该音素的配置参数对klatt合成器进行配置，即得到了该音素对应的真实语音，实现了从电声门图信号到真实语音信号的转换。

本发明提出了一种基于lstm的电声门图语音转换方法，首先对电声门图提取特征并拼接，进一步对转换语音和标准语音的相似度进行设计，进一步对音素预测模型进行训练，最后使用训练好的模型由电声门图转换而得的特征序列对当前音素进行预测并以此合成语音。本发明通过对电声门图特征的提取和拼接，并结合lstm网络和标准语音数据拆解得到的标准音素序列，得到一个以电声门图特征序列为输入，输出预测当前音素的预测模型，为设计训练模型所使用的损失函数，通过衡量标准语音和转换语音相似度的计算方法，解决了难以评估训练模型预测效果的问题，同时采用klatt共振峰语音合成器，配置共振峰滤波器得到真实语音。

附图说明

图1是本发明提出的基于lstm的电声门图语音转换方法整体流程图；

图2是本发明提出的电声门图信号转换为特征序列的流程图；

图3是本发明提出的转换语音与标准语音差异性计算流程图；

图4是本发明提出的音素预测模型训练过程流程图；

图5是本发明提出的根据预测音素与klatt合成器进行真实与语音合成的流程图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明本发明的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

实施例

本发明提供的一种基于lstm的电声门图语音转换方法，其方法步骤在于，

步骤a：对电声门图提取特征并拼接；

步骤b：对转换语音和标准语音的相似度进行设计；

步骤c：对音素预测模型进行训练；

步骤d：使用训练好的模型由电声门图转换而得的特征序列对当前音素进行预测并以此合成语音。

如附图1所示，基于lstm的电声门图语音转换方法，首先从电声门图提取特征转化为四十维的特征序列，将特征序列输入模型，同时将同时间段对应的音素序列作为标签，以标准音素序列与预测序列的交叉熵作为损失函数对模型进行训练，直到模型的损失函数收敛，即完成预测模型的训练。进行电声门图与语音的转化时，亦要先将电声门图转化为特征序列输入进预测模型，预测模型输出预测音素，再从字典中找出该音素对应的klatt合成器配置参数对klatt合成器进行配置，即可产生电声门图对应的真实语音。

如附图2所示,步骤a中电声门图特征提取与拼接的方法，首先对电声门图信号进行采样，采样率为8khz。将电声门图采样数据以20ms的长度进行分帧，滤波处理，计算每一帧基频，单位时间能量，频率微扰，幅度微扰，并将该帧计算的特征与前9帧计算结果进行拼接，组成该帧对应的40维特征向量。

如附图3所示，步骤b中转换语音和标准语音相似度计算设计。首先将标准语音转化成标准汉语普通话音素序列，并对音素进行独热编码，即把一个音素转换成一个32维的向量。预测模型对当前音素进行预测，可得到一个32维的概率向量，取概率最大的音素作为输出。将两个向量做交叉熵，可用来衡量转换语音与标准语音相似度。交叉熵越小，说明零序列相似度越高，模型的预测效果越好。

如附图4所示，步骤c中对音素预测模型进行训练。首先将数据库中的电声门图数据和语料转化为电声门图特征序列和标准音素序列，电声门图特征序列作为预测模型的训练输入，将标准音素作为训练标签。使用步骤b中介绍的方法设计损失函数。在模型的参数优化上，本模型采用批训练的方法，每次随机选出的128句话作为一批数据进行训练，并采用自适应矩估计的方法(adaptivemomentestimation)对学习率进行更新。

步骤d中使用训练好的模型由电声门图转换而得的特征序列对当前音素进行预测并以此合成语音。如附图5所示，给出了将预测模型预测所得的音素转化为真实语音的流程。本申请使用的语音合成装置为klatt共振峰合成器。klatt共振峰合成器是一种混合型语音合成器，通过配置其串联滤波器与并联滤波器的参数可以合成不同的语音。本方法预先将32种标准汉语普通话基本音素及其相应的klatt共振峰合成器配置参数组成键值对存入字典。进行电声门图语音转换时，由预测音素作为键将配置参数从字典中取出，配置klatt共振峰合成器，即得到音素对应的语音。

上述说明示出并描述了本发明的优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈立江;王龙;张井合
技术所有人：金华航大北斗应用技术有限公司
我是此专利的发明人

上一篇：混合电动悬浮系统的制作方法
下一篇：一种电力机车空转监测记录装置的制作方法