基于循环神经网络语音识别中语音数据增强方法及装置与流程

文档序号：13095937阅读：197来源：国知局

本发明涉语音识别技术领域，具体涉及中文口语语言处理、深度学习和大词汇量连续语音识别领域，特别涉及一种基于循环神经网络语音识别中的语音数据增强方法及装置。

背景技术：

语音识别是指把一段语音序列，转换成文本序列，是一个序列到序列的映射任务。随着大数据时代的来临，人工智能快速发展，语音识别作为一种便捷的人机交互入口，变得越来越重要。

当前，在进行语音识别模型的训练中，尤其是在不同的应用场景中，常常由于应用场景不同，而不同场景之间的表达习惯不同，数据源不能通用，新的应用场景中数据积累较少，人工标注数据的成本非常高。在自然的口语下，口语的不规则表达非常多，现有的用于训练上述语音识别模型的数据无法全面的模拟口语表达中的重复、省略、儿化等多种不规则现象，导致在训练语音识别模型时训练用语音数据的资源稀缺。

技术实现要素：

为了解决现有技术中的上述问题，本发明采用以下技术方案以解决上述问题：第一方面，本申请提供了基于循环神经网络语音识别中语音数据增强方法，该方法包括如下步骤：在训练基于循环神经网络的语音识别模型中，训练用数据输入神经网络之前，对上述语音数据进行增强处理上述语音数据增强方法包括：从输入的语音数据中提取标识语音的各个频率能量值的声学特征，生成声学特征向量；根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列；通过决策聚类预设的标注文件和上述语句标签序列获得决策聚类操作后的对齐文件；生成一个[0,1]之间的第一随机数γ，并与预设的调整比例α比较；如果上述第一随机数γ大于上述调整比例α，在上述边界文件所指示的位置对上述语音数据进行增强处理。

在一些示例中，上述方法还包括在上述边界文件所指示位置对上述语音数据进行增强处理之前，确定上述增强处理的类型：根据上述第一随机数γ的大小，通过如下公式计算对上述语音数据的模拟操作序号n：

从模拟化操作集合中选出与上述模拟操作序号对应的操作信息，作为上述增强处理的模拟化操作类型。

在一些示例中，所述方法还包括在确定所述增强处理的类型之后，根据预设的操作粒度表选出所述增强处理的模拟化操作类型所对应的增强处理的模拟操作的粒度。

在一些示例中，上述方法还包括根据上述增强处理的模拟操作的粒度确定上述增强处理的模拟操作的最小操作粒度单元。

在一些示例中，上述在上述边界文件所指示的位置对上述语音数据进行增强处理，包括：判断上述模拟化操作序号对应模拟操作的类型是否为插入和/或删除操作；如果是，计算上述插入和/或删除操作的最小操作粒度单元所占上述语句标签序列总数的比例作为第一比例；随机生成零与上述第一比例之间的第二随机数；将上述第二随机数与上述语句标签序列的总数的乘积作为上述插入和/或删除操作的单元数目，标记为第一数目；在上述语句标签序列上进行第一数目个插入和/或删除操作。

在一些示例中，上述在上述语句标签序列上进行第一数目个插入和/或删除操作，包括：依次生成第一数目个零与上述语句标签序列的总数之间的第三随机数；在上述第三随机数所指示的位置对上述语句标签序列所模拟的语句进行上述插入和/或删除操作。

在一些示例中，其特征在于上述在上述边界文件所指示的位置对上述语音数据进行增强处理，包括：判断上述模拟化操作序号对应的操作的类型是否为调序操作；如果是，随机生成[0,1]之间的第四随机数；计算上述调序操作的最小操作粒度单元所占上述语句标签序列总数的比例作为第二比例；随机生成零与上述第二比例之间的第五随机数；将上述第五随机数与上述语句标签序列总数的乘积作为上述调序操作的第二数目；在上述语句标签序列中随机调换第二数目个调序操作的最小操作粒度单元的位置。

在一些示例中，所述方法还包括根据预设的标注文件和所述声学特征向量获得所述语音数据的语句标签序列，包括：利用公式从语料库中提取出使得所述声学特征向量后验概率最大的词序列：由上述词序列生成上述语音数据的语句标签序列。其中，公式为：

其中，x1:t＝x1,…,xt表示有t帧的声学特征向量，w表示词序列，p(w)表示表示词序列的先验分布的概率，最可能发生的对齐状态序列给定时，词序列的概率；表示在输入到解码器前的声学似然。

第二方面，本申请提供了一种存储装置，该存储装置中存储有多条程序，程序适于由处理器加载并执行以实现上述第一方面中所述的基于循环神经网络的语音数据增强的方法。

第三方面，本申请提供了一种处理装置，包括处理器和存储设备，其中，处理器适于执行各条程序；存储设备适于存储多条程序；程序适于由处理器加载并执行以实现上述第一方面中所述的基于循环神经网络语音识别中语音数据增强方法。

本申请提供的基于神经网络语音识别中语音数据增强方法和设备，通过从输入的语音数据中所获得声学特征值，生成声学特征向量，并根据标注文件和所述声学特征向量获得语句的标签序列；之后，通过决策聚类预设的标注文件和所述语句标签序列获得决策聚类操作后的对齐文件；生成一个[0,1]之间的第一随机数γ，并与预设的调整比例α比较；如果第一随机数γ大于所述调整比例α，在上述对齐文件的边界所指示的位置对上述语音数据进行增强处理。上述方法模拟口语表达中的不规则现象，如重复、删除等，充分利用来自各不同场景的数据，提高口语化语音数据的数量。

附图说明

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于循环神经网络语音识别中语音数据增强方法的一个实施例的流程图；

图3为本申请提供的语音数据的语音信号图；

图4为本申请提供的增强处理操作示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的基于循环神经网络语音识别中语音数据增强方法或基于循环神经网络语音识别中语音数据增强设备的实施例的示例性系统架构。

如图1所示，系统架构可以包括终端设备网络104和服务器105。其中，终端设备可以是多个相同或不同的设备，可以为第一终端101、第二终端102、第三终端103。网络104用以在第一终端101、第二终端102、第三终端103和服务器105之间，提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

第一终端101、第二终端102、第三终端103可以通过网络104与服务器105之间进行信息交互，以接收或发送信息等。第一终端101、第二终端102、第三终端103之间可以通过网络104进行信息交互。

第一终端101、第二终端102、第三终端103可以是具有显示屏并支持网络通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机以及由多个计算机构成的计算机处理系统等等。需要说明的是，第一终端101、第二终端102、第三终端103上装设有可以使用语音输入的各类应用，例如，各类搜索类应用、社交平台交互工具等。

服务器105可以是提供各种服务的服务器，例如，对终端设备上的搜索应用提供技术支持的后台数据处理服务器。后台数据处理服务器对接收到的用户通过终端设备输入的语音数据等进行处理，将处理结果(将语音搜索数据转换为文字再进行搜索，搜索后的结果)反馈给终端设备。

需要说明的是，本申请实施例所提供的基于循环神经网络语音识别中语音数据增强方法一般由服务器105执行，相应地，基于循环神经网络语音识别中语音数据增强方设备一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，图2示出了根据本申请的基于循环神经网络语音识别中语音数据增强方法的一个实施例的流程。在训练基于神经网络的语音识别模型中，训练用数据输入神经网络之前，对语音数据作增强处理。该基于循环神经网络语音识别中口语语音数据增强方法，包括以下步骤：

步骤201，从输入的语音数据中提取标识口语语音的各个频率能量值的声学特征，生成声学特征向量。

在本实施例中，基于循环神经网络语音识别中语音数据增强方法运行于其上的电子设备(例如图1所示的服务器)在基于神经网络的应用识别之前，对训练数据作增强处理，使得有效的训练用数据的数据量增加。上述服务器可以通过有线连接方式或者无线连接方式从终端设备或服务器自带的存储单元或其他具有存储功能的设备输入的语音数据，提取语音数据中口语语音的各个频率能量值的声学特征，生成声学特征向量。

这里，声学特征是语音的特征参数，如，mfcc(mel-frequencycepstrumcoefficients，梅尔频率倒谱系数)特征、fbank(mel-scalefilterbank，梅尔标度滤波器组)特征、lpc(linearpredictivecoding，线性预测编码)特征。

这里，提取语音数据中口语语音的各个频率能量值的声学特征可以是从语音信号的频谱中提取出在各频率的能量值作为在该频率的声学特征，由不同频率的声学特征生成声学特征向量。作为示例，如图3所示的语音信号，将上述语音信号转换为[t1，t2，﹒﹒﹒tn]，其中，ti(i为0到n的整数)为固定维度的特征向量。

步骤202，根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列。

本实施例中，上述服务器可以根据预先存储的标注文件或标注数据和声学特征向量获得上述语音数据的语句标签序列。这里，标注文件是标注语音数据与文字信息或语言信息对应关系的文件或数据。根据上述标注文件中语音与文字的对应关系，获得上述声学特征向量中各维声学特征所对应的文字信息作为语句标签，上述特征向量对应的全部语句标签为上述语音数据的语句标签序列。

在本实施例的一些可选的实现方式中，根据预设的标注文件和声学特征向量获得语音数据的语句标签序列，包括：利用公式从语料库中提取出使得声学特征向量后验概率最大的词序列，由上述词序列生成上述口语语音数据的语句标签序列。其中，公式为：

其中，其中，x1:t＝x1,…,xt表示有t帧的声学特征向量，w表示词序列，p(w)表示表示词序列的先验分布的概率，最可能发生的对齐状态序列给定时，词序列的概率；表示在输入到解码器前的声学似然。

具体地，上述公式通过如下的变换获得：

其中，s1:t表示对齐的状态序列；p(w|s1:t,x1:t)表示给定声学特征向量和所有可能的对齐的状态序列时，词序列的概率；p(s1:t|x1:t)表示给定特征向量序列，得到所有可能的对齐的状态序列的概率；表示在最可能发生的对齐状态序列给定时，词序列的概率；表示给定特征向量，最可能发生的对齐状态序列的概率；(也就是概率最大的那个对齐状态序列的概率值)；表示最可能发生的对齐状态序列的先验概率；表示在输入到解码器前的声学似然；p(w)表示语言模型的概率，也是该词序列的先验分布的概率；给定当前词序列，得到上述最大可能的对齐状态序列的概率，该概率是通过hmm模型的转移模型结合发音词典模型得到。

步骤203，通过决策聚类预设的标注文件和上述语句标签序列，获得决策聚类操作后的对齐文件。

本实施例中，通过对预设的标注文件和上述语句标签序列进行决策聚类，获得决策聚类操作后的对齐文件。其中，决策聚类是决策树聚类算法。这里，利用声学模型将特征向量映射到建模单元，其中，建模单元是组成语言信息或文字信息的基本状态。例如可以是拼音，为了得到更加充分的建模单元，可以把拼音根据上下文做决策树聚类，将拼音拆分为三个上下文相关的音素，每个音素可以为一个状体，每个状态为建模单元。上述获得决策聚类操作后的对齐文件可以是从上述语句标签序列中截取建模单元取得。

步骤204。生成一个[0,1]之间的第一随机数γ，并与预设的调整比例α比较。

在本实施例中，随机生成一个[0,1]之间的第一随机数γ，并与预设的调整比例α比较，其中，α是预先设置的调整比例。

在本实施例的一些可选的实现方式中，还包括确定所述增强处理的类型：根据上述第一随机数γ的大小，通过模拟操作序号计算公式计算上述语音数据的模拟操作序号n，从模拟化操作集合中选出与上述模拟操作序号n对应的操作信息，作为增强处理的模拟化操作类型。其中，上述模拟操作序号计算公式：

这里，模拟化操作集合是预先存储的，对上述语音数据增强处理的操作集合，如[插入、删除···调序]，集合确定要进行的模拟化操作集合，如。假如集合元素个数为n，操作的标记为[0,1,…,n-1]，比如操作标记为0，对应模拟化操作集合的操作为插入、操作标记为1，对应模拟化操作集合的操作为删除等等。上述公式确定出n后，由操作的标记和模拟化操作集合对应关系确定出上述增强处理的模拟化操作类型。

在本实施例的一些可选的实现方式中，在确定上述增强处理的类型之后，根据预设的操作粒度表选出上述增强处理的模拟化操作类型所对应的增强处理的模拟操作的粒度。模拟操作的粒度是模拟操作对应的最小的单元。在具体的实施过程中，模拟操作的粒度有字的操作、词的操作、音素的操作等。根据增强处理的模拟操作的粒度确定增强处理的模拟操作的最小操作粒度单元。可以由预先设置的模拟化操作类型与最小操作粒度对应关系确定出最小操作粒度单元。

步骤205：如果上述第一随机数γ大于上述调整比例α，在上述对齐文件的边界所指示的位置对上述语音数据进行增强处理。

本实施例中上述服务器比较上述第一随机数γ与上述调整比例α的大小，如果γ<α，将上述语音数据作为训练用数据直接输入训练模型。如果γ≥α，对上述语音数据作增强处理。这里，可以在上述齐文件的边界所指示的位置对上述语音数据进行增强处理，其中上述增强处理可以是插入、删除、调序、替换等操作。

在本实施例的一些可选的实现方式中，在上述边界文件所指示的位置对上述语音数据进行增强处理，包括：判断上述模拟化操作序号对应模拟操作的类型是否为插入和/或删除操作；如果是，计算上述插入和/或删除操作的最小操作粒度单元所占上述语句标签序列总数的比例作为第一比例；随机生成零与上述第一比例之间的第二随机数；将上述第二随机数与上述语句标签序列的总数的乘积作为上述插入和/或删除操作的单元数目，标记为第一数目；在上述语句标签序列上进行第一数目个插入和/或删除操作。这里，当类型为插入和/或删除操作，模拟化操作的最小粒度单元为字。作为示例，确定出插入和/或删除操作的最小粒度单元p占语句标签序列总数p的比例为第一比例β，生成[0，β]之间的随机数为第二随机数γ2，进行插入或者删除的单元数为p＝floor(γp)，函数floor代表向下取整。依次随机生成p个[0,p]之间的第三随机数，对每个第三随机数位置处的词或字进行插入或者删除操作。

在本实施例的一些可选的实现方式中，在上述边界文件所指示的位置对上述语音数据进行增强处理，包括：判断上述模拟化操作序号对应的操作的类型是否为调序操作；如果是，随机生成[0,1]之间的第四随机数；计算上述调序操作的最小操作粒度单元所占上述语句标签序列总数的比例作为第二比例；随机生成零与上述第二比例之间的第五随机数；将上述第五随机数与上述语句标签序列总数的乘积作为上述调序操作的第二数目；在上述语句标签序列中随机调换第二数目个调序操作的最小操作粒度单元的位置。其中，调序操作的最小粒度单元是音素。另一方面，本申请还提供了一种存储装置，其中存储有多条程序，程序适于由处理器加载并执行以实现：从输入的语音数据中提取标识语音的各个频率能量值的声学特征，生成声学特征向量；根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列；通过决策聚类预设的标注文件和上述语句标签序列获得决策聚类操作后的对齐文件；生成一个[0,1]之间的第一随机数γ，并与预设的调整比例α比较；如果上述第一随机数γ大于上述调整比例α，在上述边界文件所指示的位置对上述语音数据进行增强处理。

图4示是对语音数据作增强处理的示意图，图(b)中示出了对语句标签序列“我爱中国”作调序操作，然后将调序后的序列输入到递归神经网络(rnns)中进行后续处理；图(c)示出了对语句标签序列“我爱中国”作删除操作，然后将删除了最小粒度单元后的的序列输入到递归神经网络(rnns)中进行后续处理；图(d)中示出了对语句标签序列“我爱中国”作插入操作，然后将插入最小粒度单元后的序列输入到递归神经网络(rnns)中进行后续处理。

另一方面，本申请还提供了一种处理装置，包括处理器，适于执行各条程序；以及存储设备，适于存储多条程序；所述程序适于由处理器加载并执行以实现：从输入的语音数据中提取标识语音的各个频率能量值的声学特征，生成声学特征向量；根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列；通过决策聚类预设的标注文件和上述语句标签序列获得决策聚类操作后的对齐文件；生成一个[0,1]之间的第一随机数γ，并与预设的调整比例α比较；如果上述第一随机数γ大于上述调整比例α，在上述边界文件所指示的位置对上述语音数据进行增强处理。

另一方面，本申请还提供了一种存储装置，其中存储有多条程序，程序适于由处理器加载并执行以实现：从输入的语音数据中提取标识语音的各个频率能量值的声学特征，生成声学特征向量；根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列；通过决策聚类预设的标注文件和上述语句标签序列获得决策聚类操作后的对齐文件；生成一个[0,1]之间的第一随机数γ，并与预设的调整比例α比较；如果上述第一随机数γ大于上述调整比例α，在上述边界文件所指示的位置对上述语音数据进行增强处理。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵媛媛;徐爽;徐波
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：一种横切框式双摆切割装置的制作方法
上一篇：一种陶瓷坯件夹具的制作方法与工艺