优化语音识别声学模型的方法、系统、设备及存储介质与流程

文档序号：15147860发布日期：2018-08-10 20:40阅读：175来源：国知局

本发明涉及计算机技术领域，尤其涉及优化语音识别声学模型的方法、系统、设备及存储介质。

背景技术：

随着语音识别可应用范围的不断扩大，语音识别技术已成为一个新兴高技术产业，并得到更多技术人员的关注。目前，语音识别系统中的重要组成之一就是声学模型，声学模型的好坏很大程度上决定了语音识别结果的优劣，因此，需要不断对语音识别声学模型进行优化。

一般地，对声学模型的训练需要大量的样本数据支持，而样本数据往往包括语音数据及对应于语音数据的标注文本(语音数据包含的文字内容)。标注文本通常基于大量人工标注实现或通过第三方识别系统识别获得，但通过上述方法获得标注文本往往存在一定错误，影响标注质量。

对于语音识别声学模型而言，提升标注文本的标注质量相当于进行声学模型优化的其中一种手段，但是目前尚未发现通过提升标注文本质量来实现声学模型优化的技术方案。

技术实现要素：

本发明实施例提供了优化语音识别声学模型的方法、系统、设备及存储介质，能够实现标注文本标注质量的提升，从而达到优化声学模型的目的。

第一方面，本发明实施例提供了一种优化语音识别声学模型的方法，包括：

获取样本语音的标注文本，并获取所述样本语音基于当前声学模型得到的识别文本；

比对所述标注文本和所述识别文本，并在比对结果为不匹配时确定所述标注文本相对所述识别文本的错误标注信息；

根据所述错误标注信息对应的文本更新决策条件，更新所述样本语音的标注文本；

基于设定量的样本语音及当前分别对应的标注文本，重新训练优化所述当前声学模型。

第二方面，本发明实施例提供了一种优化语音识别声学模型的装置，包括：

文本获取模块，用于获取样本语音的标注文本，并获取所述样本语音基于当前声学模型得到的识别文本；

错误标注确定模块，用于比对所述标注文本和所述识别文本，并在比对结果为不匹配时确定所述标注文本相对所述识别文本的错误标注信息；

标注文本更新模块，用于根据所述错误标注信息对应的文本更新决策条件，更新所述样本语音的标注文本；

声学模型优化模块，用于基于设定量的样本语音及当前分别对应的标注文本，重新训练优化所述当前声学模型。

第三方面，本发明实施例提供了一种计算机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述第一方面实施例提供的优化语音识别声学模型的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面实施例提供的优化语音识别声学模型的方法。

在上述优化语音识别声学模型的方法、系统、设备及存储介质中，首先获取样本语音的标注文本，并获取样本语音基于当前声学模型得到的识别文本；然后比对标注文本和识别文本，并在比对结果为不匹配时确定标注文本相对识别文本的错误标注信息；之后根据错误标注信息及样本语音分别在标注文本和识别文本下的发音概率，更新样本语音的标注文本；最终基于设定量的样本语音及当前分别对应的标注文本，重新训练优化当前声学模型。利用该方法，能够有效提高样本语音所对应标注文本的标注质量，从而提高了声学模型所需训练数据的质量，进而达到了优化声学模型的目的，一定程度上提升了语音识别的准确率。

附图说明

图1为本发明实施例一提供的一种优化语音识别声学模型的方法的流程示意图；

图2为本发明实施例二提供的一种优化语音识别声学模型的方法的流程示意图；

图3为本发明实施例三提供的一种优化语音识别声学模型的装置的结构框图；

图4为本发明实施例四提供的一种计算机设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种优化语音识别声学模型的方法的流程示意图。该方法适用于对用于语音识别的声学模型进行优化提升的情况，该方法可以由优化语音识别声学模型的装置执行，该装置可以由硬件和/或软件实现，并一般集成在具备语音识别功能的计算机设备中。

如图1所示，本发明实施例一提供的一种优化语音识别声学模型的方法，包括如下操作：

s101、获取样本语音的标注文本，并获取样本语音基于当前声学模型得到的识别文本。

可以理解的是，所述样本语音相当于进行声学模型训练所需语音数据集中的一条语音数据，同时，进行声学模型训练时，每条样本语音都对应存在一条标注文本。所述当前声学模型具体可理解为通过语音数据集中的样本语音及其当前对应的标注样本训练获得的声学模型。

本步骤可以获取语音数据集中一条样本语音的标注文本，并可获取该样本语音通过语音识别系统后对应的识别文本。其中，可认为该语音识别系统中包含了当前声学模型，其语音识别具体通过当前声学模型实现。

s102、比对标注文本和识别文本，并在比对结果为不匹配时确定标注文本相对识别文本的错误标注信息。

在本实施例中，获得样本语音的识别文本后，可以将样本语音的标注文本与识别文本进行比对，以确定两文本中包含的文字是否一一匹配，如果两文本中所包含的文字均一一匹配，则可确定两文本的比对结果为文本匹配，如果两文本中所包含的文字无法一一匹配，则可确定两文本的比对结果为不匹配。对于不匹配的标注文本和识别文本而言，可认为标注文本中存在与识别文本不匹配的文字，此时可认为标注文本中存在标注错误的文字，也可认为识别文本中存在识别错误的文字，或者还可认为两文本中均存在错误文字。需要说明的是，本步骤在此并不考虑具有因为上述哪种情况引起了两文本的文字不匹配，而是直接确定标注文本中与识别文本不匹配的文字，还可确定出各不匹配文字对应的不匹配信息(如在标注文本中的位置及所属的不匹配类型等)，最终可将各不匹配文字的不匹配信息进行汇总形成标注文本相对于识别文本的错误标注信息。

s103、根据错误标注信息对应的文本更新决策条件，更新样本语音的标注文本。

在本实施例中，所述文本更新决策条件具体可理解为用于确定怎样对标注文本进行更新的判定决策规则。标注文本与识别文本中出现文字不匹配的形式比较多样化，如，出现不匹配文字的总数存在多样性，出现不匹配文字的不匹配类型也存在多样性，由此，不同样本语音的标注文本相对识别文本的错误标注信息的实质内容就比较多样化。

本实施例可以预先为不同形式的错误标注信息设定对应的文本更新决策条件，本步骤可以根据错误标注信息的实质内容确定与之对应的文本更新决策条件，然后根据文本更新决策条件对应的更新准则来实现样本语音标注文本的更新。需要说明的是，本实施例对标注文本的更新方式可以是根据确定的文本更新决策条件，选择当前获得的识别文本作为新的标注文本，或者继续选择原有的标注文本来作为新的标注文本。

s104、基于设定量的样本语音及当前分别对应的标注文本，重新训练优化当前声学模型。

基于s101至s103的操作，可以实现对样本数据标注本文的质量提升，可以理解的是，在进行本步骤的操作之前，本实施例可以对训练数据集中的每条样本语音都采用上述步骤进行标注样本的更新提升，具体地，可以采用上述步骤并列的同时确定各样本语音的识别文本，然后再筛选出识别文本与相应标注文本不匹配的样本语音进一步进行标注样本的更新，此外，也可以串行的依次采用上述步骤进行标注文本的更新，本实施例不对其实现形式做具体限定。

在基于上述步骤获得样本语音当前对应的标注文本(具体可看作完成标注文本提升后的标注文本)后，可以根据样本语音及其当前对应的标注文本再对声学模型进行训练，优化获得新的当前声学模型。本步骤中的设定量具体可理解为训练数据集中包含的样本语音总数量。可以理解的是，本实施例提供的优化语音识别声学模型的方法相当于一个循环实现的方法，可以在进行完依次操作后再次返回s101重新开始下一轮的操作，其循环结束条件可以是人为设定的循环结束次数，本实施例可认为基于优化重训练后的当前声学模型可以一定程度地提升语音识别系统的识别准确率。

本发明实施例一提供的一种优化语音识别声学模型的方法，首先获取样本语音的标注文本，并获取样本语音基于当前声学模型得到的识别文本；然后比对标注文本和识别文本，并在比对结果为不匹配时确定标注文本相对识别文本的错误标注信息；之后根据错误标注信息及样本语音分别在标注文本和识别文本下的发音概率，更新样本语音的标注文本；最终基于设定量的样本语音及当前分别对应的标注文本，重新训练优化当前声学模型。利用该方法，能够有效提高样本语音所对应标注文本的标注质量，从而提高了声学模型所需训练数据的质量，进而达到了优化声学模型的目的，一定程度的提升了语音识别的准确率。

实施例二

图2为本发明实施例二提供的一种优化语音识别声学模型的方法的流程示意图。本发明实施例以上述实施例为基础进行优化，在本实施例中，进一步将比对所述标注文本和所述识别文本，并在比对结果为不匹配时确定所述标注文本相对所述识别文本的错误标注信息，具体化为：比对所述标注文本和识别文本，获得所述标注文本与所述识别文本的编辑距离，并在所述编辑距离为非0时，确定比对结果为不匹配；在所述比对结果为不匹配时，根据所述编辑距离，确定所述标注文本相对所述识别文本的错误标注总数、错误标注的所在位置及各所述错误标注的错误类型；将所述错误标注总数以及各错误标注的所在位置和所属错误类型记为所述错误标注信息。

同时，将根据所述错误标注信息对应的文本更新决策条件，更新所述样本语音的标注文本，具体化为：基于所述错误标注信息，在预设的多级信息关系表中查找所述样本语音对应的文本更新决策条件，其中，所述文本更新决策条件为样本语音在标注文本下发音概率信息与样本语音在识别文本下发音概率信息的判定比较；确定所述样本语音与所述标注文本对齐后的第一发音概率信息，以及与所述识别文本对齐后的第二发音概率信息；当基于所述第一发音概率信息及所述第二发音概率信息确定所述文本更新决策条件成立时，将所述识别文本确定为所述样本语音的新标注文本；否则，继续将所述标注文本作为所述样本语音的新标注文本。

具体地，本发明实施例二提供的一种优化语音识别声学模型的方法，具体包括如下操作：

s201、获取样本语音的标注文本，并获取样本语音基于当前声学模型得到的识别文本。

示例性地，可以直接获取语音数据集中样本语音对应的标注文本，此外，还可以通过包含当前声学模型的语音识别系统对样本语音进行解码，然后实现样本语音的语音特征提取，由此基于提取的语音特征实现样本语音的识别，获得样本语音的识别文本。

s202、比对标注文本和识别文本，获得标注文本与识别文本的编辑距离，并在编辑距离为非0时，确定比对结果为不匹配。

示例性地，本实施例下述s202至s204给出了文本比对及错误标注信息确定的具体操作，首先，本步骤具体通过编辑距离算法通过计算标注文本和识别文本两字串的编辑距离来进行两文本的比对匹配。可以理解的是，编辑距离是指两个字串之间有一个转换成另一个所需的最少编辑操作次数，其中，可进行的编辑操作包括将一个字符替换成另一个字符，插入一个字符或删除一个字符。

本步骤基于编辑距离对两文本进行比对匹配时，具体进行的操作可以是：确定将标注文本转换成识别文本时最少的编辑操作次数(编辑距离)，当标注文本转换成识别文本的编辑操作次数为0时，可认为两文本的最小编辑距离为0，即可认为两文本中包含的文字均相匹配；当标注文本转换成识别文本的最小编辑操作次数为1时，可认为两文本的编辑距离为1，即可认为两文本中存在一处不匹配的文字；当标注文本转换成识别文本的最小编辑操作次数为2时，可认为两文本的编辑距离为2，即可认为两文本中存在两处不匹配的文字，同理，当标注文本转换成识别文本的最小编辑操作次数大于2时，可认为两文本中存在多处不匹配的文字。

基于上述描述，当两文本的编辑距离为非0时，就可认为两文本中存在不匹配的文字，即可确定两文本的比对结果为不匹配。

s203、在比对结果为不匹配时，根据编辑距离，确定标注文本相对识别文本的错误标注总数、错误标注的所在位置及各所述错误标注的错误类型。

在本实施例中，对于比对结果不匹配的两文本而言，可认为标注文本与识别文本之间存在差异，即可认为标注文本相对识别文本存在标注错误的文字，本步骤可以在上述编辑距离确定时，根据确定出的编辑距离来确定标注文本相对识别文本具体包含多少个标注错误的文字，还能确定标注错误的文字在标注文本中的具体所在位置，还能确定各标注错误文字的错误类型，具体地，上述确定出的编辑距离值可直接看作标注文本中具有的错误标注总数，在将标注文本转换车识别文本的过程中，如果在其中一个文字处进行了替换操作，则可确定该文字的所在位置(即可看作错误标注的所在位置)，同时还可确定该文字对应的转换类型为文字替换(即可看作错误标注的错误类型为文字替换)。

此外，错误标注的错误类型还有文字插入(与识别文本相比在标注文本的同一位置少了一个文字)以及文字插入(与识别文本相比在标注文本的同一位置处多了一个文字)，其错误标注的错误类型具体可通过转换过程中实际进行的转换操作来确定，如，与识别文本相比在标注文本的同一位置少了一个文字时，所进行的转换操作为对标注文本在同一位置处进行一次文字插入操作；又如，与识别文本相比在标注文本的同一位置处多了一个文字，所进行的转换操作为对标注文本在同一位置处进行一次文字删除操作。

s204、将错误标注总数以及各错误标注的所在位置和所属错误类型记为错误标注信息。

s205、基于错误标注信息，在预设的多级信息关系表中查找样本语音对应的文本更新决策条件。

本实施例可以根据错误标注信息的不同选择不同的文本更新决策条件，具体地，可以直接在预设的多级信息关系表中查找符合该错误标注信息的文本更新决策条件，作为当前的样本语音对应的文本更新决策条件。

进一步地，所述基于所述错误标注信息，在预设的多级信息关系表中查找所述样本语音对应的文本更新决策条件，包括：

获取所述错误标注信息中的错误标注总数及错误标注的错误类型；在所述多级信息关系表中，以所述错误标注总数为索引，查找与所述错误标注的错误类型匹配的设定错误类型；将对应于所述设定错误类型的更新决策条件确定为所述样本语音的文本更新决策条件。

具体地，进行文本更新决策条件确定时，可以首先以错误标注信息中的错误标注总数为索引，先确定出对应于错误标注总数的后续信息，然后在后续信息中查找对于错误标注的错误标注类型相匹配的设定错误类型，可获得对应于该设定错误类型的更新决策条件，本实施例可将该更新决策条件确定为样本语音的文本更新决策条件。

需要说明的是，所述文本更新决策条件实际为样本语音在标注文本下发音概率信息与样本语音在识别文本下发音概率信息的判定比较。其中，发音概率信息相当于将样本语音划分成一定数量的语音信号帧，并确定出与各语音信号帧处于对齐状态的发音单元后，获得的各语音信号帧属于所对应发音单元的发音概率，且可以有样本语音基于标注文本所对应发音单元形成的发音概率信息，还可以有样本语音基于识别文本所对应发音单元形成的发音概率信息。本实施例中的文本更新决策条件实际相当于对上述两种形式所确定发音概率信息的判定比对。

进一步地，所述多级信息关系表基于下述步骤构建：

初始化包含一级信息列、二级信息列和三级信息列的多级信息关系表；在所述一级信息列中存放设定错误标注总数，所述设定错误标注总数包括1字错误、2字错误和多字错误；在所述二级信息列中存放分别对应于所述1字错误及2字错误的设定错误类型，并设定所述多字错误所对应二级信息单元格的信息为空；在所述三级信息列中存放对应于各所述设定错误类型的更新决策条件，并将设定的标准更新决策条件存放在所述多字错误对应的三级信息单元格中。

可以理解的是，上述进行文本更新决策条件确定时，主要依赖了预设的多级信息关系表，由此多级信息关系表的确定也是关键。具体地，基于上述多级信息关系表的构建步骤，可形成下述表1形式的多级信息关系表。

如表1所示，其中的一级信息列中具体为设定错误标注总数，且该设定错误标注总数主要分为1字错误，2字错误以及多字错误三种情况，二级信息列中具体为设定错误类型，根据编辑距离的确定方式，可知每进行一次转换操作的可以有3种转换类型，分别为文字替换、文字插入以及文字删除，由此可知，在只有1字错误时，存在三种错误类型，当存在2字错误时，则对应六种错误类型，当存在多字错误时，所存在错误类型的种类也较多，本实施例不一一考虑。三级信息列中具体为对应于各设定错误类型的更新决策条件，其中，由于多字错误时不具体考虑错误类型的种类，本实施例为出现的多字错误设定了标准更新决策条件。

表1多级信息关系表

示例性地，本实施例给出了上述各种设定错误类型对应的更新决策条件，如，在1字错误下，当错误类型为文字替换时，可将且作为更新决策条件1_1的具体内容；当错误类型为文字插入时，可将且作为更新决策条件1_2的具体内容；当错误类型为文字删除时，可将且作为更新决策条件1_3的具体内容。

需要说明的是，上述各公式中，p1(q1t/ot)表示样本语音划分成一定数量m的语音信号帧后，第t帧的语音信号帧ot属于标注文本中第t帧的发音单元q1t的发音概率；p2(q2t/ot)表示第t帧的语音信号帧ot属于识别文本中第t帧的发音单元q2t的发音概率。其中，t的范围为第1帧到一定数量m，即可认为t∈[1，m]；t1∈[x1,x2]表示标注文本中的错误标注文字所具备多个发音单元对应的起止帧号范围；t1∈[y1,y2]表示识别文本中的标定文字所具备多个发音单元对应的起止帧号范围，其中，标定文字相当于识别文本中对应于标注文本中错误标注文字的文字。此外，ti为预先设置的插入阈值，td为预先设置的删除阈值，二者的具体取值均可人为的根据历史经验值设定。

同时，在2字错误的情况下，

1)当2字错误的错误类型分别为文字替换和文字替换时，可将：

2)当2字错的错误类型分别为文字替换和文字插入时，可将：

3)当2字错误的错误类型分别为文字替换和文字删除时，可将：

4)当2字错误的错误类型分别为文字插入和文字插入时，可将：

以及作为更新决策条件2_4的具体内容；

5)当2字错误的错误类型分别为文字插入和文字删除时，可将：

以及看作更新决策条件2_5的具体内容；

6)当2字错误的错误类型分别为文字删除和文字删除时，可将：

以及看作更新决策条件2_6的具体内容。

需要说明的是，上述各公式中，p1(q1t/ot)以及p2(q2t/ot)所表示的含义与上述描述的含义相同，表示标注文本中第1个错误标注文字所具备多个发音单元对应的起止帧号范围；表示标注文本中第2个错误标注文字所具备多个发音单元对应的起止帧号范围；表示识别文本中第1个标定文字所具备多个发音单元对应的起止帧号范围，表示识别文本中第2个标定文字所具备多个发音单元对应的起止帧号范围，其中，第1个标定文字及第2个标定文字相当于识别文本中分别对应于标注文本中第1个错误标注文字及第2个错误标注文字的文字。此外，ti及td所表示的含义与上述描述的含义相同。

此外，对于多字错误的情况，本实施例设定和来作为标准更新决策条件，其中，p1(q1t/ot)以及p2(q2t/ot)所表示的含义同样与上述描述的含义相同，k表示识别文本中存在的第k个文字，其中k的值至少大于2；此外，表示识别文本中第k个文字所具备多个发音单元对应的起止帧号范围；tm为预先设定的多字检测阈值，其具体取值可人为设定，一般地，为防止标注文本的错误更新，本实施例对tm的设定需要经过一系列的测试确定。

本步骤基于上述多级信息关系表以及确定的错误标注信息，可以准确的查找出所对应的文本更新决策条件。

s206、确定样本语音与标注文本对齐后的第一发音概率信息，以及与识别文本对齐后的第二发音概率信息。

可以理解的是，上述确定的文本更新决策条件具体相当于样本语音在标注文本下发音概率信息与样本语音在识别文本下发音概率信息的判定比较，由此为判定上述确定的文本更新决策条件是否成立，本步骤需要进一步确定样本语音与标注文本对齐后的第一发音概率信息，以及样本语音与标注文本对齐后的第二发音概率信息。

进一步地，所述第一发音单元概率信息基于所述样本语音以帧为单位划分形成的语音信号帧以及对所述标注文本建模形成的第一发音单元序列确定；所述第二发音概率信息基于各所述语音信号帧及对所述识别文本建模形成的第二发音单元序列确定。

具体地，上述确定第一发音单元概率信息和第二发音单元概率信息的具体操作可描述为：1)以帧为单位结合样本语音的实际发音时长，将样本语音划分为设定帧数的语音信号帧，并可确定出各语音信号帧具有的语音特征；2)基于设定的发音建模规则，可分别获得对应于标注文本的第一发音单元序列，以及对应于识别文本的第二发音单元序列，其中，上述两发音单元序列中分别包含了组成标注文本和识别文本的发音单元；3)采用动态规划算法，可以从第一发音单元序列中确定分别与各语音特征对齐的第一发音单元，还可从第二发音单元序列中确定分别与各语音特征对齐的第二发音单元，在确定各自对其的发音单元后，还可获取各语音特征属于相应第一发音单元的第一发音概率，以及各语音特征属于相应第二发音单元的第二发音概率；4)之后还可确定构成标注文本中错误标注文字的第一发音单元组合，并可获取到第一发音单元组合对应的第一起始帧号和第一终止帧号(相当于错误标注文字的起止帧号范围)；5)还可确定构成识别文本中标定文字的第二发音单元组合，并可获取到第二发音单元组合对应的第二起始帧号和第二终止帧号(相当于标定文字的起止帧号范围)，其中，各标定文字主要根据标注文本中对应的各错误标注文字的所在位置确定；6)最终可以将各第一发音概率、各第一发音单元组合及对应的第一起始帧号和第一终止帧号确定为第一发音概率信息；同时可以将各第二发音概率、各第二发音单元组合及对应的第二起始帧号和第二终止帧号确定为第二发音概率信息。

需要说明的是，上述发音单元组合具体可解释为：通过声母和韵母来确定发音单元时，对于一个文字“中”而言，可知组成该文字的发音单元包括“zh”和“ong”两个，由此可认为“中”字对应的发音单元组合为“zh”和“ong”，但在实际发音时，“zh”和“ong”可能占用多帧的发音时间，由此该发音单元组合进行发音时对应了发音的起始帧号和终止帧号。

此外，上述识别文本中的标定文字可理解为：假设进行两文本比对时，标注文本中第x个文字与识别文本中第x个文字不匹配，需要将标注文本中第x个文字进行文字替换操作，此时该文字相当于标注文本中的错误标注文字，而识别文本中与标注文本属于同一位置的文字则可看作标定文字。

s207、当基于第一发音概率信息及第二发音概率信息确定文本更新决策条件成立时，将识别文本确定为样本语音的新标注文本；否则，继续将标注文本作为样本语音的新标注文本。

可以理解的是，上述文本更新决策条件主要基于发音单元信息形成，因此在确定样本语音分别在标注文本和识别文本下对应的实际发音单元信息后，就可以将其代入已选择的文本更新决策条件对应的公式中，由此来确定文本更新决策条件是否成立，如果成立，则可将识别出的识别文本确定为样本语音的新标注文本，如果不成立，则可继续将原有的标注文本作为样本语音的新标注文本。

s208、基于设定量的样本语音及当前分别对应的标注文本，重新训练优化当前声学模型。

示例性地，基于上述操作对训练数据集中的样本语音进行标注样本的标注指令提升后，可以根据各样本语音，及提升后当前对应的标注文本重新训练当前声学模型。

本发明实施例二提供的一种优化语音识别声学模型的方法，具体给出了错误标注信息的确定操作，同时具体给出了标注文本的更新确定操作。利用该方法，能够有效提高样本语音所对应标注文本的标注质量，从而提高了声学模型所需训练数据的指令，进而达到了优化声学模型的目的，很好提升了语音识别的准确率。

实施例三

图3为本发明实施例三提供的一种优化语音识别声学模型的装置的结构框图，该装置适用于对用于语音识别的声学模型进行优化提升的情况，该装置可以由硬件和/或软件实现，并一般集成在具备语音识别功能的计算机设备中。如图3所示，该装置包括：文本获取模块31、错误标注确定模块32、标注文本更新模块33以及声学模型优化模块34。

其中，文本获取模块31，用于获取样本语音的标注文本，并获取所述样本语音基于当前声学模型得到的识别文本；

错误标注确定模块32，用于比对所述标注文本和所述识别文本，并在比对结果为不匹配时确定所述标注文本相对所述识别文本的错误标注信息；

标注文本更新模块33，用于根据所述错误标注信息对应的文本更新决策条件，更新所述样本语音的标注文本；

声学模型优化模块34，用于基于设定量的样本语音及当前分别对应的标注文本，重新训练优化所述当前声学模型。

在本实施例中，该装置首先通过文本获取模块31获取样本语音的标注文本，并获取所述样本语音基于当前声学模型得到的识别文本，然后通过错误标注确定模块32比对所述标注文本和所述识别文本，并在比对结果为不匹配时确定所述标注文本相对所述识别文本的错误标注信息；之后通过标注文本更新模块33根据所述错误标注信息对应的文本更新决策条件，更新所述样本语音的标注文本；最终通过声学模型优化模块34基于设定量的样本语音及当前分别对应的标注文本，重新训练优化所述当前声学模型。

本发明实施例三提供的优化语音识别声学模型的装置，能够有效提高样本语音所对应标注文本的标注质量，从而提高了声学模型所需训练数据的指令，进而达到了优化声学模型的目的，很好提升了语音识别的准确率。

进一步地，错误标注确定模块32，具体用于：

比对所述标注文本和识别文本，获得所述标注文本与所述识别文本的编辑距离，并在所述编辑距离为非0时，确定比对结果为不匹配；在所述比对结果为不匹配时，根据所述编辑距离，确定所述标注文本相对所述识别文本的错误标注总数、错误标注的所在位置及各所述错误标注的错误类型；将所述错误标注总数以及各错误标注的所在位置和所属错误类型记为所述错误标注信息。

进一步地，标注文本更新模块33，包括：

决策条件确定单元，用于基于所述错误标注信息，在预设的多级信息关系表中查找所述样本语音对应的文本更新决策条件，其中，所述文本更新决策条件为样本语音在标注文本下发音概率信息与样本语音在识别文本下发音概率信息的判定比较；

概率信息确定单元，用于确定所述样本语音与所述标注文本对齐后的第一发音概率信息，以及与所述识别文本对齐后的第二发音概率信息；

新文本确定单元，用于当基于所述第一发音概率信息及所述第二发音概率信息确定所述文本更新决策条件成立时，将所述识别文本确定为所述样本语音的新标注文本；否则，继续将所述标注文本作为所述样本语音的新标注文本。

在上述优化的基础上，所述决策条件确定单元，具体用于：

获取所述错误标注信息中的错误标注总数及错误标注的错误类型；

在所述多级信息关系表中，以所述错误标注总数为索引，查找与所述错误标注的错误类型匹配的设定错误类型；

将对应于所述设定错误类型的更新决策条件确定为所述样本语音的文本更新决策条件。

进一步地，所述多级信息关系表基于下述步骤构建：

初始化包含一级信息列、二级信息列和三级信息列的多级信息关系表；

在所述一级信息列中存放设定错误标注总数，所述设定错误标注总数包括1字错误、2字错误和多字错误；

在所述二级信息列中存放分别对应于所述1字错误及2字错误的设定错误类型，并设定所述多字错误所对应二级信息单元格的信息为空；

在所述三级信息列中存放对应于各所述设定错误类型的更新决策条件，并将设定的标准更新决策条件存放在所述多字错误对应的三级信息单元格中。

实施例四

图4为本发明实施例四提供的一种计算机设备的硬件结构示意图。如图4所示，本发明实施例四提供的计算机设备，包括：处理器41和存储装置42。该计算机设备中的处理器可以是一个或多个，图4中以一个处理器41为例，所述计算机设备中的处理器41和存储装置42可以通过总线或其他方式连接，图4中以通过总线连接为例。

该计算机设备中的存储装置42作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例一或二所提供优化语音识别声学模型的方法对应的程序指令/模块(例如，附图3所示的优化语音识别声学模型的装置中的模块，包括：文本获取模块31、错误标注确定模块32、标注文本更新模块33以及声学模型优化模块34)。处理器41通过运行存储在存储装置42中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例中优化语音识别声学模型的方法。

存储装置42可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储装置42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置42可进一步包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

并且，当上述计算机设备所包括一个或者多个程序被所述一个或者多个处理器41执行时，程序进行如下操作：

获取样本语音的标注文本，并获取所述样本语音基于当前声学模型得到的识别文本；比对所述标注文本和所述识别文本，并在比对结果为不匹配时确定所述标注文本相对所述识别文本的错误标注信息；根据所述错误标注信息对应的文本更新决策条件，更新所述样本语音的标注文本；基于设定量的样本语音及当前分别对应的标注文本，重新训练优化所述当前声学模型。

此外，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例一或实施例二提供的优化语音识别声学模型的方法，该方法包括：获取样本语音的标注文本，并获取所述样本语音基于当前声学模型得到的识别文本；比对所述标注文本和所述识别文本，并在比对结果为不匹配时确定所述标注文本相对所述识别文本的错误标注信息；根据所述错误标注信息对应的文本更新决策条件，更新所述样本语音的标注文本；基于设定量的样本语音及当前分别对应的标注文本，重新训练优化所述当前声学模型。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷延强
技术所有人：广州视源电子科技股份有限公司
我是此专利的发明人

上一篇：一种电流互感器高低温实验测试装置的制作方法
上一篇：胶辊位置变换的定位机构及其便携打印机的制作方法