用于语音识别的音频语料筛选方法、装置及计算机设备与流程

文档序号：18740723发布日期：2019-09-21 01:44阅读：469来源：国知局

本申请涉及语音识别技术领域，尤其涉及一种用于语音识别的音频语料筛选方法、装置、计算机设备及计算机可读存储介质。

背景技术：

一个好的语音识别模型离不开标记质量良好的标记语料，但是通过各种渠道采集和收集的语料通常无法保证其标注的准确性。一种常用的语料收集和存储方式就是一个音频一个对应的标注文本，由于种种因素，音频和标注的文本可能匹配度不高，这种不匹配的标记语料对语音识别模型的训练是有害的，会降低语音识别模型的准确性。

技术实现要素：

本申请实施例提供了一种用于语音识别的音频语料筛选方法、装置、计算机设备及计算机可读存储介质，能够解决传统技术中语音识别模型训练时由于音频和标注的文本匹配度不高导致语音识别模型准确性不高的问题。

第一方面，本申请实施例提供了一种用于语音识别的音频语料筛选方法，所述方法包括：获取长语音音频语料，所述长语音音频语料至少包含两个原始单句；获取以所述原始单句为单位对所述长语音音频语料进行标注得到的多段音频语料及每段所述音频语料所对应的标注文本；使用多段所述音频语料及每段所述音频语料所对应的标注文本对语音识别模型进行训练以得到第一语音识别模型；通过所述第一语音识别模型对每段所述音频语料进行识别以得到每段所述音频语料对应的第一识别文本；将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词识别率，所述第一词识别率包括词错误率或者词正确率；对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断；将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料。

第二方面，本申请实施例还提供了一种用于语音识别的音频语料筛选装置，包括：获取单元，用于获取长语音音频语料，所述长语音音频语料至少包含两个原始单句；标注单元，用于获取以所述原始单句为单位对所述长语音音频语料进行标注得到的多段音频语料及每段所述音频语料所对应的标注文本；第一训练单元，用于使用多段所述音频语料及每段所述音频语料所对应的标注文本对语音识别模型进行训练以得到第一语音识别模型；第一识别单元，用于通过所述第一语音识别模型对每段所述音频语料进行识别以得到每段所述音频语料对应的第一识别文本；第一统计单元，用于将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词识别率，所述第一词识别率包括词错误率或者词正确率；第一判断单元，用于对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断；第一存储单元，用于将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料。

第三方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现所述用于语音识别的音频语料筛选方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行所述用于语音识别的音频语料筛选方法。

本申请实施例提供了一种用于语音识别的音频语料筛选方法、装置、计算机设备及计算机可读存储介质。本申请实施例对语音识别的音频语料进行筛选时，获取长语音音频语料，所述长语音音频语料至少包含两个原始单句；获取以所述原始单句为单位对所述长语音音频语料进行标注得到的多段音频语料及每段所述音频语料所对应的标注文本；使用多段所述音频语料及每段所述音频语料所对应的标注文本对语音识别模型进行训练以得到第一语音识别模型；通过所述第一语音识别模型对每段所述音频语料进行识别以得到每段所述音频语料对应的第一识别文本；将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词识别率，所述第一词识别率包括词错误率或者词正确率；对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断；将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料，通过上述筛选过程可以有效筛选出匹配度高的所述音频语料及所述标注文本作为最终的训练语料，使用匹配度高的音频语料和标注文本作为训练语音识别模型的语料，能够提高语音识别模型的训练准确性和效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的用于语音识别的音频语料筛选方法的应用场景示意图；

图2为本申请实施例提供的用于语音识别的音频语料筛选方法的流程示意图；

图3为本申请实施例提供的用于语音识别的音频语料筛选方法中语音识别原理流程图；

图4为本申请实施例提供的用于语音识别的音频语料筛选方法中声音编码示意图；

图5为本申请实施例提供的用于语音识别的音频语料筛选装置的示意性框图；

图6为本申请实施例提供的用于语音识别的音频语料筛选装置的另一个示意性框图；以及

图7为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本申请实施例提供的用于语音识别的音频语料筛选方法的应用场景示意图。所述应用场景包括：

(1)终端，终端也可以称为前端，通过终端采集或者收集训练语音识别模型的语料，所述终端可以为笔记本电脑、智能手表、平板电脑或者台式电脑等电子设备，图1中的终端与服务器连接。

(2)服务器，服务器进行语音识别，服务器可以为单台服务器、服务器集群或者云服务器，服务器若为服务器集群还可以包括主服务器和从服务器。

请继续参阅图1，如图1所示，在本申请实施例中，主要以服务器端执行用于语音识别的音频语料筛选方法的步骤为例来解释本申请用于语音识别的音频语料筛选方法的技术方案，图1中的各个主体工作过程如下：终端采集或者收集进行语音识别模型训练的音频语料，并将音频语料发送至服务器以使服务器对音频语料进行筛选；服务器获取长语音音频语料，所述长语音音频语料至少包含两个原始单句；获取以所述原始单句为单位对所述长语音音频语料进行标注得到的多段音频语料及每段所述音频语料所对应的标注文本；使用多段所述音频语料及每段所述音频语料所对应的标注文本对语音识别模型进行训练以得到第一语音识别模型；通过所述第一语音识别模型对每段所述音频语料进行识别以得到每段所述音频语料对应的第一识别文本；将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词识别率，所述第一词识别率包括词错误率或者词正确率；对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断；将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料，使用音频预料和标注文本匹配度较高的第一语料对语音识别模型进行训练以提高语音识别模型训练的准确性和效率。

需要说明的是，本申请实施例中的用于语音识别的音频语料筛选方法可以应用于终端，也可以应用于服务器，只要在服务器对语音进行识别前对训练语料进行处理即可。同时，本申请实施例中的用于语音识别的音频语料筛选方法的应用环境并不局限于图1所示的应用环境，也可以将用于语音识别的音频语料筛选方法及语音识别一起应用在终端等计算机设备中，只要在计算机设备进行语音识别前进行即可，上述用于语音识别的音频语料筛选方法的应用场景仅仅用于说明本申请技术方案，并不用于限定本申请技术方案，上述连接关系还可以有其他形式。

图2为本申请实施例提供的用于语音识别的音频语料筛选方法的示意性流程图。该用于语音识别的音频语料筛选方法应用于图1中服务器中，以完成用于语音识别的音频语料筛选方法的全部或者部分功能。

请参阅图2，图2是本申请实施例提供的用于语音识别的音频语料筛选方法的流程示意图。如图2所示，该方法包括以下步骤S210-S280：

S210、获取长语音音频语料，所述长语音音频语料至少包含两个原始单句。

其中，单句，英文为Single sentence，是由短语或单个的词构成的句子，有特定的语调并且能独自表达一定意思的语言单位，不可再分析出分句的句子。可以通过语音中停顿的静音期进行判断，通过语音活动检测以检测语音中的静音期并且对语音进行分割，语音中停顿的静音期相当于语音转化为文本后语料段落中的标点符号，也就是通过语料段落中的句子标点符号对语料进行拆分，所述句子标点符号包括句号、逗号、问号及分号等，但句子标点符号在语音中表示为停顿的静音信号。比如，一段语音对应的文本语料包括“明天要下雨，我紧张得心都要蹦出来了，您今天精神挺好的呢，他说了不回家的，事情本不是这样嘛”。此语料包括以下5个单句：1)明天要下雨；2)我紧张得心都要蹦出来了；3)您今天精神挺好的呢；4)他说了不回家的；5)事情本不是这样嘛。其中，语音活动检测，英文为Voice activity detection，简称为VAD，也称为Speech activity detection or Speech detection。

具体地，通过麦克风等语音输入设备采集，或者通过音频语料库及互联网等途径收集音频语料，所述音频语料为至少包含两个原始单句的长语音音频。

S220、获取以所述原始单句为单位对所述长语音音频语料进行标注得到的多段音频语料及每段所述音频语料所对应的标注文本。

其中，语料片段，又可以称为分段，英文为Segment，是指使用原始单句作为标注单位对长语音音频语料进行标注得到的语料标注段，每一个标注段是一个Segment，每一句话为一个原始单句，每一个原始单句为一个标注段，也就是一句话作为一个标注段对长语音语料进行标注。训练语音识别模型的音频语料一般包括音频语料对应的语音及该语音对应的文字，所述语音对应的文字也就是标注文本，所述标注文本是已知的，所述音频语料一般是由人根据该标注文本通过人朗读该标注文本发出的语音获得，从而得到包括音频语料及该音频语料对应的标注文本的训练语料，通过对语音识别模型识别出来的识别文本和该音频语料对应的标注文本进行比对以判断该语音识别模型进行语音识别的准确性。对语料进行标注，又可以称为对语料进行标记，是指将音频语料和音频语料对应的文字匹配起来。一般情况下，一段文字对应一段标准发音的音频语料，也就是一段文字是对应一段标准语音的，但是在实际语音识别中，由于每个人的发音不同和/或背景环境的多样性，即使是同一段文字，不同的人产生的语音是不一样的，会导致文字和音频语料不完全一致。比如，对同一段文字内容，不同的人用语音表达出来，由于发音不同，或者背景噪声的不同，会形成不同的语音，当进行语音识别时，虽然原本是同一段文字，但是由于不同人的发音或者背景环境的不同形成的语音差异，进行语音识别时会由于语音的差异识别出来不同的文字内容。但进行语音识别模型的训练时，要尽可能使用语音和文字完全匹配一致的语料进行语音识别模型的训练，才能训练出识别效果比较好的语音识别模型，其中，音频语料中包含的语音和语音表达的标注文本的匹配准确度称为该音频语料的标注准确度，或者称为该音频语料的标记准确度，或者称为该音频语料的匹配度。

具体地，用于语音识别模型训练的音频语料，一般包含语音及该语音对应的标注文本，也就是该语音对应的文字，一般称训练语音识别模型的音频语料是标注语料或者标记语料。将长语音音频语料中的每个原始单句作为一个单位进行标注，获取以一个单句对应一个标注文本的训练语料，一个语料片段包含一个原始单句的音频及该原始单句的音频对应的标注文本，也就是该原始单句的音频对应的文字。比如，一段语音对应的文本语料包括“明天要下雨，我紧张得心都要蹦出来了，您今天精神挺好的呢，他说了不回家的，事情本不是这样嘛”。对所述音频语料进行标注时，将句语音以停顿的信号为对应文本中的标点符号，将此音频语料对应的通过段落中的句子标点符号进行拆分，对应的包括以下5个单句的标注文本：1)明天要下雨；2)我紧张得心都要蹦出来了；3)您今天精神挺好的呢；4)他说了不回家的；5)事情本不是这样嘛。将上述五个单句的语音分别进行标注以得到一个单句对应一个标注文本的训练语料，上述长语音语料包括五个音频单句及每个单句对应一个标注文本。进一步地，获取以所述原始单句为单位对所述长语音音频语料进行标注得到的多段音频语料及每段所述音频语料所对应的标注文本，也就是获取语音和该语音对应的文字描述，语音和文字描述可以从语料数据库中获取，也可以通过互联网等媒介获取，可以是由专门的人员根据文字录制的语音和该语音对应的文字形成的语料，也可以是经过语音识别识别出来的文字和该文字对应的语音音频作为语料。

S230、使用多段所述音频语料及每段所述音频语料所对应的标注文本对语音识别模型进行训练以得到第一语音识别模型。

其中，语音识别，英文为Automatic Speech Recognition，一般简称ASR，是将声音转化为文字的过程。

具体地，使用以原始单句为单位对长语音音频语料进行分割，获取所有的原始单句作为训练语料片段进行语音识别模型训练，也就是将以原始单句作为Segment标记的训练语料输入至语音识别模型，语音识别模型获取以原始单句作为所述Segment方式标记的训练语料后，将所述Segment方式标记的训练语料从模拟信号经过采样和量化处理，转换成数字化语音信号，以完成所述Segment方式标记的训练语料的特征提取，实现语音识别中对所述Segment方式标记的训练语料的编码，以便语音识别模型再将获得的数字化语音信号转换输出为模拟语音信号，实现语音识别中对所述Segment方式标记的训练语料数字化信号的解码，将所述Segment方式标记的训练语料由模拟信号转换为数字信号，再将数字信号转换为模拟信号，从而实现语音识别，获得当前的语音识别模型ASR，也就是第一语音识别模型，后续通过所述Segment方式标记的训练语料的标注文本和经过语音识别模型转换后的识别文本的比对，判断语音识别模型对语句识别的准确度，其中，识别文本是指经过语音识别模型将语音转换为文字后的语音对应的文字形成的文本，比如，一语音转换为文字后的文字为“明天要下雨”，“明天要下雨”即为该语音对应的识别文本。其中，对语音识别模型进行训练的过程是语音识别模型根据训练的音频语料对语音识别模型中参数进行自动调整的过程，语音识别模型根据训练的音频语料的不同会自动调整语音识别模型中的参数以适应训练的音频语料数据和模型的匹配，因此，使用不同的训练音频语料对语音识别模型的每一次训练都会引起语音识别模型中参数的变化，比如，基于深度神经网络(DNN)的语音识别声学建模，不但不同的网络结构以及优化策略可以极大提升声学模型的性能，在结合深度神经网络的语音识别模型中，而且可以使用训练语料通过有监督学习的方式训练语音识别模型，每一次训练的音频语料的不同，都会导致语音识别模型中参数的改变，所以在本申请实施例中，通过迭代的方式进行语音识别模型的训练的过程中，每一次训练的音频语料的筛选都会引起语音识别模型中参数的调整，进而引起语音识别模型的优化。

进一步地，请参阅图3，图3为本申请实施例提供的用于语音识别的音频语料筛选方法中语音识别原理流程图，每一次对语音识别模型的训练都会经过以下过程，在以下训练语料模型的过程中，根据训练语料的不同会引起语音识别模型中参数的改变，从而实现对语音识别模型的调整和优化以提高语音识别模型对语音识别的准确性。如图3所示，语音识别原理流程包括以下过程：

1)语音输入，也就是获取语音，比如，获取采集或者收集的长语音音频语料；

2)编码，也就是对输入的语音进行编码，通过编码对语音进行特征提取，比如，对原始单句为单位的长语音音频语料进行编码提取；

3)解码。通过声学模型和语言模型对提取的语音特征进行解码，所述声学模型经训练数据1训练以达到满足要求的效果，所述语言模型经训练数据2训练以达到满足要求的效果，语音识别是把语音声波转换成文字，给定目标语音的训练数据，可以训练一个识别的统计模型；

4)文字输出。将声学模型和语言模型解码的语音特征转换为文字输出，比如，将训练语音语料为文字以实现语音识别，从而实现将语音转换为文字的语音识别。

其中，声学模型，英文为Acoustic model，目前的主流系统多采用隐马尔科夫模型进行建模。

语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。

声音编码就是将模拟语音信号转换成数字化语音信号的过程，将模拟连续的声音信号转换成数字信号这个过程叫做音频数字化。请参阅图4，图4为本申请实施例提供的用于语音识别的音频语料筛选方法中声音编码示意图，如图4所示，它一般需要完成采集，量化，编码三个步骤。

声音解码就是将数字化语音信号转换输出为模拟语音信号的过程，解码的过程就是在给定声学特征的情况下，找到最可能对应的词组的过程。

S240、通过所述第一语音识别模型对每段所述音频语料进行识别以得到每段所述音频语料对应的第一识别文本。

具体地，在使用对所述长语音音频语料进行标注得到的多段音频语料对语音识别模型进行训练以得到第一语音识别模型后，再通过所述第一语音识别模型对每段所述音频语料进行解码，也就是在提取每个音频语料片段声学特征的情况下，找到每个音频语料片段最可能对应的文字以得到所述每个语料片段对应的第一识别文本。

S250、将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词识别率，所述第一词识别率包括词错误率或者词正确率。

其中，词识别率是指语音识别模型对每段音频语料进行语音识别，对每段音频语料识别正确的词或者识别错误的词占该音频语料对应的标注文本中总词数量的比例，词识别率包括词错误率和词正确率。

词错误率，英文为Word ErrorRate，简称为WER，是指对每个音频语料片段识别错误的词占该语料片段对应的标注文本中总词数量的比例。

词正确率是指对每个音频语料片段识别正确的词占该语料片段对应的标注文本列中总词数量的比例。

具体地，将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词错误率或者第一词正确率。

进一步地，在一个实施例中，所述将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词识别率的步骤包括：

将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本按照文本顺序进行比对以得到所述第一识别文本调整成所述标注文本的插入词、替换词及删除词；

计算所述插入词、所述替换词及所述删除词的数量之和与所述标注文本中词数量的比值以得到所述第一词错误率。

具体地，为了使识别出来的第一识别文本和所述第一识别文本所对应的所述标注文本之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标注文本中词的总个数的百分比，即为WER。

公式为：

Accuracy＝100-WER％ (2)

其中，S，为英文Substitution的缩写，指替换词，是指为了使识别出来的第一识别文本和所述第一识别文本所对应的所述标注文本之间保持一致，需要进行替换的词；

D，为英文Deletion的缩写，指删除词，是指为了使识别出来的第一识别文本和所述第一识别文本所对应的所述标注文本之间保持一致，需要进行删除的词；

I，为英文Insertion的缩写，指插入词，是指为了使识别出来的第一识别文本和所述第一识别文本所对应的所述标注文本之间保持一致，需要进行插入的词；

N，为英文Number的缩写，是指单词数量，是指所述第一识别文本所对应的所述标注文本中单词的数量；

Accuracy为准确率，又可以称为正确率，也就是语音识别中被准确识别的词。

S260、对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断；

S270、将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料；

S280、将不满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本过滤掉。

其中，第一词识别率预设条件是指满足第一词识别率预设阈值的条件。比如，若第一词识别率为第一词错误率，所述第一词识别率预设条件为小于或者等于第一预设词错误率阈值，若所述第一词识别率为第一词正确率，所述第一词识别率预设条件为大于或者等于第一预设词正确率阈值。其中，所述第一词识别率预设阈值可以根据实际需求确定，比如，第一预设词错误率阈值为5％，是指识别错误的词占标注文本中词的比值为5％，也就是词正确率为95％。

具体地，设定一个词识别率预设阈值对音频语料片段进行过滤筛选，以过滤掉不符合标注准确度要求的音频语料片段，筛选出符合标注准确度要求的音频语料片段，从而获得有效的训练语料。通过对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断，可以获知对所述音频语料片段识别的准确程度，进而判断对该音频语料片段的识别是否准确，也就是该语料片段是否是符合要求的高质量音频语料。若所述音频语料的第一词识别率满足所述第一词识别率预设条件，也就是该语料片段满足标注准确度的要求，保留并存储所述第一词识别率对应的所述音频语料片段，形成筛选后的第一语料，从而确定进行语音识别模型训练的有效语句，若所述音频语料的第一词识别率不满足所述第一词识别率预设条件，也就是该音频语料片段不满足标注准确度的要求，过滤掉所述第一词识别率对应的所述音频语料片段。其中，标注准确度包括两方面的含义，其一是要语音音频发音准确，比如，要识别汉语普通话，尽量使用发音标准的普通话，要识别各地方言，也要尽可能用当地比较标准的方言，以适应大多数情况，其二，是指标注文本要准确，标注文本准确，才能是语音的发音和标注文本匹配。

本申请实施例对语音识别的音频语料进行筛选时，获取长语音音频语料，所述长语音音频语料至少包含两个原始单句；获取以所述原始单句为单位对所述长语音音频语料进行标注得到的多段音频语料及每段所述音频语料所对应的标注文本；使用多段所述音频语料及每段所述音频语料所对应的标注文本对语音识别模型进行训练以得到第一语音识别模型；通过所述第一语音识别模型对每段所述音频语料进行识别以得到每段所述音频语料对应的第一识别文本；将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词识别率，所述第一词识别率包括词错误率或者词正确率；对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断；将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料，通过上述筛选过程可以有效筛选出匹配度高的所述音频语料及所述标注文本作为最终的训练语料，使用匹配度高的音频语料和标注文本作为训练语音识别模型的语料，能够提高语音识别模型的训练准确性和效率。

在一个实施例中，所述将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料的步骤之后，还包括：

使用所述第一语料对所述第一语音识别模型进行训练以得到第二语音识别模型；

通过所述第二语音识别模型对所述第一语料包含的每段所述音频语料进行识别以得到每段所述音频语料的第二识别文本；

将每个所述第二识别文本和每个所述第二识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第二词识别率，所述第二词识别率包括词错误率或者词正确率；

对每段所述音频语料的第二词识别率是否满足第二词识别率预设条件进行判断；

将满足所述第二词识别率预设条件的所述第二词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第二语料；

迭代上述步骤直至得到满足预设词识别率预设条件的所有所述音频语料及所述音频语料所对应的标注文本以得到筛选后的语料。

具体地，使用经第一次筛选后的音频语料重新训练语音识别模型，也就是使用所述第一语料对所述第一语音识别模型进行训练以得到第二语音识别模型，通过所述第二语音识别模型对所述第一语料包含的每段所述音频语料片段进行识别以得到每段所述音频语料片段的第二识别文本，将每个所述第二识别文本和每个所述第二识别文本对应的标注文本进行比对以统计每段所述音频语料片段的第二词识别率，所述第二词识别率包括词错误率或者词正确率，对每段所述音频语料的第二词识别率是否满足第二词识别率预设条件进行判断，若所述第二词识别率满足所述第二词识别率预设条件，存储所述音频语料及所述音频语料所对应的所述标注文本以形成筛选后的第二语料，迭代上述步骤直至得到满足预设词识别率预设条件的所述音频语料以形成筛选后的语料，直至最终获取满足要求的语料。比如，若要求对音频语料的WER阈值小于5％，筛选出WER阈值小于5％的音频语料，可以有效筛选出以原始单句为Segment形式标记的语料，获得标注准确度满足要求的音频语料，从而提高训练语音识别模型时的准确性。本申请实施例提供的语音识别中语料迭代筛选方法，通过将语音识别训练和解码以筛选音频语料，再次使用筛选出的音频语料进行语音识别模型的训练，反复迭代，最终获得准确率高的筛选后音频语料，可以有效筛选出以Segment形式标记的音频语料，获得标注准确度满足要求的训练音频语料，从而保证训练音频语料的质量，以提高训练语音识别模型的效率和质量。

在一个实施例中，所述第一词识别率为第一词错误率；

所述对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断的步骤包括：

对每段所述音频语料的第一词错误率是否小于或者等于第一预设词错误率阈值进行判断；

所述将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料的步骤包括：

将满足所述第一词错误率小于或者等于所述第一预设词错误率阈值的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料。

具体地，所述第一词识别率为第一词错误率，对每段所述音频语料的第一词错误率是否小于或者等于第一预设词错误率阈值进行判断，若所述第一词错误率小于或者等于所述第一预设词错误率阈值，存储所述第一词错误率对应的所述音频语料及所述音频语料所对应的所述标注文本以形成筛选后的第一语料，若所述第一词错误率大于所述第一预设词错误率阈值，过滤掉所述第一词错误率对应的所述音频语料及所述音频语料所对应的所述标注文本以去除掉不符合要求的语料片段，具体计算方式可以参照第一个实施例中的公式(1)。设定一个WER阈值对Segment进行过滤筛选，比如，设定WER阈值为25％，将词错误率大于25％的音频预料过滤掉，留下词错误率小于或者等于25％的音频语料，从而获取满足要求的音频语料。

在一个实施例中，所述第一词识别率为第一词正确率；

所述对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断的步骤包括：

对每段所述音频语料的第一词正确率是否大于或者等于第一预设词正确率阈值进行判断；

将满足所述第一词正确率大于或者等于所述第一预设词正确率阈值的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料。

具体地，不仅可以根据音频语料片段识别出词的词错误率过滤掉不符合要求的音频语料片段以筛选出符合要求的音频语料片段，还可以根据音频语料片段识别出词的词正确率直接筛选出符合要求的音频语料片段，也就是所述第一词识别率为第一词正确率，对每段所述音频语料的第一词正确率是否大于或者等于第一预设词正确率阈值进行判断，若所述第一词正确率大于或者等于所述第一预设词正确率阈值，保留并存储所述第一词正确率对应的所述音频语料片段以形成筛选后的第一音频语料，若所述第一词正确率小于所述第一预设词正确率阈值，过滤掉所述第一词正确率对应的所述音频语料片段以去除掉不符合要求的音频语料片段，从而筛选出符合要求的有效音频语料片段作为最终的音频语料。

在一个实施例中，所述将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词正确率的步骤包括：

将每个所述第一识别文本和每个所述第一识别文本所对应的标注文本按照文本顺序进行比对以得到所述第一识别文本调整成所述标注文本的匹配词；

计算所述匹配词与所述标注文本中词数量的比值以得到第一词正确率；

或者，所述将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词正确率的步骤包括：

计算所述插入词、所述替换词及所述删除词的数量之和与所述标注文本中词数量的比值以得到所述第一词错误率；

根据所述第一词错误率获得对应所述音频语料的第一词正确率。

具体地，统计每段所述音频语料片段的第一词正确率有以下两种方式：

(1)直接统计。

具体地，将每个所述第一识别文本和每个所述第一识别文本所对应的标注文本按照文本顺序进行比对以得到所述第一识别文本调整成所述标注文本的匹配词，就是识别正确的词，或者称为识别准确的词，计算所述匹配词与所述标准词序列中词数量的比值以得到第一词正确率。

(2)间接统计。

具体地，先统计词错误率，根据词错误率，统计出词正确率，也就是将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本按照文本顺序进行比对以得到所述第一识别文本调整成所述标注文本的插入词、替换词及删除词，计算所述插入词、所述替换词及所述删除词的数量之和与所述标注文本中词数量的比值以得到所述第一词错误率，根据所述第一词错误率获得对应所述语料片段的第一词正确率，具体计算方式可以参照第一个实施例中的公式(1)和公式(2)。

在一个实施例中，所述原始单句携带有所述原始单句在所述长语音音频语料中位置的预设顺序标识。

其中，预设顺序标识是指用来描述语料段在整个长语音语料中的位置的标识。包括顺序编号，比如A、B、C或者1、2、3等方式。

具体地，对于长语音音频语料，按照原始单句将长语音音频语料进行切割以获取多段音频语料段，所述音频语料段中携带有预设顺序标识以描述该语料段在长语音音频语料中的位置，以方便后续识别各个语料段，再将多个语料段按照预设顺序标识进行组合以形成完整的识别文本。将长语音音频语料按照原始单句进行切割以获取多个携带有预设顺序标识的音频语料段，当音频语料量比较大时，还可以采用分布式系统通过并行方式对多个所述音频语料段分开，以对音频语料进行筛选，以提高对音频语料的处理效率。其中，对音频语料进行切割，在不同的编程语言中可以使用不同的方法，比如，在C语言中，可以使用C语言中字符串切割函数Split进行切割，JAVA中可以使用CUT方法进行切割。

需要说明的是，上述各个实施例所述的用于语音识别的音频语料筛选方法，可以根据需要将不同实施例中包含的技术特征重新进行组合，以获取组合后的实施方案，但都在本申请要求的保护范围之内。

请参阅图5，图5为本申请实施例提供的用于语音识别的音频语料筛选装置的示意性框图。对应于上述用于语音识别的音频语料筛选方法，本申请实施例还提供一种用于语音识别的音频语料筛选装置。如图5所示，该用于语音识别的音频语料筛选装置包括用于执行上述用于语音识别的音频语料筛选方法的单元，该装置可以被配置于服务器等计算机设备中。具体地，请参阅图5，该用于语音识别的音频语料筛选装置500包括获取单元501、标注单元502、第一训练单元503、第一识别单元504、第一统计单元505、第一判断单元506及第一存储单元507。

其中，获取单元501，用于获取长语音音频语料，所述长语音音频语料至少包含两个原始单句；

标注单元502，用于获取以所述原始单句为单位对所述长语音音频语料进行标注得到的多段音频语料及每段所述音频语料所对应的标注文本；

第一训练单元503，用于使用多段所述音频语料及每段所述音频语料所对应的标注文本对语音识别模型进行训练以得到第一语音识别模型；

第一识别单元504，用于通过所述第一语音识别模型对每段所述音频语料进行识别以得到每段所述音频语料对应的第一识别文本；

第一统计单元505，用于将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词识别率，所述第一词识别率包括词错误率或者词正确率；

第一判断单元506，用于对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断；

第一存储单元507，将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料。

请参阅图6，图6为本申请实施例提供的用于语音识别的音频语料筛选装置的另一个示意性框图。如图6所示，在该实施例中，所述用于语音识别的音频语料筛选装置500还包括：

第二训练单元508，用于使用所述第一语料对所述第一语音识别模型进行训练以得到第二语音识别模型；

第二识别单元509，用于通过所述第二语音识别模型对所述第一语料包含的每段所述音频语料进行识别以得到每段所述音频语料的第二识别文本；

第二统计单元510，用于将每个所述第二识别文本和每个所述第二识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第二词识别率，所述第二词识别率包括词错误率或者词正确率；

第二判断单元511，用于对每段所述音频语料的第二词识别率是否满足第二词识别率预设条件进行判断；

第二存储单元512，用于将满足所述第二词识别率预设条件的所述第二词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第二语料；

迭代单元513，用于迭代上述步骤直至得到满足预设词识别率预设条件的所有所述音频语料及所述音频语料所对应的标注文本以得到筛选后的语料。

在一个实施例中，所述第一词识别率为第一词错误率；

所述第一判断单元506，用于对每段所述音频语料的第一词错误率是否小于或者等于第一预设词错误率阈值进行判断；

所述第一存储单元507，用于将满足所述第一词错误率小于或者等于所述第一预设词错误率阈值的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料。

在一个实施例中，所述第一统计单元505包括：

第一比对子单元，用于将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本按照文本顺序进行比对以得到所述第一识别文本调整成所述标注文本的插入词、替换词及删除词；

第一计算子单元，用于计算所述插入词、所述替换词及所述删除词的数量之和与所述标注文本中词数量的比值以得到所述第一词错误率。

在一个实施例中，所述第一词识别率为第一词正确率；

所述第一判断单元506，对每段所述音频语料的第一词正确率是否大于或者等于第一预设词正确率阈值进行判断；

所述第一存储单元507，用于将满足所述第一词正确率大于或者等于所述第一预设词正确率阈值的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料。

在一个实施例中，所述第一统计单元505包括：

第二比对子单元，用于将每个所述第一识别文本和每个所述第一识别文本所对应的标注文本按照文本顺序进行比对以得到所述第一识别文本调整成所述标注文本的匹配词；

第二计算子单元，用于计算所述匹配词与所述标注文本中词数量的比值以得到第一词正确率；

或者，所述第一统计单元505包括：

第三比对子单元，用于将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本按照文本顺序进行比对以得到所述第一识别文本调整成所述标注文本的插入词、替换词及删除词；

第三计算子单元，用于计算所述插入词、所述替换词及所述删除词的数量之和与所述标注文本中词数量的比值以得到所述第一词错误率；

获得子单元，用于根据所述第一词错误率获得对应所述音频语料的第一词正确率。

在一个实施例中，所述原始单句携带有所述原始单句在所述长语音音频语料中位置的预设顺序标识。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述用于语音识别的音频语料筛选装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述用于语音识别的音频语料筛选装置中各个单元的划分和连接方式仅用于举例说明，在其他实施例中，可将用于语音识别的音频语料筛选装置按照需要划分为不同的单元，也可将用于语音识别的音频语料筛选装置中各单元采取不同的连接顺序和方式，以完成上述用于语音识别的音频语料筛选装置的全部或部分功能。

上述用于语音识别的音频语料筛选装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是台式机电脑或者服务器等计算机设备，也可以是其他设备中的组件或者部件。

参阅图7，该计算机设备700包括通过系统总线701连接的处理器702、存储器和网络接口705，其中，存储器可以包括非易失性存储介质703和内存储器704。

该非易失性存储介质703可存储操作系统7031和计算机程序7032。该计算机程序7032被执行时，可使得处理器702执行一种上述用于语音识别的音频语料筛选方法。

该处理器702用于提供计算和控制能力，以支撑整个计算机设备700的运行。

该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境，该计算机程序7032被处理器702执行时，可使得处理器702执行一种上述用于语音识别的音频语料筛选方法。

该网络接口705用于与其它设备进行网络通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图7所示实施例一致，在此不再赘述。

其中，所述处理器702用于运行存储在存储器中的计算机程序7032，以实现如下步骤：获取长语音音频语料，所述长语音音频语料至少包含两个原始单句；获取以所述原始单句为单位对所述长语音音频语料进行标注得到的多段音频语料及每段所述音频语料所对应的标注文本；使用多段所述音频语料及每段所述音频语料所对应的标注文本对语音识别模型进行训练以得到第一语音识别模型；通过所述第一语音识别模型对每段所述音频语料进行识别以得到每段所述音频语料对应的第一识别文本；将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词识别率，所述第一词识别率包括词错误率或者词正确率；对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断；将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料。

在一实施例中，所述处理器702在实现所述将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料的步骤之后，还实现以下步骤：

使用所述第一语料对所述第一语音识别模型进行训练以得到第二语音识别模型；

通过所述第二语音识别模型对所述第一语料包含的每段所述音频语料进行识别以得到每段所述音频语料的第二识别文本；

对每段所述音频语料的第二词识别率是否满足第二词识别率预设条件进行判断；

迭代上述步骤直至得到满足预设词识别率预设条件的所有所述音频语料及所述音频语料所对应的标注文本以得到筛选后的语料。

在一实施例中，所述处理器702在实现对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断的步骤时，所述第一词识别率为第一词错误率；

所述处理器702在实现所述对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断的步骤时，具体实现以下步骤：

对每段所述音频语料的第一词错误率是否小于或者等于第一预设词错误率阈值进行判断；

所述处理器702在实现所述将满足所述第一词识别率预设条件的所述第一词识别率所对应的所述音频语料及所述音频语料所对应的所述标注文本进行存储以得到筛选后的第一语料的步骤时，具体实现以下步骤：

在一实施例中，所述处理器702在实现所述将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词识别率的步骤时，具体实现以下步骤：

计算所述插入词、所述替换词及所述删除词的数量之和与所述标注文本中词数量的比值以得到所述第一词错误率。

在一实施例中，所述处理器702在实现对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断的步骤时，所述第一词识别率为第一词正确率；

所述处理器702在实现所述对每段所述音频语料的所述第一词识别率是否满足第一词识别率预设条件进行判断的步骤时，具体实现以下步骤：

对每段所述音频语料的第一词正确率是否大于或者等于第一预设词正确率阈值进行判断；

在一实施例中，所述处理器702在实现所述将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词正确率的步骤时，具体实现以下步骤：

将每个所述第一识别文本和每个所述第一识别文本所对应的标注文本按照文本顺序进行比对以得到所述第一识别文本调整成所述标注文本的匹配词；

计算所述匹配词与所述标注文本中词数量的比值以得到第一词正确率；

或者，所述处理器702在实现所述将每个所述第一识别文本和每个所述第一识别文本所对应的所述标注文本进行比对以统计每段所述音频语料的第一词正确率的步骤时，具体实现以下步骤：

计算所述插入词、所述替换词及所述删除词的数量之和与所述标注文本中词数量的比值以得到所述第一词错误率；

根据所述第一词错误率获得对应所述音频语料的第一词正确率。

在一实施例中，所述处理器702在实现所述获取以所述原始单句为单位对所述长语音音频语料进行标注得到的多段音频语料及每段所述音频语料所对应的标注文本的步骤时，还实现以下内容：

所述原始单句携带有所述原始单句在所述长语音音频语料中位置的预设顺序标识。

应当理解，在本申请实施例中，处理器702可以是中央处理单元(Central Processing Unit，CPU)，该处理器702还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来完成，该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行如下步骤：

一种计算机程序产品，当其在计算机上运行时，使得计算机执行以上各实施例中所描述的用于语音识别的音频语料筛选方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王涛
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：基于栅栏式长短时记忆神经网络的关键词抽取方法及系统与流程
上一篇：垃圾除尘系统及具有其的清扫车的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。