一种音频数据标注方法、装置及系统与流程

文档序号：21279324发布日期：2020-06-26 23:29阅读：750来源：国知局

本发明涉及语音识别技术领域，特别涉及一种音频数据标注方法、装置及系统。

背景技术：

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述语言的技术，其所要解决的技术问题是让计算机将语音转化成文本，对给定的波形序列得到相应的单词或者字符序列，本质上是信道解码和模式识别的问题。

一般来讲，语音识别系统主要由前端处理、声学模型、语言模型和解码器四个模块组成。其中前端处理主要包括：端点检测、降噪、特征提取三个方面的操作。声学模型、语言模型和解码器属于后端处理，声学模型主要用来构建输入语音和输出声学单元之间的概率映射关系，语言模型主要用来描述不同字词之间的概率搭配关系，使识别出的句子更通顺自然。

语音识别系统构建的过程整体上包括：训练和识别两部分。训练是指对声学模型和语言模型的训练，一般离线进行。识别为将用户的语音识别为文本的过程，一般在线进行。在对声学模型的训练中需要大量的样本标注音频数据，该数据的获取主要通过人工完成，耗时耗力，成本高昂。而直接采用语音识别后的标注音频数据作为声学模型的训练样本，由于语音识别出的标注音频数据质量不稳定，会导致使用其作为样本训练出的声学模型的准确度不高的问题。

技术实现要素：

为了解决现有技术的问题，本发明实施例提供了一种音频数据标注方法、装置及系统。所述技术方案如下：

第一方面，提供了一种音频数据标注方法，所述方法包括：

将待标注音频数据利用语音识别引擎进行语音识别获得参考标注文本；

以所述参考标注文本为参照，在由所述待标注音频数据解码获得的词图网络中查找与所述参考标注文本编辑距离最短的最优识别路径，计算所述最优识别路径上各单词的置信度，将各单词的所述置信度与预设的第一置信度条件对比，输出所述最优识别路径上满足所述第一置信度条件的目标单词；

按照所述词图网络中各单词的时间参数对齐所述目标单词，形成所述待标注音频数据的标注文本。

进一步地，所述词图网络的获得方法包括：

利用已标注音频数据训练声学模型，根据所述参考标注文本构建有偏语言模型；

利用发音词典连接训练后的所述声学模型和所述有偏语言模型，形成解码网络；

利用所述解码网络解码所述待标注音频数据获得所述词图网络。

进一步地，所述有偏语言模型的构建方法包括：

以句子为单元将所述参考标注文本分成n个簇，建立所述簇和相应音频数据的映射；

为每个簇构建一个语言模型。

进一步地，所述词图网络为混淆网络。

进一步地，在获得参考标注文本之前所述方法还包括：

获取音频素材的时长；

将所述音频素材的时长与预设的时长条件对比，删除不满足所述时长条件的所述音频素材；

对所述音频素材做语音端点检测，删除所述音频素材中的无效音频数据，得到所述待标注音频数据。

进一步地，在获得参考标注文本时所述方法还包括：

提取所述参考标注文本中的未登录词，基于发音词典对所述未登录词进行发音预测。

进一步地，在计算所述最优识别路径上各单词的置信度对比后，所述方法还包括：

将各单词的所述置信度与预设的第二置信度条件对比，对满足所述第二置信度条件的噪音单词做标记，，以便将所述噪音单词用于所述声学模型的训练，从而根据所述标记回避所述噪音单词，提高训练效果，所述第二置信度条件的阈值小于所述第一置信度条件的阈值。

第二方面，提供了一种音频数据标注装置，所述装置包括：

参考标注模块，用于利用语音识别引擎对待标注音频数据进行语音识别获得参考标注文本；

解码模块，用于对所述待标注音频数据解码获得词图网络；

最优识别路径获取模块，用于查找与所述参考标注文本编辑距离最短的最优识别路径；

置信度计算模块，用于计算所述最优识别路径上各单词的置信度；

目标单词获取模块，用于将各单词的所述置信度与预设的第一置信度条件对比，输出所述最优识别路径上满足所述第一置信度条件的目标单词；

时间对齐模块，用于按照所述词图网络中各单词的时间参数对齐所述目标单词，形成所述待标注音频数据的标注文本。

进一步地，所述解码网络利用发音词典连接训练后的声学模型和更具所述参考标注文本构建的有偏语言模型获得，所述词图网络由所述待标注音频数据输入所述解码网络后获得。

进一步地，所述有偏语言模型是以句子为单位将参考标注文本分成若干个簇，建立簇和相应音频数据的映射，为每个所述簇构建的语言模型。

进一步地，所述词图网络为混淆网络。

进一步地，所述装置还包括：

音频时长获取模块，用于获取收集到的音频素材的时长；

音频整理模块，用于将所述音频素材的时长与预设的时长条件对比，删除不满足时长条件的所述音频素材；

端点检测模块，用于对所述音频素材做语音端点检测，删除音端点前后的无效音频数据，保留的音频数据作为待标注音频数据。

进一步地，所述参考标注模块还包括：未登录词处理模块，用于提取参考标注文本的未登录词，基于发音词典对未登录词进行发音预测。

进一步地，所述装置还包括：

噪音单词获取模块，用于将各单词的置信度与预设的第二置信度条件对比，标记满足第二置信度条件的噪音单词，以便将所述噪音单词用于所述声学模型的训练，从而根据所述标记回避所述噪音单词，提高训练效果。

第三方面，本发明还提供一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如权利要求1～7任意一项所述方法的操作。

本发明实施例提供的技术方案带来的有益效果是：

1、本发明公开的技术方案将待标注音频数据的词图网络中的单词按照置信度做区分，将置信度高的单词提取出来形成待标注音频数据的标注文，本并标记置信度低的单词，自动完成音频数据标注，无须人工参与，提高了标注效率，提高了标注的准确度，节省人力物力；

2、本发明公开的技术方案在词图网络中参照第三方语音识别音频识别获得的参考标注文本确定最优识别路径，使确定的最优识别路径更加贴近语音识别的结果，获取的最优识别路径更加准确；

3、本发明公开的技术方案对声学模型训练过程中需要的训练样本数量相较于语音识别过程声学模型训练所需的训练样本数量极少，降低了语音识别技术对人工标注的依赖程度；

4、本发明公开的技术方案将置信度低的单词标记为噪音单词，使用本发明标注好的音频数据训练声学模型时，声学模型能够自动回避噪音单词，提高声学模型的表达能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的音频标注方法流程图；

图2是本发明实施例2提供的音频标注装置结构示意图；

图3是本发明实施例3提供的计算机系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音识别系统包括：前端处理、声学模型、语言模型和解码器，其技术核心是基于统计建模框架对于给定语音波形序列o，估计得到最优的输出序列w，当采用贝叶斯决策的最大后验概率进行估计时计算公式为：

argmaxp(w|o)＝argmaxp(o|w)p(w)

公式中，p(o|w)表示声学模型计算得出的观察序列的概率；p(w)为似然值，表示语言模型计算得出的表示序列w出现的一个先验概率。

声学模型是语音识别技术中用于构建输入语音和输出声学单元之间的概率映射关系，也就是确定音频对应的文本单词，为了优化声学模型，使声学模型能够根据音频数据确定正确的文本单词，需要对模型进行预先训练。模型训练的过程需要大量已经标注完成的音频数据作为训练样本，现有技术中训练样本通常是由人工进行标注的。人工标注的标注员需要将听到的音频内容按照文本规范记录下来，文本规范对音字一致、标签、符号均有要求，当出现多音字时还需要加注音标。由此可见，人工标注是一个繁琐而又细致的工作，耗费了大量的人力物力，增加了语音技术的实现成本。为了解决人工标注存在的问题，还可以直接利用语音识别后的标注文本作为训练样本训练声学模型，但是语音识别出的标准文本相较于人工标注准确性较低，因此采用其训练的声学模型准确性也较低。

因此为了解决声学模型训练样本需要人工标注耗费人工的问题，以及其他自动自动标注的标注文本准确性较低的问题，本发明提供一种音频数据标注方法、装置及系统，该技术方案以语音识别出的标注文本作为参考标注文本，以采用人工标注的训练样本训练后的声学模型和利用参考标注文本构建的有偏语言模型组件成解码网络，对待标注音频数据进行标注，标注时以参考标注文本作为参照，通过置信度确定目标单词，相较于参考标注文本，注入人工标注训练的因素提高了标注的准确度。具体技术方案如下：

实施例1

如图1所示，一种音频数据标注方法，包括以下步骤：

s1、收集音频素材，并获取音频素材的时长。

步骤s1中音频素材为收集到的原始音频，其中可能含有噪音、较长的留白等无效数据，不过此步骤所述的音频素材的时长为包含噪音、留白的音频时长。

s2、整理音频素材，将音频素材的时长与预设的时长条件对比，删除不满足时长条件的音频素材。

步骤s2的主要目的是删除时长较短的音频素材，切分较长的音频素材，因为较短的音频表达的文本内容可能不完整，较长的音频素材包含的文本内容较多增加训练的难度。

s3、对音频数据做语音端点检测，删除语音端点前后的无效音频数据，保留的音频数据作为待标注音频数据。

步骤s3中语音端点检测(voiceactivitydetection,vad)的作用是检测当前输入信号中是否有语音，从而识别出音频中语音前后或者语音中间语音消失的部分，以及音频素材中的背景噪声等无效音频数据。

s4、将待标注音频数据利用语音识别引擎进行语音识别，获得参考标注文本。

步骤s4中语音识别引擎为现有的第三方语音识别引擎，利用成熟的语音识别引擎对音频数据的标注准确度高，可作为音频数据标注的参照。

s5、提取参考标注文本的未登录词，基于发音词典对未登录词进行发音预测。

步骤s5是针对参考标注文本中未登录词(outofvocabulary,oov)的处理。未登录词是指在训练时未出现，但在测试时出现的词，未登录词识别问题又叫命名实体识别，本发明实施例中对于未登录词采用根据发音字典进行发音预测的方法。

s6、构建词图网络，具体包括：

s61、利用已标注音频数据训练声学模型，根据所述参考标注文本构建有偏语言模型；

s62、利用发音词典连接训练后的声学模型和有偏语言模型，形成解码网络；

s63、利用解码网络解码待标注音频数据获得词图网络。

步骤s6中词图网络是由解码网络在对音频特征解码后形成的一个有向无环图，图上每个节点代表一个词的时间点，该时间点可以是单词出现的起始时间和结束时间中的任意一种或两种。每条边代表一个可能的词以及该词发生的声学模型得分和语言模型得分。步骤s61采用已经标注的音频数据训练声学模型，该已经标注的音频数据可以是人工标注的音频数据，这里需要注意的是，虽然本发明公开的方法中仍旧需要采用已标注的音频数据训练声学模型，但是训练样本的用量比传统语音识别中声学模型在训练时需要的训练样本用量要少的多。步骤s62构建了解码网络，其中有偏语言模型为根据参考标注文本构建的语言模型，具体地，有偏语言模型的构建方法包括：

以句子为单元将参考标注文本分成n个簇，建立簇和相应音频数据的映射；

为每个簇构建一个语言模型。

步骤s6利用训练好的声学模型与语音相匹配的单词，以第三方语音识别引擎标注的参考标注文本作为标注文本语法的参照，使获得的词图网络更加全面准确。进一步地，词图网络还可以是混淆网络，混淆网络由原始的词图网络变换生成，是一种特殊的词图网络，它要求词图网络中的每条路径都必须经过所有的节点。相比普通的词图网络，混淆网络更容易获取最优识别路径，很容易获得每个时刻相互竞争的词。词图网络的输入为待标注音频数据的音频特征。

s7、在词图网络中查找与参考标注文本编辑距离最短的最优识别路径。

步骤s7实质上解决了词图网络中最优识别路径的获取问题即onebest。编辑距离又称levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。编辑距离越小表示与参考标注文本越接近，也就代表根据该路径得出的标注结果越准确。

s8、计算最优识别路径上各单词的置信度，将各单词的置信度与预设的第一置信度条件对比，输出最优识别路径上满足第一置信度条件的目标单词；以及，将各单词的置信度与预设的第二置信度条件对比，对满足第二置信度条件的噪音单词做标记，被标记的噪音单词再次用于声学模型训练时，能够是声学模型回避掉出现的噪音单词，提高训练效果。

步骤s8中是在s7获得的最优识别路径的基础上进一步确定标注文本的各单词。置信度是指各单词在一定条件内出现的概率。第一置信度条件主要用于筛选出置信度大的单词作为组成音频的标注文本，一般为大于或大于等于某一置信度阈值。第二置信度条件主要用于筛选出置信度小的噪音单词，一般为小于或小于等于某一置信度阈值。因此第一置信度条件的阈值大于第二置信度条件的阈值。

s9、按照词图网络中各单词的时间参数对齐目标单词，形成待标注音频数据的标注文本。

步骤s9中词图网络的节点表示了单词的时间参数，可以是单词的起始时间，或者单独的开始时间、单独的结束时间。按照时间将目标单词排序对齐，形成完整的句子即为待标注音频数据的标注文本，至此音频数据标注完成。

实施例2

为了实现实施例1中公开的一种音频标注方法，本实施例在实施例1的基础上提供一种音频标注装置，如图2所示，一种音频标注装置，包括：

音频时长获取模块，用于获取收集到的音频素材的时长。

音频整理模块，用于将音频素材的时长与预设的时长条件对比，删除不满足时长条件的音频素材。

需要说明的是：音频整理模块中的时长条件可以包括：大边界值和小边界值中的任意一种或两种，当音频素材的时长小于或者小于等于小边界值时，则将该音频素材删除，当音频素材的时长大于或者大于等于大边界值时，则将该音频素材切分。

端点检测模块，用于对音频素材做语音端点检测，删除音端点前后的无效音频数据，保留的音频数据作为待标注音频数据。

需要说明的是：端点检测模块主要作用是识别语音的开始时间和结束时间，以及识别音频数据中的无效音频数据，获得待标注音频数据。

参考标注模块，用于利用语音识别引擎对待标注音频数据进行语音识别获得参考标注文本。参考标注模块包括：未登录词处理模块，用于提取参考标注文本的未登录词，基于发音词典对未登录词进行发音预测。

需要说明的是：参考标注模块中包含有第三方语音识别引擎能够对待标注音频数据进行标注。未登录词是指在训练时未出现，但在测试时出现的词，由于其未出现，则需要采用发音字典进行预测其发音，从而匹配到相应的文本。

解码模块，用于对待标注音频数据解码获得词图网络。其中解码采用解码网络，解码网络利用发音词典连接训练后的声学模型和有偏语言模型，形成解码网络。其中声学模型采用已标注音频数据训练，有偏语言模型为以句子为单元将参考标注文本分成n个簇，建立簇和相应音频数据的映射，为每个簇构建的语言模型。

需要说明的是：解码模块输入的是待标注音频数据的音频特征，输出的是词图网络，词图网络是一种有向无环图，其中包含了待标注音频数据中单词的时间参数，以及各单词的声学模型得分和语言模型得分。具体的解码后获取的词图网络可以是混淆网络，混淆网络是由词图网络变换生成的，其中每条路径都必须经过所有的节点。

最优识别路径获取模块，用于查找与参考标注文本编辑距离最短的最有识别路径。

置信度计算模块，用于计算最优识别路径上各单词的置信度。

目标单词获取模块，用于将各单词的置信度与预设的第一置信度条件对比，输出最优识别路径上满足第一置信度条件的目标单词。

噪音单词获取模块，用于将各单词的置信度与预设的第二置信度条件对比，标记满足第二置信度条件的噪音单词，获得的噪音单词可以重新输入至解码模块中用于声学模型的训练，使得声学模型回避掉噪音单词。

需要说明的是：目标单词获取模块中的第一置信度条件一般为大于或大于等于某一置信度阈值。噪音单词获取模块中的第二置信度条件一般为小于或小于等于某一置信度阈值。第一置信度条件的阈值大于第二置信度条件的阈值。

时间对齐模块，用于按照词图网络中各单词的时间参数对齐目标单词，形成待标注音频数据的标注文本。

本实施例公开的装置在运行时，输入音频素材，输出音频标注，能够为音频自动标注。音频素材输入后，通过音频时长获取模块、音频整理模块、端点检测模块的整理和筛选转换成待标注音频数据，待标注音频数据由端点检测模块发送至参考标注模块和解码模块，参考标注模块对待标注音频数据进行标注，形成参考标注文本，并将参考标注文本发送至解码模块中。解码模块基于参考标注文本训练有偏语言模型，并利用有偏语言模型和声学模型组成的解码网络对待标注音频数据解码，获得词图网络。最优识别路径获取模块在词图网络中寻找最优识别路径，置信度计算模块计算最优识别路径中各单词的置信度，并将置信度发送至目标单词获取模块和噪音单词获取模块。目标单词获取模块将确认的目标单词发送至时间对齐模块，时间对齐模块根据词图网络中的时间参数将目标单词排序对齐，得出音频标注，噪音单词获取模块将确认出的噪音单词进行标记。

实施例3

本申请实施例基于实施例1的音频数据标注方法提供了一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述音频数据标注方法。

其中，图3示例性的展示出了计算机系统的架构，具体可以包括处理器310，视频显示适配器311，磁盘驱动器312，输入/输出接口313，网络接口314，以及存储器320。上述处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314，与存储器320之间可以通过通信总线330进行通信连接。

其中，处理器310可以采用通用的cpu(centralprocessingunit，中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器320可以采用rom(readonlymemory，只读存储器)、ram(randomaccessmemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器320可以存储用于控制电子设备300运行的操作系统321，用于控制电子设备300的低级别操作的基本输入输出系统322(bios)。另外，还可以存储网页浏览器323，数据存储管理系统324，以及设备标识信息处理系统325等等。上述设备标识信息处理系统325就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器320中，并由处理器310来调用执行。

输入/输出接口313用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口314用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。

总线330包括一通路，在设备的各个组件(例如处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314，与存储器320)之间传输信息。

另外，该电子设备300还可以从虚拟资源对象领取条件信息数据库341中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314，存储器320，总线330等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例提供的技术方案带来的有益效果是：

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙泽明;齐欣;王宁;张旭华;朱林林
技术所有人：苏宁云计算有限公司
我是此专利的发明人

上一篇：一种SOI精细掩模版及其制作方法与流程
上一篇：电池管理装置和方法与流程