远场拾音性能评价方法和系统、电子设备与流程

文档序号：13032610阅读：249来源：国知局

本发明涉及语音识别技术领域，尤其涉及一种远场拾音性能评价方法和系统、电子设备。

背景技术：

通常，评价一个远场拾音结果的好坏主要取决于拾音系统所采集的拾音效果。目前，对拾音效果的评价分为主观评价和客观评价两种方式。

其中，在主观评价的方式中，通过播放一段干净的未失真的语音信号，经过拾音系统拾取之后，在接收端让一组人员去听，然后给出一个1-5分的拾音效果评分，所有受试人员的平均分，作为最终的拾音效果评分，采用这种方法的缺点是：耗时、费力、且对受试人员的要求较高。

常用的客观评价方法有：感知话音质量测量法(perceptualspeechqualitymeasure，简称psqm)，感知分析测度系统法(perceptualanalysismeasurementsystem，简称pams)，感知话音质量评估法(perceptualevaluationofspeechquality，简称pesq)等。这些客观评价测试方法和测试仪器都是应用于端到端的通信拾音效果测量的，测试仪通过模拟电话接口来测试端到端的网关之间的拾音效果，存在的缺点是：只能应用于具有电接口(比如网关、或者模拟音频接口)的语音系统或设备，而不能应用于远场拾音效果的正确测试评价，也不能对远场拾音系统中用于声音拾取的音响设备的拾音性能进行正确测试评价。

技术实现要素：

为了解决上述问题，本发明提供一种远场拾音性能评价方法和系统、电子设备，可以对远场拾音效果进行正确测试评价，还可以用于对音响拾音性能进行客观正确的测试评价。

本发明提供一种远场拾音性能评价方法，包括：

在预设的环境信息下，获取拾音设备对语音播放的原始文本文件进行语音拾取得到音频文件；

通过多个语音识别引擎分别对所述音频文件进行语音识别，得到所述音频文件的多个识别正确率；

根据所述音频文件的多个识别正确率对所述拾音设备的拾音性能进行评价。

可选地，通过多个语音识别引擎分别对所述音频文件进行语音识别，得到所述音频文件的多个识别正确率，包括：

通过多个语音识别引擎分别对所述音频文件进行语音识别，分别得到与所述多个语音识别引擎一一对应的多个识别后的文本文件；

将所述多个识别后的文本文件分别与所述原始文本文件进行对比，分别确定所述音频文件的多个识别正确率。

可选地，根据所述音频文件的多个识别正确率对所述拾音设备的拾音性能进行评价，包括：

根据所述音频文件的多个识别正确率，计算所述音频文件的平均识别正确率；

根据所述音频文件的平均识别正确率，评价所述拾音设备的拾音性能。

可选地，若所述预设的环境信息包括多个环境信息，则拾音得到与各个环境信息一一对应的音频文件，进一步地，所述音频文件的平均识别正确率与其对应的环境信息对应。

可选地，所述的远场拾音性能评价方法还包括：

根据所述音频文件的平均识别正确率以及对应的环境信息，评价在不同环境信息下所述拾音设备的拾音性能。

可选地，所述的远场拾音性能评价方法还包括：

在预设的环境信息下，分别获取两个拾音设备对同一个语音播放的原始文本文拾音得到的音频文件的平均识别正确率；

根据所述两个音频文件的平均识别正确率，对所述两个拾音设备的拾音性能进行比较评价。

本申请还提供一种电子设备，包括：处理器和存储器，其中，所述存储器中存储有支持所述远场拾音性能评价方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序；

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理器调用执行；

当所述处理器执行所述存储器中存储的程序时，包括：

在预设的环境信息下，获取拾音设备对语音播放的原始文本文件进行语音拾取得到音频文件；

通过引擎调用接口调用多个语音识别引擎分别对所述音频文件进行语音识别，得到所述音频文件的多个识别正确率；

根据所述音频文件的多个识别正确率对所述拾音设备的拾音性能进行评价。

可选地，当所述处理器通过引擎调用接口调用多个语音识别引擎分别对所述音频文件进行语音识别时包括：

通过多个语音识别引擎分别对所述音频文件进行语音识别，分别得到与所述多个语音识别引擎一一对应的多个识别后的文本文件；

将所述多个识别后的文本文件分别与所述原始文本文件进行对比，确定所述音频文件的多个识别正确率。

可选地，当所述处理器根据所述音频文件的多个识别正确率和对所述拾音设备的拾音性能进行评价时包括：

根据所述音频文件的多个识别正确率，计算所述音频文件的平均识别正确率；

根据所述音频文件的平均识别正确率，评价所述第一设备和第二设备的拾音性能。

可选地，当所述处理器执行所述存储器中存储的程序时，还包括：

根据所述音频文件的平均识别正确率以及对应的环境信息，评价在不同环境信息下所述拾音设备的拾音性能。

本申请还提供一种远场拾音性能评价系统，包括：拾音设备和上述的电子设备；

所述拾音设备用于对语音播放的原始文本文件进行语音拾取得到音频文件，并发送给所述电子设备；

所述电子设备通过引擎调用接口统一调用多个语音识别引擎，分别对所述音频文件进行语音识别，得到所述音频文件的多个识别正确率；根据所述音频文件的多个识别正确率对所述拾音设备的拾音性能进行评价。

本发明实施例通过电子设备统一调用多个语音识别引擎对拾音设备分别进行语音拾取的音频文件进行语音识别，得到与多个语音识别引擎对应的识别正确率，进而根据所述音频文件的多个识别正确率和对所述拾音设备的拾音性能进行评价，因此本发明所述系统可以实现对远场拾音系统中用于声音拾取的拾音设备的拾音性能进行客观、正确地测试评价。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的远场拾音性能评价方法的流程示意图；

图2为本申请另一实施例提供的远场拾音性能评价方法的流程示意图；

图3为本申请一实施例提供的远场拾音性能评价系统架构图；

图4为本申请又一实施例提供的远场拾音性能评价方法的流程示意图；

图5为本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

为了解决现有技术中对远场拾音效果不能进行客观正确的测试评价，本发明实施例提供的远场拾音性能评价方法可以通过调用多个语音识别引擎对拾音设备分别进行语音拾取的音频文件进行语音识别，得到与多个语音识别引擎对应的识别正确率，进而根据所述音频文件的多个识别正确率和对所述拾音设备的拾音性能进行评价。

图1为本申请一实施例提供的远场拾音性能评价方法的流程示意图，如图1所示，具体包括：

101、在预设的环境信息下，分别获取拾音设备对语音播放的原始文本文件进行语音拾取得到音频文件；

102、通过多个语音识别引擎分别对所述音频文件进行语音识别，得到所述音频文件的多个识别正确率；

具体地，通过多个语音识别引擎分别对所述音频文件进行语音识别，分别得到与所述多个语音识别引擎一一对应的多个识别后的文本文件；将所述多个识别后的文本文件分别与所述原始文本文件进行对比，分别确定所述音频文件的多个识别正确率。

103、根据所述音频文件的多个识别正确率对所述拾音设备的拾音性能进行评价。

具体地，根据所述音频文件的多个识别正确率，计算所述音频文件的平均识别正确率；根据所述音频文件的平均识别正确率，评价所述拾音设备的拾音性能。

图2为本申请另一实施例提供的远场拾音性能评价方法的流程示意图，对图1所示方法进行详细的说明，如图2所示，包括：

201、拾音设备对语音播放的原始文本文件进行语音拾取得到对应的音频文件，将音频文件发送给拾音性能评价设备；

这里的音频文件是与原始文本文件对应的音频文件，这里的拾音性能评价设备可以是任一支持远场拾音性能评价方法的电子设备，也可以对远场拾音系统中不同拾音设备的拾音性能进行客观正确地比较评价。

在进行语音播放的时候，可以预设多个播放环境，例如安静的播放环境和嘈杂的播放环境，语音拾取的结果自然也是不一样的；又例如，播放语言环境不同，语音拾取设备对不同语言播放拾音效果自然也是不同的，所以为了检测语音拾取设备的性能，需要检测语音拾取设备在不同播放环境下的语音拾取性能。

具体实现时，首先分别预设多个环境信息，环境信息例如包括噪音环境信息、信噪比参数信息、语言环境信息等；之后，在不同的环境信息下，对原始文本文件进行语音播放，得到与各个环境信息对应的所述原始文本文件的音频文件，如表1所示。

表1为环境信息与音频文件的对应关系：

202、拾音性能评价设备通过多个语音识别引擎分别对所述音频文件进行语音识别，得到与所述各个语音识别引擎对应的识别后的文本文件；

本发明实施例采用的语音识别引擎包括但不限于现有的语音识别引擎，任一可以实现语音识别技术的引擎均可以在本发明中应用。

需要说明的是，本发明实施例中，当上述多个语音识别引擎对音频文件进行语音识别时，该音频文件是拾音设备在同一个环境信息下语音拾取得到的音频文件，这样才能在后续识别正确率评价上有统一的基准，因为在不同环境信息下拾取的音频文件自然效果是不同的，如表2所示。

表2为音频文件与识别后的文本文件的对应的关系:

203、将所述各个识别后的文本文件分别与所述原始文件进行对比，确定与所述各个语音识别引擎对应的识别正确率；

具体地，例如根据表2所示，获取识别后的文本文件11、识别后的文本文件12、识别后的文本文件13，因为识别后的文本文件11、识别后的文本文件12、识别后的文本文件13是多个语音识别引擎分别对在环境信息1下拾取的同一个音频文件1进行语音识别后得到的文本文件；将识别后的文本文件11、识别后的文本文件12、识别后的文本文件13与原始文本进行比对，可以得到的是多个语音识别引擎分别对在环境信息1下拾取的同一个音频文件1进行语音识别的识别正确率。

又例如根据表2所示，获取识别后的文本文件21、识别后的文本文件22、识别后的文本文件23，因为识别后的文本文件21、识别后的文本文件22、识别后的文本文件23是多个语音识别引擎分别对在环境信息2下拾取的同一个音频文件2进行语音识别后得到的文本文件；将识别后的文本文件21、识别后的文本文件22、识别后的文本文件23与原始文本进行比对，可以得到的是多个语音识别引擎分别对在环境信息2下拾取的同一个音频文件2进行语音识别的识别正确率。

204、根据所述各个识别正确率以及对应的语音识别引擎的性能参数，确定拾取所述音频文件的拾音设备的拾音效果。

由于不同的语音识别引擎的性能参数不同，不同环境信息下拾取的音频文件的语音识别的正确率也是不同的，通过不同的识别正确率以及对应的语音识别引擎的性能参数，在不同环境信息下，可以综合评价不同环境信息下拾取的音频文件的拾音设备的拾音效果，如表3所示。

表3为多个环境信息下拾音设备分别拾取的多个音频文件对应的拾音效果之间的对应关系：

因此，本发明实施例得到的拾音设备的拾音效果已经考虑到了不同的语音识别引擎的性能参数以及不同环境信息，因此拾音效果的评价更加客观正确。

因此，本发明实施例的方法可以应用于远场拾音设备的拾音效果的客观正确地测试评价。

下面通过具体的应用举例对本申请实施例所示的方法进行拾音设备的拾音性能参数的测试进行详细的说明。

在实际应用中，本申请提供的远场拾音性能测试系统架构如下：

①准备原始测试文本库。

②测试人员站在远场拾音设备指定的测试范围内，朗读测试文本。

③保存远场拾音后的音频文件。

④将③中的音频文件送入计算机。

⑤将音频文件分别通过引擎调用接口传输给送入对应的语音识别引擎中进行识别。

⑥保存识别后的文档。

⑦计算机对原始文档和识别文档进行比对，计算识别正确率。

其中，计算机中存储有远场拾音性能测试的计算程序，因此可以根据各语音识别引擎对应的识别正确率，综合计算得到拾音设备的拾音性能参数，这些拾音性能参数可以反映拾音设备的拾音效果的优良。

需要说明的是，本申请实施例中，为了方便用户对拾音设备拾音效果的测试，本申请的远场拾音性能测试的计算程序中设计了统一调用各大语音识别引擎的接口。

通过该调用接口可以进行如下设置操作：

设置语音(简体中文、繁体中文、英语等)；

设置后端引擎；

设置原始文本所在路径(可以支持批量文件处理)；

设置原始wav音频文件所在路径；

设置识别文本所在路径；

设置识别率统计结果报表所在路径；

开始运行；

需要说明的是，本申请实施例中，为了方便用户对批量音频文件的处理，以及一目了然地查看语音识别结果，本申请增加了文本比对功能：对两个文本进行差异对比，中文按照字、英文按照单词对比，标识差异，直接输出识别率统计结果。具体设计如下：

设置原始文本所在路径(可以支持批量文件处理)；

设置对比文本所在路径；

开始对比；

在对比文本中标识出差异所在；

输出统计报表(总字数、增加字数、改变字数、删除字数、正确字数、识别率)；

需要说明的是，本申请实施例中，测试环境搭建如下：

测试地点：安静的会议室

装备：

四个扬声器提供背景噪音；

测试人员提供测试语音；

待测试的远场拾音设备；

不同的噪音环境：

安静；

扬声器模拟多路重合噪音；

家电噪音(空调、吸尘器等)；

音乐；

测试语言：中文和英文；

背景噪音的音源位置；

信噪比：6db、10db、15db和20db

因此，本申请实施例中，用户可以一目了然地查看评价远场拾音设备的拾音效果的分析测试结果。

通过上述计算机程序的设备，可以直接获得不同语音识别引擎下的识别正确率以及待测远场拾音设备的拾音效果评价。

基于图1和图2所示的方法可以实现对两个拾音设备的拾音性能进行比较评价，图3为本申请一实施例提供的远场拾音性能评价系统架构图，如图3所示，包括：第一设备、第二设备和电子设备；其中第一设备和第二设备是两个不同的拾音设备。

所述第一设备用于对同一个语音播放的原始文本文件进行语音拾取得到的第一音频文件，并发送给所述电子设备；

所述第二设备用于对所述同一个语音播放的原始文本文件进行语音拾取得到的第二音频文件，并发送给所述电子设备；

所述电子设备通过引擎调用接口同义调用多个语音识别引擎，分别对所述第一音频文件和第二音频文件进行语音识别，得到所述第一音频文件的多个识别正确率和所述第二音频文件的多个识别正确率；根据所述第一音频文件的多个识别正确率和所述第二音频文件的多个识别正确率对所述第一设备和第二设备的拾音性能进行评价。

通过本发明实施例所述系统，可以通过电子设备统一调用多个语音识别引擎对第一设备和第二设备分别进行语音拾取的第一音频文件和第二音频文件进行语音识别，得到与多个语音识别引擎对应的识别正确率，进而根据所述第一音频文件的多个识别正确率和所述第二音频文件的多个识别正确率对所述第一设备和第二设备的拾音性能进行评价，因此本发明所述系统可以实现对远场拾音系统中用于声音拾取的不同音响设备的拾音性能进行客观、正确地测试评价。

图4为本申请又一实施例提供的远场拾音性能评价方法的流程示意图，对图3所示的远场拾音性能评价系统的具体实现方式进行详细的说明，如图4所示，包括：

301、在预设的环境信息下，分别获取第一设备和第二设备对同一个语音播放的原始文本文件进行语音拾取得到的第一音频文件和第二音频文件；

具体地，第一设备和第二设备可以是不同厂商生成的拾音设备(如音箱)，为了后续可以客观正确地对不同拾音设备的拾音性能进行评价，本发明实施例可以提前预设多个环境信息，需要说明的是，将原始文本文件进行语音播放的时候是基于同一个环境信息下，这样，第一音频文件和第二音频文件是第一设备和第二设备基于同一个环境信息下对同一个原始文本文件进行语音播放时进行语音拾取得到的。

302、通过多个语音识别引擎分别对所述第一音频文件和第二音频文件进行语音识别，得到所述第一音频文件的多个识别正确率和所述第二音频文件的多个识别正确率；

本发明实施例中，为了方便用户对拾音设备拾音效果的测试，本申请的远场拾音性能评价的计算程序中设计了可以统一调用多个语音识别引擎的接口。

通过该调用接口可以进行如下设置操作：

(1)设置语音(简体中文、繁体中文、英语等)；

(2)设置后端引擎；

(3)设置原始文本所在路径(可以支持批量文件处理)；

(4)设置原始wav音频文件所在路径；

(5)设置识别文本所在路径；

(6)设置识别率统计结果报表所在路径；

(7)开始运行；

具体地，通过多个语音识别引擎分别对所述第一音频文件和第二音频文件进行语音识别，分别得到与所述多个语音识别引擎一一对应的多个第一识别后的文本文件和多个第二识别后的文本文件；将所述多个第一识别后的文本文件和多个第二识别后的文本文件分别与所述原始文本文件进行对比，分别确定所述第一音频文件的多个识别正确率和第二音频文件的多个识别正确率。

303、根据所述第一音频文件的多个识别正确率和所述第二音频文件的多个识别正确率对所述第一设备和第二设备的拾音性能进行评价。

一种可选的实施方式中，步骤303包括：

根据所述第一音频文件的多个识别正确率，计算所述第一音频文件的平均识别正确率；根据所述第二音频文件的多个识别正确率，计算所述第二音频文件的平均识别正确率；根据所述第一音频文件的平均识别正确率和所述第二音频文件的平均识别正确率，评价所述第一设备和第二设备的拾音性能。以两个设备a和b为例，介绍远场拾音效果定性评价方案。

举例来说，在预设的噪音环境中，按照图2中的远场拾音性能评价方法，分别测量出设备a在接入的n个语音识别引擎中的正确率r1、r2、r3...rn，则计算得到设备a的识别正确率的平均值ra＝(r1+r2+….+rn)/n。同样，可以计算得到设备b的识别正确率平均值rb。评价ra和rb的大小，较大值的表示对应的设备在当前噪音环境下远场拾音效果较好。

由于不同的语音识别引擎的性能参数不同，对同一个环境信息下拾取的音频文件的语音识别的正确率也是不同的，本发明实施例采用平均识别正确率的方式是综合考虑到不同语音识别引擎的性能参数，这样才能真正客观正确地体现同一个环境信息下拾音设备的试音效果，进而才能客观正确地评价在同一个环境信息下不同拾音设备的拾音效果的评价。

需要说明的是，在进行语音播放的时候，可以预设多个播放环境，例如安静的播放环境和嘈杂的播放环境，语音拾取的结果自然也是不一样的；又例如，播放语言环境不同，语音拾取设备对不同语言播放拾音效果自然也是不同的，所以为了检测语音拾取设备的性能，需要检测语音拾取设备在不同播放环境下的语音拾取性能。

为此，本发明实施例中，预设的环境信息包括多个环境信息，对应地，所述第一音频文件包括与所述多个环境信息一一对应的多个第一音频文件，所述第二音频文件包括与所述多个环境信息一一对应的多个第二音频文件，所述第一音频文件的平均识别正确率与环境信息一一对应，所述第二音频文件的平均识别正确率与环境信息一一对应。

举例来说，由于不同设备的降噪效果不同，噪音环境也影响了拾音效果，因此，可采用下述方式评价设备a和设备b的降噪效果：

预设多组噪音环境(如低噪音、中噪音、高噪音)，分别在这几组环境下重复进行上述图2所示的评价测试，可以综合评价在不同噪音环境下两个设备的远场拾音效果好坏。如果设备a的效果都好于设备b，那么就可以认为设备a的远场拾音效果比设备b好；如果，设备a在低噪音的拾音效果评价好，在高噪音的识别效果评价差，则说明设备a的降噪效果不如设备b，在低噪音时设备a的效果好，在高噪音时设备b的效果好；反之亦然。

因此，本发明实施例还可以根据所述第一音频文件的平均识别正确率和所述第二音频文件的平均识别正确率以及各自对应的环境信息，评价在不同环境信息下所述第一设备和第二设备的拾音性能。

图5为本申请一实施例提供的一种电子设备的结构示意图，如图5所示，包括：处理器和存储器，其中，所述存储器中存储有支持所述远场拾音性能评价方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序；

所述电子设备还包括：引擎调用接口，用于调用多个语音识别引擎分别对拾音设备拾音得到的音频文件进行语音识别；

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理器调用执行；

当所述处理器执行所述存储器中存储的程序时，包括：

在预设的环境信息下，分别获取拾音设备对语音播放的原始文本文件进行语音拾取得到的音频文件；

通过引擎调用接口调用多个语音识别引擎分别对所述音频文件进行语音识别，得到所述音频文件的多个识别正确率和；

根据所述音频文件的多个识别正确率对所述拾音设备的拾音性能进行评价。

可选地，当所述处理器通过引擎调用接口调用多个语音识别引擎分别对所述音频文件进行语音识别时包括：

通过多个语音识别引擎分别对所述音频文件进行语音识别，分别得到与所述多个语音识别引擎一一对应的多个识别后的文本文件；

将所述多个识别后的文本文件分别与所述原始文本文件进行对比，分别确定所述音频文件的多个识别正确率。

可选地，当所述处理器根据所述音频文件的多个识别正确率对所述拾音设备的拾音性能进行评价时包括：

根据所述音频文件的多个识别正确率，计算所述音频文件的平均识别正确率；

根据所述音频文件的平均识别正确率，评价所述拾音设备的拾音性能。

可选地，当所述处理器执行所述存储器中存储的程序时，还包括：

根据所述音频文件的平均识别正确率以及对应的环境信息，评价在不同环境信息下所述拾音设备的拾音性能。

本发明实施例所述的电子设备可以执行上述实施例所述的远场拾音性能评价方法，其实现原理和技术效果不再赘述。

本发明实施例还提供了一种计算机存储介质，用于储存远场拾音性能评价方法所用的计算机软件指令，所述计算机软件指令包含了用于执行上述远场拾音性能评价方法所涉及的程序。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：熊亨;戴天荣;蔡磊
技术所有人：歌尔股份有限公司
我是此专利的发明人

上一篇：一种多功能拍摄支架的制作方法与工艺
上一篇：一种基于压缩感知的语音信号重构方法与流程