一种语音数据采集方法、装置、设备及存储介质与流程

文档序号：16979880发布日期：2019-02-26 19:24阅读：178来源：国知局

本发明涉及数据采集技术领域，特别是涉及一种语音数据采集方法、装置、设备及存储介质。

背景技术：

随着对信息安全的关注程度的提高，声纹识别技术逐渐发展起来。在声纹数据库的建设过程中，声纹识别模型的训练过程中，都需要采集大量的语音样本数据。

目前，多是通过手机、平板电脑、笔记本电脑等终端进行语音样本数据的采集。为了能够采集到有效的语音样本数据，避免采集结束后对无效语音的筛选和剔除工作，在采集语音样本数据过程中会增加语音活动检测，即vad，全称为voiceactivitydetection，又称为语音端点检测，语音边界检测，是指在噪声环境中检测语音的存在与否。不同移动终端使用相同的语音活动检测标准。

但是，因为不同终端的麦克风音质不同，录制出来的音频效果也不同，使用同样的语音活动检测标准对语音样本数据进行检测，对于有的终端，可能会使得大量的语音样本数据被剔除，增加采集工作量，影响采集效率。

技术实现要素：

本发明的目的是提供一种语音数据采集方法、装置、设备及存储介质，以减少采集工作量，提高采集效率。

为解决上述技术问题，本发明提供如下技术方案：

一种语音数据采集方法，包括：

接收用户的语音数据采集触发指令；

采集所述用户的语音测试数据；

对所述语音测试数据进行语音活动检测，获得各个语音指标的检测结果；

调整检测结果不通过的语音指标对应的参数阈值；

重复执行所述采集所述用户的语音测试数据的步骤，直至各个语音指标的检测结果均通过时，保存调整后的参数阈值；

在采集所述用户的语音样本数据的过程中，使用调整后的参数阈值对每个语音样本数据进行语音活动检测。

在本发明的一种具体实施方式中，在所述对所述语音测试数据进行语音活动检测之前，还包括：

确定各个语音指标对应的参数阈值是否为默认值；

如果否，则将各个语音指标对应的参数阈值调整为默认值。

在本发明的一种具体实施方式中，在所述接收用户的语音数据采集触发指令之后、所述采集所述用户的语音测试数据之前，还包括：

输出测试提示信息。

在本发明的一种具体实施方式中，所述语音指标包括能量值、信噪比和有效人声。

在本发明的一种具体实施方式中，所述调整检测结果不通过的语音指标对应的参数阈值，包括：

如果检测结果不通过的语音指标为能量值，则减小能量参数阈值。

在本发明的一种具体实施方式中，所述调整检测结果不通过的语音指标对应的参数阈值，包括：

如果检测结果不通过的语音指标为信噪比，则减小信噪比参数阈值。

在本发明的一种具体实施方式中，所述调整检测结果不通过的语音指标对应的参数阈值，包括：

如果检测结果不通过的语音指标为有效人声，则减小有效人声参数阈值。

一种语音数据采集装置，包括：

触发指令接收模块，用于接收用户的语音数据采集触发指令；

测试数据采集模块，用于采集所述用户的语音测试数据；

检测结果获得模块，用于对所述语音测试数据进行语音活动检测，获得各个语音指标的检测结果；

参数阈值调整模块，用于调整检测结果不通过的语音指标对应的参数阈值；

重复执行模块，用于重复执行所述采集所述用户的语音测试数据的步骤，直至各个语音指标的检测结果均通过时，触发参数阈值保存模块；

所述参数阈值保存模块，用于保存调整后的参数阈值；

样本数据采集模块，用于在采集所述用户的语音样本数据的过程中，使用调整后的参数阈值对每个语音样本数据进行语音活动检测。

一种语音数据采集设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一项所述语音数据采集方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述语音数据采集方法的步骤。

应用本发明实施例所提供的技术方案，在接收到用户的语音数据采集触发指令时，可以对采集到的用户的语音测试数据进行语音活动检测，获得各个语音指标的检测结果，并调整检测结果不通过的语音指标对应的参数阈值，重复执行采集、检测步骤，直至各个语音指标的检测结果均通过时，保存调整后的参数阈值，在采集用户的语音样本数据的过程中，使用调整后的参数阈值对每个语音样本数据进行语音活动检测。通过调整参数阈值达到终端的最佳录制效果，保证通过不同终端都能采集到有效的语音样本数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种语音数据采集方法的实施流程图；

图2为本发明实施例中一种语音数据采集装置的结构示意图；

图3为本发明实施例中一种语音数据采集设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的核心是提供一种语音数据采集方法，该方法可以应用于手机、平板电脑、台式机、笔记本电脑等终端，终端在接收到用户的语音数据采集触发指令时，可以采集用户的语音测试数据，对语音测试数据进行语音活动检测，通过检测结果调整相应参数阈值，并在采集用户的语音样本数据的过程中，使用调整后的参数阈值对语音样本数据进行语音活动检测，通过调整参数阈值达到终端的最佳录制效果，保证通过不同终端都能采集到有效的语音样本数据。

具体的，终端可以自动对语音活动检测的参数阈值进行上述处理操作，还可以通过终端中的某一应用程序进行上述处理操作，比如通过录音应用程序进行上述处理操作。为方便描述，对本发明实施例中各步骤的说明均在终端角度进行相应描述。

参见图1所示，为本发明实施例所提供的一种语音数据采集方法的实施流程图，该方法可以包括以下步骤：

s110：接收用户的语音数据采集触发指令。

在实际应用中，用户可以通过终端进行语音数据的录制。当检测到用户进入语音活动检测参数配置页面时，可以视为接收到用户的语音数据采集触发指令，表明用户即将使用终端进行语音数据的录制。

接收到用户的语音数据采集触发指令后，可以继续执行步骤s120的操作。

s120：采集用户的语音测试数据。

在接收到用户的语音数据采集触发指令后，可以采集用户的语音测试数据。

具体的，可以先输出测试提示信息，提示用户以正常的语速、声音大小，在安静的环境中念一段话。在用户完成语音数据录制后，将该语音数据作为语音测试数据。

s130：对语音测试数据进行语音活动检测，获得各个语音指标的检测结果。

采集用户的语音测试数据后，可以对语音测试数据进行语音活动检测，具体检测方法为现有技术，本发明实施例对此不再赘述。

语音活动检测的语音指标包括能量值、信噪比和有效人声。

能量值即量化的声音大小；

信噪比为衡量一段音频中语音信号与噪声信号的能量比，即语音的干净程度；

有效人声为一段音频中包含人说话的语音部分。

对语音测试数据进行语音活动检测后，即可获得各个语音指标的检测结果。检测结果包括通过或不通过。

s140：调整检测结果不通过的语音指标对应的参数阈值。

对语音测试数据进行语音活动检测后，可获得各个语音指标的检测结果。针对每个语音指标，如果该语音指标的检测结果为通过，则表明该语音指标对应的参数阈值设置较为合理，如果该语音指标的检测结果为不通过，则可以调整该语音指标对应的参数阈值。各个语音指标对应的参数阈值的初始值可以是预先设定的具有较高评定标准的值。

具体的，如果检测结果不通过的语音指标为能量值，则可以减小能量参数阈值。

语音测试数据为采集到的用户以正常的语速、声音大小在安静的环境念的一段话，如果通过语音活动检测，确定能量值对应的语音指标检测不通过，则表明该语音指标对应的能量参数阈值可能设置的较大，可以减小能量参数阈值。具体的，可以输出提示信息，提示用户手动调整，或者按照设定间隔自动减小。如当前能量参数阈值为10，设定间隔为2，则可以将能量参数阈值减小到8。

如果检测结果不通过的语音指标为信噪比，则可以减小信噪比参数阈值。

如前所描述的，语音测试数据为采集到的用户以正常的语速、声音大小在安静的环境念的一段话，如果对语音测试数据进行语音活动检测，确定信噪比对应的语音指标检测不通过，则表明该语音指标对应的信噪比参数阈值可能设置的较大，可以减小信噪比参数阈值。具体的，可以输出提示信息，提示用户手动调整，或者按照设定间隔自动减小。如当前信噪比参数阈值为10，设定间隔为2，则可以将信噪比参数阈值减小到8。

如果检测结果不通过的语音指标为有效人声，则可以减小有效人声参数阈值。

如前所描述的，语音测试数据为采集到的用户以正常的语速、声音大小在安静的环境念的一段话，如果对语音测试数据进行语音活动检测，确定有效人声对应的语音指标检测不通过，则表明该语音指标对应的有效人声参数阈值可能设置的较大，可以减小有效人声参数阈值。具体的，可以输出提示信息，提示用户手动调整，或者按照设定间隔自动减小。如当前有效人声参数阈值为10秒，设定间隔为2秒，则可以将有效人声参数阈值减小到8秒。

调整检测结果不通过的语音指标对应的参数阈值后，可以重复执行步骤s120及其以下操作。

s150：在各个语音指标的检测结果均通过时，保存调整后的参数阈值。

对语音测试数据进行语音活动检测，获得各个语音指标的检测结果，如果存在检测结果不通过的语音指标，则调整该语音指标对应的参数阈值，重复采集、检测操作，如果各个语音指标的检测结果均通过，则可以保存最终调整后的参数阈值。

s160：在采集用户的语音样本数据的过程中，使用调整后的参数阈值对每个语音样本数据进行语音活动检测。

经过上述几个步骤的操作，对语音活动检测的各个语音指标对应的参数阈值进行相应调整后，在对语音测试数据进行语音活动检测时可以使得各个语音指标的检测结果均通过。

在采集用户的语音样本数据的过程中，可以使用调整后的参数阈值对每个语音样本数据进行语音活动检测，以筛选和剔除无效语音数据。

应用本发明实施例所提供的方法，在接收到用户的语音数据采集触发指令时，可以对采集到的用户的语音测试数据进行语音活动检测，获得各个语音指标的检测结果，并调整检测结果不通过的语音指标对应的参数阈值，重复执行采集、检测步骤，直至各个语音指标的检测结果均通过时，保存调整后的参数阈值，在采集用户的语音样本数据的过程中，使用调整后的参数阈值对每个语音样本数据进行语音活动检测。通过调整参数阈值达到终端的最佳录制效果，保证通过不同终端都能采集到有效的语音样本数据。

在本发明的一个实施例中，在对语音测试数据进行语音活动检测之前，该方法还可以包括以下步骤：

确定各个语音指标对应的参数阈值是否为默认值；

如果否，则将各个语音指标对应的参数阈值调整为默认值。

在本发明实施例中，在接收到用户的语音数据采集触发指令时，可以先确定语音活动检测的各个语音指标对应的参数阈值是否为默认值，该默认值可以是基于对较多终端的麦克风录音检测设定的一个经验值，还可以是与当前终端型号对应的预先设定的一个经验值。

如果是，则可以直接执行对语音测试数据进行语音活动检测的步骤，如果否，则可以先将各个语音指标对应的参数阈值调整为默认值，再执行对语音测试数据进行语音活动检测的步骤。以提高检测通过率。

本发明实施例可以对不同的终端进行语音活动检测参数阈值的调整，有效保证终端录制出来的语音符合采集标准。

相应于上面的方法实施例，本发明实施例还提供了一种语音数据采集装置，下文描述的一种语音数据采集装置与上文描述的一种语音数据采集方法可相互对应参照。

参见图2所示，该装置包括以下模块：

触发指令接收模块210，用于接收用户的语音数据采集触发指令；

测试数据采集模块220，用于采集用户的语音测试数据；

检测结果获得模块230，用于对语音测试数据进行语音活动检测，获得各个语音指标的检测结果；

参数阈值调整模块240，用于调整检测结果不通过的语音指标对应的参数阈值；

重复执行模块250，用于重复执行采集用户的语音测试数据的步骤，直至各个语音指标的检测结果均通过时，触发参数阈值保存模块260；

参数阈值保存模块260，用于保存调整后的参数阈值；

样本数据采集模块270，用于在采集用户的语音样本数据的过程中，使用调整后的参数阈值对每个语音样本数据进行语音活动检测。

应用本发明实施例所提供的装置，在接收到用户的语音数据采集触发指令时，可以对采集到的用户的语音测试数据进行语音活动检测，获得各个语音指标的检测结果，并调整检测结果不通过的语音指标对应的参数阈值，重复执行采集、检测步骤，直至各个语音指标的检测结果均通过时，保存调整后的参数阈值，在采集用户的语音样本数据的过程中，使用调整后的参数阈值对每个语音样本数据进行语音活动检测。通过调整参数阈值达到终端的最佳录制效果，保证通过不同终端都能采集到有效的语音样本数据。

在本发明的一种具体实施方式中，还包括默认值设置模块，用于：

在对语音测试数据进行语音活动检测之前，确定各个语音指标对应的参数阈值是否为默认值；

如果否，则将各个语音指标对应的参数阈值调整为默认值。

在本发明的一种具体实施方式中，还包括提示信息输出模块，用于：

在接收用户的语音数据采集触发指令之后、采集用户的语音测试数据之前，输出测试提示信息。

在本发明的一种具体实施方式中，语音指标包括能量值、信噪比和有效人声。

在本发明的一种具体实施方式中，参数阈值调整模块240，具体用于：

如果检测结果不通过的语音指标为能量值，则减小能量参数阈值。

在本发明的一种具体实施方式中，参数阈值调整模块240，具体用于：

如果检测结果不通过的语音指标为信噪比，则减小信噪比参数阈值。

在本发明的一种具体实施方式中，参数阈值调整模块240，具体用于：

如果检测结果不通过的语音指标为有效人声，则减小有效人声参数阈值。

相应于上面的方法实施例，本发明实施例还提供了一种语音数据采集设备，如图3所示，包括：

存储器310，用于存储计算机程序；

处理器320，用于执行计算机程序时实现上述语音数据采集方法的步骤。

相应于上面的方法实施例，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述语音数据采集方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：舒涛;段旭恒
技术所有人：广州势必可赢网络科技有限公司
我是此专利的发明人