一种模型更新方法及装置与流程

文档序号：24879989发布日期：2021-04-30 12:58阅读：83来源：国知局

本申请涉及语音识别领域，具体而言，涉及一种模型更新方法及装置。

背景技术：

随着语音技术的发展，越来越多的智能设备上搭载了语音功能，如：语音识别、声纹识别、声纹认证、语音转录等，而针对语音功能的攻击方式也随之层出不穷。

现有技术中，为了识别针对语音功能的攻击，设备厂商会在智能设备上部署语音检测模型，通过语音检测模型实现对针对语音功能的攻击的检测。但是，设备厂商统一训练的通用模型缺乏对不同使用环境或不同说话人的足够泛化性，在训练数据未涵盖到的场景下可能出现模型性能欠佳的情况。也就是说，现有技术中设备厂商部署在智能设备上的语音通用检测模型的识别率较低。

技术实现要素：

本申请实施例的目的在于提供一种模型更新方法及装置，用以解决设备厂商部署在智能设备上的语音通用检测模型的识别率较低的技术问题。

为了实现上述目的，本申请实施例所提供的技术方案如下所示：

第一方面，本申请实施例提供一种模型更新方法，应用于设备端，包括：获取语音数据；利用部署在本地的语音检测模型对所述语音数据进行检测，以判断所述语音数据为第一类型语音或者第二类型语音；根据判断结果确定所述语音数据对应的标签，并存储所述语音数据以及所述标签作为样本数据，以根据所述样本数据对所述语音检测模型以及部署在服务器上的语音通用活体检测模型进行更新。在上述方案中，设备端在部署语音检测模型之后，会采集该语音检测模型检测的语音数据以及对应的检测结果作为训练样本，进一步的对本地的语音检测模型以及服务器的语音通用活体检测模型进行更新。由于设备端采集的训练样本包含使用场景以及说话人的特性，因此，利用上述训练样本对模型训练可以得到更适应当前使用环境、识别率更强的语音检测模型。

在本申请的可选实施例中，所述根据判断结果确定所述语音数据对应的标签，包括：判断所述判断结果是否表征所述语音检测模型对所述语音数据的检测不准确；若所述判断结果表征所述语音检测模型对所述语音数据的检测准确，则确定所述标签为表征第一类型语音的标签或者第二类型语音的标签。在上述方案中，设备端在得到判断结果之后，若判断上述判断结果表征本地的语音检测模型对所述语音数据的检测准确，则可以直接根据判断结果确定语音数据的标签，从而可以利用确定的标签进一步的对本地的语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

在本申请的可选实施例中，所述判断所述判断结果是否表征所述语音检测模型对所述语音数据的检测不准确，包括：判断所述语音数据为所述第一类型语音或者所述第二类型语音的置信度是否大于预设阈值；若所述置信度大于所述预设阈值，则确定所述标签为表征所述第一类型语音的标签或者所述第二类型语音的标签。在上述方案中，设备端在得到判断结果之后，若判断语音数据为第一类型语音或者第二类型语音的置信度大于预设阈值，则可以直接根据判断结果确定语音数据的标签，从而可以利用确定的标签进一步的对本地的语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

在本申请的可选实施例中，在所述判断所述判断结果是否表征所述语音检测模型对所述语音数据的检测不准确之后，所述方法还包括：若所述判断结果表征所述语音检测模型对所述语音数据的检测不准确，则输出交互信息以核实所述语音数据为第一类型语音或者第二类型语音；接收根据所述交互信息返回的核实结果，并根据所述核实结果确定所述标签。在上述方案中，设备端在得到判断结果之后，若判断上述判断结果表征本地的语音检测模型对所述语音数据的检测不准确，则可以与用户交互辅助判断语音数据的类型，并采集语音数据以及用户判断结果，从而进一步的对语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

在本申请的可选实施例中，在所述存储所述语音数据以及所述标签作为样本数据之后，所述方法还包括：在存储的样本数据的数量超过预设计数阈值时，利用所述存储的样本数据对所述语音检测模型进行更新，并清零所述存储的样本数据的数量。在上述方案中，当存储的样本数据的数量超过预设技术阈值后对语音检测模型进行更新，从而在降低运算量的基础上得到更适应当前使用环境、识别率更强的语音检测模型。

在本申请的可选实施例中，在所述存储所述语音数据以及所述标签作为样本数据之后，所述方法还包括：向所述服务器发送所述样本数据。在上述方案中，设备端可以将采集的样本数据发送给服务器，以使服务器可以对语音通用活体检测模型进行更新，以得到识别率更强的语音通用检测模型。

在本申请的可选实施例中，所述第一类型语音为真人语音，所述第二类型语音为非真人语音。在上述方案中，语音检测模型可以进行活体检测，以判断语音数据为真人语音还是非真人语音。

第二方面，本申请实施例提供一种模型更新方法，应用于服务器，包括：接收设备端发送的样本数据；根据所述样本数据对存储的语音通用检测模型进行更新。在上述方案中，服务器可以接收设备端采集的样本数据，从而可以对语音通用活体检测模型进行更新，以得到识别率更强的语音通用检测模型。

在本申请的可选实施例中，在所述接收设备端发送的样本数据之前，所述方法还包括：获取语料库；利用所述语料库对预先建立好的机器学习模型进行训练，得到训练好的所述语音通用检测模型；向所述设备端发送所述语音通用检测模型，以使所述设备端部署所述语音通用检测模型并对所述语音通用检测模型进行自更新。在上述方案中，服务器可以利用语料库预先训练得到语音通用检测模型，并将语音通用检测模型下发给各个设备端，以使设备端可以利用语音通用检测模型进行语音检测。

第三方面，本申请实施例提供一种模型更新装置，应用于设备端，包括：第一获取模块，用于获取语音数据；检测模块，用于利用部署在本地的语音检测模型对所述语音数据进行检测，以判断所述语音数据为第一类型语音或者第二类型语音；确定模块，用于根据判断结果确定所述语音数据对应的标签，并存储所述语音数据以及所述标签作为样本数据，以根据所述样本数据对所述语音检测模型以及部署在服务器上的语音通用活体检测模型进行更新。在上述方案中，设备端在部署语音检测模型之后，会采集该语音检测模型检测的语音数据以及对应的检测结果作为训练样本，进一步的对本地的语音检测模型以及服务器的语音通用活体检测模型进行更新。由于设备端采集的训练样本包含使用场景以及说话人的特性，因此，利用上述训练样本对模型训练可以得到更适应当前使用环境、识别率更强的语音检测模型。

在本申请的可选实施例中，所述确定模块还用于：判断所述判断结果是否表征所述语音检测模型对所述语音数据的检测不准确；若所述判断结果表征所述语音检测模型对所述语音数据的检测准确，则确定所述标签为表征第一类型语音的标签或者第二类型语音的标签。在上述方案中，设备端在得到判断结果之后，若判断上述判断结果表征本地的语音检测模型对所述语音数据的检测准确，则可以直接根据判断结果确定语音数据的标签，从而可以利用确定的标签进一步的对本地的语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

在本申请的可选实施例中，所述确定模块还用于：判断所述语音数据为所述第一类型语音或者所述第二类型语音的置信度是否大于预设阈值；若所述置信度大于所述预设阈值，则确定所述标签为表征所述第一类型语音的标签或者所述第二类型语音的标签。在上述方案中，设备端在得到判断结果之后，若判断语音数据为第一类型语音或者第二类型语音的置信度大于预设阈值，则可以直接根据判断结果确定语音数据的标签，从而可以利用确定的标签进一步的对本地的语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

在本申请的可选实施例中，所述装置还包括：输出模块，用于若所述判断结果表征所述语音检测模型对所述语音数据的检测不准确，则输出交互信息以核实所述语音数据为第一类型语音或者第二类型语音；第二接收模块，用于接收根据所述交互信息返回的核实结果，并根据所述核实结果确定所述标签。在上述方案中，设备端在得到判断结果之后，若判断上述判断结果表征本地的语音检测模型对所述语音数据的检测不准确，则可以与用户交互辅助判断语音数据的类型，并采集语音数据以及用户判断结果，从而进一步的对语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

在本申请的可选实施例中，所述装置还包括：第二更新模块，用于在存储的样本数据的数量超过预设计数阈值时，利用所述存储的样本数据对所述语音检测模型进行更新，并清零所述存储的样本数据的数量。在上述方案中，当存储的样本数据的数量超过预设技术阈值后对语音检测模型进行更新，从而在降低运算量的基础上得到更适应当前使用环境、识别率更强的语音检测模型。

在本申请的可选实施例中，所述装置还包括：第一发送模块，用于向所述服务器发送所述样本数据。在上述方案中，设备端可以将采集的样本数据发送给服务器，以使服务器可以对语音通用活体检测模型进行更新，以得到识别率更强的语音通用检测模型。

第四方面，本申请实施例提供一种模型更新装置，应用于服务器，包括：第一接收模块，用于接收设备端发送的样本数据；第一更新模块，用于根据所述样本数据对存储的语音通用检测模型进行更新。在上述方案中，服务器可以接收设备端采集的样本数据，从而可以对语音通用活体检测模型进行更新，以得到识别率更强的语音通用检测模型。

在本申请的可选实施例中，所述装置还包括：第二获取模块，用于获取语料库；训练模块，用于利用所述语料库对预先建立好的机器学习模型进行训练，得到训练好的所述语音通用检测模型；第二发送模块，用于向所述设备端发送所述语音通用检测模型，以使所述设备端部署所述语音通用检测模型并对所述语音通用检测模型进行自更新。在上述方案中，服务器可以利用语料库预先训练得到语音通用检测模型，并将语音通用检测模型下发给各个设备端，以使设备端可以利用语音通用检测模型进行语音检测。

第五方面，本申请实施例提供一种电子设备，包括：处理器、存储器和总线；所述处理器和所述存储器通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如第一方面或者第二方面中的模型更新方法。

第六方面，本申请实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如第一方面或者第二方面中的模型更新方法。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举本申请实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的语音通用检测模型训练方法的流程图；

图2为本申请实施例提供的语音检测模型更新方法的流程图；

图3为本申请实施例提供的语音通用检测模型更新方法的流程图；

图4为本申请实施例提供的一种应用于设备端的模型更新装置的结构框图；

图5为本申请实施例提供的一种应用于服务器的模型更新装置的结构框图；

图6为本申请实施例提供的一种电子设备的结构框图。

具体实施方式

随着语音技术的发展，越来越多的智能设备上搭载了多种语音功能，例如：语音识别功能、声纹识别功能、声纹认证功能、语音转录功能等。其中，语音转录功能是指用户只需口头说出语音内容，智能设备便能准确而完整地将用户语音以文字形式记录下来并保存；而声纹识别技术是使智能设备能够根据声音对说话人的身份进行辨别或认证，为用户提供了一种方便快捷的身份认证方式。

通过将语音识别功能、声纹识别功能与自然语言处理等人工智能技术相结合，诞生了可运行在各种智能设备(例如：智能电视、智能手机、智能音箱等)中的智能语音助手。用户不仅能以自然对话的方式向语音助手询问天气、交通等基本信息，甚至可以通过语音口令实现网上购物与支付。此外，为了给用户提供更个性化的服务，智能语音助手也具有获取到用户的姓名、住址、银行卡等隐私信息的权限。因此，智能语音助手也成为了攻击者的一大目标，多种试图仿冒真实用户身份的攻击方式层出不穷。仿冒真实用户身份的攻击方式可分为声音模仿、语音合成、语音转换以及录音重放攻击四大类。

以录音重放攻击为例，录音重放攻击是指将真实用户的语音用录音设备录制下来，对智能设备播放用户录音，以达到让智能设中的认证系统将扬声器播放的录音误认为是真实用户的攻击目的。在现有技术中，尽管多种重放检测方法已经取得了不错的成果，但是语音重放检测在实际使用过程中仍然存在不少问题。例如：数据集和数据量较少，导致语音重放检测的泛化性差、性能不及预期；不同录音设备和播放设备导致的语音重放检测的复杂性较高等。

因此，为了识别针对语音功能的攻击，设备厂商会在智能设备上部署语音检测模型，通过语音检测模型实现对针对语音功能的攻击的检测。但是，设备厂商统一训练的通用模型同样缺乏对不同使用环境或不同说话人的足够泛化性，在训练数据未涵盖到的场景下可能出现模型性能欠佳的情况。也就是说，现有技术中设备厂商部署在智能设备上的语音通用检测模型的识别率较低。

基于上述分析，本申请实施例提供一种模型更新方法，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请实施例提供的模型更新方法分为三个部分：第一部分，服务器利用语料库训练得到语音通用检测模型；第二部分，设备端利用采集的语音数据对部署在本地的语音检测模型进行更新；第三部分，服务器利用设备端采集的语音数据对语音通用检测模型进行更新。

下面依次对上述三个部分进行详细的介绍。

请参照图1，图1为本申请实施例提供的语音通用检测模型训练方法的流程图，该语音通用检测模型训练方法应用于服务器，可以包括如下步骤：

步骤s101：服务器获取语料库。

步骤s102：服务器利用语料库对预先建立好的机器学习模型进行训练，得到训练好的语音通用检测模型。

步骤s103：服务器向设备端发送语音通用检测模型，以使设备端部署语音通用检测模型并对语音通用检测模型进行自更新。

首先，服务器可以获取语料库作为训练样本对预先建立好的机器学习模型进行训练，以得到训练好的语音通用检测模型，并将训练好的语音通用检测模型保存在服务器中。

其中，语料库可以包括语音检测公开数据集、服务商自建数据集以及针对特定音频硬件专门采集的语音数据等，本申请实施例对此不作具体的限定。举例来说，服务商可以采用目标音频采集设备在不同条件下采集正负样本，构建形成服务商自建数据集。此外，服务器中采用的机器学习模型的类型可以有多种，例如：高斯混合模型(gaussianmixturemodel，gmm)、支持向量机(supportvectormachine，svm)、深度神经网络(deepneuralnetworks，dnn)、卷积神经网络(convolutionalneuralnetworks，cnn)以及它们的变体等，本申请实施例对此同样不作具体的限定。

作为一种实施方式，由于不同的设备端中的音频采集装置不同，因此，为了使各种类型的设备端在接收到语音数据后都能对其进行较为准确的检测，可以针对不同类型的音频采集装置训练不同的语音通用检测模型。此外，为了进一步的增加训练数据的多样性，可以将与一种类型的音频采集装置特性相近的其他设备的语料库进行合并，获得数据量更大的训练样本。举例来说，录音参数相近的几个型号的麦克风可以共用一个语音通用检测模型，而与这几个型号的麦克风参数相差太大的麦克风可以另外再为其训练一个语音通用检测模型。

作为另一种实施方式，服务器进行模型训练的过程可以为：根据模型输入要求从语料库中的语音数据中提取相应的特征，例如：梅尔频率倒谱系数(melfrequencycepstrumcoefficient，mfcc)、常数q变换倒谱系数(constantqtransformcepstrumcoefficient，cqcc)、基于快速傅里叶变换的声谱图等。然后，基于已提取好的语音特征训练相应的模型，如混合高斯模型、支持向量机、卷积神经网络等。最后，可以对训练完成的模型进行性能测试，测试内容包括活体检测准确度、速度等，以得到需要的语音通用检测模型。

然后，服务器可以通过无线通信的方式，将训练好的语音通用检测模型发送给对应的设备端。其中，无线通信可以包括wi-fi通信、蓝牙通信、zigbee通信等方式，本申请实施例对此不作具体的限定。

此外，设备端中的语音通用检测模型除了可以通过服务器无线通信的方式发送，还可以在出厂前由厂商直接将语音通用检测模型拷贝到设备端中，本申请实施例对此同样不作具体的限定。

可以理解的是，当服务器中仅存在一种类型的训练好的语音通用检测模型，则服务器可以将该语音通用检测模型发送给所有连接的设备端；如果服务器中存在多种类型的训练好的语音通用检测模型，则服务器可以根据设备端中音频采集设备的参数信息，发送对应类型的训练好的语音通用检测模型。

设备端在接收到服务器发送的训练好的语音通用检测模型之后，可以将上述语音通用检测模型部署在本地并对该语音通用检测模型进行相应的配置，这样，每一个设备端上都部署有对应的语音检测模型。

需要说明的是，服务器可以在设备端出厂前发送训练好的语音通用检测模型，以使设备端在出厂前可以预先进行语音检测模型的部署；设备端也可以在激活后，从服务器下载训练好的语音通用检测模型并进行部署。本申请实施例对设备端上语音通用检测模型的部署时间不作具体的限定。

在上述方案中，服务器可以利用语料库预先训练得到语音通用检测模型，并将语音通用检测模型下发给各个设备端，以使设备端可以利用语音通用检测模型进行语音检测。

请参照图2，图2为本申请实施例提供的语音检测模型更新方法的流程图，该语音检测模型更新方法应用于设备端，可以包括如下步骤：

步骤s201：设备端获取语音数据。

步骤s202：设备端利用部署在本地的语音检测模型对语音数据进行检测，以判断语音数据为第一类型语音或者第二类型语音。

步骤s203：设备端根据判断结果确定语音数据对应的标签，并存储语音数据以及标签作为样本数据，以根据样本数据对语音检测模型以及部署在服务器上的语音通用活体检测模型进行更新。

设备端在部署完成语音检测模型之后，便可以对获取到的语音数据进行语音检测，检测的方式如下：

首先，设备端获取语音数据，然后可以利用上述语音检测模型对语音数据进行检测，以判断语音数据为第一类型语音或者第二类型语音。其中，设备端获取语音数据的方式有多种，例如：利用设备端中的音频采集装置采集用户说话的语音；或者，接收外部设备发送的语音数据等，本申请实施例对此不作具体的限定。

其中，设备端可以包括音频采集相关的硬件设备以及语音端点检测等算法。音频采集设备可包含多种形式的麦克风或麦克风阵列，将设备周围的声音信息最终转换成处理器能够处理的数字信号；语音端点检测算法可以从音频采集设备得到的语音信号中识别出语音能量较强的片段。

作为一种实施方式，语音检测模型可以用于活体检测，也就是说，第一类型语音为真人语音，第二类型语音为非真人语音。在这种情况下，当设备端中的音频采集装置采集到用户说话的语音时，语音检测模型输出的判断结果为真人语音；当设备端中的音频采集装置采集到录音重放的语音时，语音检测模型输出的判断结果为非真人语音，从而实现对录音重放攻击的检测。

根据语音检测模型输出的判断结果，可以给每一条语音数据打上对应的标签，并存储每一条语音数据以及标签，作为新的样本数据。

可以理解的是，上述步骤s203中的判断结果有以下两种情况：第一种，判断结果为语音数据为第一类型语音，此时，可以确定标签为表征第一类型语音的标签；第二种，判断结果为语音数据为第二类型语音，此时，可以确定标签为表征第二类型语音的标签。

以第一类型为真人语音、第二类型为非真人语音为例，当语音检测模型输出的判断结果为真人语音时，该条语音数据被打上真人语音的标签，作为正样本存储；当语音检测模型输出的判断结果为非真人语音时，该条语音数据被打上非真人语音的标签，作为负样本存储。这样，形成了正负样本，可以利用存储的样本数据对设备端的语音检测模型以及服务器的语音通用检测模型进行优化更新。

可以理解的是，第一类型语音为真人语音且第二类型语音为非真人语音仅为本申请实施例提供的一个示例，第一类型语音及第二类型语音还可以有其他多种情况，例如：第一类型语音为男用户的语音且第二类型语音为女用户的语音等，本申请实施例对此不作具体的限定，本领域技术人员可以根据实际情况进行合适的调整。

在上述方案中，当部署在设备端本地的语音检测模型检测到语音数据为第一类型语音或者第二类型语音时，采集语音数据以及表征第一类型语音或者第二类型语音的标签，从而进一步的对本地的语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

在此基础上，作为一种实施方式，在得到判断结果之后，判断结果可能存在两种情况：第一种，判断结果表征语音检测模型对语音数据的检测准确；第二种，判断结果表征语音检测模型对语音数据的检测不准确。

针对上述第一种情况，上述步骤s203可以包括如下步骤：

第一步，判断判断结果是否表征语音检测模型对语音数据的检测不准确。

第二步，若判断结果表征语音检测模型对语音数据的检测准确，则确定标签为表征第一类型语音的标签或者第二类型语音的标签。

以语音检测模型为高斯混合模型为例，其输出的判断结果为一个概率值，当概率值大于0.5时可以认为判断结果为第一类型语音，当概率值小于0.5时可以认为判断结果为第二类型语音。此时，若判断结果表征语音检测模型对语音数据的检测准确，则说明当前语音数据能够被准确分类为第一类型语音或者第二类型语音。

作为一种实施方式，上述判断判断结果是否表征语音检测模型对语音数据的检测不准确的步骤可以包括如下步骤：

第一步，判断语音数据为第一类型语音或者第二类型语音的置信度是否大于预设阈值。

第二步，若置信度大于预设阈值，则确定标签为表征第一类型语音的标签或者第二类型语音的标签。

可以理解的是，在高斯混合模型中，置信度等同于概率值。也就是说，当概率值大于一个预设阈值时，可以认为判断结果表征语音检测模型对语音数据的检测准确。例如：当概率值大于0.5且大于0.8时可以认为判断结果为第一类型语音且判断结果准确，当概率值小于0.5且小于0.2时可以认为判断结果为第二类型语音且判断结果准确。

再以语音检测模型为深度学习模型为例，其输出的判断结果为分别对应两种语音类型的两个概率值，当第一类型语音的概率值大于第二类型语音的概率值时可以认为判断结果为第一类型语音，当第一类型语音的概率值小于第二类型语音的概率值时可以认为判断结果为第二类型语音。此时，若判断结果表征语音检测模型对语音数据的检测准确，则说明当前语音数据能够被准确分类为第一类型语音或者第二类型语音。

作为一种实施方式，上述判断判断结果是否表征语音检测模型对语音数据的检测不准确的步骤可以包括如下步骤：

第一步，判断语音数据为第一类型语音或者第二类型语音的概率值是否大于预设阈值。

第二步，若概率值大于预设阈值，则确定标签为表征第一类型语音的标签或者第二类型语音的标签。

也就是说，当第一类型语音或者第二类型语音的概率值大于一个预设阈值时，可以认为判断结果表征语音检测模型对语音数据的检测准确。例如：当深度学习模型的输出结果中对应第一类型语音的概率值大于0.5且大于0.8时可以认为判断结果为第一类型语音且判断结果准确，当输出结果中对应第二类型语音的概率值大于0.5且大于0.8时可以认为判断结果为第二类型语音且判断结果准确。

在上述方案中，设备端在得到判断结果之后，若判断上述判断结果表征本地的语音检测模型对所述语音数据的检测准确，则可以直接根据判断结果确定语音数据的标签，从而可以利用确定的标签进一步的对本地的语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

针对上述第二种情况，上述步骤s203可以包括如下步骤：

第一步，判断判断结果是否表征语音检测模型对语音数据的检测不准确。

第二步，若判断结果表征语音检测模型对语音数据的检测不准确，则输出交互信息以核实语音数据为第一类型语音或者第二类型语音。

第三接收根据所述交互信息返回的核实结果，并根据所述核实结果确定所述标签。

与上述第一种类型的实现方式类似，若判断结果表征语音检测模型对语音数据的检测不准确，则说明当前语音数据不能够被准确分类为第一类型语音或者第二类型语音。

在该种情况下，设备端可以输出交互信息以核实语音数据为第一类型语音或者第二类型语音。作为一种实施方式，设备端可以在屏幕上显示提示信息，用户可以选择语音数据为第一类型语音还是第二类型语音；或者，设备端可以在屏幕上就判断结果的正确性询问用户，用户可以选择正确或者错误等，本申请实施例对此同样不作具体的限定。

然后，由于判断结果表征语音检测模型对语音数据的检测不准确的语音数据中可能包含了当前物理环境中的个性化特征，因此，这些样本或特征在后续模型更新的过程中，可以加大权重。

其中，上述判断判断结果是否表征语音检测模型对语音数据的检测不准确的步骤与判断判断结果是否表征语音检测模型对语音数据的检测不准确的步骤的实现方式类似，此处不再赘述。

在上述方案中，设备端在得到判断结果之后，若判断上述判断结果表征本地的语音检测模型对所述语音数据的检测不准确，则可以与用户交互辅助判断语音数据的类型，并采集语音数据以及用户判断结果，从而进一步的对语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

在存储语音数据以及对应的标签作为样本数据之后，作为一种实施方式，设备端可以立即使用样本数据对本地的语音检测模型进行更新；作为另一种实施方式，设备端可以在存储的样本数据的数量超过预设计数阈值时，利用存储的样本数据对语音检测模型进行更新，并清零存储的样本数据的数量。

需要说明的是，根据语音检测模型的类别，可选择相应的模型更新方法。例如：若语音检测模型为混合高斯模型，则可以通过最大似然线性回归(maximumlikelihoodlinearregression，mllr)算法或最大后验概率(maximumaposteriori，map)算法利用新的样本数据调整原有模型中的部分参数，使得自适应后的模型更加贴合新数据的分布；若语音检测模型为深度学习模型，可以通过增量学习、迁移学习等相关方法调整网络中的部分参数，以实现对实际应用环境中的语音数据进行更加准确的辨别。

因此，当存储的样本数据的数量超过预设计数阈值后对语音检测模型进行更新，从而在降低运算量的基础上得到更适应当前使用环境、识别率更强的语音检测模型。

进一步的，本申请实施例提供的模型更新方法还可以包括如下步骤：

向服务器发送样本数据。

各个设备端存储的样本数据，可以发送给服务器，以使服务器利用接收到的样本数据对语音通用检测模型进行优化更新。

在上述方案中，设备端可以将采集的样本数据发送给服务器，以使服务器可以对语音通用活体检测模型进行更新，以得到识别率更强的语音通用检测模型。

请参照图3，图3为本申请实施例提供的语音通用检测模型更新方法的流程图，该语音通用检测模型更新方法应用于服务器，可以包括如下步骤：

步骤s301：服务器接收设备端发送的样本数据。

步骤s303：服务器根据样本数据对存储的语音通用检测模型进行更新。

服务器可以接收各个设备端发送的样本数据，并利用样本数据对语音通用检测模型进行更新。与上述实施例类似，服务器可以立即使用样本数据对语音通用检测模型进行更新；作为另一种实施方式，服务器可以在存储的样本数据的数量超过预设计数阈值时，利用存储的样本数据对语音通用检测模型进行更新，并清零存储的样本数据的数量。

其中，服务器接收的设备端发送的样本数据有多种情况，例如：设备端可以仅将置信度低于预设阈值的语音数据发送给服务器，也可以将所有语音数据发送给服务器；设备端可以直接将语音数据发送给服务器，也可以将根据语音数据提取的特征直接发送给服务器；设备端还可以将样本数据加密后发送给服务器等，本申请实施例对此不作具体的限定。

作为一种实施方式，服务器和各个设备端都生成了各自的公私钥对(例如：通过rsa算法生成)，也就是说，设备端拥有服务器的公钥，而服务器拥有每个设备端的公钥，私钥由服务器和各个设备端自行保管。当服务器与某一设备端间需要进行任意方向的数据传输时，将待发送的数据从发送方存储模块中取出并用接收方的公钥进行加密，通过加密信道将数据传递至接收方并保存于接收方的存储模块中，接收方获取到数据后再用自己的私钥对数据进行解密，从而得到原始数据。因此，可以实现数据传输的高效性和安全性。

可以理解的是，设备端发送给服务器的数据除了样本数据之外，还可以包括用户辅助判断的标签、设备端所使用的音频设备型号、设备端所处环境的相关参数(如噪声水平、室内混响水平等)，本申请实施例对此不作具体的限定。

服务器上的语音通用检测模型更新完成后，可以将更新完成的语音通用检测模型发送给最新使用的设备端或者实际语音检测性能严重下降的设备端上。当然，当在对某一特定类型的音频采集装置的样本数据数积累到一定数量后，可用于重新训练一个语音通用检测模型，以替换服务器中原有的语音通用检测模型。

在上述方案中，服务器可以接收设备端采集的样本数据，从而可以对语音通用活体检测模型进行更新，以得到识别率更强的语音通用检测模型。

请参照图4，图4为本申请实施例提供的一种应用于设备端的模型更新装置的结构框图，该模型更新装置400可以包括：第一获取模块401，用于获取语音数据；检测模块402，用于利用部署在本地的语音检测模型对所述语音数据进行检测，以判断所述语音数据为第一类型语音或者第二类型语音；确定模块403，用于根据判断结果确定所述语音数据对应的标签，并存储所述语音数据以及所述标签作为样本数据，以根据所述样本数据对所述语音检测模型以及部署在服务器上的语音通用活体检测模型进行更新。

在本申请实施例中，设备端在部署语音检测模型之后，会采集该语音检测模型检测的语音数据以及对应的检测结果作为训练样本，进一步的对本地的语音检测模型以及服务器的语音通用活体检测模型进行更新。由于设备端采集的训练样本包含使用场景以及说话人的特性，因此，利用上述训练样本对模型训练可以得到更适应当前使用环境、识别率更强的语音检测模型。

进一步的，所述确定模块403还用于：判断所述判断结果是否表征所述语音检测模型对所述语音数据的检测不准确；若所述判断结果表征所述语音检测模型对所述语音数据的检测准确，则确定所述标签为表征第一类型语音的标签或者第二类型语音的标签。

在本申请实施例中，设备端在得到判断结果之后，若判断上述判断结果表征本地的语音检测模型对所述语音数据的检测准确，则可以直接根据判断结果确定语音数据的标签，从而可以利用确定的标签进一步的对本地的语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

进一步的，所述确定模块403还用于：判断所述语音数据为所述第一类型语音或者所述第二类型语音的置信度是否大于预设阈值；若所述置信度大于所述预设阈值，则确定所述标签为表征所述第一类型语音的标签或者所述第二类型语音的标签。

在本申请实施例中，设备端在得到判断结果之后，若判断语音数据为第一类型语音或者第二类型语音的置信度大于预设阈值，则可以直接根据判断结果确定语音数据的标签，从而可以利用确定的标签进一步的对本地的语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

进一步的，所述模型更新装置400还包括：输出模块，用于若所述判断结果表征所述语音检测模型对所述语音数据的检测不准确，则输出交互信息以核实所述语音数据为第一类型语音或者第二类型语音；第二接收模块，用于接收根据所述交互信息返回的核实结果，并根据所述核实结果确定所述标签。

在本申请实施例中，设备端在得到判断结果之后，若判断上述判断结果表征本地的语音检测模型对所述语音数据的检测不准确，则可以与用户交互辅助判断语音数据的类型，并采集语音数据以及用户判断结果，从而进一步的对语音检测模型以及服务器的语音通用活体检测模型进行更新，以得到更适应当前使用环境、识别率更强的语音检测模型。

进一步的，所述模型更新装置400还包括：第二更新模块，用于在存储的样本数据的数量超过预设计数阈值时，利用所述存储的样本数据对所述语音检测模型进行更新，并清零所述存储的样本数据的数量。

在本申请实施例中，当存储的样本数据的数量超过预设技术阈值后对语音检测模型进行更新，从而在降低运算量的基础上得到更适应当前使用环境、识别率更强的语音检测模型。

进一步的，所述模型更新装置400还包括：第一发送模块，用于向所述服务器发送所述样本数据。

在本申请实施例中，设备端可以将采集的样本数据发送给服务器，以使服务器可以对语音通用活体检测模型进行更新，以得到识别率更强的语音通用检测模型。

进一步的，所述第一类型语音为真人语音，所述第二类型语音为非真人语音。

在本申请实施例中，语音检测模型可以进行活体检测，以判断语音数据为真人语音还是非真人语音。

请参照图5，图5为本申请实施例提供的一种应用于服务器的模型更新装置的结构框图，该模型更新装置500可以包括：第一接收模块501，用于接收设备端发送的样本数据；第一更新模块502，用于根据所述样本数据对存储的语音通用检测模型进行更新。

在本申请实施例中，服务器可以接收设备端采集的样本数据，从而可以对语音通用活体检测模型进行更新，以得到识别率更强的语音通用检测模型。

进一步的，所述模型更新装置500还包括：第二获取模块，用于获取语料库；训练模块，用于利用所述语料库对预先建立好的机器学习模型进行训练，得到训练好的所述语音通用检测模型；第二发送模块，用于向所述设备端发送所述语音通用检测模型，以使所述设备端部署所述语音通用检测模型并对所述语音通用检测模型进行自更新。

在本申请实施例中，服务器可以利用语料库预先训练得到语音通用检测模型，并将语音通用检测模型下发给各个设备端，以使设备端可以利用语音通用检测模型进行语音检测。

请参照图6，图6为本申请实施例提供的一种电子设备的结构框图，该电子设备600包括：至少一个处理器601，至少一个通信接口602，至少一个存储器603和至少一个通信总线604。其中，通信总线604用于实现这些组件直接的连接通信，通信接口602用于与其他节点设备进行信令或数据的通信，存储器603存储有处理器601可执行的机器可读指令。当电子设备600运行时，处理器601与存储器603之间通过通信总线604通信，机器可读指令被处理器601调用时执行上述模型更新方法。

例如，本申请实施例的处理器601通过通信总线604从存储器603读取计算机程序并执行该计算机程序可以实现如下方法：步骤s101：服务器获取语料库。步骤s102：服务器利用语料库对预先建立好的机器学习模型进行训练，得到训练好的语音通用检测模型。在一些示例中，处理器601还可以执行如下步骤：步骤s201：设备端获取语音数据。步骤s202：设备端利用部署在本地的语音检测模型对语音数据进行检测，以判断语音数据为第一类型语音或者第二类型语音。步骤s203：设备端根据判断结果确定语音数据对应的标签，并存储语音数据以及标签作为样本数据，以根据样本数据对语音检测模型以及部署在服务器上的语音通用活体检测模型进行更新。

处理器601可以是一种集成电路芯片，具有信号处理能力。上述处理器601可以是通用处理器，包括中央处理器(centralprocessingunit，cpu)、网络处理器(networkprocessor，np)等；还可以是数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器603可以包括但不限于随机存取存储器(randomaccessmemory，ram)，只读存储器(readonlymemory，rom)，可编程只读存储器(programmableread-onlymemory，prom)，可擦除只读存储器(erasableprogrammableread-onlymemory，eprom)，电可擦除只读存储器(electricerasableprogrammableread-onlymemory，eeprom)等。

可以理解，图6所示的结构仅为示意，电子设备600还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。于本申请实施例中，电子设备600可以是，但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备，还可以是虚拟机等虚拟设备。另外，电子设备600也不一定是单台设备，还可以是多台设备的组合，例如服务器集群，等等。于本申请实施例中，模型更新方法中的设备端及服务器均可以采用图6示出的电子设备600实现。

本申请实施例还提供一种计算机程序产品，包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述实施例中模型更新方法的步骤，例如包括：获取语音数据；利用部署在本地的语音检测模型对所述语音数据进行检测，以判断所述语音数据为第一类型语音或者第二类型语音；根据判断结果确定所述语音数据对应的标签，并存储所述语音数据以及所述标签作为样本数据，以根据所述样本数据对所述语音检测模型以及部署在服务器上的语音通用活体检测模型进行更新。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡章一;彭恒进
技术所有人：四川虹微技术有限公司
我是此专利的发明人