语音测评方法、装置及电子设备与流程

文档序号：16394767发布日期：2018-12-25 19:41阅读：179来源：国知局

本发明涉及电子设备技术领域，尤其涉及一种语音测评方法、装置及电子设备。

背景技术

在儿童(包括幼儿)的学习过程中，口语学习占有举足轻重的地位，较好的口语能力可以帮助儿童提高与别人的沟通效率，因此，如何监测儿童的口语情况并提高其口语能力就显得尤为重要。

现有技术中，儿童的口语学习，通常需要家长或者老师的领读下进行。在需要对儿童的语音进行测评时，可以自动启动麦克风，但是这样在麦克风启动之后，所有的声音都会作为儿童的语音进行测评；或者在家长或者老师领读完成时手动启动麦克风，但是这样会因为麦克风启动不及时而错过待测试儿童的一部分语音，只能对后半部分的语音进行测评。

因此，采用上述测评方式，使得测评的准确度不高。

技术实现要素：

本发明实施例提供一种语音测评方法、装置及电子设备，以提高儿童语音测评的准确度。

第一方面，本发明实施例提供一种语音测评方法，所述方法包括：

获取m个待检测语音片段；m为正整数；

通过语音分类模型对所述m个待检测语音片段进行处理，得到目标对象的语音片段；

将所述目标对象的语音片段输入至语音测评模型中，得到所述目标对象的语音测评结果。

在一种可能的实现方式中，所述语音分类模型采用如下方式生成：

提取多个训练样本对应的第一特征向量，所述多个训练样本包括目标对象的语音信号和非目标对象的语音信号；

基于每个训练样本对应的第一特征向量和该训练样本对应的语音类型，采用深度学习算法进行训练，生成所述语音分类模型。

在一种可能的实现方式中，所述语音测评模型采用如下方式生成：

提取多个训练样本对应的第二特征向量，所述多个训练样本包括目标对象的语音信号和非目标对象的语音信号；

基于每个训练样本对应的第二特征向量和该训练样本对应的测评信息，采用深度学习算法进行训练，生成所述语音测评模型。

在一种可能的实现方式中，所述通过语音分类模型对所述m个待检测语音片段进行处理，得到所述目标对象的语音片段，包括：

通过语音分类模型，确定所述m个待检测语音片段分别对应的语音类型，所述语音类型包括目标对象和非目标对象；

根据所述m个待检测语音片段分别对应的语音类型，对所述m个待检测语音片段进行筛选处理，得到所述目标对象的语音片段。

在一种可能的实现方式中，所述将所述目标对象的待检测语音片段输入至语音测评模型中，得到所述目标对象的语音测评结果之后，所述方法还包括：

若所述目标对象的语音测评结果未达到预设条件，则提示重新输入待检测语音。

在一种可能的实现方式中，所述将所述目标对象的待检测语音片段输入至语音测评模型中，得到所述目标对象的语音测评结果之后，所述方法还包括：

根据所述目标对象的语音测评结果和设定的奖励机制，为所述目标对象分配对应的奖励。

在一种可能的实现方式中，所述获取m个待检测语音片段，包括：

获取输入的语音信号；

根据预设的静音时间长度，对所述语音信号进行划分，得到所述m个待检测语音片段。

在一种可能的实现方式中，所述获取m个待检测语音片段，包括：

获取输入的语音信号；

根据所述语音信号的特征信息，确定静音时间长度；

根据确定的静音时间长度，对所述语音信号进行划分，得到所述m个待检测语音片段。

第二方面，本发明实施例还提供一种语音测评装置，所述装置包括：

获取单元，用于获取m个待检测语音片段；m为正整数；

处理单元，用于通过语音分类模型对所述m个待检测语音片段进行处理，得到目标对象的语音片段；

测评单元，用于将所述目标对象的语音片段输入至语音测评模型中，得到所述目标对象的语音测评结果。

在一种可能的实现方式中，所述语音分类模型采用如下方式生成：

提取多个训练样本对应的第一特征向量，所述多个训练样本包括目标对象的语音信号和非目标对象的语音信号；并基于每个训练样本对应的第一特征向量和该训练样本对应的语音类型，采用深度学习算法进行训练，生成所述语音分类模型。

在一种可能的实现方式中，所述语音测评模型采用如下方式生成：

提取多个训练样本对应的第二特征向量，所述多个训练样本包括目标对象的语音信号和非目标对象的语音信号；

基于每个训练样本对应的第二特征向量和该训练样本对应的测评信息，采用深度学习算法进行训练，生成所述语音测评模型。

在一种可能的实现方式中，所述处理单元，具体用于通过语音分类模型，确定所述m个待检测语音片段分别对应的语音类型，所述语音类型包括目标对象和非目标对象；并根据所述m个待检测语音片段分别对应的语音类型，对所述m个待检测语音片段进行筛选处理，得到所述目标对象的语音片段。

在一种可能的实现方式中，所述装置还包括提示单元；

所述提示单元，用于若所述目标对象的语音测评结果未达到预设条件，则提示重新输入待检测语音。

在一种可能的实现方式中，所述处理单元，还用于根据所述目标对象的语音测评结果和设定的奖励机制，为所述目标对象分配对应的奖励。

在一种可能的实现方式中，所述获取单元，具体用于获取输入的语音信号；并根据预设的静音时间长度，对所述语音信号进行划分，得到所述m个待检测语音片段。

在一种可能的实现方式中，所述获取单元，具体用于获取输入的语音信号；并根据所述语音信号的特征信息，确定静音时间长度；再根据确定的静音时间长度，对所述语音信号进行划分，得到所述m个待检测语音片段。

第三方面，本发明实施例还提供一种电子设备，该电子设备包括处理器和存储器，其中，

所述存储器用于存储程序指令；

所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行上述第一方面任一项所示的语音测评方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行上述第一方面任一项所示的语音测评方法。

本发明实施例提供的语音测评方法、装置及电子设备，通过获取m个待检测语音片段，并通过语音分类模型对m个待检测语音片段进行处理，得到目标对象的语音片段；再将目标对象的语音片段输入至语音测评模型中，得到目标对象的语音测评结果。与现有技术相比，不是直接将获取到的m个待检测语音片段输入至语音测评模型中进行测评，而是先通过语音分类模型对m个待检测语音片段进行处理，筛除出待检测语音片段中的目标对象的语音片段，并再将该目标对象的语音片段输入至语音测评模型中，以得到该目标对象的语音测评结果，从而提高了目标对象语音测评的准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本发明实施例提供的一种应用场景图；

图2为本发明实施例提供的一种语音测评方法的流程示意图；

图3为本发明实施例提供的另一种语音测评方法的流程示意图；

图4为本发明实施例提供的又一种语音测评方法的流程示意图；

图5为本发明实施例提供的一种语音测评装置的结构示意图；

图6为本发明实施例提供的另一种语音测评装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例的一种可能的应用场景为：在通过智能设备对某一儿童的语音进行测评时，示例的，请参见图1所示，图1为本发明实施例提供的一种应用场景图，在获取到输入的语音信号之后，对该语音信号进行片段划分，然后基于语音分类模型对这些语音片段进行筛选，筛除非儿童语音片段，得到儿童语音片段，并只对筛除得到的儿童语音片段进行测评，从而得到该儿童的语音测评结果。

现有技术中，在对儿童的语音进行测评时，要么将采集到的所有的声音都作为儿童的语音进行测评；要么只能对儿童的后半部分的语音进行测评，从而使得测评的准确度不高。为了提高儿童语音测评的准确度，本发明实施例提供了一种语音测评方法，先获取m个待检测语音片段，并通过语音分类模型对m个待检测语音片段进行处理，得到目标对象的语音片段；再将目标对象的语音片段输入至语音测评模型中，得到目标对象的语音测评结果。与现有技术相比，不是直接将获取到的m个待检测语音片段输入至语音测评模型中进行测评，而是先通过语音分类模型对m个待检测语音片段进行处理，筛除出待检测语音片段中的目标对象的语音片段，并再将该目标对象的语音片段输入至语音测评模型中，以得到该目标对象的语音测评结果，从而提高了儿童语音测评的准确度。

下面以具体的实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明实施例提供的一种语音测评方法的流程示意图，该语音测评方法可以由语音测评装置执行，该语音测评方法可以独立设置，也可以集成在电子设备的内部。示例的，请参见图2所示，该语音测评方法可以包括：

s201、获取m个待检测语音片段。

其中，m为整数。

其中，m个待检测语音片段中包括目标对象的语音片段，当然，也可以包括非目标对象的语音片段。非目标对象的语音片段可以理解为其他对象的语音片段。例如，在对目标对象儿童的语音进行测评时，该非目标对象的语音片段可以为该儿童的家长或老师领读的语音片段。

可选的，在获取m个待检测语音片段时，可以通过智能设备的麦克风获取语音信号，再通过语音活动检测(voiceactivitydetection，简称vad)对语音信号进行分段，得到该m个待检测语音片段，也可以通过网络或者蓝牙等方式接收其他设备发送的语音信号，同样通过vad对语音信号进行分段，得到m个待检测语音片段，当然，本发明实施例只是以这两种可能的实现方式获取m个待检测语音片段为例进行说明，但并不代表本发明实施例仅局限于此。

在通过s201获取到m个待检测语音片段之后，就可以执行下述s202：

s202、通过语音分类模型对m个待检测语音片段进行处理，得到目标对象的语音片段。

可以理解的是，在通过语音分类模型对儿童语音片段进行筛选时，该语音分类模型输出的结果为输入的语音信号为成人语音或儿童语音的概率分布，例如，若语音分类模型输出的结果为语音信号为儿童语音的概率为70％，则可以认为该语音信号为儿童语音。

在本发明实施例中，正是考虑到现有技术中在对某一儿童的语音进行测评时，该测评的语音信号中会包括除了该儿童的语音信号之外的其他人或设备的领读语音，从而导致儿童语音测评结果准确度不高的问题，因此，在对目标对象的语音片段进行测评之前，先将获取到的m个待检测语音片段输入至语音分类模型，以通过该语音分类模型对m个待检测语音片段进行筛选处理，若通过该语音分类模型确定m个待检测语音片段中的某一语音片段属于非目标对象(如成人、设备等)的，则筛除该语音片段，若通过该语音分类模型确定m个待检测语音片段中的某一语音片段属于目标对象(如儿童)的，则确定该语音片段为待测试的目标对象的语音片段，从而得到所有目标对象的语音片段。

在通过s202语音分类模型对m个待检测语音片段进行处理，得到目标对象的语音片段之后，就可以执行下述s203：

s203、将目标对象的语音片段输入至语音测评模型中，得到目标对象的语音测评结果。

在根据语音测评模型确定目标对象的语音测评结果时，可以考虑待测试儿童的语音准确度、流畅度及清晰度等方面的因素。当某一待测试儿童的语音准确度、流畅度及清晰度较高时，得到目标对象的语音测评结果就越好。

示例的，目标对象的语音测评结果可以为语音测评的等级，如语音测评较差、语音测评一般、语音测评较好、语音测评非常好等。当然，也可以输出语音测评的量化值，将语音测评化为分数段，例如，分数段0-60分对应语音测评较差，分数段60-70分对应语音测评一般，分数段70-85分对应语音测评较好，分数段85-100分对应语音测评非常好。在此，本发明实施例只是以这两种表示方式为例进行说明，但并不代表本发明实施例仅局限于此。

在通过语音分类模型对m个待检测语音片段进行处理，得到目标对象的语音片段之后，就可以将目标对象的语音片段输入至语音测评模型中，得到目标对象的语音测评结果。与现有技术相比，不是直接将获取到的m个待检测语音片段输入至语音测评模型中进行测评，而是先通过语音分类模型对m个待检测语音片段进行处理，筛除出待检测语音片段中的目标对象的语音信号，并再将该目标对象的语音片段输入至语音测评模型中，以得到该目标对象的语音测评结果，从而提高了儿童语音测评的准确度。

本发明实施例提供的语音测评方法，通过获取m个待检测语音片段，并通过语音分类模型对m个待检测语音片段进行处理，得到目标对象的语音片段；再将目标对象的语音片段输入至语音测评模型中，得到目标对象的语音测评结果。与现有技术相比，不是直接将获取到的m个待检测语音片段输入至语音测评模型中进行测评，而是先通过语音分类模型对m个待检测语音片段进行处理，筛除出待检测语音片段中的目标对象的语音信号，并再将该目标对象的语音片段输入至语音测评模型中，以得到该目标对象的语音测评结果，从而提高了儿童语音测评的准确度。

基于图2所示的实施例，为了更清楚地描述本发明实施例提供的儿童语音的测量方法，示例的，请参见图3所示，图3为本发明实施例提供的另一种语音测评方法的流程示意图，该语音测评方法还可以包括：

s301、提取多个训练样本对应的第一特征向量。

其中，多个训练样本包括目标对象的语音信号和非目标对象的语音信号。第一特征向量可以理解为用于表征语音类型的特征对应的向量，例如，该第一特征向量可以为音色特征对应的向量等。

在生成语音分类模型时，可以先确定多个训练样本，该训练样本的数量不做具体限制，当然，选取的训练样本的数量越多，最终训练得到的语音分类模型的准确度就越高。在获取到多个训练样本之后，就可以提取该多个训练样本对应的第一特征向量。

s302、基于每个训练样本对应的第一特征向量和该训练样本对应的语音类型，采用深度学习算法进行训练，生成语音分类模型。

对于每一个训练样本而言，训练样本中都标记有该训练样本中的语音信号对应的语音类型。示例的，语音类别可以为成人的语音和儿童的语音，当然，语音类别也可以为男性的语音、女性的语音及儿童的语音。

在分别得到每一个训练样本对应的第一特征向量和在每个训练样本中标记的语音类型之后，就可以基于每个训练样本对应的第一特征向量和该训练样本对应的语音类型，采用深度学习算法进行训练，生成语音分类模型，当然，也可以通过其它方法生成语音分类模型，在此，本发明实施例只是以基于每个训练样本对应的第一特征向量和该训练样本对应的语音类型，采用深度学习算法进行训练，生成语音分类模型为例进行说明，但并不代表本发明实施例仅局限于此。

需要说明的是，对于s301-s302，不是在每一次对儿童语音进行测评时，均需要执行该s301-s302训练生成语音分类模型，该语音分类模型可以是预先训练的，只需要在第一次对儿童语音进行测评之前训练即可，具体可以根据s301-s302训练生成语音分类模型即可。当然，为了进一步地提高语音分类模型的准确度，可以不断地对该语音分类模型进行训练修订，从而提高该语音分类模型的准确度。

s303、提取多个训练样本对应的第二特征向量。

其中，多个训练样本包括目标对象的语音信号和非目标对象的语音信号。第二特征向量可以理解为用于表征测评参数的特征对应的向量，例如，该第二特征向量表征语音信号的流畅度、清晰度、音准等中的至少一项特征。

同样的，在生成语音测评模型时，可以先确定多个训练样本，该训练样本的数量不做具体限制，当然，选取的训练样本的数量越多，最终训练得到的语音测评模型的准确度就越高。在获取到多个训练样本之后，就可以提取该多个训练样本对应的第二特征向量。

s304、基于每个训练样本对应的第二特征向量和该训练样本对应的测评信息，采用深度学习算法进行训练，生成语音测评模型。

需要说明的是，对于每一个训练样本而言，训练样本中都标记有该训练样本中的语音信号对应的测评信息。例如，当某一训练样本中某一对象的语音准确度不高、流畅度不高及清晰度不高时，对应的，该训练样本的测评信息可以标记为语音测评不好；相反的，当某一训练样本中某一对象的语音准确度较高、流畅度较高及清晰度较高，对应的，该训练样本的测评信息可以标记为语音测评较好。

在分别得到每一个训练样本对应的第二特征向量和在每个训练样本中标记的测评信息之后，就可以基于每个训练样本对应的第二特征向量和该训练样本对应的测评信息，采用深度学习算法进行训练，生成语音测评模型，当然，也可以通过其它方法生成语音测评模型，在此，本发明实施例只是以基于每个训练样本对应的第二特征向量和该训练样本对应的测评信息，采用深度学习算法进行训练，生成语音测评模型为例进行说明，但并不代表本发明实施例仅局限于此。

需要说明的是，对于s303-s304，不是在每一次对儿童语音进行测评时，均需要执行该s303-s304训练生成语音测评模型，该语音测评模型可以是预先训练的，只需要在第一次对儿童语音进行测评之前训练即可，具体可以s303-s304训练生成语音测评模型即可。当然，为了进一步地提高语音测评模型的准确度，可以不断地对该语音测评模型进行训练修订，从而提高该语音测评模型的准确度。

此外，还需要说明的是，在本发明实施例中，上述s301-s302训练生成的语音分类模型和s303-s304训练生成的语音测评模型可以在同一个电子设备上执行，也可以在不同的电子设备的执行，且在执行s301-s302和s303-s304时，s301-s302和s303-s304之间并无先后顺序，可以先执行s301-s302，再执行s303-s304；也可以先执行s303-s304，再执行s301-s302，当然，也可以同时执行s301-s302和s303-s304；在此，本发明实施例只是以先执行s301-s302，再执行s303-s304为例进行说明，但并不代表本发明实施例仅局限于此。

s305、获取输入的语音信号。

在获取输入的语音信号时，可以通过智能设备的交互界面，先进入儿童语音测评模式，再获取输入的语音信号。也可以通过操作与智能设备连接的电子设备的交互界面，进入儿童语音测评模式，再获取输入的语音信号。进一步地，在上述通过智能设备或者电子设备获取语音信号时，可以通过智能设备或电子设备的麦克风获取输入的语音信号，当然，本发明实施例只是该种可能的实现方式获取语音信号为例进行说明，但并不代表本发明实施例仅局限于此。

在通过s305获取到输入的语音信号之后，就可以执行下述s306：

s306、根据语音信号中静音时间的长度，对语音信号进行划分，得到m个待检测语音片段。

在获取到输入到的语音信号之后，可以通过vad对获取到的语音信号进行检测，并根据语音信号中静音时间的长度，对语音信号进行划分，从而得到m个待检测语音片段。

需要说明的是，在根据静音时间的长度对语音信号进行划分时，可以通过两种可能的方式划分，在一种可能方式中，可以根据预设的静音时间长度，对语音信号进行划分，得到m个待检测语音片段，其中，预设的静音时间长度可以根据实际需要进行设置，在此，对于预设的静音时间长度具体为多少，本发明实施例不做具体限制。在另一种可能的实现方式中，可以根据语音信号的特征信息，确定静音时间长度，再根据确定的静音时间长度，对语音信号进行划分，得到m个待检测语音片段，其中，该语音信号的特征信息可以为语音信号中对象的语速特征，示例的，当语音信号中语速较快时，对应的静音时间可以设置的短一点；当到的语音信号中语速较慢时，对应的静音时间可以设置的长一点，从而实现根据语音信号中静音时间的长短，对语音信号进行划分。

在根据语音信号中静音时间的长度，对语音信号进行划分，得到m个待检测语音片段之后，就可以执行下述s307：

s307、根据m个待检测语音片段分别对应的语音类型，对m个待检测语音片段进行筛选处理，得到目标对象的语音片段。

在本发明实施例中，正是考虑到现有技术中在对某一儿童的语音进行测评时，该测评的语音信号中会包括除了该儿童的语音信号之外的其他人或设备的领读语音，从而导致儿童语音测评结果准确度不高的问题，因此，在对目标对象的语音片段进行测评之前，先将获取到的m个待检测语音片段输入至语音分类模型，以通过该语音分类模型对m个待检测语音片段进行筛选处理，若通过该语音分类模型确定m个待检测语音片段中的某一语音片段属于成人的，则筛除该语音片段，若通过该语音分类模型确定m个待检测语音片段中的某一语音片段属于儿童的，则确定该语音片段为待测试的目标对象的语音片段，从而得到目标对象的语音片段。

示例的，在对目标对象小明的语音进行测评时，小明的语音测试需要再家长或者老师的领读下完成，当家长或者老师读完“apple，苹果”，小明会在家长或者老师的领读下，读“apple，苹果”，但此时的语音片段就会包括家长或者老师的语音片段“apple，苹果”，为了提高语音测评的准确度，可以先通过语音分类模型对语音片段进行筛选处理，筛除掉家长或者老师的语音片段“apple，苹果”，那么筛选过后得到的语音片段即为小明的语音片段“apple，苹果”，这样就可以通过语音测评模型只对小明的语音片段“apple，苹果”进行语音测评，得到小明的语音测评结果，从而提高了小明语音测评的准确度。

在通过s307根据m个待检测语音片段分别对应的语音类型，对m个待检测语音片段进行筛选处理，得到目标对象的语音片段之后，就可以执行下述s308：

s308、将目标对象的语音片段输入至语音测评模型中，得到目标对象的语音测评结果。

同样的，在根据语音测评模型确定目标对象的语音测评结果时，可以考虑待测试儿童的语音准确度、流畅度及清晰度等方便的因素。当某一待测试儿童的语音准确度、流畅度及清晰度较高时，对应的，根据该语音测评模型中，得到目标对象的语音测评结果就越好。

基于图2或图3所示的实施例，在将目标对象的语音片段输入至语音测评模型中，得到目标对象的语音测评结果之后，还可以根据语音测量结果执行响应的策略。示例的，请参见图4所示，图4为本发明实施例提供的又一种语音测评方法的流程示意图，该语音测评方法还可以包括：

s401、若目标对象的语音测评结果未达到预设条件，则提示重新输入待检测语音。

其中，预设条件可以理解为目标对象的语音测试结果合格，示例的，当语音测评结果用语音测评的等级表示时，该预设条件可以为语音测评一般；当语音测评结果用语音测评的量化值表示时，该预设条件可以为大于或等于60分。

示例的，在提示目标对象重新输入待检测语音时，可以通过语音的方式提示目标对象重新输入待检测语音，也可以通过文字的方式提示目标对象重新输入待检测语音。

在确定目标对象的语音测评结果未达到预设条件时，可以提示目标对象重新输入待检测语音，并根据语音信号中静音时间的长短，对重新输入的待检测语音进行划分，得到多个待检测语音片段；并通过语音分类模型对多个待检测语音片段进行筛选处理，筛除待检测语音片段中的非目标对象的语音片段，以得到目标对象的语音片段；之后，再将目标对象的语音片段输入至语音测评模型中，得到目标对象的语音测评结果，从而得到待检测对象的新的语音测评结果。

相反的，若目标对象的语音测评结果达到预设条件，则可以根据目标对象的语音测评结果和设定的奖励机制，为目标对象分配对应的奖励。

可选的，在根据目标对象的语音测评结果和设定的奖励机制，为目标对象分配对应的奖励时，可以根据语音测评结果的不同等级设定不同的奖励机制。例如。当语音测量结果为语音测评一般时，该语音测量结果对应的奖励设置为三级，当语音测量结果为语音测评较好时，该语音测量结果对应的奖励设置为二级，当语音测量结果为语音测评特别好时，该语音测量结果对应的奖励设置为一级，对应的等级奖励可以为积分，也可以为红包等，当然，一级奖励对应的积分或红包，大于二级奖励对应的积分或红包；二级奖励对应的积分或红包，大于三级奖励对应的积分或红包。通过该奖励机制，可以有效地提高儿童的兴趣度。

可以理解的是，本发明实施例只是以目标对象的语音测评结果达到预设条件时分配奖励为例进行说明，但并不代表本发明实施例仅局限于此，当然，在设置奖励机制时，也可以不区分目标对象的语音测评结果是否达到预设条件，可以直接为每个测评等级设置不同的奖励，例如，当目标对象的语音测评结果未达到预设条件时，可以设置其奖励对应的积分或红包为0等。

图5为本发明实施例提供的一种语音测评装置50的结构示意图，示例的，请参见图5所示，该语音测评装置50可以包括：

获取单元501，用于获取m个待检测语音片段；m为正整数。

处理单元502，用于通过语音分类模型对m个待检测语音片段进行处理，得到目标对象的语音片段。

测评单元503，用于将目标对象的语音片段输入至语音测评模型中，得到目标对象的语音测评结果。

可选的，生成语音分类模型采用如下方式：

提取多个训练样本对应的第一特征向量，多个训练样本包括目标对象的语音信号和非目标对象的语音信号；并基于每个训练样本对应的第一特征向量和该训练样本对应的语音类型，采用深度学习算法进行训练，生成语音分类模型。

可选的，语音测评模型采用如下方式生成：

提取多个训练样本对应的第二特征向量，多个训练样本包括目标对象的语音信号和非目标对象的语音信号，并基于每个训练样本对应的第二特征向量和该训练样本对应的测评信息，采用深度学习算法进行训练，生成语音测评模型。

可选的，处理单元502，具体用于通过语音分类模型，确定m个待检测语音片段分别对应的语音类型，语音类型包括目标对象和非目标对象；并根据m个待检测语音片段分别对应的语音类型，对m个待检测语音片段进行筛选处理，得到目标对象的语音片段。

可选的，装置还包括提示单元504；提示单元504，用于若目标对象的语音测评结果未达到预设条件，则提示重新输入待检测语音。

可选的，处理单元502，还用于根据目标对象的语音测评结果和设定的奖励机制，为目标对象分配对应的奖励。

可选的，获取单元501，具体用于获取输入的语音信号；并根据预设的静音时间长度，对语音信号进行划分，得到m个待检测语音片段。

可选的，获取单元501，具体用于获取输入的语音信号；并根据语音信号的特征信息，确定静音时间长度；再根据确定的静音时间长度，对语音信号进行划分，得到m个待检测语音片段。

本发明实施例所示的语音测评装置50，可以执行上述任一实施例所示的语音测评方法的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

图7为本发明实施例提供的一种电子设备70的结构示意图，请参见图7所示，该电子设备70可以包括处理器701和存储器702。其中，

存储器702用于存储程序指令。

处理器701用于读取存储器702中的程序指令，并根据存储器702中的程序指令执行上述任一实施例所示的语音测评方法。

该电子设备70具体可以为智能设备本身，智能设备具体可以为机器人；该电子设备70具体也可以为与智能设备通信的外部设备，例如服务器等；本发明对此不作具体限定。

本发明实施例所示的电子设备70，可以执行上述任一实施例所示的语音测评方法的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，在计算机程序被处理器执行时，执行上述任一实施例所示的语音测评方法，其实现原理以及有益效果类似，此处不再进行赘述。

上述实施例中处理器可以是通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(fieldprogrammablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(randomaccessmemory，ram)、闪存、只读存储器(read-onlymemory，rom)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的指令，结合其硬件完成上述方法的步骤。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李宝祥;钟贵平;乔登科
技术所有人：北京猎户星空科技有限公司
我是此专利的发明人