一种声音识别方法、装置及语音交互方法与流程

文档序号：12179732阅读：374来源：国知局

本申请涉及声音识别技术领域，更具体地说，涉及一种声音识别方法、装置及语音交互方法。

背景技术：

声音识别指的是对采集的原始声音数据进行识别处理，从中确定出目标声音对应的声音数据。声音识别的应用范围非常广泛，以语音交互过程为例，终端需要对麦克风采集的原始声音数据进行识别，从中找出人声对应的数据，进而仅将该部分数据编码后进行发送，以降低网络带宽的占用。

现有声音识别方法主要是通过人声频率检测，具体实施方式包括两个环节，第一步，将采集的原始声音数据从时域转换为频域，也即对其进行傅里叶变换，在频域上筛选出处于人声频率区间的原始声音数据；第二步，将上一步识别出的处于人声频率的原始声音数据进行逆傅里叶变换，转换为时域信号，后续才可以使用该识别出的原始声音数据进行编码等处理。

由此可知，现有声音识别方法需要对数据进行一次傅里叶变换和一次逆傅里叶变换，而由于傅里叶变换和逆傅里叶变换涉及矩阵变换，其运算量非常大，导致声音识别耗时较长，且占用过多的CPU资源。

技术实现要素：

有鉴于此，本申请提供了一种声音识别方法、装置及语音交互方法，用于解决现有声音识别方法运算量大所导致的识别耗时长、CPU资源占用多的问题。

为了实现上述目的，现提出的方案如下：

一种声音识别方法，包括：

获取采集的原始声音数据，所述原始声音数据包括若干采样声音信号；

按区间对所述原始声音数据进行划分，划分得到的每个区间包含至少一采样声音信号；

针对每一区间，根据所述区间包含采样声音信号的过零率和声音能量，以及，与所述区间包含采样声音信号的数量对应的目标声音的过零率范围和声音能量范围，识别所述区间包含的采样声音信号是否为目标声音。

一种声音识别装置，包括：

原始声音数据获取单元，用于获取采集的原始声音数据，所述原始声音数据包括若干采样声音信号；

数据划分单元，用于按区间对所述原始声音数据进行划分，划分得到的每个区间包含至少一采样声音信号；

目标声音识别单元，用于针对每一区间，根据所述区间包含采样声音信号的过零率和声音能量，以及，与所述区间包含采样声音信号的数量对应的目标声音的过零率范围和声音能量范围，识别所述区间包含的采样声音信号是否为目标声音。

一种语音交互方法，包括：

获取采集的原始声音数据，所述原始声音数据包括若干采样声音信号；

按区间对所述原始声音数据进行划分，划分得到的每个区间包含至少一采样声音信号；

针对每一区间，根据所述区间包含采样声音信号的过零率和声音能量，以及，与所述区间包含采样声音信号的数量对应的人声的过零率范围和声音能量范围，识别所述区间包含的采样声音信号是否为人声；

将识别出的为人声的采样声音信号进行编码，并将编码后的采样声音信号发送给目标对象，所述目标对象为确定的需要进行语音交互的对象。

本申请实施例提供的声音识别方法，获取采集的原始声音数据，所述原始声音数据包括若干采样声音信号；按区间对所述原始声音数据进行划分，划分得到的每个区间包含至少一采样声音信号；针对每一区间，根据所述区间包含采样声音信号的过零率和声音能量，以及，与所述区间包含采样声音信号的数量对应的目标声音的过零率范围和声音能量范围，识别所述区间包含的采样声音信号是否为目标声音。本申请可以预先测试不同采样信号的数量下，目标声音的过零率范围和声音能量范围作为识别依据，基于此，对获取的原始声音数据进行区间划分，针对每一区间的采样声音信号的过零率和声音能量来识别该区间包含的采样声音信号是否为目标声音。由于采样声音信号的过零率仅需判断相邻两信号的正负值即可，且声音能量也仅涉及若干声音能量的加和，因此本申请的声音识别方法相比于现有技术的傅里叶变换和逆傅里叶变换，其运算量大大降低，进而减少了声音识别的耗时，且降低了CPU资源占用率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种声音识别方法流程图；

图2为本申请实施例公开的一种根据区间包含采样声音信号的过零率和声音能量识别目标声音的方法流程图；

图3为本申请实施例公开的一种采样声音信号的声音能量判断方法流程图；

图4为本申请实施例公开的另一种根据区间包含采样声音信号的过零率和声音能量识别目标声音的方法流程图；

图5为本申请实施例公开的另一种采样声音信号的声音能量判断方法流程图；

图6为本申请实施例公开的又一种根据区间包含采样声音信号的过零率和声音能量识别目标声音的方法流程图；

图7为本申请实施例公开的一种语音交互方法流程图；

图8a-8c分别为本申请示例的语音交互方法的三种应用场景示意图；

图9为本申请实施例公开的一种声音识别装置结构示意图；

图10为本申请实施例公开的一种终端器硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种声音识别方案，可以在网络电话VOIP以及互联网语音交互过程中应用。本申请的声音识别方案可以基于终端或者服务器实现。

当基于终端实现时，该终端可以是网络电话设备、智能手机、IPAD、笔记本等智能终端。当基于服务器实现时，该服务器可以是由一台或多台服务器构成的服务器云。

本申请提供的声音识别方案可以用于对任意指定的目标声音进行识别，如人声、指定物体击打声等。一种可选的的应用场景中，本申请的声音识别方案可以应用于语音交互过程，如在互联网应用中进行语音交互时，针对终端麦克风采集到的原始语音数据进行识别，从中识别出人声对应的语音数据，进而仅对该部分语音数据进行编码，编码后发送给指定目标对象。避免将全部原始语音数据进行发送，使得除人声之外的无用语音数据占用网络带宽资源。

由于本申请声音识别方案中根据采用声音信号的过零率和声音能量即可识别出目标声音，而采样声音信号的过零率仅需判断相邻两信号的正负值即可，且声音能量也仅涉及若干声音能量的加和，因此本申请的声音识别方案相比于现有技术的傅里叶变换和逆傅里叶变换，其运算量大大降低，进而减少了声音识别的耗时，且降低了终端CPU资源占用率。

接下来对本申请的声音识别方法进行详细介绍，参见图1所示，该方法包括：

步骤S100、获取采集的原始声音数据，所述原始声音数据包括若干采样声音信号；

具体地，本步骤中可以获取麦克风采集到的原始声音数据。麦克风按照设定的采集频率依次采集采样声音信号。本步骤中可以获取一段时间内麦克风采集到的若干采样声音信号，组成原始声音数据。

可以理解的是，这里获取的原始声音数据即可需要识别目标声音的声音数据。

步骤S110、按区间对所述原始声音数据进行划分，划分得到的每个区间包含至少一采样声音信号；

具体地，原始声音数据中各采样声音信号按照采集时间排序，本步骤中可以按照该排序顺序，将原始声音数据中各采样声音信号进行区间划分，划分得到若干区间，每一区间包含至少一采样声音信号。

可以理解的是，本步骤中可以通过设置划分方式，使得每个区间包含的采样声音信号的数量相同。当然，也可以不同，具体视划分方式而定。

本步骤中划分得到的每一个区间，均作为目标声音识别的最小单元，也即后续针对每一区间，识别该区间包含的采样声音信号是否为目标声音。

步骤S120、针对每一区间，根据所述区间包含采样声音信号的过零率和声音能量，以及，与所述区间包含采样声音信号的数量对应的目标声音的过零率范围和声音能量范围，识别所述区间包含的采样声音信号是否为目标声音。

其中，过零率是指各采样声音信号按照采集时序绘制声音能量随时间的变化曲线图后，曲线穿过零轴的比率，即曲线穿过零轴的次数除以采样声音信号的总个数。过零率与频率成正比，过零率越高代表采样声音信号的频率越高。因此，过零率也能够反映采样声音信号的频率。

其中，声音能量是指采样声音信号的量能大小值。

本申请实施例可以预先测试不同采用声音信号的数量下，目标声音的过零率最低阈值和最高阈值，组成过零率范围；以及，测试不同采用声音信号的数量下，目标声音的声音能量最低阈值和最高阈值，组成声音能量范围。该过零率范围和声音能量范围作为识别目标声音的依据。

基于此，本步骤中，针对每一区间，根据所述区间包含采样声音信号的过零率和声音能量，以及预先测量得到的与所述区间包含采样声音信号的数量对应的目标声音的过零率范围和声音能量范围，识别所述区间包含的采样声音信号是否为目标声音。

这里需要解释的是，由于过零率仅涉及前后两个采样声音信号的正负值比较，且声音能量也仅涉及若干采样声音信号的声音能量的相加，因此本申请中仅涉及大小比较和加法运算，相比于傅里叶变换和逆傅里叶变换，其运算量大大减少。

可选的，在上述步骤S110，按区间对所述原始声音数据进行划分之前，本申请的方法还可以进一步增加如下步骤：

对所述原始声音数据进行降噪处理。

通过降噪处理，消除原始声音数据中的干扰声音，使得后续识别准确度更高。

在本申请的另一个实施例中，对上述步骤S110，按区间对所述原始声音数据进行划分的过程进行介绍。

本实施例中提供了两种可选的划分方式，如下所示：

第一种划分方式：

按照各采样声音信号的采集时间先后顺序，将所述原始声音数据均匀划分为若干区间，不同区间包含的采样声音信号不同。

本实施例中可以将原始声音数据中包含的各采样声音信号均匀划分为若干区间，不同区间内包含的采样声音信号不同。

一种可选实施方式，本申请可以按照声音信号的采集时间，从首个采样声音信号开始，顺序每隔t1时间划分为一个区间。举例如：

原始声音数据包括：x1、x2、x3……xn，其中相邻两采样声音信号的时间间隔为1ms。

本实施例可以每隔10ms划分一个区间，则得到的各区间包括：区间1：x1-x11；区间2：x12-x22；……

另一种可选实施方式，本申请可以从首个采样声音信号开始，顺序每隔M个采样声音信号划分为一个区间。举例如：

原始声音数据包括：x1、x2、x3……xn。

本实施例可以每隔9个采样声音信号划分一个区间，则得到的各区间包括：区间1：x1-x10；区间2：x11-x20；……

第二种划分方式：

自所述原始声音数据中首个采样声音信号开始，按照设定窗口大小及设定滑动步长，从所述原始声音数据中划分得到若干区间的采样声音信号，其中，所述设定窗口大小及设定滑动步长均以采样声音信号的个数为单位。

本实施例中选用滑窗选取的方式得到区间，其中，不同区间包含的采样声音信号可以不同，也可以存在相同的采样声音信号，具体视窗口大小和滑动步长大小，若滑动步长小于窗口大小，则相邻两个区间包含部分相同的采样声音信号，若滑动步长等于窗口大小，则相邻两个区间不包含相同的采样声音信号。可以理解的是，若滑动步长大于窗口大小，则会存在原始声音数据中部分采用声音信号未被划分到区间的情况，即出现遗漏问题，因此本申请可以设置滑动步长不大于窗口大小。

按照本实施例的划分方式，最终得到的各个区间所包含采样声音信号的数量均相同，且等于窗口大小。

仍使用上述例子进行说明：

原始声音数据包括：x1、x2、x3……xn。

本实施例可以设置窗口大小为10，滑动步长为1。则划分后得到的各区间包括：

区间1：x1-x10；区间2：x2-x11；区间3：x3x12；……

上述仅仅示意两种区间划分方式，且上述两种区间划分方式得到的各区间包含采样声音信号数量均相同。可以理解的是，除此之外，本申请还可以设置其它区间划分方式，如设置划分后各区间包含采样声音信号均不同，或部分不同等。

在本申请的又一个实施例中，对上述步骤S120，针对每一区间，根据所述区间包含采样声音信号的过零率和声音能量，以及，与所述区间包含采样声音信号的数量对应的目标声音的过零率范围和声音能量范围，识别所述区间包含的采样声音信号是否为目标声音的过程进行介绍。

本申请提供了上述识别过程的三种不同实现方式，分别参见下述介绍。

第一种实现方式：

结合图2进行说明，图2为本申请实施例公开的一种根据区间包含采样声音信号的过零率和声音能量识别目标声音的方法流程图。参见图2，该方法包括：

步骤S200、针对每一区间，计算并判断所述区间包含采样声音信号的过零率，是否处于与所述区间包含采样声音信号的数量对应的目标声音的过零率范围内；

具体地，获取与所述区间包含采样声音信号的数量对应的目标声音的过零率范围。进一步，在计算得到区间包含采样声音信号的过零率之后，判断该过零率是否处于获取的所述过零率范围内。如果是，则代表该区间包含采样声音信号符合目标声音的过零率条件，否则，代表该区间包含采样声音信号不符合目标声音的过零率条件，直接可以丢弃。

步骤S210、选取处于所述目标声音的过零率范围内的区间作为第一候选区间；

具体地，针对上一步骤中判断区间包含采样声音信号的过零率，处于与所述区间包含采样声音信号的数量对应的目标声音的过零率范围内的区间，选取其作为第一候选区间。

步骤S220、针对每一所述第一候选区间，计算并判断所述第一候选区间包含采样声音信号的声音能量，是否处于与所述第一候选区间包含采样声音信号的数量对应的目标声音的声音能量范围内；若是，执行步骤S230；

具体地，获取与所述第一候选区间包含采样声音信号的数量对应的目标声音的声音能量范围。进一步，在计算得到第一候选区间包含采样声音信号的声音能量之后，判断该声音能量是否处于获取的所述声音能量范围内。如果是，则执行步骤S230，可以将该第一候选区间包含的采样声音信号确定为目标声音，否则，代表该第一候选区间包含采样声音信号不符合目标声音的声音能量条件，直接可以丢弃。

步骤S230、若判断处于目标声音的声音能量范围内，将所述第一候选区间包含的采样声音信号确定为目标声音。

本实施例中，首先对各区间进行过零率判断，保留满足过零率判断条件的区间作为第一候选区间，进一步，对各第一候选区间进行声音能量判断，满足声音能量判断条件的确定为目标声音。通过过零率判断和声音能量判断，提高目标声音识别准确度。

进一步，对于上述步骤S220，针对每一所述第一候选区间，计算并判断所述第一候选区间包含采样声音信号的声音能量，是否处于与所述第一候选区间包含采样声音信号的数量对应的目标声音的声音能量范围内的过程，结合图3进行说明，其具体实现方式可以包括：

步骤S300、按照设定抽样策略，从所述第一候选区间中抽取若干采样声音信号；

具体地，根据终端设备性能高低，可以选取不同的抽样策略，如针对性能较高的终端，可以选取抽取较多的采样声音信号，针对性能较低的终端，可以选取抽取较少的采样声音信号。

抽样策略可以包括：从第一候选区间中首个采样声音信号开始，每隔m个采样声音信号抽取n个采样声音信号；或者是，设置从第一候选区间中抽取f％(f大于0小于等于100)的采样声音信号。

步骤S310、计算抽取的各采样声音信号的声音能量的绝对值的和值；

步骤S320、获取与所述第一候选区间包含采样声音信号的数量以及设定抽样策略对应的，目标声音的声音能量范围；

具体地，本申请可以预先针对采样声音信号的数量与抽样策略的不同组合方式，测量目标声音的声音能量范围。举例参见下表1所示：

表1

本步骤中，获取与所述第一候选区间包含采样声音信号的数量以及设定抽样策略对应的，目标声音的声音能量范围。

步骤S330、判断所述和值是否处于获取的所述目标声音的声音能量范围内，若是，执行步骤S340；

步骤S340、将所述第一候选区间包含的采样声音信号确定为目标声音。

第二种实现方式：

结合图4进行说明，图4为本申请实施例公开的另一种根据区间包含采样声音信号的过零率和声音能量识别目标声音的方法流程图。参见图4，该方法包括：

步骤S400、针对每一区间，计算并判断所述区间包含采样声音信号的声音能量，是否处于与所述区间包含采样声音信号的数量对应的目标声音的声音能量范围内；

具体地，获取与所述区间包含采样声音信号的数量对应的目标声音的声音能量范围。进一步，在计算得到区间包含采样声音信号的声音能量之后，判断该声音能量是否处于获取的所述声音能量范围内。如果是，则代表该区间包含采样声音信号符合目标声音的声音能量条件，否则，代表该区间包含采样声音信号不符合目标声音的声音能量条件，直接可以丢弃。

步骤S410、选取处于所述目标声音的声音能量范围内的区间作为第二候选区间；

具体地，针对上一步骤中判断区间包含采样声音信号的声音能量，处于与所述区间包含采样声音信号的数量对应的目标声音的声音能量范围内的区间，选取其作为第二候选区间。

步骤S420、针对每一所述第二候选区间，计算并判断所述第二候选区间包含采样声音信号的过零率，是否处于与所述第二候选区间包含采样声音信号的数量对应的目标声音的过零率范围内；若是，执行步骤S430；

具体地，获取与所述第二候选区间包含采样声音信号的数量对应的目标声音的过零率范围。进一步，在计算得到第二候选区间包含采样声音信号的过零率之后，判断该过零率是否处于获取的所述过零率范围内。如果是，则执行步骤S430，可以将所述第二候选区间包含的采样声音信号确定为目标声音，否则，代表该第二区间包含采样声音信号不符合目标声音的过零率条件，直接可以丢弃。

步骤S430、若判断处于目标声音的过零率范围内，将所述第二候选区间包含的采样声音信号确定为目标声音。

本实施例中，首先对各区间进行声音能量判断，保留满足声音能量判断条件的区间作为第二候选区间，进一步，对各第二候选区间进行过零率判断，满足过零率判断条件的确定为目标声音。通过声音能量判断和过零率判断，提高目标声音识别准确度。

对比本实施例和图2示例的两种实现方式，区别之处在于过零率判断和声音能量判断的先后顺序。

进一步，对于上述步骤S400，针对每一区间，计算并判断所述区间包含采样声音信号的声音能量，是否处于与所述区间包含采样声音信号的数量对应的目标声音的声音能量范围内的过程，结合图5进行说明，其具体实现方式可以包括：

步骤S500、按照设定抽样策略，从所述区间中抽取若干采样声音信号；

步骤S510、计算抽取的各采样声音信号的声音能量的绝对值的和值；

步骤S520、获取与所述区间包含采样声音信号的数量以及设定抽样策略对应的，目标声音的声音能量范围；

步骤S530、判断所述和值是否处于获取的所述目标声音的声音能量范围内，若是，执行步骤S540；

步骤S540、选取处于所述目标声音的声音能量范围内的区间作为第二候选区间。

对比图5和图3可知，两种实现方式相同，仅仅是处理区间不同，图3中是对第一候选区间进行处理，而本实施例中是对所述区间进行处理，具体处理方式相同，可以相互参照。

第三种实现方式：

结合图6进行说明，图6为本申请实施例公开的又一种根据区间包含采样声音信号的过零率和声音能量识别目标声音的方法流程图。参见图6，该方法包括：

步骤S600、针对每一区间，计算并判断所述区间包含采样声音信号的过零率，是否处于与所述区间包含采样声音信号的数量对应的目标声音的过零率范围内；

步骤S610、选取处于所述目标声音的过零率范围内的区间作为第三候选区间；

步骤S620、针对每一区间，计算并判断所述区间包含采样声音信号的声音能量，是否处于与所述区间包含采样声音信号的数量对应的目标声音的声音能量范围内；

步骤S630、选取处于所述目标声音的声音能量范围内的区间作为第四候选区间；

步骤S640、将所述第三候选区间与所述第四候选区间中交集区间所包含的采样声音信号确定为目标声音。

具体地，通过上述步骤得到若干第三候选区间，以及若干第四候选区间。本步骤中，对第三候选区间集合和第四候选区间集合进行相交判断，并选取交集区间，将其包含的采样声音信号确定为目标声音。其中，交集区间即同时满足过零率判断条件和声音能量判断条件的区间。

需要说明的是，上述步骤S600-S610与步骤S620-S630并无特定先后顺序，可以同时执行。

对比本实施例实现方式和上述实施例介绍的两种实现方式可知，本实施例中并行对区间执行过零率判断和声音能量判断，最后选取同时满足上述两个判断条件的区间，将其包含的采样声音信号确定为目标声音。

本实施例中上述步骤S620的具体实现过程可以参照图5对应的实施例介绍，二者相同。

可以理解的是，本申请实施例所要识别的目标声音可以是人声，也即本申请可以实现人声识别。基于此，本申请实施例公开了一种语音交互方法，以在上述声音识别的基础上，进行语音交互。

本实施例中语音交互方法可以基于终端实现，终端采集原始语音数据后从中识别出属于人声的语音数据，进而编码后发送给其它终端对象，以实现终端间的语音交互。详细参见图7，图7为本申请实施例公开的一种语音交互方法流程图。

如图7所示，该方法包括：

步骤S700、获取采集的原始声音数据，所述原始声音数据包括若干采样声音信号；

步骤S710、按区间对所述原始声音数据进行划分，划分得到的每个区间包含至少一采样声音信号；

步骤S720、针对每一区间，根据所述区间包含采样声音信号的过零率和声音能量，以及，与所述区间包含采样声音信号的数量对应的人声的过零率范围和声音能量范围，识别所述区间包含的采样声音信号是否为人声；

步骤S730、将识别出的为人声的采样声音信号进行编码，并将编码后的采样声音信号发送给目标对象，所述目标对象为确定的需要进行语音交互的对象。

对于上述步骤S700-S720的具体实现方式，其可以参照以上各实施例的相关介绍，本实施例中仅仅是将目标声音替换为人声。也即，将上述实施例的声音识别方法用于进行人声识别，并基于人声识别结果，进行语音交互。

按照本实施例的语音交互方法，终端能够快速对采集的原始声音数据进行人声识别，并将识别出的采样声音信号进行编码，进而发送给目标对象，降低了网络流量，减轻了网络带宽开销。并且，终端识别人声的方法简单，运算量低，不会占用过多的CPU资源。

为了便于理解本申请语音交互方法的具体应用，结合图8a-8c进行说明。图8a-8c分别描述了本申请语音交互方法的三种具体应用场景：

图8a为CF游戏组队对战的场景示意图，通过点击图中麦克风10图标即可实现游戏中用户之间的语音交互；

图8b为王者荣耀游戏组队对战的场景示意图，通过点击图中麦克风10图标即可实现游戏中用户之间的语音交互；

图8c为全民超神游戏选将的场景示意图，通过点击图中麦克风10图标即可实现游戏中用户之间的语音交互。

下面对本申请实施例提供的声音识别装置进行描述，下文描述的声音识别装置与上文描述的声音识别方法可相互对应参照。

参见图9，图9为本申请实施例公开的一种声音识别装置结构示意图。

如图9所示，该装置包括：

原始声音数据获取单元11，用于获取采集的原始声音数据，所述原始声音数据包括若干采样声音信号；

数据划分单元12，用于按区间对所述原始声音数据进行划分，划分得到的每个区间包含至少一采样声音信号；

目标声音识别单元13，用于针对每一区间，根据所述区间包含采样声音信号的过零率和声音能量，以及，与所述区间包含采样声音信号的数量对应的目标声音的过零率范围和声音能量范围，识别所述区间包含的采样声音信号是否为目标声音。

本申请可以预先测试不同采样信号的数量下，目标声音的过零率范围和声音能量范围作为识别依据，基于此，对获取的原始声音数据进行区间划分，针对每一区间的采样声音信号的过零率和声音能量来识别该区间包含的采样声音信号是否为目标声音。由于采样声音信号的过零率仅需判断相邻两信号的正负值即可，且声音能量也仅涉及若干声音能量的加和，因此本申请的声音识别方法相比于现有技术的傅里叶变换和逆傅里叶变换，其运算量大大降低，进而减少了声音识别的耗时，且降低了CPU资源占用率。

可选的，所述数据划分单元可以包括：

第一数据划分子单元，用于按照各采样声音信号的采集时间先后顺序，将所述原始声音数据均匀划分为若干区间，不同区间包含的采样声音信号不同；

或者，

第二数据划分子单元，用于自所述原始声音数据中首个采样声音信号开始，按照设定窗口大小及设定滑动步长，从所述原始声音数据中划分得到若干区间的采样声音信号，其中，所述设定窗口大小及设定滑动步长均以采样声音信号的个数为单位。

可选的，本申请实施例公开了目标声音识别单元的三种可选结构，分别如下：

第一种，所述目标声音识别单元可以包括：

第一目标声音识别子单元，用于针对每一区间，计算并判断所述区间包含采样声音信号的过零率，是否处于与所述区间包含采样声音信号的数量对应的目标声音的过零率范围内；

第二目标声音识别子单元，用于选取处于所述目标声音的过零率范围内的区间作为第一候选区间；

第三目标声音识别子单元，用于针对每一所述第一候选区间，计算并判断所述第一候选区间包含采样声音信号的声音能量，是否处于与所述第一候选区间包含采样声音信号的数量对应的目标声音的声音能量范围内；若是，将所述第一候选区间包含的采样声音信号确定为目标声音。

可选的，所述第三目标声音识别子单元可以包括：

第一声音能量判断子单元，用于按照设定抽样策略，从所述第一候选区间中抽取若干采样声音信号；

第二声音能量判断子单元，用于计算抽取的各采样声音信号的声音能量的绝对值的和值；

第三声音能量判断子单元，用于获取与所述第一候选区间包含采样声音信号的数量以及设定抽样策略对应的，目标声音的声音能量范围；

第四声音能量判断子单元，用于判断所述和值是否处于获取的所述目标声音的声音能量范围内，若是，执行所述将所述第一候选区间包含的采样声音信号确定为目标声音的步骤。

第二种，所述目标声音识别单元可以包括：

第四目标声音识别子单元，用于针对每一区间，计算并判断所述区间包含采样声音信号的声音能量，是否处于与所述区间包含采样声音信号的数量对应的目标声音的声音能量范围内；

第五目标声音识别子单元，用于选取处于所述目标声音的声音能量范围内的区间作为第二候选区间；

第六目标声音识别子单元，用于针对每一所述第二候选区间，计算并判断所述第二候选区间包含采样声音信号的过零率，是否处于与所述第二候选区间包含采样声音信号的数量对应的目标声音的过零率范围内；若是，将所述第二候选区间包含的采样声音信号确定为目标声音。

可选的，所述第四目标声音识别子单元可以包括：

第五声音能量判断子单元，用于按照设定抽样策略，从所述区间中抽取若干采样声音信号；

第六声音能量判断子单元，用于计算抽取的各采样声音信号的声音能量的绝对值的和值；

第七声音能量判断子单元，用于获取与所述区间包含采样声音信号的数量以及设定抽样策略对应的，目标声音的声音能量范围；

第八声音能量判断子单元，用于判断所述和值是否处于获取的所述目标声音的声音能量范围内，若是，执行所述选取处于所述目标声音的声音能量范围内的区间作为第二候选区间的步骤。

第三种，所述目标声音识别单元可以包括：

第七目标声音识别子单元，用于针对每一区间，计算并判断所述区间包含采样声音信号的过零率，是否处于与所述区间包含采样声音信号的数量对应的目标声音的过零率范围内；

第八目标声音识别子单元，用于选取处于所述目标声音的过零率范围内的区间作为第三候选区间；

第九目标声音识别子单元，用于针对每一区间，计算并判断所述区间包含采样声音信号的声音能量，是否处于与所述区间包含采样声音信号的数量对应的目标声音的声音能量范围内；

第十目标声音识别子单元，用于选取处于所述目标声音的声音能量范围内的区间作为第四候选区间；

第十一目标声音识别子单元，用于将所述第三候选区间与所述第四候选区间中交集区间所包含的采样声音信号确定为目标声音。

可选的，本申请的装置还可以进一步包括：

降噪处理单元，用于在所述数据划分单元按区间对所述原始声音数据进行划分之前，对所述原始声音数据进行降噪处理。

可选的，所述目标声音可以为人声。

接下来的实施例中，对实现本申请的声音识别方法及装置的终端的硬件结构进行介绍，参见图10，图10为本申请实施例提供的一种终端硬件结构示意图。

如图10所示，终端可以包括：

处理器1，通信接口2，存储器3，通信总线4，和显示屏5；

其中处理器1、通信接口2、存储器3和显示屏5通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1，用于执行程序；

存储器3，用于存放程序；

程序可以包括程序代码，所述程序代码包括处理器的操作指令。

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，程序具体用于：

获取采集的原始声音数据，所述原始声音数据包括若干采样声音信号；

按区间对所述原始声音数据进行划分，划分得到的每个区间包含至少一采样声音信号；

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹木勇;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人