一种婴儿哭声识别方法、装置及设备与流程

文档序号：17473075发布日期：2019-04-20 05:56阅读：380来源：国知局

本申请属于声音识别领域，尤其涉及一种婴儿哭声识别方法、装置及设备。

背景技术：

新生婴儿在表达情感需求或生理需求时，一般通过婴儿的哭声传递给外部世界。在现实生活中，由于照顾新生婴儿的工作基本托付给家里的老人或婴儿的母亲等监护人，并且监护人往往会同时身兼多职。因而，当婴儿处于睡眠状态的时候，监护人可能会忙于其它事情而处于离开状态。由于空间距离的原因，婴儿的啼哭并不一定能被监护人直接听到，使得监护人不能及时的听到婴儿的需求。

为了使得监护人能够及时的听到婴儿的需求，目前已经出现一些婴儿哭声的提醒装置，基于摄像头或穿戴式设备等数据采集设备，将数据采集设备接入网络，通过云端来完成识别工作。目前常见的识别方案是基于分贝、过零率或能量这些单一指标来确定是否需要报警，当环境中出现干扰音时，容易使得误报率较高。

技术实现要素：

有鉴于此，本申请实施例提供了一种婴儿哭声识别方法、装置及设备，以解决现有技术中识别婴儿哭声的方法中，当环境出现干扰时，容易使得误报率高的问题。

本申请实施例的第一方面提供了一种婴儿哭声识别方法，所述婴儿哭声识别方法包括：

采集语音数据，截取预定时长的语音数据段；

计算所述语音数据段中包括的两个或者两个以上的音频特征向量；

根据预先设定的识别模型识别所述音频特征向量，将所述识别结果发送至监护终端。

结合第一方面，在第一方面的第一种可能实现方式中，所述计算所述语音数据段中包括的两个或者两个以上的音频特征向量的步骤包括：

计算所述语音数据段中的过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列或频谱质心特征序列中的两种或者多种；

选择过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列或频谱质心特征序列中的两种或者两种以上的特征序列生成音频特征向量。

结合第一方面的第一种可能实现方式，在第一方面的第二种可能实现方式中，所述选择过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列或频谱质心特征序列中的两种或者两种以上的特征序列生成音频特征向量的步骤包括：

选择过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列或频谱质心特征序列中的两种或者两种以上的特征序列，计算所选择的特征序列的均值；

根据所计算的均值确定所述音频特征向量。

结合第一方面，在第一方面的第三种可能实现方式中，所述根据预先设定的识别模型识别所述音频特征向量，将所述识别结果发送至监护终端的步骤包括：

判断当前网络是否处于连接状态；

如果当前网络处于连接状态，则将所述音频特征向量发送至云服务器，以使得云服务器根据识别结果向所述监护终端发送应用提醒消息。

结合第一方面的第三种可能实现方式，在第一方面的第四种可能实现方式中，所述方法还包括：

如果当前网络处于断开状态，则通过本地存储的神经网络模型识别所述音频特征向量；

当识别结果为预定的告警结果时，向监护终端发送短信息或者拨打告警电话。

结合第一方面，在第一方面的第五种可能实现方式中，在所述计算所述语音数据段中包括的两个或者两个以上的音频特征向量的步骤之前，所述方法还包括：

对所述语音数据段进行加重、分帧和加窗处理中的一项或者多项。

本申请实施例的第二方面提供了一种婴儿哭声识别装置，所述婴儿哭声识别装置包括：

语音数据采集单元，用于采集语音数据，截取预定时长的语音数据段；

音频特征向量计算单元，用于计算所述语音数据段中包括的两个或者两个以上的音频特征向量；

识别单元，用于根据预先设定的识别模型识别所述音频特征向量，将所述识别结果发送至监护终端。

结合第二方面，在第二方面的第一种可能实现方式中，所述音频特征向量计算单元包括：

特征序列计算子单元，用于计算所述语音数据段中的过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列或频谱质心特征序列中的两种或者多种；

选择子单元，用于选择过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列或频谱质心特征序列中的两种或者两种以上的特征序列生成音频特征向量。

本申请实施例的第三方面提供了一种婴儿哭声识别设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述婴儿哭声识别方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述婴儿哭声识别方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：通过采集语音数据，截取预定时长的语音数据段，计算所述语音数据段中包括的两个或两个以上的音频特征向量，根据预先设定的识别模型识别所述音频特征向量，并将识别结果发送至监护终端。由于识别结果是根据两个或两个以上的音频特征向量所识别，因而识别结果更加准确可靠，有利于提高婴儿哭声识别的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种婴儿哭声识别方法的实施场景示意图；

图2是本申请实施例提供的一种婴儿哭声识别方法的实现流程示意图；

图3是本申请实施例提供的又一婴儿哭声识别方法的实现流程示意图；

图4是本申请实施例提供的一种婴儿哭声识别装置的示意图；

图5是本申请实施例提供的婴儿哭声识别设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

图1为本申请实施例提供的一种婴儿哭声识别方法的实施场景示意图，如

图1所示，所述实施场景包括采集终端、监护终端、云服务器。其中，所述采集终端可以为智能手机、平板电脑等。可以在采集终端安装应用程序的方式，免于额外配置硬件设备，有利于减少实现婴儿哭声识别的硬件成本。

所述采集终端用于采用婴儿的语音数据，根据预先设定的时长，对采集的语音数据进行分段截取。比如以当前时间为起点，截取当前时间之前的预定时长的一段时间内所采集的语音数据，得到语音数据段。所述预定时长可以为30秒等。在网络正常连接的时候，可以将所述语音数据段发送至云服务器，由所述云服务器对所采集的语音数据段进行计算，通过预先设定的识别模型，识别所述语音数据段中包括的两个或两个以上的音频特征向量，生成婴儿哭声识别结果。当然，在采集终端没有网络连接的情况下，也可以由采集终端本地存储的识别模型进行识别。当恢复网络连接的时候，可以通过识别模型版本号的比较，将云服务器中存储的最新的识别模型更新至所述采集终端。所述监护终端为监护人员携带的设备，可以为智能手机等。可以通过安装的应用程序接收提醒，或者通过短信或者电话的方式接收提醒。

图2为本申请实施例提供的一种婴儿哭声识别方法的实现流程示意图，详述如下：

在步骤s201中，采集语音数据，截取预定时长的语音数据段；

具体的，本申请所述婴儿哭声识别方法，可以基于现有的智能设备实现。在配备了麦克风的智能设备中安装本申请所述婴儿哭声识别方法对应的应用程序，可以有效的对采集的语音数据进行分析和处理，得到婴儿哭声的识别结果。

在采集语音数据后，可以根据预先设定的预定时长对语音数据进行分段截取。可以根据当前时间为语音数据段的结束时间，向当前时间之前取预定时长的语音数据，得到语音数据段。另外，所述语音数据段的截取时间间隔可以根据语音数据段的预定时长来设定。比如可以取语音数据段的预定时长的一定比例值。如预定时长为30秒时，所述语音数据段的截取时间可以为5秒等，从而能够对语音数据进行动态的分析。

在步骤s202中，计算所述语音数据段中包括的两个或者两个以上的音频特征向量；

所述语音数据段中包括的音频特征向量，可以包括过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列或频谱质心特征序列中的两种或者多种。其中，所述多阶梅尔频率倒谱系数特征序列可以为13阶梅尔频率倒谱系数特征序列。通过对音频的过零率、能量、多阶梅尔频率倒谱系数、频谱质心等特征中的两种或者两种以上的特征提取，得到融合了两个或者两个以上特征序列的音频特征向量。其中，音频的过零率，是指音频信号的符号变化的比率，符号变化包括如音频信号从正数变成负数，或者从负数变成正数。

所述能量可以为能量的大小变化的数值。

所述多阶梅尔频率倒谱，是基于声音频率的非线性梅尔刻度(melscale)的对数能量频谱的线性变换。梅尔频率倒谱系数(mel-frequencycepstralcoefficients，mfccs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。

可以选择任意两个特征序列计算音频特征向量。当然，优选的实施方式为，选择包括过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列和频谱质心特征序列的多维特征序列。比如多阶梅尔频率倒谱系数特征序列为13阶时，则可以选择16维特征序列，从而便于能够得到更为精确的识别结果。

另外，所述音频特征向量，可以选择选择过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列或频谱质心特征序列中的两种或者两种以上的特征序列直接得到音频特征向量。

或者，所述音频特征向量，也可以通过选择过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列或频谱质心特征序列中的两种或者两种以上的特征序列，计算所选择的特征序列的均值，根据所计算的均值确定所述音频特征向量。

优选的一种实施方式中，在对所述语音数据段进行计算时，还可以包括对所述语音数据段进行加重、分帧和加窗处理中的一项或者多项的步骤。其中：

为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分，突显高频的共振峰，通过加重处理，在频域上乘以一个系数，这个系数可以跟频率成正相关，从而使得高频的幅值会有所提升。

虽然语音信号在宏观上不平稳，但是，在微观上具有短时平稳性(10---30ms内可以认为语音信号近似不变)，根据微观的平衡性，可以把语音信号分为一些短段，即分帧来进行处理，每一个短段称为一帧。

为了便于进行傅里叶展开，还可以对语音数据段进行加窗处理，即将语音数据与一个窗函数相乘，使全局更加连续，避免出现吉布斯效应。通过加窗处理，使原本没有周期性的语音信号呈现出周期函数的部分特征。

另外，值得注意的是，由于加窗处理会使得一帧信号的两端被削弱，因此，在分帧的时候，帧与帧之间需要有重叠。

在步骤s203中，根据预先设定的识别模型识别所述音频特征向量，将所述识别结果发送至监护终端。

所述识别模型可以为神经网络模型。可以采集大量的婴儿哭声样本和噪声样本，计算哭声样本和噪声样本的音频特征向量，对所述神经网络模型进行训练，根据训练完成的神经网络模型，对所述音频特征向量进行识别处理。可选的一种实施方式中，可以采集被监护婴儿的哭声数据，对所述识别模型进行训练，以使得能够得到更为可靠的识别结果。

根据识别模型的识别结果，可以得到当前婴儿是否有婴儿哭声，可以将所述识别结果发送至监护终端，从而使得处于离开状态的监护人能够及时的看到提醒信息。由于本申请采用多种特征序列构成音频特征向量，从而使得识别结果更加准确，并且通过现有的智能设备安装识别应用程序，即可有效的进行婴儿哭声识别，不需要另外购置专门的识别设备，有利于减少系统硬件成本。

图3为本申请实施例提供的又一婴儿哭声识别方法的实现流程示意图，详述如下：

在步骤s301中，采集语音数据，截取预定时长的语音数据段；

在步骤s302中，计算所述语音数据段中包括的两个或者两个以上的音频特征向量；

步骤s301-s302与图2中的步骤s201-s202基本相同。

在步骤s303中，判断当前网络是否处于连接状态；

在本申请中，所述采集设备为智能手机等设备时，可能会处于不同的网络场景。比如，可能采集设备处于有wifi网络的场景中，智能设备可以通过所述wifi网络与云服务器交互，或者，采集设备可能处于无网络连接的状态，但采集设备本身具有移动通信模块，比如采集设备中内置有电话卡，或者，采集设备即可以连接网络，又内置有电话卡，下面对这些场景的结果发送方式分别讨论。

在步骤s304中，如果当前网络处于连接状态，则将所述音频特征向量发送至云服务器，以使得云服务器根据识别结果向所述监护终端发送应用提醒消息。

当采集设备的网络处于连接状态时，采集设备可以通过网络与云服务器进行交互，可以将采集的音频数据段发送至服务器，或者计算语音数据段中的两个或两个以上的音频特征向量后，将音频特征向量发送至云服务器，由云服务器进行婴儿哭声的识别。如果云服务器识别音频数据段中包括婴儿哭声时，则可以通过网络向监护终端发送提示消息，或者也可以向监护终端发送短信息，或者拨打网络电话等。

当然，在网络处于连接状态时，所述云服务器还可以将识别模型的最新版本号发送至采集终端，采集终端通过比较，如果采集终端中的识别模型不是最新版本时，则可以向云服务器发送更新请求，下载最新的识别模型。

另外，在步骤s305中，如果当前网络处于断开状态，则通过本地存储的神经网络模型识别所述音频特征向量；

如果当前网络处于断开状态，则无法由服务器对音频特征向量或语音数据段进行识别，可以通过在本地存储识别模型的方式，由本地对所述音频特征向量进行识别。一旦恢复网络，还可以更新本地所存储的识别模型。

在步骤s306中，当识别结果为预定的告警结果时，向监护终端发送短信息或者拨打告警电话。

如果识别结果为预定的告警结果，比如识别到婴儿哭声时，则向监护终端发送短消息或者拨打告警电话，提示监护人员及时照看婴儿。

当然，作为本申请优化的一种实施方式，也可以由采集终端采集婴儿的音频特征向量，并接收用户输入的婴儿需求结果，得到能够识别婴儿需求的识别模型。所述婴儿需求可以包括吃奶需求、保暖需求、降温需求或安全感需求等。将采集的音频特征向量输入所述识别模型时，输出婴儿的具体需求，并将所述具体需求发送至监护终端，提高监护人的使用便利性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图4为本申请实施例提供的一种婴儿哭声识别装置的结构示意图，详述如下：

所述婴儿哭声识别装置包括：

语音数据采集单元401，用于采集语音数据，截取预定时长的语音数据段；

音频特征向量计算单元402，用于计算所述语音数据段中包括的两个或者两个以上的音频特征向量；

识别单元403，用于根据预先设定的识别模型识别所述音频特征向量，将所述识别结果发送至监护终端。

优选的，所述音频特征向量计算单元包括：

图4所述婴儿哭声识别装置，与图2-3所述的婴儿哭声识别方法对应。

图5是本申请一实施例提供的婴儿哭声识别设备的示意图。如图5所示，该实施例的婴儿哭声识别设备5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52，例如婴儿哭声识别程序。所述处理器50执行所述计算机程序52时实现上述各个婴儿哭声识别方法实施例中的步骤。或者，所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序52可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述处理器50执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序52在所述婴儿哭声识别设备5中的执行过程。例如，所述计算机程序52可以被分割成：

语音数据采集单元，用于采集语音数据，截取预定时长的语音数据段；

音频特征向量计算单元，用于计算所述语音数据段中包括的两个或者两个以上的音频特征向量；

识别单元，用于根据预先设定的识别模型识别所述音频特征向量，将所述识别结果发送至监护终端。

所述婴儿哭声识别设备可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是婴儿哭声识别设备5的示例，并不构成对婴儿哭声识别设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述婴儿哭声识别设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述婴儿哭声识别设备5的内部存储单元，例如婴儿哭声识别设备5的硬盘或内存。所述存储器51也可以是所述婴儿哭声识别设备5的外部存储设备，例如所述婴儿哭声识别设备5上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，所述存储器51还可以既包括所述婴儿哭声识别设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述婴儿哭声识别设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乔宇;王群
技术所有人：深圳先进技术研究院
我是此专利的发明人

上一篇：一种多功能防火装饰板的制作方法
上一篇：纳米氧化锡-氧化铝固体酸涂层管式反应器及其制备方法和应用与流程