一种基于动态时间规整的新生儿哭声识别方法与流程

文档序号：17837464发布日期：2019-06-05 23:44阅读：280来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明属于生物特征识别技术领域，具体涉及新生儿哭声识别方法。

背景技术：

新生儿不具有语言表达能力，唯一表达需求和情感的方式是哭闹。新生儿过度哭吵是母亲抱怨最多的问题，让他们感到焦虑与手足无措，这也是导致产后抑郁的一个重要原因。过度哭吵同时也给临床科室、儿保科带来不少的工作量和困惑。

目前大部分有关新生儿哭声的研究将重心放在了分析不同状态下哭声的差异，主要从视觉上的差异例如波谱图等着手，分类识别的目的是比较不同特征的识别率。大多采用分类器进行识别，这种方法需要较大的数据集且占据较大的电脑内存。

技术实现要素：

本发明的目的在于提供一种数据量小、高效、计算复杂度低的新生儿哭声识别方法。

本发明提供的新生儿哭声识别方法，是基于动态时间规整技术的，对采集的信号进行预处理后对异常步态通过原始信号直接进行分类，具体步骤如下：

步骤一，利用zoom-h4n便携式录音机录制喂奶前约10-20分钟、注射时、喂奶后5-10分钟三种情况下的啼哭声，并标记为饥饿、疼痛和不明原因哭声；

步骤二，对哭声数据进行预处理，包括降采样、预加重、分帧加窗、端点检测等，然后对预处理的哭声信号进行特征提取，提取短时能量、基音频率和0到12阶的美尔频率倒谱系数；

步骤三，对得到的特征参数进行单因素方差分析（郭萍.单因素方差分析在数理统计中的应用[j].长春大学学报,2014(10):1370-1373.），筛选出在三类哭声中具有显著性差异的特征；

步骤四，利用动态时间规整算法（dtw）（anilk.jain,friederiked.griess,scottd.connell.on-linesignatureverification.patternrecognition,2002,(35):2963-2972.）分别选出三个类别的参考模板；

步骤五，执行三个两分类任务，利用动态时间规整算法进行匹配识别，计算识别率。

本发明步骤一中，采集哭声时录音机放置在离新生儿口腔5-10厘米处，以免产生较大噪音。

本发明步骤二中，对哭声数据进行预处理，将原来的频率降到8000hz-16000hz，预加重系数为0.95-0.98，帧长为10-30ms,帧移为5-10ms,使用双门限法进行端点检测，提取基因频率的方法采用倒谱法。

本发明步骤三中，所述的单因素方差分析适用于三类或三类以上的两两分析，设置p值界限为0.01-0.05中的某一值，当p值小于设定的界限时，表示有显著性差异。p值的具体设置以具体情形而定，在实施例中，p值设置为0.5。

本发明步骤四中，所述的动态时间规整算法的目的是衡量两个模板之间的相似度，相似度用最佳路径下两个模板的距离测度来表示。

本发明的有益效果是，通过单因素方差分析筛选出有效的分类特征，使得后期的分类更加高效。动态时间规整算法对数据量要求不高，即拥有较小的数据量就可进行分类，且计算复杂度较低，加快了运算速度。并且动态时间规整算法不要求两个样本长度相等，省去了前期处理的步骤。

附图说明

图1为本发明基于动态时间规整的新生儿哭声识别方法流程图。

图2-图4为本发明较佳实施例中选取的三种情况下哭声原始信号示例（截取10s）。其中，图2为饥饿哭声，图3为疼痛哭声，图4为不明哭声。

图5-图10为本发明所筛选出的具有显著性差异的六个特征的箱图。其中，图5为短时能量，图6为基音频率，图7为0阶mfcc,图8为1阶mfcc,图9为6阶mfcc,图10为10阶mfcc。

具体实施方式

下面结合附图并举较佳实施例，对本发明进行详细描述。

本发明提供了一种基于动态时间规整的新生儿哭声识别方法，方法流程示意图如图1所示。该方法采用如下步骤实现：

步骤一，将zoom-h4n便携式录音机放置在离新生儿口腔五到十厘米处，以免产生较大噪音。录音机采样频率设置为44.1khz,比特率为16bit/s,录制喂奶前十五分钟、注射时、喂奶后十分钟三种情况下的啼哭声，并标记为饥饿、疼痛和不明原因哭声。本实施例中在三种情况下采集的原始信号示例（截取10s）如图2-图4所示。

步骤二，采集到的哭声先通过降采样使得数据量减小，降采样之后的频率为8000hz、预加重的系数为0.98，分帧时帧长为25ms,帧移为10ms,使用双门限法进行端点检测，对预处理完的哭声信号进行特征提取，提取短时能量、基音频率和0到12阶的美尔频率倒谱系数，提取基因频率的方法为倒谱法，提取美尔倒谱系数的步骤为：

（1）将预处理后的信号进行离散傅里叶变换（dft），从而得到语音帧的短时频谱；

（2）将短时频谱的幅度值通过美尔滤波器组进行加权滤波处理；

（3）对美尔滤波器组的全部输出值进行一个求对数运算；

（4）将经过求对数计算后得到的值进行离散余弦变换（dct），从而得到美尔倒谱系数（mfcc）。

步骤三，对得到的特征参数进行单因素方差分析，筛选出在三类哭声中具有显著性差异的特征。单因素方差分析适用于三类或三类以上的两两分析，设置的p值界限为0.05，当p值小于0.05时表示有显著性差异，筛选出六个特征（短时能量、基音频率、0阶mfcc、1阶mfcc、6阶mfcc、10阶mfcc）具有显著性差异，其分布的箱图如图5-图10所示。

步骤四，用动态时间规整算法分别选出三个类别的参考模板。动态时间规整算法的目的是衡量两个模板之间的相似度，相似度指最佳路径下两个模板的距离测度，其公式为：

其中，t(n)为时间规整函数，n为测试模板的帧数，为两个帧向量之间的欧式距离。

选取参考模板的步骤为：

（1）在每个类别若干个（如30个）样本中两两计算距离测度d，计算次，具有最小距离d的一对样本被选出来作为候选参考模板，并标记为a和b；

（2）a和b分别和一个类别中的其他样本计算距离并累加，公式为：

；

（3）比较和，具有较小值的被选为参考模板。

步骤五，执行三个两分类任务，利用动态时间规整算法进行匹配识别，在每个二分类任务中，计算测试样本与参考模板的距离，计算识别率。

本实施例中，共采集90个样本，来自于72个足月的新生儿，每种原因下有30个样本。

经验证，在本实施例中，疼痛哭声的识别率较高，达到了93.1％。同时证明了筛选出来的六个特征对分类新生儿哭声是有效果的。识别结果的表1。

需要指出的是，上述实施例仅用于说明本发明，其各步骤的实现方式是可以有所变化的，对本领域的专业技术人员来说对这些实施例的多种修改是显而易见的，因此凡是在本发明一般理念以及精神的基础上进行的等同变换和改进，均应在本发明的保护范围之内。

表1

。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余锡林;陈炜
技术所有人：复旦大学
我是此专利的发明人

上一篇：一种丝绸纺线用的储卷装置的制作方法
上一篇：一种有机肥及其制备方法与流程