一种利用婴儿哭声进行情感分析的系统、方法和装置与流程

文档序号:18295108发布日期:2019-07-31 09:13阅读:226来源:国知局
一种利用婴儿哭声进行情感分析的系统、方法和装置与流程

本发明属于深度学习技术领域,具体涉及一种利用婴儿哭声进行情感分析的系统、方法和装置。



背景技术:

现今婴儿看护方面的消费仅仅停留在雇佣保姆和医院育婴。随着社会的发展,人力成本昂贵等问题逐渐涌现,无疑增加了那些需要聘请保姆护理家庭的年轻父母的负担。加之现在的年轻父母在外忙碌时间越来越多,故对自己婴儿缺乏照顾。如果交给老人照看婴儿,老人上了年纪,照顾婴儿可能会有所疏忽,会出现婴儿哭闹没被及时护理、晚上睡觉婴儿踢被子无人知、婴儿身体不适无人晓等现象。

zl201310440063.4公开了一种能识别婴儿哭声的婴儿监护器及婴儿哭声识别方法;该专利公开了如下技术方案:一种能识别婴儿哭声的婴儿监护器,包括主控模块、婴儿哭声识别模块和短信发送模块,其中主控模块,收到婴儿哭声识别模块发过来的婴儿正在哭闹的信息后,将该信息发送给短信发送模块;婴儿哭声识别模块,与主控模块相连,实时采集周围环境中的语音信息,并对语音信息进行处理,将婴儿的哭声与环境中的其他声音区分开,婴儿哭声识别模块包含语音信息采集模块、语音信息处理模块和语音信息判定模块,其中语音信息采集模块实时采集周围环境中的语音信息,语音信息处理模块将采集到的语音信息首先分为语音帧,帧长为100毫秒,帧移为50毫秒,然后作加汉宁窗处理,最后对每帧语音进行快速傅里叶变换,将处理后的语音信息传输至语音信息判定模块,语音判定模块计算1khz到3khz频率段能量与一帧能量总和之间的比值,将比值大于0.4的语音帧标记为哭声帧,综合连续20帧,当连续20帧里有10帧以上为哭声帧时,判断检测到婴儿哭声,并将婴儿哭闹信息发送给主控模块;短信发送模块,与主控模块相连,接收到主控模块发送的婴儿正在哭闹的信息后。

笨重的实体装置,不便于携带,要么需要连接服务器做分析,依赖于网络。而且缺少对分析结果的反馈。



技术实现要素:

有鉴于此,本发明的主要目的在于提供一种利用婴儿哭声进行情感分析的系统、方法和装置,具有便携、识别准确率高和适用性广的优点。

为达到上述目的,本发明的技术方案是这样实现的:

如图1所示,一种利用婴儿哭声进行情感分析的系统,所述系统包括:

哭声检测模块,训练数据样本,得到检测模型,使用该检测模型检测输入的待检测声音,判断输入的声音是否为婴儿哭声;

哭声分析模块,训练数据样本,得到分析模型,使用该分析模型对检测到的婴儿哭声做情感分类;

模型更新模块,上传标记为识别错误的声音段及对应的类别标签,同时上传用户当前使用的分类模型;利用用户上传的声音数据和原有的训练数据,微调用户上传的分类模型;下载训练好的新模型,替换原先的模型。

进一步的,所述哭声检测模块包括:检测训练模块,训练部分搜集训练数据,训练出一个可以检测出婴儿哭声的模型;检测测试模块,使用该检测模型检测输入的待检测声音,判断输入的声音是否为婴儿哭声。

进一步的,所述哭声分析模块包括:分析训练模块,训练数据样本,得到分析模型,训练出一个可以分析婴儿哭声的模型;分析测试模块,对检测到的婴儿哭声做情感分类。

进一步的,所述模型更新模块包括:数据上传模块,上传标记为识别错误的声音段及对应的类别标签,同时上传用户当前使用的分类模型;模型训练模块,利用用户上传的声音数据和原有的训练数据,微调用户上传的分类模型;新模型下载模块,下载训练好的新模型,替换原先的模型。

一种利用婴儿哭声进行情感分析的方法,所述方法执行以下步骤:

训练数据样本,得到检测模型,使用该检测模型检测输入的待检测声音,判断输入的声音是否为婴儿哭声;

训练数据样本,得到分析模型,使用该分析模型对检测到的婴儿哭声做情感分类;

上传标记为识别错误的声音段及对应的类别标签,同时上传用户当前使用的分类模型;利用用户上传的声音数据和原有的训练数据,微调用户上传的分类模型;下载训练好的新模型,替换原先的模型。

进一步的,所述训练数据样本,得到检测模型,使用该检测模型检测输入的待检测声音,判断输入的声音是否为婴儿哭声的方法执行以下步骤:

收集各种环境声音作为训练数据,并人工为每段声音添加一个分类标签;

将训练数据随机划分为训练集和测试集;

对训练集中的每段声音做采样、随机切割和归一化处理,使得每个采样点的数值在[-1,1]范围内;

将训练数据送入神经网络训练模型;

采集待检测声音;

对采集到的待检测声音做采样,随机切割和归一化处理,使得每个采样点的数值在[-1,1]范围内;

将多段采集到的多段声音送入预先训练好的神经网络,得到预测结果,对预测结果做投票处理,得票最高的预测结果即为最终预测结果。

进一步的,所述训练数据样本,得到分析模型,使用该分析模型对检测到的婴儿哭声做情感分类的方法执行以下步骤:

收集婴儿在不同情感状态下的哭声,并标上类别标签;

将训练数据随机划分为训练集和测试集;

对训练集中的每段声音做预处理,包括:采样、有重叠地切割,对声音做归一化处理,使得每个采样点的数值在[-1,1]范围内;

将训练数据送入神经网络训练模型;

将婴儿哭声检测部分检测到的哭声作为输入。

将声音送入预先训练好的神经网络,得到预测结果,对预测结果做投票处理,得票最高的预测结果即为最终预测结果。

一种利用婴儿哭声进行情感分析的装置,所述装置包括:一种非暂时性的计算机可读存储介质,该存储介质存储了计算指令,其包括:训练数据样本,得到检测模型,使用该检测模型检测输入的待检测声音,判断输入的声音是否为婴儿哭声的代码段;训练数据样本,得到分析模型,使用该分析模型对检测到的婴儿哭声做情感分类的代码段;上传标记为识别错误的声音段及对应的类别标签,同时上传用户当前使用的分类模型;利用用户上传的声音数据和原有的训练数据,微调用户上传的分类模型;下载训练好的新模型,替换原先的模型的代码段。

本发明的一种利用婴儿哭声进行情感分析的系统、方法和装置,具有如下有益效果:可以自动检测到婴儿的哭声,并分析该种哭声所对应的情感原因。可直接安装在智能手机、平板电脑等智能终端上,无需额外的硬件;常规的哭声检测和分析都是基于本地的(智能手机、平板电脑等本身),不依赖网络;用户可以对分析结果作出反馈,搜集分析错误的语音段定期上传服务器,更新分类器,定制宝宝专属的哭声分类器,提高分类准确率。

附图说明

图1为本发明的利用婴儿哭声进行情感分析的系统的方法流程示意图。

图2为本发明的利用婴儿哭声进行情感分析的系统的哭声检测模块的结构示意图。

图3为本发明的利用婴儿哭声进行情感分析的系统的哭声分析检测模块的结构示意图。

图4为本发明的利用婴儿哭声进行情感分析的系统的模型更新模块的结构示意图。

图5为本发明的利用婴儿哭声进行情感分析方法的方法流程示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

一种利用婴儿哭声进行情感分析的系统,所述系统包括:

哭声检测模块,训练数据样本,得到检测模型,使用该检测模型检测输入的待检测声音,判断输入的声音是否为婴儿哭声;

哭声分析模块,训练数据样本,得到分析模型,使用该分析模型对检测到的婴儿哭声做情感分类;

模型更新模块,上传标记为识别错误的声音段及对应的类别标签,同时上传用户当前使用的分类模型;利用用户上传的声音数据和原有的训练数据,微调用户上传的分类模型;下载训练好的新模型,替换原先的模型。

进一步的,所述哭声检测模块包括:检测训练模块,训练部分搜集训练数据,训练出一个可以检测出婴儿哭声的模型;检测测试模块,使用该检测模型检测输入的待检测声音,判断输入的声音是否为婴儿哭声。

进一步的,所述哭声分析模块包括:分析训练模块,训练数据样本,得到分析模型,训练出一个可以分析婴儿哭声的模型;分析测试模块,对检测到的婴儿哭声做情感分类。

进一步的,所述模型更新模块包括:数据上传模块,上传标记为识别错误的声音段及对应的类别标签,同时上传用户当前使用的分类模型;模型训练模块,利用用户上传的声音数据和原有的训练数据,微调用户上传的分类模型;新模型下载模块,下载训练好的新模型,替换原先的模型。

哭声检测模块的运行方式为:搜集各种环境声音作为训练数据,并人工为每段声音添加一个分类标签(共有k类)(如:婴儿哭声、雨声、风声、笑声、猫叫声、狗叫声、脚步声、开门声等)。

然后将训练数据随机划分为训练集和测试集。

对训练集中的每段声音做预处理,包括采样(采样频率为16khz)、随机切割(使得每段声音的长度为25ms,即包括16000×0.25=400个采样点),对声音做归一化处理,使得每个采样点的数值在[-1,1]范围内。这样每一段声音就可以产生多个等长的声音段。最终产生n个训练样本,{xi,yi},其中xi为声音向量(长度为400,取值范围为[-1,1]),yi为声音的标签(取值范围为[0,k])

将训练数据送入神经网络训练模型。网络结构为两个一维卷积模块(每个模块包含一个一维卷积层、一个relu层,一个pool层),三个二维卷积层(每个模块包含一个二维卷积层,一个relu层,一个pool层),三个全连接层。损失函数为交叉熵。计算公式如下:

神经网络的输出为k维向量[a0,a1,...ak-1],带入softmax公式计算得到k维向量s=[s0,s1…,sk-1];

将计算得到的s以及该样本的标签向量y[y0,y1…,yk-1](其中yi=1,i为该样本对应的类别)带入交叉熵公式,得到损失l。

其中,交叉熵公式如下:

通过智能终端实时采集声音。

对采集到的声音做预处理,采样(采样频率为16khz),随机切割(使得每段声音的长度为25ms,即包括16000×0.25=400个采样点),对声音做归一化处理(data=data*1.0/max(abs(data))),使得每个采样点的数值在[-1,1]范围内,得到m段声音。

将多段采集到的多段声音送入预先训练好的神经网络,得到m个预测结果,对m个预测结果做投票处理,得票最高的预测结果即为最终预测结果。

哭声分析模块的运行方式如下:收集婴儿在不同情感状态下的哭声(饥饿,困倦,想打嗝,疼痛,不舒服(尿布湿了,热了等))并标上类别标签。

将训练数据随机划分为训练集和测试集。

对训练集中的每段声音做预处理,包括采样(采样频率为16khz)、有重叠地切割(每间隔10ms切割一次,使得每段声音的长度为25ms,即包括16000×0.25=400个采样点),对声音做归一化处理,使得每个采样点的数值在[-1,1]范围内。这样每一段声音就可以

产生多个等长的声音段。最终产生n个训练样本,{xi,yi},其中xi为声音向量(长度为400,取值范围为[-1,1]),yi为声音的标签(取值范围为[0,5])

将训练数据送入神经网络训练模型。网络结构为两个一维卷积模块(每个模块包含一个一维卷积层、一个relu层,一个pool层),三个二维卷积层(每个模块包含两个二维卷积层,一个relu层,一个pool层),三个全连接层。损失函数为交叉熵。计算公式如下:

神经网络的输出为k维向量[a0,a1,...ak-1],带入softmax公式计算得到k维向量s=[s0,s1…,sk-1];

将计算得到的s以及该样本的标签向量y[y0,y1…,yk-1](其中yi=1,i为该样本对应的类别)带入交叉熵公式,得到损失l。

将婴儿哭声检测部分检测到的哭声(经预处理得到的m段声音)作为输入。

将m声音送入预先训练好的神经网络,得到m个预测结果,对m个预测结果做投票处理,得票最高的预测结果即为最终预测结果。

用户反馈,用户可以对分析结果作出反馈,点击yes或no按钮,如果为no,用户可以选择她认为正确的类别。

一种利用婴儿哭声进行情感分析的方法,所述方法执行以下步骤:

训练数据样本,得到检测模型,使用该检测模型检测输入的待检测声音,判断输入的声音是否为婴儿哭声;

训练数据样本,得到分析模型,使用该分析模型对检测到的婴儿哭声做情感分类;

上传标记为识别错误的声音段及对应的类别标签,同时上传用户当前使用的分类模型;利用用户上传的声音数据和原有的训练数据,微调用户上传的分类模型;下载训练好的新模型,替换原先的模型。

进一步的,所述训练数据样本,得到检测模型,使用该检测模型检测输入的待检测声音,判断输入的声音是否为婴儿哭声的方法执行以下步骤:

收集各种环境声音作为训练数据,并人工为每段声音添加一个分类标签;

将训练数据随机划分为训练集和测试集;

对训练集中的每段声音做采样、随机切割和归一化处理,使得每个采样点的数值在[-1,1]范围内;

将训练数据送入神经网络训练模型;

采集待检测声音;

对采集到的待检测声音做采样,随机切割和归一化处理,使得每个采样点的数值在[-1,1]范围内;

将多段采集到的多段声音送入预先训练好的神经网络,得到预测结果,对预测结果做投票处理,得票最高的预测结果即为最终预测结果。

进一步的,所述训练数据样本,得到分析模型,使用该分析模型对检测到的婴儿哭声做情感分类的方法执行以下步骤:

收集婴儿在不同情感状态下的哭声,并标上类别标签;

将训练数据随机划分为训练集和测试集;

对训练集中的每段声音做预处理,包括:采样、有重叠地切割,对声音做归一化处理,使得每个采样点的数值在[-1,1]范围内;

将训练数据送入神经网络训练模型;

将婴儿哭声检测部分检测到的哭声作为输入。

将声音送入预先训练好的神经网络,得到预测结果,对预测结果做投票处理,得票最高的预测结果即为最终预测结果。

一种利用婴儿哭声进行情感分析的装置,所述装置包括:一种非暂时性的计算机可读存储介质,该存储介质存储了计算指令,其包括:训练数据样本,得到检测模型,使用该检测模型检测输入的待检测声音,判断输入的声音是否为婴儿哭声的代码段;训练数据样本,得到分析模型,使用该分析模型对检测到的婴儿哭声做情感分类的代码段;上传标记为识别错误的声音段及对应的类别标签,同时上传用户当前使用的分类模型;利用用户上传的声音数据和原有的训练数据,微调用户上传的分类模型;下载训练好的新模型,替换原先的模型的代码段。

所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。

需要说明的是,上述实施例提供的系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。

所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。

本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1