一种家庭监控方法、服务端及计算机可读存储介质与流程

文档序号:11476111阅读:148来源:国知局
本发明涉及通信
技术领域
:,尤其涉及一种家庭监控方法、服务端及计算机可读存储介质。
背景技术
::随着深度学习的发展,智能语音和图像视频内容识别最近几年取得了很大的发展。在很多领域中,语音识别的准确率已经接近人类,人脸检测和识别的准确率有了非常大的提升,能够在限定条件下达到和超过人类识别能力。而图像情绪分析技术也被越来越多的机构和企业关注和投入,逐步出现在越来越多的商用场合中。于此同时,随着今年来国内经济的快速发展和人口流动,城市人口在婴儿看护方面也遇到了以前未如此广泛遇到的麻烦,主要体现在婴幼儿的照看监护问题。中国传统的父母帮忙照看孩子的问题不再适应现代社会。中介保姆虐待婴幼儿的事情屡见报端。如何对家庭进行监控,防止虐待婴幼儿的事情发生是亟待解决的问题。技术实现要素:本发明实施例提供了一种家庭监控方法、服务端及计算机可读存储介质,旨在对家庭进行监控,当有虐待婴幼儿的事情发生时发出警报。有鉴于此,本发明实施例第一方面,提供了一种家庭监控方法,所述方法包括:接收监控端发来的监控信息,所述监控信息包括视频信息和图像信息中的至少一种;根据人脸情绪识别服务模型判断所述监控信息是否包含预设情绪类型;若是,则向预设终端发出警报。在一个可能的设计中,所述监控信息还包括音频信息;所述向预设终端发出警报之前,所述方法还包括:根据音频服务模型判断所述音频信息是否为预制信息;若是,则执行所述向预设终端发出警报的步骤。在一个可能的设计中,所述音频服务模型包括第一服务模型,所述预制信息包括第一预制信息;所述根据音频服务模型判断所述音频信息是否为预制信息,具体包括:对所述音频信息进行语音参数提取得到第一信息;根据第一服务模型判断所述信息是否为第一预制信息。在一个可能的设计中,所述音频服务模型包括第二服务模型,所述预制信息包括第二预制信息;所述根据音频服务模型判断所述音频信息是否为预制信息,具体包括:对所述音频信息进行语音参数提取得到第一信息;将所述第一信息转换成文本信息;根据第二服务模型判断所述文本信息是否为第二预制信息。在一个可能的设计中,所述根据音频服务模型判断所述音频信息是否为预制信息之前,所述方法还包括:通过训练数据库中训练数据结合通用机器学习分类器算法或者深度神经网络建立所述音频服务模型。在一个可能的设计中,所述向预设终端发出警报的步骤之后,还包括:接收预设终端发出的反馈信息;根据所述反馈信息将对应的所述预制信息进行标记,并加入到所述训练数据库。在一个可能的设计中,所述根据人脸情绪识别服务模型判断所述监控信息是否包含预设情绪类型之前,所述方法还包括:通过训练数据库中训练数据结合定位特征提取算法或深度卷积神经网络建立所述人脸情绪识别服务模型。在一个可能的设计中,所述向预设终端发出警报的步骤之后,还包括:接收预设终端发出的反馈信息;根据所述反馈信息将对应的所述监控信息进行标记,并加入到所述训练数据库。本发明实施例第二方面提供了一种家庭监控服务端,所述家庭监控服务端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现本发明实施例提供的家庭监控方法的步骤。本发明实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有家庭监控程序,所述家庭监控程序被处理器执行时实现本发明实施例提供的家庭监控方法的步骤。从以上技术方案可以看出,本发明实施例中,通过预设情绪类型的检测判断是否向预设终端发出警报,从而防止在家庭环境下可能发生的保姆虐待婴幼儿的情况。附图说明图1为本发明一种家庭监控系统的实施例的示意图;图2为本发明一种家庭监控方法另一个实施例的示意图;图3为本发明一种家庭监控方法另一个实施例的示意图;图4为本发明一种家庭监控方法另一个实施例的示意图;图5为本发明一种家庭监控方法另一个实施例的示意图;图6为本发明一种家庭监控方法中训练数据自学习的过程的示意图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。如图1所示,本发明提供的家庭监控方法,应用于家庭监控系统,该家庭监控系统包括用于获取视频信息和图像信息中的至少一种的监控信息的监控端101,用于处理监控信息的服务端102以及用于接收报警的预设终端103。其中,监控端101可以集成在类似智能音箱的家庭终端中,主要完成的功能是视频数据的采集,此外,还可以对音频数据进行采集。在视频数据的采集上,可以通过多摄像头协同工作配合实时目标检测功能实现多角度视频采集和目标物体的自动实时对焦功能;在音频数据的采集上,可以采用麦克风阵列解决5米远场拾音问题。此外,监控端101还可以具有音频码率与网络带宽自适应的功能。当网络带宽较低或者时延较大时,自动切换到8khz采样频率,当带宽较大时延较低时自动切换到16khz甚至更高的采样频率。上述预设终端可以以各种形式来实施。例如,本发明中描述的预设终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(personaldigitalassistant,pda)、便捷式媒体播放器(portablemediaplayer,pmp)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字tv、台式计算机等固定终端。终端在接收到警报后,可以对监控端发起会话控制。请参阅图2,图2为本发明一种家庭监控方法一个实施例示意图,应用于家庭监控系统中的服务端,包括步骤:201、开始;202、接收监控端发出的监控信息,所述监控信息包括视频信息和图像信息中的至少一种;203、根据人脸情绪识别服务模型判断所述监控信息是否包含预设情绪类型;若是,则进入步骤204;若否,则进入步骤205;一般地,在此步骤之前,可以先对目标人物进行识别,该目标人物可以是婴幼儿的看护者,也可以是婴幼儿自身;然后根据监控信息对目标人五的人脸进行情绪分析。行业的通用做法是把人脸情绪分为如下八种类型:愤怒、轻蔑、厌恶、恐惧、快乐、无表情、悲伤以及惊讶。在本实施例中,可以将上述八种类型进行二次划分,分为常规情绪、友好情绪及不友好情绪三种;其中,常规情绪包括无表情、恐惧、悲伤、惊讶以及轻蔑;友好情绪包括快乐;不友好情绪包括愤怒、厌恶;此时,预设情绪类型为上述不友好情绪;当然也可以由用户自行定义需要监测的情绪类型,将其作为预设情绪类型;204、向预设终端发出警报;205、结束。需要说明的是,在步骤202之前,还可以包括步骤:接收预设终端发出的预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿看护者的不友好情绪或婴幼儿看护者的不友好情绪等;当然,若预制信息的类型是固定的时候,则可以不执行该步骤,例如预定服务是婴幼儿看护者的不友好情绪就发出警报;此外,预设终端接收到报警信息后,可以进行会话干预;更具体地,预设终端接收到报警信息后,可以向监控端发起语音会话或视频会话;当然,该步骤并不是必须要执行的。本发明中建立人脸情绪识别服务模型可以通过训练数据库中训练数据结合定位特征提取算法或深度卷积神经网络建立。其中,定位特征提取算法在人脸情绪的识别的训练过程和实测过程中都起着重要的作用,定位的准确度和特征提取的有效程度直接影响着最终结果的准确性。本发明并不限制具体定位特征提取算法的选择,具体实施过程中可以采用业界已经证明了效果较好的gabor变换,边缘直方图eoh等算法。而建立人脸情绪识别服务模型所需的人脸情绪样本可以通过开源或者购买情绪识别数据库实现。而数据采样与情绪识别数据样本的标记可以增加特定场景自建样本数据库,并手工进行标注。具体实施时,在预设终端发出警报之后,所述方法还可以包括:接收预设终端发出的反馈信息;根据所述反馈信息将对应的所述监控信息进行标记,并加入到所述训练数据库。如此,可以进一步补充人脸情绪样本以更新人脸情绪识别服务模型。如图3所示,本发明实施例提供的家庭监控方法的另一个可选实施例中,包括:301、开始;302、预设终端向服务端发出预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿看护者的不友好情绪或婴幼儿看护者的不友好情绪、婴幼儿哭声等;需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是婴幼儿看护者的不友好情绪且伴随婴幼儿哭声就发出警报;303、监控端向服务端发出的监控信息,所述监控信息包括视频信息和图像信息中的至少一种以及音频信息;304、根据人脸情绪识别服务模型判断所述监控信息是否包含预设情绪类型;若是,则进入步骤305;若否,则进入步骤307;一般地,在此步骤之前,可以先对目标人物进行识别,该目标人物可以是婴幼儿的看护者,也可以是婴幼儿自身;然后根据监控信息对目标人五的人脸进行情绪分析。行业的通用做法是把人脸情绪分为如下八种类型:愤怒、轻蔑、厌恶、恐惧、快乐、无表情、悲伤以及惊讶。在本实施例中,可以将上述八种类型进行二次划分,分为常规情绪、友好情绪及不友好情绪三种;其中,常规情绪包括无表情、恐惧、悲伤、惊讶以及轻蔑;友好情绪包括快乐;不友好情绪包括愤怒、厌恶;此时,预设情绪类型为上述不友好情绪;当然也可以由用户自行定义需要监测的情绪类型,将其作为预设情绪类型;本发明中建立人脸情绪识别服务模型可以通过训练数据库中训练数据结合定位特征提取算法或深度卷积神经网络建立。305、根据音频服务模型判断所述音频信息是否为预制信息;若是,则进入步骤306;若否,则进入步骤307;本实施例中的预制信息为婴幼儿的哭声;306、向预设终端发出警报;307、结束。需要说明的是,还可以包括步骤308、预设终端接收到报警信息后,可以进行会话干预;更具体地,预设终端接收到报警信息后,可以向监控端发起语音会话或视频会话;当然,该步骤并不是必须要执行的。同样地,具体实施时,在预设终端发出警报之后,所述方法还可以包括:接收预设终端发出的反馈信息;根据所述反馈信息将对应的所述监控信息进行标记,并加入到训练数据库。如此,可以进一步补充人脸情绪样本以更新人脸情绪识别服务模型。在上述图3对应的实施例的基础上,本发明实施例提供的家庭监控方法的另一个可选实施例中,所述音频服务模型包括第一服务模型,所述预制信息包括第一预制信息;如图4所示,所述根据音频服务模型判断所述音频信息是否为预制信息,具体包括:401、开始;402、对所述音频信息进行语音参数提取得到第一信息;该语音特征参数可以是梅尔倒谱系数(mel-scalefrequencycepstralcoefficients,mfcc);403、根据第一服务模型判断所述信息是否为第一预制信息;本实施例中,第一预制信息为婴幼儿的哭声,该第一预制信息音频格式的信息;该第一服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述第一服务模型;405、结束。本发明中第一服务模型可以采用以下方法建立:收集预先标记好的训练数据置于训练数据库内,本发明中该训练数据根据第一预制信息而定;例如预制信息包括哭声,则训练数据库为哭声识别训练数据。该哭声识别训练数据主要为带标签的音频样本。通过训练大量的婴儿哭声和非婴儿哭声的的音频样本,进行算法模型的训练、验证和评估运行过程。通常情况下,我们可以采用通用机器学习分类器算法或者深度神经网络进行分类判断。单一服务类型的判断属于简单的二分类问题,复合服务类型的判断属于多分类器问题。一般情况下,类似softmax分类器或者支持向量机等通用机器学习算法已经能够达到较高的准确率,也可以根据实测情况结合深度神经网络进行实现。训练过程完成,会生成第一服务模型以进行第一预制信息的判断。在上述图3对应的实施例的基础上,本发明实施例提供的家庭监控方法的另一个可选实施例中,所述音频服务模型包括第二服务模型,所述预制信息包括第二预制信息;如图5所示,所述根据音频服务模型判断所述音频信息是否为预制信息,具体包括:501、开始;502、对所述音频信息进行语音参数提取得到第一信息;503、将所述第一信息转换成文本信息;在本发明的一个实施例中,该步骤具体可以包括:将所述第一信息进行语音识别生成语言文本信息;对所述语言文本信息进行语法语义处理生成语义文本信息;将所述语义文本信息用作所述文本信息;504、根据第二服务模型判断所述文本信息是否为第二预制信息;本实施例中,第二预制信息为文本信息;在具体实施时,第二预制信息可以为婴幼儿的哭声;上述第二服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型;505、结束。本发明中第二服务模型可以采用以下方法建立:收集预先标记好的训练数据置于训练数据库内,本发明中该训练数据根据第二预制信息而定;例如预制信息包括哭声,则训练数据库为哭声识别训练数据。该哭声识别训练数据主要为带标签的文本样本。通过训练大量的婴儿哭声和非婴儿哭声的的文本样本,进行算法模型的训练、验证和评估运行过程。通常情况下,我们可以采用通用机器学习分类器算法或者深度神经网络进行分类判断。单一服务类型的判断属于简单的二分类问题,复合服务类型的判断属于多分类器问题。一般情况下,类似softmax分类器或者支持向量机等通用机器学习算法已经能够达到较高的准确率,也可以根据实测情况结合深度神经网络进行实现。训练过程完成,会生成第二服务模型以进行第二预制信息的判断。请参照图6,在本发明中,监控信息601包括音频信息603以及视频信息或图像信息602中的至少一种,其中音频信息603用于监控是否有婴幼儿的哭声;而视频信息或图像信息602则用于监控婴幼儿看护者或婴幼儿自身的情绪类型。对于音频信息603而言,其可以直接以音频格式进行监控,也可以先转换成文本信息604再进行监控;因此,本发明中的训练数据库606包括人脸情绪样本,还可以包括带标签的音频样板、带标签的文本样本中的至少一种。此外,经由预设终端反馈的监控信息也可以将反馈信息标注在对应的监控信息中并存入训练数据库606以丰富训练数据库的训练数据。上述人脸情绪样本以及带标签的音频样板或带标签的文本样本经过服务模型引擎607生成相应的服务模型即人脸情绪识别服务模型、第一服务模型、第二服务模型,利用该些服务模型完成人脸情绪类型、第一预制信息和第二预制信息的判断。本发明还提供一种家庭监控服务端,所述家庭监控服务端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现本发明任一实施例提供的家庭监控方法的步骤。更具体地,所述计算机程序被所述处理器执行以实现以下步骤:接收预设终端发出预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿看护者的不友好情绪或婴幼儿看护者的不友好情绪等;需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是婴幼儿看护者的不友好情绪就发出警报;接收监控端发出的监控信息,所述监控信息包括视频信息和图像信息中的至少一种;根据人脸情绪识别服务模型判断所述监控信息是否包含预设情绪类型;若是,则向预设终端发出警报;更具体地,可以先对目标人物进行识别,该目标人物可以是婴幼儿的看护者,也可以是婴幼儿自身;然后根据监控信息对目标人五的人脸进行情绪分析。行业的通用做法是把人脸情绪分为如下八种类型:愤怒、轻蔑、厌恶、恐惧、快乐、无表情、悲伤以及惊讶。在本实施例中,可以将上述八种类型进行二次划分,分为常规情绪、友好情绪及不友好情绪三种;其中,常规情绪包括无表情、恐惧、悲伤、惊讶以及轻蔑;友好情绪包括快乐;不友好情绪包括愤怒、厌恶;此时,预设情绪类型为上述不友好情绪;当然也可以由用户自行定义需要监测的情绪类型,将其作为预设情绪类型;需要说明的是,本发明中建立人脸情绪识别服务模型可以通过训练数据库中训练数据结合定位特征提取算法或深度卷积神经网络建立。其中,定位特征提取算法在人脸情绪的识别的训练过程和实测过程中都起着重要的作用,定位的准确度和特征提取的有效程度直接影响着最终结果的准确性。本发明并不限制具体定位特征提取算法的选择,具体实施过程中可以采用业界已经证明了效果较好的gabor变换,边缘直方图eoh等算法。而建立人脸情绪识别服务模型所需的人脸情绪样本可以通过开源或者购买情绪识别数据库实现。而数据采样与情绪识别数据样本的标记可以增加特定场景自建样本数据库,并手工进行标注。此外,在预设终端发出警报之后,所述计算机程序被所述处理器执行以实现以下步骤:接收预设终端发出的反馈信息;根据所述反馈信息将对应的所述监控信息进行标记,并加入到所述训练数据库。如此,可以进一步补充人脸情绪样本以更新人脸情绪识别服务模型。本发明实施例提供的家庭监控服务端的另一个可选实施例中,所述计算机程序被所述处理器执行以实现以下步骤:接收预设终端发出预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿看护者的不友好情绪或婴幼儿看护者的不友好情绪、婴幼儿哭声等;需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是婴幼儿看护者的不友好情绪且伴随婴幼儿哭声就发出警报;接收监控端发出的监控信息,所述监控信息包括视频信息和图像信息中的至少一种以及音频信息;根据人脸情绪识别服务模型判断所述监控信息是否包含预设情绪类型;一般地,可以先对目标人物进行识别,该目标人物可以是婴幼儿的看护者,也可以是婴幼儿自身;然后根据监控信息对目标人五的人脸进行情绪分析。行业的通用做法是把人脸情绪分为如下八种类型:愤怒、轻蔑、厌恶、恐惧、快乐、无表情、悲伤以及惊讶。在本实施例中,可以将上述八种类型进行二次划分,分为常规情绪、友好情绪及不友好情绪三种;其中,常规情绪包括无表情、恐惧、悲伤、惊讶以及轻蔑;友好情绪包括快乐;不友好情绪包括愤怒、厌恶;此时,预设情绪类型为上述不友好情绪;当然也可以由用户自行定义需要监测的情绪类型,将其作为预设情绪类型;本发明中建立人脸情绪识别服务模型可以通过训练数据库中训练数据结合定位特征提取算法或深度卷积神经网络建立;若是,则根据音频服务模型判断所述音频信息是否为预制信息;本实施例中的预制信息为婴幼儿的哭声;若是,则向预设终端发出警报;同样地,具体实施时,在预设终端发出警报之后,所述计算机程序被所述处理器执行以实现以下步骤:接收预设终端发出的反馈信息;根据所述反馈信息将对应的所述监控信息进行标记,并加入到训练数据库。如此,可以进一步补充人脸情绪样本以更新人脸情绪识别服务模型。可选地,本发明实施例提供的家庭监控服务端的另一个可选实施例中,所述音频服务模型包括第一服务模型,所述预制信息包括第一预制信息;所述根据音频服务模型判断所述音频信息是否为预制信息时,所述计算机程序被所述处理器执行以实现以下步骤:对所述音频信息进行语音参数提取得到第一信息;该语音特征参数可以是梅尔倒谱系数(mel-scalefrequencycepstralcoefficients,mfcc);根据第一服务模型判断所述信息是否为第一预制信息;本实施例中,第一预制信息为婴幼儿的哭声,该第一预制信息音频格式的信息;该第一服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述第一服务模型;本发明中第一服务模型可以采用以下方法建立:收集预先标记好的训练数据置于训练数据库内,本发明中该训练数据根据第一预制信息而定;例如预制信息包括哭声,则训练数据库为哭声识别训练数据。该哭声识别训练数据主要为带标签的音频样本。通过训练大量的婴儿哭声和非婴儿哭声的的音频样本,进行算法模型的训练、验证和评估运行过程。通常情况下,我们可以采用通用机器学习分类器算法或者深度神经网络进行分类判断。单一服务类型的判断属于简单的二分类问题,复合服务类型的判断属于多分类器问题。一般情况下,类似softmax分类器或者支持向量机等通用机器学习算法已经能够达到较高的准确率,也可以根据实测情况结合深度神经网络进行实现。训练过程完成,会生成第一服务模型以进行第一预制信息的判断。可选地,本发明实施例提供的家庭监控服务端的另一个可选实施例中,所述音频服务模型包括第二服务模型,所述预制信息包括第二预制信息;所述根据音频服务模型判断所述音频信息是否为预制信息,所述计算机程序被所述处理器执行以实现以下步骤:对所述音频信息进行语音参数提取得到第一信息;将所述第一信息转换成文本信息;在本发明的一个实施例中,该步骤具体可以包括:将所述第一信息进行语音识别生成语言文本信息;对所述语言文本信息进行语法语义处理生成语义文本信息;将所述语义文本信息用作所述文本信息;根据第二服务模型判断所述文本信息是否为第二预制信息;本实施例中,第二预制信息为文本信息;在具体实施时,第二预制信息可以为婴幼儿的哭声;上述第二服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型;本发明中第二服务模型可以采用以下方法建立:收集预先标记好的训练数据置于训练数据库内,本发明中该训练数据根据第二预制信息而定;例如预制信息包括哭声,则训练数据库为哭声识别训练数据。该哭声识别训练数据主要为带标签的文本样本。通过训练大量的婴儿哭声和非婴儿哭声的的文本样本,进行算法模型的训练、验证和评估运行过程。通常情况下,我们可以采用通用机器学习分类器算法或者深度神经网络进行分类判断。单一服务类型的判断属于简单的二分类问题,复合服务类型的判断属于多分类器问题。一般情况下,类似softmax分类器或者支持向量机等通用机器学习算法已经能够达到较高的准确率,也可以根据实测情况结合深度神经网络进行实现。训练过程完成,会生成第二服务模型以进行第二预制信息的判断。本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有家庭监控程序,所述家庭监控程序被处理器执行时实现本发明任一实施例提供的家庭监控方法的步骤。更具体地,所述家庭监控程序被所述处理器执行以实现以下步骤:接收预设终端发出预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿看护者的不友好情绪或婴幼儿看护者的不友好情绪等;需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是婴幼儿看护者的不友好情绪就发出警报;接收监控端发出的监控信息,所述监控信息包括视频信息和图像信息中的至少一种;根据人脸情绪识别服务模型判断所述监控信息是否包含预设情绪类型;若是,则向预设终端发出警报;更具体地,可以先对目标人物进行识别,该目标人物可以是婴幼儿的看护者,也可以是婴幼儿自身;然后根据监控信息对目标人五的人脸进行情绪分析。行业的通用做法是把人脸情绪分为如下八种类型:愤怒、轻蔑、厌恶、恐惧、快乐、无表情、悲伤以及惊讶。在本实施例中,可以将上述八种类型进行二次划分,分为常规情绪、友好情绪及不友好情绪三种;其中,常规情绪包括无表情、恐惧、悲伤、惊讶以及轻蔑;友好情绪包括快乐;不友好情绪包括愤怒、厌恶;此时,预设情绪类型为上述不友好情绪;当然也可以由用户自行定义需要监测的情绪类型,将其作为预设情绪类型;需要说明的是,本发明中建立人脸情绪识别服务模型可以通过训练数据库中训练数据结合定位特征提取算法或深度卷积神经网络建立。其中,定位特征提取算法在人脸情绪的识别的训练过程和实测过程中都起着重要的作用,定位的准确度和特征提取的有效程度直接影响着最终结果的准确性。本发明并不限制具体定位特征提取算法的选择,具体实施过程中可以采用业界已经证明了效果较好的gabor变换,边缘直方图eoh等算法。而建立人脸情绪识别服务模型所需的人脸情绪样本可以通过开源或者购买情绪识别数据库实现。而数据采样与情绪识别数据样本的标记可以增加特定场景自建样本数据库,并手工进行标注。此外,在预设终端发出警报之后,所述家庭监控程序被所述处理器执行以实现以下步骤:接收预设终端发出的反馈信息;根据所述反馈信息将对应的所述监控信息进行标记,并加入到所述训练数据库。如此,可以进一步补充人脸情绪样本以更新人脸情绪识别服务模型。本发明实施例提供的计算机可读存储介质的另一个可选实施例中,所述家庭监控程序被所述处理器执行以实现以下步骤:接收预设终端发出预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿看护者的不友好情绪或婴幼儿看护者的不友好情绪、婴幼儿哭声等;需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是婴幼儿看护者的不友好情绪且伴随婴幼儿哭声就发出警报;接收监控端发出的监控信息,所述监控信息包括视频信息和图像信息中的至少一种以及音频信息;根据人脸情绪识别服务模型判断所述监控信息是否包含预设情绪类型;一般地,可以先对目标人物进行识别,该目标人物可以是婴幼儿的看护者,也可以是婴幼儿自身;然后根据监控信息对目标人五的人脸进行情绪分析。行业的通用做法是把人脸情绪分为如下八种类型:愤怒、轻蔑、厌恶、恐惧、快乐、无表情、悲伤以及惊讶。在本实施例中,可以将上述八种类型进行二次划分,分为常规情绪、友好情绪及不友好情绪三种;其中,常规情绪包括无表情、恐惧、悲伤、惊讶以及轻蔑;友好情绪包括快乐;不友好情绪包括愤怒、厌恶;此时,预设情绪类型为上述不友好情绪;当然也可以由用户自行定义需要监测的情绪类型,将其作为预设情绪类型;本发明中建立人脸情绪识别服务模型可以通过训练数据库中训练数据结合定位特征提取算法或深度卷积神经网络建立;若是,则根据音频服务模型判断所述音频信息是否为预制信息;本实施例中的预制信息为婴幼儿的哭声;若是,则向预设终端发出警报;同样地,具体实施时,在预设终端发出警报之后,所述家庭监控程序被所述处理器执行以实现以下步骤:接收预设终端发出的反馈信息;根据所述反馈信息将对应的所述监控信息进行标记,并加入到训练数据库。如此,可以进一步补充人脸情绪样本以更新人脸情绪识别服务模型。可选地,本发明实施例提供的计算机可读存储介质的另一个可选实施例中,所述音频服务模型包括第一服务模型,所述预制信息包括第一预制信息;所述根据音频服务模型判断所述音频信息是否为预制信息时,所述家庭监控程序被所述处理器执行以实现以下步骤:对所述音频信息进行语音参数提取得到第一信息;该语音特征参数可以是梅尔倒谱系数(mel-scalefrequencycepstralcoefficients,mfcc);根据第一服务模型判断所述信息是否为第一预制信息;本实施例中,第一预制信息为婴幼儿的哭声,该第一预制信息音频格式的信息;该第一服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述第一服务模型;本发明中第一服务模型可以采用以下方法建立:收集预先标记好的训练数据置于训练数据库内,本发明中该训练数据根据第一预制信息而定;例如预制信息包括哭声,则训练数据库为哭声识别训练数据。该哭声识别训练数据主要为带标签的音频样本。通过训练大量的婴儿哭声和非婴儿哭声的的音频样本,进行算法模型的训练、验证和评估运行过程。通常情况下,我们可以采用通用机器学习分类器算法或者深度神经网络进行分类判断。单一服务类型的判断属于简单的二分类问题,复合服务类型的判断属于多分类器问题。一般情况下,类似softmax分类器或者支持向量机等通用机器学习算法已经能够达到较高的准确率,也可以根据实测情况结合深度神经网络进行实现。训练过程完成,会生成第一服务模型以进行第一预制信息的判断。可选地,本发明实施例提供的计算机可读存储介质的另一个可选实施例中,所述音频服务模型包括第二服务模型,所述预制信息包括第二预制信息;所述根据音频服务模型判断所述音频信息是否为预制信息,所述家庭监控程序被所述处理器执行以实现以下步骤:对所述音频信息进行语音参数提取得到第一信息;将所述第一信息转换成文本信息;在本发明的一个实施例中,该步骤具体可以包括:将所述第一信息进行语音识别生成语言文本信息;对所述语言文本信息进行语法语义处理生成语义文本信息;将所述语义文本信息用作所述文本信息;根据第二服务模型判断所述文本信息是否为第二预制信息;本实施例中,第二预制信息为文本信息;在具体实施时,第二预制信息可以为婴幼儿的哭声;上述第二服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型;本发明中第二服务模型可以采用以下方法建立:收集预先标记好的训练数据置于训练数据库内,本发明中该训练数据根据第二预制信息而定;例如预制信息包括哭声,则训练数据库为哭声识别训练数据。该哭声识别训练数据主要为带标签的文本样本。通过训练大量的婴儿哭声和非婴儿哭声的的文本样本,进行算法模型的训练、验证和评估运行过程。通常情况下,我们可以采用通用机器学习分类器算法或者深度神经网络进行分类判断。单一服务类型的判断属于简单的二分类问题,复合服务类型的判断属于多分类器问题。一般情况下,类似softmax分类器或者支持向量机等通用机器学习算法已经能够达到较高的准确率,也可以根据实测情况结合深度神经网络进行实现。训练过程完成,会生成第二服务模型以进行第二预制信息的判断。本发明实施例提供的家庭监控方法、服务端及计算机可读存储介质,实时检测家庭环境下婴幼儿监控中可能发生的不友好情绪或长时间哭闹等情况,并触发告警,达到实时监控的效果。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1