一种机器人情感分析方法、系统及机器人与流程

文档序号:30975431发布日期:2022-08-02 23:08阅读:143来源:国知局
一种机器人情感分析方法、系统及机器人与流程

1.本发明涉及智能机器人领域,尤其涉及一种机器人情感分析方法、系统及机器人。


背景技术:

2.情感分析是对人们对产品、服务、组织、个人、问题、事件、话题及其属性的观点、情感、情绪、评价和态度的计算研究。人工智能的深度学习技术作为一项学习数据的多层特征或表征的强大机器学习技术,其分支包括计算机视觉、语音识别、nlp等,在很多应用领域取得了显著的效果,近些年基于文本的nlp技术和基于图像的计算机视觉技术在情感分析任务上有了广泛的应用。
3.目前的情感分析方法主要集中在分析人的面部表情以及身体姿态,而当人身处不同类型的场景中时,仅通过分析人的面部表情则不足以识别一个人的情感状态。而融合人体特征和场景信息的情感分析模型部署在机器人端上时,由于受到硬件算力的限制,运算的速度较慢。


技术实现要素:

4.本发明提供了一种机器人情感分析方法和系统,以解决机器人情感分析模型运算速度慢的技术问题。
5.为了解决上述技术问题,第一方面,本发明实施例提供了一种机器人情感分析方法,包括:
6.获取待分析的图像数据;
7.根据加速后的图像识别模型,对所述图像数据的目标区域进行定位,得到人体框;
8.将所述人体框和所述图像数据输入至情感分析模型,以使所述情感分析模型对所述人体框和所述图像数据进行融合计算,得到第一情感分类结果;其中,所述情感分析模型包括:加速后的人体特征提取模型、加速后的场景特征提取模型以及加速后的融合分类模型;
9.根据所述第一情感分类结果,控制机器人的人机交互行为。
10.本发明通过加速后的图像识别模型将被测对象从图像数据中识别出来,并输出人体框;情感分析模型根据人体框和图像数据进行融合计算,得到第一情感分类结果。本发明除了根据人体进行情感分析外,还根据图像数据结合人体框进行融合计算,使最终的情感分类结果考虑到场景因素对被测者情感识别的影响。而且,本发明在图像识别环节和融合计算环节使用的模型都经过加速,在运算速度上更快。
11.进一步地,在所获取待分析的图像数据之前,包括:
12.加载coco数据集中的第一图片数据和第一标签数据,并对所述第一图片数据和第一标签数据进行归一化;初始化yolov3模型的第一主干网络、特征金字塔网络以及第一全连接网络,得到初始化的yolov3模型;
13.输入所述第一图片数据至所述初始化的yolov3模型,得到三维张量嵌入;
14.根据所述第一标签和所述三维张量嵌入选用第一损失函数计算损失,通过反向传播求解得到第一参数梯度;
15.根据第一参数梯度调整参数,直到所述初始化的yolov3模型收敛,获得所述图像识别模型。
16.进一步地,在所述获取待分析的图像数据之前,还包括:
17.加载emotic数据集中的第二图片数据和第二标签数据,加载人体特征提取模型和场景特征提取模型,并对所述第二图片数据和第二标签数据进行归一化,初始化基线cnn模型的第二主干网络、第二全连接网络;其中,采用imagenet数据集预训练的第一resnet50模型作为人体特征提取模型,采用places365预训练的第二resnet50模型作为场景特征提取模型;
18.所述人体特征提取模型提取所述第二图片数据的第二人体特征,所述场景特征提取模型提取所述第二图片数据的第二场景特征,所述基线cnn模型融合所述人体特征和所述场景特征,得到第二情感分类结果;其中,所述第二情感分类结果包含第二连续情感分类结果和第二离散情感分类结果;
19.根据所述第二标签数据和所述第二离散情感分类结果采用加权平方误差损失函数计算损失,通过反向传播求解得到第二参数梯度;根据所述第二标签数据和所述第二连续情感分类结果采用l1损失函数计算损失,通过反向传播求解得到第三参数梯度;
20.根据所述第二参数梯度和所述第三参数梯度调整参数,直到所述基线cnn模型收敛,获得所述融合分类模型。
21.本发明在使用图像识别模型和情感分析模型之前,对所使用的模型都进行预训练,其中采用coco数据集作为图像识别模型的训练集,并通过第一损失函数和调整参数使图像识别模型收敛,最终使用的图像识别模型能够更准确的选取目标区域的人体框。基线cnn模型融合所述人体特征和所述场景特征,得到第二情感分类结果,第二情感分类结果进一步区分为第二离散情感分类结果和第二连续情感分类结果;这种分类方式较单一的离散情感分类更为细致,对被测者情感的识别更为准确。
22.进一步地,所述加速后的图像识别模型、加速后的人体特征提取模型、加速后的场景特征提取模型以及加速后的融合分类模型,具体为:
23.确认储存所述图像识别模型、所述人体特征提取模型、所述场景特征提取模型以及所述融合分类模型的机器人主机的cuda版本,加载与cuda版本对应的tensorrt优化器;
24.转换所述图像识别模型至onnx格式的图像识别模型;转换所述人体特征提取模型至onnx格式的人体特征提取模型;转换所述场景特征提取模型至onnx格式的场景特征提取模型;转换所述融合分类模型至onnx格式的融合分类模型;
25.转换所述onnx格式的图像识别模型至tensorrt格式的图像识别模型;转换所述onnx格式的人体特征提取模型至tensorrt格式的人体特征提取模型;转换所述onnx格式的场景特征提取模型至tensorrt格式的场景特征提取模型;转换所述onnx格式的融合分类模型至tensorrt格式的融合分类模型;
26.反序列化所述tensorrt格式的图像识别模型、所述tensorrt格式的人体特征提取模型、所述tensorrt格式的场景特征提取模型以及所述tensorrt格式的融合分类模型,并创建运行引擎;
27.得到加速后的图像识别模型、加速后的人体特征提取模型、加速后的场景特征提取模型以及加速后的融合分类模型。
28.本发明采用tensorrt优化器对情感分析过程使用的模型进行加速,将这些模型转换成通用的onnx格式,再将onnx格式的模型转为tensorrt格式,反序列化后创建运行引擎;这种方法可将本发明使用的图像识别模型、人体特征提取模型、场景特征提取模型以及融合分类模型转换为占用存储空间更小的格式,并调用更少的资源进行运算,提高了模型的运算速度。
29.进一步地,所述根据加速后的图像识别模型,对所述图像数据的目标区域进行定位,得到人体框,具体为:
30.读取所述图像数据的视频帧;
31.将所述视频帧裁剪为预设分辨率的尺寸;
32.将裁剪后的所述视频帧输入至所述加速后的图像识别模型的主干网络中的backbone模块,经所述加速后的图像识别模型的特征金字塔网络提取特征;
33.根据所述特征输出人体区域的边界框坐标、分数以及多个人体框,并对多个所述人体框执行非极大抑制操作后,选取置信度最高的所述人体框。
34.进一步地,所述将所述人体框和所述图像数据输入至情感分析模型,以使所述情感分析模型对所述人体框和所述图像数据进行融合计算,得到第一情感分类结果,具体为:
35.输入所述人体框至所述加速后的人体特征提取模型,并输入所述图像数据至所述场景特征提取模型;
36.所述加速后的人体特征提取模型提取所述人体框的第一人体特征,所述场景特征提取模型提取所述图像数据的第一场景特征;
37.所述加速后的融合分类模型融合所述第一人体特征和所述第一场景特征,得到第一情感分类结果。
38.进一步地,所述第一情感分类结果,包括:第一离散情感分类结果和第一连续情感分类结果;
39.第一离散情感分类结果包括:平和、温柔、期待、尊重、自信、感兴趣、高兴、激动、惊喜、受挫、有敌意、嫉妒、疲倦、疼痛、犹疑、恐惧、受伤、忧虑、烦恼、生气、厌恶、悲伤、无聊或尴尬中的一种;
40.第一连续情感分类结果包括:高兴程度、激动程度以及控制程度,其中,每个第一连续情感分类结果都取预设范围内的整数值。
41.加速后的融合分类模型融合所述人体特征和所述场景特征,得到第一情感分类结果,第一情感分类结果进一步区分为第一离散情感分类结果和第一连续情感分类结果;这种分类方式较单一的离散情感分类更为细致,对被测者情感的识别更为准确。
42.第二方面,本发明实施例提供了一种机器人情感分析系统,包括:图像采集模块、第一控制模块、第二控制模块以及交互功能模块;
43.所述图像采集模块用于获取待分析的图像数据;
44.所述第一控制模块用于根据加速后的图像识别模型,对所述图像数据的目标区域进行定位,得到人体框;
45.所述第二控制模块用于将所述人体框和所述图像数据输入至情感分析模型,以使
所述情感分析模型对所述人体框和所述图像数据进行融合计算,得到第一情感分类结果;其中,所述情感分析模型包括:加速后的人体特征提取模型、加速后的场景特征提取模型以及加速后的融合分类模型;
46.所述交互功能模块用于根据所述第一情感分类结果,控制机器人的人机交互行为。
47.进一步地,所述第二控制模块,包括:数据输入单元、特征提取单元以及融合分类单元;
48.所述数据输入单元用于输入所述人体框至所述加速后的人体特征提取模型,并输入所述图像数据至所述场景特征提取模型;
49.所述特征提取单元用于所述加速后的人体特征提取模型提取所述验人体框的第一人体特征,所述场景特征提取模型提取所述图像数据的第一场景特征;
50.所述融合分类单元用于所述加速后的融合分类模型融合所述第一人体特征和所述第一场景特征,得到第一情感分类结果。
51.第三方面,本发明实施例提供了一种机器人,包括:中央控制器、图像采集设备以及人机交互设备;
52.其中,所述中央控制器用于执行任意一项如本发明实施例所述的机器人情感分析方法;
53.所述图像采集设备用于采集待分析的图像数据,并将所述图像数据发送给所述中央控制器;
54.所述人机交互设备用于根据所述中央控制器的控制指令,执行人机交互行为。
55.本发明通过加速后的图像识别模型将被测对象从图像数据中识别出来,并输出人体框;情感分析模型根据人体框和图像数据进行融合计算,得到第一情感分类结果。本发明除了根据人体进行情感分析外,还根据图像数据结合人体框进行融合计算,使最终的情感分类结果考虑到场景因素对被测者情感识别的影响。而且,本发明在图像识别环节和融合计算环节使用的模型都经过加速,在运算速度上更快。
附图说明
56.图1是本发明提供的机器人情感分析方法的一种实施例的流程示意图;
57.图2是本发明提供的图像识别模型预训练的一种实施例的流程示意图;
58.图3是本发明提供的情感分析模型预训练的一种实施例的流程示意图;
59.图4是本发明提供的模型加速的一种实施例的流程示意图;
60.图5是本发明提供的机器人情感分析方法的另一种实施例的流程示意图;
61.图6是本发明提供的机器人情感分析系统的一种实施例的结构示意图;
62.图7是本发明提供的机器人情感分析系统的另一种实施例的结构示意图;
63.图8是本发明提供的机器人的一种实施例的结构示意图;
具体实施方式
64.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
65.实施例一
66.请参照图1,是本发明提供的机器人情感分析方法的一种实施例的流程示意图,其主要包括步骤101至104,具体如下:
67.步骤101:获取待分析的图像数据。
68.步骤102:根据加速后的图像识别模型,对所述图像数据的目标区域进行定位,得到人体框。
69.在本实施例中,图像识别所采用的深度学习模型为yolov3模型,yolov3是yolo(you only look once)系列目标检测算法中的第三个版本,推理速度快,能精确针对小目标进行识别。所述图像识别模型用于对人体区域进行检测和定位,得到人体框。
70.在本实施例中,所述根据加速后的图像识别模型,对所述图像数据的目标区域进行定位,得到人体框,具体为:读取所述图像数据的视频帧;将所述视频帧裁剪为预设分辨率的尺寸;将裁剪后的所述视频帧输入至所述加速后的图像识别模型的主干网络中的backbone模块,经所述加速后的图像识别模型的特征金字塔网络提取特征;根据所述特征输出人体区域的边界框坐标、分数以及多个人体框,并对多个所述先验框执行非极大抑制操作后,选取置信度最高的所述人体框。其中,预设分辨率可选择640*640px或者320*320px;在执行非极大值抑制操作时,对多个人体框按照置信度进行排序,筛选出置信度最高的人体框,并筛除置信度最高的人体框邻域内的其他人体框。
71.步骤103:将所述人体框和所述图像数据输入至情感分析模型,以使所述情感分析模型对所述人体框和所述图像数据进行融合计算,得到第一情感分类结果;其中,所述情感分析模型包括:加速后的人体特征提取模型、加速后的场景特征提取模型以及加速后的融合分类模型。
72.在本实施例中,情感分析模型将图像数据中的环境信息和人体框中的人物信息结合起来去识别人的情感。在接收到人体框和图像数据后,情感分析模型会分别从人体框和图像数据中提取特征,对所述特征进行融合计算并得到第一情感分类结果。
73.在本实施例中,所述第一情感分类结果,包括:第一离散情感分类结果和第一连续情感分类结果;第一离散情感分类结果包括:平和、温柔、期待、尊重、自信、感兴趣、高兴、激动、惊喜、受挫、有敌意、嫉妒、疲倦、疼痛、犹疑、恐惧、受伤、忧虑、烦恼、生气、厌恶、悲伤、无聊或尴尬中的一种;第一连续情感分类结果包括:高兴程度、激动程度以及控制程度,其中,每个第一连续情感分类结果都取预设范围内的整数值。
74.步骤104:根据所述第一情感分类结果,控制机器人的人机交互行为。
75.在本实施例中,机器人可通过运动、语音、表情实现人机交互行为。
76.在本实施例中,通过加速后的图像识别模型将被测对象从图像数据中识别出来,并输出人体框;情感分析模型根据人体框和图像数据进行融合计算,得到第一情感分类结果。本发明除了根据人体进行情感分析外,还根据图像数据结合人体框进行融合计算,使最终的情感分类结果考虑到场景因素对被测者情感识别的影响。而且,本发明在图像识别环节和融合计算环节使用的模型都经过加速,在运算速度上更快。
77.请参照图2,是本发明提供的图像识别模型预训练的一种实施例的流程示意图,其
主要包括步骤201至204,具体如下:
78.在本实施例中,步骤201至204在步骤101之前完成。
79.步骤201:加载coco数据集中的第一图片数据和第一标签数据,并对所述第一图片数据和第一标签数据进行归一化;初始化yolov3模型的第一主干网络、特征金字塔网络以及第一全连接网络,得到初始化的yolov3模型。
80.在本实施例中,训练数据集为ms coco数据集,ms coco数据集是一个大型的目标检测、分割以及字幕数据集,且该数据集以场景理解为目标,其中的图片数据主要从复杂的日常场景中截取,图像中的目标通过精确的分割进行位置的标定,包括91类目标,其中包含日常生活中常见的物体目标。使用该数据集训练yolov3目标检测模型,可以使模型获得较好的泛化性和准确性。
81.步骤202:输入所述第一数据至所述初始化的yolov3模型,得到三维张量嵌入。
82.在本实施例中,yolov3模型得到第一数据后,输出三个不同大小的三维张量嵌入(3d tensorembeddings),对应三个不同的尺寸,每个三维张量嵌入包含:分类分数、边界框坐标以及预测类别。
83.步骤203:根据所述第一标签和所述三维张量嵌入选用第一损失函数计算损失,通过反向传播求解得到第一参数梯度。
84.步骤204:根据第一参数梯度调整参数,直到所述初始化的yolov3模型收敛,获得所述图像识别模型。
85.在本实施例中,在使用图像识别模型和情感分析模型之前,对所使用的模型都进行预训练,其中采用coco数据集作为图像识别模型的训练集,并通过第一损失函数和调整参数使图像识别模型收敛,最终使用的图像识别模型能够更准确的选取目标区域的人体框。
86.请参照图3,是本发明提供的情感分析模型预训练的一种实施例的流程示意图,其主要包括步骤301至304,具体如下:
87.在本实施例中,步骤301至304在步骤101之前完成。
88.步骤301:加载emotic数据集中的第二图片数据和第二标签数据,加载人体特征提取模型和场景特征提取模型,并对所述第二图片数据和第二标签数据进行归一化,初始化基线cnn模型的第二主干网络、第二全连接网络;其中,采用imagenet数据集预训练的第一resnet50模型作为人体特征提取模型,采用places365预训练的第二resnet50模型作为场景特征提取模型。
89.在本实施例中,基线cnn模型的训练集为emotic数据集,该数据集是根据人们明显的情绪状态所标注的图像的集合,该图像中的情景是在自然状态下的,显示了人们在不同的环境中做着不同的事情。人体特征提取模型采用resnet50模型,以目标人体作为输入,生成人体特征。这些特征包括:面部、头部、姿势以及身体外观。为了捕获这些方面,人体特征提取模型使用imagenet数据集进行了预训练,这是一个以对象为中心的数据集。场景特征提取模型同样采用resnet50模型,将整个图像数据作为输入,生成场景特征;这些场景特征可以被解释为场景中出现的属性和对象。为了捕捉这些场景特征,使用places365数据集对场景特征提取模型进行了预训练。
90.步骤302:所述人体特征提取模型提取所述第二图像数据的第二人体特征,所述场
景特征提取模型提取所述第二图像数据的第二场景特征,所述基线cnn模型融合所述人体特征和所述场景特征,得到第二情感分类结果;其中,所述第二情感分类结果包含第二连续情感分类结果和第二离散情感分类结果。
91.在本实施例中,基线cnn模型将前两个人体特征提取模型和场景特征提取模型所获得的特征图展平并拼接成一个1024维度的向量,再经过两层全连接层,最终输出一个26维的向量和一个3维的向量。基线cnn模型结合了两个特征提取模块的特征,对离散情感和连续情感进行了估计。emotic数据集结合了两种不同类型的情感类别:26个离散情感和3个连续情感。场景特征提取模型将识别出的场景信息做进一步的划分,具体划分为积极、消极和常态三种场景类型,同时将26种离散情感人为划分至三种场景类型中,每个集合包含多个离散情感类别,与场景信息的类型相对应,在最终获得情感分类结果时优先考虑场景所对应情感类型中离散情感类别。
92.步骤303:根据所述第二标签数据和所述第二离散情感分类结果采用加权平方误差损失函数计算损失,通过反向传播求解得到第二参数梯度;根据所述第二标签数据和所述第二连续情感分类结果采用l1损失函数计算损失,通过反向传播求解得到第三参数梯度。
93.在本实施例中,对于26个离散情感分类任务,采用加权平方误差损失函数计算损失;对于3个连续情感分类回归任务,采用l1损失函数计算损失。
94.步骤304:根据所述第二参数梯度和所述第三参数梯度调整参数,直到所述cnn基线模型收敛,获得所述融合分类模型。
95.在本实施例中,基线cnn模型融合所述人体特征和所述场景特征,得到第二情感分类结果,第二情感分类结果进一步区分为第二离散情感分类结果和第二连续情感分类结果;这种分类方式较单一的离散情感分类更为细致,对被测者情感的识别更为准确。
96.请参照图4,是本发明提供的模型加速的一种实施例的流程示意图,其主要包括步骤401至405,具体如下:
97.步骤401:确认储存所述图像识别模型、所述人体特征提取模型、所述场景特征提取模型以及所述融合分类模型的机器人主机的cuda版本,加载与cuda版本对应的tensorrt优化器。
98.在本实施例中,图像识别模型、情感分析模型部署在智能机器人端nx、agx等主机上,该类主机装载linux系统以开发和调用机器人的底层控制包,但此设备进行深度模型推理相较而言没有那么高效,因此需要做模型的tensorrt加速,以保证在边缘硬件设备上做到和电脑主机上较为接近的推理速度。而tensorrt是一个深度学习推理优化器,对训练好的模型进行优化,可以为深度学习应用提供低延迟、高吞吐率的部署推理。
99.步骤402:转换所述图像识别模型至onnx格式的图像识别模型;转换所述人体特征提取模型至onnx格式的人体特征提取模型;转换所述场景特征提取模型至onnx格式的场景特征提取模型;转换所述融合分类模型至onnx格式的融合分类模型。
100.步骤403:转换所述onnx格式的图像识别模型至tensorrt格式的图像识别模型;转换所述onnx格式的人体特征提取模型至tensorrt格式的人体特征提取模型;转换所述onnx格式的场景特征提取模型至tensorrt格式的场景特征提取模型;转换所述onnx格式的融合分类模型至tensorrt格式的融合分类模型。
101.在本实施例中,将onnx格式的模型转为tensorrt格式的模型进行加速和部署,在模型转换时会完成前述优化过程中的层间融合。根据步骤403可以得到针对特定gpu平台和网络模型的优化过的tensorrt格式的模型,这个tensorrt格式的模型可以序列化存储到磁盘或内存中。
102.步骤404:反序列化所述tensorrt格式的图像识别模型、所述tensorrt格式的人体特征提取模型、所述tensorrt格式的场景特征提取模型以及所述tensorrt格式的融合分类模型,并创建运行引擎。
103.在本实施例中,将根据步骤403得到的各种tensorrt格式的模型进行反序列化,并创建运行引擎,就可以输入图像数据至该tensorrt格式的模型,并得到第一情感分类结果。同时,在步骤404中会完成内核自动调谐(kernelauto-tuning),跟据数据样本数量、输入数据量选择所述各种tensorrt格式的模型中最优的底层实现;还会完成动态张量记忆(dynamictensormemory),tensorrt为每个张量指定显存,减少内存占用并提高重复使用效率。
104.步骤405:得到加速后的图像识别模型、加速后的人体特征提取模型、加速后的场景特征提取模型以及加速后的融合分类模型。
105.在本实施例中,根据tensorrt优化器对情感分析过程使用的模型进行加速,将这些模型转换成通用的onnx格式,再将onnx格式的模型转为tensorrt格式,反序列化后创建运行引擎;这种方法可将本发明使用的图像识别模型、人体特征提取模型、场景特征提取模型以及融合分类模型转换为占用存储空间更小的格式,并调用更少的资源进行运算,提高了模型的运算速度。
106.请参照图5,是本发明提供的机器人情感分析方法的再一种实施例的流程示意图。图5与图1的区别在于,步骤103具体为步骤501-503,具体如下:
107.步骤501:输入所述人体框至所述加速后的人体特征提取模型,并输入所述图像数据至所述场景特征提取模型。
108.步骤502:所述加速后的人体特征提取模型提取所述验人体框的第一人体特征,所述场景特征提取模型提取所述图像数据的第一场景特征。
109.在本实施例中,加速后的场景特征提取模型将识别出的场景信息做进一步的划分,具体划分为消极、积极和常态三种场景类型。
110.步骤503:所述加速后的融合分类模型融合所述第一人体特征和所述第一场景特征,得到第一情感分类结果。
111.在本实施例中,所述第一情感分类结果,包括:第一离散情感分类结果和第一连续情感分类结果;第一离散情感分类结果包括:平和、温柔、期待、尊重、自信、感兴趣、高兴、激动、惊喜、受挫、有敌意、嫉妒、疲倦、疼痛、犹疑、恐惧、受伤、忧虑、烦恼、生气、厌恶、悲伤、无聊或尴尬中的一种;第一连续情感分类结果包括:高兴程度、激动程度以及控制程度,其中,每个第一连续情感分类结果都取预设范围内的整数值。
112.在本实施例中,人为划分26种离散情感至三种场景类型中,每个集合包含多个离散情感类别,与场景信息的类型相对应,在最终获得情感分类结果时优先考虑场景所对应情感类型中离散情感类别。在展示分析结果时,打印第一情感分类结果至人体框中。
113.请参照图6,是本发明提供的机器人情感分析系统的一种结构示意图。该机器人情
感分析系统包括:图像采集模块601、第一控制模块602、第二控制模块603以及交互功能模块604。
114.其中,图像采集模块601用于获取待分析的图像数据。
115.第一控制模块602用于由加速后的图像识别模型对所述图像数据的目标区域进行定位,得到人体框。
116.第二控制模块603用于将所述人体框和所述图像数据输入至所述情感分析模型,以使所述情感分析模型根据所述人体框和所述图像数据融合计算得到第一情感分类结果。
117.交互功能模块604用于根据所述第一情感分类结果,控制机器人的人机交互行为。
118.请参照图7,是本发明提供的机器人情感分析系统的另一种结构示意图。图7和图6的区别在于,第二控制模块603还包括:数据输入单元701、特征提取单元702以及融合分类单元703。
119.在本实施例中,数据输入单元701用于输入所述人体框至所述加速后的人体特征提取模型,并输入所述图像数据至所述场景特征提取模型。
120.特征提取单元702用于在接收到数据输入单元701输入的人体框之后,所述加速后的人体特征提取模型提取所述验人体框的第一人体特征,所述场景特征提取模型提取所述图像数据的第一场景特征。
121.融合分类单元703用于在特征提取单元提取出第一人体特征和第一场景特征之后,所述加速后的融合分类模型融合所述第一人体特征和所述第一场景特征,得到第一情感分类结果。
122.请参照图8,是本发明提供的机器人的一种实施例的结构示意图。该机器人包括:中央控制器801、图像采集设备802以及人机交互设备803。
123.在本实施例中,中央控制器801用于执行步骤101-104、步骤201-204、步骤301-304、步骤401-405和步骤501-503任意一项所述的机器人情感分析方法。
124.在本实施例中,中央控制器801作为机器人系统的决策中心,可以获取其余设备的工作状态信息,向其余设备发送指令协调各设备的工作,并完成加速后的图像识别模型和情感分析模型的运算推理。
125.图像采集设备802用于采集待分析的图像数据,并将所述图像数据发送给所述中央控制器。
126.在本实施例中,图像采集设备802接受中央控制器的指令,完成相机的高度、角度等参数设置;获取图像数据并传输至中央控制器。
127.人机交互设备803用于根据所述中央控制器的控制指令,执行人机交互行为。
128.在本实施例中,人机交互设备803与中央控制器双向通信,实时反馈状态和外界信息,实现运动、语音和表情的交互功能。
129.由上可知,本发明提供的机器人情感分析方法、系统和机器人以场景为中心提取对情感分析有用的场景特征和场景信息,融合分类模型根据人体特征和场景特征进行运算并得到情感分类结果,使得部署图像识别模型和情感分析模型的机器人能够准确地识别出用户的情感信息,让机器人能够更好的理解人机交互中用户的对话意图,让用户获得更好的交流体验。本发明主要通过图像数据,具体为通过对图像数据截取视频帧并对视频帧进行人体特征提取和场景特征提取,根据两种特征融合计算出情感分类结果,因此除摄像头
外不需额外的传统传感器,利用深度学习的解决方法大大减少了对硬件系统的依赖。在机器人端部署图像识别模型和情感分析模型的过程中,根据tensorrt优化器引入模型压缩、模型加速等方法,为智能机器人的情感分析功能提供最优模型,提升模型的运算推理速度并降低硬件部署成本。
130.以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1