社交关系识别方法、装置、设备及存储介质与流程

文档序号:30183438发布日期:2022-05-26 16:03阅读:151来源:国知局
社交关系识别方法、装置、设备及存储介质与流程

1.本发明涉及计算机视觉领域,具体涉及一种社交关系识别方法、装置、设备及存储介质。


背景技术:

2.图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用。
3.在社交关系类型识别的任务中,给定一张图片以及图片中多个人体框的坐标,模型需要预测出图中每两个人体框对应的人物之间的社交关系类型。常见的社交关系类型包含朋友、家人、情侣、不认识等。该任务需要模型对图片进行高级的语义理解,例如理解场景,物体以及人物之间的交互动作。在社交关系类型预测这一领域,传统的使用注意力机制的模型,先使用物体检测算法检测出物体,再在检测出的物体上面使用注意力机制,判断检测的物体之间的关系。
4.上述方案中,先通过目标检测检测算法检测出目标,再在检测出的目标上面使用注意力机制,在确定社交关系时无法考虑到场景的影响,社交关系识别准确率较低。


技术实现要素:

5.本技术提供了一种社交关系识别方法、装置、设备及存储介质,提高了社交关系分类的准确性,该技术方案如下。
6.一方面,提供了一种社交关系识别方法,所述方法包括:
7.获取目标图像;
8.通过特征提取模型对目标图像进行特征提取,获得目标图像特征,并在所述目标图像特征中提取出各个目标人物特征;
9.根据所述各个目标人物特征以及所述目标图像特征,构建人物特征关系图;所述人物特征关系图中的各个节点用于指示各个目标人物的图像特征;所述各个节点之间的边用于指示所述各个目标人物之间的特征关系;
10.根据所述人物特征关系图中的所述各个节点,生成各个目标查询向量;所述目标查询向量用于指示人物特征关系图中两两节点之间的关系;
11.将所述目标图像特征进行维度变换后,通过编码器进行编码处理,获得目标编码向量;
12.根据各个目标查询向量以及目标编码向量,通过具有自注意力层的解码器进行解码处理,获得各个所述目标人物之间的社交关系。
13.再一方面,提供了一种社交关系识别装置,所述装置包括:
14.目标图像获取模块,用于获取目标图像;
15.特征提取模块,用于通过特征提取模型对目标图像进行特征提取,获得目标图像特征,并在所述目标图像特征中提取出各个目标人物特征;
16.关系图构建模块,用于根据所述各个目标人物特征以及所述目标图像特征,构建人物特征关系图;所述人物特征关系图中的各个节点用于指示各个目标人物的图像特征;所述各个节点之间的边用于指示所述各个目标人物之间的特征关系;
17.查询向量生成模块,用于根据所述人物特征关系图中的所述各个节点,生成各个目标查询向量;所述目标查询向量用于指示人物特征关系图中两两节点之间的关系;
18.编码向量生成模块,用于将所述目标图像特征进行维度变换后,通过编码器进行编码处理,获得目标编码向量;
19.社交关系推理模块,用于根据各个目标查询向量以及目标编码向量,通过具有自注意力层的解码器进行解码处理,获得各个所述目标人物之间的社交关系。
20.再一方面,提供了一种计算机设备,所述计算机设备中包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述社交关系识别方法。
21.又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述的社交关系识别方法。
22.再一方面,提供了一种计算机程序产品还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的社交关系识别方法。
23.本技术提供的技术方案可以包括以下有益效果:
24.当需要进行社交关系识别时,计算机设备可以先通过特征提取模型对目标图像进行特征提取,再在目标图像特征中提取出各个目标人物特征;计算机设备此时可以根据各个目标人物所对应的目标人物特征,以及包含各个目标人物的整体图像所对应的目标图像特征,构建出人物关系特征图,此时人物关系特征图构建过程中同时考虑了各个人物单独的图像特征以及人物所处环境的整体特征,计算机设备再根据该人物关系特征图中的节点之间的关系,生成目标查询向量;计算机设备再对目标图像特征进行维度变化及编码等操作,获得编码向量,此时编码向量中包含有目标图像的整体特征,将目标查询向量以及目标编码向量,通过具有自注意力层的解码器进行解码处理,从而使得解码器可以根据目标查询向量中包含的人物之间的特征,在目标图像的整体特征中更加关注与人物有关的特征,从而提高获取到的社交关系的准确性。
附图说明
25.为了更清楚地说明本技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
26.图1是根据一示例性实施例示出的一种社交关系识别系统的结构示意图。
27.图2是根据一示例性实施例示出的社交关系识别方法的方法流程图。
28.图3是根据一示例性实施例示出的社交关系识别方法的方法流程图。
29.图4示出了本技术实施例涉及的一种机器学习模型对社交关系进行识别的流程示
意图。
30.图5是根据一示例性实施例示出的社交关系识别装置的结构方框图。
31.图6是根据本技术一示例性实施例提供的一种计算机设备示意图。
具体实施方式
32.下面将结合附图对本技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
33.应理解,在本技术的实施例中提到的“指示”可以是直接指示,也可以是间接指示,还可以是表示具有关联关系。举例说明,a指示b,可以表示a直接指示b,例如b可以通过a获取;也可以表示a间接指示b,例如a指示c,b可以通过c获取;还可以表示a和b之间具有关联关系。
34.在本技术实施例的描述中,术语“对应”可表示两者之间具有直接对应或间接对应的关系,也可以表示两者之间具有关联关系,也可以是指示与被指示、配置与被配置等关系。
35.本技术实施例中,“预定义”可以通过在设备(例如,包括终端设备和网络设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现,本技术对于其具体的实现方式不做限定。
36.本技术实施例中提供的社交关系识别方法可以应用于具有较强数据处理能力的计算机设备中。该社交关系识别方法中还包括对社交关系识别模型的训练方法,该社交关系识别模型可以实现对输入图像的处理,得到对应于输入图像中各个人物之间的社交关系。在一种可能的实现方式中,本技术实施例提供的社交关系识别方法可以应用于个人计算机、工作站或服务器中,即通过个人计算机、工作站以及服务器中至少一者进行社交关系识别模型的训练。
37.图1是根据一示例性实施例示出的一种社交关系识别系统的结构示意图。该社交关系识别系统中包含服务器110以及终端120。其中,终端120与服务器110之间通过通信网络进行数据通信,该通信网络可以是有线网络也可以是无线网络。
38.可选的,终端120中安装有具有图像处理功能的应用程序,该应用程序可以是专业图像处理应用程序、社交类应用程序,虚拟现实类应用程序、或者具有图像处理功能的ai应用程序,本技术实施例对此不做限定。
39.可选的,该终端120可以是具有图像采集组件的终端设备,该图像采集组件用于获取图像并存储与终端120中的数据存储模块中;该终端120还可以是具有数据传输接口的终端设备,该数据传输接口用于接收具有图像采集组件的图像采集设备所采集到的图像数据。
40.可选的,该终端120可以是智能手机、平板电脑,膝上便携式笔记本电脑等移动终端,也可以是台式电脑、投影式电脑等终端,或是具有数据处理组件的智能终端,本技术实施例对此不设限制。
41.服务器110可以实现为一台服务器,也可以实现为一组服务器构成的服务器集群,其可以是物理服务器,也可以实现为云服务器。在一种可能的实现方式中,服务器110是终
端120中应用程序的后台服务器。
42.在本技术实施例的一种可能的实现方式中,服务器110通过预先设置的训练样本集(包括各个训练样本图像)对社交关系识别模型进行训练,其中训练样本集中可以包含不同类别的训练样本图像,各个训练样本图像均存在各自的类别标注信息(即各个人物之间的社交关系)。当服务器110对该社交关系识别模型的训练过程完成后,通过有线网络或无线网络,将该训练好的社交关系识别模型发送至终端120中。
43.终端120接收到该训练好的社交关系识别模型,并将该社交关系识别模型所对应的数据信息(例如模型结构以及权重信息)发送至具有图像识别功能的应用程序中,以便用户使用该应用程序时,可以对输入的图像进行识别,从而得到图像中各个人物之间的社交关系。
44.可选的,上述服务器可以是独立的物理服务器,也可以是由多个物理服务器构成的服务器集群或者是分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等技术运计算服务的云服务器。
45.可选的,该系统还可以包括管理设备,该管理设备用于对该系统进行管理(如管理各个模块与服务器之间的连接状态等),该管理设备与服务器之间通过通信网络相连。可选的,该通信网络是有线网络或无线网络。
46.可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网,但也可以是其他任何网络,包括但不限于局域网、城域网、广域网、移动、有限或无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言、可扩展标记语言等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层、传输层安全、虚拟专用网络、网际协议安全等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
47.图2是根据一示例性实施例示出的社交关系识别方法的方法流程图。该方法由计算机设备执行,该计算机设备可以是如图1所示的社交关系识别系统中的服务器或终端。如图2所示,该社交关系识别方法可以包括如下步骤:
48.步骤201,获取目标图像。
49.在本技术实施例的一种可能的实现方式中,该目标图像可以是包含有各个人物图像的图像数据,计算机设备可以对该目标图像进行如本技术实施例所示的数据处理,以提取出该目标图像中检测到的各个人物之间的社交关系。
50.步骤202,通过特征提取模型对目标图像进行特征提取,获得目标图像特征,并在该目标图像特征中提取出各个目标人物特征。
51.在本技术实施例的一种可能的实现方式中,该特征提取模型可以是深度神经网络模型,将目标图像转换为特征提取模型所对应的数据格式,即可以通过特征提取模型,对目标图像进行数据处理,以提取出目标图像中的目标图像特征(即目标图像的特征图,又称featuremap)。
52.当提取到featuremap后,则可以通过兴趣区域池化(roi pooling)的方法,利用给定的目标人物的坐标获取到特征图中的各个目标人物特征。
53.可选的,上述特征提取模型可以是预先通过样本图像训练得到的。
54.步骤203根据该各个目标人物特征以及该目标图像特征,构建人物特征关系图。
55.其中,该人物特征关系图中的各个节点用于指示各个目标人物的图像特征;该各个节点之间的边用于指示该各个目标人物之间的特征关系。
56.在一种可能的实现方式中,计算机设备在获取到目标人物特征,以及目标图像特征后,可以基于目标人物特征构建节点,并基于目标图像特征构建各个节点之间的边。
57.例如当从目标图像特征中,(如通过物体检测算法)检测出各个存在目标人物的区域,并将该各个存在目标人物的区域中的特征获取为各个目标人物特征后,还可以将各个目标人物特征,与目标图像特征输入预先训练好的机器学习模型,进一步的提取出各个目标人物的特征,从而构建为各个目标人物的节点。
58.例如,可以分别将目标人物特征与池化后的目标图像特征进行拼接,并将拼接后的特征输入机器学习模型中,此时机器学习模型提取出的特征,是同时考虑到了目标人物与环境后提取出的特征;或者该机器学习模型可以是两分支的机器学习模型,即通过不同的卷积层对目标人物特征与目标图像特征进行特征提取后拼接所得到的与该目标人物对应的节点的特征。
59.通过上述方式处理到的人物特征关系图中,各个节点所指示的目标人物的图像特征,是考虑到目标人物所处的整体环境后,得出的图像特征,因此相较于直接提取出的目标人物特征,更容易考虑到整体环境对目标人物的影响。
60.步骤204,根据该人物特征关系图中的该各个节点,生成各个目标查询向量。
61.由于人物特征关系图,是同时基于目标人物特征以及目标图像特征所构建的,因此该人物特征关系图中的各个节点,也应该是考虑到了整体的目标图像特征所得到的,各个节点所指示的特征,是同时考虑到目标人物与整体的目标图像后生成的特征。
62.此时在一种可能的实现方式中,计算机设备可以将人物特征关系图中的节点,两两取出,并通过两个节点之间的特征进行计算,从而生成两个节点的目标查询向量,以指示人物特征图中两两节点之间的关系。
63.步骤205,将目标图像特征进行维度变换后,通过编码器进行编码处理,获得目标编码向量。
64.在本技术实施例中,在根据目标图像特征构建查询向量的同时,还可以根据目标图像特征获取目标编码向量。
65.在本技术实施例的一种可能的实现方式中,该编码器可以是具有编码器-解码器结构的神经网络模型中的编码器部分,在具有编码器-解码器结构的神经网络模型中,神经网络模型可以对输入的数据,通过编码器进行编码后,再通过解码器对编码后的数据进行解码,从而得到对输入的数据进行分析所得到的结果。
66.步骤206,根据目标查询向量以及目标编码向量,通过具有自注意力层的解码器进行解码处理,获得各个目标人物之间的社交关系。
67.在本技术实施例的一种可能的实现方式中,该解码器可以是是具有编码器-解码器结构的神经网络模型中的解码器部分,在该神经网络模型中,编码器与解码器中都包含有自注意力层,在编码器中,自注意力层可以对目标图像特征拆分成的各个向量序列与位置编码进行处理,在解码器中,该自注意力层可以对目标查询向量以及目标编码向量进行
处理,从而得到目标编码向量中各个位置的权重,从而确定出在解码过程中更需要注意的部分特征。
68.而由于目标查询向量是在充分考虑到了整体的场景的影响从而生成的人物特征关系图中的节点,经过节点之间的特征计算所得到的向量,因此根据目标查询向量确定的权重,可以使得解码过程中更容易注意到各个节点所对应的人物(也就是各个目标人物)之间有关的特征,从而提高了最后得出的各个目标人物之间的社交关系的准确率。
69.综上所述,当需要进行社交关系识别时,计算机设备可以先通过特征提取模型对目标图像进行特征提取,再在目标图像特征中提取出各个目标人物特征;计算机设备此时可以根据各个目标人物所对应的目标人物特征,以及包含各个目标人物的整体图像所对应的目标图像特征,构建出人物关系特征图,此时人物关系特征图构建过程中同时考虑了各个人物单独的图像特征以及人物所处环境的整体特征,计算机设备再根据该人物关系特征图中的节点之间的关系,生成目标查询向量;计算机设备再对目标图像特征进行维度变化及编码等操作,获得编码向量,此时编码向量中包含有目标图像的整体特征,将目标查询向量以及目标编码向量,通过具有自注意力层的解码器进行解码处理,从而使得解码器可以根据目标查询向量中包含的人物之间的特征,在目标图像的整体特征中更加关注与人物有关的特征,从而提高获取到的社交关系的准确性。
70.图3是根据一示例性实施例示出的社交关系识别方法的方法流程图。该方法由计算机设备执行,该计算机设备可以是如图1所示的社交关系识别系统中的服务器或终端。如图3所示,该社交关系识别方法可以包括如下步骤:
71.步骤301,获取目标图像。
72.步骤302,通过特征提取模型对目标图像进行特征提取,获得目标图像特征,并在该目标图像特征中提取出各个目标人物特征。
73.请参考图4,其示出了本技术实施例涉及的一种机器学习模型对社交关系进行识别的流程示意图。在本技术实施例中,计算机设备可以通过如图4所示的机器学习模型对输入的图像进行处理,从而得到输入图像中各个人物之间的社交关系,左边的feature extraction module即为特征抽取模块,右下角的graph-based query module即为图卷积查询模块,右上角的transformer reasoning module即为关系推理模块。
74.在本技术实施例中,当需要对目标图像中的各个人物之间的社交关系进行识别时,需要先通过特征提取模型(即如图4中的特征抽取模块)对目标图像进行特征提取,获取到目标图像中的特征图,并在该特征图中检测到各个人物所对应的目标人物特征。特征提取模型可以是残差卷积网络(resnet)、swin transformer等骨干网络。
75.例如,如图4所示,本技术实施例中计算机设备可以使用在imagenet数据集上预训练好的swin transformer作为骨干网络。给定一张图片,维度是3*h0*w0,骨干网络backbone将其变为维度为c*h*w的特征图feature。其中h=h0/32,w=w0/32,c=1024为特征的维度。在本技术实施例中,还可以使用gap从特征图中抽取整张图片的特征向量,记为xi,使用roip从特征图中抽取人物的特征向量,记为xi。
76.在一种可能的实现方式中,通过兴趣区域池化层roip对该目标图像特征进行数据处理,获得各个兴趣区域;
77.将该各个兴趣区域中的图像特征进行池化操作,分别获得为各个目标人物特征。
78.即上述目标人物特征的提取可以是通过兴趣区域池化层(roip,region of proposals pooling)对目标图像特征进行数据处理得到的。
79.roi是在原图中的感兴趣区域,可以理解为目标检测的候选框也就是兴趣区域region of proposals,我们将原图进行特征提取的时候,就会提取到相应的特征图feature map。那么相应的roi就会在feature map上有映射,这个映射过程就是roipooling的一部分,一般roi的步骤会继续进行max pooling,进而得到我们需要的feature map,送入后面继续计算。
80.根据上述过程提供的候选框坐标,映射到featuremap,然后进行max-pooling操作,即可以获取到各个人物所对应的目标人物特征,该特征是一个维度为c的向量,c取决于所使用的特征提取模型,例如如果是resnet101,则c=2048,如果是swin transformer,则c=1024。
81.步骤303,根据该各个目标人物特征以及该目标图像特征,构建人物特征关系图。
82.在本技术实施例的一种可能的实现方式中,将各个目标人物特征作为该各个节点的初始特征;通过全局平均池化层该目标图像特征进行数据处理,并将处理结果作为该各个节点之间的边的初始特征,以构建人物特征关系图。
83.此时计算机设备可以直接将获取到的各个目标人物特征构建为人物特征关系图中的各个节点的初始特征,并通过平均池化层对目标图像特征进行数据处理,从而将目标图像的整体特征作为各个目标人物特征之间的关系。可选的,计算机设备可以在后续操作中将各个节点的特征与节点之间的边的特征进行融合,从而使得节点可以考虑到其他节点、以及所处的环境的特征,从而提高该节点中特征的信息量。
84.步骤304,对该人物特征关系图,进行迭代图卷积操作,以更新该人物特征关系图中的各个节点的特征。
85.在本技术实施例的一种可能的实现方式中,计算机设备当获取到目标人物特征后,则可以将目标人物特征构建为节点,再根据目标图像特征(即整体图像特征)构建节点之间的边,生成人物特征关系图,并将人物特征关系图作为图卷积模型进行迭代图卷积操作,此时图卷积模型的迭代过程中,即可以实现将各个人物之间的关系,与整体图像的特征进行融合。
86.在一种可能的实现方式中,将该各个目标人物特征作为各个节点的初始特征;通过全局平均池化层该目标图像特征进行数据处理,并将处理结果作为各个节点之间的边的初始特征。
87.首先对于每一张图片,可以构造一张图。这个图有n个节点,每个节点表示图片中的一个人。节点之间两两有边相连,即该图是一个全连接图。例如在如图4所示的识别图片中有三人,此时构造出来的全连接图有三个节点,三条边。每个节点和每条边各有一个特征,第i个节点的初始特征为连接第i个节点和第j个节点的边的初始特征为
88.因此在本技术实施例中,当构建人物特征关系图以作为图卷积模型(即通过如图4所示的graph construction图卷积构建操作,生成了图卷积模块)时,可以将获取到的各个目标人物特征,作为各个人物所对应节点的初始特征;再通过全局平均池化层gap对目标图
像特征进行数据处理,得到相应大小的整体图像特征作为各个节点之间的边的初始特征。
89.当构建了图卷积模型之后,对该图卷积模型迭代过程中,各个节点会根据其他节点的特征,以及该节点与其他节点的连接边的特征,对自身进行更新,也就是说,在节点的更新过程(nodeupdate)中,该节点的特征会逐渐的与其他节点的特征、以及整体图像特征所靠近。
90.而在图卷积模型的迭代过程中,各条边则会根据该边连接的两个节点的特征进行边更新(edgeupdate),也就是说,各条边会在整体图像特征的基础上,更加注意所连接的节点的特征。
91.在一种可能的实现方式中,根据第t轮中第一节点的特征、第t轮中第二节点的特征以及第t轮中第一节点与该第二节点之间的边的特征进行运算,获取第t+1轮中第一节点与该第二节点之间的边的特征;第一节点与第二节点是人物特征关系图中的任意两个节点;
92.根据第t轮第一节点的特征、第t轮中与该第一节点相连的各个目标节点的特征,以及第t轮中各个该目标节点与该第一节点之间的边特征进行运算,获得第t+1轮中第一节点的特征。
93.例如,该图卷积运算的具体运算过程可以如下所示:
94.构造好的图进行t轮的图卷积运算。每一轮图卷积运算包含两个步骤,即更新边特征和更新节点特征。具体地,在第t轮图卷积运算中,边特征和节点特征的更新公式如下:
[0095][0096][0097]
其中ni代表第i个节点的邻居节点个数,w
t
和是第t轮更新中可学习的参数,σ代表relu非线性激活函数,

是逐元素乘积。经过t轮图卷积运算之后,图中每个人物以及图片的特征得到充分的融合。
[0098]
步骤305,将更新后的人物特征关系图中,两两节点之间进行向量拼接,获得各个该目标查询向量。
[0099]
在本技术实施例中,当图卷积模型的迭代过程完成后,也就是人物特征关系图的迭代图卷积操作完成后,此时可以选取出更新后的人物特征关系图中的各个节点,并将各个节点之间的特征两两拼接并构建为查询向量。
[0100]
例如,当计算机设备需要查询第一人物与第二人物之间的社交关系,即可以在迭代后的图卷积模型中,选取出第一人物所对应的第一节点,以及第二人物所对应的第二节点,并将第一节点的特征与第二节点的特征向量进行拼接构建为查询向量,以便后续对第一人物与第二人物的社交关系的识别。
[0101]
即经过t轮图卷积操作之后,图中每个人物以及图片的特征得到充分的融合。我们将每两个节点的特征拼接(concatenation)在一起,作为查询向量。具体地,第i个人和第j个人的查询向量可表示为:
[0102]
[0103]
步骤306,将目标图像特征进行维度变换后,通过编码器进行编码处理,获得目标编码向量。
[0104]
在本技术实施例涉及社交关系识别方案中,采用的机器学习中的注意力机制,举例来说,当人观赏一幅画时,虽然可以看到整幅画的全貌,但是人在深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不是均衡的,是有一定的权重区分的。这就是深度学习里的attention model的核心思想。
[0105]
也就是说,一方面,计算机设备通过上述步骤,将目标图像特征,以及目标图像特征中包含的目标人物特征,构建为了图卷积模型,以获取到了查询向量,以辅助计算机设备在社交关系识别的过程中,计算出对应的权重,从而在特征分析的时候更容易注意到有关的特征上。
[0106]
又一方面,计算机设备可以再将提取到的目标图像特征,进行维度变换,变换为指定维度的特征图,并拆分为各个向量通过编码器进行编码处理,从而得到目标编码向量,此时各个目标编码向量即为目标图像特征的不同位置上的特征。
[0107]
在一种可能的实现方式中,对该目标图像特征进行降维操作,并拆分为各个具有目标维度的向量序列;通过第一位置特征与各个该向量序列拼接,并通过编码器进行处理,获得该目标编码向量。
[0108]
由于将指定维度的特征图拆分为各个向量后,向量摊平的操作丢失了位置特征,因此此时可以将第一位置特征与各个向量序列拼接,从而对各个向量序列进行一定程度上的位置特征的补偿,此时通过编码器处理得到的各个目标编码向量中仍然会保留一定的位置特征。
[0109]
可选的,该第一位置特征可以是该编码器中的参数,可以通过训练样本进行训练以学习至较为合适的值。
[0110]
在一种可能的实现方式中,如图4所示,本技术实施例中计算机设备可以通过关系推理模块以对提取出的图像特征以及查询向量进行处理,以得到各个人物之间的社交关系。
[0111]
关系推理模块主要由一个含有编码器(encoder)和解码器(decoder)结构的transformer组成。编码器负责对从骨干网络抽取出来的特征图进行编码。我们对特征图进行降维reduced feature,将其维度从c*h*w变为d*h*w。然后,计算机执行摊平操作flattened feature,变为hw个维度为d的向量序列,并将该序列输入到编码器transformer encoder中。同时由于向量摊平的操作丢失了位置信息,本技术实施例中,在编码器中加入了可学习的位置编码(position embedding)。
[0112]
步骤307,将该目标查询向量与第二位置特征拼接,获得位置查询向量。
[0113]
可选的,该第二位置特征可以是解码器中的参数,可以通过训练样本进行训练以学习至较为合适的值。
[0114]
步骤308,根据各个位置查询向量,以及各个该目标编码向量,确定各个注意力系数。
[0115]
在具有注意力机制的注意力层中,通过位置查询向量以及各个目标编码向量,可以获取到各个目标编码向量的注意力系数,此时该注意力系数即可以作为图像特征拆分所
形成的各个目标编码的权重。
[0116]
步骤309,基于该注意力系数,通过该解码器对该目标编码向量进行解码操作,获得各个目标人物的概率分布;该概率分布中的各个概率值用于指示该目标人物之间为各个社交关系的概率。
[0117]
当获取到注意力系数后,即可以对目标编码向量进行解码,并在解码过程中通过注意力系数进行加权,此时得到的各个人物之间的社交关系类型的概率分布,充分考虑了查询向量中,各个人物之间的关系,因此解码器可以根据目标查询向量中包含的人物之间的特征,在目标图像的整体特征中更加关注与人物有关的特征,通过上述方案得到的各个人物之间的概率分布,得到的社交关系具有更高的准确率。
[0118]
在一种可能的实现方式中,本技术实施例中,计算机设备可以通过如图4所示的解码器进行关系类型推理,解码器的输入包含两部分,即从编码器出来的编码向量,和从图卷积模块出来的查询向量。在本技术实施例中,解码器的输入中也加入了可学习的位置编码,用于辅助解码器定位图片中不同的关系对。解码器的输出经过一个多层的全连接网络,输出各种关系类型的概率分布。解码器的全局自注意力机制,能自动地从图片特征图中学习到不同图片位置对社交关系分类的影响。
[0119]
并且在如图4所示的机器学习模型中,由特征抽取模块、图卷积模块以及关系推理模块构成的整个模型可以端到端地进行训练,即通过输入的样本图像,以及样本图像中各个人物之间的社交关系标注,直接对机器学习模型进行训练,通过各个损失函数分别对各个模块进行反向传播更新,从而提高了更新后的机器学习模型的社交关系识别能力。
[0120]
综上所述,当需要进行社交关系识别时,计算机设备可以先通过特征提取模型对目标图像进行特征提取,再在目标图像特征中提取出各个目标人物特征;通过目标人物特征以及整体图像特征构建出图卷积模型并迭代,使得人物特征充分与整体图像特征融合,再根据迭代后的图卷积模型以生成查询向量;计算机设备再对目标图像特征进行维度变化及编码等操作,获得目标编码向量,此时目标编码向量中包含有目标图像的整体特征,将目标查询向量以及目标编码向量,通过具有自注意力层的解码器进行解码处理,从而使得解码器可以根据目标查询向量中包含的人物之间的特征,在目标图像的整体特征中更加关注与人物有关的特征,从而提高获取到的社交关系的准确性。
[0121]
图5是根据一示例性实施例示出的社交关系识别装置的结构方框图。
[0122]
所述装置包括:
[0123]
目标图像获取模块501,用于获取目标图像;
[0124]
特征提取模块502,用于通过特征提取模型对目标图像进行特征提取,获得目标图像特征,并在所述目标图像特征中提取出各个目标人物特征;
[0125]
关系图构建模块503,用于根据所述各个目标人物特征以及所述目标图像特征,构建人物特征关系图;所述人物特征关系图中的各个节点用于指示各个目标人物的图像特征;所述各个节点之间的边用于指示所述各个目标人物之间的特征关系;
[0126]
查询向量生成模块504,用于根据所述人物特征关系图中的所述各个节点,生成各个目标查询向量;所述目标查询向量用于指示人物特征关系图中两两节点之间的关系;
[0127]
编码向量生成模块505,用于将所述目标图像特征进行维度变换后,通过编码器进行编码处理,获得目标编码向量;
[0128]
社交关系推理模块506,用于根据各个目标查询向量以及目标编码向量,通过具有自注意力层的解码器进行解码处理,获得各个所述目标人物之间的社交关系。
[0129]
在一种可能的实现方式中,所述特征提取模块,还用于,
[0130]
通过兴趣区域池化层roip对所述目标图像特征进行数据处理,获得各个兴趣区域;
[0131]
将所述各个兴趣区域中的图像特征进行池化操作,分别获得为各个目标人物特征。
[0132]
在一种可能的实现方式中,所述图卷积模块,还用于,
[0133]
将所述各个目标人物特征作为所述各个节点的初始特征;
[0134]
通过全局平均池化层所述目标图像特征进行数据处理,并将处理结果作为所述各个节点之间的边的初始特征。
[0135]
在一种可能的实现方式中,所述装置还包括:
[0136]
关系图迭代模块,用于对所述人物特征关系图,进行迭代图卷积操作,以更新所述人物特征关系图中的各个节点的特征;
[0137]
所述查询向量生成模块,还用于,
[0138]
将更新后的人物特征关系图中,两两节点之间进行向量拼接,获得各个所述目标查询向量。
[0139]
在一种可能的实现方式中,所述关系图迭代模块,还用于,
[0140]
根据第t轮中第一节点的特征、第t轮中第二节点的特征以及第t轮中所述第一节点与所述第二节点之间的边的特征进行运算,获取第t+1轮中第一节点与所述第二节点之间的边的特征;所述第一节点与所述第二节点是所述人物特征关系图中的任意两个节点;
[0141]
根据第t轮第一节点的特征、第t轮中与所述第一节点相邻的各个目标节点的特征,以及第t轮中各个所述目标节点与所述第一节点之间的边特征进行运算,获得第t+1轮中第一节点的特征。
[0142]
在一种可能的实现方式中,所述编码向量生成模块,还用于,
[0143]
对所述目标图像特征进行降维操作,并拆分为各个具有目标维度的向量序列;
[0144]
通过第一位置特征分别与各个所述向量序列拼接,并通过编码器进行处理,获得所述目标编码向量;所述第一位置特征为所述编码器中的参数。
[0145]
在一种可能的实现方式中,所述社交关系推理模块,用于
[0146]
将所述目标查询向量与第二位置特征拼接,获得位置查询向量;所述第二位置特征为所述解码器中的参数;
[0147]
根据所述位置查询向量,以及各个所述目标编码向量,确定所述各个目标编码向量的注意力系数;
[0148]
基于所述各个注意力系数,通过所述解码器对所述目标编码向量进行解码操作,获得所述各个目标人物的概率分布;所述概率分布中的各个概率值用于指示所述目标人物之间为各个社交关系的概率。
[0149]
综上所述,当需要进行社交关系识别时,计算机设备可以先通过特征提取模型对目标图像进行特征提取,再在目标图像特征中检测出各个目标人物特征;通过目标人物特征以及整体图像特征构建出图卷积模型并迭代,使得人物特征充分与整体图像特征融合,
再根据迭代后的图卷积模型以生成查询向量;计算机设备再对目标图像特征进行维度变化及编码等操作,获得编码向量,此时编码向量中包含有目标图像的整体特征,将目标查询向量以及目标编码向量,通过具有自注意力层的解码器进行解码处理,从而使得解码器可以根据目标查询向量中包含的人物之间的特征,在目标图像的整体特征中更加关注与人物有关的特征,从而提高获取到的社交关系的准确性。
[0150]
请参阅图6,其是根据本技术一示例性实施例提供的一种计算机设备示意图,所述计算机设备包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,以实现上述方法。
[0151]
其中,处理器可以为中央处理器(central processing unit,cpu)。处理器还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
[0152]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施方式中的方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施方式中的方法。
[0153]
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0154]
在一示例性实施例中,还提供了一种计算机可读存储介质,用于存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现上述方法中的全部或部分步骤。例如,该计算机可读存储介质可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、只读光盘(compact disc read-only memory,cd-rom)、磁带、软盘和光数据存储设备等。
[0155]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
[0156]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1