用于社会关系识别的方法和系统与流程

文档序号:13809673阅读:324来源:国知局
用于社会关系识别的方法和系统与流程

本申请涉及社会关系识别,具体而言,涉及一种用于图像中的人的社会关系(例如,两个或更多人之间的温馨、友好和主导(dominance))的方法和系统。



背景技术:

社会关系表明人与人之间的关系何时建立、互动或加深。视频正变成分享信息的主流媒体,它们捕获具有不同社会关系的个体。不同于传统的文本类媒体,有效地利用此类丰富的社会来源可以提供社会事实。这样的能力预示着广泛的应用。例如,自动社会关系推断(inference)允许从社交网络、个人相册和影片中的图像采集中挖掘关系。

社会关系特点或本申请中定义的社会关系基于凯斯勒(kiesler)提出的人际圈,其中人类关系分成16个片段,但还可以定义更多的属性。每个片段具有相反面,诸如,“友好和敌对”。因此,16个分段可以被视作八个二元关系特点。例如,“友好”和“竞争”容易拆分,因为含义冲突。然而,一些关系比较紧密,诸如,“友好”和“信任”,从而表明一对人脸可以具有不止一种社会关系。

然而,从人脸图像中描绘无字幕社会关系比较困难:(1)正如心理学研究所示,人脸图像的关系与高级人脸因素相关。需要捕获诸如表情和头部姿势的各种属性的丰富人脸表示;(2)目前没有可用的单个训练数据集,训练数据集涵盖所有需要的人脸属性标注,以学习这样的丰富表示。具体而言,一些数据集只含有人脸表情标签,而其他数据集可能只含有性别标签。此外,这些数据是从不同环境中收集的并且呈现出不同的统计分布。如何在此类异构数据上有效地训练模型仍然是未解决的问题。



技术实现要素:

下文呈现出本公开的简单概述,以便提供本公开的一些方面的基础理解。发明内容并非本公开的广泛概述,其既非用来识别本公开的关键或重要元素,也不是用来描述本公开的特定实施方案的任何范围或权利要求书的任何范围。该发明内容的唯一目的是以简化的形式呈现本公开的一些概念,作为之后呈现的更详细描述的序言。

在本申请的一方面,公开了一种用于识别图像中的人的社会关系的方法。该方法可以包括:为图像中的人脸(faces)生成人脸区域(faceregions);确定每个所述人脸的至少一个空间线索(spacecue);从人脸区域中提取每个人脸的与社会关系相关的特征;从提取的特征和确定的空间线索中确定共享的人脸特征,其中确定的特征由多个社会关系推断共享;以及从共享的人脸特征中预测人的社会关系。

在本申请的另一方面公开了一种用于识别图像中的人的社会关系的系统。该系统可以包括:人脸区域生成装置,其为图像中的人脸生成人脸区域并且确定人脸的至少一个空间线索;特征提取装置,其与人脸区域生成装置电通信并且从人脸区域中提取每个人脸的与社会关系相关的特征;特征确定装置,其电连接到提取装置并且从提取的特征和确定的空间线索中确定共享的人脸特征,其中确定的特征由多个社会关系推断共享;以及预测装置,其从共享的人脸特征中预测人的社会关系。

在一个实施方案中,特征提取装置还可以包括卷积神经网络,其包括连接到彼此的多个层,每个层具有多个神经元并且同一层中的所有神经元之间的连接具有相同的权值,并且其中该系统还包括:训练单元,其利用预定训练图像集来训练网络,以调整神经元之间的连接的权值,从而使得所训练的网络能够提取共享的人脸特征以供社会关系识别。

根据本申请,提供了一种用于训练卷积神经网络以执行社会关系识别的方法。该方法可包括:对预定训练集进行采样以获得含有两个或更多人脸及其真值社会关系的训练人脸图像;将所采样的人脸中的每个的预测关系与对应的真值社会关系进行比较,以生成关系分类误差;以及将所生成的误差反向传播通过神经网络,以调整神经元之间的连接的权值,直到关系分类误差小于预定阈值为止。

在又一方面,公开了一种用于识别图像中的人的社会关系的系统。该系统可以包括存储可执行部件的存储器。该系统还可以包括处理器,其电连接到存储器以执行可执行部件,以便执行该系统的操作,其中可执行部件包括:人脸区域生成部件,其为图像中的人脸生成人脸区域并且确定人脸的至少一个空间线索;特征提取部件,其与人脸区域生成部件电通信并且从人脸区域中提取每个人脸的与社会关系相关的特征;特征确定部件,其电连接到提取部件并且从提取的特征和确定的空间线索中确定共享的人脸特征,确定的特征由多个社会关系推断共享;以及预测部件,其从共享的人脸特征中预测人的社会关系。

与现有方法相比,用于人脸属性的子提取器训练方法可以利用下列中的至少一个:(1)处理不同数据集中的缺失属性标签,以及(2)由从人脸部分外形的联合中导出的弱约束来桥接异构数据集的差距。这允许所要求的系统和方法有效地从具有不同标注和统计分布的异构数据集中学习更多。

附图说明

下文参考附图描述本申请的示例性非限制实施方案。附图是说明性的,并且被非按确切的比例进行绘制。不同图上的相同或类似元件引用相同的附图标号。

图1是示出符合一些公开实施方案的用于社会关系识别的示例性系统的示意图。

图2是示出符合一些公开实施方案的用于社会关系识别的过程的示意流程图。

图3是示出根据本申请的实施方案的特征提取装置的示意图。

图4是根据本申请的实施方案的用于提取特征的卷积神经网络的示例。

图5是示出根据本申请的实施方案的用于社会关系识别的示例性系统的示意图。

图6是示出根据本申请的实施方案的训练装置的示意图。

图7是示出根据本申请的实施方案的用于训练特征提取装置的方法的示意流程图。

图8是示出根据本申请的一个实施方案的用于训练社会关系识别的方法的示意流程图。

图9示出根据本申请的一个实施方案的用于社会关系识别的系统,其中本发明的功能由软件实施。

具体实施方式

下面将详细地参考本发明的一些具体实施方案,包括发明人预期的用于实施本发明的最佳模式。附图中示出这些具体实施方案的示例。尽管结合这些具体实施方案描述了本发明,但应理解,这并非用来将本发明限于所述实施方案。相反,其旨在涵盖可以包括在如所附权利要求书限定的本发明的精神和范围内的替代方案、修改和等效物。以下描述中列出了许多具体细节,以便提供对本发明的彻底理解。本发明可以在没有这些具体细节中的一些或全部的情况下实践。在其他情况下,没有详细地描述众所周知的过程操作,以免不必要地使本发明变得模糊。

本文中使用的术语仅仅是出于描述特定实施方案的目的,而不意图限制本发明。如本文中使用,除非上下文以其他方式明确指出,否则单数形式“一”、“一个”和“所述”也意图包括复数形式。还应理解,本说明书中所使用的术语“包括”和/或“包括”指定存在所述特征、整体、步骤、操作、元件和/或部件,但并不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合。

图1是示出符合本申请的一些公开实施方案的用于社会关系识别的示例性系统1000的示意图。如图1所示,系统1000包括人脸区域生成装置10、特征提取装置20、特征确定装置30以及预测装置40。

图2是示出符合一些公开实施方案的用于社会关系识别的过程2000的示意流程图。如图2所示,在步骤s201处,人脸区域生成装置10进行操作以为图像中的人脸生成人脸区域。在步骤s202处,特征提取装置20确定每个人脸的至少一个空间线索。在步骤s203处,特征提取装置20从人脸区域中提取每个人脸的社会识别特征。在步骤s204处,特征确定装置30从所提取的特征和所确定的空间线索中确定共享的人脸特征,所确定的特征由多个社会关系推断(socialrelationinferences)共享。例如,可以通过连接所提取的特征和空间线索来生成共享的特征。在步骤s205处,预测装置40从共享的人脸特征中预测图像中的人的社会关系。

下文将进一步论述人脸区域生成装置10、特征提取装置20、特征确定装置30和预测装置40的更多细节。

在本申请中,系统1000预测输入图像中的至少两个人的社会关系。具体而言,社会关系描述具有八个维度(dimension)。将每个关系建模为单个二元分类任务。这意味着预测装置的输出是具有预定长度的二元向量。以八长度为例,八个二元向量可以分别表示主导、竞争、信任、亲切、友好、依恋、感情外露和确信(见表1)。例如,八长度位输出“00111111”意味着关系为非主导、非竞争,信任、亲切、友好、依恋、感情外露和确信。

表1

在本申请的一个示例中,特征提取装置20可以含有至少两个子提取器20a和20b,如图3所示。

根据实施方案,子提取器20a和20b可以包括卷积神经网络。网络可包括连接到彼此的多个层,每个层具有多个神经元并且同一层中的所有神经元都具有相同的连接权值。图4示出用于提取特征的示例性卷积神经网络。如图4所示,卷积神经网络包括输入层、多个(例如,四个或更多)卷积层、多个(例如,三个)池化层和一个全连接层。应注意,所示网络是为了示例,并且特征提取装置20中的卷积神经网络不限于此。

如图4所示,在输入层中输出48×48(例如)的人脸图像。在卷积层和最大池化层之后,跟随最后一个卷积层(例如,图4所示的第四卷积层)的全连接层产生特征向量,该特征向量由多个属性推断任务共享以进行估计。每个层含有带局部或全局感受域(receptivefield)的多个神经元,并且卷积神经网络的神经元之间的连接的权值可以在训练期间进行调整,这将在之后论述。由全连接层(图4中的“x”)生成的特征是子提取器10a和10b的输出特征。

然而,目前没有这样一种可用的单个数据集来涵盖所有需要的人脸属性标注,以学习这样的丰富表示(特征)。具体而言,一些数据集只含有人脸表情标签,而其他数据集可能只含有性别标签。此外,这些数据是从不同环境中收集的并且呈现出不同的统计分布。由于来自不同数据集的人脸共享局部部分的类似外形,诸如,嘴和眼睛,因此,本申请基于局部对应(localcorrespondence)而提出了桥接层,以处理不同的数据集分布。

在本申请的实施方案中,本申请基于对齐的人脸部分的混合来建立人脸描述符h。图4示出将对齐的人脸部分用来构建人脸描述符的示例。首先,构建三层分级结构以区分人脸部分,其中每个子节点将其父节点的数据组成群集,诸如,在顶层中,通过k均值的方式,使用关键点(landmark)位置(例如,嘴角、鼻子和眼睛)将从训练集中导出的人脸分成多个群集。在第二层中,针对每个节点,使用关键点在上、下人脸区域中的位置执行k均值,并且也相应地获得多个群集。每个群集中的人脸的平均hog特征被视作对应的模板。在给定新样本的情况下,通过将l2距离连接到每个模板来获得描述符h。

此外或作为替代,系统1000还可以包括训练装置50,以调整卷积神经网络的神经元之间的连接的权值,如图5所示。训练装置50可以利用带有一些人脸属性(例如,性别、年龄和表情)的预定训练集标签进行训练。经过训练的特征提取装置20能够提取人脸特征,从而可以预测人脸属性。

根据图6所示的本申请的一个实施方案,训练装置50可以包括采样器501、比较器502和反向传播器503。

采样器501对预定训练集进行采样,以获得含有单个人脸的训练人脸图像及其真值人脸属性(例如,性别、头发颜色、头部旋转)。根据另一实施方案,用于每个属性的真值目标可以进行手动标记。例如,针对性别分类,真值目标可以被标记为女(f)或男(m)。针对戴眼镜,真值目标可以被标记为戴(y)或不戴(n)。针对头部姿势估计,可以标记(0°,±30°,±60°),并且针对表情识别,可以相应地标记诸如微笑或生气。

比较器502可以将预测的属性与真值属性进行比较,以生成属性误差。属性误差可以通过使用例如交叉熵误差来获取。

反向传播器503可以将所生成的属性误差反向传播通过卷积神经网络,以调整卷积神经网络的神经元之间的连接的权值。

根据实施方案,训练装置50还可以包括确定器504。确定器504可以确定人脸属性的训练过程是否收敛。

下文将详细论述如上文提及的训练装置50中的部件。出于说明的目的,将论述由训练装置50共同训练属性的实施方案。

针对属性任务,将训练数据表示为并且i=1、2、3…n,l=1、2、3…l,其中n表示训练数据的数量,i表示图像像素并且l是属性的数量。在本申请的一个实施方案中,有四个属性任务(l=4),它们被示出并且分别表示为“性别”、“微笑”、“生气”和“年轻”。因此,是分别表示女/男、没微笑/微笑、没生气/生气、不年轻/年轻的二元属性。将不同的权值分配给任务并且分别表示为wyl。

随后,所有的属性任务的目标函数表示如下,以优化属性推断任务:

其中f(k(ii);wyl)是k(ii)和权值向量wyl的线性函数;表示损失函数;λl表示第l个任务的误差的重要性系数;并且k(ii)表示由网络权值提取的共享人脸特征。

根据实施方案,将交叉熵函数用作属性的损失函数,以生成对应的属性二元分类误差。因此,上述目标函数可以改写成如下:

在等式(2)中,第一项是后验概率函数其中表示任务l的权值矩阵的第j列。第二项和第三项惩罚大权值。

根据实施方案,所有的任务的权值可以相应地更新。具体而言,权值矩阵wyl由反向传播更新。每个任务l的权值矩阵可以由下列等式计算:

随后,属性误差可以被反向传播器503反向传播通过卷积神经网络,以调整卷积神经网络的神经元之间的连接的权值。如果属性标签在训练数据集中缺失,那么相应的误差设置为零。

重复上述训练过程,直到属性误差的训练过程被确定器504确定为收敛。换言之,如果误差在多次迭代中停止降低,那么训练过程将被确定为收敛。利用上述训练过程,子提取器20a/20b能够从给定的人脸图像中提取特征向量。根据一个实施方案,针对任何人脸图像ii,所训练的子提取器20a/20b提取特征向量k(ii)。

应注意,尽管为了说明的目的,使用了两个人脸的示例,但不限于只有两个人脸。例如,三个或更多人脸也是适用的。

图7是示出针对提取装置20的训练步骤的流程图。在步骤s701中,对预定的训练集进行采样,以获得含有单个人脸及其真值人脸属性的训练的用人脸图像。针对训练用的人脸图像,在步骤s702中,可以从网络相应地获得所有属性的目标预测。随后,在步骤s703中,将预测的属性和真值属性进行比较,以生成属性误差。随后,在步骤s704中,将所生成的属性误差反向传播通过卷积神经网络,以调整卷积神经网络的神经元之间的连接的权值。在步骤s705中,确定是否所有的任务都收敛。如果否的话,则过程700返回到步骤s701。否则,过程700结束。

在获得共享的特征之后,分别执行逻辑回归,以确定每个社会关系(例如,主导、竞争、信任、亲切、友好、依恋、感情外露和确信)的正/负。例如,当共享的特征被表示为x时,表示主导的值y可以由下列等式计算:

其中,在训练过程中学习了参数w,这将在之后详细地论述。

当y>0.5时,主导的社会关系为正。针对社会关系分类任务,将训练数据表示为并且i=1、2、3…n,t=1、2、3…t,其中n表示训练数据的数量。t是社会特点的数量(例如,在表1中,t=8)。分别表示右脸和左脸。是二元值,表明是否存在相应的社会特点。不同的权值被分配给关系任务并且表示为wgt。

将一些空间线索合并到特征确定装置30,如图2的步骤s201所示,所述空间线索可以包括下列中的至少一个:1)两个人脸的位置,2)人脸的相对位置,以及3)人脸的尺度之比。上述空间线索连接成向量xs,随后与特征xq进行连接。xq是由子提取器10a和10b所提取的xr,xl的线性投影获得的(即,xr=k(ir),xl=k(ir)),以用于学习关系特点。具体而言,xq=w[xr;x1],其中[xr;xl]表示右脸特征xr、左脸特征xl的连接。w是用于投影的权值矩阵。

预测器40通过线性回归来确定社会关系:gi=wg[xq;xs]+∈,其中[xq;xs]表示人脸特征xq和空间线索xs的连接。∈是附加误差随机变量,其根据标准逻辑分布进行分布(∈~logistic(0,1))。

随后,训练单元b的目标函数可以用公式表示成:

其中k是子提取器的权值。由于子提取器可以相同,因此它们共享相同的k。w是将左脸和右脸特征投影到公共特征空间的权值。

图8中示出用于社会关系识别的训练步骤。在步骤s801中,对预定训练集进行采样,以获得含有两个或更多人脸及其真值社会关系特点的训练用的人脸图像。针对人脸区域,在步骤s802中,可以从预测装置40中相应地获得所有关系特点的目标预测。随后,在步骤s803中,将预测的关系和真值关系进行比较,以生成关系分类误差。随后,在步骤s804中,将所生成的关系误差反向传播通过卷积神经网络,以调整卷积神经网络的神经元之间的连接的权值。在步骤s805中,确定关系任务是否收敛。如果否的话,则过程800返回到步骤s801,否则,过程800结束。

如本领域的技术人员将了解,本发明可以体现为系统、方法或计算机程序产品。因此,本发明可以采用在本文中一般全都可以称为“单元”、“电路”、“模块”或“系统”的全硬件实施方案和硬件方面的形式。本发明功能中的很多功能和本发明原理中的很多原理在实施时由集成电路(ic)最好地支持,诸如,数字信号处理器和软件或者专用ic。尽管可能会存在大量的努力和很多设计选择(这些选择例如由可用时间、当前技术和经济考虑等因素驱使),但可以预期,本领域的技术人员在由本文中公开的概念和原理的引导下,能够利用最少的实验生成ic。因此,为了简洁起见并且最小化那些可能会模糊本发明原理和概念的任何风险,此类软件和ic的进一步论述(若有的话)将限于优选实施方案所使用的必要原理和概念。

此外,本发明可以采用全软件实施方案(包括固件、常驻软件、微码等)或者组合软件的实施方案。此外,本发明可以采用计算机程序产品的形式,所述计算机程序产品体现在任何有形的表达介质中,所述介质具有体现在介质中的计算机可用程序代码。图9示出根据本申请的一个实施方案的用于识别图像中的人的社会关系的系统9000,其中本发明的功能由软件实施。参考图9,系统9000包括存储可执行部件的存储器9001,以及处理器9002,所述处理器电连接到存储器9001以执行可执行部件,以便执行系统9000的操作。可执行部件可以包括:人脸区域生成部件9003,其生成图像中的人的人脸区域并且确定人脸的至少一个空间线索;特征提取部件9004,其与人脸区域生成部件电子通信并且从人脸区域中提取每个人脸的社会识别特征;特征确定部件9005,其电连接到提取部件并且从提取的特征和确定的空间线索中确定共享的人脸特征,确定的特征由多个社会关系推断共享;以及预测部件9006,其从共享的人脸特征中预测人的社会关系。部件9003至9006的功能分别类似于装置10至40的那些功能,因此本文中省略其详细描述。

本申请不同于现有技术中的方法。首先,多数有效的分析方法基于单个人,因此无法直接用于人际关系推断。其次,本次工作旨在识别详细的高级社交关系特点,而不是类似‘对话’、‘独白’和‘讨论’的低级关系。第三,很多社会关系研究并没有将人脸图像直接用于关系推断。

尽管已描述了本发明的优选示例,但在了解本发明基本概念后,本领域的技术人员可以对这些示例作出变化或更改。所附权利要求书意图包括落入本发明的范围内的优选示例和所有变化或更改。

显然,在不脱离本发明的精神和范围的情况下,本领域的技术人员可以对本发明作出变化或更改。因此,如果这些变化或更改属于权利要求书和等效技术的范围,那么它们也可以落入本发明的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1