图像检索装置、图像检索方法及其中使用的设定画面与流程

文档序号：18030287发布日期：2019-06-28 22:35阅读：183来源：国知局

本发明涉及图像检索装置及图像检索方法。

背景技术：

随着电视影像的数字档案化及因特网上的运动图像分发服务的普及，将大规模的图像数据高速地检索、分类的必要性增加。此外，对于为了安全而储存的监视图像的解析的期待变高。由于难以对这些庞大的图像以人工赋予检索用的元数据信息，因此要求基于图像特征量的类似图像检索。如果使用类似图像检索，则例如可以使用从监视图像自动提取的图像特征量，来检索与在查询中指定的颜色及形状类似的人物。

例如，在专利文献1中，确定输入图像的人物区域，将人物区域划分为多个部分区域，将各个部分区域划分为多个小区域，在各个部分区域中形成小区域的群(cluster)，基于群的属性，选择作为查询候选的群，从所选择的群的小区域生成查询要素，将查询要素组合而生成用来检索人物的检索查询。

专利文献1：日本特开2016－162414号公报

技术实现要素：

在专利文献1中，公开了一种将姿势信息用于背景信息(人物区域以外的区域)的排除的方法，但关于利用人物的姿势信息本身作为检索查询的结构并没有公开。

本发明鉴于上述背景技术及课题，举其一例则是一种图像检索装置具备：姿势推测部，从输入图像识别由多个特征点构成的检索对象的姿势信息；特征量提取部，从姿势信息和输入图像提取特征量；图像数据库，将特征量与输入图像建立关联来储存；查询生成部，从用户指定的姿势信息生成检索查询；以及图像检索部，按照检索查询，从图像数据库检索包含类似的姿势的图像。

发明效果

根据本发明，能够提供通过生成反映了检索对象的姿势信息的检索查询，能够提高检索精度及检索效率的图像检索装置及图像检索方法。

附图说明

图1是表示实施例1的图像检索系统的结构的框图。

图2是表示实施例1的图像检索系统的硬件结构的框图。

图3是表示实施例1的图像数据库的结构的说明图。

图4是说明实施例1的根据图像的姿势信息的推测处理的图。

图5是表示实施例1的数据库登记处理的流程图。

图6是说明实施例1的有缺损的姿势信息的补充处理的图。

图7是表示实施例1的姿势信息的补充处理的流程图。

图8是说明实施例1的使用姿势信息的图像检索的图。

图9是表示实施例1的图像检索处理的流程图。

图10是表示实施例1的使用姿势信息的检索画面的图。

图11是表示实施例1的使用姿势信息和图像特征的检索画面的图。

图12是表示实施例1的系统整体的处理的时序图。

图13是说明实施例2的基于姿势信息的图像编辑的图。

图14是表示实施例2的基于姿势信息的图像编辑处理的流程图。

图15是说明实施例3的使用多个查询的检索的图。

图16是表示实施例3的使用多个查询的检索处理的流程图。

图17是说明实施例4的使用动作路线的动作识别的图。

图18是表示实施例4的使用动作路线的动作识别处理的流程图。

图19是说明实施例5的使用姿势信息从图像整体提取特征量的图。

图20是表示实施例5的使用姿势信息从图像整体提取特征量的处理的流程图。

附图说明

100：图像检索系统；101：图像存储装置；102：输入装置；103：显示装置；104：图像检索装置；105：图像输入部；106：姿势推测部；107：特征量提取部；108：图像数据库；109：姿势输入部；110：查询生成部；111：图像检索部；112：检索结果显示部；300：图像表；310：人物表；601、801：姿势信息；602：人物图像；603、604、605：类似图像；802：检索结果；806、807、808：图像数据；1001：姿势输入区域；1002：检索条件输入区域；1003：检索按钮；1004：检索结果显示区域；1101：属性输入区域；1102：图像选择按钮；1703、1713：姿势信息；1704、1714：动作路线信息；1901：代码本、1903、1905：直方图。

具体实施方式

以下，参照附图对本发明的实施例进行说明。

[实施例1]

图1是表示本实施例的图像检索系统100的结构例的框图。作为图像检索系统100的使用情境，可以考虑(1)监视影像解析用途：在警察组织职员想要从特定的车站内的监视相机图像内实施采取可疑行为的人物的搜寻的情况、大规模商业施设管理公司职员等用户从施设内的监视相机图像内分析顾客行为的情况、看护施设的职员发现入馆者的蹲坐或倒下等异常行为等；(2)指导用途：检索竞技体育或跳舞、舞蹈的动作编排；(3)内容检索用途：从电影或电视节目、web上的图像中检索取特定姿态的人物的图像或影像等；但并不限定于此。此外，上述是关于人物的例子，但只要能够定义作为特征点的集合的姿势信息，则能够以任意的物体为对象来实施图像检索系统100。以下，将检索对象设为“人物”，举(1)的监视影像解析用途为例，对各结构进行说明。

另外，这里所述的“姿势”是指对象物体中共同存在的特征点的集合，例如在人物的情况下，可以通过{头部、颈部、右肩、右肘、右手腕、左肩、左肘、左手腕、右腰、右膝、右脚腕、左腰、左膝、左脚腕}这样的特征点的集合来定义姿势。特征点通过图像识别处理来检测，具有图像中的坐标和可靠度的信息。这里所述的“可靠度”是表示相应的特征点存在于检测到的坐标处的概率的值，基于统计信息来计算。

此外，以下称作“图像”时意味着表示运动图像或静止图像的信息，称作“影像”时意味着还包含图像以外的声音数据等的信息。

在图1中，图像检索系统100使用用户作为检索条件而输入的姿势信息来检索图像数据库108，由此有效地检索包含类似的姿势的物体的图像。图像检索系统100由图像存储装置101、输入装置102、显示装置103及图像检索装置104构成。此外，图像检索装置104由图像输入部105、姿势推测部106、特征量提取部107、图像数据库108、姿势输入部109、查询生成部110、图像检索部111、检索结果显示部112构成。

图像存储装置101是保存静止图像数据或运动图像数据的存储介质，使用计算机内置的硬盘驱动器、或nas(networkattachedstorage)、或者san(storageareanetwork)等的通过网络连接的存储系统构成。此外，图像存储装置101也可以是暂时保持从相机持续地输入的图像数据的闪存存储器。

输入装置102是鼠标、键盘、触摸设备等用来将用户的操作向图像检索装置104传递的输入接口。此外，也可以是将姿势信息向系统传递的专用的装置。例如，可以使用能够将距离传感器的数据进行解析并将对象物的特征点的信息进行输入的装置、在关节处具有角度传感器的人型的装置、在人体的关节上安装加速度传感器而取得姿势的装置等。显示装置103是液晶显示器等输出接口，用于图像检索装置104的检索结果的显示、与用户的对话操作等。

图像检索装置104是进行用来提取检索所需要的信息并进行数据库化的登记处理、以及使用所登记的数据的检索处理的装置。以下，对登记处理进行说明。另外，关于登记处理的详细情况，在图5的流程图中也进行说明。

在登记处理中，从新登记的图像识别物体的姿势信息，将图像信息与姿势信息建立关联而向图像数据库108登记。即，从储存在图像存储装置101中的静止图像数据或运动图像数据，根据需要而提取识别对象区域，从所提取的区域中通过图像识别处理取得姿势信息，向图像数据库108登记。姿势信息是1个以上的特征点的集合，用图像中的坐标和可靠度的数值来表现各特征点。特征点的可靠度由0以上且1以下的实数值给出，越接近于1则表示特征点是正确的坐标的概率越高。此外，在登记处理中，提取将图像的表象的特征进行了数值化的特征量、通过图像识别处理识别出的属性的信息，并与姿势信息建立关联而向图像数据库108登记。

此外，图像检索装置104使用用户从输入装置102指定的检索条件，进行用来从图像数据库108检索与检索条件相符的图像并向显示装置103信息提示的检索处理。在检索处理中，用户将姿势信息指定为检索条件。用户例如通过使显示在显示装置103上的特征点移动，决定在检索中使用的姿势信息。详细情况在图10中后述。另外，只要能够确定要使用的姿势信息，则也可以用上述的专用装置、文章或声音来输入。通过使用姿势信息的图像检索，用户能够得到包含与所指定的姿势信息相符的物体的图像。即，用户在检索希望的图像时，不仅通过场所或时刻等元数据及图像的表象的特征，还能够通过输入物体的姿势信息来找到包含类似的姿势的图像，所以图像检索的精度提高。此外，不仅是姿势信息，还通过在条件中添加图像特征及属性，能够有效地提示与用户的检索意图接近的检索结果。

图像输入部105从图像存储装置101受理静止图像数据或运动图像数据的输入，将数据变换为在图像检索装置104内部中使用的数据形式。例如，在图像输入部105受理的数据是运动图像数据的情况下，图像输入部105进行分解为帧(静止图像数据形式)的运动图像解码处理。

姿势推测部106识别所输入的图像中包含的姿势信息。姿势推测处理以由系统规定的物体单位进行。例如，如果是将人物作为一个物体的系统，则首先检测图像中包含的人物并进行区域检测处理，按检测出的每个区域进行姿势识别处理。检测处理可以使用周知的方法。此外，根据姿势推测的方法，也有通过检测图像中包含的多个物体的特征点并用于姿势推测来提高精度的方法，在使用这样的姿势推测方法的情况下能够将事前的区域检测处理省略。此外，在所输入的数据是运动图像的情况下，也可以在帧间对相同的物体进行跟踪处理。

为了进行姿势推测，需要预先准备输出物体的特征点的坐标的回归模型。从输入图像输出多个坐标值的回归模型可以通过使用大量的训练数据和深层学习的机械学习方法来构建。训练数据由图像和正解标签的对构成。可以准备如下回归模型：通过改变拍摄到训练数据的图像中的物体的种类、或改变作为正解标签而赋予的特征点的定义，来推测针对任意的物体的由任意的特征点构成的姿势信息。

特征量提取部107从姿势信息提取在图像检索中使用的特征量。对特征量而言，只要表示姿势信息，则可以通过任意的方法来提取。以下，将根据姿势信息计算出的特征量区别为“姿势特征量”，将表示其以外的图像的表象的特征量区别为“图像特征量”。即，图像特征量是表示图像的颜色或形状等特征的能够在图像间比较的值。任何特征量都是能够在图像间比较类似性的值，例如用固定长度的向量表现。姿势特征量例如也可以将姿势信息中包含的各特征点的坐标排列而成。在使用坐标作为特征点的情况下，通过使用物体的尺寸或中心坐标进行规范化处理，关于表象的尺寸不同的物体或存在于不同的坐标处的物体也能够得到类似的姿势特征量。除了直接使用坐标值的方法以外，例如可以使用从利用特征点的坐标绘制的模拟物体中提取的图像特征量、特征点间的距离、角度数据等作为姿势特征量。

在本实施例中，在检索中使用姿势特征量，但可以收集典型的姿势的特征量，通过机械学习使姿势识别器进行学习。在特征量提取部107中，也可以使用已学习姿势识别器来识别姿势，与人物信息建立关联而登记到图像数据库108中。

此外，特征量提取部107除了姿势特征量以外，还提取表示图像的表象的图像特征量。由此，不仅是姿势信息，还能够将图像的表象作为条件来进行检索。图像特征量既可以从物体区域整体中提取，也可以按特征点附近的每个区域来提取。特征量提取部107也可以识别拍摄到图像中的物体的种类，提取属性信息。属性识别处理通过事前学习的属性识别用的模型来进行。

图像数据库108保持通过登记处理得到的图像信息和人物信息。图像数据库108能够对于图像检索装置104的各部的询问，检索满足给出的条件的登记数据、或读出所指定的id的数据。图像数据库108的构造的详细情况在图3中后述。

以上是图像检索装置104的登记处理中的各部的动作。接着，说明图像检索装置104的检索处理中的各部的动作。另外，检索处理的详细情况在图9的流程图中也进行说明。

姿势输入部109受理用户经由输入装置102输入的姿势信息。如上所述，姿势信息由多个特征点的集合构成，特征点拥有坐标和可靠度，但在此时受理的信息中也可以没有可靠度的信息。坐标信息既可以在画面上准备输入表格，也可以能够描绘特征点而直观地输入。此外，也可以事前将特征性的姿势进行模板化而供用户选择。进而，也可以不使用画面而从专用装置直接输入数据，也可以准备如下接口：以声音或文本为输入进行声音识别或自然语言处理，从而选择相应的模板。

查询生成部110将由姿势输入部109得到的姿势信息变换为检索查询。检索查询是特征量，例如用固定长度的数值向量来表现。从姿势信息向检索查询的变换由与特征量提取部107同样的机构进行。此外，查询生成部110也可以生成基于多个姿势特征量、图像特征量的多查询(multiquery)。进而，作为检索条件也可以添加属性或时刻、场所等元数据。

图像检索部111使用由查询生成部110得到的查询向量，从图像数据库108中取得相应的登记数据。在检索处理中，计算查询向量与登记数据的向量间的距离，以距离从近到远的顺序重新排列而输出一定数量。距离计算中使用平方欧几里德距离。例如如果查询向量为vq＝(q1，q2，q3，…)，登记数据的向量为vp＝(p1，p2，p3，…)，则平方欧几里德距离d(vp，vq)用d(vp，vq)＝(p1－q1)^2+(p2－q2)^2+(p3－q3)^2+…计算。这里，“^2”是指平方。平方欧几里德距离越小，可以认为是越接近于符合检索条件的登记数据的图像。在该例中，说明了作为图像间的类似度的指标而使用平方欧几里德距离的例子，但只要是能够评价查询与登记数据的相符性的计算方法，则可以使用任意的指标来检索数据。

检索结果显示部112将通过图像检索部111的检索处理得到的登记数据显示在显示装置103上。由于通过检索处理取得的数据是关于物体的数据，所以通过根据需要从图像数据库108取得被检测到物体的原图像的信息或将图像进行加工，生成用户所需要的画面。

以上是图像检索装置104的检索处理中的各部的动作。另外，图像检索装置104的登记处理和检索处理也可以同时执行。例如可以应用到拥有以下功能的实时系统：预先设定检索查询，定期地执行检索处理，由此在新输入的图像中包含特定的姿势的情况下向画面通知。

图2是表示本实施例的图像检索系统100的硬件结构例的框图。在图2中，图像检索装置104具备相互连接的处理器201及存储装置202。存储装置202由任意种类的存储介质构成。存储装置202由半导体存储器与硬盘驱动器的组合构成。

另外，图1所示的图像输入部105、姿势推测部106、特征量提取部107、姿势输入部109、查询生成部110、图像检索部111、检索结果显示部112这些功能部通过由处理器201执行保存在存储装置202中的处理程序203来实现。换言之，各功能部执行的处理由处理器201基于处理程序203来执行。此外，图像数据库108的数据被保存在存储装置202中。另外，在以处理负荷分散等为目的而将图像检索系统100用多个装置构成的情况下，具备图像数据库108的装置和执行处理程序203的装置也可以是通过网络连接的在物理上不同的装置。

图像检索装置104还包括与处理器201连接的网络接口装置(nif)204。设想图像存储装置101是经由网络接口装置204而与图像检索装置104连接的nas或san。另外，图像存储装置101也可以包含于存储装置202。

图3是表示本实施例的图像数据库108的结构及数据例的说明图。另外，在本实施例中，系统使用的信息不依存于数据构造，以怎样的数据构造来表现都可以。图3表示表形式的例子，但例如从表、列表、数据库或队列适当地选择的数据构造体都可以保存信息。

在图3中，图像数据库108例如包括保持图像信息的图像表300和保持人物信息的人物表310。图3的各表结构及各表的字段结构是一例，例如也可以根据应用来追加表及字段。此外，如果保持着同样的信息，则也可以改变表结构。例如，也可以将图像表300与人物表310结合而作成一个表。

图像表300由图像id字段301、图像数据字段302、时刻字段303、场所字段304及图像特征量字段305构成。

图像id字段301保持各图像信息的识别号码。图像数据字段302保持在显示检索结果时使用的图像数据。时刻字段303保持取得了图像的时刻数据。场所字段304保持取得了图像的场所的信息。图像特征量字段305保持表示图像整体的特征的数值向量。例如，保持红色成分的比例及边缘信息等。

人物表310由人物id字段311、图像id字段312、特征点x坐标字段313、特征点y坐标字段314、特征点可靠度字段315、人物姿势特征量字段316、人物图像特征量字段317、跟踪id字段318构成。

人物id字段311保持各人物信息的识别号码。图像id字段312保持图像id，该图像id是向被检测到人物的原图像的参照，并由图像表300管理。特征点x坐标字段313保持将人物的特征点的水平方向坐标(x坐标)关于全部特征点依次排列的向量数据。关于坐标值，例如也可以在图像区域内进行正规化以取0至1的值来保存。特征点y坐标字段314保持将人物的特征点的垂直方向坐标(y坐标)关于全部特征点依次排列的向量数据。特征点可靠度字段315保持将人物的特征点的可靠度关于全部特征点依次排列的向量数据。人物姿势特征量字段316保持根据人物的姿势信息计算出的特征量的向量数据。人物图像特征量字段317保持根据人物的图像计算出的特征量的向量数据。跟踪id字段318保持表示图像间的人物的同一性的id。

本实施例的图像检索装置104通过从输入的图像提取物体的姿势信息，用户能够检索出不仅是图像的表象、还有姿势类似的图像。对于作为检索对象的图像，需要事前输入到图像检索装置104中而执行数据库登记处理。图像检索装置104对于所输入的图像，通过图像识别处理来提取姿势信息。

图4是用来说明由图像检索装置104执行的图像识别处理的结果的图。如果输入了拍摄有多个人物的输入图像401，则识别出每个人物的区域和其姿势。图像402是将识别结果叠加显示的图像。例如，关于在输入图像401中出现的人物403，得到区域404及姿势405。姿势信息由特征点的集合给出，如果预先定义特征点间的连接关系，则能够如姿势405那样通过点和线进行可视化。

对输入图像的识别处理及数据库登记处理而言，只要储存有在图3中说明的数据库的结构例的信息，则登记时的次序可以是任意的，例如可以使用后述的图5的流程图中表示的次序。

图5是本实施例的数据库登记的处理流程图。以下，对图5的各步骤进行说明。另外，数据登记处理流程的触发事件是用户请求规定场景中的图像数据群等。关于触发事件的详细情况，在作为登记处理及检索处理的整体时序图的图12中后述。

在图5中，图像输入部105从图像存储装置101取得图像数据，将所取得的图像数据根据需要变换为能够在系统内部中利用的形式(s501)。例如，在受理了运动图像数据的输入的情况下，将运动图像数据分解为帧(静止图像数据形式)的运动图像解码处理等相当于变换处理。此外，在以姿势信息进行检索的情况下，在图像相对于地面倾斜时或有镜头歪斜时，检索精度有可能变低，所以进行倾斜修正或歪斜修正等变换处理。此外，根据需要而提取用来以图像整体的类似性进行检索的图像特征量。

姿势推测部106从所输入的图像中检测人物区域，推测各区域中包含的人物的姿势(s502)。检测处理中可以使用周知的人检测算法。姿势推测处理由从输入图像输出特征点的坐标值的回归模型执行。关于回归模型，通过准备深层学习等周知的机械学习方法和训练数据而事前进行学习，通常在系统的执行时使用已学习的模型。步骤s502的结果是，按检测出的每个人物，得到由特征点的集合构成的姿势信息。特征点拥有坐标值和可靠度的数据。

图像检索装置104关于在步骤s502中检测出的各人物，执行步骤s504至步骤s506(s503)。

特征量提取部107从在步骤s502中得到的人物的区域中提取图像特征量(s504)。人物的区域例如通过提取包含全部特征点的区域来得到。

特征量提取部107在步骤s502中得到的人物的姿势信息中有缺损的情况或特征点的可靠度极低的情况下，补充特征点(s505)。在步骤s502的姿势推测处理中，在图像不清晰的情况或由遮蔽物遮挡了人物的情况下，特征点有可能缺损。图像检索装置104为了从有缺损的人物图像中也提取可检索的特征量，进行姿势信息的补充处理。关于补充处理的详细情况，在图6、图7中后述。

特征量提取部107从在步骤s505中得到的已补充的姿势信息提取姿势特征量(s506)。姿势特征量是反映姿势信息的数值向量，例如可以根据将特征点的坐标排列得到的数据、从将特征点可视化后的图像中提取出的图像特征量、特征点间的距离及角度的数值数据等来计算。

特征量提取部107将在以上的处理中得到的图像信息、物体的姿势信息、图像特征量、姿势特征量建立关联而向图像数据库108登记(s507)。此时，关于特征量，也可以实施用来实现高速检索的数据聚类处理。在监视相机等持续地将新的数据记录到图像存储装置101中的情况下，在等待到新的数据被存储后，向步骤s501返回而重复进行登记处理。

图6是用来说明本实施例的有缺损的姿势信息的补充处理的图。在基于图像识别的姿势推测处理中，有不能识别出全部的特征点的情况。在图6中，例如在将手放在膝盖上而就座的人物图像602的情况下，如姿势信息601那样在通过姿势推测处理得到的特征点中发生缺损。所以，图像检索装置104从图像数据库108中取得类似图像(603、604、605)，根据类似图像的姿势信息将缺损特征点的位置信息进行补充(姿势信息606)。在类似性的计算中，既可以使用例如人物图像的图像特征量，也可以使用根据缺损部位以外的特征点计算出的姿势特征量。此外，通过图像中的位置、人物的属性、跟踪id等条件来缩减时间及场所，由此能够取得适当的类似图像。检索对象既可以是已登记在图像数据库108中的过去的图像，也可以是在系统设计时预先输入的典型的姿势的模板。另外，在能够根据相邻的特征点基于规则容易地推测坐标的情况下，也可以不使用检索而进行补充处理。

图7是本实施例的缺损信息的补充的处理流程图。图7的处理流程相当于图5的处理流程的步骤s505。在图7中，特征量提取部107将处理对象的人物图像的特征量作为查询，从图像数据库108中检索类似图像(s701)。

特征量提取部107对于缺损特征点，执行步骤s703至步骤s704(s702)。另外，缺损特征点是姿势推测处理的结果为未能推测出坐标的特征点、虽然推测出了坐标但可靠度比规定值低的特征点。

特征量提取部107从在步骤s701中取得的类似图像取得相应的特征点的坐标和可靠度(s703)。

特征量提取部107根据在步骤703中取得的坐标的集合，推测缺损特征点的坐标(s704)。缺损特征点的坐标例如可以用坐标值的平均值、中值等来计算。此外，也可以根据类似度进行加权来计算。

如果对全部的缺损特征量完成了补充，则特征量提取部107结束处理(s705)。

以上是关于本实施例的图像检索装置104的登记处理的说明。以下，使用图8和图9对本实施例的图像检索装置104的检索处理进行说明。

图像检索装置104能够将用户输入的姿势信息作为查询，检索包含类似的姿势的人物的图像。图8是检索处理的输入输出的例子。在图8中，如果用户输入姿势信息801而作为查询，则图像检索装置104输出检索结果802。检索结果是多个人物数据(803、804、805)的列表，例如以类似度顺序进行排序并输出。此外，也可以输出与各人物数据对应的图像数据。图8的图像数据806、807、808分别是被提取出人物数据803、804、805的原图像。

图9是本实施例的图像检索处理的流程图。在图9中，姿势输入部109受理用户输入的姿势信息(s901)。姿势信息是特征点的集合，以坐标值给出特征点。例如用户通过对显示在显示装置103上的特征点进行操作来输入坐标值。或者，也可以从专用装置直接输入，也可以通过对声音或文本进行处理而变换为姿势信息。

查询生成部110将在步骤s901中输入的姿势信息变换为姿势特征量(s902)。变换处理由与登记时的处理(图5的步骤s506)同样的机构进行。

此外，查询生成部110根据需要而取得姿势信息以外的检索条件(s903)。例如，可以取得图像特征量或人物的属性、时刻、场所等作为条件。

图像检索部111按照在步骤s902中得到的姿势特征量和在步骤s903中得到的检索条件，从图像数据库108中检索类似图像(s904)。在检索处理中，如在图1中叙述的那样，计算登记在数据库中的比较对象的人物的特征量与查询的特征量的平方欧几里德距离，以距离从小到大的顺序取得规定数量的数据。在给出了检索条件的情况下，只有与检索条件一致的人物成为比较对象。此外，在给出了图像特征量的情况下，将图像特征量的距离与姿势特征量的距离合并，重新排列并输出。距离的合并方法既可以简单地将2个距离相加，也可以将距离正规化或加权。

图像检索部111对于在步骤s904中得到的检索结果，从图像数据库108取得被检测出人物的原图像信息(s905)。

检索结果显示部112将根据在步骤s904中得到的检索结果和在步骤s905中得到的图像信息生成的检索结果画面显示在显示装置103上，结束处理(s906)。

图10是表示用来使用本实施例的图像检索装置104进行图像检索的操作画面的结构例的图。此外，同样图11是将属性或图像特征量追加到条件中而进行图像检索的操作画面。首先对图10进行说明。

在图10中，将操作画面在显示装置103上提示给用户。用户使用输入装置102(键盘及鼠标等)对显示在画面上的光标1000进行操作，对图像检索装置104给出处理的指示。另外，图10的例子是固定安设型的操作终端，但只要是能够进行输入和显示的设备，可以采取各种各样的形态。例如，也可以如智能电话或平板那样使用触摸操作。此外，也可以使用头戴型的显示器或能够进行信息显示的眼镜型的设备作为显示装置，使用受理声音输入或手势的输入装置。也可以将来自用于输入姿势信息的专用装置的输入反映到画面中。

操作画面包括姿势输入区域1001、检索条件输入区域1002、检索按钮1003、检索结果显示区域1004。

显示在姿势输入区域1001中的信息由姿势输入部109输出到显示装置103。显示在检索结果显示区域1004中的信息由检索结果显示部112输出到显示装置103。

用户通过拖放显示在姿势输入区域1001中的基本姿势的特征点，决定特征点的坐标(相当于步骤s901)。图中的特征点例如与0：头部，1：颈部，2：右肩，3：右肘，4：右手腕，5：左肩，6：左肘，7：左手腕，8：右腰，9：右膝，10：右脚腕，11：左腰，12：左膝，13：左脚腕对应。在输入姿势信息时，既可以使特征点独立地移动，也可以考虑连接关系而将多个特征点连动地移动。此外，也可以追加特征点以外的控制点等。

在输入了姿势信息后，用户向检索条件输入区域1002输入场所及时间等检索条件(相当于步骤s903)。

如果用户点击检索按钮1003，则执行检索(相当于步骤s904)。另外，如果没有动作速度的问题，则也可以不明示地按下检索按钮，而是改为在姿势信息或检索条件被变更的时间点自动地执行检索。

关于检索结果，由检索结果显示部112变换为包含适当的信息的画面，显示在检索结果显示区域1004中(相当于步骤s906)。

图11是用来在本实施例的检索条件中指定图像的属性及图像特征量的操作画面例。图11在图10的画面中追加了属性输入区域1101和图像选择按钮1102。

在图11中，用户通过点击显示在属性输入区域1101中的属性的复选框，将对应的人物的属性添加到检索条件。此外，通过点击图像选择按钮而选择保存在图像存储装置101中的任意的图像，由此能够将从所选择的图像提取的图像特征量添加到检索条件。图像的选择操作例如也可以为通过拖放而追加到画面中的接口。此时，也可以通过输入人物图像来比较人物全身的图像特征量，也可以通过在姿势输入区域1001中指定特征点而仅比较所指定的特征点的周边的图像特征量。例如，图11表示检索以将右手抬起的姿势在左手中拿着手提袋的20～29岁的头发长的女性的状况。

图12是说明本实施例的图像检索系统100的处理的一例的时序图。图12具体而言表示上述图像检索系统100的图像登记及图像检索处理中的用户1200、图像存储装置101、计算机1201及图像数据库108间的处理次序。另外，计算机1201是实现图像检索装置104的计算机。

在图12中，s1210表示登记处理，s1220表示检索处理。登记处理s1210包括步骤s1211～步骤s1219中表示的处理。如果用户1200发出登记请求(s1211)，则开始登记处理。s1211的具体的使用情境后述。登记处理相当于在图5中说明的处理，以用户所指定的文件数及规定时间反复执行。计算机1201对图像存储装置101发出图像数据取得请求，从图像存储装置101取得图像数据(s1212)。计算机1201将所取得的图像信息登记到图像数据库108中(s1213)，对图像中的人物进行姿势推测(s1214)，对各人物实施一系列的处理(s1215)。在一系列的处理中，补充姿势信息(s1216)，提取特征量(s1217)，向图像数据库108登记人物信息(s1218)。如果全部的登记处理完成，则向用户通知登记完成(s1219)。

检索处理s1220包括步骤s1221～步骤s1225中表示的处理。如果用户1200对计算机1201输入姿势信息及检索条件(s1221)，则计算机1201通过将所输入的姿势信息及图像变换为特征量而生成查询(s1222)，从图像数据库108取得类似图像(s1223)。计算机1201生成包含所需要的信息的画面(s1224)，向用户1200提示检索结果(s1225)。

这里，对每个使用情境的s1211的取位进行说明。例如，如果设想警察组织职员想要从特定的车站内的监视相机图像内实施特定的可疑人物的搜索的情况，则s1211对应于对相当于图像存储装置101的车站服务器请求认为拍摄到了可疑人物的图像数据群的处理。此外，如果设想大规模商业施设管理公司职员等用户想要从施设内的监视相机图像内找出异常行为的情况，则s1211对应于对相当于图像存储装置101的施设内服务器请求认为拍摄到了走失儿童或遗失物等的图像数据群的处理。另外，在s1211时，也可以通过由用户具体地指定日期时间或时间段等，将所取得的数据群的总数缩减。

另外，在图12中，在登记处理s1210完成之后执行检索处理s1220，但也可以同时执行。例如，也可以做成对于从监视相机持续地输入的图像总是执行登记处理、用户能够随时执行检索处理而从监视图像中检索人物的系统。此外，也可以将拍摄到的图像与拍摄了该图像的监视相机的id建立对应而管理。由此，容易确定拍摄到了通过检索找到的人物等的时刻及摄像位置，能够提高检索对象物的跟踪效率。

如以上所述，根据本实施例的图像检索系统，在多种多样的使用情境下能够进行符合用户的检索意图的图像检索。

[实施例2]

对于拍摄了许多人物的监视相机影像，为了缓和混淆、市场解析等提高安全性及便利性而有想要利用影像的需求，另一方面，从隐私保护等的观点来看，存在难以公开原始的图像的情形。在本实施例中，对将图像检索装置104应用于图像编辑的方法进行说明。

图13是表示使用本实施例的姿势信息的图像编辑的图。在图13中，通过对所输入的原始图像1301进行姿势推测处理，能够得到画面上的人物的位置和其姿势。对此，能够以特定的姿势为过滤条件(1302)，生成仅将类似的姿势的人物用实际图像显示、关于其以外的人物仅显示姿势信息的编辑图像1303。用户针对需要确认在过滤条件中指定的姿势的人物(例：蹲下的人物)能够观看实际图像来对应，而关于其以外的人物也能够通过进行可视化后的姿势信息来掌握场景整体的状况。另外，人物的显示方法可以根据影像的使用条件采取各种各样的形态。例如，在实际图像的公开被完全禁止的情况下，关于与过滤条件一致的人物也仅将姿势信息用与其他不同的设计进行显示。此外，也可以仅将能够确定个人的部位(头部)模糊显示。

图14是本实施例的使用姿势信息的图像编辑的处理流程图。假设编辑对象的图像已经预先登记在图像数据库108中。在图14中，姿势输入部109从输入装置102取得作为过滤条件的姿势信息(s1401)。查询生成部110将在步骤s1401中取得的姿势信息变换为姿势特征量(s1402)。检索结果显示部112从图像数据库108取得没有被拍摄到人物的图像作为背景图像(s1403)。这里，设为取得与编辑对象的图像相同场所的图像时的检索条件。在没有找到没有被拍摄到人物的图像的情况下，通过将多个图像合成而生成背景图像。图像检索部111从图像数据库108取得编辑对象的图像的人物的姿势特征量(s1404)。

图像检索装置104关于在步骤s1402中取得的各人物，执行步骤s1406至步骤s1409(s1405)。图像检索部111计算在步骤s1402中得到的过滤用的姿势特征量和处理对象的人物的姿势特征量的类似度(s1406)。如果在步骤s1406中得到的类似度是规定值以上，则图像检索装置104执行步骤s1408，否则执行步骤s1409(s1407)。检索结果显示部112将人物图像合成到在步骤s1403中取得的背景图像上(s1408)。检索结果显示部112将姿势信息可视化并描绘到在步骤s1403中取得的背景图像上(s1409)。如果关于全部的图像中的人物完成描绘，则检索结果显示部112在显示装置103上显示编辑图像而结束处理(s1411)。

根据本实施例，通过使用以可检索的状态保存有图像信息和姿势信息的图像数据库108，能够构建对输入图像进行自动编辑的系统。

[实施例3]

实施例1的图像检索装置104能够检索包含类似的姿势的图像，但即使是相同的姿势，在摄影的朝向不同的情况下，由于画面上的特征点的坐标不同，所以也不能检索到。在本实施例中，说明通过使用多个查询来检索以不同的朝向取得的姿势的方法。

图15是表示本实施例的使用多个查询的类似姿势的检索的说明图。如图15所示，在姿势输入部109中通过拥有三维坐标信息的接口来输入姿势信息(1501)。通过在三维空间上变更视点，能够得到多个投影到平面上的情况下的姿势信息(1502)。将得到的姿势信息变换为查询，从图像数据库108中检索与各查询对应的类似图像(1506)。在图15中，检索出与查询1503对应的类似图像1507和1508、与查询1504对应的类似图像1509和1510、与查询1505对应的类似图像1511，在多个朝向下得到了包含类似的姿势的图像。

图16是本实施例的使用多个查询的类似姿势检索的处理流程图。在图16中，姿势输入部109取得用户通过输入装置102输入的3d模型(s1601)。图像检索装置104关于多个视点执行从步骤s1603到步骤s1606(s1602)。

查询生成部110变更3d模型的视点(s1603)。此外，查询生成部110取得投影到平面上的情况下的特征点坐标，得到姿势信息(s1604)。进而，查询生成部110根据在步骤s1604中取得的姿势信息生成姿势特征量(s1605)。

图像检索部111将在步骤s1605中生成的特征量作为查询，从图像数据库108取得类似图像(s1606)。检索结果显示部112将各视点下的在步骤s1606中取得的全部的检索结果汇总，在显示装置103上显示检索结果，结束处理(s1608)。

根据本实施例，通过使用多个查询，能够检索以不同的朝向取得的姿势。

[实施例4]

实施例1的图像检索装置104通过使用根据姿势信息生成的特征量，能够检索包含类似的姿势的静止图像，然而有虽然该瞬间是相同的姿势但动作不同的情况。例如，图17的姿势信息1703和1713由于同样抬起了右手，所以被以高的类似度检索出。但是，如果看连续的图像中的姿势信息则可知，1701至1703是“抬起右手并摆动”的动作，1711至1713是“确认便携电话并打电话”的动作。为了将它们区别，例如也可以应用实施例3的多个查询检索，以连续的帧进行多次检索，并将结果合并。对此，在本实施例中，说明预先保存各特征点的动作路线、根据图17的1704、1714那样的动作路线信息进行检索的方法。

图18是本实施例的使用特征点的动作路线提取姿势特征量的处理流程图。在图18中，特征量提取部107在一定的时间区间中取得在图3中表示的相同跟踪id318的姿势信息(s1801)。此外，特征量提取部107将姿势信息以时间序列重新排列(s1802)。

特征量提取部107对各特征点执行步骤s1804～s1805(s1803)。特征量提取部107从以时间序列排列的多个姿势信息取出对应的特征点的坐标，生成动作路线(s1804)。此外，特征量提取部107根据在步骤s1804中生成的动作路线，计算动作路线的特征量(s1805)。动作路线的特征量是用来找到类似的动作路线的数值数据，例如既可以在图像中描绘动作路线并提取其图像特征量，也可以使用将每单位时间的移动量及朝向数值化的向量数据。动作路线的特征量既可以作为人物信息的特征量追加到人物表310中，也可以在图像数据库108中准备对跟踪信息进行管理的新的表。

使用动作路线的检索除了所使用的特征量是基于上述动作路线的特征量这一点以外，与在图9中表示的内容是同样的，所以省略。

在本实施例中，将动作路线特征量用于检索，但可以收集典型的动作路线的特征量而通过机械学习使动作识别器学习。在特征量提取部107中，也可以使用已学习动作识别器识别动作，并与人物信息建立关联而登记到图像数据库108中。

如以上这样，根据本实施例，通过根据动作路线信息进行检索，能够以高类似度进行检索。

[实施例5]

实施例1的图像检索装置104着眼于画面内的一个人物的姿势进行检索。在本实施例中，说明使用画面中的多个人物的姿势信息检索类似的场景的方法。

图19是用来说明本实施例的从多个人物的姿势信息提取场景的特征量的方法的图。在本实施例的特征量提取部107中，不是从姿势信息整体，而是按每个特征点或从特征点的部分集合提取局部姿势特征量。通过对许多图像将它们的局部姿势特征量聚类，如图19所示生成特征量的代码本(codebook)1901。通过对新的局部姿势特征量搜索代码本中的所属的群，能够将向量数据变换为代码(vw：visualword(视觉词))。通过关于图像中的全部的局部姿势特征量将代码的频度进行统计，能够得到直方图1903，能够将该直方图作为反映了姿势信息的图像整体的特征量使用。在图19中，例如示出了“伸出手指”的特征量成分与直方图的代码vw5对应，关于“几个人手指着蹲下的人”的图像1902、1904，由于提取出了同样的特征量的直方图1903、1905，所以通过以该特征量进行检索，能够检索到类似的场景。另外，由于通过直方图化而人物的配置的信息丢失，所以例如如果将画面进行分割而从各区域计算直方图，则能够成为某种程度保持着位置信息的特征量。

图20是表示本实施例的反映了姿势信息的图像整体的特征量提取的处理流程的图。在图20中，姿势推测部106从图像推测姿势信息(s2001)。本处理与图5的步骤s502相同。

特征量提取部107关于在步骤s2001中检测出的全部人物的特征点执行步骤s2003～s2005(s2002)。

特征量提取部107从特征点提取特征量(s2003)。特征点的特征量例如既可以是特征点周边的图像特征量，也可以将与相邻的特征点的距离或角度等进行姿势特征量化。此外，也可以不是按每个特征点提取，而是按姿势的每个部分集合来提取姿势特征量。例如可以使用“头部肩＝{头部，颈部，右肩，左肩}”，“右上半身＝{右肩，右肘，右手腕}”，“左上半身＝{左肩，左肘，左手腕}”，“躯体＝{颈部，左腰，右腰}”，“右下半身＝{右腰，右膝，右脚腕}”，“左下半身＝{左腰，左膝，左脚腕}”那样的姿势的部分集合。此外，也可以按图像的每个部分集合来提取图像特征量。特征量提取部107将在步骤s2003中得到的特征量变换为代码(s2004)。从特征量向代码的变换可以如在图19中说明那样，使用事前构建的代码本来进行。此外，也可以按每个特征点、按姿势的每个部分集合而使用不同的代码本。

特征量提取部107将在步骤s2004中得到的代码的直方图上的频度更新(s2005)。

如果关于图像中的全部特征量完成了步骤s2003～s2005，则特征量提取部107将直方图进行特征量化，登记到图像数据库108中，将处理结束(s2007)。此时，也可以根据特征点的总数等将值进行正规化。

如以上这样，根据本实施例，通过由用户指定作为查询的图像，能够将储存在图像数据库中的上述图像整体的特征量进行比较，检索类似的场景。

以上，对实施例进行了说明，但本发明并不限定于上述的实施例，而包含各种各样的变形例。例如，上述的实施例是为了将本发明容易理解地说明而详细地说明的，并不限定于一定具备所说明的全部结构。此外，也能够将一实施例的结构的一部分替换为其他实施例的结构，此外，也能够对一实施例的结构添加其他实施例的结构。此外，关于各实施例的结构的一部分，也可以进行其他结构的追加、删除、替换。此外，关于上述的各结构、功能，既可以将它们的一部分或全部用硬件实现，也可以用软件实现。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：渡边裕树;森田健一;村上智一;广池敦;孔全
技术所有人：株式会社日立制作所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。