信息处理装置、程序和信息处理方法与流程

文档序号:26360786发布日期:2021-08-20 20:37阅读:85来源:国知局
信息处理装置、程序和信息处理方法与流程

本发明涉及信息处理装置、程序和信息处理方法。



背景技术:

在图像处理的领域中,已提出学习大量图像来识别物体的技术。如果使用开放源码,则能够准备大量的映出人或车的图像。但是,很难收集大量的特定的车、设备或产品这样的特定物体的图像。

例如,在非专利文献1中提出有如下方法:为了准备大量的特定物体的图像,在制作出从多个位置和角度渲染物体的三维模型而成的前景图像后,与预先准备的多个背景图像贴合,由此制作大量的图像。

现有技术文献

非专利文献

非专利文献1:manikgoyal,paramrajpura,hristobojinov,andravihegde,“datasetaugmentationwithsyntheticimagesimprovessemanticsegmentation”,arxiv:1709.00849v3,june26,2018



技术实现要素:

发明要解决的课题

现有技术在三维模型的形状和纹理高精细的情况下是有效的技术。

作为三维模型制作方法,存在以下所示的2个方法。

第1方法是手动制作三维模型的方法。该方法存在非常花费时间这样的问题。

第2方法例如是准备转台等特别的环境来制作三维模型的方法。该方法存在如果不是转台等特别的环境容许的重量和大小的物体则无法制作三维模型这样的问题。

如上所述,制作特定物体的高精细的三维模型是不现实的,因此,现有技术缺乏实用性。

因此,本发明的1个或多个方式的目的在于,能够容易地生成大量的特定物体的图像。

用于解决课题的手段

本发明的1个方式的信息处理装置的特征在于,所述信息处理装置具有:三维信息取得部,其取得包含多个图像的三维信息;识别对象选择部,其从所述三维信息中选择识别对象;识别对象切取部,其从所述多个图像中分别切取与选择出的所述识别对象对应的范围即识别对象范围的图像,由此根据所述多个图像生成多个前景图像;背景图像存储部,其存储多个背景图像;以及图像合成部,其在所述多个背景图像中的各个背景图像中合成所述多个前景图像中的各个前景图像,由此生成多个合成图像。

本发明的1个方式的程序的特征在于,所述程序使计算机作为以下部分发挥功能:识别对象选择部,其从包含多个图像的三维信息中选择识别对象;识别对象切取部,其从所述多个图像中分别切取与选择出的所述识别对象对应的范围即识别对象范围的图像,由此根据所述多个图像生成多个前景图像;背景图像存储部,其存储多个背景图像;以及图像合成部,其在所述多个背景图像中的各个背景图像中合成所述多个前景图像中的各个前景图像,由此生成多个合成图像。

本发明的1个方式的信息处理方法的特征在于,取得包含多个图像的三维信息,从所述三维信息中选择识别对象,从所述多个图像中分别切取与选择出的所述识别对象对应的范围即识别对象范围的图像,由此根据所述多个图像生成多个前景图像,在多个背景图像中的各个背景图像中合成所述多个前景图像中的各个前景图像,由此生成多个合成图像。

发明效果

根据本发明的1个或多个方式,能够容易地生成大量的特定物体的图像。

附图说明

图1是概略地示出实施方式的信息处理装置的结构的框图。

图2是用于说明三维坐标系的概略图。

图3是概略地示出前景图像生成部的结构的框图。

图4是用于说明识别对象的选择的第1概略图。

图5是用于说明识别对象的选择的第2概略图。

图6是用于说明识别对象的选择的第3概略图。

图7是用于说明识别对象的选择的第4概略图。

图8是示出信息处理装置的硬件结构例的框图。

图9是示出信息处理装置的动作的流程图。

图10是示出生成前景图像的动作的流程图。

具体实施方式

图1是概略地示出实施方式的信息处理装置100的结构的框图。

信息处理装置100具有三维信息取得部110、前景图像生成部120、作为背景图像存储部的背景图像数据库(以下称作背景图像db)130、图像合成部140和作为学习图像存储部的学习图像数据库(以下称作学习图像db)150。

三维信息取得部110取得三维信息,该三维信息包含多个图像和表示该多个图像中分别包含的多个点的三维位置的位置信息。例如,三维信息取得部110使用slam(simultaneoulocalizationandmapping:同时定位与地图构建)等取得三维信息。

在本实施方式中,三维信息例如包含从多个视点或角度这样的多个拍摄位置或多个角度拍摄到的多个图像、以及表示该多个图像中分别包含的多个点的三维位置(例如三维坐标)的位置信息即三维点群信息。进而,三维信息也可以包含该多个图像和表示摄像到该多个图像的位置和角度的传感器信息。另外,将由位置信息表示的多个点的三维位置也称作三维点群。

这里,对三维信息取得部110由rgb-d(redgreenblue-depth:红绿蓝-进深)摄像机实现的例子进行说明。

在设拍摄到以某个视点拍摄到的图像f(f=1、2、…、f)时得到的点l(l=1、2、…、lf)的位置为qfl时,qfl通过下述的(1)式得到。

【数学式1】

qfl=dflk-1q′l(1)

f是在slam处理中拍摄到的图像的张数,是1以上的整数。

lf是在各图像内得到距离的像素的数量,是1以上的整数。

k是rgb-d摄像机的内部参数,是表示焦点或镜头中心等的参数。

q’l是得到距离的图像的像素的坐标。例如,如下述的(2)式所示,q’l由将图像的左上方设为原点时的横向的像素数ul和纵向的像素数vl的坐标表示。

【数学式2】

dfl是从拍摄位置到与图像f的点l对应的对象为止的距离。dfl从rgb-d摄像机的depthchannel得到。

点qfl由将摄像机的位置设为原点、将光轴方向设为z轴、将横向设为x轴、将纵向设为y轴的图2所示的坐标系表现。

这里,点qfl由将拍摄位置设为原点的摄像机基准的坐标系表示。在对拍摄到各图像时的点群进行统合来制作大规模点群时,需要利用统一的坐标系表现点群。一般而言,利用初次拍摄到的图像(f=1)的坐标系表现拍摄到其他图像时得到的点群。

转换成初次拍摄到的图像的坐标系的代表性方法的流程如下所述。

首先,从初次的图像和其他图像中提取局部特征量。

接着,对从2个图像中提取出的局部特征量进行匹配。

接着,使用匹配的局部特征量对求出2个图像的关系(例如平行移动量和旋转量)。

上述方法是代表性方法。除此以外,还存在对在时间上相邻的图像关系进行累计而求出与初次图像之间的位置关系的方法等。

将利用这种方法求出的初次图像与其他图像f的关系设为t1→f,在利用初次拍摄到图像时的坐标系表现各点时,成为下述的(3)式。

【数学式3】

然后,最终得到的三维点群成为点rfl的集合。

然后,三维信息取得部110生成三维信息,该三维信息包含表示如上所述检测到的三维点群的三维点群信息、表示rgb-d摄像机的图像传感器的位置和角度的传感器信息、以及由rgb-d摄像机摄像到的图像。三维信息取得部110将生成的三维信息提供给前景图像生成部120。

另外,图像传感器的位置和角度是拍摄到各图像时的位置和角度。将图像的拍摄位置设为pn,将角度设为rn。图像的索引是n=1、2、…、n,将摄像到的图像张数设为n(2以上的整数)。角度rn的表现可以是欧拉角、quaternion或euler-rodrigues的形式等,只要确定三维的旋转角度即可,可以是任意形式。

前景图像生成部120根据由三维信息取得部110取得的三维信息生成表示识别对象的多个前景图像,生成表示该多个前景图像的前景图像信息。

图3是概略地示出前景图像生成部120的结构的框图。

前景图像生成部120具有识别对象选择部121和识别对象切取部122。

识别对象选择部121从由三维信息取得部110取得的三维信息中选择识别对象。

在由三维信息中包含的三维点群信息表示的三维点群或三维信息中包含的图像中可能包含识别对象以外的物体。例如,当在地面上放置识别对象进行拍摄的情况下,地面的三维点群也同时被拍摄到。为了排除识别对象以外的信息,识别对象选择部121从三维点群或图像中选择识别对象。作为选择方法,存在以下2个模式。

第1模式是手动选择。

识别对象选择部121根据三维信息,在未图示的显示部中显示三维点群或图像,经由未图示的输入部从用户接受识别对象范围的选择。

例如,以三维点群信息中包含的图像是图4所示的图像170的情况为例进行说明。在图像170中包含有识别对象171。

这种情况下,如图5所示,用户在图像170中指定4个点sa,1、sa,2、sa,3、sa,4,由此选择识别对象171。此时,如图5所示,也可以不是一次性选择全部识别对象171。图5是仅选择构成识别对象171的一个面即面a的例子。用户在选择面a后,分别选择面b和面c,由此,最终能够选择全部识别对象171。

这里,识别对象选择部121在指定点sa,1、sa,2、sa,3、sa,4作为面a的情况下,通过上述的(1)式和(3)式求出与这些点sa,1、sa,2、sa,3、sa,4对应的三维位置即三维坐标。假设利用以拍摄开始时为基准的坐标系表现这里求出的三维坐标。其结果是,求出三维坐标s’a,1、s’a,2、s’a,3、s’a,4。

同样,还选择面b和面c。另外,在图4所示的图像170中不容易选择面b或面c的情况下,例如如图6所示,识别对象选择部121也可以使未图示的显示部显示从其他视点拍摄到的图像172,由此受理选择。

通过面b和面c的选择,求出面b的三维坐标s’b,1、s’b,2、s’b,3、s’b,4和面c的三维坐标s’c,1、s’c,2、s’c,3、s’c,4。

另外,在利用三维点群受理选择的情况下,用户从未图示的显示部中显示的三维点群中,直接指定面a的三维坐标s’a,1、s’a,2、s’a,3、s’a,4、面b的三维坐标s’b,1、s’b,2、s’b,3、s’b,4和面c的三维坐标s’c,1、s’c,2、s’c,3、s’c,4。

识别对象选择部121生成表示如上所述确定的面a的三维坐标s’a,1、s’a,2、s’a,3、s’a,4、面b的三维坐标s’b,1、s’b,2、s’b,3、s’b,4和面c的三维坐标s’c,1、s’c,2、s’c,3、s’c,4的识别对象范围信息,将该识别对象范围信息提供给识别对象切取部122。识别对象范围信息是表示选择出的识别对象范围的信息。

选择识别对象的第2模式是半自动选择。

识别对象选择部121也可以使用作为公知算法的grabcut等求出识别对象与除此以外的部分的边界的区域分割技术,求出识别对象范围。当使用区域分割技术时,如图8所示的图像173那样,得到表示识别对象与除此以外的部分的边界的点群s1~sm(m是2以上的整数)。然后,识别对象选择部121设将这些点群s1~sm转换成三维坐标而得到的点群s’1~s’m为识别对象171的范围。与上述同样,利用(1)式和(3)式转换成三维坐标。

识别对象选择部121生成通过如上所述确定的点群s’1~s’m的三维位置表示识别对象范围的识别对象范围信息,将该识别对象范围信息提供给识别对象切取部122。

如上所述,识别对象选择部121根据三维信息中包含的至少1个图像确定识别对象范围,但是,也可以使用三维信息中包含的位置信息确定识别对象。这种情况下,识别对象选择部121根据三维信息中包含的位置信息生成表示多个平面的平面信息。平面信息表示与对象表面对应的平面。然后,识别对象选择部121在显示部显示生成的平面,受理识别对象的选择,或者根据生成的平面求出边界即可。

作为检测平面的代表性方法,存在ransac(randomsampleconsensus:随机样本一致性)。使用ransac检测平面的方法如下所述。

首先,从三维点群中选择数个点,制作出平面。

接着,如果平面上的点存在一定数量,则采用制作出的平面,如果平面上的点不存在一定数量,则丢弃制作出的平面。

接着,反复进行上述处理,检测多个平面。

识别对象切取部122从三维信息中包含的多个图像中,分别切取与由识别对象选择部121选择出的识别对象对应的范围即识别对象范围的图像,由此,根据这些多个图像生成多个前景图像。

例如,识别对象切取部122将由识别对象范围信息表示的识别对象范围投影到三维信息中包含的图像,切取该被投影的范围的图像,由此,从三维信息中包含的多个图像中切取与选择出的识别对象对应的范围的图像即识别对象图像。

下述的(4)式示出将识别方式范围信息中包含的点s’投影到图像n的方法。

【数学式4】

sn=knp[rn|pn]s′(4)

这里,[rn|pn]是根据图像n的拍摄位置或角度制作的矩阵。p是从齐次坐标转换成非齐次坐标的通常坐标系的矩阵,是下述的(5)式所示的矩阵。

【数学式5】

此外,kn表示与图像n对应的摄像机的内部参数,sn表示将点s’投影到图像n时的位置。

识别对象切取部122利用上述方法求出各图像中的识别对象范围后,切取该范围。例如如图5所示,在选择了面a、面b和面c的情况下,切取这些面的整体作为识别对象范围。此外,还从图6所示的从不同视点拍摄到的图像172中切取对应的范围。另外,在图6中,通过计算与图5中选择出的范围对应的范围,切取与识别对象对应的范围。

如上所述,识别对象切取部122从三维信息中包含的全部图像中切出选择出的范围的图像,将切出的图像设为前景图像,由此,能够以低处理负荷生成大量的前景图像。然后,识别对象切取部122将表示前景图像的图像数据即前景图像数据提供给图像合成部140。

背景图像db130存储背景图像的图像数据即背景图像数据。

图像合成部140在由背景图像db130中存储的背景图像数据表示的背景图像中合成由从前景图像生成部120提供的前景图像数据表示的前景图像,由此将合成后的图像设为学习图像,生成表示该学习图像的学习图像数据。换言之,图像合成部140在多个前景图像中的各个前景图像合成多个背景图像中的各个背景图像,由此生成多个合成图像。

具体而言,图像合成部140在背景图像上重叠前景图像。背景图像和前景图像均可以是由红、蓝和绿这3个channel构成的彩色图像,也可以是仅1个channel的灰度图像。此外,背景图像和前景图像也可以是还具有depthchannel的带距离的图像。

此外,图像合成部140也可以在背景图像的各种位置重叠前景图像,以进一步进行数据的扩展。

学习图像db150存储由图像合成部140生成的学习图像数据。

图8是示出信息处理装置100的硬件结构例的框图。

信息处理装置100具有计算机1、输出设备2、输入设备3和传感器4。

计算机1例如是能够由存储器和执行存储器中存储的程序的cpu(centralprocessingunit:中央处理单元)等处理器构成的计算机。这种程序可以通过网络提供,此外,也可以记录于记录介质来提供。即,这种程序例如可以作为程序产品来提供。

此外,计算机1的一部分例如可以由单一电路、复合电路、程序化的处理器、并行程序化的处理器、asic(applicationspecificintegratedcircuits:专用集成电路)或fpga(fieldprogrammablegatearray:现场可编程门阵列)等处理电路构成。

这里,图1所示的前景图像生成部120、背景图像db130、图像合成部140和学习图像db150能够通过计算机1来实现。

输出设备2是作为如显示器等那样显示各种画面图像的输出部发挥功能的装置。

输入设备3是作为鼠标、键盘、触摸面板等输入部发挥功能的装置。

传感器4是作为取得三维信息的三维信息取得部110发挥功能的装置。

在实施方式1中,传感器4通过rgb-d摄像机来实现。另外,传感器4还能够通过imu(inertialmeasurementunit:惯性测量单元)或能够使用红外线、lidar(lightdetectionandranging:激光雷达)或超声波取得距离的传感器和能够对二维图像进行摄像的摄像机的组合来实现。

图9是示出信息处理装置100的动作的流程图。

信息处理装置100以由背景图像db130中存储的背景图像数据表示的背景图像的数量反复进行以下处理(s10)。

三维信息取得部110取得三维信息(s11)。

前景图像生成部120根据三维信息取得部110取得的三维信息生成多个前景图像(s12)。

图像合成部140以前景图像生成部120生成的多个前景图像的数量反复进行以下处理(s13)。

图像合成部140在由背景图像db130中存储的背景图像数据表示的背景图像中合成由前景图像生成部120生成的前景图像数据表示的前景图像,由此生成学习图像(s14)。表示这样生成的学习图像的学习图像数据蓄积于学习图像db150。

图10是示出图9的步骤s12中的生成前景图像的动作的流程图。

首先,识别对象选择部121反复进行以下处理,直到从三维信息取得部110取得的三维信息中取得全部识别对象范围为止(s20)。

识别对象选择部121根据三维信息中包含的三维点群或图像确定识别对象范围(s21)。

接着,识别对象切取部122以三维信息中包含的图像的数量反复进行以下处理(s22)。

识别对象切取部122将由识别对象选择部121确定的识别对象范围投影到图像(s23)。

然后,识别对象切取部122从图像中切取被投影的范围,由此将切取出的图像设为前景图像(s24)。

如上所述,根据本实施方式,能够使用在一般环境下取得的三维信息制作大量的学习用数据。因此,不需要如现有技术那样准备特别的环境。此外,根据一张图像确定识别对象范围,由此,从其他图像中也能够裁剪相同范围,因此,能够以较少的劳力和时间制作大量的图像。不需要如以往那样手动制作高精细的三维模型的劳力和时间、或针对全部图像选择识别对象范围的劳力和时间。

标号说明

100:信息处理装置;110:三维信息取得部;120:前景图像生成部;130:背景图像db;140:图像合成部;150:学习图像db;121:识别对象选择部;122:识别对象切取部。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1