标注装置以及学习装置的制作方法

文档序号:31754495发布日期:2022-10-11 23:52阅读:30来源:国知局
标注装置以及学习装置的制作方法

1.本技术涉及标注装置以及学习装置。


背景技术:

2.以往,已开发出与有监督学习相关的各种技术。有监督学习中的学习用数据被事先标注。在专利文献1中,公开有根据针对学习用数据的标注的状态预测学习性能的技术。
3.现有技术文献
4.专利文献
5.专利文献1:国际公开第2018/079020号


技术实现要素:

6.发明要解决的课题
7.通常,针对学习用数据的标注基于人的手动作业。以下,有时将进行针对学习用数据的标注的人称作“标注负责人”。另外,有时将进行针对学习用数据的标注的作业称作“标注作业”。
8.以往,在图像识别(computer vision)中的物体识别(object recognition)中,已开发出与物体检测(object detection)相关的各种技术。此外,已开发出与区域分割(scene segmentation)相关的各种技术。在物体检测中,“labellmg”等工具用于标注作业。在区域分割中,“labelbox”等工具用于标注作业。
9.即使使用了这些工具,也会产生因标注作业引起的针对标注负责人的作业负荷。特别是在要求针对大量学习用数据的标注作业时,存在针对标注负责人的作业负荷较大的问题。
10.本技术正是为了解决上述课题而完成的,其目的在于,降低因标注作业引起的针对标注负责人的作业负荷。
11.用于解决课题的手段
12.本技术的标注装置具有:图像信号取得部,其取得表示摄像机的拍摄图像的图像信号;图像识别部,其是基于机器学习的已学习的图像识别部,图像识别部执行针对拍摄图像的图像识别;以及学习用数据集生成部,其通过根据图像识别的结果,针对拍摄图像中包含的各个物体执行标注,生成包含与各个物体对应的图像数据和与各个物体对应的标注数据的学习用数据集。
13.发明效果
14.根据本技术,由于如上所述构成,因此能够使标注作业自动化或半自动化。其结果是,能够降低针对标注负责人的作业负荷。
附图说明
15.图1是示出实施方式1的标注系统的主要部分的框图。
16.图2是示出实施方式1的标注装置中的图像识别部的主要部分的框图。
17.图3是示出实施方式1的学习装置中的学习用数据库更新部的主要部分的框图。
18.图4是示出拍摄图像的例子的说明图。
19.图5是示出与图4所示的拍摄图像对应的第1特征图的例子的说明图。
20.图6是示出其他拍摄图像的例子的说明图。
21.图7是示出与图6所示的拍摄图像对应的第1特征图的例子的说明图。
22.图8是示出与图4所示的拍摄图像对应的第2特征图的例子的说明图。
23.图9是示出“掩码r-cnn+gsoc”中的神经网络的结构的说明图。
24.图10是示出与图4所示的拍摄图像对应的第3特征图的例子的说明图。
25.图11是示出“掩码r-cnn+gsoc”中的第1卷积块中的神经网络的结构的说明图。
26.图12是示出基于比较用物体识别的识别结果的例子的说明图。
27.图13是示出基于实施方式1的物体识别的识别结果的例子的说明图。
28.图14是示出基于比较用物体识别的识别精度的例子和基于实施方式1的物体识别的识别精度的例子的说明图。
29.图15是示出可靠度图的例子的说明图。
30.图16是示出实施方式1的标注装置的主要部分的硬件结构的框图。
31.图17是示出实施方式1的标注装置的主要部分的其他硬件结构的框图。
32.图18是示出实施方式1的标注装置的主要部分的其他硬件结构的框图。
33.图19是示出实施方式1的学习装置的主要部分的硬件结构的框图。
34.图20是示出实施方式1的学习装置的主要部分的其他硬件结构的框图。
35.图21是示出实施方式1的学习装置的主要部分的其他硬件结构的框图。
36.图22是示出实施方式1的标注装置的动作的流程图。
37.图23是示出实施方式1的学习装置的动作的流程图。
38.图24是示出实施方式1的其他标注系统的主要部分的框图。
39.图25是示出实施方式1的其他标注系统的主要部分的框图。
40.图26是示出实施方式2的标注系统的主要部分的框图。
41.图27是示出实施方式2的标注装置的动作的流程图。
42.图28是示出实施方式2的其他标注系统的主要部分的框图。
43.图29是示出实施方式2的其他标注系统的主要部分的框图。
具体实施方式
44.以下,为了更详细地说明本技术,根据附图说明用于实施本技术的方式。
45.实施方式1
46.图1是示出实施方式1的标注系统的主要部分的框图。图2是示出实施方式1的标注装置中的图像识别部的主要部分的框图。图3是示出实施方式1的学习装置中的学习用数据库更新部的主要部分的框图。参照图1~图3,对实施方式1的标注系统进行说明。
47.如图1所示,标注系统1包含摄像机2、存储装置3、存储装置4、标注装置100和学习装置200。存储装置3具有学习用数据集存储部11。存储装置4具有学习用数据库存储部12。标注装置100具有图像信号取得部21、图像识别部22和学习用数据集生成部23。学习装置
200具有学习用数据库更新部31和学习部32。
48.摄像机2是监视用的摄像机。具体而言,例如,摄像机2是监视摄像机、安保摄像机或电子镜用的摄像机。摄像机2由可见光摄像机或红外线摄像机构成,并且由动态图像拍摄用的摄像机构成。以下,有时将构成由摄像机2拍摄的动态图像的各个静态图像称作“拍摄图像”。
49.图像信号取得部21取得表示拍摄图像的图像信号。图像识别部22使用该取得的图像信号执行图像识别。在此,由图像识别部22执行的图像识别包含物体识别和跟踪。此外,由图像识别部22执行的物体识别包含物体检测和区域分割中的至少一方。
50.即,如图2所示,图像识别部22具有特征量提取部41、物体识别部42和物体追踪部43。特征量提取部41具有第1特征量提取部41_1和第2特征量提取部41_2。
51.第1特征量提取部41_1使用上述取得的图像信号,生成与各个拍摄图像对应的特征图(以下,有时称作“第1特征图”)。第1特征图由在相互直行的2个方向上排列的多个特征量(以下,有时称作“第1特征量”)构成。
52.在此,第1特征图与每个属性的前景掩码对应。在该情况下,第1特征量提取部41_1例如通过使用在gsoc(google summer of code:google编程之夏)2017中开发的背景差分法(background subtraction)生成每个属性的前景掩码,生成第1特征图。图4示出拍摄图像的例子。图5是与该拍摄图像对应的第1特征图,并且示出基于背景差分法的第1特征图的例子。更具体而言,图5示出与属性“人”对应的前景掩码的例子。
53.或者,第1特征图与中阶特征(mid-level feature)对应,该中阶特征与客观性(objectness)对应。即,第1特征图中的各个第1特征量使用该中阶特征。另外,“中阶”是与基于人的视觉模型的阶层相同的阶层。即,“中阶”是比用于现有的物体识别的特征的阶层低的阶层。
54.中阶特征例如使用注意力(attention)。在该情况下,第1特征量提取部41_1例如通过注意力机制生成注意力图,生成第1特征图。图6示出拍摄图像的例子。图7是与该拍摄图像对应的第1特征图,并且示出基于注意力的第1特征图的例子。
55.或者,中阶特征例如使用显著性(saliency)。在该情况下,第1特征量提取部41_1例如通过使用与以下的参考文献1中记载的方法相同的方法生成显著性图,生成第1特征图。即,第1特征量提取部41_1通过执行显著性估计,生成第1特征图。
56.[参考文献1]
[0057]
国际公开第2018/051459号
[0058]
另外,中阶特征只要与客观性对应即可,不限于注意力或显著性。此外,第1特征量提取部41_1的第1特征图的生成方法不限于上述的具体例。例如,第1特征量提取部41_1也可以使用图像梯度检测、显著性估计、背景差分法、客观性估计、注意力和区域分割中的至少一个,生成第1特征图。
[0059]
以下,以第1特征量提取部41_1通过背景差分法生成每个属性的前景掩码的情况的例子为中心进行说明。
[0060]
第2特征量提取部41_2使用上述取得的图像信号,生成与各个拍摄图像对应的1个以上的特征图(以下,有时称作“第2特征图”)。第2特征图例如是使用卷积神经网络(以下,有时记作“cnn”)依次形成的。各个第2特征图由在相互直行的2个方向上排列的多个特征量
(以下,有时称作“第2特征量”)构成。
[0061]
在此,第2特征图与高阶特征(high-level feature)对应。即,各个第2特征量使用该高阶特征。另外,“高阶”是与用于现有的物体识别的特征的阶层相同的阶层。即,“高阶”是比基于人的视觉模型的阶层高的阶层。图8示出与图4所示的拍摄图像对应的第2特征图的例子。
[0062]
物体识别部42使用上述生成的第1特征图和上述生成的第2特征图,执行物体识别。如上所述,由物体识别部42执行的物体识别包含物体检测和区域分割中的至少一方。
[0063]
在物体检测中,针对拍摄图像中包含的各个物体,通过回归(regression)来估计位置,并且通过分类(classify)来估计属性。通过物体检测,针对拍摄图像中包含的各个物体,输出表示与坐标(x,y,w,h)对应的边界框的信息、表示与属性对应的标注的信息以及表示与各个边界框对应的可靠度的信息等,其中,该坐标(x,y,w,h)与位置和大小对应。
[0064]
区域分割是将拍摄图像分割成与各个属性对应的区域。通过区域分割,拍摄图像以像素为单位被分割成多个区域。通过区域分割,输出表示各个区域的面积的信息以及表示与各个区域对应的属性的信息等。
[0065]
具体而言,例如,物体识别部42通过掩码r-cnn(region-based cnn:基于区域的卷积神经网络),执行物体检测和区域分割双方。以下,以在物体识别部42中使用掩码r-cnn的情况的例子为中心进行说明。掩码r-cnn记载于以下的参考文献2。
[0066]
[参考文献2]
[0067]
kaiming he,georgia gkioxari,ross girshick,et al.“mask r-cnn,”v3,24 jan 2018,https://arxiv.org/pdf/1703.06870v3.pdf
[0068]
图9是第1特征量提取部41_1通过背景差分法生成每个属性的前景掩码的图,并且示出物体识别部42通过掩码r-cnn执行物体检测和区域分割双方的情况下的、与特征量提取部41和物体识别部42对应的神经网络的结构的例子。以下,有时将该神经网络记作“掩码r-cnn+gsoc”。
[0069]
在附图中,“gsoc背景消除”与第1特征量提取部41_1对应。此外,“掩码r-cnn”中的“快速r-cnn”中的cnn与第2特征量提取部41_2对应。此外,设置于“掩码r-cnn”中的cnn后级的块组与物体识别部42对应。
[0070]“掩码r-cnn”中的“快速r-cnn”中的cnn例如是在resnet(residual network:残余网络)-101中组合fpn(feature pyramid networks:特征金字塔网络)而成的网络。此外,如图9所示,“掩码r-cnn”中的“掩码”具有多个卷积块(在附图中,“conv.”)。
[0071]
图9所示的神经网络使用现有的大规模数据库事先完成学习。具体而言,例如,图9所示的神经网络使用microsoft coco(common objects in context:上下文中的公共对象)事先完成学习。换言之,图像识别部22使用该大规模数据库事先完成学习。
[0072]
另外,用于图像识别部22的学习的数据库不限于microsoft coco。图像识别部22例如也可以使用基于“openai”的公开数据库事先学习。以下,以图像识别部22使用microsoft coco事先学习的情况的例子为中心进行说明。
[0073]
通过使用该大规模数据库的事先学习,针对拍摄图像中包含的物体中的具有已学习的形状的物体,能够高精度地识别。此外,针对拍摄图像中包含的物体中的具有未学习的形状的物体,也能够实现基于某种程度精度的物体识别。
[0074]
在此,在物体识别部42的物体识别中,如下所述使用将第1特征图和第2特征图复合而成的特征图(以下,有时称作“第3特征图”)。此外,在物体识别部42的物体识别中,与现有的物体识别(即,使用第2特征图替代第3特征图的物体识别)相比,该阈值被设定成较低的值。以下,对第3特征图的具体例进行说明。
[0075]
〈第3特征图的第1具体例〉
[0076]
在第1特征图使用前景掩码时,物体识别部42使用第1特征图中的各个第1特征量,进行针对各个第2特征图中的对应的第2特征量的加权。此时,物体识别部42如下设定表示该加权中的权重的值(以下,称作“重要度”)w。
[0077]
即,物体识别部42计算第1特征图中的各个第1特征量与各个第2特征图中的对应的第2特征量的相似度s。相似度s例如是基于emd(earth mover’s distance:陆地移动距离)、余弦相似度(cosine similarity)、kld(kullback-leibler divergence:kullback-leibler散度)、l2范数、l1范数和曼哈顿距离(manhattan distance)中的至少一个的值。
[0078]
接着,物体识别部42使用该计算出的相似度s,设定与各个第2特征量对应的重要度w。此时,物体识别部42针对各个第2特征量,对应的相似度s越大(即,对应的距离越小),则将重要度w设定成越大的值。换言之,物体识别部42针对各个第2特征量,对应的相似度s越小(即,对应的距离越大),则将重要度w设定成越小的值。
[0079]
通过进行该加权,与拍摄图像中的与背景对应的区域涉及的第2特征量相比,拍摄图像中的与前景物对应的区域涉及的第2特征量相对地增强。换言之,与拍摄图像中的与前景物对应的区域涉及的第2特征量相比,拍摄图像中的与背景对应的区域涉及的第2特征量相对地减弱。以这样的方式生成与多个第1特征图对应的多个第3特征图。
[0080]
图10示出以这样的方式生成的第3特征图的例子。图10所示的第3特征图与图4所示的拍摄图像对应。即,图10所示的第3特征图是通过使用图5所示的第1特征图进行针对图8所示的第2特征图的加权而生成的。
[0081]
该加权例如由“掩码r-cnn+gsoc”中的“掩码”中的第1卷积块执行。图11示出该情况下的第1卷积块中的神经网络的结构的例子。如图11所示,该神经网络具有权重计算层(在附图中,“weight calc.”)。利用该权重计算层,设定如上所述的重要度w。
[0082]
〈第3特征图的第2具体例〉
[0083]
在第1特征图使用前景掩码时,物体识别部42通过针对第1特征图中的各个第1特征量和各个第2特征图中的对应的第2特征量,执行每个元素(element-wise)的乘法运算,运算内积(inner product)。
[0084]
通过进行该运算,与拍摄图像中的与背景对应的区域涉及的第2特征量相比,拍摄图像中的与前景物对应的区域涉及的第2特征量相对地增强。换言之,与拍摄图像中的与前景物对应的区域涉及的第2特征量相比,拍摄图像中的与背景对应的区域涉及的第2特征量相对地减弱。以这样的方式生成与多个第1特征图对应的多个第3特征图。
[0085]
该运算例如由“掩码r-cnn+gsoc”中的“掩码”中的第1卷积块执行。
[0086]
〈第3特征图的第3具体例〉
[0087]
在第1特征图使用注意力时,物体识别部42使用第1特征图中的各个第1特征量,进行针对各个第2特征图中的对应的第2特征量的加权。此时,物体识别部42如下设定重要度w。
[0088]
即,物体识别部42使用gap(global average pooling:全局平均池化),选择各个第2特征图中的代表值。物体识别部42根据该选择出的代表值,设定重要度w。即,物体识别部42将重要度w设定成与该选择出的代表值对应的值。
[0089]
通过进行该加权,生成与多个第2特征图对应的多个第3特征图。或者,生成与1个第2特征图对应的1个第3特征图。
[0090]
该加权例如由“掩码r-cnn+gsoc”中的“掩码”中的第1卷积块执行。与图11所示的结构相比,该情况下的第1卷积块中的神经网络具有gap层以替代权重计算层。由此,设定如上所述的重要度w。
[0091]
通过将由第1具体例、第2具体例或第3具体例生成的第3特征图用于物体识别,与将第2特征图用于物体识别的情况相比,能够避免识别出背景的一部分是物体的误识别的发生。而且,能够如上所述使用较低的阈值并抑制误识别的发生,因此,能够高精度地识别物体。特别地,能够提高针对具有未学习的形状的物体的识别精度。
[0092]
另外,通常,“掩码r-cnn+gsoc”中的“掩码”中的第1卷积块包含执行convolution的工序(以下,有时称作“第1工序”)、执行deconvolution的工序(以下,有时称作“第2工序”)和执行point-wise convolution的工序(以下,有时称作“第3工序”)。第1具体例的加权可以在第1工序中执行,或者也可以在第3工序中执行。第2具体例的运算可以在第1工序中执行,或者也可以在第3工序中执行。第3具体例的加权可以在第1工序中执行,或者也可以在第3工序中执行。
[0093]
即,第1具体例的加权、第2具体例的运算或第3具体例的加权有时优选根据神经网络的层数等在第1工序中执行,或者有时优选在第3工序中执行。只要选择这些工序中的更优选的工序即可。
[0094]
以下,有时将使用第3特征图执行物体检测和物体识别的物体识别称作“实施方式1的物体识别”。即,实施方式1的物体识别使用“掩码r-cnn+gsoc”。与此相对,有时将使用第2特征图执行物体检测和区域分割的物体识别称作“比较用物体识别”。即,比较用物体识别使用“掩码r-cnn”。
[0095]
图12示出基于比较用物体识别的识别结果的例子。与此相对,图13示出基于实施方式1的物体识别的识别结果的例子。更具体而言,图13示出与属性“人”相关的识别结果的例子。这些识别结果与图4所示的拍摄图像对应。
[0096]
在此,参照图14,对由使用“掩码r-cnn+gsoc”带来的效果进行说明。即,对与使用“掩码r-cnn”的情况相比物体识别的精度提高的效果进行说明。
[0097]
图14所示的表的左半部分示出基于比较用物体识别的识别精度的实验结果。与此相对,图14所示的表的右半部分示出基于实施方式1的物体识别的识别精度的实验结果。这些实验使用mot16基准中的5317帧的评价用数据。
[0098]
表中的各栏中的数值表示map(mean average precision:平均搜索精度),其单位为%。此外,表中的“能见度》0.x”表示仅将该物体整体中的超过x%的部位在图像中拍摄到的物体设为识别对象。换言之,表示从识别对象中排除该物体整体中的只有x%以下的部位在图像中拍摄到的物体。
[0099]
如图14所示,通过使用“掩码r-cnn+gsoc”,与使用“掩码r-cnn”的情况相比,map的值大幅上升。即,物体识别的精度大幅提高。
[0100]
物体追踪部43通过按照时间序列使用物体识别部42的物体识别结果,执行针对拍摄图像中包含的各个物体的跟踪。由此,能够针对各个物体,抑制因由摄像机2拍摄的动态图像中的外观形状的变化引起的识别精度的降低。
[0101]
即,例如,某个物体移动,由此在由摄像机2拍摄的动态图像中,该物体的外观形状有时随时间发生变化。此时,在某个时刻的拍摄图像中,该物体的外观形状有时成为已学习的形状,在其他时刻的拍摄图像中,该物体的形状有时成为未学习的形状。而且,未通过后者时刻的物体识别而识别出该物体,由此,该物体的识别有时变得随时间不稳定。
[0102]
与此相对,通过执行针对该物体的跟踪,在后者时刻也能够识别该物体。由此,能够使该物体的识别随时间稳定。其结果是,能够进一步提高该物体的识别精度。
[0103]
物体追踪部43的跟踪例如如下。即,物体追踪部43根据针对与第n帧(n为任意的整数)对应的拍摄图像的物体检测的结果,针对与各个物体对应的属性、与各个物体对应的坐标以及各个小区域中的前景相对于背景的群体比率,执行因基于kld等距离的损耗(tracking-loss)引起的回归。由此,物体追踪部43预测与第n+1帧对应的拍摄图像中的各物体的位置和大小。
[0104]
接着,物体追踪部43通过对该预测结果与针对与第n+1帧对应的拍摄图像的物体检测结果进行比较,检测通过针对与第n帧对应的拍摄图像的物体检测而检测到且未通过针对与第n+1帧对应的拍摄图像的物体检测而检测到的物体。由此,针对虽然包含于与第n+1帧对应的拍摄图像但未通过物体检测而检测到的物体,能够持续地检测。
[0105]
此外,在物体追踪部43的跟踪中可以使用公知的各种技术。省略对这些技术的详细说明。
[0106]
学习用数据集生成部23根据物体识别部42的物体识别结果以及物体追踪部43的跟踪结果,生成与拍摄图像中包含的各个物体对应的学习用数据集。
[0107]
在此,学习用数据集包含表示与各个物体对应的边界框内的图像的数据(以下,称作“图像数据”)、表示与各个物体的属性对应的标注的数据(以下,称作“标注数据”)以及表示与对应于各个物体的区域对应的掩码的数据(以下,称作“掩码数据”)等。生成该学习用数据集也可以说是针对拍摄图像中包含的各个物体进行标注。
[0108]
除此以外,学习用数据集包含后述的用于由优先级赋予部53赋予优先级p的数据(以下,称作“优先级赋予用数据”)。优先级赋予用数据例如包含表示与各个物体相关的物体识别可靠度的数据(以下,称作“可靠度数据”)。
[0109]
另外,优先级赋予用数据不限于可靠度数据。优先级赋予用数据例如也可以代替可靠度数据或者在可靠度数据的基础上,还包含表示与各个物体相关的大小的数据、表示与各个物体相关的高维图像特征的数据、表示与各个物体相关的低维图像特征的数据、表示与各个物体相关的客观性的数据、表示与各个物体相关的显著性估计的结果的数据以及表示与各个物体相关的注意力的数据中的至少一个。
[0110]
以下,以学习用数据集包含图像数据、标注数据、掩码数据以及可靠度数据的情况的例子为中心进行说明。
[0111]
在此,如上所述,物体识别部42将第3特征图用于物体识别。由此,能够避免识别出背景的一部分是物体的误识别的发生。其结果是,在学习用数据集生成部23中,能够避免生成相当于focal loss中的easy example的学习用数据集。即,能够避免生成包含与背景对
应的图像数据的学习用数据集。因此,在后述的学习部32对图像识别部22的再学习或追加学习中,能够加快该学习的收敛。
[0112]
学习用数据集存储部11存储由学习用数据集生成部23生成的学习用数据集。学习用数据库更新部31使用学习用数据集存储部11中存储的学习用数据集,更新学习用数据库存储部12中存储的学习用数据库。
[0113]
即,如图3所示,学习用数据库更新部31具有学习用数据集取得部51、学习用数据集取得部52、优先级赋予部53和学习用数据集追加部54。
[0114]
学习用数据集取得部51取得学习用数据集存储部11中存储的学习用数据集(以下,有时称作“第1学习用数据集”)。学习用数据集取得部52取得学习用数据库存储部12中存储的学习用数据库中包含的多个学习用数据集(以下,有时称作“第2学习用数据集”)。
[0115]
优先级赋予部53对上述取得的第1学习用数据集赋予后述的学习部32的再学习或追加学习中的优先级p。此时,优先级赋予部53根据上述取得的多个第2学习用数据集中的分布d的偏差,以具有较高的学习价值的数据集的学习优先级高的方式(即,以具有较低的学习价值的数据集的学习优先级较低的方式)赋予优先级p。
[0116]
在此,分布d是基于优先级赋予用数据的分布。具体而言,例如,分布d是基于可靠度数据的可靠度图中的分布。图15示出可靠度图的例子。在该情况下,优先级赋予部53例如如下设定优先级p。
[0117]
即,优先级赋予部53根据可靠度图中的偏差,将上述取得的多个第2学习用数据集,分类到充分累积有具有较高可靠度的数据集的数据集组(以下,称作“第1数据集组”)、某种程度累积有具有较高可靠度的数据集的数据集组(以下,称作“第2数据集组”)以及具有较高可靠度的数据集不足的数据集组(以下,称作“第3数据集组”)。该分类例如基于标注数据表示的标注(即,对应的物体的属性)或掩码数据表示的掩码的形状(即,对应的物体的外观形状)。
[0118]
接着,优先级赋予部53判定上述取得的第1学习用数据集应被分类到第1数据集组、第2数据集组和第3数据集组中的哪一个。该判定例如基于标注数据表示的标注(即,对应的物体的属性)或掩码数据表示的掩码的形状(即,对应的物体的外观形状)。
[0119]
在上述取得的第1学习用数据集应被分类到第1数据集组的情况下,认为该第1学习用数据集具有较低的学习价值。因此,优先级赋予部53将该第1学习用数据的优先级p设定成较低的值。此外,在上述取得的第1学习用数据集应被分类到第2数据集组的情况下,认为该第1学习用数据集具有中等程度的学习价值。因此,优先级赋予部53将该第1学习用数据的优先级p设定成中等程度的值。此外,在上述取得的第1学习用数据集应被分类到第3数据集组的情况下,认为该第1学习用数据集具有较高的学习价值。因此,优先级赋予部53将该第1学习用数据的优先级p设定成较高的值。
[0120]
另外,分布d只要是基于优先级赋予用数据的分布即可,不限于基于可靠度数据的分布。例如,分布d也可以是基于可靠度、大小、高维图像特征、低维图像特征、客观性、显著性估计和注意力中的至少一个的分布。
[0121]
此外,优先级赋予部53对优先级p的赋予方法不限于上述的具体例。优先级赋予部53以具有较高的学习价值的数据集的学习优先级较高的方式(即,以具有较低的学习价值的数据集的学习优先级较低的方式)赋予优先级p即可。
[0122]
学习用数据集追加部54生成对上述取得的第1学习用数据集追记表示上述赋予的优先级p的数据(以下,称作“优先级数据”)而成的数据集(以下,有时称作“第3学习用数据集”)。学习用数据集追加部54通过将该生成的第3学习用数据集追加到学习用数据库存储部12中存储的学习用数据库,更新该学习用数据库。
[0123]
另外,学习用数据集追加部54也可以将与小于规定值的优先级p对应的第3学习用数据集,从针对学习用数据库的追加对象中排除。由此,能够避免将具有较低的学习价值的数据集追加到学习用数据库。
[0124]
另外,学习用数据集追加部54也可以与对第1学习用数据集赋予优先级p同样地,对各个第2学习用数据重新赋予优先级p。由此,学习用数据集追加部54也可以整体上调整学习用数据库中的优先级p。
[0125]
另外,在包含摄像机2的系统(例如监视系统、安保系统或电子镜)开始运行紧后的时刻等,学习用数据库中有可能不包含任何1个学习用数据。在这样的情况下,学习用数据库更新部31也可以通过使学习用数据库存储部12新存储以上述的方式生成的第3学习用数据集,新生成学习用数据库。然后,学习用数据库更新部31也可以通过将新生成的第3学习用数据集随时追加到学习用数据库,更新学习用数据库。即,学习用数据库更新部31也可以生成并更新学习用数据库。
[0126]
学习部32使用学习用数据库存储部12中存储的学习用数据库(即,使用由学习用数据库更新部31更新后的学习用数据库),执行图像识别部22的再学习或追加学习。以下,有时将再学习或追加学习统称作“再学习等”。
[0127]
即,如上所述,图像识别部22使用现有的大规模数据库事先完成学习。除此以外,图像识别部22使用上述更新后的学习用数据库自如学习。因此,学习部32针对图像识别部22,使用上述更新后的学习用数据库进行再学习等。
[0128]
第1特征量提取部41_1的再学习等例如基于有监督学习或无监督学习。因此,在第1特征量提取部41_1的再学习等中,可以使用有监督学习或无监督学习涉及的公知的各种技术。省略对这些技术的详细说明。
[0129]
第2特征量提取部41_2的再学习等例如基于有监督学习。因此,在第2特征量提取部41_2的再学习等中,可以使用有监督学习涉及的公知的各种技术。此外,如上所述,第2特征量提取部41_2使用cnn。因此,第2特征量提取部41_2的再学习等也可以基于深度学习。因此,在第2特征量提取部41_2的再学习等中,可以使用深度学习涉及的公知的各种技术。省略对这些技术的详细说明。
[0130]
物体识别部42的再学习等例如基于有监督学习。因此,在物体识别部42的再学习等中,可以使用有监督学习涉及的公知的各种技术。省略对这些技术的详细说明。
[0131]
在此,如上所述,在学习用数据库中包含的各个学习用数据集中,赋予了优先级p。因此,学习部32也可以根据赋予的优先级p,按照每个学习用数据集或每个标注,使再学习等中的学习率(learning rate)η不同。例如,学习部32也可以是赋予的优先度p越高,则越提高学习率η(即,赋予的优先度p越低,则越降低学习率η)。
[0132]
或者,学习部32也可以根据赋予的优先级p,针对学习用数据库中包含的多个学习用数据集中的一部分学习用数据集,执行数据扩展(data augmentation)。例如,学习部32针对赋予的优先级p较高的学习用数据集,执行数据扩展。在数据扩展中,可以使用公知的
各种技术。省略对这些技术的详细说明。
[0133]
通过该学习率η的设定或数据扩展,能够使用学习用数据库存储部12中存储的学习用数据库(即,规模比已知的大规模数据库小的数据库)实现高效的再学习等。
[0134]
另外,上述更新后的学习用数据库是规模比上述已知的大规模数据库小的数据库。此外,上述更新后的学习用数据库基于与上述已知的大规模数据库中包含的图像不同的图像(即,摄像机2的拍摄图像)。此外,上述更新后的学习用数据库可以包含与上述已知的大规模数据库中包含的标注不同的标注。
[0135]
因此,学习部32对图像识别部22的再学习等也可以基于迁移学习(transfer learning)。换言之,在学习部32对图像识别部22的再学习等中,可以使用迁移学习涉及的公知的各种技术。省略对这些技术的详细说明。
[0136]
此外,学习部32对图像识别部22的再学习等也可以基于微调(fine tuning)。换言之,在学习部32对图像识别部22的再学习等中,可以使用微调涉及的公知的各种技术。省略对这些技术的详细说明。
[0137]
此外,学习部32对图像识别部22的再学习等也可以基于few-shot learning。换言之,在学习部32对图像识别部22的再学习等中,可以使用few-shot learning涉及的公知的各种技术。省略对这些技术的详细说明。
[0138]
此外,学习部32对图像识别部22的再学习等也可以基于元学习(meta-learning)。换言之,在学习部32对图像识别部22的再学习等中,可以使用元学习涉及的公知的各种技术。省略对这些技术的详细说明。
[0139]
此外,学习部32对图像识别部22的再学习等也可以基于蒸馏(distillation)。换言之,在学习部32对图像识别部22的再学习等中,可以使用蒸馏涉及的公知的各种技术。省略对这些技术的详细说明。
[0140]
在包含摄像机2的系统(例如监视系统、安保系统或电子镜)运行时,反复执行学习部32的再学习等,由此,图像识别部22的图像识别逐渐适合设置有摄像机2的场所的环境。由此,学习用数据集生成部23的标注精度逐渐提高。
[0141]
以下,有时将图像信号取得部21具有的功能统称作“图像信号取得功能”。此外,有时在该图像信号取得功能中使用符号“f1”。此外,有时将由图像信号取得部21执行的处理统称作“图像信号取得处理”。
[0142]
以下,有时将图像识别部22具有的功能统称作“图像识别功能”。此外,有时在该图像识别功能中使用符号“f2”。此外,有时将由图像识别部22执行的处理统称作“图像识别处理”。
[0143]
以下,有时将学习用数据集生成部23具有的功能统称作“学习用数据集生成功能”。此外,有时在该学习用数据集生成功能中使用符号“f3”。此外,有时将由学习用数据集生成部23执行的处理统称作“学习用数据集生成处理”。
[0144]
以下,有时将学习用数据库更新部31具有的功能统称作“学习用数据库更新功能”。此外,有时在该学习用数据库更新功能中使用符号“f11”。此外,有时将由学习用数据库更新部31执行的处理统称作“学习用数据库更新处理”。
[0145]
以下,有时将学习部32具有的功能统称作“学习功能”。此外,有时在该学习功能中使用符号“f12”。此外,有时将由学习部32执行的处理统称作“学习处理”。
[0146]
接着,参照图16~图18,对标注装置100的主要部分的硬件结构进行说明。
[0147]
如图16所示,标注装置100具有处理器61和存储器62。在存储器62中,存储有与多个功能f1~f3对应的程序。处理器61读出并执行存储器62中存储的程序。由此,实现多个功能f1~f3。
[0148]
或者,如图17所示,标注装置100具有处理电路63。处理电路63执行与多个功能f1~f3对应的处理。由此,实现多个功能f1~f3。
[0149]
或者,如图18所示,标注装置100具有处理器61、存储器62和处理电路63。在存储器62中,存储有与多个功能f1~f3中的一部分功能对应的程序。处理器61读出并执行存储器62中存储的程序。由此,可实现该一部分功能。此外,处理电路63执行与多个功能f1~f3中的剩余的功能对应的处理。由此,可实现该剩余的功能。
[0150]
处理器61由1个以上的处理器构成。各个处理器例如使用cpu(central processing unit:中央处理单元)、gpu(graphics processing unit:图形处理单元)、微处理器、微控制器或dsp(digital signal processor:数字信号处理器)。
[0151]
存储器62由1个以上的非易失性存储器构成。或者,存储器62由1个以上的非易失性存储器和1个以上的易失性存储器构成。即,存储器62由1个以上的存储器构成。各个存储器例如使用半导体存储器、磁盘、光盘、光磁盘、磁带或磁鼓。更具体而言,各个易失性存储器例如使用ram(random access memory:随机存取存储器)。此外,各个非易失性存储器例如使用rom(read only memory:只读存储器)、闪存、eprom(erasable programmable read only memory:可擦除可编程只读存储器)、eeprom(electrically erasable programmable read only memory:电可擦除可编程只读存储器)、固态驱动器、硬盘驱动器、软盘、高密度盘、dvd(digital versatile disc:数字多功能盘)、蓝光盘或迷你盘。
[0152]
处理电路63由1个以上的数字电路构成。或者,处理电路63由1个以上的数字电路和1个以上的模拟电路构成。即,处理电路63由1个以上的处理电路构成。各个处理电路例如使用asic(application specific integrated circuit:专用集成电路)、pld(programmable logic device:可编程逻辑器件)、fpga(field programmable gate array:现场可编程门阵列)、soc(system on a chip:系统芯片)或系统lsi(large scale integration:大规模集成电路)。
[0153]
在此,在由多个处理器构成处理器61时,多个功能f1~f3与多个处理器的对应关系是任意的。即,多个处理器也可以分别读出并执行与多个功能f1~f3中的对应的1个以上的功能对应的程序。处理器61也可以包含与各个功能f1~f3对应的专用的处理器。
[0154]
此外,在由多个存储器构成存储器62时,多个功能f1~f3与多个存储器的对应关系是任意的。即,多个存储器也可以分别存储与多个功能f1~f3中的对应的1个以上的功能对应的程序。存储器62也可以包含与各个功能f1~f3对应的专用的存储器。
[0155]
此外,在由多个处理电路构成处理电路63时,多个功能f1~f3与多个处理电路的对应关系是任意的。即,多个处理电路也可以分别执行与多个功能f1~f3中的对应的1个以上的功能对应的处理。处理电路63也可以包含与各个功能f1~f3对应的专用的处理电路。
[0156]
接着,参照图19~图21,对学习装置200的主要部分的硬件结构进行说明。
[0157]
如图19所示,学习装置200具有处理器71和存储器72。在存储器72中,存储有与多个功能f11、f12对应的程序。处理器71读出并执行存储器72中存储的程序。由此,可实现多
个功能f11、f12。
[0158]
或者,如图20所示,学习装置200具有处理电路73。处理电路73执行与多个功能f11、f12对应的处理。由此,可实现多个功能f11、f12。
[0159]
或者,如图21所示,学习装置200具有处理器71、存储器72和处理电路73。在存储器72中,存储有与多个功能f11、f12中的一部分功能对应的程序。处理器71读出并执行存储器72中存储的程序。由此,可实现该一部分功能。此外,处理电路73执行与多个功能f11、f12中的剩余的功能对应的处理。由此,可实现该剩余的功能。
[0160]
处理器71的具体例与处理器61的具体例相同。存储器72的具体例与存储器62的具体例相同。处理电路73的具体例与处理电路63的具体例相同。因此,省略详细的说明。
[0161]
在此,在由多个处理器构成处理器71时,多个功能f11、f12与多个处理器的对应关系是任意的。即,多个处理器也可以分别读出并执行与多个功能f11、f12中的对应的1个以上的功能对应的程序。处理器71也可以包含与各个功能f11、f12对应的专用的处理器。
[0162]
此外,在由多个存储器构成存储器72时,多个功能f11、f12与多个存储器的对应关系是任意的。即,多个存储器也可以分别存储与多个功能f11、f12中的对应的1个以上的功能对应的程序。存储器72也可以包含与各个功能f11、f12对应的专用的存储器。
[0163]
此外,在由多个处理电路构成处理电路73时,多个功能f11、f12与多个处理电路的对应关系是任意的。即,多个处理电路也可以分别执行与多个功能f11、f12中的对应的1个以上的功能对应的处理。处理电路73也可以包含与各个功能f11、f12对应的专用的处理电路。
[0164]
接着,参照图22的流程图,对标注装置100的动作进行说明。
[0165]
首先,图像信号取得部21执行图像信号取得处理(步骤st1)。接着,图像识别部22执行图像识别处理(步骤st2)。接着,学习用数据集生成部23执行学习用数据集生成处理(步骤st3)。
[0166]
接着,参照图23的流程图,对学习装置200的动作进行说明。
[0167]
首先,学习用数据库更新部31执行学习用数据库更新处理(步骤st11)。接着,学习部32执行学习处理(步骤st12)。
[0168]
接着,参照图24,对标注系统1的变形例进行说明。
[0169]
如图24所示,学习装置200也可以包含标注装置100。即,学习装置200也可以具有图像信号取得部21、图像识别部22、学习用数据集生成部23、学习用数据库更新部31和学习部32。
[0170]
接着,参照图25,对标注系统1的其他变形例进行说明。
[0171]
如图25所示,标注装置100也可以包含学习装置200。即,标注装置100也可以具有图像信号取得部21、图像识别部22、学习用数据集生成部23、学习用数据库更新部31和学习部32。
[0172]
接着,对标注系统1的其他变形例进行说明。
[0173]
标注装置100也可以与摄像机2一体地构成。此外,学习装置200也可以与摄像机2一体地构成。由此,能够实现ai(artificial intelligence:人工智能)摄像机。
[0174]
标注装置100也可以由与摄像机2通信自如的服务器构成。此外,学习装置200也可以由与摄像机2通信自如的服务器构成。该服务器也可以使用边缘服务器。由此,能够实现
边缘ai摄像机。
[0175]
如上所述,实施方式1的标注装置100具有:图像信号取得部21,其取得表示摄像机2的拍摄图像的图像信号;图像识别部22,其是基于机器学习的已学习的图像识别部22,图像识别部22执行针对拍摄图像的图像识别;以及学习用数据集生成部23,其通过根据图像识别的结果,针对拍摄图像中包含的各个物体执行标注,生成包含与各个物体对应的图像数据和与各个物体对应的标注数据的学习用数据集。由此,在使用摄像机2的拍摄图像生成学习用数据集时,能够使标注作业自动化。其结果是,能够降低针对标注负责人的作业负荷。
[0176]
此外,图像识别部22使用已知的大规模数据库完成学习。由此,对于已学习的物体当然能够实现高精度的物体识别,对于未学习的物体也能够实现某种程度的精度的物体识别。
[0177]
此外,图像识别部22具有:第1特征量提取部41_1,其生成与拍摄图像对应的第1特征图;第2特征量提取部41_2,其生成与拍摄图像对应的第2特征图;以及物体识别部42,其使用第1特征图和第2特征图,执行物体识别,第1特征图与前景掩码对应或者与中阶特征对应,该中阶特征与客观性对应,第2特征图与高阶特征对应。除了第2特征图以外,还使用第1特征图,由此能够提高物体识别的精度。特别地,能够提高针对未学习的物体的物体识别精度。
[0178]
此外,图像识别部22具有物体追踪部43,该物体追踪部43通过按照时间序列使用物体识别的结果,执行针对各个物体的跟踪。由此,能够更高精度地识别各个物体。
[0179]
此外,实施方式1的学习装置200是标注装置100用的学习装置200,具有:学习用数据库更新部31,其通过将由学习用数据集生成部23生成的学习用数据集追加到学习用数据库,更新学习用数据库;以及学习部32,其使用学习用数据库,执行图像识别部22的再学习或追加学习。由此,能够针对图像识别部22,实现基于转移学习、微调、few-shot learning(小样本学习)、元学习或蒸馏的再学习等。其结果是,能够逐渐提高图像识别精度,并且能够逐渐提高标注的精度。此外,在使标注作业自动化时,能够不需要相当于activelearning中的oracle的人。
[0180]
此外,学习用数据库更新部31根据学习用数据库中包含的多个学习用数据集中的分布d的偏差,对由学习用数据集生成部23生成的学习用数据集赋予优先级p。通过使用该优先级p,能够使用规模比已知的大规模数据库小的学习用数据库,实现高效的再学习等。
[0181]
此外,学习部32根据优先级p,设定再学习或追加学习中的学习率η。由此,能够实现高效的再学习等。
[0182]
此外,学习部32根据优先级p,执行学习用数据库中的数据扩展。由此,能够实现高效的再学习等。
[0183]
实施方式2
[0184]
图26是示出实施方式2的标注系统的主要部分的框图。参照图26,对实施方式2的标注系统进行说明。此外,在图26中,对与图1所示的块相同的块标注相同标记并省略说明。
[0185]
如图26所示,标注系统1a包含摄像机2、存储装置3、存储装置4、输出装置5、输入装置6、标注装置100a和学习装置200。标注装置100a具有图像信号取得部21、图像识别部22、学习用数据集生成部23a和用户界面控制部(以下,记作“ui控制部”)24。
[0186]
输出装置5例如由显示器或扬声器构成。输入装置6由与输出装置5对应的器件构成。例如,在由显示器构成输出装置5的情况下,输入装置6由触摸面板和触摸笔构成。或者,例如,在由扬声器构成输出装置5的情况下,输入装置6由麦克风构成。
[0187]
ui控制部24使用输出装置5,执行输出图像识别部22的图像识别结果的控制。此外,ui控制部24执行受理使用输入装置6的操作的输入,并且执行受理修正该图像识别结果的操作(以下,有时称作“修正操作”)的输入的处理。
[0188]
具体而言,例如,ui控制部24使用显示器,执行显示包含表示图像识别部22的图像识别结果的图像在内的画面(以下,有时称作“修正画面”)的控制。此外,ui控制部24执行受理使用触摸面板和触摸笔的修正操作的输入的处理。即,ui控制部24执行受理基于针对修正画面的手写输入的修正操作的输入的处理。
[0189]
或者,例如,ui控制部24使用扬声器,执行输出表示图像识别部22的图像识别结果的语音的控制。此外,ui控制部24执行受理使用麦克风的修正操作的输入的处理。即,ui控制部24执行受理基于语音输入的修正操作的输入的处理。在该情况下,在受理修正操作的输入的处理中,可以使用语音识别涉及的公知的各种技术。
[0190]
在此,与修正操作的输入相关的ui也可以使用交互式ui。由此,标注负责人能够容易地修正图像识别部22的图像识别结果。
[0191]
学习用数据集生成部23a生成与由学习用数据集生成部23生成的学习用数据集相同的学习用数据集。即,学习用数据集生成部23a根据图像识别部22的图像识别的结果,生成包含图像数据、标注数据、掩码数据和可靠度数据等的第1学习用数据集。学习用数据集生成部23a通过将优先级数据追加到该生成的第1学习用数据集,生成第3学习用数据集。学习用数据集生成部23a使学习用数据集存储部11存储该生成的第3学习用数据集。
[0192]
但是,在通过修正操作修正了图像识别部22的图像识别的结果的情况下,学习用数据集生成部23a生成基于该修正结果的第1学习用数据。
[0193]
以下,有时将学习用数据集生成部23a具有的功能统称作“学习用数据集生成功能”。此外,有时在该学习用数据集生成功能中使用符号“f3a”。此外,有时将由学习用数据集生成部23a执行的处理统称作“学习用数据集生成处理”。
[0194]
以下,有时将ui控制部24具有的功能统称作“ui控制功能”。此外,有时在该ui控制功能中使用符号“f4”。此外,有时将由ui控制部24执行的控制和处理统称作“输出控制和操作输入处理”。
[0195]
标注装置100a的主要部分的硬件结构与在实施方式1中参照图16~图18说明的结构相同。因此,省略详细的说明。即,标注装置100a具有多个功能f1、f2、f3a、f4。多个功能f1、f2、f3a、f4可以分别通过处理器61和存储器62来实现,或者也可以通过处理电路63来实现。
[0196]
接着,参照图27的流程图,对标注装置100a的动作进行说明。此外,在图27中,对与图22所示的步骤相同的步骤标注相同标记并省略说明。
[0197]
首先,执行步骤st1的处理。接着,执行步骤st2的处理。接着,ui控制部24执行输出控制和操作输入处理(步骤st4)。接着,学习用数据集生成部23a执行学习用数据集生成处理(步骤st3a)。
[0198]
接着,参照图28,对标注系统1a的变形例进行说明。
[0199]
如图28所示,学习装置200也可以包含标注装置100a。即,学习装置200也可以具有图像信号取得部21、图像识别部22、学习用数据集生成部23a、ui控制部24、学习用数据库更新部31和学习部32。
[0200]
接着,参照图29,对标注系统1a的其他变形例进行说明。
[0201]
如图29所示,标注装置100a也可以包含学习装置200。即,标注装置100a也可以具有图像信号取得部21、图像识别部22、学习用数据集生成部23a、ui控制部24、学习用数据库更新部31和学习部32。
[0202]
接着,对标注系统1a的其他变形例进行说明。
[0203]
标注装置100a也可以与摄像机2一体地构成。此外,学习装置200也可以与摄像机2一体地构成。由此,能够实现ai摄像机。
[0204]
标注装置100a也可以由与摄像机2通信自如的服务器构成。此外,学习装置200也可以由与摄像机2通信自如的服务器构成。该服务器例如也可以使用边缘服务器。由此,能够实现边缘ai摄像机。
[0205]
如上所述,实施方式2的标注装置100a具有ui控制部24,该ui控制部24执行输出图像识别的结果的控制,并且执行受理修正图像识别的结果的操作的输入的处理,学习用数据集生成部23a根据基于操作的修正结果,生成学习用数据集。由此,在使用摄像机2的拍摄图像来生成学习用数据集时,能够使标注作业半自动化。换言之,能够支持标注负责人的标注作业。其结果是,能够降低针对标注负责人的作业负荷。
[0206]
此外,ui控制部24执行对画面进行显示的控制,并且执行受理基于针对画面的手写输入的操作的输入的处理,其中,画面包含表示图像识别的结果的图像。通过使用该ui,能够容易地修正图像识别的结果。
[0207]
此外,ui控制部24执行输出表示图像识别的结果的语音的控制,并且执行受理基于语音输入的操作的输入的处理。通过使用该ui,能够容易地修正图像识别的结果。
[0208]
另外,本技术能够在其公开的范围内,实现各实施方式的自由组合、或各实施方式的任意结构要素的变形、或各实施方式中的任意结构要素的省略。
[0209]
产业上的可利用性
[0210]
本技术的标注装置和学习装置例如能够用于监视系统、安保系统或电子镜。
[0211]
标号说明
[0212]
1、1a:标注系统;2:摄像机;3:存储装置;4:存储装置;5:输出装置;6:输入装置;11:学习用数据集存储部;12:学习用数据库存储部;21:图像信号取得部;22:图像识别部;23、23a:学习用数据集生成部;24:ui控制部;31:学习用数据库更新部;32:学习部;41:特征量提取部;41_1:第1特征量提取部;41_2:第2特征量提取部;42:物体识别部;43:物体追踪部;51:学习用数据集取得部;52:学习用数据集取得部;53:优先级赋予部;54:学习用数据集追加部;61:处理器;62:存储器;63:处理电路;71:处理器;72:存储器;73:处理电路;100、100a:标注装置;200:学习装置。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1