学习方法、学习装置以及程序记录介质与流程

文档序号:31697521发布日期:2022-10-01 06:14阅读:34来源:国知局
学习方法、学习装置以及程序记录介质与流程

1.本公开涉及一种学习方法、学习装置以及程序记录介质。


背景技术:

2.近年来,为了防止驾驶中的事故,搭载了碰撞减损制动的车辆增加,预计今后还会进一步增加。为了实现这样的碰撞减损制动,已知一种使用由车载摄像机等拍摄到的图像数据来探测车辆周围的物体的物体探测装置。基于由物体探测装置探测物体所得到的结果来控制车辆的行驶,因此期望物体探测装置的探测精度高。
3.在这样的物体探测装置中,利用采用机器学习进行了学习的用于物体探测的学习模型。作为用于物体探测的算法,例如已知ssd(single shot multibox detector:单步多框探测)(参照非专利文献1)。
4.现有技术文献
5.非专利文献
6.非专利文献1:wei liu et al.,“ssd:single shot multibox detector”,因特网《url:https://arxiv.org/pdf/1512.02325.pdf》


技术实现要素:

7.发明要解决的问题
8.然而,在非专利文献1的技术中,存在物体探测装置有时无法高精度地对探测对象进行探测这样的问题。
9.因此,本公开提供一种能够高精度地对探测对象进行探测的学习方法、学习装置以及程序记录介质。
10.用于解决问题的方案
11.本公开的一个方式所涉及的学习方法包括:获取学习用图像和正确信息,所述学习用图像中包含物体,所述正确信息包含表示所述物体的类的正确类和表示所述物体在所述学习用图像上的区域的正确框;获取通过对将图像作为输入来输出物体探测结果的学习模型输入所述学习用图像而得到的、包含表示所述物体的类的探测类和表示所述物体在所述学习用图像上的区域的探测框的物体探测结果,并基于获取到的所述物体探测结果与所述正确信息之差,来计算针对所述学习模型的评价值;以及基于计算出的所述评价值,来调整所述学习模型的参数,其中,在所述评价值的计算中,通过进行以下处理中的至少一方来计算所述评价值,上述的处理是:使同所述正确框与所述探测框之间的2个以上的位置或长度的差分别对应的权重互不相同;以及根据所述正确类是否是特定类来使同所述正确类与所述探测类之差对应的权重互不相同。
12.本公开的一个方式所涉及的学习装置具备:获取部,其获取学习用图像和正确信息,所述学习用图像中包含物体,所述正确信息包含表示所述物体的类的正确类和表示所述物体在所述学习用图像上的区域的正确框;评价部,其获取通过对将图像作为输入来输
出物体探测结果的学习模型输入所述学习用图像而得到的、包含表示所述物体的类的探测类和表示所述物体在所述学习用图像上的区域的探测框的物体探测结果,并基于获取到的所述物体探测结果与所述正确信息之差,来计算针对所述学习模型的评价值;以及调整部,其基于计算出的所述评价值,来调整所述学习模型的参数,其中,所述评价部在所述评价值的计算中,通过进行以下处理中的至少一方来计算所述评价值,上述的处理是:使同所述正确框与所述探测框之间的2个以上的位置或长度的差分别对应的权重互不相同;以及根据所述正确类是否是特定类来使同所述正确类与所述探测类之差对应的权重互不相同。
13.本公开的一个方式所涉及的程序记录介质是用于使计算机执行上述的学习方法的程序记录介质。
14.发明的效果
15.根据本公开的一个方式,能够实现一种能够高精度地对探测对象进行探测的学习方法等。
附图说明
16.图1是用于说明比较例所涉及的车辆中的位置估计的概要图。
17.图2是示出实施方式1所涉及的位置估计系统的功能结构的框图。
18.图3是示出位置估计结果的一例的图。
19.图4是示出实施方式1所涉及的用于位置估计的学习装置的功能结构的框图。
20.图5是示出实施方式1所涉及的学习装置的动作的流程图。
21.图6a是示出在学习装置的学习时被给予的正确框的图。
22.图6b是示出在学习装置的学习时输出的估计框的图。
23.图6c是示出学习装置的学习时的正确框与估计框的偏差的图。
24.图7是用于说明实施方式1所涉及的调整部所进行的参数调整方法的图。
25.图8是示出作为实施方式2所涉及的位置估计装置的探测对象的类的图。
26.图9是示出实施方式2所涉及的学习装置的动作的流程图。
27.图10是示出作为实施方式2的变形例所涉及的位置估计装置的探测对象的类的图。
28.图11是示出实施方式2的变形例所涉及的学习装置的动作的流程图。
具体实施方式
29.(得到本公开的背景)
30.近年来,关于使用由车载摄像机等拍摄到的图像数据来探测车辆周围的对象物的物体探测装置进行了各种研究。例如,进行了基于由摄像机拍摄到的图像数据来估计对象物的位置的研究。对象物的位置包括从车辆到对象物的距离。在车辆等进行自动驾驶的情况下,在该车辆中例如进行基于ttc(time to collision:碰撞时间)的控制。在基于ttc的控制中,对象物的位置的精度是重要的。
31.例如,在摄像机是单眼摄像机的情况下,使用单眼摄像机来估计对象物的位置,由此,即使车辆不具备多个摄像机,也能够估计对象物的位置。也就是说,能够以更低的成本来估计对象物的位置。作为物体探测装置的一例,这样的估计对象物的位置的位置估计装
置有时搭载于车辆。
32.参照图1来说明基于由摄像机拍摄到的图像数据来估计对象物的位置的情况。图1是用于说明比较例所涉及的车辆中的位置估计的概要图。图1示出了具备摄像机20的车辆10的前方存在与道路l(地面)接触的行人u的例子。另外,车辆10与道路l相接。在图1中,示出了行人u同与车辆10相接的平面的同一平面相接的例子。行人u是对象物的一例。此外,位置估计装置不限定于搭载于车辆10。
33.如图1所示,车辆10的摄像机20例如设置于车辆10的前挡风玻璃上部的室内侧,对包括存在于前方的行人u在内的车辆10的周围进行拍摄。摄像机20例如是单眼摄像机,但不限定于此。
34.车辆10具备的位置估计装置(未图示)基于摄像机20拍摄到的图像数据,来估计该行人u的位置。位置估计装置例如以拍摄到的图像数据中映出的、探测到行人u的区域(后述的估计框)的下端与道路l相接为前提,来估计该行人u的位置。在该情况下,为了高精度地估计行人u的位置,例如需要高精度地探测图像数据上的、探测到行人u的区域的下端。这样,在位置估计装置搭载于车辆的情况下,有时寻求通过使用学习模型来尤其能够高精度地对探测到行人u的区域的下端进行探测。此外,探测到行人u的区域的下端是特定位置的一例。
35.然而,非专利文献1中没有公开高精度地探测图像数据上的特定位置等的内容。
36.此外,在上述中,例示了特定位置的探测,但是在特定的类的探测中也可以说是同样的。例如,非专利文献1中没有公开高精度地探测特定的类的内容。此外,特定的类是指表示尤其想要高精度地探测的对象物的类,例如,在位置估计装置搭载于车辆的情况下,特定的类是人物。另外,特定位置和特定的类是特定的探测对象的一例。
37.如上所述,以往有时无法高精度地探测特定的探测对象。因此,本技术的发明人们对能够高精度地探测特定的探测对象的学习方法等进行了专心研究,创造出下面说明的学习方法等。
38.本公开的一个方式所涉及的学习方法包括:获取学习用图像和正确信息,所述学习用图像中包含物体,所述正确信息包含表示所述物体的类的正确类和表示所述物体在所述学习用图像上的区域的正确框;获取通过对将图像作为输入来输出物体探测结果的学习模型输入所述学习用图像而得到的、包含表示所述物体的类的探测类和表示所述物体在所述学习用图像上的区域的探测框的物体探测结果,并基于获取到的所述物体探测结果与所述正确信息之差,来计算针对所述学习模型的评价值;以及基于计算出的所述评价值,来调整所述学习模型的参数,其中,在所述评价值的计算中,通过进行以下处理中的至少一方来计算所述评价值,上述的处理是:使同所述正确框与所述探测框之间的2个以上的位置或长度的差分别对应的权重互不相同;以及根据所述正确类是否是特定类来使同所述正确类与所述探测类之差对应的权重互不相同。
39.由此,在评价值的计算中,能够使位置和类之中的用于计算评价值的权重不同。例如,将权重设定为能够提高针对特定的探测对象的探测精度,由此,相较于权重固定的情况,能够使学习模型学习成能够高精度地探测该特定的探测对象。由此,根据本公开,能够实现一种能够高精度地对探测对象进行探测的学习方法。
40.另外,例如,也可以是,在所述评价值的计算中,通过进行使第一权重与第二权重
不同的处理、以及使第三权重与第四权重不同的处理中的至少一方,来计算所述评价值,所述第一权重是同所述正确框与所述探测框之间的特定位置或特定长度的差对应的权重,所述第二权重是同所述正确框与所述探测框之间的所述特定位置或所述特定长度以外的位置或长度的差对应的权重,所述第三权重是同所述正确类是所述特定类的情况下的所述正确类与所述探测类之差对应的权重,所述第四权重是同所述正确类是所述特定类以外的类的情况下的所述正确类与所述探测类之差对应的权重。
41.由此,能够生成能够高精度地探测特定位置、特定长度或者特定的类的学习模型。
42.另外,例如,也可以是,在所述评价值的计算中,至少使所述第一权重与所述第二权重不同,所述第一权重大于所述第二权重。
43.由此,能够生成尤其能够高精度地探测特定位置或特定长度的学习模型。
44.另外,例如,也可以是,在所述评价值的计算中,将所述第二权重设为0。
45.由此,能够生成能够更高精度地探测特定位置或特定长度的学习模型。
46.另外,例如,也可以是,所述特定位置是所述正确框及所述探测框中的下端的位置。
47.由此,能够生成能够更高精度地对探测框的下端的位置进行探测的学习模型。据此,在物体是人物的情况下,能够生成能够高精度地探测人物的脚下位置的学习模型。
48.另外,例如,也可以是,在所述评价值的计算中,至少使所述第三权重与所述第四权重不同,所述第三权重大于所述第四权重。
49.由此,能够生成尤其能够高精度地探测特定的类(特定的标签)的学习模型。
50.另外,例如,也可以是,所述正确类包含用于对所述物体进行分类的第一正确类、以及表示所述物体的属性或状态的第二正确类,所述探测类包含所述物体被分类到的第一探测类、以及表示所探测到的所述物体的属性或状态的第二探测类,在所述第二正确类是所述特定类的情况下,在所述评价值的计算中,将同所述第一正确类与所述第一探测类之差对应的权重设为所述第四权重,将同所述第二正确类与所述第二探测类之差对应的权重设为所述第三权重。
51.由此,在类有多个种类的情况下,能够生成能够高精度地探测特定的类的学习模型。
52.另外,本公开的一个方式所涉及的学习装置具备:获取部,其获取学习用图像和正确信息,所述学习用图像中包含物体,所述正确信息包含表示所述物体的类的正确类和表示所述物体在所述学习用图像上的区域的正确框;评价部,其获取通过对将图像作为输入来输出物体探测结果的学习模型输入所述学习用图像而得到的、包含表示所述物体的类的探测类和表示所述物体在所述学习用图像上的区域的探测框的物体探测结果,并基于获取到的所述物体探测结果与所述正确信息之差,来计算针对所述学习模型的评价值;以及调整部,其基于计算出的所述评价值,来调整所述学习模型的参数,其中,所述评价部在所述评价值的计算中,通过进行以下处理中的至少一方来计算所述评价值,上述的处理是:使同所述正确框与所述探测框之间的2个以上的位置或长度的差分别对应的权重互不相同;以及根据所述正确类是否是特定类来使同所述正确类与所述探测类之差对应的权重互不相同。另外,本公开的一个方式所涉及的程序记录介质是用于使计算机执行上述的学习方法的程序记录介质。
53.由此,发挥与上述的学习方法同样的效果。
54.此外,这些总括性的或具体的方式既可以由系统、方法、集成电路、计算机程序或者计算机可读取的cd-rom等非暂时性记录介质来实现,也可以由系统、方法、集成电路、计算机程序或者记录介质的任意组合来实现。程序既可以预先存储在记录介质中,也可以经由包括因特网等在内的广域通信网而被供给到记录介质中。
55.下面,参照附图来对实施方式进行具体说明。
56.此外,下面说明的实施方式均用于示出总括性的或具体的例子。下面的实施方式中示出的数值、形状、构成要素、构成要素的配置位置及连接方式、步骤、步骤的顺序等是一例,并非意在限定本公开。例如,数值不是仅表示严格的意思的表现,而是意味着还包括实质上同等的范围、例如百分之几左右的差异的表现。另外,关于下面的实施方式中的构成要素之中的、独立权利要求中未记载的构成要素,作为任意的构成要素进行说明。
57.另外,各图是示意图,未必严格地进行了图示。因而,例如,在各图中比例尺等未必一致。另外,在各图中,对实质上相同的结构标注相同的标记,省略或简化重复的说明。
58.另外,在本说明书中,相同等表示要素间的关系性的用语、矩形等表示要素的形状的用语、以及数值及数值范围不是仅表示严格的意思的表现,而是意味着还包括实质上同等的范围、例如百分之几左右(例如,5%左右)的差异的表现。
59.(实施方式1)
60.下面,参照图2~图7来说明本实施方式所涉及的位置估计系统和学习装置。
61.[1-1.位置估计系统的结构]
[0062]
首先,参照图2来说明本实施方式所涉及的位置估计系统的结构。图2是示出本实施方式所涉及的位置估计系统1的功能结构的框图。
[0063]
如图2所示,位置估计系统1具备摄像机20和位置估计装置30。位置估计系统1是基于由摄像机20拍摄到的图像数据来估计该图像数据中映出的物体(对象物)的位置的信息处理系统。此外,位置估计系统1不限定于搭载于移动体,也可以搭载于固定在规定的位置来使用的设备或者被放置使用的设备等。在下面,对位置估计系统1搭载于作为移动体的一例的车辆10的例子进行说明。
[0064]
摄像机20搭载于车辆10,对车辆10的周围进行拍摄。摄像机20例如是安装于车辆10的前方的车辆宽度的中心位置附近的小型的车载摄像机(例如,车载单眼摄像机)。摄像机20例如设置于车辆10的前方,但是也可以安装于车内的前挡风玻璃附近的顶棚。另外,摄像机20也可以安装成能够对车辆10的后方或侧方进行拍摄。
[0065]
作为摄像机20,没有特别限定,能够使用公知的摄像机。摄像机20例如是对可见光区域的波长的光进行拍摄的一般的可见光摄像机,但也可以是能够获取红外光的信息的摄像机。另外,摄像机20例如也可以以广角来进行拍摄。另外,摄像机20例如还可以是具有鱼眼镜头的鱼眼摄像机。另外,摄像机20既可以是拍摄单色图像的单色摄像机,也可以是拍摄彩色图像的彩色摄像机。
[0066]
摄像机20将所拍摄到的图像数据输出到位置估计装置30。摄像机20是摄像装置的一例。另外,图像数据例如是二维图像数据。
[0067]
位置估计装置30基于从摄像机20获取到的图像数据来估计对象物的位置。位置估计装置30是基于图像数据来估计对象物在实际空间中的三维位置的三维位置估计装置。位
置估计装置30具有探测部31和位置估计部32。
[0068]
探测部31基于从摄像机20获取到的图像数据来探测作为探测对象的对象物。在下面,对作为探测部31的探测对象的对象物的类包括人物的例子进行说明,但是类不限定于包括人物。探测部31作为从摄像机20获取包含行人u的图像数据的获取部发挥功能。行人u是人物的一例。
[0069]
探测部31使用以将图像数据作为输入来输出物体探测结果的方式进行了学习的学习完毕模型来探测物体,该物体探测结果包含探测到了该图像数据中映出的包括人物在内的物体的估计框(探测框)以及所探测到的物体的类(在此为人物)。估计框表示图像数据上的物体的区域,例如是矩形的框。估计框例如包含图像数据上的坐标信息。坐标信息例如包含成为估计框的对角的点的坐标。
[0070]
探测部31将基于从摄像机20获取到的图像数据的物体探测结果输出到位置估计部32。
[0071]
位置估计部32基于物体探测结果来估计对象物的位置,并输出包含所估计出的位置的位置信息。本实施方式所涉及的位置估计部32基于行人u与道路l接触这样的假设来估计该行人u的位置。
[0072]
具体而言,位置估计部32基于行人u与道路l接触这样的假设,来将探测结果中包含的估计框的坐标从图像数据上的坐标(摄像机坐标系)变换为实际世界(实际空间)中的坐标(正交坐标系)。坐标表示该对象物的位置。坐标例如可以是以搭载有位置估计系统1的车辆10为基准的位置、也就是说是从车辆10到对象物的距离。此外,进行坐标变换的方法没有特别限定,可以使用已知的任意方法。
[0073]
在此,参照图3来对行人u的位置p的探测进行说明。图3是示出位置估计结果的一例的图。在图3中,示出了行人u的实际的位置p为4m的例子。
[0074]
如图3所示,在由探测部31探测到的行人u的估计框大于行人u的情况下,位置估计部32将估计框的下端的位置作为行人u与道路l(地面)接触的位置,来估计行人u的位置。在图3的例子中,由于位置估计部32根据图像上的坐标来计算行人u的位置(到行人u的距离),因此将行人u的位置计算为3m。在该情况下,位置的误差为1m。
[0075]
这样,由于位置估计部32基于估计框的下端与道路l接触这样的假设来计算对象物的位置,因此估计框的下端大幅影响计算对象物的位置时的精度。在本实施方式中,探测部31使用由后述的学习装置40进行学习而得到的学习完毕模型,因此能够高精度地探测估计框的下端、即行人u与道路l接触的位置。
[0076]
[1-2.学习装置的结构]
[0077]
接着,参照图4来对本实施方式所涉及的学习装置40进行说明。图4是示出本实施方式所涉及的学习装置40的功能结构的框图。
[0078]
如图4所示,学习装置40具有获取部41、估计部42、评价部43、调整部44以及输出部45。学习装置40生成被位置估计装置30的探测部31使用的、用于估计位置的学习完毕模型。在本实施方式中,学习装置40构成为能够生成能够高精度地对探测到对象物的估计框的下端进行探测的学习完毕模型。此外,学习装置40通过使用了数据集的机器学习来进行学习模型的学习。学习模型是基于图像数据来探测物体的机器学习模型的一例,例如是使用了deep learning(深度学习)等神经网络的机器学习模型。机器学习模型例如也可以使用卷
积神经网络(cnn)、r-cnn(regions with cnn features:基于cnn特征的区域)、faster r-cnn(快速r-cnn)、yolo(you only look once:仅看一次)、ssd(single shot multibox detector:单步多框探测)等来构建。
[0079]
此外,本说明书中的学习的意思是调整学习模型的参数以使对后述的正确框(例如,参照图6a)与估计框(例如,参照图6b)的偏差以及正确类与探测类的偏差进行量化所得到的评价值减小。评价值表示学习模型的物体探测性能。另外,在ssd中,估计框也称为默认框。
[0080]
获取部41获取用于对学习模型进行学习的学习用数据。学习用数据是包含学习用图像和与该学习用图像对应的正确信息的数据集,该学习用图像中包含对象物。学习用图像被用作机器学习中的输入图像。正确信息是机器学习中的参考数据,例如,包含物体的类和物体在图像上的区域。数据集例如是公知的数据集,从学习装置40的外部的装置获取,但也可以由学习装置40生成。正确信息中包含的物体的类是正确类的一例。图像上的区域是矩形的框(参照图6a),也记载为正确框。获取部41例如构成为包括通信电路。
[0081]
估计部42使用进行物体的推断的学习模型,对获取部41获取到的学习用图像进行推断处理。估计部42将学习用图像输入到学习模型,获取学习用图像中映出的物体的估计结果。估计结果包含与物体对应的估计框和物体的类。估计结果中包含的估计框是探测框的一例,物体的类是探测类的一例。
[0082]
评价部43基于从估计部42获取到的估计结果、以及获取部41获取到的学习用数据中包含的正确信息,来计算表示针对学习模型的评价的评价值。评价部43例如使用评价函数来计算评价值。在本实施方式中,评价部43中的评价值的计算方法具有特征,详情在后面描述。此外,在下面,对评价值越大则表示学习模型的探测性能越低的例子进行说明,但不限定于此。
[0083]
调整部44基于评价部43计算出的评价值来进行学习模型的调整。在评价值为阈值以上、或者估计部42、评价部43以及调整部44的一系列处理被重复进行的次数为阈值次数以下的情况下,调整部44使用评价值来进行学习模型的调整。学习模型的调整例如包括调整权重和偏置中的至少一者。学习模型的调整可以使用已知的任意方法,例如也可以使用误差反向传播法(bp:back propagation)等。
[0084]
此外,评价值是否低于阈值和重复进行的次数是否多于阈值次数是规定的条件的一例。在不满足规定的条件的情况下,调整部44进行学习模型的调整。
[0085]
对于调整后的学习模型,在估计部42中再次进行估计处理。估计部42、评价部43以及调整部44对各不相同的多个(例如数千组)学习用图像以及与其对应的正确信息重复进行这样的调整,由此来提高学习模型的探测精度。
[0086]
输出部45将评价值低于规定值的学习模型作为学习完毕模型来输出。输出部45例如通过通信来将学习完毕模型输出到位置估计装置30。输出部45与位置估计装置30之间的通信方法没有特别限定,既可以是有线通信,也可以是无线通信。另外,通信标准也没有特别限定。输出部45例如构成为包括通信电路。
[0087]
另外,学习装置40例如也可以还具备受理来自用户的输入的受理部、存储各种信息的存储部等。受理部例如也可以利用触摸面板、按钮、键盘等来实现,也可以具有受理利用声音等进行的输入的结构。另外,存储部例如利用半导体存储器等来实现,存储各种表
等。
[0088]
此外,学习装置40中的机器学习例如是将学习用图像作为输入图像、并将该学习用图像中映出的物体的估计框和物体的类作为正确信息来进行的。学习装置40中的机器学习例如通过训练数据来进行,但不限定于此。
[0089]
[1-3.学习装置的动作]
[0090]
接着,参照图5~图7来对上述的学习装置40的动作进行说明。图5是示出本实施方式所涉及的学习装置40的动作的流程图。
[0091]
如图5所示,获取部41获取学习用数据(s11)。学习用数据中包含学习用图像和正确信息,该学习用图像中包含物体,该正确信息包含表示物体的类的正确类和表示物体在学习用图像上的区域的正确框。获取部41例如通过无线通信来获取学习用数据。例如也可以基于用户的指示来进行学习用数据的获取。此外,表示物体的类的正确类包含表示与物体的类有关的正确的信息,例如,在物体的类中包括多个标签的情况下,正确类包含表示类中的作为正确的标签的信息。在本实施方式中,作为正确类,包含与物体对应的标签(正确标签)。正确信息也称为标注信息。
[0092]
图6a是示出在学习装置40的学习时被给予的正确框的图。
[0093]
如图6a所示,学习用数据中包含含有人物的图像作为学习用图像,包含表示正确框的信息作为正确信息。并且,学习用数据中包含学习用图像中映出的物体(例如,人物)的类。作为一例,类中包括人物、车辆(例如,汽车)、自行车、摩托车等,但是能够根据位置估计系统1的用途来适当地决定。另外,例如,类也可以包含2个以上的信息。例如,类也可以用于表示物体及物体的状态。例如,类也可以是坐着的人物、行驶中的车辆等。另外,例如,类还可以用于表示物体的属性及物体的状态。例如,类还可以是坐着的男性等。另外,例如,类还可以用于表示物体及物体的属性。例如,类还可以是20多岁的人物、红色的车辆等。这样的类也是表示物体的类的探测类的一例。此外,属性能够根据物体的种类等来适当地决定,但例如也可以是性别、年龄、颜色、姿势、感情、动作等。
[0094]
再次参照图5,接着,估计部42使用学习用数据,对学习模型进行估计处理(s12)。估计部42获取对学习模型输入学习用图像而得到的输出来作为估计结果。估计结果中包含估计框和类。步骤s12是获取物体探测结果的一例。
[0095]
图6b是示出在学习装置40的学习时输出的估计框的图。
[0096]
如图6b所示,估计部42获取估计框来作为针对学习用图像的估计结果。在图6b中,示出了由估计部42得到的估计框从人物处偏离的例子。
[0097]
再次参照图5,接着,评价部43使用估计结果来计算评价值(s13)。评价部43获取通过对将图像作为输入来输出物体探测结果的学习模型输入学习用图像而得到的、包含表示物体的类的探测类和表示物体在学习用图像上的区域的估计框的物体探测结果,并基于获取到的物体探测结果与正确信息之差来计算评价值。评价值是与该差相应的值。
[0098]
评价部43以使探测对象之中的特定的探测对象的偏差对评价值造成的影响相对地大于其它探测对象的偏差对评价值造成的影响的方式,来计算评价值。在特定的探测对象是估计框的下端的位置的情况下,评价部43例如使评价函数中的估计框的下端的权重大于下端以外(例如,上端)的权重来计算评价值。例如,在估计框与正确框之间的下端的偏差和上端的偏差为同值的情况下,评价部43使基于下端的偏差的评价值大于基于上端的偏差
的评价值,来进行计算。这样,评价部43进行如下评价:通过由调整部44进行的参数调整,估计框的下端与正确框的下端的偏差会变得更小。
[0099]
图6c是示出学习装置40的学习时的正确框与估计框的偏差的图。图6c的实线框表示图6a的正确框,图6c的虚线框表示图6b的估计框。
[0100]
如图6c所示,正确框与估计框产生偏差。也可以说评价部43探测正确框与估计框的偏差。在图6c中,正确框与估计框之间的下端和上端分别产生偏差。学习装置40通过如上所述地计算评价值,能够优先地使下端和上端之中的下端的偏差减小。
[0101]
此外,正确框和估计框例如是形状相同的框。在本实施方式中,正确框和估计框各自是矩形,但不限定于此。
[0102]
图7是用于说明本实施方式所涉及的调整部44所进行的参数调整方法的图。图7所示的图是扩大了图6c所示的正确框和估计框并且记载了各位置的坐标等的图。
[0103]
如图7所示,正确框的重心的坐标是(c_x0,c_y0),正确框的宽度是w0,正确框的高度是h0,正确框的对角的坐标是(x00,y00)和(x10,y10)。另外,估计框的重心的坐标是(c_x1,c_y1),估计框的宽度是w1,估计框的高度是h1,估计框的对角的坐标是(x01,y01)和(x11,y11)。此外,重心是对角线的交点的位置。
[0104]
在比较例所涉及的学习装置中,以使估计框的对角的坐标或者估计框的重心、高度及宽度相对于正确框的偏差变为最小的方式来进行学习。因此,例如,在使估计框的对角的坐标相对于正确框的偏差变为最小的方式来进行学习的情况下,在下端的坐标(例如,坐标(x01,y01))和上端的坐标(例如,坐标(x11,y11))的各坐标中,均以与正确框的偏差变为最小的方式来进行学习。例如,在比较例所涉及的学习装置中,下端的坐标之差的权重与上端的坐标之差的权重是相同的。在这样的学习中,在想要高精度地探测下端的坐标的情况下,难以有效地提高下端的坐标的精度。
[0105]
另一方面,在本实施方式所涉及的学习装置40中,通过如上述说明的这样来决定权重,以使估计框的对角的坐标或者估计框的重心、高度及宽度之中的、下端的坐标相对于正确框的下端的坐标的偏差变为最小的方式来进行学习。因此,例如,在以使估计框的对角的坐标相对于正确框的偏差变为最小的方式来进行学习的情况下,能够以使下端的坐标(例如,坐标(x01,y01))和上端的坐标(例如,坐标(x11,y11))之中的、下端的坐标之差变为最小的方式来进行学习。通过这样的学习,在想要高精度地探测下端的坐标的情况下,能够有效地提高下端的坐标的精度。
[0106]
此外,基于估计框的对角的坐标的偏差的评价值是通过基于下端的坐标的偏差的第一评价值与基于上端的坐标的偏差的第二评价值的合计来计算的。第一评价值是基于下端的坐标的偏差(差)及后述的第一权重的评价值,例如通过下端的坐标的偏差与第一权重相乘来计算。第二评价值是基于上端的坐标的偏差(差)及后述的第二权重的评价值,例如,通过上端的坐标的偏差与第二权重相乘来计算。另外,基于估计框的重心、高度及宽度的评价值是通过基于重心的偏差的第三评价值、基于高度的偏差的第四评价值以及基于宽度的偏差的第五评价值的合计来计算的。
[0107]
在此,对评价部43中的用于计算评价值的评价函数进行说明。首先,评价函数通过下面的(式1)表示。
[0108]
评价值=针对类的评价值+针对估计框的评价值
ꢀꢀꢀ
(式1)
[0109]
如(式1)所示,针对学习模型的评价值被计算为针对类的评价值与针对估计框的评价值的合计。
[0110]
关于针对类的评价值,在物体的正确类与探测类不一致的情况下,针对类的评价值被设定为高于正确类与探测类一致的情况下的评价值的值。另外,关于针对估计框的评价值,正确框与估计框的位置之差越大,则针对估计框的评价值被设定为越高的值。
[0111]
评价部43通过进行以下处理中的至少一方来计算评价值,上述的处理是:使同正确框与估计框之间的2个以上的位置或长度的差分别对应的权重互不相同;以及根据正确类是否是特定的类来使同正确类与探测类之差对应的权重互不相同。在本实施方式中,评价部43例如基于正确框与估计框之差是否是特定位置或特定长度的差,来使同正确框与估计框之差对应的权重不同。此外,2个以上的位置或长度的差既可以包含2个以上的位置的各位置的差,也可以包含2个以上的长度的各长度的差,还可以包含1个以上的位置的差和1个以上的长度的差。此外,与差对应的权重是指在评价值的计算中用于对该差进行运算的权重。
[0112]
特定位置是在位置估计装置30中想要高精度地探测的位置,例如是在搭载有位置估计系统1的设备等的控制中被重视的位置。在位置估计系统1搭载于车辆10的情况下,特定位置例如是估计框的下端,但不限定于此。在本实施方式中,估计框的下端表示人物的脚下位置,被用于计算物体在实际空间中的位置。另外,特定长度是在位置估计装置30中想要高精度地探测的长度,例如是在搭载有位置估计系统1的设备等的控制中被重视的长度。在位置估计系统1搭载于车辆10的情况下,特定长度例如是估计框的上下方向的长度,特定长度以外的长度是估计框的左右方向的长度,但不限定于此。估计框的上下方向的长度被用于计算物体的高度(在人物的情况下是身高)。
[0113]
评价部43例如在评价值的计算中,通过进行使第一权重与第二权重不同的处理、以及使第三权重与第四权重不同的处理中的至少一方,来计算评价值,第一权重是同正确框与估计框之间的特定位置或特定长度的差对应的权重,第二权重是同正确框与估计框之间的特定位置或特定长度以外的位置或长度的差对应的权重,第三权重是同正确类是特定的类的情况下的正确类与探测类之差对应的权重,第四权重是同正确类是特定类以外的类的情况下的正确类与探测类之差对应的权重。在本实施方式中,评价部43至少使第一权重与第二权重不同。在下面,对使第一权重与第二权重不同的例子进行说明,关于使第三权重与第四权重不同的实施方式,在实施方式2中进行说明。
[0114]
例如,使用图7所示的坐标等,通过下面的(式2)来计算针对估计框的评价值。(式2)是用于计算基于估计框的重心、高度以及宽度来计算的针对估计框的评价值的算式。
[0115]
针对估计框的评价值=a
×
abs(c_x_正确框-c_x_估计框)+b
×
abs(c_y_正确框-c_y_估计框)+c
×
abs(w_正确框-w_估计框)+d
×
abs(h_正确框-h_估计框) (式2)
[0116]
(式2)的第一项表示正确框的重心与估计框的重心在横向上的坐标之差的绝对值,第二项表示正确框的重心与估计框的重心在纵向上的坐标之差的绝对值。另外,第三项表示正确框的宽度与估计框的宽度之差的绝对值,第四项表示正确框的高度与估计框的高度之差的绝对值。此外,宽度是框的横向的长度,高度是框的纵向的长度。评价部43通过调整权重a、权重b、权重c及权重d,能够在所重视的位置存在偏差的情况下有效地增大评价值。
[0117]
在特定位置是框的下端的位置或者特定长度是框的高度的情况下,例如,在特定的探测对象是人物的脚下位置或估计框的高度(人物的身高)的情况下,评价部43将权重b设为大于权重a的值,将权重d设为大于权重c的值。在该情况下,权重b和权重d是第一权重的一例,权重a和权重c是第二权重的一例。另外,权重b和权重d各自既可以是互不相同的值,也可以是相同的值,权重a和权重c各自既可以是互不相同的值,也可以是相同的值。特定的探测对象以外的探测对象中的权重a、权重b、权重c及权重d既可以与特定的探测对象中的权重a、权重b、权重c及权重d不同,例如也可以全部为相同的值。也就是说,第一权重与第二权重的关系也可以适用于物体的类是特定的类的情况。评价部43也可以判定物体的类是否是特定的类,并根据判定结果来切换用于计算评价值的第一权重与第二权重的关系。
[0118]
另外,在特定长度是框的宽度的情况下,例如,在特定的探测对象是估计框的宽度(人物的宽度)的情况下,评价部43将权重a设为大于权重b的值,将权重c设为大于权重d的值。在该情况下,权重a和权重c是第一权重的一例,权重b和权重d是第二权重的一例。
[0119]
如上所述,在本实施方式中,评价部43至少使第一权重与第二权重不同,来计算针对估计框的评价值。评价部43使同正确框与估计框之间的特定位置或特定长度的差对应的第一权重大于同正确框与估计框之间的特定位置或特定长度以外的位置或长度的差对应的第二权重。评价部43例如将权重a、权重b、权重c及权重d之中的至少一个权重设为与其它权重不同的值,来计算评价值。
[0120]
此外,评价部43不限定于基于(式2)来计算针对估计框的评价值。评价部43例如在进行专门针对人物的脚下位置的探测的情况下,也可以仅基于人物的脚下位置的项来计算针对估计框的评价值。这样的算式例如通过下面的(式3)来表示。
[0121]
针对估计框的评价值=abs(c_y_正确框-c_y_估计框)
ꢀꢀꢀ
(式3)
[0122]
评价部43在高精度地探测人物的脚下位置的情况下,也可以仅使用正确框中的与人物的脚下位置对应的坐标即c_y_正确框、以及估计框中的与人物的脚下位置对应的坐标即c_y_估计框,来计算针对估计框的评价值。这样,评价部43在评价值的计算中,也可以将同正确框与估计框之间的特定位置或长度以外的位置或长度的差对应的第二权重设为0。(式3)表示在(式2)中将权重b设为1并且将权重a、权重c及权重d设为0的算式。在该情况下,权重b是第一权重的一例,权重a、权重c及权重d是第二权重的一例。
[0123]
评价部43通过对分别计算出的针对类的评价值与针对估计框的评价值进行合计,来计算针对学习模型的评价值。
[0124]
再次参照图5,接着,调整部44基于在步骤s13中计算出的评价值来调整学习模型的参数(s14)。例如,在评价值不满足规定的条件的情况下,调整部44调整学习模型的参数。调整部44例如判定在步骤s13中计算出的评价值是否低于阈值,在评价值为阈值以上的情况下,执行步骤s14的处理。
[0125]
调整部44使用这样的评价值来调整参数,由此参数被调整为能够有效地抑制特定的探测对象(例如,所重视的位置)的偏差。
[0126]
另外,在步骤s13中计算出的评价值满足规定的条件的情况下,输出部45将学习模型输出到位置估计装置30。输出部45判定在步骤s13中计算出的评价值是否低于阈值,在评价值低于阈值的情况下,将学习模型输出到位置估计装置30。
[0127]
如上面这样,本实施方式所涉及的评价部43根据所重视的信息(所重视的位置或
长度)来调整(式2)和(式3)示出的评价函数中的权重。由此,调整部44通过将学习模型的参数调整为使评价值变小,能够有效地将学习模型的参数调整为能够高精度地探测所重视的信息(例如,想要高精度地探测的信息)。此外,也可以是,评价部43当受理到所重视的信息的输入时,基于将所重视的信息与权重赋予了对应关系的表来决定各权重。另外,各权重也可以由用户直接输入。
[0128]
(实施方式2)
[0129]
下面,参照图8和图9来对本实施方式所涉及的学习装置40进行说明。此外,本实施方式所涉及的学习装置40的功能结构与实施方式1所涉及的学习装置40相同,省略说明。此外,图8是示出作为本实施方式所涉及的位置估计装置的探测对象的类的图。如图8所示,类包括人物、车辆、自行车以及摩托车的标签。在本实施方式中,对多个标签之中包括所重视的标签的例子进行说明。在下面,对特定的探测对象是人物从而人物比其它标签更被重视的例子进行说明。此外,在图8中,作为类的一例,示出了对物体进行分类时的物体类。
[0130]
[2-1.学习装置的动作]
[0131]
参照图9来对本实施方式所涉及的学习装置40的动作进行说明。图9是示出本实施方式所涉及的学习装置40的动作的流程图。此外,对与实施方式1的图5所示的动作相同或类似的动作标注相同的标记,省略或简化说明。
[0132]
如图9所示,评价部43使用估计结果来计算评价值(s131)。在本实施方式中,评价部43至少使第三权重与第四权重不同,来计算针对类的评价值。评价部43例如以使被探测的标签之中的、所重视的标签的偏差对针对类的评价值造成的影响相对地大于其它标签的偏差对针对类的评价值造成的影响的方式,来计算针对类的评价值。评价部43在评价值的计算中,在正确类是特定的类(特定的标签)的情况下,相较于正确类不是特定的类的情况,使用于计算针对类的评价值的权重增大。例如,第三权重大于第四权重。
[0133]
在正确类是特定的类且探测类是特定的类以外的类的情况下,相较于正确类是特定的类以外的类且探测类错误的情况,评价部43使第三权重大于第四权重,以使基于类的评价值变大。另外,也可以是,在正确类是特定的类以外的类且探测类是特定的类的情况下,相较于正确类是特定的类以外的类且探测类是特定的类以外的类但错误的情况,评价部43使第四权重大于第三权重,以使基于类的评价值变大。
[0134]
也可以是,在特定的类(特定的标签)是人物的情况下,例如,在正确类(正确标签)是人物且探测类是人物以外的情况下,相较于正确类是人物以外且探测类是正确类以外的标签的情况,评价部43使第三权重大于第四权重。例如,也可以说,在特定的类是人物的情况下,评价部43使评价函数中的人物的权重大于其它标签的权重来计算评价值。
[0135]
评价部43通过对分别计算出的针对类的评价值与针对估计框的评价值进行合计,来计算针对学习模型的评价值。
[0136]
如上面这样,本实施方式所涉及的评价部43根据所重视的信息(所重视的类)来调整评价函数中的权重。由此,调整部44通过将学习模型的参数调整为使评价值变小,能够有效地将学习模型的参数调整为能够高精度地探测所重视的信息(例如,想要高精度地探测的类)。学习装置40例如在类包括多个标签的情况下,能够生成提高了特定的标签的探测精度的学习完毕模型。特定的标签是特定的类的一例。
[0137]
(实施方式2的变形例)
[0138]
下面,参照图10和图11来对本变形例所涉及的学习装置40进行说明。此外,本变形例所涉及的学习装置40的功能结构与实施方式1所涉及的学习装置40相同,省略说明。此外,图10是示出作为本变形例所涉及的位置估计装置的探测对象的类的图。如图10所示,类包含类1、类2及类3这3个类。3个类包含于物体探测结果中。此外,类的数量不限定于3个,只要是2个以上即可。此外,多个类分别是互不相同的种类的类。
[0139]
类1是物体被分类到的类,例如包括人物、车辆、自行车以及摩托车等。也可以说,类1表示物体的类别。类2是表示物体的属性的类,例如,在物体是人物的情况下,类2包括性别等。类3是表示物体的状态的类,例如,包括物体的姿势等。姿势例如是站着、躺着、蹲着等,但不限定于此。
[0140]
在该情况下,关于学习完毕模型的探测结果之中的针对类的探测结果,类1是“人物”,类2是“男性”,类3是“站着”等。
[0141]
这样,在类为多个的情况下,有时期望与其它类相比更高精度地探测特定的类。在下面,对与类1~类3之中的其它类相比更高精度地探测类3的例子进行说明。类3是特定的探测对象(特定的类)的一例。
[0142]
接着,参照图11来对本变形例所涉及的学习装置40的动作进行说明。图11是示出本变形例所涉及的学习装置40的动作的流程图。此外,对与实施方式2的图9所示的动作相同或类似的动作标注相同的标记,省略或简化说明。
[0143]
如图11所示,评价部43使用估计结果来计算评价值(s132)。在本变形例中,评价部43以使被探测的多个类之中的、所重视的类的偏差对针对类的评价值造成的影响相对地大于其它类的偏差对针对类的评价值造成的影响的方式,来计算评价值。评价部43在评价值的计算中,在类3是特定的类的情况下,使针对类3的、同正确类与探测类之差对应的权重大于针对类3以外的类的、同正确类与探测类之差对应的权重。在图10的例子中,评价部43使与类1~类3之中的类3对应的权重大于与其它类(类1和类2的各类)对应的权重来计算评价值。
[0144]
这样,正确类包含用于对物体进行分类的类1(第一正确类的一例)以及表示物体的属性或状态的类2或类3(第二正确类的一例)。探测类包含物体被分类到的第一探测类、以及表示所探测到的物体的属性或状态的第二探测类。而且,在第一正确类和第二正确类中的一方是特定类的情况下,评价部43将同该一方的类与对应于该一方的类的探测类之差对应的权重设为第三权重,将同另一方的类与对应于该另一方的类的探测类之差对应的权重设为第四权重。例如,在第二正确类是特定类且第一正确类不是特定类的情况下,评价部43在评价值的计算中,将同第一正确类与第一探测类之差对应的权重设为第四权重,将同第二正确类与第二探测类之差对应的权重设为第三权重。也就是说,评价部43在评价值的计算中,使同第二正确类与第二探测类之差对应的权重大于同第一正确类与第一探测类之差对应的权重。
[0145]
此外,不限定于第一正确类是用于对物体进行分类的类,第二正确类是表示物体的属性或状态的类。第一正确类和第二正确类只要是种类互不相同的类即可。第一正确类和第二正确类例如包括互不相同的标签。
[0146]
评价部43通过对分别计算出的针对类的评价值与针对估计框的评价值进行合计,来计算针对学习模型的评价值。
[0147]
如上面这样,本变形例所涉及的评价部43根据所重视的信息(多个类之中的所重视的类)来调整评价函数中的权重。由此,调整部44通过将学习模型的参数调整为使评价值变小,能够有效地将学习模型的参数调整为能够高精度地探测所重视的信息(例如,想要高精度地探测的类)。
[0148]
(其它的实施方式)
[0149]
以上,基于实施方式等对一个或多个方式所涉及的学习方法等进行了说明,但是本公开不限定于该实施方式等。只要不脱离本公开的主旨,对本实施方式实施了本领域技术人员所能想到的各种变形而得到的方式、将不同的实施方式中的构成要素进行组合而构建出的方式也可以包含于本公开。
[0150]
例如,在上述实施方式等中,调整部基于对针对类的评价值与针对估计框的评价值进行合计而得到的评价值是否低于阈值(第一阈值)的判定结果,来调整学习模型的参数,但不限定于此。调整部也可以基于针对类的评价值和针对估计框的评价值中的任一者是否低于阈值(第二阈值)的判定结果,来调整学习模型的参数。调整部例如也可以进行以包含针对特定的探测对象的评价值的方式计算出的评价值(针对类的评价值和针对估计框的评价值之中的任一方)是否低于第二阈值的判定,并在该评价值为第二阈值以上的情况下,调整学习模型的参数。
[0151]
另外,在上述实施方式等中,对正确框及估计框是矩形的例子进行了说明,但是框形状不限定于矩形。
[0152]
另外,在上述实施方式2的变形例中,对类2是性别的例子进行了说明,但不限定于此,也可以包含年龄(例如,10多岁、20多岁等)、肤色、成人或儿童等中的至少一者。另外,对类3是姿势的例子进行了说明,但不限定于此,也可以包含感情、表情、动作等中的至少一者。
[0153]
另外,在上述实施方式等中,对学习时的评价值的计算进行了说明,但是本公开也能够应用于对学习完毕模型进行再学习时的评价值的计算。
[0154]
另外,在上述实施方式等中,对学习模型是使用了deep learning(深度学习)等神经网络的机器学习模型的例子进行了说明,但也可以是其它机器学习模型。例如,机器学习模型也可以是使用了random forest(随机森林)、genetic programming(遗传编程)等的机器学习模型。
[0155]
另外,在上述实施方式等中,各构成要素也可以由专用的硬件构成,或者通过执行适合于各构成要素的软件程序来实现。各构成要素也可以通过由cpu或处理器等程序执行部读取并执行硬盘或半导体存储器等记录介质中记录的软件程序来实现。
[0156]
另外,流程图中的各步骤被执行的顺序是用于具体地说明本公开的例示,也可以是上述以外的顺序。另外,上述步骤的一部分也可以与其它步骤同时(并行)执行,上述步骤的一部分还可以不被执行。
[0157]
另外,框图中的功能模块的分割是一例,也可以将多个功能模块实现为一个功能模块,或者将一个功能模块分割成多个,或者将一部分功能移至其它功能模块。另外,具有类似的功能的多个功能模块的功能也可以由单一的硬件或软件并行或分时地处理。
[0158]
另外,上述实施方式等所涉及的学习装置既可以作为单一的装置来实现,也可以由多个装置来实现。在学习装置由多个装置来实现的情况下,该学习装置所具有的各构成
要素怎样分配至多个装置均可。另外,学习装置所具备的各构成要素中的至少一者也可以由服务器装置来实现。另外,在利用多个装置来实现学习装置的情况下,该学习装置所具备的装置间的通信方法没有特别限定,既可以是无线通信,也可以是有线通信。另外,在装置间,也可以组合使用无线通信和有线通信。
[0159]
另外,在上述实施方式等中说明的各构成要素也可以作为软件来实现,典型地说,也可以实现为作为集成电路的lsi。各构成要素既可以被单独地单芯片化,也可以以包括各构成要素的一部分或全部的方式被单芯片化。在此,设为了lsi,但是根据集成度的不同,有时也称为ic、系统lsi、超大lsi、特大lsi。另外,集成电路化的方法不限于lsi,也可以由专用电路或通用处理器来实现。还可以利用在lsi被制造后能够编程的fpga(field programmable gate array:现场可编程门阵列)、或者能够重新构成lsi内部的电路单元的连接或设定的可重构处理器。并且,如果由于半导体技术的进步或派生的其它技术而出现了置换lsi的集成电路化的技术,则当然也可以使用该技术来进行构成要素的集成化。
[0160]
系统lsi是将多个处理部集成在1个芯片上而制造出的超多功能lsi,具体而言,是构成为包括微处理器、rom(read only memory:只读存储器)、ram(random access memory:随机存取存储器)等的计算机系统。rom中存储有计算机程序。微处理器按照计算机程序来进行动作,由此系统lsi达成其功能。
[0161]
另外,本公开的一个方式也可以是使计算机执行图5、图9或图11等所示的学习方法中包括的特征性的各步骤的计算机程序。例如,程序也可以是用于使计算机执行的程序。另外,本公开的一个方式也可以是记录有这样的程序的、计算机可读取的非暂时性记录介质。例如,也可以将这样的程序记录在记录介质中来分发或流通。例如,能够通过将所分发的程序安装到具有其它处理器的装置并使该处理器执行该程序,来使该装置进行上述各处理。
[0162]
产业上的可利用性
[0163]
本公开对于生成用于使用由摄像机拍摄到的图像数据来估计对象物的位置等的机器学习模型的学习装置而言是有用的。
[0164]
附图标记说明
[0165]
1:位置估计系统;10:车辆;20:摄像机;30:位置估计装置;31:探测部;32:位置估计部;40:学习装置;41:获取部;42:估计部;43:评价部;44:调整部;45:输出部;a、b、c、d:权重;l:道路;p:位置;u:行人。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1