摄像设备及其控制方法和存储介质与流程

文档序号:18082660发布日期:2019-07-06 10:13阅读:163来源:国知局
摄像设备及其控制方法和存储介质与流程

本发明涉及一种摄像设备的自动摄像技术。



背景技术:

通常,在利用诸如照相机等的摄像设备的静止图像/运动图像拍摄中,用户通过取景器等来确定所要拍摄的对象,由自己确认摄像状态,并且调整拍摄图像的取景,从而拍摄图像。这种摄像设备具有下面的功能,其中该功能用于检测用户的操作错误并且将其通知给用户,或者用于检测外部环境,并且如果环境不适合于摄像,则将其通知给用户。另外,传统上存在用于控制照相机以获得适合于摄像的状态的机构。

除通过用户操作来执行摄像的摄像设备以外,还存在在无需用户给出摄像指示的情况下,定期且连续地进行摄像的生活记录照相机(日本特开2016-536868)。生活记录照相机在用户使用带子等将其穿戴在身上的状态下使用,并且以预定时间间隔将用户在日常生活中所见的场景记录为视频。由于不是在诸如用户释放快门等的期望定时、而是以预定时间间隔来进行利用生活记录照相机的摄像,因此可能将通常不会拍摄的非预期瞬间记录为视频。

然而,如果在用户穿戴生活记录照相机的状态下定期进行自动摄像,则在一些情况下,获取到并非用户想要的视频,并且无法获取到实际想要的瞬间的视频。

另外,即使生活记录照相机具有学习功能,并且能够学习用户实际想要拍摄的瞬间并进行自动摄像,但是为了学习,需要大量监督数据。日本特开2004-354251公开了如下技术:在使用神经网络来检查待检物体中是否存在缺陷的缺陷检查设备中,通过图像处理来创建该物体的人工缺陷图像,并且弥补学习模式的不足。然而,与针对有限类型的物体的缺陷检查不同,被摄体的类型对于生活记录照相机来说是无限的,并且难以通过图像处理来弥补学习模式的不足。



技术实现要素:

本发明是考虑到上述问题而做出的,并且提供一种能够在无需用户进行特殊操作的情况下获取适合于用户的视频的摄像设备。

根据本发明的第一方面,提供一种摄像设备,包括:获取单元,其被配置为获取与摄像单元所拍摄的拍摄图像有关的数据;学习单元,其被配置为基于监督数据来学习用户喜欢的图像的条件;控制单元,其被配置为基于所述学习单元所学习的条件来进行利用所述摄像单元的自动摄像的判定;以及登记单元,其被配置为将所述获取单元针对通过基于所述用户的指示进行的摄像所获得的拍摄图像所获取到的数据以及所述获取单元针对在基于所述用户的指示进行的摄像之前以及/或者之后拍摄的学习用拍摄图像所获取到的数据登记为所述监督数据。

根据本发明的第二方面,提供一种摄像设备的控制方法,包括:获取步骤,用于获取与摄像单元所拍摄的拍摄图像有关的数据;学习步骤,用于基于监督数据来学习用户喜欢的图像的条件;判定步骤,用于基于所述学习步骤中所学习的条件来进行利用所述摄像单元的自动摄像的判定;以及登记步骤,用于将在所述获取步骤中针对通过基于用户的指示进行的摄像所获得的拍摄图像所获取到的数据以及在所述获取步骤中针对在基于用户的指示进行的摄像之前以及/或者之后拍摄的学习用拍摄图像所获取到的数据登记为所述监督数据。

根据本发明的第三方面,提供一种计算机可读存储介质,存储被配置为使计算机执行摄像设备的控制方法的步骤的程序,其中,所述控制方法包括:获取步骤,用于获取与摄像单元所拍摄的拍摄图像有关的数据;学习步骤,用于基于监督数据来学习用户喜欢的图像的条件;判定步骤,用于基于所述学习步骤中所学习的条件来进行利用所述摄像单元的自动摄像的判定;以及登记步骤,用于将在所述获取步骤中针对通过基于用户的指示进行的摄像所获得的拍摄图像所获取到的数据以及在所述获取步骤中针对在基于用户的指示进行的摄像之前以及/或者之后拍摄的学习用拍摄图像所获取到的数据登记为所述监督数据。

通过以下参考附图对典型实施例的说明,本发明的其它特征将显而易见。

附图说明

图1a和1b是示意性示出摄像设备的图;

图2是示出摄像设备的结构的框图;

图3是示出摄像设备和外部装置的结构的图;

图4是示出外部装置的结构的框图;

图5是示出摄像设备和外部装置的结构的图;

图6是示出外部装置的结构的框图;

图7是用于说明第一控制电路的流程图;

图8是用于说明第二控制电路的流程图;

图9是用于说明摄像模式处理的流程图;

图10是用于说明神经网络的图;

图11a至11d是用于说明拍摄图像中的区域分割的图;

图12是用于说明学习模式判定的流程图;

图13是用于说明学习处理的流程图;以及

图14是用于说明根据本实施例的显示处理的图。

具体实施方式

第一实施例

摄像设备的结构

图1a是示意性示出根据第一实施例的摄像设备的图。

图1a所示的摄像设备101设置有能够对电源开关进行操作的操作构件(以下称为电源按钮,但是该操作可以是对触摸面板的点击、轻拂或者滑动等)。作为包括用于进行摄像的摄像透镜组和图像传感器的壳体的镜筒102被安装到摄像设备101,并且设置有能够相对于固定部103转动驱动镜筒102的转动机构。倾斜转动单元104是能够在图1b所示的俯仰方向上转动镜筒102的马达驱动机构,并且平摇转动单元105是能够在横摆方向上转动镜筒102的马达驱动机构。因此,镜筒102能够在一个以上的轴方向上转动。图1b示出在固定部103的位置处的轴定义。角速度计106和加速度计107两者被安装在摄像设备101的固定部103上。摄像设备101的振动基于角速度计106或者加速度计107来检测,并且基于所检测到的抖动角度来转动驱动倾斜转动单元和平摇转动单元。由此,校正作为可移动部的镜筒102的抖动,或者校正倾斜。

图2是示出根据本实施例的摄像设备的结构的框图。

参考图2,第一控制电路223包括处理器(例如,cpu、gpu、微处理器或者mpu等)和存储器(例如,dram或者sram等)。第一控制电路223执行各种类型的处理,并且控制摄像设备101的块或控制块之间的数据传输。非易失性存储器(eeprom)216是电可擦除/可记录存储器,并且存储用于第一控制电路223的操作的常数和程序等。

参考图2,变焦单元201包括改变倍率的变焦透镜。变焦驱动控制电路202驱动和控制变焦单元201。调焦单元203包括调节焦点的透镜。调焦驱动控制电路204驱动和控制调焦单元203。

摄像单元206包括图像传感器和a/d转换器。图像传感器接收经由镜头入射的光,并且将与光量相对应的电荷信息作为模拟图像数据输出给图像处理电路207。图像处理电路207是包括多个alu(运算逻辑单元)的运算电路。图像处理电路207对通过a/d转换所输出的数字图像数据应用诸如失真校正、白平衡调整和颜色插值处理等的图像处理,并且输出这些应用之后的数字图像数据。从图像处理电路207输出的数字图像数据通过图像记录电路208被转换成诸如jpeg等的记录格式,并且被发送给后述的存储器215或者视频输出电路217。

镜筒转动驱动电路205驱动倾斜转动单元104和平摇转动单元105以在倾斜方向和水平方向上驱动镜筒102。

装置抖动检测电路209包括例如用于检测摄像设备101在三个轴方向上的角速度的角速度计(陀螺仪传感器)106和用于检测该设备在三个轴方向上的加速度的加速度计(加速度传感器)107。装置抖动检测电路209基于所检测到的信号来计算设备的转动角度和设备的移位量。

语音输入电路213从设置在摄像设备101上的麦克风获取摄像设备101周围的语音信号,进行模拟/数字转换,并且将语音信号发送给语音处理电路214。语音处理电路214对输入的数字语音信号进行诸如优化处理等的与语音有关的处理。通过第一控制电路223,将通过语音处理电路214处理后的语音信号发送给存储器215。存储器215临时存储通过图像处理电路207和语音处理电路214所获得的图像信号和语音信号。

图像处理电路207和语音处理电路214读出临时存储在存储器215中的图像信号和语音信号,并且进行图像信号的编码和语音信号的编码,从而生成压缩图像信号和压缩语音信号。第一控制电路223将压缩图像信号和压缩语音信号发送给记录/再现电路220。

记录/再现电路220将通过图像处理电路207和语音处理电路214所生成的压缩图像信号和压缩语音信号以及与摄像有关的其它控制数据等记录在记录介质221中。如果不对语音信号进行压缩编码,则第一控制电路223将通过语音处理电路214所生成的语音信号和通过图像处理电路207所生成的压缩图像信号发送给记录/再现电路220,并使其将这些信号记录在记录介质221中。

记录介质221可以是内置于摄像设备101中的记录介质或者可拆卸记录介质。记录介质221可以记录通过摄像设备101所生成的诸如压缩图像信号、压缩语音信号和语音信号等的各种类型的数据,并且通常使用容量大于非易失性存储器216的容量的介质。例如,记录介质221包括诸如硬盘、光盘、磁光盘、cd-r、dvd-r、磁带、非易失性半导体存储器和闪速存储器等的所有格式的记录介质。

记录/再现电路220读出(再现)记录在记录介质221中的压缩图像信号、压缩语音信号、语音信号、各种类型的数据和程序。第一控制电路223将所读出的压缩图像信号和压缩语音信号发送给图像处理电路207和语音处理电路214。图像处理电路207和语音处理电路214将压缩图像信号和压缩语音信号临时存储在存储器215中,根据预定过程对压缩图像信号和压缩语音信号进行解码,并且将解码后的信号发送给视频输出电路217和语音输出电路218。

语音输入电路213具有安装在摄像设备101上的多个麦克风,并且语音处理电路214可以检测声音在安装这多个麦克风的平面上的方向,这用于后述的搜索或者自动摄像。另外,语音处理电路214检测特定语音命令。作为语音命令,可以使用预先登记的多个命令,或者使得用户能够在摄像设备中登记特定语音。还进行声音场景识别。在声音场景识别中,基于大量语音数据通过机器学习预先学习了的网络来进行声音场景判定。例如,在语音处理电路214中设置被配置为检测诸如“欢呼”、“鼓掌”或者“语音发言”等的特定场景的网络。在检测到特定声音场景或者特定语音命令时,语音处理电路214向第一控制电路223或者第二控制电路211输出检测触发信号。

独立于被配置为控制摄像设备101的整个主系统的第一控制电路223所设置的第二控制电路211控制第一控制电路223的供电。

第一电源电路210和第二电源电路212分别提供用于使第一控制电路223和第二控制电路211工作的电力。当按下设置在摄像设备101上的电源按钮时,首先向第一控制电路223和第二控制电路211两者供电。如后述,第一控制电路223控制第一电源电路210以断开向自身的供电。第二控制电路211即使在第一控制电路223不工作期间也工作,并且输入来自装置抖动检测电路209或者语音处理电路214的信息。基于各种类型的输入信息,第二控制电路进行用于判定是否启动第一控制电路223的判定处理。在判定为启动时,第二控制电路指示第一电源电路供电。

语音输出电路218在例如摄像时从内置于摄像设备101中的扬声器输出预先设置的语音模式。

led控制电路224在例如摄像时基于预先设置的发光/闪烁模式控制设置在摄像设备101上的led。

视频输出电路217包括例如视频输出端子,并且将图像信号发送给所连接的用于显示视频的外部显示器等。另外,语音输出电路218和视频输出电路217可以是一个连接端子,例如,诸如(高清多媒体接口)端子等的端子。

通信电路222进行摄像设备101和外部设备之间的通信,并且例如发送或者接收诸如语音信号、图像信号、压缩语音信号或者压缩图像信号等的数据。通信电路222还接收摄像开始或结束命令、或者诸如平摇/倾斜或者变焦驱动等的与摄像有关的控制信号,并且根据能够与摄像设备101通信的外部装置的指示来驱动摄像设备101。通信电路222还在摄像设备101和外部设备之间发送或者接收诸如通过后述的学习处理电路219所处理的与学习有关的各种类型的参数等的信息。通信电路222是例如无线通信模块,诸如红外通信模块、蓝牙通信模块、无线lan通信模块、无线usb或者gps接收器等。

外部通信装置的结构

图3是示出摄像设备101和外部设备301之间的无线通信系统的结构的示例的图。摄像设备101是具有摄像功能的数字照相机,并且外部设备301是包括蓝牙通信模块和无线lan通信模块的智能装置。

摄像设备101和智能装置301可以通过利用符合例如ieee802.11标准系列的无线lan的通信302和具有控制站和从站之间的主从关系的通信303(例如,低功耗蓝牙(以下称为“ble”))来进行通信。注意,无线lan和ble是通信方法的示例。各通信设备都具有两种以上的通信功能。可以使用其它通信方法,只要用于在例如控制站和从站之间的关系中进行通信的一个通信功能能够控制另一通信功能即可。在不失一般性的情况下,诸如无线lan等的第一通信能够以比诸如ble等的第二通信高的速度来进行通信,并且第二通信与第一通信相比功耗和可通信范围中的至少一个更低。

将参考图4来说明智能装置301的结构。

除用于无线lan的无线lan控制电路401和用于ble的ble控制电路402以外,智能装置301还包括例如用于公共无线通信的公共网络控制电路406。智能装置301还包括包发送/接收电路403。无线lan控制电路401进行无线lan的rf控制、通信处理以及与用于进行对利用符合ieee802.11标准系列的无线lan的通信的各种类型的控制的驱动程序或者利用无线lan的通信有关的协议处理。ble控制电路402进行ble的rf控制、通信处理以及与用于进行对利用ble的通信的各种类型的控制的驱动程序或者利用ble的通信有关的协议处理。公共网络控制电路406进行公共无线通信的rf控制、通信处理、以及与用于进行对公共无线通信的各种类型的控制的驱动程序或者公共无线通信有关的协议处理。公共无线通信符合例如imt(国际多媒体电信)标准或者lte(长期演进)标准。包发送/接收电路403进行用于执行与利用无线lan和ble的通信和公共无线通信有关的包的发送和接收中至少之一的处理。注意,在本示例中,智能装置301被作为在通信中进行包的发送和接收中至少之一的装置来说明。然而,除包交换以外,还可以使用其它通信方法,例如线路切换。

智能装置301还包括例如控制电路411、存储电路404、gps(全球定位系统)405、显示装置407、操作构件408、语音输入/语音处理电路409和电源电路410。控制电路411执行例如存储在存储电路404中的控制程序,从而控制整个智能装置301。存储电路404存储例如控制电路411所执行的控制程序和诸如通信所需的参数等的各种类型的信息。后述的各种类型的操作通过控制电路411执行存储在存储电路404中的控制程序来实现。

电源电路410向智能装置301供电。显示装置407具有像例如lcd或者led那样的用于输出在视觉上可识别的信息的功能、或者像例如扬声器那样的用于输出声音的功能,并且显示各种类型的信息。操作构件408包括例如被配置为接收用户对智能装置301的操作的按钮。注意,显示装置407和操作构件408可以例如包括诸如触摸面板等的常见构件。

语音输入/语音处理电路409可以被配置为例如从内置于智能装置301中的通用麦克风获取用户所发出的语音,并通过语音识别处理来获取用户操作指示。

另外,语音输入/语音处理电路409经由智能装置中的专用应用程序,通过用户发声来获取语音命令。经由利用无线lan的通信302,可以将语音命令登记为通过摄像设备101的语音处理电路214所要识别的特定语音命令。

gps405接收从卫星通知的gps信号,分析gps信号,并且估计智能装置301的当前位置(纬度/经度信息)。可选地,作为位置信息,可以使用wps(wi-fi定位系统)等,基于周围存在的无线网络的信息来估计智能装置301的当前位置。如果所获取到的当前gps位置信息位于预先设置的位置范围内(预定半径范围内),则移动信息经由ble控制电路402被通知给摄像设备101,并且被用作为用于后述的自动摄像或者自动编辑的参数。另外,如果gps位置信息中发生预定水平以上的位置变化,则移动信息经由ble控制电路402被通知给摄像设备101,并被用作为用于后述的自动摄像或者自动编辑的参数。

如上所述,摄像设备101和智能装置301通过使用无线lan控制电路401和ble控制电路402的通信来交换数据。例如,交换诸如语音信号、图像信号、压缩语音信号或者压缩图像信号等的数据。另外,智能装置发送用于摄像设备101的摄像等的操作指示或者语音命令登记数据,或者发送基于gps位置信息的预定位置检测通知或者位置移动通知。另外,经由智能装置中的专用应用程序来发送/接收学习数据。

配件的结构

图5是示出能够与摄像设备101通信的外部设备501的结构的示例的图。摄像设备101是具有摄像功能的数字照相机,并且外部设备501是包括能够通过例如蓝牙通信模块与摄像设备101通信的各种类型的感测单元的可穿戴装置。

可穿戴装置501被配置为可被穿戴至例如用户的手臂,并且包括被配置为在预定时间段检测诸如用户的脉搏、心跳和血流等的生物信息的传感器以及能够检测用户的运动状态的加速度传感器等。

生物信息检测电路502包括例如被配置为检测脉搏的脉搏传感器、被配置为检测心跳的心跳传感器、被配置为检测血流的血流传感器以及被配置为检测通过导电聚合物与皮肤接触来检测电位变化的传感器。在本实施例中,将使用心跳传感器作为生物信息检测电路502来进行说明。例如,心跳传感器使用led等利用红外光照射皮肤,通过光接收传感器检测透过身体组织的红外光,并且进行信号处理,从而检测用户的心跳。生物信息检测电路502将所检测到的生物信息作为信号输出给后述的控制电路607。

被配置为检测用户的运动状态的抖动检测电路503包括例如加速度传感器或者陀螺仪传感器,并且可以基于加速度的信息来检测用于表示用户是正在移动还是正在通过摆动手臂做动作的运动。

可穿戴装置501还包括用于接收用户对可穿戴装置501的操作的操作构件505和诸如lcd或者led等的用于输出在视觉上可识别的信息的显示装置504。

将参考图6来说明可穿戴装置501的结构。

可穿戴装置501包括例如控制电路607、通信电路601、生物信息检测电路502、抖动检测电路503、显示装置504、操作构件505、电源电路606和存储电路608。

控制电路607执行例如存储在存储电路608中的控制程序,从而控制整个可穿戴装置501。存储电路608存储例如控制电路607所执行的控制程序和诸如通信所需的参数等的各种类型的信息。例如,通过控制电路607执行存储在存储电路608中的控制程序来实现后述的各种类型的操作。

电源电路606向可穿戴装置501供电。显示装置504具有像例如lcd或者led那样的用于输出在视觉上可识别的信息的功能、或者像扬声器那样的用于输出声音的功能,并且显示各种类型的信息。操作构件505包括例如被配置为接收用户对可穿戴装置501的操作的按钮。注意,显示装置504和操作构件505可以例如包括诸如触摸面板等的常见构件。

另外,该操作构件可被配置为例如通过内置于可穿戴装置501中的通用麦克风来获取用户所发出的语音,并通过语音识别处理来获取用户操作指示。

通过通信电路601,将来自生物信息检测电路502或者抖动检测电路503的通过控制电路607处理后的各种类型的检测信息发送给摄像设备101。

例如,通信电路601在检测到用户心跳的变化的定时将检测信息发送给摄像设备101,或者在诸如步行移动/跑步移动/停止等的移动状态的变化的定时发送检测信息。另外,例如,通信电路601在检测到预先设置的手臂摆动运动的定时发送检测信息,或者在检测到预先设置的距离的移动的定时发送检测信息。

摄像操作的序列

图7是用于说明根据本实施例的摄像设备101的第一控制电路223所进行的操作的示例的流程图。

当用户操作设置在摄像设备101上的电源按钮时,第一电源电路210使得电源单元向第一控制电路223和摄像设备101的各块供电。

同样,在第二控制电路211中,第二电源电路212使得电源单元向第二控制电路211供电。将参考后述的图8的流程图来详细说明第二控制电路的操作。

当进行供电时,开始图7所示的处理。在步骤s701(以下将“步骤”缩写为“s”)中,加载启动条件。

在本实施例中,启动条件如下。

(1)通过手动按下电源按钮启动电源。

(2)根据通过外部通信(例如,ble通信)来自外部装置(例如,智能装置301)的指示启动电源。

(3)通过子处理器(第二控制电路211)启动电源。

这里,在(3)通过子处理器启动电源的情况下,加载在子处理器中所计算出的启动条件。将参考后述的图8进行详细说明。

另外,这里所加载的启动条件用作后述的被摄体搜索或者自动摄像中的一个参数元素。当启动条件加载结束时,处理进入s702。

在s702中,读取各种类型的传感器。这里所读取的传感器是被配置为检测来自装置抖动检测电路209的诸如陀螺仪传感器和加速度传感器等的振动的传感器。另外,读取倾斜转动单元104或者平摇转动单元105的转动位置。此外,检测语音处理电路214所检测到的语音水平、特定语音识别的检测触发或者声音方向。

尽管图1a至6未示出,但是被配置为检测环境信息的传感器也获取信息。

例如,存在被配置为在预定时间段检测摄像设备101周围的温度的温度传感器和被配置为检测摄像设备101周围的气压变化的气压传感器。另外,可以设置被配置为检测摄像设备101周围的亮度的照度传感器、被配置为检测摄像设备101周围的湿度的湿度传感器、以及被配置为检测摄像设备101周围的uv光量的uv传感器等。除所检测到的温度信息、气压信息、亮度信息、湿度信息和uv信息以外,针对后述的自动摄像等中的判定,还使用通过根据各种类型的检测信息计算预定时间间隔的变化率所获得的温度变化量、气压变化量、亮度变化量、湿度变化量和uv变化量等。

当在s702中读取了各种类型的传感器时,处理进入s703。

在s703中,检测是否指示了来自外部装置的通信。如果接收到通信指示,则进行与该外部装置的通信。

例如,经由无线lan或者ble,相对于智能装置301发送或接收远程操作或者诸如语音信号、图像信号、压缩语音信号或压缩图像信号等的数据。另外,进行加载以判断智能装置301是否已发送了用于摄像设备101的摄像等的操作指示、语音命令识别数据、基于gps位置信息的预定位置检测通知或者位置移动通知、或者学习数据发送/接收指示。

另外,例如,如果用户的运动信息、手臂的动作信息或者诸如心跳等的生物信息通过可穿戴装置501被更新,则进行经由ble的信息加载。此外,被配置为检测上述环境信息的各种类型的传感器可以被安装在摄像设备101上。然而,这些传感器可被安装在智能装置301或者可穿戴装置501中。在这种情况下,也进行经由ble的环境信息的加载。当在s703中进行了从外部装置的通信加载,则处理进入s704。

在s704中,进行模式设置判定。从下面的模式中判定并选择在s704中所设置的模式。

(1)自动摄像模式

模式判定条件

如果基于通过后述的学习所设置的检测信息(图像、声音、时间、振动、场所、身体变化和环境变化)、从转变成自动摄像模式起经过的时间和过去摄像信息等判定为应该进行自动摄像,则模式被设置成自动摄像模式。

模式内处理

在自动摄像模式处理中(s710),基于这些检测信息(图像、声音、时间、振动、场所、身体变化和环境变化),通过平摇/倾斜或者变焦驱动来自动搜索被摄体。在判定为是能够根据用户偏好来进行摄像的定时时,从诸如单次静止图像拍摄、连续静止图像拍摄、运动图像拍摄、全景图像拍摄和时移图像拍摄等的各种摄像方法中判定摄像方法,并且自动进行摄像。

(2)学习模式

模式判定条件

如果基于从前次学习处理起经过的时间和与学习可使用的图像相关联的信息或者学习数据的数量等判定为应该进行自动学习,则模式被设置成自动学习模式。即使在经由通信从智能装置301接收到用于设置学习数据的指示时,也设置该模式。

模式内处理

在自动学习模式处理中(s712),进行根据用户偏好的学习。基于在智能装置301上的操作的信息和来自智能装置301的学习信息通知等,使用神经网络来进行根据用户偏好的学习。作为智能装置301上的操作的信息,例如存在来自摄像设备的图像获取信息、经由专用应用程序进行了手动编辑指示的信息和用户对摄像设备中的图像输入的判定值信息。

注意,稍后将详细说明自动摄像模式处理和学习模式处理。

在s705中,判定s704中的模式设置判定是否被设置成低功耗模式。在低功耗模式判定中,如果判定条件不是后述的“自动摄像模式”的判定条件和“学习模式”的判定条件,则判定为设置了低功耗模式。当进行该判定处理时,处理进入s705。

在s705中判定为条件是低功耗模式条件时,处理进入s706。

在s706中,向子处理器(第二控制电路211)通知与在子处理器中要判定的启动因素有关的各种类型的参数(抖动检测判定参数、声音检测参数和时间经过检测参数)。这些各种类型的参数的值在后述的学习处理中学习时改变。当s706中的处理结束时,处理进入s707以断开主处理器(第一控制电路223)的电源,并且结束该处理。

另一方面,在s705中判断为模式不是低功耗模式时,处理进入s709以判定模式设置是否是自动摄像模式。如果模式是自动摄像模式,则处理进入s710以进行自动摄像模式处理。当该处理结束时,处理返回至s702以重复该处理。如果在s709是判定为模式不是自动摄像模式,则处理进入s711。

在s711中,判定模式设置是否是学习模式。如果模式是学习模式,则处理进入s712以进行学习模式处理。当结束该处理时,处理返回至s702以重复该处理。如果在s711中判定为模式不是学习模式,则处理返回至s702以重复该处理。

图8是用于说明根据本实施例的摄像设备101的第二控制电路211所进行的操作的示例的流程图。

当用户操作设置在摄像设备101上的电源按钮时,第一电源电路210使得电源单元向第一控制电路223供电。同样,在第二控制电路211中,第二电源电路212使得电源单元向第二控制电路211提供第二电源电路。当供电时,子处理器(第二控制电路211)启动,并且开始图8所示的处理。

在s801中,判定用作为采样周期的预定时间段是否过去。例如,如果该周期被设置为10毫秒,则处理以10毫秒为周期进入s802。在判定为预定时间段没有过去时,子处理器在不进行任何处理的情况下返回至s801,并且等待过去预定时间段。

在s802中,获取抖动检测值。抖动检测值是被配置为检测来自装置抖动检测电路209的诸如陀螺仪传感器或者加速度传感器等的振动的传感器输出的值。

当在s802中获取到抖动检测值时,处理进入s803以进行预先设置的抖动状态检测处理。将说明多个示例。

(1)点击检测

基于安装至摄像设备101的加速度传感器的输出值,可以检测用户通过例如指尖等点击摄像设备101的状态(点击状态)。当三轴加速度传感器的输出以预定采样周期通过被设置成特定频域的带通滤波器(bpf)时,可以提取由点击所引起的加速度变化的信号区域。基于在bpf之后的加速度信号在预定时间timea内超过预定阈值thresha的次数是否是预定计数counta来进行点击检测。在双击的情况下,counta被设置成2。在三击的情况下,counta被设置成3。

(2)抖动状态检测

可以基于安装至摄像设备101的陀螺仪传感器或者加速度传感器的输出值来检测摄像设备101的抖动状态。在通过hpf截止陀螺仪传感器或者加速度传感器的输出的高频成分、并且通过lpf截止低频成分之后,进行绝对值转换。基于所计算出的绝对值在预定时间timeb内超过预定阈值threshb的次数是否在预定计数countb以上来进行振动检测。例如,可以判定是由于例如将摄像设备101放在桌子等上所引起的小抖动的状态、还是由于例如用户穿戴摄像设备101和行走所引起的大抖动的状态。当提供了多个判定阈值或者所要判定的计数条件时,可以根据抖动水平精细地检测抖动状态。

当在s803进行特定抖动状态检测处理时,处理进入s804以进行预先设置的特定声音检测处理。将说明多个示例。

(1)特定语音命令检测

检测特定语音命令。作为语音命令,除预先登记的多个命令以外,用户还可以在摄像设备中登记特定语音。

(2)特定声音场景识别

通过基于大量语音数据预先利用机器学习进行学习了的网络来进行声音场景判定。例如,检测诸如“欢呼”、“鼓掌”或者“语音发言”等的特定场景。

(3)声音水平判定

通过例如用于将在预定时间期间声音水平的大小超过预定水平阈值的时间相加的方法来进行通过声音水平判定的检测。

(4)声音方向判定

可以检测声音在安装多个麦克风的平面上的方向。针对预定大小的声音水平,检测声音方向。

在语音处理电路214中进行上述判定处理。在s804中,判定是否进行特定声音检测。

当在s804中进行特定声音检测处理时,处理进入s805。在s805中,主处理器(第一控制电路223)判定其是否处于off(断开)状态。如果主处理器处于off状态,则处理进入s806以进行预先设置的时间经过检测处理。测量主处理器从on(接通)转变成off起过去的时间。如果过去的时间等于或者大于参数timec,则判定为过去了该时间。如果过去的时间小于timec,则判断为没有过去该时间。

当在s806中进行时间经过检测处理时,处理进入s807以判定是否进行了低功耗模式取消判定。通过下面的条件来判定低功耗模式取消条件。

(1)特定抖动检测的判定条件

(2)特定声音检测的判定条件

(3)时间经过判定的判定条件

可以通过s803中的特定抖动状态检测处理来判定是否满足特定抖动检测的判定条件。另外,可以通过s804中的特定声音检测处理来判定是否满足特定声音检测的判定条件。此外,可以通过s806中的时间经过检测处理来判定是否满足时间经过检测的判定条件。因此,如果满足至少一个条件,则进行用于取消低功耗模式的判定。

当在s807中判定为取消条件时,处理进入s808以接通主处理器的电源。在s809中,将该条件(抖动、声音或者时间)通知给主处理器以判定为低功耗模式取消。处理返回至s801以循环进行该处理。

如果在s807中不满足任何取消条件、并且判定为不取消低功耗模式,则处理返回至s801以循环进行该处理。

在s805中判定为主处理器处于on状态时,将在s802至s805中所获取到的多个信息通知给主处理器。然后,处理返回至s801以循环进行该处理。

在本实施例中,即使当主处理器处于on状态下,子处理器也进行抖动检测或者特定声音检测,并且将检测结果通知给主处理器。然而,当主处理器处于on状态时,可以在不进行s802至s805的处理的情况下,通过主处理器中的处理(图7中的s702)来进行抖动检测或者特定声音检测。

以上详细说明了基于抖动检测、声音检测或者时间经过的低功耗模式取消方法。然而,可以基于环境信息来取消低功耗模式。对于环境信息,可以基于温度、气压、亮度、湿度或者uv光量的绝对量或者变化量是否超过预定阈值来进行该判定。

自动摄像模式

将参考图9来详细说明自动摄像模式。如上所述,通过根据本实施例的摄像设备101的第一控制电路223来控制下面的处理。

在s901中,使得图像处理电路207对摄像单元2206所获取到的信号进行图像处理,并且生成用于被摄体识别的图像。

根据所生成的图像来进行诸如人物或者物体识别等的被摄体识别。

当识别人物时,检测被摄体的面部或者身体。在面部检测处理中,预先确定用于判断人物面部所使用的模式,并且可以将拍摄图像的与该模式相匹配的部分检测为人物的面部图像。

另外,同时计算表示与被摄体的面部的相似度的可靠度。根据例如图像中面部区域的大小或者与面部模式的匹配度等来计算可靠度。

同样,在被摄体识别中,可以识别与预先登记的模式相匹配的被摄体。

还存在用于通过使用拍摄图像的色相或者饱和度的直方图的方法来提取特征被摄体的方法。在这种情况下,对于在摄像角度内所拍摄的被摄体的图像,执行用于将根据色相或者饱和度的直方图所导出的分布分割成多个区间、并且在各区间中对拍摄图像进行分类的处理。

例如,针对拍摄图像创建多个颜色成分的直方图,并且将该直方图划分成山型分布范围。拍摄图像被分类在属于同一区间的组合的区域中,从而识别被摄体的图像区域。

通过针对所识别出的被摄体的各图像区域计算评价值,可以将最高评价值的被摄体的图像区域判定为主被摄体区域。

可以通过上述方法从摄像信息获得各被摄体信息。

在s902中,计算图像模糊校正量。更具体地,首先,基于通过装置抖动检测电路209所获取到的角速度和加速度信息,计算摄像设备的绝对角度。获得用于在角度方向上移动倾斜转动单元104和平摇转动单元105以抵消该绝对角度的减振角度作为图像模糊校正量。注意,通过后述的学习处理可以改变这里的图像模糊校正量计算处理的计算方法。

在s903中,进行摄像设备的状态判定。基于通过角速度信息、加速度信息和gps位置信息等所检测到的角度和移动量等来判定摄像设备的当前振动/运动状态。

例如,当摄像设备101安装至车辆来进行摄像时,诸如周围风景等的被摄体信息根据移动距离而发生很大变化。

为此,可以判定状态是否是摄像设备安装至车辆等并且高速移动的“车辆移动状态”,并且针对后述的自动被摄体搜索可以使用该信息。

另外,判定角度变化是否大,并且判定状态是否是摄像设备101的抖动角度几乎为零的“静止摄像状态”。

在“静止摄像状态”下,由于摄像设备10本身的角度变化可被认为是零,因而可以进行用于静止摄像的被摄体搜索。

另外,如果角度变化相对大,则判定为状态是“手持状态”,并且可以进行用于手持摄像的被摄体搜索。

在s904中,进行被摄体搜索处理。被摄体搜索包括下面的处理。

(1)区域分割

将参考图11a至11d说明区域分割。如图11a所示,中心被设置在摄像设备的位置处(原点o是摄像设备位置),并且在整个圆周上进行区域分割。在图11a所示的示例中,整个圆周在倾斜方向和水平方向上以22.5°被分割。当如图11a所示分割区域时,随着倾斜方向上的角度从0°离开,水平方向上的圆周变小,并且区域范围变小。因此,如图11b所示,当倾斜角度在45°以上时,水平方向上的区域范围被设置成大于22.5°。图11c和11d示出在摄影角度内进行区域分割的示例。轴1101表示初始化时的摄像设备101的方向。在将这个方向角度设置为基准位置时进行区域分割。附图标记1102表示拍摄图像的视场角区域。图11d示出此时的图像的示例。在视场角内所拍摄的图像中,基于区域分割,如通过图11d中的附图标记1103~1118所示那样进行图像分割。

(2)各区域的重要程度的计算

对于如上所述分割的各区域,根据区域中存在的被摄体或者区域的场景状态来计算表示进行搜索的优先顺序的重要程度。基于例如区域中存在的人数、各个人的面部大小、面部朝向、面部检测的可能性、人物的表情和人物的个人认证结果来计算与被摄体的状态相对应的重要程度。另外,基于例如一般物体识别结果、场景辨别结果(蓝天、背光或者夕景等)、来自区域的方向的声音水平和语音识别结果、以及区域中的运动检测信息等来计算与场景的状态的重要程度。此外,在摄像设备的状态判定中(s903),检测摄像设备摄像设备的振动状态,并且重要程度也可能根据振动状态而改变。例如,在判定为状态是“静止摄像状态”的情况下,判定在检测特定人物的面部认证时提高重要程度,使得主要针对用于面部认证所登记的被摄体中的高优先级的被摄体(例如,摄像设备的用户)进行被摄体搜索。另外,对于该面部,还优先进行后述的自动摄像。即使摄像设备的用户携带他/她所穿戴的摄像设备并进行摄像的时间长,通过卸下摄像设备并且将其放在桌子等上,也能够保留用户拍摄的许多图像。此时,可以通过平摇/倾斜来进行搜索。因此,在无需考虑摄像设备的放置角度的情况下,仅通过简单设置摄像设备就能够保留拍摄了用户的图像或者拍摄了许多面部的合影照片。注意,仅在上述条件下,除非在各区域中发生变化,否则最高重要程度的区域不会改变,并且作为结果,所要搜索的区域从不会改变。为了防止这一点,根据过去摄像信息来改变重要程度。更具体地,可以降低在预定时间内连续被指定为搜索区域的区域的重要程度。可选地,对于在后述的s910中进行摄像的区域,可以在预定时间内降低重要程度。

(3)搜索对象区域的确定

当如上所述计算各区域的重要程度时,将高重要程度的区域确定为搜索对象区域。然后,计算用于拍摄视场角内的搜索对象区域所需的平摇/倾斜搜索目标角度。

在s905中,进行平摇/倾斜驱动。更具体地,将图像模糊校正量和基于平摇/倾斜搜索目标角度的控制采样时的驱动角度相加,从而计算平摇/倾斜驱动量。通过镜筒转动驱动电路205驱动和控制倾斜转动单元104和平摇转动单元105。

在s906中,通过控制变焦单元201来进行变焦驱动。更具体地,根据在s904中所确定的搜索对象被摄体的状态来驱动变焦。例如,当搜索对象被摄体是人物的面部、并且图像上的面部太小时,由于面部小于最小尺寸,因而可能无法检测,并且面部可能从图中丢失。在这种情况下,向远摄侧进行变焦,从而进行控制以使得图像上的面部大小变大。另一方面,在图像上的面部太大的情况下,根据被摄体或者摄像设备本身的运动,被摄体容易偏离视场角。在这种情况下,向广角侧进行变焦,从而进行控制以使得画面上的面部大小变小。当这样进行变焦控制时,可以维持适合于追踪被摄体的状态。

在s904至s906中,说明了用于通过平摇/倾斜或者变焦驱动来进行被摄体搜索的方法。然而,可以通过被配置为使用多个广角镜头一次性拍摄所有方向的摄像系统来进行被摄体搜索。在全方位照相机的情况下,如果使用通过摄像所获得的所有信号作为输入图像,并且进行诸如被摄体检测等的图像处理,则需要大量处理。为了避免这一点,切出图像的一部分,并且在切出图像范围内进行被摄体搜索处理。如在上述方法中那样,计算各区域的重要程度,基于重要程度改变切出位置,并且进行后述的自动摄像的判定。这样使得能够降低图像处理的功耗并进行高速被摄体搜索。

在s907中,判定是否接收到用户(手动)的摄像指示。在接收到摄像指示时,处理进入s910。此时,通过按下快门按钮、利用手指等轻轻点击摄像设备的壳体、输入语音命令、或者从外部装置输入指示,可以输入用户(手动)的摄像指示。通过点击操作的摄像指示是如下的摄像指示方法:当用户点击摄像设备的壳体时,装置抖动检测电路209将短时间内的连续高频加速度检测为摄像的触发。语音命令输入是如下的摄像指示方法:当用户发声出关键词(例如,“拍照”)来指示预定摄像时,语音处理电路214将该语音识别为用于摄像的触发。来自外部装置的指示是如下的摄像指示方法:例如,使用通过蓝牙从连接至摄像设备的智能电话等经由专用应用程序所发送的快门指示信号作为触发。

另外,当在s907中接收到用户的摄像指示时,处理还进入s914。稍后将详细说明s914和后续的s915的处理。

如果在s907中没有接收到摄像指示,则处理进入s908以进行自动摄像判定。在自动摄像判定中,进行与是否进行自动摄像有关的判定和与摄像方法(将进行单次静止图像拍摄、连续静止图像拍摄(连拍)、运动图像拍摄、全景图像拍摄和时移图像拍摄中的一个)有关的判定。

(1)与是否进行自动摄像有关的判定

基于下面的两个判定来进行与是否进行自动摄像有关的判定。作为一个判定,基于在s904中所获得的各区域的重要程度,如果重要程度超过预定值,则做出用于执行自动摄像的判定。第二个是基于作为机器学习系统之一的神经网络的判定。作为神经网络的示例,图10示出利用多层感知器的网络的示例。神经网络用于根据输入值来预测输出值。当预先学习了输入值和针对输入作为模型的输出值时,可以与新的输入值相对应地估计根据学习模型的输出值。注意,稍后将说明学习的方法。图10中的附图标记1001和垂直排列的圆表示输入层的神经元,附图标记1003和垂直排列的圆表示中间层的神经元,并且附图标记1004表示输出层的神经元。箭头1002表示连接神经元的联结(bond)。在基于神经网络的判定中,给出当前视场角内的被摄体或者基于场景和摄像设备的状态的特征量作为向输入层的神经元的输入,并且获得在基于多层感知器的前向传播规则的操作之后从输出层输出的值。如果输出值等于或者大于阈值,则做出用于执行自动摄像的判定。注意,作为被摄体的特征,使用当前变焦倍率、当前视场角内的一般物体识别结果、面部检测结果、当前视场角内所拍摄的面部的数量、面部中的微笑度/眼闭合度、面部角度、面部认证id号码、被摄体人物的视线角度、场景辨别结果和特定构图的检测结果等。另外,可以使用从前次摄像起过去的时间、当前时间、gps位置信息和相对于前次摄像位置的变化量、当前语音水平、发出语音的人物、鼓掌和是否存在欢呼等。另外,可以使用振动信息(加速度信息和摄像设备的状态)和环境信息(温度、气压、照度、湿度和uv光量)等。如果接收到来自可穿戴装置501的信息通知,则还可以使用通知信息(用户的运动信息、手臂的动作信息以及诸如心跳等的生物信息等)作为特征。各特征被转换成预定范围内的数值,并且作为特征量被给出至输入层的各神经元。因此,输入层需要具有与所要使用的特征量的数量一样多的神经元。

注意,在基于神经网络的判断中,当通过后述的学习处理改变神经元之间的联结权重时,输出值改变,并且可以使判断结果适应学习结果。

另外,自动摄像的判定还根据在图7的s702所加载的主处理器的启动条件而改变。例如,如果通过点击检测或者特定语音命令启动主处理器,则由于用户当前想要进行摄像、因而他/她已经进行了该操作的可能性非常高。因此,进行设置以提高摄像频率。

(2)与摄像方法有关的判定

在与摄像方法有关的判定中,基于在s901至s904中所检测到的摄像设备的状态或者周围被摄体的状态来判定应该执行静止图像拍摄、运动图像拍摄、连拍和全景图像拍摄等中的哪一个。例如,如果被摄体(人物)静止,则执行静止图像拍摄。如果被摄体正在移动,则执行运动图像拍摄或者连拍。如果摄像设备周围存在多个被摄体,或者如果基于上述gps位置信息可以判断为场所是风景区,则可以执行合成在进行平摇/倾斜位置的同时顺序拍摄的图像以生成全景图像的全景图像拍摄。

在s909中,如果通过s908中的自动摄像判定做出用于进行自动摄像的判定,则处理进入s910。如果没有做出该判定,则处理进入摄像模式处理的结束。

在s910中,开始摄像。此时,在手动摄像中,进行静止图像拍摄,或者进行根据用户手动设置的摄像方法的摄像。在自动摄像中,开始根据在s908中所判定的摄像方法的摄像。此时,进行利用调焦驱动控制电路204的自动调焦控制。另外,使用光圈控制电路、传感器增益控制电路和快门控制电路(均未示出),进行用于获得被摄体的适当亮度的曝光控制。在摄像之后,通过图像处理电路207来进行诸如自动白平衡处理、降噪处理和伽马校正处理等的各种类型的图像处理以生成图像。

注意,可以采用如下部件,该部件用于在摄像时满足预定条件的情况下,在摄像设备向作为要拍摄的被摄体的人物通知进行摄像之后进行摄像。作为通知方法,例如,可以使用来自语音输入电路218的语音或者通过led控制电路224的led发光。可选地,可以通过平摇/倾斜驱动来进行用于在视觉上引导被摄体的视线的运动操作。预定条件是例如视场角内的面部数量、面部中的微笑度/眼闭合度、被摄体人物的视线角度或者面部角度、面部认证id号码和针对个人认证所登记的人物的数量等。另外,使用摄像时的一般被摄体识别结果、场景辨别结果、从前次摄像起过去的时间、摄像时间、基于gps位置信息的当前位置是否是风景区、摄像时的语音水平、是否存在发出语音的人物、鼓掌以及是否存在欢呼等。还使用振动信息(摄像设备的加速度信息和状态)和环境信息(温度、气压、照度、湿度和uv光量)等。当基于这些条件来进行通知摄像时,可以在重要场景中保留对于照相机具有良好视线的图像。

可以准备多个预定条件。根据这些条件,可以改变语音,可以改变led发光方法(颜色或者闪烁时间),或者可以改变平摇/倾斜运动方法(移动方式和驱动速度)。

在s911中,进行用于处理s910中所生成的图像或者将该图像添加至运动图像的编辑处理。更具体地,该图像处理是例如基于人物的面部或者焦点位置的修剪处理、图像转动处理、hdr(高动态范围)效果、模糊效果或者颜色转换滤波效果等。在该图像处理中,基于在s910中所生成的图像,可以通过组合上述处理来生成多个图像,并且与在s910中所生成的图像分开保存这多个图像。对于运动图像处理,可以进行用于在对所生成的编辑运动图像应用诸如滑动、变焦和渐变等的特定效果处理的同时添加所拍摄的运动图像或者静止图像的处理。同样,对于s911中的编辑,可以通过基于神经网络判断拍摄图像的信息或者在摄像之前所检测到的各种类型的信息来判定图像处理的方法。可以通过后述的学习处理来改变判定处理的判定条件。

在s912中,进行用于拍摄图像的学习信息生成处理。这里,生成并记录在后述的学习处理中所要使用的学习信息。更具体地,学习信息包括当前拍摄图像的摄像时的变焦倍率、摄像时的一般被摄体识别结果、面部检测结果、图像中所拍摄的面部数量、面部中的微笑度/眼闭合度、面部认证id号码和被摄体人物的视线角度等。学习信息还包括场景辨别结果、从前次摄像起过去的时间、gps位置信息和相对于前次摄像位置的变化量、摄像时的语音水平、发出语音的人物、鼓掌以及是否存在欢呼等。学习信息还包括振动信息(摄像设备的加速度信息和状态)、环境信息(温度、气压、照度、湿度和uv光量)、运动图像拍摄时间以及是否通过手动摄像指示来拍摄图像等。另外,还计算作为表示用户对图像的偏好的作为数值的学习模型的输出的得分。

生成这些信息,并且将这些信息作为标签信息记录在拍摄图像文件中。可选地,可以将这些信息作为所谓的目录数据以各拍摄图像的信息的列表格式写入非易失性存储器216中或者保存在记录介质221中。

在s913中,更新过去摄像信息。更具体地,针对s908中所述的各区域的拍摄图像的数量、针对个人认证所登记的各人物的拍摄图像的数量、通过一般被摄体识别所识别的各被摄体的拍摄图像的数量以及针对场景辨别的各场景的拍摄图像的数量,将与当前拍摄图像相对应的数量计数增加1。

学习模式处理

接着将说明根据本实施例的根据用户偏好的学习。

在本实施例中,使用如图10所示的神经网络和机器学习算法,学习处理电路219进行根据用户偏好的学习,从而生成学习模型。学习处理电路219使用例如nvidia公司的jetsontx2。神经网络用于根据输入值来预测输出值。当预先学习了输入值的实际值和输出值的实际值时,可以根据新的输入值来估计输出值。通过使用神经网络,针对上述自动摄像或者被摄体搜索进行根据用户偏好的学习。

另外,还登记变成要被输入给神经网络的特征数据的被摄体登记(面部认证或者一般被摄体识别等)。

在本实施例中,通过学习处理所要学习的元素如下。

(1)自动摄像

将说明用于自动摄像的学习。在自动摄像中,进行用于根据用户偏好自动拍摄图像的学习。如以上在使用图9所示的过程的解释中所述,在摄像之后进行学习信息生成处理(s912)。通过后述的方法选择所要学习的图像,并且基于该图像中所包括的学习信息来改变神经网络的权重,从而进行学习。通过改变被配置为判定自动摄像定时的神经网络和改变被配置为判定摄像方法(静止图像拍摄、运动图像拍摄、连拍或者全景图像拍摄等)的神经网络来进行学习。

(2)自动编辑

将说明用于自动编辑的学习。在自动编辑中,针对紧接着图9的s911中的摄像之后的编辑进行学习。将说明紧接着摄像之后的编辑。通过后述的方法选择所要学习的图像,并且基于该图像中所包括的学习信息改变神经网络的权重,从而进行学习。将通过摄像或者通过紧接着摄像之前的信息所获得的各种类型的检测信息输入给神经网络,并且判定编辑方法(修剪处理、图像转动处理、hdr(高动态范围)效果、模糊效果或者颜色转换滤波效果等)。

(3)被摄体搜索

将说明用于被摄体搜索的学习。在被摄体搜索中,进行用于根据用户偏好自动搜索被摄体的学习。如以上在使用图9所示的过程的解释中所述,在被摄体搜索处理中(s904),计算各区域的重要程度,进行平摇/倾斜和变焦驱动,并且进行被摄体搜索。通过基于拍摄图像或者搜索期间的检测信息的学习、并且改变神经网络的权重来进行学习。将搜索操作期间的各种类型的检测信息输入给神经网络,计算重要程度,并且基于重要程度来设置平摇/倾斜角度,从而进行反映学习的被摄体搜索。除了基于重要程度的平摇/倾斜角度的设置,例如还进行平摇/倾斜驱动(速度、加速度和移动频率)的学习。

(4)被摄体登记

将说明用于被摄体登记的学习。在被摄体登记中,进行用于根据用户偏好自动进行被摄体的登记或者排序的学习。作为该学习,例如,进行面部认证登记、一般被摄体识别的登记、手势的登记、语音识别、或者利用声音的场景识别。在认证登记中,进行针对人物和物体的认证登记,并且基于图像获取的计数和频率、手动摄像的计数和频率、以及搜索中被摄体的出现频率来设置排位。这些登记信息被登记为使用各神经网络的判定的输入。

接着将说明学习方法。

作为学习方法,存在“摄像设备中的学习”和“通过与通信装置的协作的学习”。

下面将说明摄像设备中的学习方法。

对于根据本实施例的摄像设备中的学习,存在以下方法。

(1)基于用户的摄像指示时的检测信息的学习

如以上关于图9的s907至s913所述,在本实施例中,摄像设备101能够进行两种类型的摄像,即手动摄像和自动摄像。如果在s907中输入通过(如上所述,基于三个判定所进行的)手动操作的摄像指示,则在s912中添加表示拍摄图像是手动拍摄的图像的信息。如果在s909中判定为自动摄像为on之后进行摄像,则在s912中添加表示拍摄图像是自动拍摄的图像的信息。

这里,当进行手动摄像时,基于用户偏好的被摄体、偏好的场景和偏好的场所或者时间间隔来拍摄图像的可能性非常高。因此,进行基于在手动摄像时所获得的各特征数据或者拍摄图像的学习信息的学习。

另外,基于手动摄像时的检测信息,进行与拍摄图像中的特征量的提取、个人认证的登记、各人物的表情的登记、人物的组合的登记有关的学习。此外,基于被摄体搜索时的检测信息,例如,基于已经经过了个人认证的被摄体的表情来进行用于改变附近人物或者物体的重要性的学习。

(2)基于被摄体搜索时的检测信息的学习

在被摄体搜索操作期间,判定与已经经过了个人认证登记的被摄体同时拍摄的人物、物体和场景,并且计算在视场角内同时拍摄它们的时间比率。

例如,如果与作为个人认证登记被摄体的人物b同时拍摄作为个人认证登记被摄体的人物a的时间比率高于预定阈值,则重要性可被判定为高。为此,如果在视场角内拍摄人物a和人物b,则将各种类型的检测信息保存为学习数据,从而使得自动摄像判定的得分变高,并且在学习模式处理716中进行学习。

在另一示例中,如果与通过一般物体识别所判定的被摄体“猫”同时拍摄作为个人认证登记被摄体的人物a的时间比率高于预定阈值,则重要性可被判定为高。为此,如果在视场角内拍摄人物a和“猫”,则将各种类型的检测信息保存为学习数据,从而使得自动摄像判定的得分变高。然后,在学习模式处理716中进行学习。

如上所述,当搜索中的被摄体的出现频率高时,自动摄像判定的得分被设置成高。因此,已经经过了个人认证登记的被摄体附近的人物或者物体的重要性可被改变成更高水平。

另外,当检测到作为个人认证登记被摄体的人物a的微笑度或者表情、并且检测到“喜悦”或者“惊讶”等时,进行学习的处理,从而使得同时拍摄的被摄体的重要程度变高。另外,当检测到“愤怒”或者“严肃”等的表情时,同时拍摄的被摄体重要的可能性低。因此,例如,进行用于禁止学习的处理。

接着将说明根据本实施例的通过与外部通信装置协作的学习

对于根据本实施例的通过与外部通信装置协作的学习,可以使用下面的方法。

(3)在外部通信装置获取图像时所进行的学习

如参考图3所述,摄像设备101和外部装置301包括通信302和303的通信部件。图像发送/接收主要通过通信302来进行,并且外部装置301可以通过经由外部装置301中的专用应用程序的通信来获取摄像设备101中的图像。另外,可以经由外部装置301中的专用应用程序来浏览摄像设备101中所保存的图像数据的缩略图像。这使得用户可以从缩略图像中选择他/她喜欢的图像,确认该图像,并且运行图像获取指示,从而使得外部装置301获取该图像。

此时,由于用户选择了图像并且指示发送以获取该图像,因而所获取到的图像是用户偏好的图像的可能性非常高。因此,判定为所获取到的图像是要学习的图像,并且通过基于所获取到的图像的学习信息进行学习,可以进行用户偏好的各种类型的学习。

将说明该操作的示例。图14示出经由作为智能装置的外部装置301中的专用应用程序浏览摄像设备101中的图像的示例。将保存在摄像设备中的图像数据的缩略图像1404至1409显示在显示装置407上。用户可以选择并获取他/她喜欢的图像。此时,设置被配置为用于改变显示方法的显示方法改变单元1401、1402和1403。当按下显示方法改变单元1401时,显示顺序被改变成日期/时间优先显示模式,并且按照摄像设备101中的图像的摄像日期/时间的顺序,将图像显示在显示装置407上(例如,以较晚日期/时间显示图像1404,并且以较早日期/时间显示图像1409)。当按下显示方法改变单元1402时,显示顺序被改变成推荐图像优先显示模式。基于通过在图9的s912中针对各图像判定用户偏好所计算出的得分,在摄像设备101中按照图像的得分的降序将图像显示在显示装置407上(例如,以高得分显示图像1404,并且以低得分显示图像1409)。当按下显示方法改变单元1403时,可以指定人物或者物体。当接着指定特定人物或者物体时,可以仅显示特定被摄体。

显示方法改变单元1401至1403还可以同时开启设置。例如,当所有设置均为on时,仅显示指定的被摄体,优先显示最新摄像日期/时间的图像,并且优先显示高得分的图像。

如上所述,同样,针对拍摄图像学习用户偏好。因此,通过简单确认操作就可以从大量的拍摄图像中容易地仅提取用户偏好的图像。

(4)在经由外部通信装置将判定值输入给图像时所进行的学习

如上所述,摄像设备101和外部装置301包括通信部件,并且可以经由外部装置301中的专用应用程序来浏览保存在摄像设备101中的图像。这里,用户可以针对各图像给予得分。用户对他/她喜欢的图像给予高得分(例如,5分),或者对他/她不喜欢的图像给予低得分(例如,1分)。摄像设备通过用户的操作来进行学习。该得分与学习信息一起用于摄像设备中的再学习。进行学习从而使得将来自所指定的图像信息的特征数据输入至的神经网络的输出变得接近通过所指定的得分。

在本实施例中,用户经由通信装置301将判定值输入给拍摄图像。然而,用户可以通过操作摄像设备101来将判定值直接输入给图像。在这种情况下,例如,在摄像设备101上设置触摸面板显示器,并且用户按下显示在触摸面板显示画面显示装置上的gui按钮以设置用于显示拍摄图像的模式。然后,用户在确认拍摄图像的同时,将判定值输入给各图像。通过该方法可以进行如上所述的相同学习。

(5)在通过外部通信装置改变参数时所进行的学习

如上所述,摄像设备101和外部装置301包括通信部件,并且可以将当前在摄像设备101中所设置的学习参数通信给外部装置301,并将其保存在外部装置301的存储电路404中。作为学习参数,例如,可以考虑神经网络的权重和要输入给神经网络的被摄体的选择等。另外,经由外部装置301中的专用应用程序,可以经由公共网络控制电路406获取在专用服务器中所设置的学习参数,并且将其设置为摄像设备101中的学习参数。因此,当特定时点的参数被保存在外部装置301中、并且被设置在摄像设备101中时,可以返回学习参数。另外,可以经由专用服务器获取其它用户所保持的学习参数,并且将其设置在用户自己的摄像设备101中。

接着将说明学习处理序列。

当在图7的s704的模式设置判定中判定是否进行学习处理、并且进行学习处理时,模式被判定为学习模式,并且进行s712中的学习模式处理。

将说明学习模式的判定条件。基于从前次学习处理起过去的时间、学习时可使用的信息的数量以及是否经由通信装置输入了学习处理指示等,来判定是否转变成学习模式。图12示出在s704的模式设置判定处理中所进行的用于判定是否转变成学习模式的判定处理过程。

当在s704的模式设置判定处理中指示了开始学习模式判定时,开始图12所示的处理。在s1201中,判定是否输入了来自外部装置301的登记指示。对于这里的登记,判定是否输入了用于进行上述学习的登记指示。例如,存在<基于通过通信装置所获取到的图像的图像信息所进行的学习>和<在经由通信装置将判定值输入给图像时所进行的学习>。如果在s1201中输入了来自外部装置的登记指示,则处理进入s1208以将学习模式判定设置为“true(真)”,并且进行用于进行s712的处理的设置。如果在s1201中没有输入来自外部装置的登记指示,则处理进入s1202。在s1202中,判定是否输入了来自外部装置的学习指示。对于这里的学习指示,如在<在通过通信装置改变摄像设备参数时所进行的学习>中那样,判定是否输入了用于设置学习参数的指示。如果在s1202中输入了来自外部装置的学习指示,则处理进入s1208以将学习模式判定设置为“true”,并且进行用于进行s712的处理的设置并结束学习模式判定处理。如果在s1202中没有输入来自外部装置的学习指示,则处理进入s1203。

在s1203中,获取从前次学习处理(神经网络的权重的重新计算)起的过去时间timen,并且处理进入s1204。在s1204中,获取要学习的新数据的数量dn(在从前次学习处理起的过去时间timen内指定学习的图像的数量),并且处理进入s1205。在s1205中,根据timen获取阈值dt。例如,将在timen小于预定值的情况下的阈值dta设置成大于在timen大于预定值的情况下的阈值dtb,并且该阈值随着时间推移而被设置成更小。即使在学习数据的数量小的情况下,当经过时间较长时,也再次进行学习。这使得摄像设备能够根据使用时间容易地改变学习。

当在s1205中计算出阈值dt时,处理进入s1206以判定要学习的数据的数量dn是否大于阈值dt。如果dn大于阈值dt,则处理进入s1207以将dn设置成0。此后,处理进入s1208以将学习模式判定设置成“true”、并且进行用于进行s712的处理的设置并结束学习模式判定处理。

如果在s1206中dn等于或者小于阈值dt,则处理进入s1209。由于既没有输入来自外部装置的登记指示、也没有输入来自外部装置的学习指示并且学习数据的数量等于或者小于预定值,因而将学习模式判定设置成“false(假)”,进行用于不进行s712的处理的设置,并且结束学习模式判定处理。

接着将说明学习模式处理中的处理(s712)。图13示出学习模式处理的详细过程。

当在图7的s711判断为模式是学习模式并且处理进入s712时,开始图13所示的处理。在s1301中,判定是否输入了来自外部装置301的登记指示。如果在s1301中输入了来自外部装置的登记指示,则处理进入s1302。在s1302中,进行各种类型的登记处理。

各种类型的登记处理是要被输入给神经网络的特征的登记,并且包括例如面部认证的登记、一般物体识别的登记、声音信息的登记和场所信息的登记等。

当登记处理结束时,处理进入s1303以基于在s1302中所登记的信息改变要输入给神经网络的元素。

当s1303的处理结束时,处理进入s1307。

如果在s1301中没有输入来自外部装置的登记指示,则处理进入s1304以判定是否输入了来自外部装置301的学习指示。如果输入了来自外部装置的学习指示,则处理进入s1305以将从外部装置通信的学习参数设置给判定装置(神经网络的权重等),并且处理然后进入s1307。

如果在s1304中没有输入来自外部装置的学习指示,则在s1306进行学习(神经网络的权重的重新计算)。如参考图12所述,开始s1306的处理是由于要学习的数据的数量dn超过阈值因而进行各判定装置的再学习的条件。使用诸如反向传播或者梯度下降等的方法来进行再学习,重新计算神经网络的权重,并且改变判定装置的参数。当设置了学习参数时,处理进入s1307。

在s1307中,进行文件中的各图像的重新得分。在本实施例中,基于学习结果针对保存在文件(记录介质221)中的所有拍摄图像给予得分,并且根据所给予的得分来进行自动编辑或者自动文件删除。因此,当通过再学习或者从外部装置设置了学习参数时,也需要更新拍摄图像的得分。因此,在s1307中,进行用于向保存在文件中的拍摄图像给予新得分的重新计算。当该处理结束时,学习模式处理结束。

在本实施例中,基于在摄像设备101中进行学习的结构进行了说明。然而,通过在外部装置301侧提供学习处理、将学习所需的数据通信给外部装置301、并且仅在外部装置侧执行学习的结构,也可以实现如以上所述相同的学习效果。在这种情况下,如以上在<在通过通信装置改变参数时所进行的学习>中所述,可以通过通信将诸如在外部装置侧所学习的神经网络的权重等的参数设置给摄像设备101来进行学习。

另外,可以在摄像设备101和外部装置301两者中提供学习处理。例如,可以通过在摄像设备101中进行学习模式处理716、并且合并学习参数的定时将保持在外部装置301中的学习信息通信给摄像设备101来进行学习。

接着将说明用于弥补神经网络的学习中的监督数据的不足的方法。

为了根据神经网络中的输入值精确估计输出值,需要足够数量的监督数据。如果神经网络的模型复杂并且与较监督数据的数量相比具有高的自由度,则难以提高估计精度。在机器学习领域中,有时进行所谓的数据增强的处理以使得即使对于与监督数据稍有不同的数据也能够进行鲁棒估计。在许多情况下,通过对监督数据(在该情况下为图像)应用诸如宽高比改变、转动(侧倾、俯仰和横摆)、模糊化、噪声添加或者移位等的图像处理来进行该处理。然而,图像并非总是与通过照相机可拍摄的图像相匹配。例如,即使在通过图像处理应用模糊化时,通过实际开放照相机的光圈或者进行散焦也并非总能实现相同模糊化。

如果通过神经网络所要估计的数据和监督数据不相似,则监督数据可能是降低神经网络的估计精度的因素。另外,即使当应用了预定转动(侧倾、俯仰和横摆)时,也并非能够再现人的实际摄像角度。更具体地,即使当从图像中心将图像简单转动例如45°或者90°,由于用户没有太多机会来拍摄被摄体不是直立的照片,因而作为监督数据的图像对于学习用户偏好的贡献度也低。

如上所述,通过图像处理难以弥补监督数据的不足。优选通过实际摄像来增加监督数据的数量。可选地,同样,在图像处理中进行数据增强的情况下,与通过照相机无法拍摄的图像相比,接近通过照相机可以拍摄的图像的图像更为适合。在本实施例中,将说明用于通过自动进行学习用实际摄像来增加监督数据的方法。

如上所述,如果在图9的s907中辨别为接收到用户的摄像指示,则处理进入s910和s914。

在s914中,判定监督数据的当前数量是否小于预定数量n(n是自然数)。仅当监督数据的当前数量小于预定数量n时,才判定为监督数据的数量不足,并且处理进入s915以进行学习用自动摄像以补充监督数据。优选根据神经网络的复杂度或自由度(节点的数量或者中间层的数量)来改变数量n。如果神经网络复杂或者具有高自由度,则监督数据的所需数量增加。因此,n增大。如果在s914中判定为监督数据的当前数量≥n并且积累了足够的监督数据,则处理跳过s915并且进入s912。

由于在手动摄像的情况下基于用户偏好的被摄体、偏好的场景和偏好的场所或者时间间隔来拍摄图像的可能性非常高,因而仅当在s907中输入手动摄像指示时,才进行学习用自动摄像。因此,当此时进行学习用自动摄像时,可以获取反映用户喜欢的监督数据的可能性高。

另外,由于不能同时进行s915中的学习用自动摄像和s910中的手动摄像,因而在不同定时进行这两者。可以首先进行其中任一个,并且连续进行学习用自动摄像和手动摄像。如果学习用自动摄像延迟,则用户可以移动照相机,并且构图可能从适合于手动摄像的构图发生改变。另一方面,如果手动摄像延迟,则快门定时改变。在下面的说明中,除非另外说明,否则首先进行手动摄像,并且紧接着在其后进行学习用自动摄像。

在s915中,进行学习用自动摄像。对于学习用自动摄像,可以考虑多个方法。第一方法是连拍。在手动摄像之后自动进行连拍,从而连续获取拍摄图像。如果定时靠近手动摄像的定时,则可以获取接近用户偏好的图像的多个监督数据。在这种情况下,将通过手动摄像所获得的图像处理为记录图像,并且将其记录在记录介质221中。然而,通过学习用自动摄像所获得的图像仅用于学习,并且用户从不会观察到。

第二方法是运动图像拍摄。普通照相机或者生活记录照相机有时具有用于在手动摄像之前或者之后自动进行运动图像拍摄、并且以组合形式向用户提供静止图像和运动图像的功能。可选地,照相机有时具有用于始终重写诸如环形缓冲器等的存储器上的预定时间段内的运动图像、并且将拍摄静止图像的定时之前和之后的预定时间段内的运动图像提供给用户的功能。将自动获取到的运动图像分解成静止图像并用作为监督数据。由于与在作为第一方法的连拍中相同的原因,因此这些图像作为监督数据也是有价值的。注意,该方法不局限于使用该功能的情况,并且可以拍摄仅用于学习目的的运动图像。在这种情况下,不向用户提供该运动图像。

第三方法是包围曝光(bracket)摄像。通过一点点地改变手动摄像中的摄像条件来进行包围曝光摄像。要改变的摄像条件是照相机中可以改变的参数,包括例如焦点、曝光、白平衡、闪光灯发光、变焦和锐化等。当这些摄像条件改变时,可以预期与数据增强相同的效果。如果进行通过照相机不能实现的数据增强来获得监督数据,则已进行基于监督数据的学习的神经网络可以仅估计接近监督数据的值。该神经网络不适合于照相机。如果通过利用照相机可以实现的包围曝光摄像来增加监督数据,则可以预期数据增强的效果。

注意,存在紧接着手动摄像之后需要进行的包围曝光摄像和在过去一段时间之后能够进行的包围曝光摄像。前者包括诸如调焦和变焦等的机械操作。如果在手动摄像之后不连续进行摄像,则构图改变,并且图像不能被用作为监督数据。另一方面,后者通过用于白平衡、锐化、raw图像数据的显像条件等的图像处理来进行。即使在手动摄像之后不能连续进行摄像,也可以基于手动拍摄的图像来生成图像。在这种情况下,可以记录手动拍摄的图像的raw数据。在基于手动拍摄的图像来生成图像时,不必始终在摄像时生成图像,并且可以在照相机的待机状态下等生成图像。

如上所述,由于存在需要在手动摄像之后连续进行的包围曝光摄像和不必连续进行的包围曝光摄像,因而可以在对各类型的包围曝光摄像设置优先级的同时来进行自动摄像。首先进行需要在手动摄像之后连续进行的包围曝光摄像。

另外,如果基于照相机的角速度计106和加速度计107的信息判断为用户在从手动摄像向学习用自动摄像的时间期间移动了照相机,则可以停止学习用自动摄像。

在s912中,生成用于手动摄像和学习用自动摄像的学习用信息以创建监督数据。即使对于通过学习用自动摄像所获得的图像,可以通过与通过手动摄像所获得的图像相同的方法来生成学习用信息。由于通过手动摄像所获得的图像是用户偏好的图像的可能性高,因而给予预定高得分。还针对根据通过学习用自动摄像所获得的图像所生成的监督数据给予得分。

可选地,针对通过学习用自动摄像所获得的图像,可以给予同与通过手动摄像所获得的图像的关系相对应的得分。例如,如果在与手动摄像没有任何时间间隔的情况下进行学习用自动摄像,则针对通过学习用自动摄像所获得的图像,给予与通过手动摄像所获得的图像相同的高得分。随着手动摄像和学习用自动摄像之间的间隔增大,可以降低对通过学习用自动摄像所获得的图像的得分。因此,通过用户所指示的最佳拍摄定时的手动拍摄图像具有最高得分,并且该得分随着定时偏移而降低。为此,可以学习对快门定时的用户偏好。可选地,可以比较手动拍摄的图像和通过学习用自动摄像所获得的各图像之间的类似度,并且可以根据该类似度给予得分。如果被摄体是移动体或者包括被摄体的场景改变,则可以特意使用手动摄像的定时拍摄的图像之前和之后的图像作为学习用负监督数据。因此,可以预期更严格地学习快门定时的用户偏好。代替前后图像,可以使用连续拍摄的图像中的与通过手动摄像所获得的图像的类似度低于阈值的图像作为负监督数据。

相同思想适用于包围曝光图像。随着通过包围曝光所设置的摄像条件偏离在手动摄像中所设置的摄像条件,可以降低得分。例如,针对通过手动摄像所获得的图像给予最高得分,针对在包围曝光摄像中设置了曝光校正+1的图像给予第二最高得分,并且针对设置了曝光校正+2的图像给予第三最高得分。这使得甚至可以学习用户喜欢的摄像条件。

可以从通过学习用自动摄像所获得的图像的学习用信息,推导出通过学习用自动摄像所获得的图像的学习用信息。例如,使用同一被摄体作为在学习用自动摄像和手动摄像中要拍摄的被摄体的可能性高。因此,根据通过手动摄像获得的图像所生成的一般物体识别结果或者面部检测结果可被转化成通过学习用自动摄像所获得的图像的学习用信息。这样可以缩短用于生成学习用信息的时间。

另外,在s907中所判定的通过用户的摄像指示可以包括上述语音命令、对摄像设备101的点击操作以及来自外部装置301和501的摄像指示。

另外,由于没有通过用户指示学习用自动摄像本身,因而在学习用自动摄像中,优选进行使用具有较小快门声音的电子快门的摄像。

另外,由于在不同于用户期望的定时的定时进行学习用自动摄像,因而可能保存并非用户期望的个人信息。这在考虑隐私时可能引起问题。为了防止这一点,不保存通过学习用自动摄像所获得的图像,并且可以仅保存根据该图像所生成的学习用信息。该学习用信息是与例如神经网络的输入层相对应的参数,并且具有除图像以外的格式。因此,隐私信息几乎不被指定。可选地,可以禁止将诸如个人认证id等的与人物相关联的信息记录在学习用信息中,并且可以利用预定值来代替该信息。

另外,用于进行s914中的学习用自动摄像的条件不必是监督数据的数量。例如,如果判断为神经网络的估计精度提高,则s914的判定可以为“否”结束。通过下面的方法来验证估计精度是否提高。当通过学习用自动摄像获取到监督数据时,将其输入给神经网络,并且获得输出值。如果输出值和监督值之间的差小于预定值,则可以判断为神经网络的精度提高。也就是说,即使输入新数据,输出值也接近用作模型的值,则可以判断为精度提高。

另外,当使用“神经网络的输出值和监督值之间的差”时,可以将在通过学习用自动摄像所获取到的监督数据中的不适合于作为监督数据的数据作为异常值移除。如果神经网络的输出值和监督值之间的差大于预定值,则不能进行估计。可以认为该监督数据是其性质极大不同于在过去所学习的监督数据的监督数据。在这种情况下,照相机在紧接着手动摄像之后被用户移动、并且被引导至诸如天空或者地面等的非预期方向上的可能性高,并且该监督数据作为异常值移除。也就是说,该数据不被登记为监督数据。

还可以在不使用神经网络的情况下进行通过学习用自动摄像所拍摄的图像的异常值验证。在通过组合神经网络的输入层的特征量所形成的特征量矢量中,如果通过学习用自动摄像和手动摄像所拍摄的图像之间的差大于预定值,则该图像可被作为异常值移除。

可以通过学习用自动摄像来增加监督数据。这些监督数据用于在执行下一学习模型时的学习。随着监督数据的增加,预期神经网络的估计精度会提高。

其它实施例

本发明的实施例还可以通过如下的方法来实现,即,通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置,该系统或装置的计算机或是中央处理单元(cpu)、微处理单元(mpu)读出并执行程序的方法。

尽管参考典型实施例说明了本发明,但是应该理解,本发明不局限于所公开的典型实施例。所附权利要求书的范围符合最宽的解释,以包含所有这类修改、等同结构和功能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1