分析由头戴式设备的相机记录的图像中的对象的方法与流程

文档序号:22046897发布日期:2020-08-28 18:51阅读:97来源:国知局
分析由头戴式设备的相机记录的图像中的对象的方法与流程

本发明的实施例总体上涉及捕获图像的设备,尤其涉及分析由头戴式设备的相机记录的图像的方法。



背景技术:

利用由电子设备捕获的图像的对象检测可以具有许多实际应用。对象检测会需要大量的计算资源,并且可能需要花费大量时间。为了使对象检测有用,可能需要在特定时间段内识别对象。然而,许多便携式电子设备可能没有用于在合理的时间内向设备的用户提供与对象有关的信息的计算资源。

头戴式显示器(hmd)可穿戴设备具有许多新兴应用。使能hmd的此类应用的有用特征包括对象检测、识别和追踪、以及在显示器中显示结果。为了具有良好的用户体验,对于对象检测、识别和追踪,通常需要相对于用户的移动和/或对象的移动的高精度和快速的响应时间。

因此,需要用于对象检测的改进的准确性和响应速度。



技术实现要素:

附图说明

图1是具有多个相机的电子设备的示例性框图;

图2是示出了识别与由图像记录设备捕获的图像相关联的对象的过程的示例性视图;

图3是可以用于实施分析由头戴式设备的相机记录的图像中的对象的方法的头戴式设备的示例性视图;

图4是示出了利用头戴式设备的对象检测的示例性框图;

图5示出了被选择来识别图像的感兴趣区域(roi)的边界框的示例;

图6是示出了使用显著性来识别roi中的对象的示例性视图;

图7是示出了利用头戴式设备的对象检测的又一示例性框图;

图8是示出了利用裁剪的对象识别的改进的曲线图;

图9是示出了分析由头戴式设备的相机记录的图像的方法的应用的示例性视图;以及

图10是示出了分析由头戴式设备的相机记录的图像的方法的另一应用的示例性视图;以及

图11是示出了分析由头戴式设备的相机记录的图像的方法的示例性流程图。

具体实施方式

尽管说明书包括限定了被认为是新的本发明的一个或更多个实施方式的特征的权利要求,但是可以认为,通过结合附图进行描述,可以更好地理解电路和方法。尽管公开了各种电路和方法,但是应当理解的是,这些电路和方法仅仅是本发明布置的示例,其可以以各种形式被实施。因此,本说明书中公开的具体的结构性和功能性细节不应当被理解为限制性的,而仅仅应当理解为权利要求的基础并且理解为教导本领域技术人员在实际上任何适当的具体结构中以各种方式采用本发明布置的代表性基础。此外,本文中使用的术语和短语并不意图是限制性的,而是为了提供对电路和方法的可理解的描述。

公开了一种分析由头戴式设备的相机记录的图像中的对象的方法。该方法包括在记录图像时执行眼动追踪;基于眼动追踪来确定图像的感兴趣区域;基于感兴趣区域生成边界框;基于边界框裁剪图像以生成裁剪后的图像;对裁剪后的图像执行精细裁剪;以及检测裁剪后的图像中的对象。

分析由头戴式设备的相机记录的图像中的对象的另一方法包括:在记录图像时进行眼动追踪;基于眼动追踪来确定图像的感兴趣区域;基于感兴趣区域的中心和与图像中的对象相关联的深度信息生成边界框;基于边界框裁剪图像以生成裁剪后的图像;以及检测裁剪后的图像中的对象。

在分析对象的另一方法中,检测裁剪后的图像中的对象包括执行深度学习。

在分析对象的另一方法中,该方法还包括:生成与图像中的对象相关联的对象检测置信度值;以及使用对象检测置信度值来确定以后图像的感兴趣区域。

在分析对象的另一方法中,该方法还包括对所裁剪后的图像执行精细裁剪。

在分析对象的另一方法中,执行精细裁剪包括使用显著性图来识别更新的感兴趣区域。

在分析对象的另一方法中,该方法还包括检测图像中的对象的深度,其中,边界框的大小由深度信息确定。

还公开了一种用于分析由头戴式设备的相机记录的图像中的对象的电子设备。该电子设备包括处理器,该处理器被耦接来接收由相机捕获的图像,其中,所述处理器:在记录图像时执行眼动追踪;基于眼动追踪来确定图像的感兴趣区域;根据感兴趣区域生成边界框;基于边界框裁剪图像来生成裁剪后的图像;对裁剪后的图像执行精细裁剪;以及检测裁剪后的图像中的对象。

以下阐述的电路和方法从大图像输入中提取了一个感兴趣区域(roi)区域,来实现可穿戴hmd设备的准确而较少的计算的对象检测和识别。使用眼动追踪(例如,与可穿戴hmd设备配合使用)来获取感兴趣区域。对于可穿戴式hdm设备中的给定眼动追踪点,将识别用于深度学习引擎的roi输入,以便不计算外围区域,因此在保持对象检测/识别精度的同时,减少了对象追踪的功耗。改进的对象检测可以减少可穿戴hmd设备中头部运动至对象检测/识别的延迟。

首先参考图1,示出了具有多个相机的电子设备的框图。示例性电子设备100可以是具有多个相机的任何类型的设备。电子设备100可以包括耦接到多个相机104和105的处理器102。尽管示出了相机104和相机105,但是应该理解的是,相机包括诸如图像传感器的图像记录设备,并且相机可以彼此独立或者可以共享电路。相机可以是hmd的一部分,其中一个相机可以用于提供场景的视图,而其他相机可以用于执行hmd用户的眼睛的眼动追踪(即运动和观看方向),如将在下面更详细地描述的。移动设备100可以是适合于发送和接收信息的任何类型的设备,例如智能电话机、平板电脑或诸如可穿戴设备的其他接收或提供信息的电子设备。处理器102是集成电路,例如arm处理器、x86处理器、mips处理器、图形处理单元(gpu)、通用gpu或配置为执行存储器中存储的指令的任何其他处理器。处理器102可以在一个或更多个处理设备中实现,其中这些处理器可以不同。例如,电子设备可以包括例如中央处理单元(cpu)以及gpu。

处理器102可以耦接到用于向用户显示信息的显示器106。处理器102还可以耦接到存储器108,该存储器108允许存储与数据有关的信息或与实现目标有关的信息。众所周知,存储器108可以被实现为处理器102的一部分,或者可以被实现为除了处理器的任何高速缓冲存储器之外的其他部分。存储器108可以包括任何类型的存储器,例如固态驱动器(ssd)、闪存、只读存储器(rom)或提供长期存储的任何其他存储器元件,其中存储器可以是任何类型的电子设备的内部存储器或电子设备可访问的外部存储器。

还提供了用户界面110,以使能用户输入数据和接收数据。某些活动追踪可能需要用户手动输入。用户界面可以包括通常在诸如智能电话机、智能手表或平板计算机之类的便携式通信设备上使用的触摸屏用户界面,以及诸如扬声器和麦克风之类的其他输入/输出(i/o)元件。用户界面还可以包括用于输入或输出数据的设备,该设备可以通过电连接器或通过无线连接(例如,蓝牙或近场通信(nfc)连接)的方式连接到移动设备。

处理器102还可以耦接到接收输入数据或提供数据的其他元件,包括用于活动追踪的各种传感器111、惯性测量单元(imu)112和全球定位系统(gps)设备113。例如,惯性测量单元(imu)112可以提供与设备的运动或定向有关的各种信息,而gps113提供与设备相关联的位置信息。可以是移动设备的一部分或耦接到移动设备的传感器可以包括例如光强度(例如,环境光或uv光)传感器、接近传感器、环境温度传感器、湿度传感器、心率检测传感器、皮肤电响应传感器、皮肤温度传感器、气压计、速度计、高度计、磁力计、霍尔传感器、陀螺仪、wifi收发器或提供与实现目标有关的信息的任何其他传感器。处理器102可以通过输入/输出(i/o)端口114或耦接至天线118的收发器116来接收输入数据。

现在参考图2,其是示出了识别与由图像记录设备(例如,相机)捕获的图像相关联的对象的过程的示例性视图。根据本发明的一个实施例,通过识别图像的一个或更多个相关区域,并且对一个或更多个相关区域而不是整个图像执行对象检测,来执行对象检测。如图2所示,图像记录电路202例如可以是图1的相机之一,用于记录图像,该图像被提供给裁剪和调整大小块204以将图像裁剪为原图像的较小区域并且具有原图像的相关区域。例如,假定12m像素的相机没有裁剪图像,则需要几分钟才能在旗舰智能手机上检测对象。如将在下面更详细地描述的,粗略裁剪和精细裁剪都可以减少执行对象检测的复杂度和时间。

为了具有自然显示效果且人眼不会感到不雅观,显示器的最小帧速率应为30帧每秒(fps)。为了在30fps下每帧提供一次对象检测,包括对象检测/识别在内的所有图像处理都应在33毫秒内完成。因此,应该确定如何向深度学习引擎提供目标区域(roi)以进行对象检测/识别,从而减少处理时间并保持较高的准确性。裁剪和调整大小可以由记录图像的电子设备的处理器(例如,电子设备100的处理器102)执行。裁剪后的图像也可以被调整大小以为裁剪后的区域提供更大的分辨率,甚至可以进行精细裁剪,这将在下面更详细地描述。

然后将裁剪后的图像提供给深度学习块206。深度学习块206执行深度学习,与特定于任务的处理不同,深度学习基于各种检测到的刺激或条件之间的关系来做出决定或提供输出。深度学习可用于对象检测中,不仅可以基于场景中的其他对象识别特定对象,还可以确定场景中特定对象的相关性或场景中不同对象之间的关系。根据一些实施例,可以在记录图像的电子设备上执行深度学习。深度学习网络可以通过更新一组新的网络参数来提供各种对象检测/识别功能。但是深度学习网络具有很高的计算复杂度,需要大量资源(例如处理时间和功耗)。通过裁剪图像,可以在电子设备上执行深度学习。即,由于裁剪后的图像不仅较小而且具有较少的用于对象检测的对象,因此深度学习以需要较少的处理资源,从而可以在电子设备本身上执行。应该注意的是,深度学习可以远程执行。例如,与裁剪后的图像相关联的深度学习可以例如通过无线连接发送到远程计算机,例如云计算机库。与裁剪后的图像有关的对象识别信息可以被提供回电子设备。

现在参考图3,示出了可以用于实施分析由头戴式设备的相机记录的图像中的对象的方法的头戴式设备的示例性视图。图3的头戴式电子设备300包括能够将控制单元304固定到用户的头部的头安装元件302。头安装元件可包括能够将hmd固定到用户头部的带子、可调节式头带或附件。控制单元304被配置为在佩戴头戴式电子设备300的用户所观看的屏幕上提供视觉体验。根据一些实施例,头戴式设备的一些元件可以在诸如智能电话机的显示器的便携式电子设备306中实现。即,如下阐述的电路和方法所需要的元件可以被实现在头戴式电子设备的控制单元304中、在便携式电子设备306中,或者可以被分配在头戴式电子设备的控制单元304和便携式电子设备306之间。根据其他实施例,与电路和方法相关联的元件被实现在不需要便携式电子设备306的集成头戴式设备的控制单元中。尽管以示例的方式示出了覆盖眼睛的hmd,但是应当理解,可以使用其他类型的hmd,例如更紧密地类似于传统眼镜的hmd。

附接元件308可以用于将便携式电子设备306固定到控制单元304。附接元件308可以包括连接器机构(例如,微型usb、c型usb、闪电连接器等)。附接元件还可以包括将便携式电子设备保持到hmd的机构。此类机构的示例可以包括夹子、夹具、可移动盖等。便携式电子设备可以是例如智能电话机或具有显示器的其他类型的无线通信设备。可以是便携式电子设备306的一部分的相机310允许头戴式电子设备用作虚拟现实(vr)设备或利用相机传递周围环境的图像增强现实(ar)设备。可以在hmd内部采用第二相机或其他眼动追踪传感器来执行眼动追踪。hmd还可以包括用户界面元件,在此被显示为轨迹板312和控制按钮314,其可以启用取决于hmd的操作模式的选择操作。

尽管在图3中将具有可由用户观看的显示器的电子设备示出为头戴式电子设备,但应当理解的是,以下阐述的电路和元件可以被实现在不需要安装在头部而是可以被握在用户手中来向用户提供视觉体验(例如,可以是vr或ar体验)的电子设备中。此种设备可以是独立设备,也可以具有诸如智能手机之类的便携式电子设备。

现在参考图4,其示出了利用头戴式设备的对象检测的示例性框图。根据图4的实施方式,图像记录电路202耦接到图像处理电路402,该图像处理电路402具有裁剪和调整大小块204并且还包括眼动追踪块404和深度相机块406。眼动追踪块404允许识别hmd的用户正在注视的位置,其例如可以由x和y坐标表示。x和y坐标可用于定位用于裁剪图像的边界框。边界框是例如包围图像中一个或更多个对象的边框。根据一些实施方式,可以基于40度的视场来确定边界框,其中基于hmd的用户的注视,人的正常视场为大约120度。根据其他实施例,深度相机块406可以用于确定图像中的深度,其可以由z坐标表示。深度相机块406还可用于确定边界框的大小,如将在下面参考图7更详细地描述的。

为了提高电子设备进行对象检测的准确性和性能,需要第一高分辨率输入图像。如果希望在人眼的70°视角中目标分辨率为1°,则可以选择全输入图像大小为最小4m像素。即,用于对象检测网络的最小对象大小应该是32×32像素块,其中可能需要提前的对象检测/识别处理。此外,深度学习网络由于其灵活性、高精度性能以及同时的多对象检测功能,因此对于对象检测是有益的。

裁剪和调整大小块204接收记录的图像、以及来自眼动追踪块404的眼动追踪信息和来自深度相机块406的深度信息,来确定如何裁剪图像。裁剪和调整大小块204可以调整裁剪后的图像的大小,以为裁剪后的图像提供更大的分辨率。即,裁剪后的图像可以被呈现为具有与原始图像中一样的像素数量,但是相对原始图像的较小部分。裁剪后的图像被提供给深度学习块206以生成对象检测信息。还可以将对象检测置信度值反馈到裁剪和调整大小块204。对象检测置信度值提供与对象检测相关联的置信度,该置信度可用于将来的裁剪或重新裁剪以提供更好的对象检测。例如,当佩戴hmd的用户继续追踪对象时,裁剪和调整大小块204可以基于对象检测置信度值来确定用户正在注视另一个对象,并且不同地裁剪图像。深度学习块206然后可以生成不同的对象检测信息。新的对象检测配置值可能会提供不同的置信度,因此基于新的眼动追踪和深度信息可以影响将来的裁剪。可以基于被追踪的帧的数量的更新来执行裁剪区域的追踪,并且感兴趣区域的更新可以被基于不同的参数执行,这些参数包括例如相机的速度、显著性图生成的处理延迟、确定hmd的用户的注视所需的时间、以及对象检测所需的精度。

现在参考图5,示出了被选择来识别图像的感兴趣区域(roi)的边界框的示例。每个图像示出了包括在山脉上的热气球502至热气球506的相同的场景。如左图所示,边界框508包括附近的热气球502和位于热气球502后面但比热气球506更近的热气球504的部分。边界框的中心由图像中的十字指定。边界框的中心例如可以由眼动追踪块404确定。例如,可以基于所确定的深度信息来确定边界框的大小。裁剪图像后,可以更改边界框中心的位置和边界框的大小,这将参考图6进行更详细的描述。

如右图所示,实现了一个较小的边框,该边框包括热气球504和远处的热气球506。边界框510的选择可以基于指示用户正在跟随更远的热气球的眼动追踪信息。因为正在追踪较小的对象(即,更远的对象),所以边界框510也较小。

可以从深度相机输入获得对象的深度信息,并通过左眼和右眼追踪信息的相交获得检测到的注视点的深度信息。可以提取与用户正在关注的不同对象相关联的深度信息。当两个对象相互重叠时,使用深度信息可能是有益的。例如,如果对象1和对象2重叠或彼此非常靠近并且用户能够观看重叠点附近,则在没有深度信息的情况下可能难以知道用户正在关注的对象。然而,注视深度信息给出了用户关注位置的更详细的信息,并且可以提取对象识别边界。

现在参考图6,其示出了使用显著性来识别roi中的对象的示例性视图。使用来自边界框508的裁剪图像,显著性图602用于允许粗略裁剪后图像的精细裁剪。精细裁剪是例如去除外部区域,以使作为用户焦点的对象居中。显著性图通常会简化图像以使其更易于分析。如图6所示,显著性图的输出604包括代表热气球502的第一斑点606和代表热气球504的第二斑点608。基于斑点606和斑点608的大小和位置,可以确定由第一斑点606代表的热气球504是用户的焦点,因此应该执行精细裁剪来生成以热气球502为中心的精细裁剪后的图像610,该热气球502基本上填充了裁剪后的图像610。可以通过具有精细裁剪块704的图像处理电路702来执行精细裁剪,该精细裁剪块704基于显著性图来确定何时裁剪图像。深度学习块206然后基于精细裁剪后的图像生成对象检测信息。通过基于眼动追踪和深度信息执行粗略裁剪,并基于显著性图执行精细追踪,可以实现具有较高置信度值的对象检测。

现在参考图8,其示出了如上所述利用裁剪的对象识别的改进的曲线图。确定了在实现上述分析记录图像的方法的各方面的移动平台上执行的对象检测的处理时间,其中该移动平台包括265位处理器,该处理器具有在533mhz上运行的16位乘法/累加单元(mac)、1.2mb内部sram和2gbdma带宽限制。如图8所示,使用原始而没有进行任何裁剪的12m像素图像进行对象检测需要20秒钟。但是,通过同时使用粗略裁剪和精细裁剪,可以大大减少执行对象追踪所需的时间。例如,通过如上所述的粗略裁剪,粗略裁剪图像中的对象识别仅需要2.3秒。通过如上所述的粗略裁剪和精细裁剪,对象识别仅需要500毫秒。

现在参考图9,其是示出了分析由头戴式设备的相机记录的图像的方法的应用的示例性视图。如图8所示,在图像中检测出边界框802所示的多个食品。如上所述,可以基于眼动追踪和深度信息来确定边界框902。然后,应用可以呈现食谱904,该食谱904包括例如在边界框中识别的项目。

现在参考图10,其是示出用于分析由头戴式设备的相机记录的图像的方法的另一应用的示例性视图。根据图10的示例,边界框1002包括由技术人员正在研究的汽车发动机的一部分。可以将指令1004呈现给技术人员以允许技术人员进行适当的维修。应当注意的是,可以使用如上所述的hmd来实现图9和图10的应用。

现在参考图11,其是示出分析由头戴式设备的相机记录的图像的方法的示例性流程图。具体地,在块1102执行在记录图像时的眼动追踪。在块1104,基于眼动追踪来确定图像的感兴趣区域。在块1106,基于感兴趣区域生成边界框。也可以基于与图像中的对象相关联的深度信息来生成边界框的大小。然后在块1108,基于边界框裁剪图像来生成裁剪后的图像。然后在框1110,可以对所裁剪后的图像执行精细裁剪。例如,可以如上所述使用图7的电路来执行粗略裁剪和精细裁剪。在块1112,检测裁剪后的图像中的对象。

根据图11的方法的一些实施例,检测裁剪后的图像中的对象可以包括执行深度学习。该方法还包括:生成与图像中的对象相关联的对象检测置信度值;以及使用对象检测置信度值来确定以后图像的感兴趣区域。执行精细裁剪可以包括使用显著性图来识别更新的感兴趣区域。基于眼动追踪来确定图像的感兴趣区域可以包括利用与头戴式设备的视场相关联的预定角度。而且,生成边界框可以包括使用图像中对象的检测到的深度,其中,边界框的中心是基于感兴趣区域的中心确定的,并且边界框的大小是基于检测到的深度确定的。

可以使用如上所述的图1至图7的电路或使用一些其他合适的电路来实现图11的方法的各种元件。尽管描述了该方法的特定要素,但是应当理解,可以根据图1至图10的公开内容来实现该方法的附加要素或与该要素有关的附加细节。

因此可以理解的是,已经描述了用于分析由头戴式设备的相机记录的图像中的对象的新电路和方法。本领域技术人员将理解的是,可以看到存在包含所公开的发明的许多替代方案和等同方案。作为结果,本发明不受前述实施方式的限定,而仅受所附权利要求书的限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1