使用深度摄像头的基于计算机视觉的安全系统的制作方法

文档序号：14395206阅读：195来源：国知局

背景技术：

运动检测可以被安全系统用于监视环境。运动检测器可以对与威胁相关联的运动(例如入侵者进入被监测的环境)做出响应，而且还对与非威胁事件相关联的运动(例如宠物进入被监测的环境)做出响应。

技术实现要素：

一般而言，在一个方面中，本发明涉及一种用于保护环境安全的方法。该方法包括获得三维(3d)环境的二维(2d)表示。所述2d表示包括编码3d环境的深度值的2d像素帧。该方法进一步包括识别2d表示中的一组前景像素，基于该组前景像素定义前景物体，将与该前景物体不相关的2d表示的像素分配给背景，从2d表示中消除背景以获得更新的2d表示，并且将更新的2d表示发送到远程处理服务。

一般而言，在一个方面中，本发明涉及一种用于保护环境安全的方法。该方法包括接收三维(3d)环境的二维(2d)表示。所述2d表示是编码3d环境的深度值的2d像素帧，并且包括前景物体。背景已从所述2d表示中移除。该方法还包括对前景物体进行分类，并基于前景物体的分类采取动作。

一般而言，在一个方面中，本发明涉及一种用于保护环境安全的方法。该方法包括接收三维(3d)环境的二维(2d)表示。所述2d表示是编码3d环境的深度值的2d像素帧。该方法还包括识别所述2d表示中的一组前景像素，基于该组前景像素定义前景物体，对前景物体进行分类，以及基于前景物体的分类采取动作。

一般来说，在一个方面中，本发明涉及一种存储用于保护环境安全的指令的非暂时性计算机可读介质。所述指令使系统能够获得三维(3d)环境的二维(2d)表示。所述2d表示包括编码3d环境的深度值的2d像素帧。所述指令还使系统能够识别所述2d表示中的一组前景像素，基于该组前景像素定义前景物体，将与该前景物体不相关的所述2d表示的像素分配给背景，从所述2d表示中消除背景以获得更新的2d表示，并且将更新的2d表示发送到远程处理服务。

根据以下描述和所附权利要求，本发明的其它方面将变得显而易见。

附图说明

图1示出了根据本发明的一个或多个实施例的系统。

图2示出了根据本发明的一个或多个实施例的流程图。

图3示出了根据本发明的一个或多个实施例的流程图。

图4示出了根据本发明的一个或多个实施例的流程图。

图5示出了根据本发明的一个或多个实施例的流程图。

图6示出了根据本发明的一个或多个实施例的流程图。

具体实施方式

现在将参照附图详细描述本发明的具体实施例。在本发明的实施例的以下详细描述中，阐述了许多具体细节以便提供对本发明更透彻的理解。然而，对于本领域的普通技术人员来说显而易见的是，可以在没有这些具体细节的情况下实践本发明。在其他情况下，众所周知的特征没有被详细描述以避免不必要地使描述复杂化。

在以下对图1-图6的描述中，在本发明的各个实施例中关于附图描述的任何组件可以等同于关于任何其他附图描述的一个或多个相似命名的组件。为了简洁起见，这些组件的描述将不会在每个图中重复。因此，每个附图的组件的每一个和每个实施例通过引用并入，并且被假定为可选地存在于具有一个或多个相似命名的组件的每个其他附图中。另外，根据本发明的各种实施例，附图的组件的任何描述将被解释为可选实施例，其附加、结合或替代关于任何其他图中的相应的相似命名的组件所描述的实施例可以实现。

一般而言，本发明的实施例涉及一种用于保护环境安全的监视系统。更具体地，本发明的一个或多个实施例包括一种监视系统，该监视系统执行用于检测被监视的环境中的物体移动，将移动物体与周围环境隔离以及对移动物体进行分类的方法。基于分类算法对移动物体的分类，可以确定移动物体是威胁、无害或未知。如果确定物体是威胁，则监视系统可采取适当的防御动作，例如，可以报警，配备监视系统的物业所有者可以被通知等等。如果确定物体是无害的，则不采取任何动作。如果物体不能被识别，则监视系统可以请求第三方(例如，操作人员)进行解析，以对物体进行分类。在本发明的一个实施例中，由操作人员执行的分类可以用于更新分类算法，从而使得监测系统能够在未来成功地对该物体进行分类。

图1示出了根据本发明的一个或多个实施例的用于监控环境(被监视的环境(150))的监视系统(100)。被监视的环境可以是在摄像系统(102)的视场内的三维空间。被监视的环境(150)例如可以是诸如起居室、办公室等的室内环境，也可以是诸如后院等的室外环境。被监视的环境(150)可以包括背景元素(例如152a、152b)和前景物体(例如154a、154b)。背景元素可以是实际背景，即房间的一面墙壁或多面墙壁。在本发明的实施例中，监视系统(100)可以进一步将其他物体(例如静止物体，诸如桌子(背景元素b(152b))分类为背景元素。在本发明的一个实施例中，监视系统(100)可以将其他物体(例如，诸如人或宠物的移动物体)分类为前景物体(154a、154b)。例如，如果监视系统(100)确定在被监视的环境(150)中检测到的人(154a)是入侵者，则监视系统(100)可以进一步将检测到的前景物体(154a、154b)分类为威胁，例如，如果监视系统(100)确定在被监视的环境(150)中检测到的人(154a)是所监视的物业的所有者，或者如果被分类的物体是宠物(154b)，则分类为无害的。背景与前景分类的细节在下面例如参照图2-图6进行描述。在本发明的一个实施例中，监视系统(100)包括摄像系统(102)和远程计算设备(112)。在本发明的一个实施例中，监视系统还包括一个或多个便携式设备(114)。下面描述这些组件中的每一个。

在本发明的一个或多个实施例中，监视系统(100)包括摄像系统(102)。摄像系统可以包括深度感测摄像头(104)和本地计算设备(110)，并且可以进一步包括加速度传感器(106)和/或视频摄像头(108)。摄像系统(102)可以是便携式单元，其可被定位成使得深度感测摄像头(104)的视场覆盖待被监视的环境中的感兴趣区域。摄像系统(102)例如可以放置在待被监视的房间角落的架子上，从而使摄像头能够监视摄像系统(102)和房间的后壁之间的空间。在监视系统(100)的初始设置期间，可以显示摄像系统(102)的图像(例如，视频摄像头108的图像)的实时视图，从而便于摄像系统的定位。实时视图可以包括深度感测摄像头(104)的范围的可视化，例如，可以以彩色显示在深度感测摄像头(104)的范围之内的图像的部分，而可以以黑白显示在深度感测摄像头(104)的范围之外的图像的部分。此外，可以使用粗体的红色曲线(或任何其他类型的突出标记)来分离深度感测摄像头(104)的范围之外的部分与范围之内的部分。在不脱离本发明的情况下，可以使用摄像系统的其它位置。

在本发明的一个实施例中，深度感测摄像头(104)是能够报告来自被监视的环境(150)的多个深度值的摄像头。例如，深度感测摄像头(104)可以以30帧每秒(fps)的时间分辨率提供一组320×240像素(四分之一视频图形阵列(qvga)分辨率)的深度测量。深度感测摄像头(104)可以基于基于扫描仪的或无扫描仪的深度测量技术，例如lidar，使用飞行时间测量来确定到深度感测摄像头(104)的视场中的物体的距离。在本发明的一个实施例中，深度感测摄像头(104)除了深度测量之外还可以提供2d灰度图像，由此提供被监视的环境(150)的完整的3d灰度描述。在本发明的一个实施例中，被监视的环境(150)的体积由深度感测摄像头(104)的规格来定义。深度感测摄像头(104)可以例如具有设定的视场、有限的最小和/或最大深度跟踪距离等。被监视的环境(150)的体积可以例如通过参数化深度感测摄像头，通过选择适当的深度传感器，通过调整深度感测摄像头(104)的摄像头光学器件，通过移动深度摄像头(104)等被调整。本领域的技术人员将意识到本发明不限于上述深度感测技术、时间和/或空间分辨率。例如，可以使用立体摄像头，而不是基于飞行时间的摄像头。

继续图1的讨论，加速度传感器(106)可以刚性地连接到摄像系统(102)的其他组件，即深度感测摄像头(104)和彩色摄像头(108)。在本发明的一个实施例中，加速度传感器(106)是多轴加速度计，其可以使摄像系统(102)能够检测摄像系统的移动并且确定摄像系统的定向(即，基于重力区分视场的顶部和底部，摄像头是否倾斜，摄像头倾斜的方向等)。加速度计可以基于压阻式、压电式或适于将机械加速度转换成电信号的其他测量方法。

视频摄像头(108)可以能够连续捕获环境的二维视频(150)。视频摄像头可以刚性地连接到摄像系统(102)的其他组件。视频摄像头的视场和定向可以被选择为覆盖与由深度感测摄像头捕获的被监视的环境的部分相似(或基本相似)的被监视的环境(150)的一部分。视频摄像头可以使用例如具有例如320×240像素的空间分辨率和30帧/秒(fps)的时间分辨率的rgb或cmyg彩色ccd或cmos传感器。本领域技术人员将会理解，本发明不限于上述图像传感器技术、时间和/或空间分辨率。此外，视频摄像头的帧速率例如取决于被监视的环境中的照明情况可以不同。

在本发明的一个实施例中，摄像系统(102)包括本地计算设备(110)。移动、桌面、服务器、嵌入式或其他类型的硬件的任何组合都可以用于实现本地计算设备。例如，本地计算设备(110)可以是片上系统(soc)，即将本地计算设备(110)的所有组件集成到单个芯片中的集成电路(ic)。soc可以包括一个或多个处理器核心、相关联的存储器(例如，随机存取存储器(ram)、高速缓冲存储器、闪存等)、经由网络接口连接(未示出)的网络接口(例如，局域网(lan)、广域网(wan)(例如，互联网、移动网络)或任何其他类型的网络)的网络接口以及到存储设备、输入和输出设备等的接口。本地计算设备(110)可以进一步包括一个或多个存储设备(例如，硬盘，诸如光盘(cd)驱动器或数字多功能盘(dvd)驱动器的光盘驱动器、闪存棒等)以及许多其他元件和功能。在本发明的一个实施例中，计算设备包括操作系统(例如，linux)，其可以包括执行下面进一步描述的方法的功能。本领域技术人员将会理解，本发明不限于本地计算设备(110)的上述配置。在本发明的一个实施例中，本地计算设备(110)可以与深度感测摄像头(104)、彩色摄像头(108)和/或加速度传感器(106)集成。可选地，本地计算设备(110)可以与深度感测摄像头(104)、加速度传感器(106)和/或彩色摄像头(108)分离，并且可以使用有线和/或无线连接来与本地计算设备(110)对接。在本发明的一个实施例中，本地计算设备(110)执行包括实现以下描述(例如参见图2-6)的各种方法的至少部分的功能的方法。由本地计算设备(110)执行的方法可以包括但不限于：根据由深度感测摄像头(104)提供的深度数据中检测到的移动来识别前景物体，并且将前景物体的深度数据发送到远程处理服务(112)的功能。

继续图1的讨论，在本发明的一个或多个实施例中，监视系统(100)包括远程处理服务(112)。在本发明的一个实施例中，远程处理服务(112)是硬件和软件的任何组合，其包括服务一个或多个摄像系统(102)的功能。更具体地，远程处理服务(112)可以包括一个或多个服务器(每一个至少包括处理器、存储器、永久存储器和通信接口)，其执行包括实现以下参照图2-图6描述的各种方法的功能的一个或多个应用(未示出)。由远程处理服务(112)提供的服务可以包括但不限于以下功能：接收和存档流视频，从由摄像系统(102)提供的深度数据中识别和跟踪前景物体(154)并将识别的前景物体进行分类(154)。由远程处理服务提供的服务还可以包括以下附加功能：处理被分类为威胁的前景物体(154)，并且学习未知前景物体(154)的分类。在本发明的一个实施例中，远程处理服务(112)可以请求操作人员的协助，以便对未知的前景物体进行分类，或者当执行的分类没有高度确定地完成时。

在本发明的一个或多个实施例中，监视系统(100)包括一个或多个便携式设备(114)。便携式设备(114)可以是能够从远程处理服务(112)接收通知的设备(例如，膝上型计算机、智能电话、平板电脑等)。通知可以是例如文本消息、电话呼叫、推送通知等。在本发明的一个实施例中，便携式设备(114)可以包括使便携式设备(114)的用户能够与摄像系统(102)和/或远程处理服务(112)交互的功能。用户可以例如从摄像系统接收视频流，配置、激活或停用摄像系统等。

监视系统(100)的组件，即摄像系统(102)、远程处理服务(112)和便携式设备(114)可以使用有线和/或无线通信协议的任何组合进行通信。在本发明的一个实施例中，摄像系统(102)、远程处理服务(112)和便携式设备(114)经由广域网(例如，通过互联网)和/或局域网(例如，企业或家庭网络)进行通信。监视系统(100)的组件之间的通信可以包括安全(例如，加密)和非安全(例如，未加密)通信的任何组合。监视系统(100)的组件通信的方式可以基于本发明的实施方式而变化。

本领域技术人员将认识到，监视系统不限于图1中所示的组件。例如，深度感测摄像头可以基于不同的基础深度感测技术，并且/或者摄像系统可以包括图1中未示出的附加组件，例如提供夜视能力的红外照明器，可由摄像系统用来检测和适应改变的照明情况的环境光传感器等。此外，监视系统可包括任何数量的摄像系统、任何数量的远程处理服务和/或任何数量的便携式设备。另外，监视系统可以用于监视包括各种室内和室外场景的各种环境。

图2-6示出了根据本发明的一个或多个实施例的流程图。

尽管流程图中的各个步骤被顺序地呈现和描述，但是普通技术人员将会理解，这些步骤中的一些或全部可以以不同的顺序执行，可以被组合或省略，并且一些或全部步骤可以并行执行。在本发明的一个实施例中，可以与图2-6中所示的任何其它步骤并行地执行图2-6中所示的步骤而不背离本发明。

图2示出了用于保护环境安全的方法。该方法可以包括监视环境，对在环境中检测到的物体进行分类，并根据物体分类采取适当的动作。在本发明的一个实施例中，一旦摄像系统被启动，步骤200-218可以被重复执行以持续地保护被监视的环境的安全。在本发明的一个实施例中，根据如下面参考图2-6进一步描述的被启动的监视系统的功能，可以执行、选择性地执行或跳过图2以及随后的图3-6中所述的方法的特定步骤。例如，只有当撤防系统时，才能执行存档来自深度感测摄像头和视频摄像头的记录所需的步骤。监视系统可以例如基于一天中的时间和/或基于系统是否确定所监视的物业的所有者在家而被布防/撤防。例如，可以基于用户(或授权人)的便携式设备的当前gps坐标或例如通过当在被监视的环境中检测到人时监视系统请求识别和口令交互地来检测所有者(或另一个授权人)的存在。如果在被监视的环境中的人员识别出自己并提供正确的口令，则系统可以避免警报和/或撤防监视系统，而不是立即触发警报。如果未提供口令或提供不正确的口令，则系统可以例如通过重复请求提供口令，提供警告并最终触发警报提高其响应。监视系统可以根据被监视的环境中的活动进一步自行布防/撤防。例如，监视系统可以在经过典型的就寝时间的晚上和在一定量时间内没有检测到移动时自动布防。随着时间的推移，监视系统可以学习所有者的时间表，并且可以自动确定布防监视系统的典型时间。此外，为了确保隐私，当所监视发物业的所有者在家时，摄像系统可以不记录任何图像。

下面描述的方法的执行可以分布在摄像系统的本地计算设备和远程处理服务之间。即使在下面描述了特定的分布，但是在不偏离本发明的范围的情况下可以改变这种分布。例如，以下描述为由远程处理服务执行的步骤可以替代地由本地计算设备执行，反之亦然。

在执行步骤200-218之前，摄像系统可以例如在将电源连接到摄像系统之后，在用户激活摄像系统之后等开始。在摄像系统的启动期间，摄像系统的组件可以被初始化。所述初始化可以包括例如深度感测摄像头的自我测试和/或校准以及本地计算设备的启动，包括加载和初始化可以执行步骤200-218的方法中的至少一些的软件模块。初始化可以进一步包括基于加速度传感器数据确定摄像系统的定向，以便使摄像系统能够在步骤200-218中执行的处理期间正确地解释深度数据。在摄像系统的启动期间，摄像系统可以进一步建立到远程处理服务的连接。随后，可以开始步骤200-218的周期性执行。在本发明的一个实施例中，每当从深度感测摄像头接收到帧时，可以执行步骤200-218。例如，如果深度感测摄像头以每秒30帧(fps)提供帧，则步骤200-218可以每秒执行30次。可选地，帧可以被跳过，即，不是由深度感测摄像头提供的每一个帧都可以被处理。

在步骤200中，本地计算接收来自深度感测摄像头、加速度传感器和视频摄像头的数据。更具体地，在本发明的一个实施例中，深度感测摄像头将深度数据的帧发送到本地计算设备。在本发明的一个实施例中，深度感测摄像头以规则的间隔(例如，以30fps)将深度数据的帧发送到本地计算设备。深度数据的帧可以包括例如由深度感测摄像头获得的320×240深度测量像素的矩形网格。像素的每一个深度测量可以表示从摄像头到被监视的环境中的特定点的距离。深度测量可以使用例如16位无符号整数值来编码。在本发明的一个实施例中，对于每一个像素与深度测量一起进一步获得亮度值。相应地，深度感测摄像头可以提供被监视的环境的灰度图像，其中灰度图像的每一个像素包括深度测量，由此建立环境的3d表示。

此外，本地计算设备可以从加速度传感器获得加速度测量或一组加速度测量，并且视频摄像头可以将彩色视频数据的帧发送到本地计算设备。在本发明的一个实施例中，视频摄像头的视场类似于深度感测摄像头的视场。因此，彩色视频图像和深度数据的组合可以使能够重建被监视的环境的彩色3d模型。在本发明的一个实施例中，即使深度感测摄像头和视频摄像头以不同的帧速率操作，也可以由本地计算设备保持来自深度感测摄像头和视频摄像头的信号的时间同步。

在步骤202中，本地计算设备根据步骤200中接收到的数据进行背景减除，即本地计算设备识别前景物体，隔离识别出的前景物体，将非前景物体相关图像数据分类为背景，并通过将所有背景像素设置为恒定的背景深度值来消除来自深度数据的帧的背景。步骤202的细节在图3中描述。

在步骤204中，本地计算设备将在步骤202中从其中减除背景的深度数据的帧发送到远程处理服务。本地计算设备还可以将步骤200中接收到的彩色图像和加速度传感器数据发送到远程处理服务。已经在步骤202中消除的背景可以作为常数值的掩码被发送，即，只有包含前景物体的帧的区域可以具有实际的深度测量，由此减少帧的数据量。在本发明的一个实施例中，发送到远程处理服务的深度数据被空间下采样。由深度感测摄像头提供的原始深度测量可以是例如可以被下采样为8位无符号整数值的16位无符号整数值。为了最小化空间分辨率的损失，可以在下采样之前执行工作空间专用缩放。例如，如果被跟踪的工作空间在距摄像系统1m到10m的范围，则8位无符号整数值“0”可被设置为对应于1米的距离，而8位无符号整数值“255”可被设置为对应于10m的距离，由此具有8位无符号整数值仅表示从1m到10m的范围。在本发明的一个实施例中，8位分辨率深度数据可以作为视频流被发送，即深度数据的每一个帧可以作为视频流的一帧被发送。可以使用标准视频压缩算法(例如，mpeg-1、2或4等)来进一步减少作为视频流发送的深度数据的数据量。本地计算设备还可以将来自视频摄像头的彩色图像和步骤202中接收到的加速度传感器数据发送到远程处理服务。

在步骤206中，远程处理服务存档深度和彩色图像数据的输入流。远程处理服务可以例如将视频数据流写入到硬盘驱动器。另外，远程处理服务可以对输入帧进行时间标记，并且可以在归档之前进一步对其进行重新格式化和/或重新压缩。此后，存档的帧可以由配备有监视设备的物业的所有者(或由另一个人或实体)来检查。在本发明的一个实施例中，存档的帧可以与帧中的前景物体的分类一起存储。因此，用户可以能够例如通过仅请求包括某些类型的物体(如分类所定义的)的帧来选择性地检查存档的帧。例如，可以搜索存档帧以寻找包括被分类为“人”并且一个月之内记录的前景物体的帧。上述例子并不是为了限制本发明的范围。

在步骤208中，远程处理服务执行深度数据帧中的前景物体的分类。可以针对单个帧中的每一个前景物体和/或针对前景物体轨迹(即，出现在一组后续帧中的前景物体)单独地执行分类。可选地，可以基于包括一个或多个前景物体的整个帧来执行分类。在本发明的一个实施例中，分类可以识别前景物体所属于的类别。在本发明的一个实施例中，可以使用概率框架来执行分类。可以根据从前景物体的深度数据获得的一组特征，例如前景物体的边界框的尺寸和方向、前景物体的形状等进行分类。如果对前景物体的轨迹执行分类，则可以考虑诸如包括但不限于速度、轨迹和特定图案(例如，行走图案)的运动描述符的附加特征。此外，分类可以随时间积累以改进和提高分类的准确性和/或可靠性。由执行分类的分类算法考虑的特征还可以包括从视频摄像头获得的颜色信息。分类算法可以是能够以最小可靠性区分前景物体(例如，人、狗、猫等)的类别的任何算法，并且可以包括但不限于线性分类器、支持向量机、二次分类器、核估计器、提升算法、决策树、深度学习算法和神经网络。本领域技术人员将会理解，本发明不限于用于分类的上述分类器和特征。可以使用适合于前景物体分类的任何类型的分类器和特征。

在本发明的一个实施例中，分类器可能在激活监测系统之前已经被预先训练。用于训练分类器的数据集可以包括例如附加了正确类别标签的待分类前景物体的深度数据样本(例如，人、狗、猫等的数量)。这些深度数据样本可以已经被例如其他监视系统记录，并且可以被假定为通用的，即，不专用于监视特定环境的特定监视系统。所得到的分类器是通用分类器，即，在将监视系统运输给客户之前，监视系统可以例如由监视系统的制造商预先供应的分类器算法。可选地或附加地，分类器可以已经使用本地获得的深度数据样本(专用于被监视的环境)被训练，从而潜在地(a)提高通用分类器的分类准确性和鲁棒性，以及(b)增加专用于被监视的环境的新类别的物体。该相机专用的分类器可以与通用分类器组合，或者可以作为单独的分类器来维护。

在本发明的一个实施例中，如果在其中前景物体未被成功分类的前景物体轨迹中存在帧，则在分类已经完成之后更新相机专用分类器。在这种情况下，可以基于前景物体轨迹分类来标记在分类不成功的帧中的前景物体，即，可以使用物体轨迹类别标签来标记轨迹的每一个单独帧中的前景物体。用于将标签添加到前景物体轨迹的各个帧的方法可以是例如先前描述的组归纳。然后新分类的帧可以被包括在用于相机专用分类器的训练数据库中。由深度感测摄像头记录的附加深度数据采样可以被连续或周期性地用于重新训练本地分类算法，如下面参考步骤218所进一步描述的。

在本发明的一个实施例中，针对单个深度数据帧中的前景物体执行初始分类。在本发明的一个实施例中，从对于包括相同前景物体(即，从前景物体轨迹)的一组后续深度数据帧执行的多个初始分类中获得分类。前景物体的轨迹可以包括例如深度感测摄像头在最近两秒内提供的深度数据帧。基于前景物体的轨迹的分类可以使分类器能够考虑附加特征，诸如例如前景物体的速度、运动模式等，并且还可以比针对单个深度数据帧获得的初始分类更鲁棒。例如，可以通过累积各个帧分类(即，初始分类)并且通过使用例如增广离散贝叶斯滤波器基于累积分类执行物体轨迹分类来获得前景物体轨迹分类。

在本发明的一个实施例中，可以仅基于移动的前景物体的移动和物理尺寸的检测来执行简化的分类。考虑将移动物体分类为小移动物体或大移动物体的情况。在这种情况下，可以选择将大的移动物体与小的移动物体分开的尺寸阈值的情况，使得人可靠地被检测为大的移动物体。大的移动物体可以自动被认为是潜在的威胁，而小的移动物体可以被认为是无害的。这种简化的分类可以进一步用作例如，当摄像系统与远程处理服务之间的互联网连接失败时，监视系统可以依赖的备份分类方法。然后，简化的分类算法可以直接在摄像系统的本地计算设备上执行，从而能够持续进行监视。即使在网络中断期间不可能通知远程操作员或所有者，本地警报(例如，被监视的环境中的视觉或听觉警报信号)仍然可以发出可能检测到入侵者的信号，从而警告周围邻居。可选地，检测到的移动量可以被考虑用于威胁检测。例如，显著移动的大物体可以被认为是威胁，而仅本地移动的大物体(例如，风中的窗帘)可以被认为是无害的。

在步骤210中，确定在步骤208中前景物体是否被成功分类。在本发明的一个实施例中，需要高分类置信度来考虑分类成功，从而最小化将是威胁的前景物体误分类为不指示威胁的不同前景物体的风险。如果分类是不明确的(例如，当需要分类算法来区分具有相似特征的前景物体，例如狗和相似尺寸的猫时可以发生)，或者如果分类根本没有完成，则分类可被认为是不成功的。例如，如果监视系统是最近建立的，并且因此主要依赖于可能无法识别专用于被监视的环境的前景物体的通用分类器，则可能无法完成分类。如果确定分类是成功的，则该方法可以前进到步骤212。

在步骤212中，确定在步骤210中由分类算法分类的或者在步骤216中由操作人员分类的前景物体是否是威胁。在本发明的一个实施例中，取决于前景物体的类别成员，前景物体被认为是威胁。例如，如果监视系统已经被配置为期望在被监视的环境中的宠物，而进入被监视的环境的人可能被认为是威胁，则狗或猫可能不被认为是威胁。在本发明的一个实施例中，在步骤208中没有被肯定地识别为无害的前景物体的任何前景物体被认为是威胁。如果确定前景物体不是威胁，则该方法可以返回到步骤200，以便为下一个深度数据帧重复上述步骤。

返回到步骤212，如果确定前景物体是威胁，则该方法可以前进到步骤214。在步骤214中，可以采取威胁减轻动作。在本发明的一个实施例中，可以要求操作人员手动检查检测到的威胁。例如，操作人员可以接收与被识别为威胁的前景物体相关联的视频。如果操作人员确认了威胁，则被监视物业的所有者可以经由其便携式设备(例如，其蜂窝电话或平板电脑)接收通知。通知可以包括在基于深度数据检测到威胁时记录的活动的视频剪辑。业主然后可以确认收到通知，并可以决定是否有必要采取进一步动作。例如，业主可以按下一个按钮，以作为错误报警丢弃通知，或者可以按另一个按钮来自动通知警方。如果所有者选择通知警方，则远程处理服务可以自动将所有可用的信息(包括视频片段)转发给警方。随后，该方法可以返回到步骤202，以便为深度数据的下一帧重复上述步骤。

返回步骤210，如果确定在步骤208中执行的分类不成功，则该方法可以前进到步骤216。在步骤216中，远程处理服务请求操作人类对前景物体进行分类。

在本发明的一个实施例中，要求对前景物体进行分类的操作人类可以接收显示在步骤208中不能分类的前景物体的帧序列。在本发明的一个实施例中，提供给操作人员的帧包括与未分类的前景物体(即，视频流)的深度数据帧相对应的彩色图像帧的序列。需要操作人员手动分类的前景可以在视频中突出显示。

在本发明的一个实施例中，操作人员可以将单个类别标签应用于前景物体的轨迹。例如，使用组归纳，远程处理服务然后可以自动标记前后所有帧中的前景物体的所有实例。如果适当的前景物体类别已经存在于通用和/或相机专用的分类器中，则由操作人员应用的类别标签可以是现有的类别标签。例如，在小型狗不被识别为狗的情况下，可能发生这种情况，因为分类器只是基于较大的狗进行训练。可选地，如果适当的前景物体类别不存在，则类别标签可以是新的类别标签。例如，考虑窗户被打开并且风在窗帘周围吹的情景。分类器以前从未被训练识别窗帘运动，因此需要由操作人员进行人工分类。在前景物体分类之后，操作人员可以进一步决定手动分类的物体是否为威胁。在上面讨论的例子中，操作人员将指示手动分类的物体(狗和窗帘)不是威胁。

在本发明的一个或多个实施例中，分类失败的前景物体轨迹可以被转发给单个操作人员，或者它们可以被转发给参与未知前景物体的人群识别的多个人。多个参与者可以接收要在他们的智能电话上分类的前景物体轨迹的视频。视频可以是匿名的，例如通过可视化深度边缘或表面法线而不是显示彩色视频，从而允许参与者识别潜在的威胁与非威胁，而不透露被监视的环境的很多细节。例如，可以基于参与者的可靠性(包括响应性和分类准确性)对参与者进行评分和选择。如果参与者中的一个在预定的时间量内没有用分类进行响应，则可以要求替代参与者对未知物体进行分类。在本发明的一个实施例中，参与者组的多数投票用于未知前景物体的分类。

在步骤218中，远程处理服务可以基于步骤216中操作人员所执行的分类来更新步骤208中使用的分类器，从而潜在提高将来的分类性能。分类器可以通过将前景物体轨迹(或者前景物体轨迹的一部分)和相应的由操作人员做出的分类添加到用于训练分类器的数据集来更新。随后，可以使用所得到的新的训练数据集来更新分类算法。摄像头专用的分类器可以在操作人员完成前景物体分类之后更新，或者可以在预定的时间更新，即，在更新分类器之前，随着时间累积前景物体轨迹和操作人员做出的相应分类。在本发明的一个实施例中，如果已经重复观察到相同的前景物体，则前景物体轨迹及其相应的分类可以仅被添加到训练数据集，从而降低添加仅为一次事件的不重要的前景物体轨迹的可能性。为了进一步提高分类算法的分类准确率，可以在从被监视的环境或不同环境下记录的负面训练样本，即相应标记的非前景物体轨迹，可以在算法被更新之前添加到训练数据集。在本发明的一个实施例中，通用分类器可以仅由监视系统的管理员来更新。例如，管理员可以只选择与一般有效性相关性最高的前景物体轨迹，即不是专用于被监视的环境的前景物体，并且因此也可以在其它被监视的环境中观察到。

随后，该方法可以前进到步骤212，其中确定在步骤218中手动分类的前景物体是否是威胁。如果前景物体不是威胁，则不采取进一步的动作，并且该方法可以返回到步骤200以便处理下一个帧。然而，如果前景物体是威胁，则可以在步骤214中采取威胁减轻动作，如前所述。

图3示出了用于在深度数据帧中执行背景减除的方法，即，前景物体的识别和隔离，作为背景的非前景物体相关图像数据的分类以及随后从在步骤202中接收的深度数据帧中消除背景。

参见图3，在步骤300中，在像素级执行背景减除，即，将每一个像素单独分类为前景或背景。步骤300的细节在图4中描述。

在步骤302中，在帧级执行背景减除，即基于各个像素的分类作为前景或背景，在深度数据帧中识别内聚前景物体或多个内聚前景物体。步骤302的细节在图5中描述。

在步骤304中，执行基于移动的前景对背景分类。在最短持续时间内静止的前景物体可以被重新分类为背景。如果帧中存在多个前景物体，则可以针对深度数据帧中的每个前景物体单独执行该方法。步骤304的细节在图6中描述。

图4示出了用于基于单个像素的深度位置执行背景减除的方法。对于由深度感测摄像头提供的帧的每个深度像素，单独基于每帧执行在图4中描述的方法。在本发明的一个实施例中，在完成图4中描述的方法之后，被处理的帧的所有像素被分类为“背景”或“前景”。在图4的方法的初始执行期间，不考虑深度值，所有像素都被分类为“背景”。

参见图4，在步骤400中，对于从深度感测摄像头接收到的当前帧的像素，获得深度值。步骤400可以针对帧的每个像素单独执行。在本发明的一个实施例中，深度值是从深度感测摄像头接收的像素的深度值。可选地，深度值可以根据由深度感测摄像头提供的多个随后的深度值计算为随时间的平均值，从而平滑深度值，或者可以在考虑摄像头专用误差、相邻像素的深度值等的情况下估计深度值。

在步骤402中，可以对由步骤202中的深度感测摄像头在单个帧中提供的深度像素数据进行下采样。在本发明的一个实施例中，深度像素数据被下采样以便减少由于执行图4中描述的方法而产生的计算负载。例如，在以30fps处理320×240深度数据像素的完整帧的情况下，图4中描述的方法将需要在1秒的时间间隔期间执行2,304,000次。在本发明的一个实施例中，通过因子12对帧进行下采样，得到80×80像素的下采样帧。因此，图4中描述的方法可以只需要在相同的1秒时间间隔期间执行192,000次。在本发明的一个实施例中，图4中描述的方法的后续步骤402-420是针对下采样帧的每个像素单独执行。可选地，可以在原始深度数据帧上执行步骤402-420，即不进行下采样。

在步骤404中，针对持续深度丢失分析像素。在本发明的一个实施例中，持续深度丢失是长时间上的不可靠的深度测量。例如，如果像素值提供了不可靠的深度数据超过10秒，则可以检测到深度丢失。不可靠的深度值可以是，例如，针对在最小或最大深度处饱和的像素和/或像素值报告的噪声深度值。当在一段时间上超过置信度阈值时，可以概率地检测不可靠的深度值。持续深度丢失的原因包括但不限于被跟踪的物体离摄像头太远或太靠近摄像头，即在摄像头的操作范围之外，具有特定反射特性的某些表面材料(例如，玻璃)和物体的跟踪表面处于陡峭的倾斜角度。此外，持续深度丢失的原因可能是深度感测摄像头的测量原理所特有的。

在步骤406中，确定像素的深度值是否受到持续深度丢失的影响。如果像素受到持续深度丢失的影响，则该方法可以继续到步骤408。

在步骤408中，像素值被设置为最大深度。在本发明的一个实施例中，最大深度是已知为背景的深度值。深度可被设置为例如在该方法的先前执行周期期间检测到的背景的深度。可选地，可以将深度设置为深度感测摄像头能够报告的最大深度。在步骤410中，该像素被分类为背景像素。

返回到步骤406，如果确定像素的深度值不受持续性丢失的影响，则该方法可以前进到步骤412。在步骤412中，维持步骤402中获得的像素值。

在步骤414中，确定像素值是否与早期执行周期期间针对相同像素报告的值相比已经改变。在本发明的一个实施例中，可以采用阈值来检测朝向或远离深度感测摄像头的移动。例如，如果像素的当前深度位置与像素的先前深度位置之间的绝对距离高于阈值，则可以检测到移动。像素的先前深度位置可以是例如在图2的方法的先前执行周期期间的像素的深度位置，或者例如通过计算移动平均值可以从多个先前的执行周期获得的一系列深度位置获得。如果确定像素值没有改变，则该方法可以前进到步骤416。

在步骤416中，维持像素的先前分类，即，如果像素被分类为背景，则像素可以保持背景像素，并且如果像素被分类为前景，则该像素可以保持前景像素。

返回到步骤414，如果确定像素值已经改变，则该方法可以前进到步骤418。在步骤418中，确定像素的深度值是否突然增加。距离的突然增加的检测可以用于检测先前已经占据像素空间的物体是否已经移出像素的空间，由此导致像素基于先前占据空间的物体之后的物体或背景来呈现深度值。在本发明的一个实施例中，如果当前报告的深度位置与先前报告的深度位置之间的距离超过阈值，则可以检测到突然增加的深度。阈值可以被设置得足够高，以确保快速向后移动的物体不会触发检测到突然增加的深度。如果确定像素的深度突然增加，则该方法可以前进到步骤410。

在步骤410中，像素被分类为背景像素。即使像素的新的深度可以是由实际的背景或不是背景的另一个物体引起的，在任何一种情况下，该方法都将该像素分配给“背景”。然而，随后对于从深度感测摄像头接收到的下一帧执行图4中描述的方法可以允许区分像素是背景还是新的前景，如下：如果在下一个帧中，像素深度值保持不变，则像素可以是背景像素。然而，如果检测到移动，则像素被重新分配给前景，如以下参考步骤420进一步描述的。

返回到步骤418，如果确定深度不是突然增加，则该方法可以前进到步骤420。在步骤420中，该像素被分类为前景。在本发明的一个实施例中，如果检测到任何种类的像素深度改变(除了像素深度的突然增加之外)，则将像素分类为前景。像素深度的变化可以由在被监视的环境中移动的物体触发。由于背景被假定为不移动，具有变化的深度值的像素一定不能是背景，因此被分配给前景。

图5示出了用于在单个帧级别执行背景减除的方法。基于通过图4中描述的方法执行的作为前景或背景的各个像素的分类，可以识别内聚的前景物体或多个内聚的前景物体。

参见图5，在步骤500中，联接前景像素以建立前景物体。在本发明的一个实施例中，具有相似深度值的相邻前景像素(即，可形成物体表面的像素)被分配给前景物体。在本发明的一个实施例中，校正前景物体中的小缺陷。例如，可以将属于前景物体的前景像素包围的背景像素或小组背景像素分配给前景物体。在本发明的一个实施例中，如果帧中存在多个独立的前景像素簇，则可以重复步骤500，从而建立或维持多个单独的前景物体。

在步骤502中，确定前景物体的几何范围。前景的几何范围可以例如通过在垂直于相机的视图的2d平面中对由前景物体占据的像素的数量进行计数来确定。此外，如果像素的尺寸是已知的，则可以基于计数的像素的数量来计算表面积。可选地，可以确定定义前景物体的3d点集合周围的边界框，并且随后可以计算边界框的体积。可选地，基于前景物体的每个3d点是特定尺寸(或与距离成比例的尺寸)的球体、立方体或长方体的假设，前景物体的总体积可以通过将球体、立方体或长方体的体积加起来而获得。前景物体的几何范围也可以通过计算前景物体的3d点上的2d网格，然后通过确定网格的表面积来获得。本领域技术人员将会理解，本发明不限于前述用于确定前景物体的几何范围的方法。

在步骤504中，确定步骤500中建立的前景物体的几何范围是否大于指定的最小几何范围。可以针对步骤500中定义的每个前景物体执行比较。如果前景物体的几何范围小于指定的最小几何范围，则该方法可以前进到步骤506。在本发明的一个实施例中，可以对于深度数据帧中的每个前景物体重复步骤504。

在步骤506中，可以消除前景物体，并且可以将与前景物体有关的像素分配给背景类别。表面积小于最小表面积的物体可以是伪造物或被认为太小而不能成为潜在的威胁的实际物体，因此不需要监视系统的注意。监视系统可以例如跟踪人类和包括狗和猫的宠物，但是其可以不被配置为跟踪较小的动物，例如鸟。

返回步骤504，如果确定前景物体的尺寸大于指定的最小尺寸，则该方法可以前进到步骤508。在步骤508中，与在步骤500中建立的前景物体相关的像素被联接到前景物体。相关像素可以是虽然属于前景物体，但因为这些相关像素可能没有移动而不一定通过图4中描述的方法检测到的像素。考虑一个场景，其中被监视的环境中的人只移动一只手，另一只手不移动。因为手正在移动，所以被认为是前景(100％或非常高的前景概率)。然而，因为人的躯干当前没有移动，而是在过去移动，所以将其视为具有较低概率的前景(参考图6，参见下面改变前景对背景概率的讨论)。由于手的高概率前景像素局部连接到躯干的低概率前景像素，所以躯干像素的前景概率可以被提升到手像素的前景概率，从而形成单个相干高概率前景物体。相反，具有零或接近于零的前景概率的像素可以不被联接到前景物体，从而防止背景(例如，附近的墙)无意中被添加到前景物体。在步骤508中，将代表移动手的前景像素附近的像素分配给前景物体，从而使得手臂以及随后人的躯干成为前景物体的一部分，直到整个人是前景物体。随后，即使仅像素的子集指示移动，也可以保持形成前景物体的像素的簇，由此避免前景物体的静止元素被重新分配到背景。在本发明的一个实施例中，使用洪水填充算法来将相关像素联接到前景物体。可以对于深度数据帧中的每个前景物体重复步骤508。

在步骤510中，生成全分辨率前景物体。在本发明的一个实施例中，前景对背景像素分类和前景物体的识别可以基于下采样的深度像素数据来执行。在本发明的一个实施例中，在步骤510中，将从下采样深度像素数据识别的前景物体恢复成由深度感测摄像头提供的非下采样深度数据的分辨率。通过在步骤400中执行的下采样而消除的像素(并且因此其未被分类为前景或背景)可以基于与包括在下采样深度数据帧中的相邻像素的接近度以及像素的深度值而被联接到前景物体。例如，考虑未被包括在下采样深度数据帧中并且紧邻包括在下采样深度数据帧中的前景像素的像素。进一步假定两个像素具有相似的深度值。因此，下采样消除的像素将被联接到下采样的前景像素所属于的前景物体。相反，考虑具有与背景一致的深度值并且位于下采样的前景像素和下采样的背景像素之间的像素。由于像素的深度值指示像素是背景，所以像素不会被分配给前景物体。在本发明的一个实施例中，使用边缘保持平滑滤波器(例如，双边滤波器)来建立作为背景的像素与作为前景的像素之间的边界。基于滤波器被确定为前景的像素可以被联接到前景物体，而基于滤波器被确定为背景的像素可以被分配给背景。

图6示出了用于执行基于移动的前景对背景分类的方法。基于永久静止的物体不是威胁因此不需要监视的基本原理，在最短持续时间内静止的前景物体可以被重新分类为背景。更具体地，可以以概率方式执行前景对背景确定。例如，当前正在移动的物体可以被分配100％的前景概率。当物体保持静止时，物体是前景物体的概率可以逐渐减小。在图6中描述的方法可以依靠定时器，前景定时器，来跟踪物体静止的持续时间。在本发明的一个实施例中，定时器可以是向下计数的定时器，其被初始化为可配置的时间间隔，该可配置的时间间隔定义了在其之后前景物体可以被认为是静止并且因此可被消除的持续时间(即，具有0％的概率是前景物体)。在图6中描述的方法可以针对每个前景物体单独执行，并且用于追踪物体的静止的持续时间的每个定时器可以与追踪其他物体的静止的持续时间的其他定时器无关。

参见图6，在步骤600中，确定前景物体是否已经移动。在本发明的一个实施例中，如果在当前深度数据帧和先前深度数据帧或者一系列先前深度数据帧之间表示前景物体的像素的最小数量在“前景”和“背景”之间改变和/或反之亦然，则检测到移动。在本发明的一个实施例中，采用要求最小数量的像素在前景和背景之间改变的阈值来检测物体的移动。阈值可以被设置为使得噪声深度测量不会错误地指示移动。如果确定前景物体已经移动，则该方法可以前进到步骤602。在步骤602中，定时器被重置为其初始值。如果确定前景物体没有移动，则该方法可以前进到步骤604。

在步骤604中，定时器递减。定时器可以递减基于该方法的执行频率的时间量。例如，如果从深度感测摄像头接收的每帧执行一次该方法，并且假定视频摄像头提供每秒30帧，则该定时器减少大约33ms。

在步骤606中，确定定时器是否到时。可以对于与物体有关的每个定时器单独确定。如果确定定时器已经到时，则该方法可以前进到步骤608。在步骤608中，消除前景物体，并且可以将消除的前景物体的像素重新分配给背景类别。

返回到步骤606，如果确定定时器未到时，则该方法可以前进到步骤610，其中可保持前景物体，即其中前景物体未被消除。

在本发明的一个实施例中，可以在没有背景减除的情况下执行先前描述的图2-图6所示的方法。更具体地，可以由本地计算设备向远程处理服务提供包括未分离的前景和背景的原始2d表示。远程处理服务然后可以在分类前景物体之前基于从本地计算设备接收到的原始2d表示来识别前景物体。

本发明的实施例可以使监视系统能够有效且可靠地识别威胁并将威胁事件与非威胁事件进行区分。监测系统可以对检测到的物体进行分类，并且基于分类可以决定物体是否是威胁，而不是针对被监视的环境中的任何检测到的活动都发出警报，从而减少虚假警报的数量。在分类不成功的情况下，本发明的实施例可能仅需要操作人员的介入，从而降低了操作成本。此外，如果需要人工干预，则可以基于由操作人员手动执行的分类来随后提高分类。另外，根据本发明的一个或多个实施例的监测系统可以由没有技术背景的用户建立。例如，当改进的分类算法变得可用时，监视系统也可以被远程更新，从而避免了对第三方专业设置和维护的需要。本发明的实施例依赖于背景减除，其可以消除不相关的背景数据，从而有助于分类任务和提高分类性能，并且进一步减少从本地摄像系统传输到执行分类的处理器的数据量。

虽然已经关于有限数量的实施例描述了本发明，但是受益于本公开的本领域技术人员将会理解，可以设计出不脱离本文公开的本发明的范围的其它实施例。因此，本发明的范围应该仅由所附权利要求来限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·W·泰克曼;H·达尔坎普
技术所有人：灯塔人工智能公司
我是此专利的发明人

上一篇：混合设备和用于混合介质的方法与流程
上一篇：静电纺丝纳米纤维生物支架制造设备以及生产系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。