视频监控系统和设备的制作方法

文档序号：12554296阅读：231来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明总体涉及视频监控领域。更具体地，本发明涉及隐私支持计算机视觉系统领域。

背景技术：

数字成像技术、计算能力和计算机视觉方法的进步导致计算机视觉系统的广泛使用，所述计算机视觉系统处理数量日益增长的应用。

计算机视觉系统的应用之一是视频监控，其中的挑战是自动检测紧急情况。紧急情况可以包括火灾、暴力事件、犯罪、医疗紧急情况等。因而，用于自动监控的计算机视觉系统的广泛安装可以显著地有益于社会。

然而，存在许多这样的地点，其中监控摄像头的安装将会危及个人隐私。洗手间、浴室、游泳池、私人住宅只是这种地点的若干示例。

此外，由视频系统提供的隐私保护可能不提供令人满意的隐私保护，因为由摄像头捕获的视频可能由于错误或恶意安全攻击(“黑客入侵”)而泄漏。

因此，越来越需要一方面将提供计算机视觉系统的功能、另一方面将保护成像个体隐私的视频系统。

在本公开中，描述了实现计算机视觉自动监控方案同时保护用户隐私的方法和系统。

技术实现要素：

本发明包括隐私支持计算机视觉系统、方法、设备和相关的计算机可执行代码。

计算机视觉系统可以被定义为用于(A1)通过一个或多个视频摄像头从特定场景获取视频数据、进一步(A2)自动分析所获取的数据、以及(A3)中继所述分析的结果以供系统进一步使用的系统。

在上述定义中，需要确保显著的灵活性以使该定义涵盖广泛的各种可能的计算机视觉系统：(A1)视频数据可以通过单色、彩色或多波段传感器、单摄像头或立体摄像头在电磁谱的可见域、UV域或红外域中获取视频数据、以及其他传感数据(例如音频、3D等)。

(A2)自动分析所获取的视频的目标可以是监视、识别和跟踪某些人和/或对象；检测某些情况并提取某些数据等。计算机视觉所解决的问题的范围至少可以与能被委派给获取相同视频流的人类观察者的任务一样广泛。

对于(A3)中继所述分析的结果以供系统进一步使用，“进一步使用”可以根据广泛的可能应用而广泛地变化。它可以是人或系统的警报、某些特定情况的视频记录、定量分析等。

隐私侵犯可以定义为某些信息向某些人类观察者的泄漏。因此，隐私威胁是指某些信息泄露给未授权用户访问的风险。对于不同的用户和情况，被认为侵犯隐私的信息等级可能显著不同。对于一些人来说，仅仅是他们什么时候回家的信息就可能被认为是隐私侵犯，而其他人可能喜欢将视频从他们的私人卧室流传输至开放的互联网访问。

因此，针对计算机视觉系统实现隐私的方法/设备应该防止泄漏有损害的信息，同时仍然实现计算机视觉系统的功能。

大量可能的计算机视觉系统和应用、以及用户隐私的宽泛定义使得不可能明确地描述针对每个特定情况的最佳方案。然而，本公开的目标是描述若干系统和方法，这些变型涵盖了在计算机视觉系统的特定实施例中支持用户隐私的方案的穷尽集合。

在简化视图中，计算机视觉系统包括：视频摄像头组件/子系统，用于获取视频/图像；处理组件/子系统，用于从视频/图像提取数据，以得到来自视频的计算机视觉信息；以及传输组件/子系统，用于向远程计算机传输结果和/或视频，以进一步存储、处理或进一步传输。如果敏感内容到达其可以被进一步传输、复制和/或存储和访问的位置，则可能危及隐私。

一种公开的计算机视觉系统中的隐私支持方式是将视频摄像头与计算机视觉模块集成，并将所获取的视频与进一步传输完全隔离，从而仅使计算机视觉模块中导出的结果和信号对传输组件/子系统可用，以进一步处理或传输。

另一种公开的计算机视觉系统中的隐私支持方式是在进一步处理和传输之前，在摄像头内对所获取的视频进行处理并取消/删除/修改危及隐私的信息。可以根据隐私的相关定义来定义所擦除、删除、重写或修改的信息。在一个实施例中，可以检测到参与者的面部并使其变模糊。在其他实施例中，可以遮住或擦除裸露的皮肤区域。在另一实施例中，可以擦除所有公开人的身份的信息。在另一实施例中，可以擦除所有人及其运动。在另一实施例中，对所有获取的视频进行处理，并且仅从视频中提取进一步处理所需的某些计算机视觉描述符(如所提取的用于分类的特征、运动流、分割结果、检测到的边缘等)，并使其对传输组件/子系统可用，以进一步处理或传输。

根据本发明的一些实施例，可以提供一个或多个视频监控单元，包括：(i)视频捕获设备(例如，视频摄像头)；(ii)处理电路，适于修改/净化通过视频捕获设备捕获的视频流，以生成无隐私侵犯数据/图像的净化后的视频流；以及(iii)通信电路，用于向一个或多个监视单元传输净化后的视频流以进行分析。进而，监视单元可以分析净化后的视频流，以识别通过监控单元捕获的在区域内发生的安全事件。

根据一些实施例，净化/修改视频流以保护隐私可以包括：提取视频数据的特定参数，所述参数已被发现指示紧急情况。然后，净化后的视频流可以包括所提取的参数，而没有其他视频数据，从而允许监视单元(基于所提取的参数)识别紧急情况发生，而无需将完整的视频流发送给监视设备，使得如果该流被拦截或偶然落入错误的对象手中也不会危及隐私。

备选地或组合地，可以执行从捕获到的视频流中删除隐私敏感数据的过程，以生成净化后的视频流。例如，可以识别视频流中的个体的面部，并删除或使之模糊以防止对其进行识别。类似地，可以删除或使视频流的特定区域(在其中拍摄了隐私事物)模糊。例如，可以从视频流中删除来自厕所附近的区域。

附图说明

在权利要求书中特别指出和明确要求保护被视为本发明的主题。然而，通过参阅结合附图阅读的以下详细描述，可以最好地理解本发明(关于结构和操作方法)及其目的、特征和优点。在附图中：

图1A是现有技术计算机视觉系统的示意图；

图1B是根据本发明的一些实施例的隐私支持计算机视觉系统的示意图；

图1C是根据本发明的一些实施例的隐私支持计算机视觉系统的示意图；

图1D是根据本发明的一些实施例的示例性计算机视觉系统的示意图；

图2是根据本发明的一些实施例的计算机视觉系统的结构的示意说明；

图3是根据本发明的一些实施例的示例性隐私保护自动化视频监控系统的框图；

图4是根据本发明的一些实施例的示例性视频监控系统的操作的示例性步骤的流程图；以及

图5是根据本发明的一些实施例的神经网络计算机视觉系统的结构的示意说明。

应当理解，为了说明的简单和清楚起见，附图中所示的元件不一定按比例绘制。例如，为了清楚起见，一些元件的尺寸可能相对于其他元件被放大。

应当理解，附图仅呈现以阐明以下详细描述，因此，其本质上是示例性的，并且不包括本发明的所有可能的排列组合。

具体实施方式

在计算系统中可用的从嵌入式设备到云上的服务器的所有级别的计算能力的进步以及计算机视觉和深度学习算法的进步为在许多人类活动领域中实现计算机视觉系统铺平了道路。

计算机视觉解决方案系统的快速普及导致了无处不在的且数量不断增长的安装摄像头。新的和新兴的系统需要在隐私敏感区域中安装摄像头，例如私人住宅、游泳池、更衣室、浴室等。

这种进步导致了一定的矛盾：一方面，新的计算机视觉方案和系统帮助拯救生命和使生活更容易，另一方面，在越来越多的地方和位置类型中广泛安装视频摄像头引起了对于潜在危害被这些摄像头监视的人的隐私的担心。

值得注意的是：侵犯隐私的并非摄像头监视人/场景这一事实，而是所获取的视频或信息将被其他人获得或可能被其他人访问这一事实。

因此，根据本发明的实施例的隐私支持计算机视觉系统应降低或防止滥用隐私侵犯视频、图像和/或信息的可能性，同时保持计算机视觉系统的功能。

值得注意的是，隐私的定义可能取决于许多因素(包括有关个体、环境、地点及其公共/私人性质、管辖地域等)而变化。一些人可能喜欢将其生活和性事务流传送至互联网以供公众访问；而对于一些其他人，仅公布他们某一时间在某个地点的事实即被认为是侵犯隐私。

由计算机视觉系统从获取的视频中导出的信息可以取决于计算机视觉系统被设计和编程的目的而变化。在许多情况下，导出的信息不包含任何危害隐私的信息。

作为第一示例，考虑计算机视觉系统监视浴室并在儿童在浴室中溺水的情况下和/或在医疗紧急情况下提供警报-来自浴室的视频流是极度危及隐私的，然而用于紧急情况的警报并不危及隐私，具有非常低的触发概率，并且如果触发则可以挽救生命。

上述示例的隐私支持实施例之一是与视频获取摄像头相邻的完整的计算机视觉系统，其中所有获取的视频保持在本地系统内，而只有高级别信息(报警信号)可以被传输至系统外部，而原始获取的视频绝不会离开本地系统/设备。

图1A和1B对上述示例进行了进一步说明。图1A示出了现有技术的计算机视觉系统的框图，其中摄像头110获取场景的视频流，并将所获取的视频流进一步中继至接口块120，视频可以从接口块120进一步传输至网络、远程计算机、存储器或任何其他访问。到达块120的任何信息可以被认为是潜在有危害的。130是计算机视觉(CV)块，其处理所获取的视频并提取所需信息，如特定情况下的警报，然后经由132传输以供进一步使用。

图1B示出了隐私支持实施例之一，其中计算机视觉块130与摄像头110相邻。计算机视觉块130分析视频流，从中提取必要信息，并经由132进一步仅传输所提取的信息，而在计算机视觉(CV)块130中分析了视频流之后将其丢弃。仅通过计算机视觉模块提取的相关信息到达接口块120并被进一步传输，而视频甚至不到达块120，因而无法被进一步传输危及隐私。

然而，不是所有计算机视觉系统都是完全等同的。考虑安装在私人住宅的用于入侵检测的计算机视觉系统。该系统的输出在检测到私人住宅的入侵者之后传输其图像和视频。具有入侵者的视频可以传输到适合的安保机构。然而，家人会关心他们的日常生活和事务的视频和图像不传输到家庭住宅之外。

图1C示意了支持该场景的用户隐私的实施例。110是摄像头，用于获取视频；115是处理模块；120是接口模块以及130是计算机视觉模块。处理模块115的目的之一是修改/净化来自摄像头110的视频流，删除或呈现该视频的无害的危及隐私的内容。隐私消除信息被中继到接口模块120，然后到计算机视觉处理模块130。

存在模块115的各种特定实施例。在一些实施例中，熟悉的人被检测、识别、从图像中分割出来，然后通过模糊、涂抹或以其他方式处理以擦除危及隐私的内容。所述处理仅可以在特定情况下应用，这可以取决于位置、时间、场景、情况、衣着状态；该处理可以仅应用于图像的特定区域或身体部位(例如面部、裸露的皮肤或其它所选部位)。

在其他实施例中，模块115的操作被组织为模块130中的计算机视觉算法之前的预处理。该预处理的示例包括：特征提取，以用于进一步的机器学习算法；提取边缘、运动流、以及在块130中进一步使用的其他参数和信息。可以仅将所提取的参数中继到接口模块120，而在115中丢弃原始视频。

模块120是许多不同实施例的示意说明。它被称为“接口模块”，然而该称谓不应被视为对理解的限制。它示意性地表示系统处理流水线内的点，在其之前的所有信息被认为是不可从外界访问的，而其之后的信息被认为是潜在可访问的。该信息可以通过各种不同的方式中继，例如视频的有线或无线输出，例如，经由USB(通用串行总线)、Wi-Fi或其他接口；可以被记录到闪存或其他存储器载体，可以被传输以在同一设备内处理或传输到远程计算机。

图1D示出了所公开的本发明的几个方面。摄像头110获取场景的视频，并将其向提取/净化模块120(下文中称为“E/S模块”)中继，该模块提取进一步的视频处理所需的信息和/或通过删除隐私侵犯数据来净化视频，并将提取/净化后的信息中继到处理模块140中进行视频处理，和/或中继到云处理150。

例如，计算机视觉应用可能需要面部检测。面部检测方法之一是通过计算级联滤波器的响应，然后将响应与某些阈值进行比较。在这种情况下，信息提取阶段将是对图像应用相关的级联滤波器，并且所计算的对所应用滤波器的响应的系数将是提取到的信息，其被传输以用于进一步处理。可以在每个像素、或分布在图像上多个位置的稀疏网格的每个点、在某些关注区域定义图像上应用滤波器集合的位置，或根据计算机视觉应用的其他模块来确定图像上应用滤波器集合的位置。在稍后阶段，所提取的系数的集合可以用于确定是否有面部在对应位置，并识别特定面部。

处理模块140和/或云150中的处理的结果可以包括关于检测到的预定义情况的报告和信息，该结果通过数据总线155传输以便在系统中进一步使用。

145表示从视觉系统到摄像头的反馈，用于对摄像头进行任务特定调谐，例如，自动曝光、对焦、白平衡和其他参数。常规地，摄像头被设计和优化以获得最适于人眼观看的图像/视频。然而，对于计算机视觉系统，图像质量的标准通常是不同的。

将视频从摄像头110中继到E/S模块120的数据总线115支持中继视频流所需的比特率。视频流不从相机模块130中继出来，而仅有净化/提取的视频信息在数据总线125上中继。因此，总线125上的净化/提取的信息的比特率会明显低于在总线115上的视频比特率。

在本发明的实施例之一中，总线125所支持的最大比特率明显低于质量令人满意的视频的比特率这一特性防止了视频从相机模块130传输。源于每帧几十字节到几千字节或每秒几百字节到几十千字节的比特率对于许多应用来说是足够的。例如，对于面部识别应用，可以不传输面部的图像，而是仅传输所提取的描述符或签名。签名的大小可以从几十字节到几千字节。描述符可以是在应用相应的滤波器之后被提取为一组系数的特征矢量。

在E/S模块120中运行的视频处理固件从视频流中净化/提取/导出所需信息。E/S模块120可以包括CPU、GPU、DSP、FPGA和其他信号、图像、视频处理电路。总线165表示用于编程、配置和更新固件或硬件架构的总线。

在本发明的一些实施例中，使总线165在E/S模块120的编程和/或配置之后“可燃”。因此，通过终止重新编程和重新配置的进一步能力来终止配置。这可以通过可燃熔丝、OTP(一次可编程)元件或本领域已知的其它方法来实现。

175表示可选的临时视频输出，其可以在初始阶段用于系统的调整、调谐和训练。随后，视频输出175可以通过烧断开关来永久禁用、或者通过本领域已知的其他方式永久或可撤销地去激活。在可撤销地去激活视频输出的情况下，可以通过摄像头上的本地开关来实现，其中按下按钮或转动开关或删除按键禁用摄像头的视频输出能力。

图2示意性地示出E/S模块120的一些实施例的几个方面。240表示接收视频流以进行处理的输入接口。接收到的视频流可以在CPU(235)、GPU(245)、专用DSP(225)、FPGA或其他可编程架构电路(240)或本领域已知的其他处理电路上处理。

在块225、235、240、245上执行的固件和在块240、230中的可编程硬件架构定义从视频中净化/提取/导出哪些信息，并中继至系统以外。因此，为了适当维护隐私保护，适当地控制更新固件和FPGA的过程十分重要。

配置控制器210表示负责固件更新的硬件。它可以更新固件和/或重编程FPGA。固件可以被闪存到闪存存储器220、OTP存储器230或其它可保持存储器中，以加载到RAM中并在系统操作期间执行。净化/提取/导出的数据经由数据输出接口250中继以进一步使用。

可以实现各种安全机制，以保护系统中的固件免受未经授权的修改。所述机制包括固件加密、密码保护的固件更新授权、私钥和公钥加密和授权、以及在信息和计算机安全领域中已知的其它方法。

一次可编程(OTP)存储器和OTP配置开关、以及可燃熔丝可以用作固件更新/FPGA编程的终止机制。

下面更详细地考虑所公开的系统的一些具体应用及其实现的实施例。

作为应用的示例以及一些实施例，考虑安装在私人住宅的多个位置的监控系统。系统监控的目的是自动检测和报告紧急情况，如火灾、医疗紧急情况、入侵和暴力事件。系统对紧急情况的反应可以是通过电话或计算机网络报告检测到的情况，其包括针对保护隐私而净化的描述性数据。

本发明的一些实施例是完整的计算机视觉系统，其被编程并训练为从通过一个或多个摄像头获取的视频流(以及可选地，从其他传感器中获得的数据)中检测紧急情况。

考虑从视频流中进行火灾检测的任务。火的特点是烟雾、火焰、照明变化以及由此导致的环境和物体外观的变化。烟雾和燃烧对象的外观变化可以通过背景减除、以及分析视频流中的当前帧与已知背景(通过在扩展时段上对视频的累加和平均而获知)之间的差异来检测。

因此，用于火灾探测的系统的实施例之一将包括特征提取阶段，其中特征基于颜色谱直方图和时域中的谱分析(时域傅立叶变换)。传输所提取的特征以进一步分析。进一步分析包括将所提取的特征应用于训练后的检测器，训练后的检测器进而分离有火和没火的视频序列。检测器针对由人类观察者标记的真实基准(ground truth)序列进行预训练，该真实基准序列包括许多有火和无火的情况。从用于训练检测器的真实基准数据中提取完全相同的特征。

火焰和烟雾也可以是具有特征颜色签名的动态过程。这种动态特性可以通过计算视频的时间导数来获得，该时间导数是相邻视频帧之间的归一化差。通过分析火焰和烟雾的颜色、纹理和动态特性，来区别火焰和烟雾与其他动态过程(如对象和物体的运动)。

换句话说，可以观察并分析火情的许多样本视频，并且确定图像数据上火焰效果的特性特征。然后，可以将这些特性特征编码成用于评估这些特征并将它们与某些阈值进行比较的算法。通过调整阈值，算法可以改善区分度，直到实现满意的性能。将该方法和类似的方法成为算法方法。

用于算法方法的一些实施例是这样的系统，其中在视频摄像头附近的处理硬件上执行计算机算法，并且仅算法的结果被进一步传输。例如，火灾可以通过代码‘1’表示，暴力通过代码‘2’表示，入侵通过代码‘3’表示，医疗紧急情况通过代码‘4’表示。这些代码然后可以通过系统继续传输。

图3示意性地示出了隐私支持计算机视觉系统的嵌入式方法。300表示完整的计算机视觉系统，其包括视频摄像头310，用于获取视频并且通过总线315将其传输到处理模块320。处理模块320可以执行各种计算机视觉算法，如对象检测和跟踪、场景分析、机器学习和深度学习算法、以及其他算法。

为了清楚和简洁起见，未示出系统的其它可选的传感器和组件。

当程序员通过观察要检测的现象(诸如烟雾或火焰)以及其他图像或视频(没有烟雾或火焰)之间的差异来寻找将有助于区分有火焰和没有火焰的视频的“特征”时，备选方法将被称为机器学习方法。从图像中提取的多个不同特征形成所谓的特征矢量，其是一组数字，其可以被认为是多维特征空间中的点或矢量。

特征提取器是针对输入数据(在这种情况下是帧集合或视频序列)运行的程序，并从该输入数据中提取特征。

在计算机视觉领域中已知各种不同的特征。例如，梯度直方图(HOG)、SIFT、小波、DCT等。许多其它特征在本领域中是已知的，并且对其进行穷尽列举是不可能的。此外，可以为每个特定任务设计定制和新特征。

在定义特征集合并实现(编码)特征提取器之后，从被称为正例的具有现象(例如火焰)和被称为负例的不具有现象(无火焰的视频集合)的视频提取特征。使用来自正例和负例的特征矢量集合来训练分类器。

在检测阶段，使用滑动窗口扫描输入帧，该滑动窗口用于选择关注区域。然后，提取特征并将其量化为来自关注区域的特征矢量，并且向分类器传送，分类器进而基于输入特征矢量来计算关注区域是否属于给定类别。

滑动窗口可以沿着图像移动，处于不同的位置和不同的尺度(scale)，覆盖一系列可能的对象位置。

要检测的对象的示例可以是面部、人、动物、物体、汽车、建筑物。更高级的检测示例可以是检测某些场景/情况，如火灾、入侵、暴力事件、医疗紧急情况等。

更高级的视频分析可以包括分层分析，当逐帧跟踪检测到的对象，分析它们的运动和相互交互时，提取基于场景动态、对象运动和交互的次要特征，并将其用于进一步的训练、场景和情况分析、检测和分类。

图4示意性地示出了隐私支持计算机视觉系统的机器视觉方法的框图。410是视频摄像机。420是表示特征提取和其他所需处理的框。所提取的特征连同可选的其它信息通过总线440传输，以进一步识别和处理。由于所获取的视频不通过总线440传输并且在处理框420之后被丢弃，隐私得到了保护。

图5示意性地示出了本发明的一些实施例，包括神经网络。深度学习(深度结构化学习、分层学习或深层机器学习)是基于一组算法的机器学习分支，这些算法试图通过使用复杂结构或其他方式的多个处理层来对数据中的高级抽象进行建模，所述多个处理层包括多个非线性变换。

诸如深度神经网络、卷积深度神经网络、深度信念网络和复现神经网络的各种深度学习架构已经应用于诸如计算机视觉、自动语音识别、自然语言处理、音频识别和生物信息学等领域，已表明它们对各种任务产生高水准的结果。

输入图像在神经网络的中间层的内部表示形式和原始输入图像并不类似，并且在大多数实际情况下不包含重构原始输入图像所需的信息，因此自然地保护了隐私。

这个实施例基于将神经网络划分为至少两个部分，其中由一个或多个处理层组成的第一部分与视频摄像头相邻，神经网络的该部分的输出传送至一层或多层的第二部分以进一步处理。

这种方法不仅具有隐私受到保护的好处，而且通过节省通信带宽(因在初始层中压缩)并且节省计算能力(因将最终层的计算负担转移到远程计算)具有附加优点。

510表示输入图像阵列，其中520表示与该图像阵列的特定小区域相对应的若干相邻像素。

它可以是视频摄像头的原始输出帧，或在进行一些处理(诸如区域选择、几何、值变换、跟踪和选择的操作、以及图像、视频处理和计算机视觉领域中已知的其他处理)之后的图像。图520示出了来自图像的所选部分的几个像素。530和550一起形成多层神经网络。

这里公开的新发明之一是将神经网络划分为多个部分，例如530和540，数据通过一个或多个数据路径540从530传送到550。

需要注意的是，虽然馈入神经网络的输入数据可以是原始图像或视频数据，但是在神经网络的前几层内是压缩和处理后的信息。

此外，如果神经网络被训练用于解决特定问题，则由其层提取的信息是特定相关信息，而不相关且潜在的隐私侵犯信息被滤除。

数据路径540可以是有线或无线的，具有目的地550。应理解，这里所的描述2个数据路径/神经网络部分可以是5个数据路径/神经网络部分、10个数据路径/神经网络部分、或1000个数据路径/神经网络部分。可以使用各种架构的神经网络和各种划分为部分530和550的划分方式。在一般情况下，部分530和550可以被认为是通用计算机视觉处理，被划分为第一部分530和第二部分550，其中540表示信息在530中的处理之后被发送，以在550中进一步处理。

这种划分的益处之一是通过将视频部分的分段与外界隔离来支持隐私。视频的帧被输入到处理部分530，然而，输出540是网络根据网络训练提取的与特定事件的检测相关的特定信息。

这种划分的另一益处是能够有助于远程视频处理。对于许多计算机视觉应用，设备内有限且相对较弱的处理能力限制了应用的数量和质量，而视频流的大带宽限制了发送视频流以进行远程处理的能力。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗恩·弗瑞丹特尔;伊利亚·布雷瓦兹;贾勒·佩列茨;
技术所有人：小蚁科技（香港）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。