基于视觉的操作方法和系统的制作方法

文档序号:6410244阅读:185来源:国知局
专利名称:基于视觉的操作方法和系统的制作方法
背景技术
从诸如服务器、个人计算机、膝上型计算机和大型计算机的多功能设备,到诸如设置在各种设备、工具和其它装置中的专用集成电路和处理器的专用装置,计算机系统已变得几乎无处不在。通常计算机是从包括键盘、鼠标、麦克风、摄像机、传感器之类的一组公用接口来进行输入的。然而,虽然对于专用计算机而言,已知道各种各样的输入设备,但是如今用于通用计算机的处理系统却主要集中于两种输入类型来自键盘、鼠标、触摸屏等的基于字符和基于光标的输入,以及来自麦克风的基于语音的输入(对于语音识别而言)。尽管对于那些计算机存在许多应用,然而在某些情形下它可能难以为用户提供所必需的输入。例如一个小孩或者老人可能无法足够熟练地提供正确的键盘或语音命令,但是他们能做出可辨别出意义的手势,如求助手势。在另一些情形下,也许没有用户,因此无法得到基于语音或基于字符的指令。不过,给定环境的变化可提供足够的视觉数据,从而触发对相关动作的需求(例如,屋内烟雾可触发警报需求)。因此,需要可接收基于图像或者视觉的输入并对其进行操作的通用处理系统,其中这些输入或者单独或者与常规输入结合起来进行输入。
其中可利用视觉输入而受益的一个领域是面部识别。面部识别技术在如为安全目的处理图像以确定一个面部是否与一个或多个参照考面部匹配方面是众所周知的。这种技术可用于如确定是否准许用户进入住宅、办公室或类似的环境。目前的面部识别方法,即通常涉及多个图像之间面部特征(feature)的比较和评估匹配度的计算的方法已遇到了一些问题。其中一个问题是这种系统有可能产生假肯定匹配。例如,假肯定结果意味着可准许未经授权的用户进入住宅。产生假肯定匹配的倾向意味着对试图要被识别的用户通常仅做了有限次数的识别尝试。然而,系统也可能产生假否定;因此,防止假肯定匹配所需要的限制趋向于增加假否定数量的增加,这导致在许多情况下会拒绝合法用户的访问。因此,需要一种系统,它可以将假肯定匹配的情况限制到任意低的水平上,以使得想要被识别的用户能尝试进行他/她所希望的很多次识别,而不用担心会准许未经授权的用户进入的情况。

发明内容
在此提供了一种基于视觉的处理系统,它可从环境中得到图像、处理图像(可选地是,不需要另外的用户输入或者交互作用)以及根据图像内容采取动作。一些实施例包括为了安全进入如住宅或者办公室等环境而进行的面部图像处理。其它一些实施例包括利用图像监控环境,例如为了安全目的。本文公开了各种各样实施例,每个实施例都直接利用处理图像的能力,而不需要基于键盘或鼠标的用户输入的干预。
本文还提供了用于确定面部图像是否与参考图像匹配的方法和系统,其中可使假肯定的概率为任意小的值。因此,这种方法和系统允许希望要被识别的用户进行想要的多次尝试直到出现匹配为止,而不用担心会准许未经授权的用户访问。
在一些实施例中,本文所提供的是用于确定已获取的图像是否与参考图像匹配的方法和系统。这些方法和系统提供了获取数字图像,以便与参考图像比较;在获取的图像中识别一组像素;在参考图像中选择与获取的图像中的像素组最佳匹配的像素组;对至少一个其它的像素组重复上述步骤;比较参考图像中所选择的像素组和获取的图像中的像素组的相对位置;以及确定相对位置随机出现的概率。
在一些实施例中,这些方法和系统把随机匹配的概率与阈值概率进行比较,以推断图像匹配。阈值可以被设置成使假肯定的概率为任意低。
在一些实施例中,诸如通过根据邻近像素值的平均值来确定像素的亮度,对图像进行过滤;将像素的亮度值与阈值进行比较;如果亮度小于阈值,则把过滤的像素值设置为0;如果亮度大于或等于阈值值,则把过滤的像素值设置为1。在一些实施例中,通过把诸如眼睛的已知特征定位到已知坐标上,从而将图像归一化。
在一些实施例中,用于确定获取的图像的像素组与参考图像的像素组之间匹配的方法和系统包括定义已获取图像的第一像素组和已获取图像的第二像素组之间的第一向量;定义参考图像的第一像素组和参考图像的第二像素组之间的第二向量;以及计算第一向量与第二向量间差异的绝对值。可对所期望的多个像素组进行此计算。
在一些实施例中,本文所说明的方法和系统提供了将随机匹配概率与阈值概率比较,用于断定图像匹配;对不同的参考图像重复上述比较步骤;以及在得到与其中一个参考图像匹配之前允许不限数量的不匹配。一旦确定了匹配,可将已获取的图像添加到参考图像的数据库中,以便进一步匹配。
在一些实施例中,本文所说明的方法和系统包括基于处理器的系统,它具有基于图像的操作系统。该系统可包括设置在环境中的摄像机,以及与摄像机数据连接的基于计算机的系统,基于计算机的操作系统具有一种操作系统,它可响应于由摄像机所获取的图像数据来操作基于计算机的系统。该操作系统可只根据图像数据来操作基于计算机的系统。此系统可与另一个系统设在一起,后者能响应于所述操作系统所采取的动作而接收来自基于计算机的系统的指令。其它系统可以是例如安全系统、报警系统、通信系统、自动柜员系统、银行系统、保险箱、另一摄像系统、扬声器系统、麦克风、计算机、服务器、膝上型计算机、掌上计算机、蓝牙使能设备、娱乐系统、电视机、录音机、设备、工具、汽车系统、运输系统、车辆系统、传感器、发射器、发射机、收发器、天线、发送机应答器、游戏系统、计算机网络、家庭网络、局域网、广域网、因特网、万维网、卫星系统、电缆系统、电信系统、调制解调器、电话或蜂窝电话。
在一些实施例中,操作系统可识别图像中的特性,并根据特性采取动作。该特性可能是例如匹配的面部、匹配的代码、动作、生物计量(biometric)、非匹配元素、环境中的结构、面部表情、环境中项目的存在、环境中项目的不存在、项目的运动、图像中新项目的出现、烟、火、水、泄漏、环境的破坏、人的动作、宠物的动作、小孩的动作、老人的动作、脸、手势、摄像机前面部的位置、图像的变化、图像中面部的检测、讲话、嘴唇的动作、手指的动作、手的动作、手臂的动作、腿的动作、身体的动作、头部的动作、颈部的动作、肩部的动作或者步态。在一些实施例中,特性(characteristic)是匹配面部,而动作便是打开安全系统。
本文说明的方法和系统可设在许多环境中,比如机场、飞机、运输聚集场所、公共汽车、公交车站、火车、火车站、出租车聚集场所、汽车、卡车、货车、车间、聚集场所、入场口、运动场、音乐会、露天大型运动场、运动聚集场所、音乐会聚集地、博物馆、商店、住宅、水池、体育馆、健身俱乐部、高尔夫俱乐部、网球俱乐部、俱乐部、停车场、计算机、膝上型计算机、电子商务环境、ATM、存储区域、保险箱、银行、或者办公室。
在系统为允许采取动作而对面部进行匹配的情况下,系统还可要求更进一步的确认,比如提供钥匙、输入代码、插入卡片、识别声音、识别指纹和识别其它的生物计量。
这里所公开的方法和系统还可包括将摄像机设置在环境中;捕捉环境图像,所述图像包括环境的事件图像;提供基于视觉的操作系统用于处理图像;处理图像以识别出事件的特性;以及根据所述特性采取动作。


图1是基于视觉系统的系统部件的高级示意图。
图2是视觉处理系统的部件的示意图。
图3是图2中基于视觉的处理系统的附加部件的示意图。
图4是基于视觉的处理系统的备选实施例的示意图。
图5是应用了基于视觉的操作系统的视觉处理系统的处理过程的高级流程图。
图6是显示基于视觉的处理系统的附加处理过程的流程图。
图7说明了可使用基于视觉的处理系统的住宅环境。
图8说明了可使用基于视觉的处理系统的运输环境。
图9说明了可使用基于视觉的处理系统的车辆环境。
图10说明了可使用基于视觉的处理系统的建筑物环境。
图11说明了可使用基于视觉的处理系统的计算机环境。
图12说明了可使用基于视觉的处理系统的安全存储环境。
图13说明了可使用基于视觉的处理系统的聚集地环境。
图14是说明采用基于图像的处理系统来保障安全进入住宅的高级步骤的流程图。
图15是说明将基于图像的处理系统用于处理手势图像的高级步骤的流程图。
图16是说明采用基于图像的处理系统来监控环境的步骤的流程图。
图17是说明将基于图像的处理系统用于产品识别的步骤的流程图。
图18是说明采用基于图像的处理系统将面部图像与参考图像进行匹配的步骤的流程图。
图19是说明图18中面部匹配处理的图像过滤处理步骤的流程图。
图20说明在应用图19中的图像过滤处理之前的面部图像。
图21说明应用了图19中的图像过滤处理之后的面部图像。
图22是说明将面部图像与参考图像进行比较的步骤的流程图。
图23说明如何得到面部图像匹配参考图像的确认的步骤。
具体实施例方式
参照图1,提供了一种能够设置在各种环境中的系统100。系统100可包括几个不同的单元,包括摄像机102或类似的图像捕获设备和视觉处理系统104。系统100可选地还可包括其它单元件,例如数据存储设备108和另一基于计算机的装置110。
摄像机102可以是任何能够捕捉图像数据的装置,例如数码照像机、胶片摄影机、视频摄像机、静止图像摄像机、电影摄影机、beta录像机、手持摄像机、固定摄像机、感应移动摄像机等等。摄像机102可以捕获环境中的图像,并将这些图像传送到视觉处理系统104。在一些实施例中,图像可作为以包括像素的图像形式的数字数据来进行传送。在其它的一些实施例中,图像可由摄像机以非数字形式来提取,然后由视觉处理系统104转换成数字形式,以便处理。摄像机102可以配置准许其操作的接口。该接口可以是供人使用的直接用户接口,例如一系列按钮和拨盘,它们可使用户打开和关闭摄像机、记录图像数据、调整镜头的位置、改变镜头参数设置、放大或缩小、录像等。该接口还可以是由例如计算机的另一系统访问的接口,或者是通过该另一系统访问的接口。在一个优选实施例中,视觉处理系统104可访问摄像机102的接口并控制摄像机102。
数据存储设备108可以是任何合适的用于存储数据的设备,例如RAM或ROM存储器、文件、智能媒体卡、软盘、硬盘驱动器、盘、数据库、zip驱动器、数据仓库、服务器、大型计算机或其它用于存储数字数据的适当设备。数据存储设备108可包括一种接口,它允许视觉处理系统或用户使用数据存储设备对数据进行存储、控制以及检索,用于任何常规目的。
以下将更详细的论述视觉处理系统104。视觉处理系统104可以从摄像机102得到图像数据,并响应于那些图像而采取适当的动作。在一些实施例中,视觉处理系统104也可以与数据存储设备108配合起来对数据进行存储、控制或检索。在其它一些实施例中,视觉处理系统104还可以与其它装置110或摄像机102配合工作。在某些实施例中,视觉处理系统104可向其它装置110或摄像机102发送控制信号,例如用于激活或定位装置110或摄像机102的控制信号。在其它实施例中,其它装置102或摄像机102可向视觉处理系统104发送信号,进行可能的交互,或形成传感器反馈回路,这些系统基于环境中的事件或状况、或基于用户与一个或多个系统的交互而相互作用。
在一些实施例中,通信设备114可将摄像机102与视觉处理系统104连接起来。在另一些实施例中,摄像机102与视觉处理系统104可以集成在一个装置中。通信设备114可以是任何用于传输数据的合适设备,例如电缆、电线、网络、无线通信设备、蓝牙设备、802.11设备、红外、激光、光纤、无线电、电磁、声音或其它通信设备。
另一装置110可以是任何能够与视觉处理系统104通信的其它装置,例如经由第二通信设备112进行通信,第二通信设备可以是与上述通信设备114相连的任何所述类型的设备。另一装置110可以从一组不同的可能装置中选择,这组装置包括但不限于报警系统、声音系统、传感器、娱乐系统、视频显示系统、安全系统、锁、门、记录系统、测量装置、医疗装置、医药管理系统、器具、烤箱、洗衣机、脱水机、炉、洗碗机、电冰箱、冷却箱、个人计算机、膝上型计算机、PDA、掌上计算机、服务器、大型计算机、电视机、客户计算机、DVD播放机、立体声系统、VCR、光盘播放机、个人电视录制机、电话以及可视电话。在一些实施例中,视觉处理系统204可以与这些基于处理器的装置或任何其它基于处理器的装置的任何一个集成或者设置在其上。
参照图2,示意图200显示了视觉处理系统104的部件的实施例。视觉处理系统104可包括各种单元,例如处理器202、基于视觉的操作系统204、通信设备208、数据处理设备210和图像处理模块212。
处理器202可以是任何实现处理功能的常规设备,例如微处理器、芯片、集成电路、专用集成电路、板、电路、微控制器、软件、固件或者上述的组合。在一个实施例中,处理器202是基于奔腾的处理器,如用于操作计算机的那些处理器。
下面将进一步详细地论述基于视觉的操作系统204。与主要响应于由键盘、鼠标、时钟引起的事件或类似事件的常规操作系统不同,基于视觉的操作系统配置成可接收图像形式的输入,这些输入替代了或附加可用作常规操作系统的输入的其它事件。因此,基于视觉的操作系统配备有用于处理经数字化为像素的图像并响应于图像的内容采取动作的设备。
通信设备208可以是任何使视觉处理系统204能够与其它系统或装置进行通信或交互的设备,其中其它系统或装置在视觉处理系统204的外部。因此,它可以包括硬件(例如调制解调器、DSL调制解调器、连接器、总线、端口、串口、USB口、网卡等)、软件(通信软件、网络软件等)、固件或其组合。
数据处理设备210可包括例如RAM、ROM、硬盘、存储器卡、智能媒体卡或其它类似的数据处理设备的硬件单元,以及软件单元,例如数据库软件或用于处理任何与数据相关的任务的其它软件,操作系统204可能需要这些软件来与数据存储设备108交互。
图像处理模块212可包括用于处理图像的硬件、软件、固件或它们的组合,包括用于在基于视觉的操作系统204的控制下执行各种算法和子处理的设备,以便对用作图像处理模块212的输入的数字图像进行存储、控制、检索以及采取其它的动作或响应。图像处理模块212把图像作为各种信号中的任意一种信号的输入和输出,这些信号包括针对基于视觉的操作系统的指令;用于存储、控制或检索数据的指令;消息或通信设备112、114的其它通信;图像;文本;声音或其它信号。下文将进一步论述优选实施例中的图像处理模块212的功能。
参照图3,在示意图300中显示了一个基于视觉的操作系统204的实施例的更多细节。在此实施例中,基于视觉的操作系统204用作视觉处理系统104的主操作系统,因此视觉处理系统104从其环境接收的主要输入是图像或其它基于视觉的数据。可选的是,基于视觉的操作系统204可控制辅助操作系统,辅助操作系统可以是对基于视觉的操作系统204的信号作出响应的常规操作系统302。该常规系统可以是Windows、MAC、Unix、Linux或其它常规操作系统,例如将来可能出现的或开发用于响应于视觉处理系统104中的事件或条件而采取动作的操作系统。因此,例如基于视觉的操作系统可以发起由Windows操作系统中运行的循环所得到的事件,从而控制视觉处理系统104的其它方面,或者内部或外部地发送信号。
参照图4,如示意图400中所述,在另一实施例中,基于视觉的操作系统204和常规操作系统302的作用可相对于图3的配置而对调。在图4的实施例中,常规操作系统302控制基于视觉的操作系统,用作子系统。在此系统中,常规操作系统可识别包括图像或其它基于视觉的数据的某些输入或事件,并且可以脱离基于视觉的处理系统204处理那些输入。常规操作系统302可响应于基于视觉的处理系统的输出,这些输出的形式为适合的事件或信号,例如Windows事件。因此,常规操作系统302在基于视觉的操作系统的设备的协助下可以控制视觉处理系统104,以便处理作为输入的图像。
参照图5,流程图500显示了采用基于视觉的操作系统204的视觉处理系统104的高级处理过程。在步骤502上,视觉处理系统104捕获图像或基于图像的数据。在步骤504上,基于视觉的操作系统204或图像处理模块212将图像数据转换为信号,以便通知与输入系统的图像相关联的事件。在步骤508上,基于视觉的处理器204根据前述步骤中与图像相关联的事件采取动作。
参照图6,流程图600显示了可由这里所公开的系统100来实现的其它处理过程。在步骤602上,系统100可以在环境中配置用于捕获图像的设备,例如摄像机102。在步骤604上,在此环境中可发生图像事件。此事件可能是移动,或者可能是具有特定特性的图像的出现,例如为面部或身体部位或其它有意义的图像。该事件也可以是图像中存在的任一种符号,例如字母、数字、单字、记号或其它符号。该事件还可以是不存在图像的某部分,例如图像中正常出现的项目不存在,或不存在图像中所期望的移动。在步骤604中可被识别出的图像事件没有任何限制,并且以下将进一步论述在优选实施例中处理的某些图像事件。一旦在步骤604上发生图像事件,那么在步骤608便可由摄像机102捕获该图像。
接着,在步骤610上,该图像可由图像处理模块212在基于视觉的操作系统204的控制下进行处理。在步骤612上,视觉处理系统204可输出如由处理步骤610所确定的反映图像特性的信号。在步骤612中的输出信号可采取任何形式,例如通过常规操作系统302处理的事件、控制另一装置112的信号、控制摄像机102的信号、通过图像处理模块112作进一步处理的另一图像或其它反映步骤608所捕获的图像的特性的信号或图像。在下文中还会说明处理步骤610的某些优选实施例。在步骤614上,系统100可根据步骤612中所建立的信号的内容采取动作。
可在步骤604处理的图像事件可包括将面部定位在摄像机102前;检测移动;改变图像内容;检测诸如窗户的特定位置中的图像上的面部;检测人讲话的图像、身体部位的图像(例如唇、手或腿)、用头、手、手指或身体的其它部位作出姿势的图像;面部特征;符号;字母;单字;数字;记号或其它图像,这些图像可能具有对于使用视觉处理系统104的目的而言有意义的联系。
在处理步骤610上,可对各种各样的图像特性进行分析。例如处理步骤610可以确定图像中的对象是什么,例如确定是面部还是人、身体部位、符号、记号或其它特征。同样,处理步骤610可以将图像中的对象与另一图像的另一对象进行匹配,例如将面部图像与参考面部的图像进行匹配。处理步骤610也可以把诸如代码的另一对象与参考图像中的代码进行匹配。可以在代码、姿势、面部、身体部位、生物计量测量、移动、记号、符号或其它用于各种目的的特征之间进行匹配,在步骤612中,输出信号反映是否出现匹配。处理步骤还可以处理环境结构组织的特性,例如在期望的地方某项目(如在一个房间中由摄像机102监控的贵重项目)的存在或不存在,或例如窗户、屋顶或门的项目的物理状况,以确保它还未被损坏。处理步骤610还可以处理面部的特性,例如由特定的面部移动或位置所表现出的感情。处理步骤610也可以处理在环境中是否正产生移动,并输出反映是否正出现任一移动或特定移动的信号,例如用于监控安防环境中的移动,或监控医疗环境中病人的移动以保证偶尔活动的病人的安全。处理步骤610还可处理图像以确定在环境中是否已出现了任何新项目,并可分析这一新项目以确定其性质。在处理步骤610上,系统100可识别特定的环境特征,例如烟、火、湿云雾、水或其它可引起应当从系统发出消息或报警的图像特征。在实施例中,处理步骤610可处理图像中的小孩、宠物或其它实体的图像,并根据移动的性质采取动作,例如小孩接近危险的项目,诸如炉子或未受监控的游泳池。在实施例中,处理步骤610可以根据任意上述图像特性或事件的组合或其它图像特性或事件来采取动作,或根据它们中的一个或多个与其它装置或系统的输入的组合来采取动作,例如出于安全目的,将在键盘上的手工安全代码的输入同面部与参考图像进行的匹配结合起来。处理步骤610的这些实施例应当理解为众多不同图像特性中的代表,它们可经处理用于识别和采取进一步动作,所有的这些图像特性均应当理解为包含在本公开中。
在动作步骤614上可采取许多不同类型的动作。这些动作的例子包括发送消息或其它信息、打开或关闭装置或系统、启动其它装置的动作、引起视觉处理系统104、摄像机102或其它装置112的移动或以任何方式对它们进行控制、允许进入安防环境、开锁、发送“全清”信号以及阻止进入环境。当然动作步骤614可以发起任何可由任何其它装置112采取的动作,因此动作的类型与性质可能是没有限制的。
存在着许多其中可使用基于视觉的处理系统的潜在环境。参照图7,住宅700便是这样的一种环境。可能存在许多的住宅应用。在一种应用中,摄像机102可设置在位宅700的门702上某处,在这里,诸如住宅的居民的用户704可看向摄像机102以便面部识别(以下将作更详细的介绍)。摄像机102可拥有机载视觉处理系统,或与独立的视觉处理系统204相连,用于确定用户的面部图像是否与一个或多个存储在数据存储设备108中的参考面部图像匹配。如果存在匹配,则门702上的锁708便可释放,允许进入。在另一实施例中,住宅700内设有游泳池710,在游泳池中设置了水池摄像机712,用以监控水池环境。水池摄像机712可捕获小孩714的图像,并且如果小孩714太接近于水池710的话,可经由视觉处理系统104触发报警器718。这种摄像机与报警器的组合能用来向父母或别的成人发出告警信息小孩或宠物接近于危险对象,例如炉子、烤箱、壁炉、木炭炉、工作台等,或接近于易碎的项目,例如瓷器、水晶、花瓶或其它贵重物品。
参照图8,其它可设置视觉处理系统104和摄像机102的环境为运输环境,例如航线终端安全环境800。此环境可包括金属检测器802,以及物品屏蔽装置804,在两种情况下,这种装置的各种常规类型之一由航空公司用于屏蔽旅客及其物品。在环境800中,摄像机102可捕获旅客808的图像并将旅客的面部图像与参考图像进行匹配,从而作为安全措施来确认旅客的身份。在其它交通安全环境中可设置类似的系统,例如公共汽车、轨道和轮船终端中的那些系统,这些系统也可以设在交通车辆,例如汽车、公共汽车、卡车、飞机、火车、轮船、小船等上。在一个实施例中,交通环境可以是停车点,带有摄像机102和视觉处理器104的系统100可用于监控车辆图像,以确保它不被移动或损坏。如果在预定的时间段期间车辆图像发生了变化,则系统100可发出报警声音或向例如车主或保安发送报警信息。系统100还可以配备用于识别车主或工作员的面部的设备,以便人可进入并开动车辆,而不会触发报警器或发出报警信息。系统100也可用于监控预留停车位置的使用,以便于如果将车停在此处的人的面部与参考图像不匹配,则向停车设施的工作员发送出现了预留停车位置的未授权使用的消息。
参照图9,视觉处理系统104和摄像机102可有利地在其中发挥作用的其它环境是车辆,例如汽车900。摄像机102可提取司机902的面部图像,并把图像与参考数据库的图象匹配,以确认司机902是经授权而驾驶此辆车的。参考数据库可存储确认该司机是车主、该司机是许可司机(即该司机没有违章驾驶或约束驾驶之类的限制)、该司机是租用此车辆的人等数据。当确定匹配时,视觉处理系统104可采取各种动作例如开门或锁门、允许或阻止引擎的发动或者允许或阻止其它车辆系统的操作。虽然图9中显示的是汽车900,但是其它交通工具也可采用类似的系统,例如船、卡车、小型货车、出租汽车、公共汽车、轮船、飞机、喷气机、小型摩托车、摩托车等。
参照图10,另一种环境是建筑物1000,例如办公大楼、车间或类似的环境。如同住宅的情况,摄像机102和视觉处理系统104可用于提供对建筑物1000外部或内部的门1002的安全访问。同样,摄像机102和视觉处理器104可用于监控一个或多个建筑物1000中的项目,例如为防止它们被盗窃或为了监控它们在此建筑物内的位置。例如,视觉处理系统104可以基于项目的图像形状、或基于项目上所找到的代码或图像(例如品牌或标志)来确定仓库中库存项目的位置。视觉处理系统104随后可与诸如库存控制系统的另一计算机系统交互。在另一实施例中,摄像机102和视觉处理系统104可用于监控人1008的动作,例如出于安全目的以确保此人是有意识的并且未受到伤害,或出于其它目的,例如为确定某动作是否已经出现,该动作可能是采取下一步动作的前提。例如,系统100能确定其图像与数据库中的参考图像相匹配的项目已从预处理位置到达作进一步处理的位置的时间,然后向用户1008发送项目已准备好的消息。可以设想出视觉处理系统104中的基于视觉的处理器204在车间的许多其它应用,并且这些应用应当理解为包含在本说明书中。
参照图11,摄像机102和视觉处理系统104可用在含有诸如个人计算机、膝上型计算机、个人数字助理、掌上计算机等的计算机1100的环境中。摄像机102可捕获计算机1100的环境中的图像,例如用户1102的图像。视觉处理系统104可以设在摄像机102、计算机1100或在它们两个外部的另一计算机系统内,可处理由摄像机102提取的图像,如用户1100的图像。例如,视觉处理系统104可以将用户1102的面部与一组参考图像匹配,以确认用户1102的身份。因此,为安全起见,该系统可代替或附加其它安全措施,例如口令。在一个实施例中,例如出于电子商务、游戏、研究或娱乐目的,计算机1100可由用户1102用来同站点(例如因特网站点)进行交互。在电子商务应用中,用户1102可利用视觉处理系统104来确认用户的身份,从而确保电子商务交易(如使用信用卡购买商品或在线服务)的安全。
参照图12,在另一实施例中,系统100的摄像机102和视觉处理系统104可设在提供安全存储(例如现金或其它贵重物品)的环境中,这些环境例如为自动柜员机(ATM)1200。系统100则可用于在准许一项交易(例如取款、检查帐户余额或转帐)之前验证用户1202的身份。同样,系统100可用于提供身份验证,以便可以安全存取、从安全的地方取出贵重物品或从锁着的任意大小的存储设备中取出项目。在实施例中,系统100可提供身份验证功能和独立的功能,例如监控设备中所保护的项目的图像,以保证它们不被取走、移动或损坏。
参照图13,包括摄像机102和视觉处理系统104的系统100也可设在包括聚集场所1300的环境中,该聚集场所包括门1302或用以限制进入聚集场所1300的类似设施。聚集场所1300可以具有中央计算机系统,或在带有每个系统100的门上可以包括计算功能。为了对由摄像机102所提取的图像进行匹配,系统100可访问参考图像数据库,以确保正试图访问聚集场所1300的用户1304是已授权用户,例如确认用户1304为聚集场所的事件买了票,或用户1304是雇员或经授权有资格进入该聚集场所的订约人。可以设想出众多不同的聚集场所,例如体育运动竞赛聚集场所,例如足球、篮球、英式足球、曲棍球、垒球和高尔夫球聚集场所;表演聚集场所,例如电影院、剧场、事件中心、音乐会聚集场所和歌剧院;膳宿聚集场所,例如宾馆、汽车旅馆、娱乐场、酒吧、会议中心和饭店以及许多其它的聚集场所。
参照图14,流程图1400显示了本发明的一个实施例的高级步骤,其中系统100用于保证进入诸如住宅的环境的安全。在步骤1402上,系统100可捕获用户的面部图像(或其它可识别的特性)。接着,在步骤1404,系统可将此图像与一个或多个存储在数据设备的参考图像进行比较。然后,在步骤1408,系统可确定该图像是否匹配(,如下文所作的更详细的说明)。如果不匹配,则系统可通过返回到图像捕获步骤1402再进行尝试。如果匹配,则在步骤1410,系统可准许进入环境。
参照图15,流程图1500显示了本发明的一个实施例的步骤,其中视觉处理系统104处理来自摄像机102的图像,以便可以识别以及按图像中所捕获的姿势动作。在步骤1502,摄像机102捕获可能包括姿势的图像并将其转递到视觉处理系统104。在步骤1504上,视觉处理系统104的图像处理模块112将所捕获的图像与数据库的图像姿势进行比较,从而确定所捕获的图像是否包含与所存储的姿势匹配的姿势。接下来,在步骤1508上,图像处理模块112确定是否已出现了匹配。如果不匹配,则处理返回到步骤1502继续捕获图像。如果在步骤1508上出现了匹配,则在步骤1510上,系统通过参考已存储的规则来确定何种姿势已匹配以及何种动作合适,上述已存储的规则把每个姿势或一系列姿势与关联动作相关。接下来,在步骤1510上,系统根据所识别的姿势发起动作。在某些情况中,该动作可以是等待下一姿势,以便系统可根据组合姿势以及根据单个姿势来动作。举例来说,系统可监控病人并触发该病人是否情况良好的询问。如果病人作了“竖起大拇指”手势的姿势,则该系统可向护理人发送病人情况良好的消息。同样,该系统可捕获例如摇手的姿势,以指示应该触发报警器或发出报警信息。通过创建一套完整的规则,视觉处理系统104有可能发起任何原本由键盘、鼠标或声音输入触发的动作。因此,视觉处理系统104通过姿势控制可替代或补充常规计算机操作系统。
参照图16,流程图1600表示采用系统100来监控环境以便触发适当动作的高级步骤。在步骤1602上,该系统捕获环境图像。接下来,在步骤1604上,该系统将所捕获的图像与数据库的参考图像进行比较,以确定是否出现匹配。如果在步骤1608上未出现匹配,则处理返回到步骤1602进行下一图像的捕获。如果在步骤1608出现了匹配,则在步骤1610,系统可访问多个规则,这些规则用于确定响应于图像的识别而应当采取的动作。然后,在步骤1612,该系统可基于这些规则发起动作。可被匹配的图像的例子包括显示移动的图像、显示接近于特定项目的移动的图像、具有唯一特征性(如烟、火或水)的图像、显示两个项目相互接近的图像(例如为防止碰撞)的图像、没有移动等等。当这些项目其中之一受到匹配时,这些规则随后便可确定动作。例如,如果检测出烟、火、或水处于异常状态,则向操作员或应急服务机构发送报警或消息。如果两个项目(例如两艘船只)行驶的过于接近,则可用声音向操作员发出报警。如果小孩太靠近水池或炉子,则可发出报警声音并向父母发送消息。如果图像中的项目缺失,则可向保安或其它负责监控该项目的人发出报警信息。因此,通过图像匹配和触发规则,该系统可广泛地用于任何环境的监控。
参照图17,流程图1700显示了在用于产品识别的实施例中采用本发明的高级步骤。在步骤1702上,摄像机102可以用于捕获产品图像,例如在仓库中为控制库存或在零售柜台上为确定价格。然后在步骤1704,可将产品图像与存储在数据设备中的图像进行比较。在步骤1708,系统可确定是否已经出现了匹配。如果没有出现匹配,则该系统可返回到步骤1702并继续尝试寻找匹配。如果出现了匹配,则在步骤1710,该系统可确定从中捕获图像的产品的性质,并咨询针对该产品所存储的用于确定动作的一组规则。例如,此系统可确定项目是一箱特定品牌的谷物,可依据检索价格的规则检索出那箱谷物的价格。接下来,在步骤1712,此系统可基于图像的确定结果发起动作,例如对这箱谷物计价,或存储特定项目在特定位置中的指示。
下面将提供其它有关用于匹配面部以确认系统100的用户身份的系统的细节,例如经由住宅安全系统准许进入住宅的系统。如图7所示,系统100可用在门702上或入口通道上,从而可通过锁708或类似机制来控制进入住宅700。如图14的流程图1400所示,系统可用于将面部与数据设备中的一个或多个参考图像进行匹配。与图1相同,面部匹配系统可具有类似于更通用的视觉处理系统100的部件,例如摄像机102、视觉处理系统104、数据设备108以及可选的其它系统110,如电子开锁系统。
参照图18,流程图1800公开了面部匹配系统的实施例的步骤。首先,在步骤1802,该系统例如通过用户将他或她的面部放在摄像机102的前面来获得面部图像。然后在步骤1804,视觉处理系统104的图像处理模块112过滤初始图像,从而获得已过滤的图像,它更适用于匹配目的。图19的流程图1900中公开了过滤步骤的其它细节,图19与图18通过分页连接符“A”相连。此过滤步骤将图像分解成像素矩阵,然后将每个像素的相邻像素的亮度进行平均,再根据给定像素的平均是否超出了二进制阈值而把图像分成若干像素。当在步骤1804将图像过滤后,便开始进行匹配处理的其它步骤。在步骤1808该系统可以把过滤的图像分成多个像素组或像素块。步骤1808可包括可选的归一化图像的预处理步骤,例如把眼睛或面部的其它特征设置在与参考图像的眼睛相同的位置中。按图像的列和排或行,可以将它分成块,例如分成n维的方块。这些块的数量是两个因子的乘积,两个因子分别为由n所除的列数以及由n所除的行数。可把这些方块考虑为其中心在像素(i,j)上,其中i是0和列数之间n的整数倍,j是0和行数之间n的整数倍。然后,在步骤1810,该系统获得来自数据设备108的参考图像,该参考图像可以存储在本地或存储在远端主机上。接着,在步骤1812上,系统搜索第一参考图像。对于任意多的参考图像,可按顺序以并行的方式重复步骤1810和1812。例如,所存储的可以是显示处于不同条件的用户的不同图像,例如晒黑、未晒黑的用户图像等。接下来在步骤1814,该系统应用一种或多种算法来确定所捕获的图像与参考图像之间的差异,这些算法将在下文进行详述。结合图22公开了其它步骤,图22通过分页连接符“B”与流程图1800相连。当在步骤1814计算出差异后,便在步骤1818确定是否存在匹配。用于评估和确定匹配的步骤在图23中有更详细的说明,图23通过分页连接符“C”与流程图1800相连。一旦已确定出匹配,该系统便可在步骤1820发起动作,这些动作可包括允许对设备的访问,并且可选地是,包括把新捕获的图像存储在参考数据库中以便用于以后的匹配。如果没有匹配,则该系统可重复上述步骤。因为匹配阈值可以为任意困难,所以假肯定匹配的概率可以任意低,使得适当允许进行多次甚至不受限制的匹配尝试,而不像许多常规系统那样必须防止大量的尝试,因为大量的尝试会导致允许非法访问的假匹配的概率的增大。
参照图19,流程图1900通过分页连接符“A”与图18的流程图1800相连,其公开了用于实现图18的步骤1804上的图像过滤步骤。首先,在步骤1902,为以数学方式说明图像,可将它视做像素矩阵pij。像素一般是三种颜色红、蓝、绿颜色的重叠,因此可把各,pij作为向量空间R3的一个元素。该像素的三个分量表示一种颜色根据基色的分解。为简化起见,可忽略各个分量的离散特性,并认为每种颜色的每个细微差别是允许的。因此,n行和p列的图像可描述为矩阵A∈Mnp(R3)。
接下来,在步骤1904上可以定义各个像素的亮度L为从R3到R的线性函数,例如L(r,g,b)→0.3r+0.59g+0.11b。接着,在步骤1908,可以根据周围像素的亮度定义像素平均值。例如,可把Average定义为像素pij的相邻函数,并给出全部像素(pk,1)的亮度的算术平均,其中i-r≤k≤i+r,j-r≤1≤j+r,如下所述。
即Average(i,j,r)=Σk=i-ri+rΣl=j-rj+rL(pk,l)(2r+1)2]]>其它许多函数也可以完成与此相同的任务,例如函数L的多种离散卷积,或甚至是非线性的或其它函数。接着,可基于相邻像素的平均对像素进行过滤。因此,在步骤1910,可定义该过滤,其为根据Average值确定的二进制标志 因此,若干变化颜色和亮度的像素可转换成由值为1和0的像素定义的黑色和白色图像,其中1和0的值是通过周围像素的亮度是否超过给定的阈值来确定的。在步骤1910,该系统可输出过滤的图像。这种过滤更加剧了图像中的对比度,以便可以对重要的面部特性(例如疤痕、胎块等)进行匹配。参照图20和21,可以看到在进行例如联系图19所公开的过滤处理之前的面部图像(图20)和之后的面部图像(图21)。
参照图22,在流程图2200中还公开了在捕获的图像和参考图像之间作比较的步骤,该流程图通过分页符“B”连接到图18的流程图1800。在下文中,规定下标1针对与参考图像相关的量,下标2针对捕获的图像。参照这两幅图像I1和I2,它们已被分成相同的格式列×行。这些图像已经是归一化的图像,例如,位于标准模式中的两幅图像的眼睛的位置相同。两者均已例如经过图19的流程图1900的步骤进行了过滤,成为两幅基本上相同大小的二进制图像。实质上,图像的比较可理解为用于判断两幅图像的两个正方块存在的差异程度的误差函数。在整个下文中,假定一个已选择n维方块的格式。在流程图1800的步骤1808上,已将第一图像分成若干完全分开的像素方块。有列/n*行/n个这样的方块。每个方块可由以像素(i1,j1)为中心的Bi1,j1设计,其中i1是0和列数之间的n的整数倍,j1是0和行数之间的n的整数倍。应当注意,这里所说明的方法也可用于其它块状,如圆形、矩形等。这里是为了便于说明才采用方块表示的。
在步骤2202中初始化计算,开始,按照某种误差函数计算第一图像的各个方块中哪一个最配合第二图像中的方块。在步骤2204,针对捕获的图像中的第一像素块计算误差函数,该误差函数由那一像素块的像素与每幅参考图像的每个可能像素块的像素之间的差异的平方和构成。在步骤2208选择作为与那一像素块“最佳”匹配的参考图像的像素块。然后,在步骤2210,该系统针对近处的像素块存储参考图像的最佳匹配像素块的位置。接着在步骤2212,该系统确定是否还有其它像素块要分析。如果有,则重复步骤2204到2210,直到参考图像中的每个像素块在已知的位置上已识别为是最佳匹配的为止。当这些步骤完成后,如分页连接符B所指示的那样,处理返回到流程图1800。
在步骤2208上确定最佳配合可用多种技术来实现,这些技术包括最小化差异之和、最小平方和其它类似差异计算函数。当处理完成时,可在第二图像中识别出以(i2,j2)为中心的块,其最佳对应于第一图像中以(i1,j1)为中心的块Bi1,j1。该块是Bi1,j1的‘全局最佳配合’。
参照图23,流程图2300说明了可评估摄像机102所捕获的第一图像是否匹配从数据存储设备108检索到的第二图像的步骤。图23的处理可以可在基于视觉的处理器204的控制下用图像处理模块112来实施。
图23所述的匹配处理利用了连续性原理,具体来说利用了要匹配的面部图像的特殊连续性。一般地,当比较同一面部的两幅图像时,如果已经在两者中定位了某特定点(第一图像中的特定点称为M1,第二图像中的特定点称为M2),可预测恰好在M1的右边(第一图像中)的细节N1应该对应于恰好在M2的右边(第二图像中)的点N2。因此,期望在两幅图片中对于Mi而言Ni的相对位置是相同的,或几乎是相同的。(可能认为这两张图片近似地是通过以某种方式平移图像而相互导出的)。如果怀疑两幅图像中的点Mi的对应,则如果两图中相邻的Ni具有相似的相对位置,那么将会更加相信图像的匹配。对应出错的机会更小,比以前小两倍。
继续此分析,作两种对立的假设,其可具有如下特性。使H0作为假设有“两个不同人”的两幅图像。使H1作为另一假设有“同一个人”的两幅图像。
可定义(i1,j1)的邻居,称为(k1,l1)。实际中,用模方‖‖来表示邻居‖(i1-k1,j1-l1)‖≤1,可称(i2,j2)为(i1,j1)的全局最佳匹配,(k2,l2)为(k1,l1)的全局最佳匹配。下面得到基本的概率性假设。“期望”当处理同一个人(H1)的图像(这是连续性的自变数)时(k2,l2)为(i2,j2)的“邻居”,在此意义上‖k2-i2+i1-k1,l2-j2+j1-l1)‖接近于0。相反,“期望”当图像来自两个不同的人(H0)时,(k2,l2)应当以相同概率地处于所搜索区域的任何地方。例如,可以设想在(k1,l1)与可能的(k2,l2)之间的误差标准是一串独立且同一法则的随机值。这些值中的最大值其本身是均匀分布在搜索区域中。
首先在步骤2302,定义系统在其中寻找最佳配合尺寸S的区域,接着,在步骤2304,操作员定义允差参数t,并标识出两幅图像中的两个块的相对位置的两个向量V1=(i1-k1,j1-l1),V2=(i2-k2,j2-l2)。认为当处理同一个人(H1)时,V1和V2接近,相反,当处理不同的人(H0)时,V1和V2独立且为一致法则。
下面将集中于以下事件{‖V1-V2‖<t/2},可定义那个事件为“确认”。此事件对应于第二图像中的(i1,j1)和(k1,l1)全局最佳匹配的‘连续性’事件。等效地,此事件可以描述为其中(k1,l1)的全局最佳匹配与(k1,l1)的‘局部’最佳匹配一致的事件,局部最佳匹配是仅在(i2+k1-i1,j2+l1-j1)周围的小区域中所寻找的。此事件正好对应于V2的(t-1)2个可能值。如前所述,此事件在不同人的假设(H0)中概率小,对于V2的可能值的总数为S。在假设(H0)中,根据一致性假设,有P((k2,l2)“确认”(i1,j1)|H0)=P(‖V1-V2‖<t/2|H0)=(t-1)2/S可对(i1,j1)的其它邻居作类似计算,假设这些中的I2中的所有最佳配合均是独立放置的,总遵循随机一致法则。
有条件地针对(i2,j2)的位置,发现p个中有k个(i1,j1)的邻居在图像I2(允差取模)中与图像I1中相同的相对位置中存在其最佳匹配的概率是P((i1,j1)的邻居中的k个‘确认’|H0)=[(t-1)2/S]k[1-(t-1)2/S]p-kCkp考虑数字的例子。使(t-1)2/S=10%,使k=3和p=4。有0.36%的k个确认的概率。通过从4个里找到3个(i1,j1)的邻居,在图像是不同的假设下,此事件的概率非常小,即该事件是难以相信的。
前述涉及的仅仅是图像I1中的一个块Bi及其紧接着的邻居。分析假定邻居的最佳配合可均匀地分布在搜索区域中。如果按照同一思想处理,不是从Bi1,j1开始而是从其它块(例如Bi1′,j1′),可以首先发现它在图像I2中的绝对最佳配合,称为(i2′,j2′)。以类似方式,随后可在中心为(i2′,j2′)的搜索区域中寻找Bi1′,j1′的邻居的局部最佳配合。
紧记搜索的局部表面(t-1)2与图像的总表面S相比非常小,这是有益的。这意味着在实际中,在表面(t-1)2中所搜索的某局部最佳配合很少机会成为整个图像的全局最佳配合。
现在可以总体地记下图像I1的全部块,它们以称为(i1,1,j1,1)、(i1,2,j1,2)…(i1,N,j1,N)的位置为中心。对于第一块在(i1,1,j1,1)的邻居之间具有k1个‘确认’的可能性,对于第二块具有k2个‘确认’的可能性…直到最后一块具有kN个‘确认’的可能性。这里ε代表(t-1)2/S。
P((i1,1,j1,1)的k1个‘确认’,…(i1,N,j1,N)的kN个‘确认’‖H0)=Πq=1Ncpkq(ϵ)kq(1-ϵ)p-kq]]>调用按照两幅图像是两个不同人的假设进行的计算。前面的计算给出了全部块中的确认事件的共同规则。这意味着实际上可以准确地评估假肯定匹配的概率,即,使两个不同的人的两幅图像高度相似的概率。实际上,错误识别的概率几乎为零。
利用连续性原理可以完成流程图2300用于确定匹配的过程,其中,连续性原理允许创建判别规则(very discriminant rule)以使随机出现的相邻像素块的匹配分开,这与由于真正的相干对应(因为包含像素块的面部是相同的)所产生的匹配相反。在步骤2306上,系统计算各个像素块的最佳配合。在步骤2308,系统然后确定合成统计指示器考虑出现全部‘确认’事件。在步骤2310,如果前述统计指示器大于在步骤2304所定义的阈值,则该系统宣称匹配,或者如果相反的情况则宣称不匹配。我们知道,在H0下,统计指示器大于其阈值的概率是意外的,这与由于真正的匹配所产生的概率相反。因此,通过定义此阈值,对于操作员而言有可能建立任意苛刻的匹配准则,从而把假肯定概率降低到任意低的水平。
虽然这里已公开了某些优选实施例,但是本领域的普通技术人员会认识到其它实施例,这些实施例如仅由权利要求所限制的那样应当理解为包含于本发明中。这里所参考的所有专利、专利申请及其它文档通过引用结合于本文中。
权利要求
1.一种用于确定捕获的图像是否匹配参考图像的方法,所述方法包括以下步骤捕获数字图像,用于与参考图像进行比较;识别所述捕获的图像中的一组像素;在所述参考图像中选择与所述捕获的图像中的像素组最佳匹配的像素组;针对至少一个另外的组像素重复上述步骤;将所述参考图像中的选定像素组和所述捕获的图像中的像素组的相对位置进行比较;以及确定所述相对位置随机出现的概率。
2.如权利要求1所述的方法,其特征在于,所述方法还包括将随机匹配的概率与阈值概率比较,用于推断图像是否匹配。
3.如权利要求2所述的方法,其特征在于,所述阈值概率设置成将错误推断的概率减小到任意低的数。
4.如权利要求1所述的方法,其特征在于,寻找最近的像素组采用了所述参考图像中的所述像素组与所述捕获的图像中的所述选定像素组之间差异的最小平方计算。
5.如权利要求1所述的方法,其特征在于还包括当捕获所述参考图像和所述捕获的图像时,在完成其它步骤之前过滤所述图像。
6.如权利要求5所述的方法,其特征在于,所述过滤包括基于相邻像素的平均值来确定像素亮度;将所述像素的亮度值与阈值比较;如果所述亮度小于阈值,则将所述像素的过滤值设定为零;以及如果所述亮度等于或大于阈值,则将所述像素的过滤值设定为1。
7.如权利要求6所述的方法,其特征在于还包括通过将已知的特征定位到预定位置上,来归一化所述捕获的图像和所述参考图像。
8.如权利要求1所述的方法,其特征在于,捕获所述图像是通过具有基于视觉的操作系统的视觉处理系统来实现的。
9.如权利要求1所述的方法,其特征在于还包括将所述捕获的图像与一个以上参考图像进行比较。
10.如权利要求1所述的方法,其特征在于,比较所述捕获的图像的像素组与所述参考图像的像素组的相对位置包括定义所述捕获的图像的第一像素组与所述捕获的图像的第二像素组之间的第一向量;定义所述参考图像的第一像素组与所述参考图像的第二像素组之间的第二向量;以及计算所述第一向量与所述第二向量之间差异的绝对值。
11.如权利要求10所述的方法,其特征在于还包括对于其它像素组重复所述计算。
12.如权利要求1所述的方法,其特征在于还包括将随机匹配的概率与阈值概率进行比较,以推断所述图像匹配;对于不同的参考图像重复所述步骤;以及在得到与所述参考图像之一的匹配之前,允许不限数量的不匹配。
13.如权利要求1所述的方法,其特征在于还包括在确定匹配时,将所述捕获的图像添加到参考图像的数据库中,以便于以后的匹配。
14.一种基于处理器的系统,其具有基于图像的操作系统,所述基于处理器的系统包括摄像机,其设置在环境中;和与所述摄像机数据连接的基于计算机的系统,所述基于计算机的操作系统具有一种操作系统,它能够响应于由所述摄像机捕获的图像数据来操作所述基于计算机的系统。
15.如权利要求14所述的系统,其特征在于,所述操作系统可只基于所述图像数据来操作所述基于计算机的系统。
16.如权利要求14所述的系统,其特征在于还包括另一系统,所述其它系统可响应于所述操作系统所采取的动作而接收所述基于计算机的系统的指令。
17.如权利要求16所述的系统,其特征在于,所述其它系统是从以下项构成的组中选择的安全系统、报警系统、通信系统、自动柜员系统、银行系统、保险箱、另一摄像系统、扬声器系统、麦克风、计算机、服务器、膝上型计算机、掌上计算机、蓝牙使能设备、娱乐系统、电视机、录音机、器具、工具、汽车系统、运输系统、车辆系统、传感器、发射器、发射机、收发器、天线、发送机应答器、游戏系统、计算机网络、家庭网络、局域网、广域网、因特网、万维网、卫星系统、电缆系统、电信系统、调制解调器、电话和蜂窝电话。
18.如权利要求14所述的系统,其特征在于,所述操作系统能够识别图像中的特性,并根据所述特性而动作。
19.如权利要求18所述的系统,其特征在于,所述特性是从以下项构成的组中选择的匹配面部、匹配代码、运动、生物计量、非匹配元素、环境中的结构、面部表情、环境中项目的存在、环境中项目的不存在、项目的移动、图像中新项目的出现、烟、火、水、泄漏、环境的破坏、人的动作、宠物的动作、小孩的动作、老人的动作、脸、手势、在摄像机前面部的位置、图像的变化、所述图像中面部的检测、讲话、嘴唇的动作、手指的动作、手的动作、手臂的动作、腿的动作、身体的动作、头部的动作、颈部的动作、肩部的动作或者步态。
20.如权利要求18所述的系统,其特征在于,所述特性是匹配面部,所述动作是打开安全系统。
21.如权利要求18所述的系统,其特征在于,所述动作是打开安全系统,并且所述动作基于所述图像的特性和至少一个其它要求。
22.如权利要求21所述的系统,其特征在于,所述其它要求是需要钥匙、通行卡、声波纹、指纹和生物计量中的至少一个。
23.如权利要求14所述的系统,其特征在于,所述环境是从以下项构成的组中选择的机场、飞机、运输聚集场所、公共汽车、公交车站、火车、火车站、出租车聚集场所、汽车、卡车、货车、车间、聚集地、凭票聚集地、运动场、音乐会、露天大型运动场、运动聚集地、音乐会聚集地、博物馆、商店、住宅、水池、体育馆、健身俱乐部、高尔夫俱乐部、网球俱乐部、俱乐部、停车场、计算机、膝上型计算机、电子商务环境、ATM、存储场所、保险箱、银行和办公室。
24.如权利要求14所述的系统,其特征在于,所述环境是住宅,并且所述系统用于根据面部与参考面部的匹配来控制访问。
25.如权利要求24所述的系统,其特征在于,所述系统需要从以下项构成的组中选择的附加步骤提供钥匙、输入代码、插卡、识别声音、识别指纹以及识别另一生物计量。
26.如权利要求14所述的系统,其特征在于,所述系统基于检测事件采取动作。
27.如权利要求26所述的系统,其特征在于,所述事件是侵入事件,所述动作是触发报警。
28.如权利要求26所述的系统,其特征在于,所述动作是触发报警,所述事件是从以下项构成的组中选择的侵入、烟、火、水、小孩接近危险环境和老人接近危险环境。
29.如权利要求26所述的系统,其特征在于,所述事件是从以下项构成的组中选择的姿势竖大拇指体征、赞同体征、多个指头、手部动作、头部动作、体征语言动作、唇部动作和眼部动作。
30.如权利要求26所述的系统,其特征在于,所述事件是接近于由以下项构成的组中选择的结构的移动水池、炉子、烤箱、器具、电子设备项目和温度高的项目。
31.如权利要求26所述的系统,其特征在于,所述事件是不存在移动。
32.如权利要求26所述的系统,其特征在于,所述事件是接近于碰撞,所述动作是发出警报。
33.一种方法,其包括将摄像机设置在环境中;捕获所述环境中的图像,所述图像包括所述环境的事件的图像;提供基于视觉的操作系统,用以处理所述图像;处理所述图像以识别所述事件的特性;和基于所述特性采取动作。
34.如权利要求33所述的方法,其特征在于,所述操作系统管理另一操作系统。
35.如权利要求33所述的方法,其特征在于,所述操作系统触发父操作系统中的事件。
36.如权利要求33所述的方法,其特征在于,所述操作系统的所有命令通过捕获图像数据来启用。
37.一种用于确定捕获的图像是否匹配参考图像的系统,它包括摄像机,用于捕获数字图像以与参考图像比较;识别模块,用于识别所述捕获的图像中的一组像素;选择模块,用于在所述参考图像中选择与所述捕获的图像的像素组最佳匹配的像素组;比较模块,用于对至少一个其它像素组重复上述步骤,并把所述参考图像中的选择的像素组的相对位置与所述捕获的图像中的像素组的相对位置进行比较;和计算器,用于确定所述相对位置随机出现的概率。
38.如权利要求37所述的系统,其特征在于还包括匹配模块,用于将随机匹配的概率与阈值概率进行比较,用于推断所述图像匹配。
39.如权利要求38所述的系统,其特征在于,所述阈值概率设置成可将错误推断的概率降到任意低的数。
40.如权利要求37所述的系统,其特征在于,寻找最近的像素组采用了所述参考图像中的像素组与所述捕获的图像中的选定像素组之间差异的最小平方计算。
41.如权利要求37所述的系统,其特征在于还包括过滤器,用于在完成所述其它步骤之前过滤所述图像。
42.如权利要求41所述的系统,其特征在于,所述过滤包括基于相邻像素的平均值来确定像素亮度、将所述像素的亮度值与阈值比较、如果所述亮度小于所述阈值则将所述像素的过滤值设定为零以及如果所述亮度等于或大于所述阈值则将所述像素的过滤值设定为1。
43.如权利要求42所述的系统,其特征在于还包括归一化模块,用于通过将已知特征定位在预定位置上来归一化所述捕获的图像和所述参考图像。
44.如权利要求37所述的系统,其特征在于,捕获所述图像是由具有基于视觉的操作系统的视觉处理系统实现的。
45.如权利要求37所述的系统,其特征在于还包括比较模块,用于将所述捕获的图像与一个以上参考图像进行比较。
46.如权利要求37所述的系统,其特征在于,比较所述捕获的图像的像素组和所述参考图像的像素组的相对位置包括定义所述捕获的图像的第一像素组与所述捕获的图像的第二像素组之间的第一向量;定义所述参考图像的第一像素组与所述参考图像的第二像素组之间的第二向量;以及计算所述第一向量与所述第二向量之间差异的绝对值。
47.如权利要求37所述的系统,其特征在于还包括计算器,其用于将随机匹配概率与阈值概率进行比较,以推断所述图像匹配;和参考图像检索模块,其用于针对不同的参考图像重复所述步骤,其中,在得到与其中一个所述参考图像的匹配之前,所述系统允许不限数量的不匹配。
48.如权利要求37所述的系统,其特征在于还包括图像存储模块,其用于当确定了匹配时将所述捕获的图像添加到参考图像的数据库中,以便于以后的匹配。
49.一种方法,其提供了具有基于图像的操作系统的基于处理器的系统,所述方法包括以下步骤将摄像机设置在环境中;和提供与所述摄像机数据连接的基于计算机的系统,所述基于计算机的操作系统具有一种操作系统,它能够响应于由所述摄像机捕获的图像数据来操作所述基于计算机的系统。
50.如权利要求49所述的方法,其特征在于,所述操作系统可只基于所述图像数据来操作所述基于计算机的系统。
51.如权利要求49所述的方法,其特征在于还包括另一系统,所述其它系统可响应于所述操作系统所采取的动作而接收来自所述基于计算机的系统的指令。
52.如权利要求51所述的方法,其特征在于,所述其它系统是从以下项构成的组中选择的安全系统、报警系统、通信系统、自动柜员系统、银行系统、保险箱、另一摄像系统、扬声器系统、麦克风、计算机、服务器、膝上型计算机、掌上计算机、蓝牙使能设备、娱乐系统、电视机、录音机、器具、工具、汽车系统、运输系统、车辆系统、传感器、发射器、发射机、收发器、天线、发送机应答器、游戏系统、计算机网络、家庭网络、局域网、广域网、因特网、万维网、卫星系统、电缆系统、电信系统、调制解调器、电话和蜂窝电话。
53.如权利要求49所述的系统,其特征在于,所述操作系统能够识别图像中的特性,并根据所述特性动作。
54.如权利要求53所述的方法,其特征在于,所述特性是从以下项构成的组中选择的匹配面部、匹配代码、运动、生物计量、非匹配元素、环境中的结构、面部表情、环境中项目的存在、环境中项目的不存在、项目的移动、图像中新项目的出现、烟、火、水、泄漏、环境的破坏、人的动作、宠物的动作、小孩的动作、老人的动作、脸、手势、在摄像机前面部的位置、图像的变化、所述图像中面部的检测、讲话、嘴唇的动作、手指的动作、手的动作、手臂的动作、腿的动作、身体的动作、头部的动作、颈部的动作、肩部的动作或者步态。
55.如权利要求54所述的方法,其特征在于,所述特征是匹配面部,所述动作是打开安全系统。
56.如权利要求54所述的方法,其特征在于,所述动作是打开安全系统,并且所述动作基于所述图像的特性和至少一个其它要求。
57.如权利要求56所述的方法,其特征在于,所述其它要求是需要钥匙、通行卡、声波纹、指纹和其它生物计量中的至少一个。
58.如权利要求49所述的方法,其特征在于,所述环境是从以下项构成的组中选择的机场、飞机、运输聚集场所、公共汽车、公交车站、火车、火车站、出租车聚集场所、汽车、卡车、货车、车间、聚集地、凭票聚集地、运动场、音乐会、露天大型运动场、运动聚集地、音乐会聚集地、博物馆、商店、住宅、水池、体育馆、健身俱乐部、高尔夫俱乐部、网球俱乐部、俱乐部、停车场、计算机、膝上型计算机、电子商务环境、ATM、存储场所、保险箱、银行和办公室。
59.如权利要求49所述的方法,其特征在于,所述环境是住宅,并且所述系统用于根据面部与参考面部的匹配来控制访问。
60.如权利要求59所述的方法,其特征在于,所述系统需要从以下项构成的组中选择的附加步骤提供钥匙、输入代码、插卡、识别声音、识别指纹以及识别其它生物计量。
61.如权利要求49所述的方法,其特征在于,所述系统基于检测事件采取动作。
62.如权利要求61所述的方法,其特征在于,所述事件是侵入事件,所述动作是触发报警。
63.如权利要求61所述的方法,其特征在于,所述动作是触发报警,所述事件是从以下项构成的组中选择的侵入、烟、火、水、小孩接近危险环境和老人接近危险环境。
64.如权利要求61所述的方法,其特征在于,所述事件是从以下项构成的组中选择的姿势竖大拇指体征、赞同体征、多个指头、手部动作、头部动作、体征语言动作、唇部动作和眼部动作。
65.如权利要求61所述的方法,其特征在于,所述事件是接近于由以下项构成的组中选择的结构水池、炉子、烤箱、器具、电子设备项目和温度高的项目。
66.如权利要求61所述的方法,其特征在于,所述事件是不存在移动。
67.如权利要求61所述的方法,其特征在于,所述事件是接近于碰撞,所述动作是发出警报。
68.一种基于视觉的系统,其包括环境中的摄像机,用于捕获所述环境中的图像,所述图像包括所述环境中的事件的图像;基于视觉的操作系统,用于处理所述图像以便识别所述事件的特性;和执行机构,用于根据所述特性采取动作。
69.如权利要求68所述的系统,其特征在于,所述操作系统管理另一操作系统。
70.如权利要求68所述的系统,其特征在于,所述操作系统触发父操作系统中的事件。
71.如权利要求68所述的系统,其特征在于,所述操作系统的所有命令通过捕获图像数据来启用。
全文摘要
提供了一种在种类多样的环境中的基于视觉的操作系统,其中,基于计算机的系统接收视觉输入,并采取合适的动作。一种环境是安全系统,其中,基于视觉的操作系统捕获面部图像,并以很小的假肯定概率确定出该面部是否是授权进入此环境的人的面部。
文档编号G06F21/00GK1656503SQ03812563
公开日2005年8月17日 申请日期2003年4月4日 优先权日2002年4月5日
发明者B·C·德利恩 申请人:伊登蒂克斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1