用于基于图像的目标识别的稳健特征识别的制作方法

文档序号:11236561阅读:656来源:国知局
用于基于图像的目标识别的稳健特征识别的制造方法与工艺

相关申请的交叉引用

本申请要求于2014年4月24日递交的编号为61/983,971的美国临时申请的优先权益。该申请的全部内容以引用的形式并入于此。

本发明涉及基于图像的目标识别,且尤其涉及用于基于图像的目标识别的特征识别技术。



背景技术:
用于基于图像的目标识别的特征检测算法多种多样。在最基本的层面上,特征检测算法生成描述符,所述描述符为基于图像的目标识别、搜索和检索提供一种表征、归纳和索引图像(例如,形状、物体等等)区别特征的途径。用于基于图像的目标识别的特征检测算法的一个例子是尺度不变特征变换(sift)特征检测算法,如lowe在us.patentno.6,711,293中所描述的。例如,所述sift特征检测算法可应用于图像以生成用于所述图像内各种特征的描述符。

基于机器的目标识别一般包括两个不同的步骤。第一,使用特征检测算法(例如,sift特征检测算法)对已知物体的训练图像进行分析,从而生成关联于所述图像数据中的特征的描述符。为了在识别设备(例如,智能手机)上运用,可将关联于许多不同物体的描述符打包成识别库或数据库。第二,所述识别设备拍摄物体的新“查询”图像。所述设备将相同的图像处理算法应用到所述查询图像,借此生成查询图像描述符。然后所述设备在所述识别库中将所述查询图像描述符与所述训练图像描述符进行对比。如果有足够多的匹配,通常为最近邻匹配,那么所述查询图像被视为包含所述已知物体中的至少一个的表示。

不幸的是,基于图像的目标识别的实际应用所必需的识别库可能比一般移动设备(例如,智能手机)的存储容量大得多。如果所述识别库不得不包含足够多的信息以区分上千个物体,那么这就尤其正确。例如,一般的sift描述符可能包括128字节的信息。那么1000个物体的数据集可能具有2,000,000个描述符,所述描述符转化为256mb的识别库。由于限制带宽和/或禁止数据充电的缘故,足够大的数据集很难运用在移动设备上,哪怕是通过移动通信网络。



技术实现要素:

在过去的日子里,已经做过了许多增强基于图像的目标识别所需的识别数据库的尝试,但是始终保持对技术的需要,该技术为允许建立紧凑而有效率的用于基于图像的目标识别的识别库。

本文中描述了用于识别训练图像内的稳健特征的方法、系统和产品。所述的各种实施方式可允许用于建立紧凑而有效率的用于基于图像的目标识别的识别库。在一个实施方式中,在训练图像内识别稳健特征。所述训练图像可能是未失真图像、红外线过滤图像、x射线图像、360度视角图像、机器视角图像、视频数据的帧、图形绘制和三维物体的透视图中的一个,且所述训练图像可能是借助图像拍摄设备通过拍摄视频流的视频帧来获得的。通过将特征检测算法应用到所述训练图像来生成训练特征,每个训练特征在所述训练图像内具有训练特征位置。根据预定义图像变换,所述训练图像的至少一部分变换成变换图像。多个图像变换可呈现给用户以供用户选择作为所述预定义图像变换,且所述预定义图像变换可独立地从用于拍摄所述训练图像的方法中选择。通过将所述特征检测算法应用到所述变换图像来生成变换特征,每个变换特征在所述变换图像内具有变换特征位置。所述训练特征的所述训练特征位置根据所述预定义图像变换映射到所述变换图像内对应的训练特征变换位置,且通过选择稳健特征编译稳健特征集,其中每个稳健特征表示训练特征具有训练特征变换位置,所述训练特征变换位置靠近于一个所述变换特征的变换特征位置。所述训练特征和变换特征中的每一个可根据所述特征检测算法通过特征描述符来描述。所述训练特征位置中的每一个可包括像素坐标,且所述变换特征位置中的每一个可包括变换像素坐标。所述特征检测算法可包括以下算法中的至少一个sift(尺度不变特征变换、scale-invariantfeaturetransform)、freak(快速视网膜关键点、fastretinakeypoint)、hog(梯度方向直方图、histogramsoforientedgradient)、surf(加速稳健特征、speededuprobustfeatures)、daisy、brisk(二进制稳健不变尺度特征关键点、brinaryrobustinvariantscalablekeypoints)、fast(基于加速分割的检测特征、featuresfromacceleratedsegmenttest)、brief(二进制稳健独立基元特征、binaryrobustindependentelementaryfeatures)、harriscorners(哈里斯角点)、edges、gloh(梯度位置方向直方图、gradientlocationandorientationhistogram)、eog(影像梯度能量、energyofimagegradient)或者tilt(变换不变低秩纹理、transforminvariantlow-ranktextures)特征检测算法。

在一些实施方式中,所述预定义图像变换可包括几何变换。所述几何变换可包括尺度缩放、倾斜、剪切和旋转变换中的至少一个。

在一些实施方式中,对所述训练图像的至少一部分的变换可包括通过尺度系数尺度缩放所述训练图像以形成所述变换图像。所述尺度系数可以以基于图像的目标识别搜索的一个或多个主题特性为基础,且可将所述基于图像的目标识别搜索的所述一个或多个主题特性确定为查询图像的标示,所述查询图像主要为近序图像、远序图像、倾斜图像、富纹理图像、中等纹理图像或乏纹理图像中的至少一个。在一些实施方式中,所述尺度系数可包括介于所述训练图像原始大小的50%和90%之间的线性尺度系数。在一些实施方式中,所述尺度系数可包括介于所述训练图像原始大小的75%和80%之间的线性尺度系数。

在一些实施方式中,对所述训练图像的至少一部分的变换可包括通过一个角度对所述训练图像进行倾斜、剪切、旋转和数字变换中的一项以形成所述变换图像。在一些实施方式中,所述角度可介于20度和45度之间。

在一些实施方式中,所述预定义图像变换可包括图像处理变换。所述图像处理变换可包括高斯滤波、颜色变换和有损压缩中的至少一个。

在一些实施方式中,对所述训练图像的至少一部分的变换可包括将复合变换作为所述预定义图像变换应用以形成所述变换图像,所述复合变换包括多个几何变换或者图像处理变换。以基于图像的目标识别搜索的一个或多个主题特性为基础可确定所述复合变换。

在一些实施方式中,可调节所述预定义图像变换的一个或多个调谐参数且基于所述已调节的调谐参数生成第二稳健特征集。所述一个或多个调谐参数包括尺度系数和角度中的至少一个,且可以以基于图像的目标识别搜索的一个或多个主题特性为基础自动调节。

在一些实施方式中,在相关于图像测试库使用时,可以以所述已调节的调谐参数的识别效率为基础优化所述已调节的调谐参数。在一些实施方式中,所述图像测试库不包括所述训练图像,且可以基于所述图像测试库验证所述已调节的调谐参数。

在一些实施方式中,对所述稳健特征的编译包括:对变换特征位置进行确定,所述变换特征位置在训练特征变换位置的确定阈值距离内;以及以相似性测度为基础,对关联于所述训练特征变换位置的训练特征和关联于所述变换特征位置的变换特征进行比较。所述相似性测度基于欧几里得距离(euclideandistance)、海宁格距离(hellingerdistance)和汉明距离(hammingdistance)中的至少一个。

伴随着以下说明书与用标号代表元器件的附图,本发明主题的各种目的、特征、方面以及优点将变得更加清晰易懂。

附图说明

图1根据一个实施方式示出了训练图像的不同几何变换的例子;

图2a根据一个实施方式示出了富纹理训练图像的几何图像变换的例子;

图2b根据一个实施方式示出了中等纹理训练图像的几何图像变换的例子;

图2c根据一个实施方式示出了乏纹理训练图像的几何图像变换的例子;

图3根据一个实施方式示出了用于识别训练图像内的稳健特征的系统的方框图;

图4根据一个实施方式示出了用于识别训练图像内的稳健特征的示例操作的流程图;

图5根据一个实施方式示出了用于确定变换参数的优化集的基于图像的目标识别搜索查询图像的例子;

图6a根据一个实施方式示出了对富纹理训练图像的变换优化结果的示意图;

图6b根据一个实施方式示出了对中等纹理训练图像的变换优化结果的示意图;

图6c根据一个实施方式示出了对乏纹理训练图像的变换优化结果的示意图;

图7示出了可用于实施所述各种实施方式的一个或多个方面的示范性客户端-服务器关联的方框图;

图8示出了可用于实施所述各种实施方式的一个或多个方面的分布式计算机系统的方框图;

在本发明参照上述附图进行描述时,所述附图旨在作为本发明的例证(在本发明的保护范围之内),且其他实施方式亦遵从本精神。

具体实施方式

在此之后将参照附图以更全面地对所述各种实施方式进行描述,所述附图作为所述实施方式的一部分且以示例的方式示出实践所述实施方式的特定例子。然而,本说明书可能以多种形式进行体现,这些不能被认为构成对在此述及的实施方式的限制。相反的,这些实施方式的提供使得本说明书得以全面而透彻,且得以给本领域技术人员全面地传递出本发明的保护范围。其中,本说明书可能体现为方法或者设备。相应地,在此的各种实施方式中的任一个均可以采取全硬件实施方式、全软件实施方式或结合了软件与硬件两方面的实施方式的形式。因此,以下详细描述将不被视为限制意义。

纵观说明书和权利要求,以下术语在申请中采取明确关联的含义,除非上下文中另有清楚的指定。

如本说明书用到的短语“在一个实施方式中”,其并不必需地指向同一个实施方式,尽管其有可能指向同一个实施方式。因此,如下所述,本发明的各种实施方式可便利地在没有背离本发明之精神的前提下进行结合。

例如本申请用到的术语“或”是一种包容性的“或”运算符,且相当于术语“和/或”,除非上下文中另有清楚的指定。

术语“以…为基础”、“基于…”不是排他性的并且允许以未描述到的额外因素为基础,除非上下文中另有清楚的指定。

例如本申请用到的,以及除非上下文表明了例外情况的,术语“连接于”意在包含直接连接(其中两个元件互相连接互相接触)和间接连接(其中至少一个额外元件位于所述两个元件之间)。因此,术语“连接于”与“与…连接”作为同义词使用。在两个或多个构件或设备能够交换数据的网络化环境的上下文中,术语“连接于”和“与…连接”也用于表示“相通地与…连接”,可能通过一个或多个中间设备。

此外,通篇说明书中,“一种”、“一个”以及“所述”的意思包括复数引用,且“在…中/内”的意思包括“在…内”和“在…上”。

尽管有些说明书中呈现的所述各种实施方式构成创造性元素的单个组合,应当理解的是所述创造性主题视为包括所述已公开元素的所有可能组合。例如,如果一个实施方式包括元素a、b和c,同时另一个实施方式包括元素b和d,那么所述创造性主题也视为包括另一个保留的a、b、c或d的组合,即便该组合并未在此详细地述及。

如本文描述中所用到的和贯穿之后的权利要求的,当一个系统、引擎、服务器、设备、模块或其他计算组件被描述为配置成在存储器内的数据上履行或执行,“配置成”或“编写成/编程为”的意思是定义为通过储存在所述计算组件的所述存储器内用于在储存在所述存储器内的目标数据或数据目标上执行功能组的一组软件指令编写的所述计算组件的一个或多个处理器或芯片。

应该注意的是任何指向计算机的语言应该视为包括计算设备的任意适合的组合,包括服务器、界面、系统、数据库、代理、对等设备、引擎、控制器、模块、或其他单独或协同运行的计算设备结构的类型。应当理解的是所述计算设备包括配置成执行储存在有形的、非瞬时性计算机可读存储介质(例如,硬盘驱动器、fpga(现场可编程门阵列)、pla(可编程逻辑阵列)、固态硬盘、ram(随机存储器)、flash(闪存)、rom(只读存储器)等等)上的软件指令的处理器。所述软件指令配置或者编码所述计算设备以提供任务、职责或其他如下文关于所公开的装置讨论到的功能。此外,所公开的技术可体现为包括非瞬时性计算机可读存储介质的计算机程序产品,所述非瞬时性计算机可读存储介质储存有所述软件指令,所述软件指令引起处理器执行与计算机的算法、程序、方法或其他指令的实施相关联的公开步骤。在一些实施方式中,各种服务器、系统、数据库、或界面交换数据均使用标准协议或算法,可能为基于http(超文本传输协议,hypertexttransferprotocol)、https(安全超文本传输协议)、aes(高级加密标准,advancedencryptionstandard)、公开-专用密钥交换(public-privatekeyexchange)、web服务api(网络服务应用程序接口,webserviceapplicationprogramminginterface)、已知的金融交易协议、或其他电子信息交换方法。在设备间的数据交换可以在分组交换网络、互联网、lan(局域网,localareanetwork)、wan(广域网,wideareanetwork)、vpn(虚拟专用网,virtualprivatenetwork)、或分组交换网络的其他类型、电路交换网络、单元交换网络、或其他网络类型上执行。

所述公开的创新主题的关注点在于使计算设备的构造或配置能够超出于人类的能力地在大量的数字数据上运行。尽管,在一些实施方式中,所述数字数据表示着图像,应该理解的是所述数字数据是一个或多个图像数字模型的表示,而不必需为图像本身。通过对这些在所述计算设备的存储器内的数字模型具体化,所述计算设备能够以提供实用性给所述计算设备的用户的方式来管理所述数字数据或模型,在没有使用此种工具的时候,用户将缺乏所述实用性。因此,所公开的设备能够根据所公开的技术以更具效率的方式处理此类数字数据。

应当理解的是所公开的技术提供了许多有益的技术效果,包括提高基于数字图像的目标识别和检索技术的范围、精度、紧凑度、效率和速度。同时应当理解的是以下详细说明并不意在作为一份延伸性概述。且因此为清晰和简洁起见,可能简化一些概念。

根据所述各种实施方式,在图像检索、图像识别和/或基于图像的目标识别的上下文中提及的物体实例检索包含对图像数据集(在此单独地指向“图像”或“训练图像”)进行特征检测的系统和方法以相应给定的查询图像。通过描述符的使用使得图像识别成为可能,所述描述符表征、归纳和索引图像的区别特征。大规模图像识别可包含多种并行运作的服务器和每服务器1千万以上图像的图像数据集(相对于中规模图像识别中大约每服务器1百万图像的图像数据集)。然而,由于对应于大图像数据集的描述符的存储要求,往往会在图像描述符的存储器占用空间和例如由平均精确度(mpa)测量的图像检索性能之间取舍。因此在大规模图像上执行图像识别更可取的是更少地使用图像描述符去表示图像。

描述符可以是对应于图像(例如,形状、物体等等)的一个或多个可区别特征的向量。有各种用于检测图像特征和生成描述符的方法。例如,sift是目前流行的用于检测和描述图像特征的图像识别算法。sift描述符为128维以便于高度区别于或者至少部分地包容例如光照、三维视点等等的偏差。例如,一份涉及生成sift描述符的参考文献为d.lowe,”distinctiveimagefeaturesfromscale-invariantkeypoints”,intemationaljournalofcomputervision60(2),pages91-110(2004)。在sift描述符之外,其他可选的描述符包括freak描述符、hog描述符、surf描述符、daisy描述符、brisk描述符、fast描述符、brief描述符、harriscorners描述符、edges描述符、gloh描述符、eog描述符和tilt描述符。通常,图像集的每个图像可包括成百或上千的通过描述符表示的特征。因此,实际的系统约束往往会要求可用来同时压缩用于描述图像数据集的描述符的数量,和减小储存描述符中所包含的信息所必需的所述存储器大小的方法。

在本说明书的所述各种实施方式中,通过在训练图像数据内识别稳健特征,提供了用来同时压缩用于描述图像数据集的描述符的数量和减小储存描述符中所包含信息所必需的所述存储器大小的方法。这里所述的各种实施方式有助于确定对于各种微扰来说哪些特征是稳健的(robust)(例如,诸如几何变换和图像处理变换之类的图像变换),而不是仅仅接收所有特征及其相关描述符作为基于图像的目标识别的密切相关。此外,通过利用物体的仅单个图像而不是多个图像来确定稳健特征,所述各种实施方式可比其他平常的训练图像摄取技术节省时间。然而,同时能预期到的是所述各种实施方式可用于摄取具有遍及多个视点的复杂结构的三维物体的多个图像。

在本文中示出的所述用于识别稳健特征的各种实施方式中,为明确和简洁起见,利用几何(例如,尺度缩放)变换和sift特征检测算法作为示例。然而,应当理解的是其他图像变换(例如,其他几何变换、图像处理变换、或变换的组合)和其他特征检测算法也可以在所述各种实施方式实施。还应当理解的是,以使用到的特定的特征检测算法为基础或以已知的通过所述训练图像表示的特定的主题特性为基础,也可以使用各种其他图像变换。

图1通过一个实施方式示出了训练图像的不同几何变换的例子。在图1中,训练图像100示出了具有高度h的物体的图像。例如,训练图像100可能是未失真图像、红外线过滤图像、x射线图像、360度视角图像、机器视角图像、视频数据的帧、图形绘制和三维物体的透视图中的一个。在一些实施方式中,训练图像100可能是借助图像拍摄设备通过拍摄视频流的视频帧或者从来自广播节目(例如,电视、电影等等)的视频流的视频帧来获得的。仅用于示例之目的,训练图像100作为中等纹理目标示出。

训练图像100的至少一部分可通过先验定义的(即,预定义的)图像变换变换成变换图像,比如通过变换图像102、104和106示出的。在一个实施方式中,所述先验定义的(即,预定义的)图像变换可能是几何变换(如图所示)或者自动选择的或呈现给用户选择的图像处理变换中的至少一个。而且,所述预定义图像变换可独立地从用于拍摄所述训练图像的方法中选择。照此,所述预定义图像变换可选择来使训练图像摄取过程效率更高,比如通过自动将相同的预定义图像变换应用到多个训练图像中的每一个而不论它们的来源。

在一些实施方式中,所述预定义图像变换可以以已知通过所述训练图像(例如,富纹理儿童玩具、乏纹理标志、印刷媒体、街景图像、城市景观图像等等)表示的特定主题特性为基础进行选择。而且,所述预定义图像变换可以以期望的查询图像的特性为基础,例如,预期的查询图像主要为近序图像、远序图像、倾斜图像、富纹理图像、中等纹理图像或乏纹理图像中的至少一个。例如,主要为近序的查询图像可从因包含印刷媒体而知名的搜索中预期到,而主要为远序的图像可从因包含街景图像、城市景观图形或cctv(闭路电视)/安防摄像头图像而知名的搜索中预期到。

在一个实施方式中,对训练图像100进行变换以形成变换图像包括通过尺度系数对所述训练图像进行尺度缩放(例如,尺度放大或尺度缩小)。例如,变换图像102示出了已通过线性尺度系数α线性地尺度缩小的训练图像。在一个实施方式中,所述线性尺度系数α可优选为位于0.5(即,50%)和0.9(即,90%)之间,且尤其是位于0.75(即,75%)和0.8(即,80%)之间。例如,以下文中描述的用于通过识别稳健特征以减少用于描述训练图像所需的特征数量的方法为基础,大约为0.8(即,80%)的线性尺度系数可不损耗识别性能的前提下在识别数据库的大小上取得大约50%的减量。在一些实施方式中,所述尺度系数可以以基于图像的目标识别搜索的一个或多个主题特性为基础。

在一个实施方式中,对训练图像100进行变换以形成变换图像可包括以一个角度旋转所述训练图像。例如,变换图像104示出了已以角度θ旋转了的训练图像。所述角度θ可以以创建用于识别稳健特征的微扰的期望数量为基础进行选择。例如,角度θ=20度可能是能够在训练图像100和变换图像102之间引起可观的旋转变化的最小角度。照此,20度以下的角度可能使得所述图像看起来非常相似,以至于有可能没有足够的微扰以识别稳健特征。例如,在此种情况下的稳健特征可能包括原始特征集的70%或80%。然而,45度以上的角度可能是上界角度,因为旋转是高度对称的。例如,θ=70度的角度可引起的旋转基本等效于20度旋转后接着反方向90度旋转(该反方向90度旋转可引起相对于sift特征检测来说极小的差值)。照此,为了sift检测,所述70度可等效于20度旋转。同样的,160度可等效于180度旋转后的20度旋转。因此,在一个实施方式中,旋转角度θ优选为介于20度和45度之间。

在一个实施方式中,对训练图像100进行变换以形成变换图像可包括以倾斜角度倾斜或者剪切所述训练图像。例如,变换图像106示出了以角度进行倾斜了的训练图像。所述角度可以以创建用于识别稳健特征的微扰的期望数量为基础进行选择。例如,角度度可能是能够引起训练图像100和变换图像102之间变化的最小角度。照此,20度以下的角度可能使得所述图像看起来非常相似,以至于有可能没有足够的微扰以识别稳健特征。然而,45度以上的角度可能对变换图像102造成太大的失真,以至于极少特征可在所述变换中幸存下来作为稳健特征以供识别,这可能会导致识别性能的降低。因此,在一个实施方式中,倾斜角度优选为介于20度和45度之间。

在一些实施方式中,多个不同图像变换可组合成复合变换。例如,可选择多个几何变换和/或图像处理变换(例如,包括高斯滤波、颜色变换和/或有损或无损压缩)进行组合以将训练图像100变换成变换图像。在一些实施方式中,复合变换可以以相机或其他图像拍摄设备的一个或多个已知特性(例如,焦距、孔径、变焦范围、虚化等等)为基础来进行确定。因此,所述复合变换可模拟或效仿通过这样的图像拍摄设备进行的图像拍摄,或者可模拟或效仿这样的场景,在该场景下查询图像可通过这样的图像拍摄设备进行拍摄。此外,在一些实施方式中,复合变换可以以基于图像的目标识别搜索的一个或多个主题特性为基础进行确定。因此,应当理解的是其他图像变换或图像变换的组合也是可行的。且图1中所示的例子在作为示例的时候,仅用于对训练图像100进行变换以形成变换图像的所述图像变换的例证。

稳健特征被认为是图像内的特征子集,所述图像被确定为不受诸如图像变换的微扰的影响。例如,有可能将特征检测算法应用到训练图像100以生成训练特征,其中每个训练特征在所述训练图像内具有训练特征位置(例如,像素坐标)。同样的,也可能将所述特征检测算法应用到变换图像,比如变换图像102、104和106中的一个,以生成变换特征,其中每个变换特征在所述变换图像内具有变换特征位置(例如,变换像素坐标)。接着,训练图像100的稳健特征集可通过识别所述具有训练特征变换位置(例如,对应的变换图像位置映射的位置)的训练特征来进行确定,所述训练特征变换位置靠近于一个所述变换特征的变换特征位置。

图2a根据一个实施方式示出了富纹理训练图像的几何图像变换的例子。训练图像200示出了在sift特征检测算法应用之后已被确定为具有1149sift训练特征(即,训练特征202和204)的富纹理训练图像(例如,一般儿童玩具包的图像)。为清晰起见,并没有示出所有的训练特征。已经对训练图像200进行变换以形成变换图像210。变换图像210通过.8(即,80%)的尺度系数线性地尺度缩小,同时保持训练图像200的长宽比。在所述sift特征检测算法的应用之后,变换图像210已被确定成具有786sift变换特征(即,变换特征212和214)。为清晰起见,并没有示出所有的变换特征。应当注意的是,不是所有的所述786变换特征都对应于训练特征。例如,尺度缩小的训练图像200可能使得一些检测到的训练特征(即,训练特征204)在变换图像210内不具有对应的变换特征。在其他实例中,对训练图像200的尺度缩小可能使得变换特征(即,变换特征214)以不具有对应训练特征的方式出现在变换图像210内。例如,在变换图像210内,所述786变换特征之外,550变换特征(即,变换特征212)与来自训练图像200的训练特征(即,训练特征202)相互关联。这些550变换特征被视为稳健而不受尺度缩小训练图像200的微扰的影响。照此,训练图像200内大约48%(即,100*550/1149)的所述训练特征可被视为稳健特征。

图2b根据一个实施方式示出了中等纹理训练图像的几何图像变换的例子。训练图像220示出了在sift特征检测算法应用之后已被确定为具有707sift训练特征(即,训练特征222和224)的中等纹理训练图像。为清晰起见,并没有示出所有的训练特征。已对训练图像220进行变换以形成变换图像230。变换图像230通过.8(即,80%)的尺度系数线性地尺度缩小,同时保持训练图像220的长宽比。在所述sift特征检测算法的应用之后,变换图像230已被确定成具有多个变换特征(例如,变换特征232和234)。为清晰起见,并没有示出所有的变换特征。如图2a所示,应当注意的是,不是所有的变换特征都对应于训练特征。例如,尺度缩小的训练图像220可能使得一些检测到的训练特征(例如,训练特征224)在变换图像230内不具有对应的变换特征。在其他实例中,对训练图像220的尺度缩小可能使得变换特征(例如,变换特征234)以不具有对应训练特征的方式出现在变换图像230内。例如,在变换图像230内,318变换特征(例如,变换特征232)与来自训练图像220的训练特征(例如,训练特征222)相互关联。这些318变换特征被视为稳健而不受尺度缩小训练图像220的微扰的影响。因此,训练图像220内大约45%的所述训练特征可被视为稳健特征。

图2c根据一个实施方式示出了乏纹理训练图像的几何图像变换的例子。训练图像240示出了在sift特征检测算法应用之后已被确定为具有多个sift训练特征(例如,训练特征242和244)的乏纹理训练图像。为清晰起见,并没有示出所有的训练特征。已对训练图像240进行变换以形成变换图像250。变换图像250通过.8(即,80%)的尺度系数线性地尺度缩小,同时保持训练图像240的长宽比。在所述sift特征检测算法的应用之后,变换图像280已被确定成具有多个sift变换特征(例如,变换特征252和254)。为清晰起见,并没有示出所有的变换特征。如上述的图2a和2b所示,应当注意的是,变换图像250内的变换特征并不都对应于训练图像240内的训练特征。例如,尺度缩小的训练图像240可能使得一些检测到的训练特征(例如,训练特征244)在变换图像250内不具有对应的变换特征。在其他实例中,对训练图像240的尺度缩小可能使得变换特征(例如,变换特征254)以不具有对应训练特征的方式出现在变换图像250内。训练图像240内大约53%的所述训练特征(例如,训练特征242)可被视为稳健的,因为它们在变换图像250内具有对应的变换特征(例如,变换特征252)。

因此,在图2a-2c中,80%的尺度变换仍维持有大约50%的训练特征作为稳健特征。只要所述稳健特征储存起来了,那么这个比例可转化成对于容纳所述训练图像特征所需的存储空间大小的50%的减量(例如,图像识别数据库在大小上50%的减量)。而且,图2a-2c示出了生成稳健特征,如下文所述,大体上对于纹理是不变的。

图3根据一个实施方式示出了用于识别训练图像内的稳健特征的系统的方框图。在方框图300内,用于识别稳健特征的元件包括特征检测器310、图像拍摄设备320、持久储存设备330和主存储器设备340。然而,应当注意的是,,图3中的组件和各个所述组件的各种功能在示例之时的描述仅是为了使本实施方式更易于理解。本领域技术人员可以理解的是出于所述各种组件的一个或多个功能可以通过任意其他元件来执行,且/或通过配置成执行所述各种功能的组合的元件(未示出)。

在一个实施方式中,特征检测器310配置成在训练图像350内识别稳健特征。在一些实施方式中,训练图像350表示物体302的二维(2d)表示,如可以在普通相片、图像、或视频帧里发现的一样。可选的,训练图像350可以是通过利用非典型滤光片或镜片(例如,鱼眼镜片)来生成的失真图像。而且,训练图像350可以是以红外线(ir)滤波、x射线、360度视角透视图等等中的一个或多个为基础的物体机器或机器人视角图。照此,训练图像350可以是未失真图像、红外线过滤图像、x射线图像、360度视角图像、机器视角图像、视频数据的帧、图形绘制和三维物体的透视图中的一个,且可以借助诸如图像拍摄设备320的图像拍摄设备通过拍摄视频流的视频帧来获得。

在一些实施方式中,图像拍摄设备320可以是这样的设备,该设备要么外露于(未示出)、要么内含于特征检测器310以生成或获得训练物体302的图像。例如,图像拍摄设备320可包括远程服务器(例如,平台即服务paas服务器、基础设施即服务iaas服务器、软件即服务saas服务器、或基于云的服务器)、或者通过通信网络连接于特征检测器310的远程图像数据库。在其他例子中,图像拍摄设备320可包括数字静止图像或配置成拍摄图像的摄像机和/或视频数据的帧。在其他的例子中,图像拍摄设备320可包括图形绘制引擎(例如,游戏系统、图像渲染软件等等),在所述图形绘制引擎中,所述训练图像是物体的生成图像而不是拍摄图像。

在一个实施方式中,特征检测器310配置成通过将特征检测算法应用到所述训练图像350以生成训练特征352,其中每个训练特征在所述训练图像350内具有训练特征位置。例如,每个训练特征位置可包括像素坐标且可根据所述特征检测算法通过特征描述符进行描述。所述特征检测算法可包括sift、freak、hog、surf、daisy、brisk、fast、brief、harriscorners、edges、gloh、eog或者tilt特征检测算法中的至少一个。

在一个实施方式中,特征检测器310配置成根据预定义图像变换将所述训练图像350的至少一部分变换成变换图像360。在一些实施方式中,特征检测器310可配置成将多个图像变换呈现给用户以供选择作为所述预定义图像变换,且配置成通过,例如,用户界面(未示出)接收来自用户的选择。在一些实施方式中,特征检测器310可包括api(应用程序编程接口、applicationprogramminginterface)、或外部api,所述预定义图像变换可通过这些api来获得。所述预定义图像变换可包括至少一个几何变换(例如,包括对所述训练图像的倾斜、剪切或旋转的变换中的至少一个)和/或图像处理变换(例如,包括高斯滤波、颜色变换或有损压缩中至少一个的变换)。在一些实施方式中,所述预定义图像变换可以是包括,例如,多个几何变换和/或图像处理变换的复合变换。

所述预定义图像变换可包括广范围的特征。在数学意义上,所述预定义图像变换可包括将2d图像(例如,像素信息的2d阵列)转化成新的变换图像空间(例如,更高维度图像空间)的矩阵运算。图像变换的例子包括几何变换、光照变换、以及包括压缩(例如,有损、无损等等)变换、颜色变换、高斯滤波、或其他变换类型的图像处理变换。

在一个实施方式中,特征检测器310通过将特征检测算法应用到所述变换图像360来生成变换特征362,其中每个变换特征在所述变换图像内具有变换特征位置。例如,每个变换特征位置可包括变换像素坐标,且可根据所述特征检测算法通过特征描述符进行描述。

在一个实施方式中,特征检测器310接着配置成根据所述预定义图像变换将所述训练特征的所述训练特征位置映射到所述变换图像内对应的训练特征变换位置。照此,在所述变换特征空间内确定所述训练特征的期望位置。

在一个实施方式中,特征检测器310接着通过选择稳健特征编译稳健特征集370,其中每个稳健特征表示着具有训练特征变换位置的训练特征,所述训练特征变换位置靠近于一个所述变换特征的变换特征位置。例如,对所述稳健特征集的编译可包括对变换特征位置进行确定,所述变换特征位置在训练特征变换位置的确定阈值距离内;以及以相似性测度为基础,对关联于所述训练特征变换位置的训练特征和关联于所述变换特征位置的变换特征进行比较。所述相似性测度基于欧几里得距离(euclideandistance)、海宁格距离(hellingerdistance)和汉明距离(hammingdistance)中的至少一个。

在一些实施方式中,特征检测器310还可配置成通过储存用于与查询图像进行比较的所述稳健特征集370来促进基于图像的目标识别搜索。例如,储存在,例如,主存储器设备340内的查询图像特征数据可用来执行所述查询图像特征数据和多个诸如可储存于持久储存设备330和/或主存储器设备340内的训练图像的所述稳健特征集之间的基于图像的目标识别搜索。在一些实施方式中,可对所述稳健特征集进行储存以促进在所述稳健特征和查询图像之间的最近邻搜索,比如基于,例如k-d树(k-dimensiontree)、溢出树(spilltree)或者其他最近邻排序技术。

在一些实施方式中,特征检测器310还可配置成对所述预定义图像变换的一个或多个调谐参数进行调节且以所述已调节的调谐参数为基础生成第二稳健特征集。例如,所述一个或多个调谐参数可包括尺度系数和角度中的至少一个,且可以以图像识别搜索的一个或多个主题特性为基础进行自动调节。在一些实施方式中,特征检测器310还可配置成在相关于图像测试库使用时,以所述已调节的调谐参数的识别效率为基础优化所述已调节的调谐参数。例如,可以以所述图像测试库为基础对所述已调节的调谐参数进行验证。

图4根据一个实施方式示出了用于识别训练图像内的稳健特征的示例操作的流程图。应当理解的是,方法400通过一个或多个配置成或编码成具有特征检测器,例如特征检测器310,的公开功能或响应性的计算设备。例如,所述特征检测器可包括计算机服务器群,其中每个服务器由,例如,基于sift的图像分析包进行配置。因此,在一些实施方式中,所述特征检测器可摄取数百万的训练图像以根据方法400进行处理。此外,所述特征检测器可包括装备着的图像拍摄设备(例如,摄像机或游戏机)以根据方法400,比如实时地,拍摄视频数据的图像帧。

在步骤402上,通过将特征检测算法应用到训练特征图像上来生成训练特征,每个训练特征在所述训练图像内具有训练特征位置。在一些实施方式中,使用了sift特征检测算法。然而,所述特征检测算法还可以包括surf、daisy、fast、harriscorners、brisk、tilt或其他现有的或待发明出来的特征检测算法。训练特征包括在所述训练图像内的训练特征位置,所述训练特征位置有可能由像素坐标来表示(例如,通过x轴和y轴的笛卡尔坐标描述的坐标)。而且,所述训练特征还包括描述符,通过所述描述符可以识别或匹配图像。例如,sift特征可包括128维向量、或36维向量,取决于配置了多少所述sift特征检测算法。

在步骤404上,根据预定义图像变换,将所述训练图像的至少一部分变换成变换图像。例如,所述变换图像可以是衍生于所述训练图像的计算机生成图像。照此,可以不必对同一个主题拍摄多张图像、或重拍图像,即可生成所需的或所期望的额外的变换图像。在一些实施方式中,可对所述训练图像的选定补丁进行变换,例如围绕已选定或确定的训练特征位置集群的补丁,而不是对所有的训练图像进行变换。

在步骤406上,通过将特征检测算法应用到所述变换图像上来生成变换特征,每个变换特征在所述变换图像内具有变换特征位置。例如,所述特征检测算法可生成新观察到的由所述训练图像的微扰所引起的特征、可生成同在所述训练图像内观察到的特征一致的特征、或者无法生成与所述训练图像中类似的特征。在通所述训练特征相似的纹理中,每个变换特征包括描述符以及在所述变换图像内的变换特征位置。所述变换特征位置可在所述变换图像空间内作为变换像素坐标。

在步骤408上,所述训练特征的所述训练特征位置根据的所述预定义图像变换映射到所述变换图像内对应的训练特征变换位置。例如,如果为所述变换,那么所述训练图像的像素(x,y)将被转化成(x′,y′),即本质上,步骤408规划了如果初始训练特征在经历所述变换引起的微扰后仍然存在则其应该驻留在何处。照此,所述特征检测器可编译出一条关于所述训练特征应在所述变换图像中的何处的清单和一条从所述变换图像中检测到的特征的清单。

在步骤410上,通过选择稳健特征以编译稳健特征集,其中每个稳健特征表示具有训练特征变换位置的训练特征,所述训练特征变换位置靠近于一个所述变换特征的变换特征位置。照此,所述特征检测器可在训练特征和变换特征之间建立关联。如果训练特征和变换特征之间的关联建立起来了,那么所述特征即视为稳健的。所述训练特征和变换特征的所述关联可以根据各种方法执行。在一些实施方式中,所述关联可包括测量所规划的训练特征变换位置和变换特征位置之间的距离(例如,欧几里得距离)。如果所述距离小于阈值(例如,可调节参数),那么所述特征即视为稳健的。此外,所规划的训练特征变化为止和变化特征位置之间的距离可以基于相似性测度。例如,可对最相近的训练特征和变化特征的描述符进行比较,例如,作为标准化的点积,其中所述点积越接近于数值1,所述描述符越相似。在一些实施方式中,所述相似性测度可包括汉明距离(例如,基于在所述描述符向量的每个元素中的值的存在)、欧几里得距离和/或海宁格距离。

在步骤416上,所述稳健特征集可储存在,例如,计算机可读介质上。例如,所述稳健特征集可在用作远端(远程)目标识别服务的服务器内进行储存,或者可能被打包以便在便携或移动设备(例如,智能手机)上应用。在一些实施方式中,稳健特征集可储存为树状结构(例如,溢出树、k-d树等等),在所述树状结构中,所述稳健特征描述符包括所述树状结构的叶子。而且,涉及促进基于图像的目标识别检索的其他信息可与所述稳健特征集一同储存,包括,例如,关于相关描述符的信息、可以衍生相关描述符的图像补丁、和/或关于有显著图像帧的信息。

在一些实施方式中,对所述稳健特征集的编译可包括两步骤的过程,包括对变换特征位置进行确定,所述变换特征位置在训练特征变换位置的确定阈值距离内;然后以相似性测度为基础对关联于所述训练特征变换位置的训练特征和关联于所述变换特征位置的变换特征进行比较。例如,在训练特征变换位置的确定阈值距离内的变换特征位置进行确定可以基于所述变换特征和所述变换训练特征的像素位置之间阈值几何距离。如果所述像素位置在所述确定阈值距离之内,所述训练特征的描述符和所述变换特征的描述符可基于相似性测度进行比较,比如汉明距离、欧几里得距离和/或海宁格距离。

在可选的步骤412上,可以对所述预定义图像变换的一个或多个调谐参数进行调节,且在步骤414上,基于可选步骤所调节的调谐参数可生成第二稳健特征集。在一些实施方式中,所述一个或多个调谐参数可包括尺度系数和角度中的至少一个,且可以以图像识别搜索的一个或多个主题特性为基础自动进行调节。例如,线性尺度缩小系数可包括介于0和1之间表示一小部分的变量值,通过所述变量值可以尺度缩放所述训练图像。照此,对所述一个或多个调谐参数的调节可包括对可在保持识别性能级别的同时在所述识别数据库大小上提供期望的减量的参数值的确定。而且,在一些实施方式中,以一个或多个已知主题特性为基础,每个主题的范围(例如,玩具、消费品、车辆、衣服、游戏、设备、人们、建筑物等等)或每个特征检测算法可能具有不同的优化参数,即便是对于相同的图像变换。

在一些实施方式中,所述调节过的调谐参数可以在相关于图像测试库使用时,以所述已调节的调谐参数的识别效率为基础优化所述已调节的调谐参数。例如,所述各种稳健特征集可同图像测试库进行测试以确定哪个已调节的参数提供了最好的识别性能表现(例如,最小的有效识别库的大小、识别效率、时延等等)。在一些实施方式中,可以以不包括所述训练图像的图像测试库为基础对所述已调节的调谐参数进行验证。

图5根据一个实施方式示出了用于确定变换参数的优化集的基于图像的目标识别搜索查询图像的例子。所述实施方式在此识别稳健特征有助于远物体和近目标识别搜索。远目标识别表示一个场景,在该场景中目标物体表示查询图像内的小部分视野,例如,在城市景观图像内的单独的建筑物、在空间监控保安摄像头/cctv视频帧内的人物、生产线质量控制摄像机的视频帧内的单独工作站、或高速路监控交通摄像头的视频帧内的车辆来往。近目标识别表示一个场景,在该场景中所述目标物体或更可能是所述目标物体的一部分填充查询图像内全部或基本上全部视野。例如打印页上文本、atm机器视频监控的保安摄像头/cctv内的人物、或医疗诊断或外科手术的摄像系统的视频帧/图像内的病人。作为一个例子,图5阐明了示出用于远目标识别的查询图像500、502、504和506以及用于近目标识别的查询图像508、510、512和514的富纹理物体图像(参见图2a)。如图所示,可以对一般的远物体和近目标识别查询图像进行旋转、倾斜、虚化、裁剪、或这些的任意组合。而且,所述查询图像的预期质量可以以基于图像的目标识别搜索的所述已知主题为基础进行确定(例如,已知的待关联于涉及儿童玩具的搜索的查询图像,所述儿童玩具有可能以操作所述查询图像拍摄设备的儿童的可能技能为基础被裁剪、虚化、倾斜等等)。

在一个实施方式中,可以对应用于所述训练图像的所述预定义图像变换进行调整以生成有助于远目标识别和近目标识别两者的稳健特征。因此,对一系列分析图像进行收集以确定对于所述变换的优化参数,所述变换产生可接受的识别度量或效率。这些分析图像表示目标物体的拍摄图像,并且包括远序图像500、502、504、506和近序图像508、510、512、514。为了分析的目的,关于富纹理图像(参见图2a),所述图像的远序包括161张图像(未完全示出)且所述图像的近序包括113张图像(未完全示出)。

为了优化的目的,待优化的度量(y)由下式进行定义:

其中该#ofusefulfeatures表示对于给定的变换参数集通过本文中的所述实施方式进行确定的稳健特征,且该#oftrainingfeatures表示衍生自所述训练图像的特征(例如,sift特征)的数量。该#oftestimages表示对于所给定序列(例如,近序或远序图像)的图像的总数量。该#ofrecog.testimage表示正确匹配的数量。

应当理解的是,y的第一项倾向于压低y的值。这是期望的性状,因为这减少了识别数据库的大小。y的第二项总是大于或等于1,其中在所述第二项内的数值1表示所有图像都被识别了。因此,这两个项以这样的方式竞争以制衡彼此的变换参数的实际值(例如,0特征使得y为零,这是不实际的),在这样的方式中,y的低值表示更优选的变换参数。

关于图像识别性能,针对储存有超过300张用于相应主题的测试图像的测试库来测试图2a-2c中所得到的稳健特征集中的每一个。对于每个图像,识别效率(例如,测试图像的数量(nt)除以来自稳健特征的匹配计数(mc);100*mc/nt)分别等于79%、76%、和71%,不同于使用原始训练特征的85%、82%、71%。在前两张图中,仅发现有6%性能下降。在一个实施方式中,所述性能可通过使用一个或多个如递交于2013年11月12日的标题为“imagerecognitionverification”、编号为61/946650的美国临时专利申请中所提及的验证器来提高。例如,使用一般的识别技术(例如,不带有验证器的sift特征检测算法)来进行测试,该测试运行于661张图像上。所述原始数据库包括1,379,531个特征且具有253.7mb的大小。使用未过滤的sift特征检测算法的标准技术以81%的识别效率正确地识别了第一匹配。使用本文中的所述实施方式,所述数据库通过使用80%线性尺度系数降低到654,828个特征,且所述数据库的大小为121.9mb。即所述数据库在大小上具有超过50%的减量。将所述识别步骤与所述验证器进行连接导致第一匹配变成79%的识别效率,这在识别性能内是个微不足道的差异。而且,尽管使用了验证器,在所述图像匹配进程期间的时延仍由于数据库大小的减少而降低。

图6a根据一个实施方式示出了对富纹理训练图像的变换优化结果的示意图。在图6a中,图形600呈现出了测试的结果,在该测试中针对应用于图2a的所述富纹理训练图像的各种变换确定优化度量y。对于该测试,所述富纹理训练图像具有1149个训练特征。所述查询图像包括161个远序图像和113个近序图像。尽管数据表明所述基于所述优化度量y的各种变换中最受期望的变换包括将所述训练图像尺度缩小到67%以用于远序识别,对近序图像和远序图像的组合来说更优选的设置却是0.8(即,80%)的尺度系数。原因在于,在本领域中,消费者更可能拍摄特写的查询图像(例如,用于购物搜索的产品的查询图像)而非更远地方的图像。然而,对于一些应用来说,远序查询图像是可以期望的且在这样的实例中,可能会选择更有利于大部分远序图像的尺度系数(例如,0.67的尺度系数)。

图6b根据一个实施方式示出了对中等纹理训练图像的变换优化结果的示意图。在图6b中,图形610呈现出了测试的结果,在该测试中针对应用于图2b的所述中等纹理训练图像的各种变换确定优化度量y。在这种情况下,所述中等纹理训练图像包括707个训练特征。所述查询图像包括299个远序图像和307个近序图像。如图所示,对于测试的近序图像和远序图像的组合的最优化变换为所述训练图像的80%尺度缩放,与所述富纹理图像的案例中一样。

图6c根据一个实施方式示出了对乏纹理训练图像的变换优化结果的示意图。在图6c中,图形620针对应用于图2c中的乏纹理图像的相同组的变换呈现出了优化度量y的测试结果。所述乏纹理图像包括186个训练特征。对于这个测试,所述查询图像包括221个远序图像和166个近序图像。与前述两个案例类似,对于近序图像和远序图像的组合的最优化变换为所述训练图像的80%尺度缩放。

照此,所述的示例测试表明0.8尺度系数对于在广范围的物体类型(例如,富纹理图像、中等纹理图像和乏纹理图像)上识别图像是可行的,同时该0.8尺度系数也显著地降低了对应识别数据库的大小。

因此,本文的所述实施方式可有助于解决与可能在一个或多个基于web的服务器上实现的大规模图像识别系统相关联的各种存储器占用和精度的问题。应该理解的是,如果目标市场或用例中有需要或者要求,那么无性能损耗地在数据库大小上实现50%的减量也同时得以加倍所述数据库中的可识别物体的数量。

在一些实施方式中,稳健特征集的识别可能是自动的。例如,特征检测器310和/或图像拍摄设备320可作为爬取网站图像(例如,人物图像、社交头像、等等)以供摄取的网络机器人(webbot)运作。此外,所述机器人可在城市景观、街景或建筑物内部图像(例如,街景图像)上运行以摄取与建筑物或地方相关联的特征。在一些实施方式中,由于网络机器人、或其他类型的自动系统拍摄了照片或视频,所以特征检测器310和/或图像拍摄设备320可配置成实时地生成稳健特征集。

在各种实施方式中,特征检测器310和/或图像拍摄设备320可在基于目标标准的多个预定义图像变换之间进行选择,所述目标标准为诸如基于市场的标准之类的。例如,面向儿童的玩具可包括具有很少可观察特征的柔和色塑料。在这种情况下,预定义图像变换可选择以包括边缘强化变换(例如,强化了用于物体的边缘性能的描述符),比如当几乎没有其他非边缘特征可辨别时,使得得到的稳健特征集可包括存在于或靠近于边缘或其他轮廓上的特征。照此,可对预定义图像变换进行选择以强调期望的目标识别属性。而且,在一些实施方式中,所选择的预定义图像变换可能不同于所述特征检测算法。例如,可对所述预定义图像变换进行选择以用于确定边缘特征(和边缘特征描述符),且同时应用于所述变换图像的所述特征检测算法可配置来生成其他类型的特征描述符(例如,sift描述符)。

所述各种实施方式还可通过确定关于所述预定义图像变换的稳健性程度来进行强化。例如,稳健性测量可基于距离或超过距离的其他值。在一些实施方式中,所述稳健性测量可包括指示例如相对距离、置信度得分、相似性度量等的多个值。此外,每个检测到的特征可包括指示其相对于例如一个或多个预定义图像变换的稳健性测量和/或得分的标签。例如,稳健特征可包括用于尺度缩放、倾斜、旋转、或其他变换的一个或多个稳健性测量。在一些实施方式中,稳健性测量可反映出训练图像的主题特性(例如,玩具、医疗、安全等等)以指示相对于不同图像变换的稳健性。例如,稳健性测量可反映出玩具的图像(例如,一般为低纹理,但具有很多边缘的)相对于不同图像变换可能会如何不同地表现。那么可在图像识别搜索期间使用所述稳健性测量。例如,稳健性测量可用于图像识别搜索且所述稳健性测量元数据可用于对所述图像识别搜索的事件进行分类(例如,用于生成可联系于稳健特征的图像识别搜索元数据)。因此,用于尺度缩放变换的稳健性测量元数据,例如,可用于确定摄像机到目标物体的可能距离。

所述各种实施方式可用于印刷媒体,例如包括静态图像的印刷媒体。在一些实施方式中,特征检测器310和/或图像拍摄设备320可整合到用于创建平面媒体的图形应用中去。例如图形设计师可利用被设置成根据一个或多个实施方式来运行的图形应用(例如,)来创建印刷媒体广告。因此,随着所述图形设计师开发图形表示(例如,印刷媒体广告),所述图形应用可提供用于呈现所述稳健特征集的位置的界面,所述稳健特征集用于与所述渲染相联系的稳健特征的渲染和/或分布。照此,该设计师可能能够为所述渲染定制所述稳健特征集的特性,例如,在广告宣传活动之前、或实时地在广告宣传活动期间。同样的,视频游戏设计师、徽标设计师或其他创意专家可利用包括特征检测器310和/或图像拍摄设备320的图形应用来开发图形表示(例如,游戏、或徽标内的图形渲染),且所述图形应用可提供用于展示所述稳健特征集位置的界面,所述稳健特征集用于与所述表示相联系的所述稳健特征的表示和/或分布。

所述各种实施方式也可用于全3d物体。例如,当从不同的角度观看的时候,3d物体(例如,动作人物、车辆等等)可包括不同的特征。3d物体的视频可从不同角度拍摄。于是所述视频的所述帧便可以被视为训练图像并跨过所公开的程序。而且,由于所述各种实施方式,因此可使得大规模图像识别系统的全部基础设施,包括所述主存储器和持久储存设备、服务器和用户设备,在处理图像识别查询上更具效率。

本文中描述的系统、装置、和方法可使用数字电路、或使用一个或多个众所周知的计算机处理器、存储单元、储存设备、计算机软件、以及其他元件来进行应用。通常,计算机包括用于执行指令的处理器和一个或多个用于储存指令和数据的存储器。计算机还可包括或连接于诸如一个或多个磁盘、内置硬盘和可换式磁盘之类的大容量储存设备、磁光盘、光盘等等。

本文中描述的系统、装置、和方法可使用运行于客户端-服务器关联上的计算机。通常,在这样的系统中,所述客户端计算机远离于所述服务器计算机且经网络进行交互。所述客户端-服务器关联可由运行在各个客户端和服务器计算机上的计算机程序来进行定义和控制。

图7示出了可用于实施本文中所描述的系统、装置和方法的示例性客户端-服务器关联的高级方框图。客户端-服务器关联700包括与服务器720通过网络730进行通信的客户端710。且示出客户端710和服务器720之间的稳健特征识别任务的一种可能分配。例如,根据上述的各种实施方式,客户端710可配置成与服务器720进行通信以接收用于训练图像的稳健特征集、以接收查询图像、以提取所述带有(sift)描述符的查询图像的特征/关联特征、且以促进以所述查询图像为基础的基于图像的目标识别搜索和/或发送所有查询图像数据至服务器720。服务器720可配置成通过将特征检测算法应用到训练图像来生成训练特征、配置成根据预定义图像变换将所述训练图像的至少一部分变换成变换图像、配置成通过将所述特征检测算法应用到所述变换图像来生成变换特征、配置成通过所述预定义图像变换将所述训练特征的所述训练特征位置映射到所述变换图像内的对应训练特征变换位置、以及配置成通过选择稳健特征来编译稳健特征集。在一些实施方式中,服务器720还可配置成接收来自客户端710的查询图像数据、配置成以所述查询图像数据和训练图像的所述稳健特征集为基础来执行基于图像的目标识别搜索、以及配置成发送搜索结果至客户端710。本领域技术人员可以理解的是图7中所示例的客户端-服务器关联仅仅是许多客户端-服务器关联中可用于执行本文中所描述的系统、装置和方法的一种。照此,示出在图7中的所述客户端-服务器关联不应以任何的方式构成对本发明的限制。客户端设备710的例子可包括手机、电话亭、个人数据助理、平板电脑、玩具、车辆、网络摄像头、或其他类型的计算机设备。

本文中所描述的系统、装置、和方法可使用有形地包含在信息载体中,例如在非瞬时性机器可读储存设备中,的计算机程序产品来实现,用以通过可编程处理器来执行;且本文中描述的包括图4步骤中的一个或多个的方法步骤可使用计算机程序来实现,所述一个或多个计算机程序可通过这样处理器来执行。计算机程序为可直接或间接地在计算机中用来执行一定活动或带来一定结果的一组计算机程序指令。计算机程序可以任何形式的编程语言进行编写,包括编译型或解释型语言,且其可以以任何形式进行部署,包括作为独立程序或作为模块、元件、子程序、或其他适用于在计算机环境内使用的单元。

图8示出了可用于实施所述本文中描述的系统、装置和方法的示例性装置的高级方框图。装置800包括处理器810可运行地连接至持久储存设备820和主存储器设备830。处理器810通过执行定义这些运行的计算机程序指令来控制装置800的所有运行。所述计算机程序指令可储存在持久储存设备820或其他计算机可读媒体中,且在期望所述计算机程序指令执行时加载到主存储器设备830中。例如,特征检测器310和图像拍摄设备320可包括一个或多个计算机800的元件。因此,图4的方法步骤可通过储存在主存储器设备830和/或持久储存设备820内的所述计算机程序指令来进行定义,且可通过处理器810执行所述计算机程序指令来进行控制。例如,所述计算机程序指令可作为本领域技术人员编程的计算机可执行代码来实现,以执行由图4的方法步骤所定义的算法。相应地,通过执行所述计算机程序指令,所述处理器810执行由于图4的方法步骤所定义的算法。装置800还包括用于与其他设备通过网络进行通信交流的一个或多个网络接口880。装置800还可包括使用户能够与装置800进行交互的一个或多个输入/输出设备890(例如,显示屏、键盘、鼠标、扬声器、按键等等)。

处理器810可包括通用微处理器和专用微处理器两种,且可以装置800的单独一个的处理器或多个处理器中的一个。例如,处理器810可包括一个或多个中央处理单元(cpus)。处理器810、持久储存设备820、和/或主存储器设备830可通过增补、或合并来包括一个或多个专用集成电路(asics)和/或一个或多个场可编程门阵列(fpgas)。

持久储存设备820和主存储器设备830各自包括有形的非瞬时性计算机可读存储介质。持久储存设备820、和主存储器设备830可各自包括高速随机存取存储器,比如动态随机存取存储器(dram)、静态随机存取存储器(sram)、双数据速率同步动态随机存取存储器(ddrram)、或其他随机存取固态存储器设备,且可包括非易失性存储器,比如一个或多个诸如内置硬盘和可移动磁盘之类的磁盘储存设备、磁光盘储存设备、光盘储存设备、闪存设备、诸如可擦可编程只读存储器(eprom)、电子可擦可编程只读存储器(eeprom)、只读光盘存储器(cd-rom)、数字只读光盘存储器(dvd-rom)之类的半导体存储器设备、或其他非易失性固态储存设备。

输入/输出设备890可包括诸如打印机、扫描仪、显示屏等等的外围设备。例如,输入/输出设备890可包括用于将信息(例如,用于选择的多个图像变换)显示给用户的诸如阴极射线管(crt)、等离子体或液晶显示(lcd)监测仪之类的显示设备、键盘、和诸如鼠标或轨迹球之类的可使用户提供输入到装置800的点击设备。

本文中讨论的任意或全部所述系统和装置,包括特征检测器310和图像拍摄设备320可通过诸如装置800的装置来运行,和/或所述特征检测器310和图像拍摄设备320可并入诸如装置800的装置中。

本领域技术人员可以认识的是,实际计算机或计算机系统的实现可以具有其他结构,并且还可包含其他组件。图8中所示出的那些是这样的计算机中的一些组件的高级表现形式,仅用于示例目的。

前述说明书应被理解为是全方位的阐述性和示例性的,而不是限制性的,并且本文中所公开的本发明的保护范围不是从此说明书中确定的,而是依据由专利法所允许的全宽度解释的权利要求。应当理解,本文所示出和述及的实施方式仅仅是本发明原理的阐述。在未脱离本发明范围和精神之情况下,本领域技术人员可以实现各种修改。在未脱离本发明范围和精神之情况下,本领域技术人员还可以实现各种其他特征结合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1