用于图像处理的方法和装置制造方法

文档序号：6497990阅读：111来源：国知局

用于图像处理的方法和装置制造方法
【专利摘要】本发明涉及一种方法，其中接收与图像的兴趣点有关的一个或者多个局部描述符。基于一个或者多个局部描述符来确定用于所述图像的全局描述符；并且压缩全局描述符。本公开内容也涉及一种包括处理器和包括计算机程序代码的存储器的装置以及存储介质，该存储介质具有在其上存储的用于由装置使用的计算机可执行程序代码。
【专利说明】用于图像处理的方法和装置

【技术领域】
[0001] 提供一种用于内容识别和取回的方法、装置和计算机程序产品。

【背景技术】
[0002] 本节旨在提供在权利要求中记载的本发明的背景或者情境。这里的描述可以包括如下概念，这些概念可以被探求、但是未必是先前已经设想或者探求的概念。因此，除非这里另有指示，在本节中描述的内容不是在本申请中的说明书和权利要求书之前的现有技术并且未因包含于本节中而被承认为现有技术。
[0003] 图像内容识别和从数据库取回图像内容可以在许多情形中是希望的性质。例如移动设备可以用来拍摄产品、对象、建筑物等的图片，然后可以确定图像的内容。可能的是，可以从数据库搜索具有相似内容的图片。为此，执行一些内容识别。
[0004] 这也可以适用于其它设备、比如机顶盒和其它计算设备。
[0005] 对于图像中的任何对象，可以有许多特征、在对象上的兴趣点。可以提取这些兴趣点以提供对象的特征描述，可以在尝试在可能包含许多其它对象的图像中对该对象进行定位时使用该对象的特征描述。对于图像特征生成，一些方式取得图像并且将它变换成局部特征矢量的大型汇集。这些特征矢量中的每个特征矢量可以随着图像的缩放、旋转或者平移而不变。
[0006] 在包括手持产品识别、博物馆向导、行人导航、机顶盒视频内容检测、web规模图像搜索和增强现实的广泛应用中使用图像内容描述。许多这样的应用受它们的平台的计算能力约束。即使在无约束情况、比如web规模图像搜索中，处理数以百万计的图像可能导致计算瓶颈。因此，具有低计算复杂性的算法总是希望的。增强现实应用还可能由于在相机姿态跟踪与图像内容识别之间共享移动设备的资源而受约束。这两项任务可以总是相互去耦合。对于实时跟踪足够快的技术可能在从大规模数据库识别时未表现良好。反言之，在识别时表现良好的算法可能对于在移动设备上的实时跟踪而言不足够快。
[0007] 除了兼容性之外，用于可视搜索算法的紧凑描述符应当是小的并且在硬件或者软件中计算高效。更小的描述符可以更高效使用存储器和存储装置并且可以更快通过网络传输和从数据库取回。低复杂性的描述符可以实现在低功率移动设备上的应用以及延伸大规模数据库处理能力。
[0008] 移动增强现实系统在现实内容的实况视频流之上叠加虚拟内容。这些系统依赖于内容识别和跟踪以生成这一叠加。
[0009] 为了在大规模取回任务上良好表现，可以在位置和比例二者上被定位的兴趣点 (即特征）可能是有帮助的。可以使用不同算法、比如加速分段测试从图像搜索兴趣点、t匕如拐角、边缘等。一个图像可以根据图像的内容包括大量兴趣点。一些图像可以包括数以十计的兴趣点，而一些其它图像可以包括数以百计或者甚至数以千计的兴趣点。另外，可以缩放图像以提供图像的不同比例。然后，兴趣点检测器可以使用来自不同比例的像素以确定在当前像素附近是否存在兴趣点。
[0010] 尽管可以以不同比例检测来自加速分段测试（FAST)拐角的特征，但是它们对比例改变固有地不敏感。以许多比例复制它们也可能产生过大的数据库和不想要的冗余性。反言之，团点（blob)检测器、比如高斯拉普拉斯（LoG)、高斯差值（DoG)、海赛行列式（DoH) 和箱差值（DoB)都对比例变化敏感并且因此可能在比例空间上有局限。

【发明内容】

[0011] 本发明引入一种用于为视觉搜索提供紧凑描述符的方法。在本发明中，提取局部图像特征并且从这些局部特征形成全局图像签名。全局特征可以比局部特征小得多。使用可以最适合用于目标比特率的嵌入形式来压缩局部签名。可以通过使用位置编码来压缩局部描述符的位置元数据。在一些实施方式中，通过从全局签名开始并且用压缩的局部描述符填充目标比特率的其余部分来形成完整查询。这一方法可以在广泛比特率下提供良好性能并且可以维持不同速率的查询之间的兼容性。换言之，包括全局描述符并且用局部描述符填充可能可用预算的其余部分。
[0012] 多比例箱差值（DoB)滤波器可以用来发现图像比例空间中的团点。在一些实施方式中，比例空间的每级被子采样至它的关键防混叠频率。这向数据提供最少处理。另外，重用滤波器的结果以提供可以对于以后特征描述而言需要的图像比例空间。也可以在每个兴趣点处计算径向梯度并且将它们放入预先计算的、定向的空间仓中。
[0013] 根据本发明的第一方面，提供一种方法，该方法包括：
[0014] 接收与图像的兴趣点有关的一个或者多个局部描述符；
[0015] 压缩所述描述符；以及
[0016] 基于所述一个或者多个局部描述符来确定用于所述图像的全局描述符。
[0017] 根据本发明的第二方面，提供一种装置，该装置包括处理器和包括计算机程序代码的存储器，存储器和计算机程序代码被配置为与处理器一起使该装置：
[0018] 接收与图像的兴趣点有关的一个或者多个局部描述符；
[0019] 压缩所述描述符；以及
[0020] 基于所述一个或者多个局部描述符来确定用于所述图像的全局描述符。
[0021] 根据本发明的第三方面，提供一种存储介质，该存储介质具有在其上存储的用于由装置使用的计算机可执行程序代码，所述程序代码包括用于以下操作的指令：
[0022] 接收与图像的兴趣点有关的一个或者多个局部描述符；
[0023] 压缩所述描述符；以及
[0024] 基于所述一个或者多个局部描述符来确定用于所述图像的全局描述符。
[0025] 根据本发明的第四方面，提供一种设备，该设备包括：
[0026] 用于接收与图像的兴趣点有关的一个或者多个局部描述符的装置；
[0027] 用于压缩所述描述符的装置；以及
[0028] 用于基于所述一个或者多个局部描述符来确定用于所述图像的全局描述符的装置。
[0029] 本发明提供具有相对低复杂性的兴趣点检测器。描述符计算重用兴趣点检测的结果。兴趣点检测器可以提供恰当混叠和子采样的比例空间而无附加成本。另外，无需像素插值或者梯度旋转。这之所以是可能的，原因在于，径向梯度实现在恰当空间仓中放置梯度而无任何修改。
[0030] 根据本发明的旋转不变快速特征描述符可以是充分快速的以在移动设备上进行计算和实时跟踪并且对于大规模图像识别而言足够健壮。
[0031] 这一跟踪方案的一个优点在于，可以匹配相同旋转不变快速特征描述符与用于图像识别的数据库而无需分离的描述符流水线。这可以减少查询延时从而促成更积极响应的用户体验。在一些实施方式中，可以延伸基本旋转不变快速特征描述符为使用极性空间建仓和排列距离的特征描述符，其中还可以增加准确性。

【专利附图】

【附图说明】
[0032] 为了更好地理解本发明，现在将通过示例参照附图，在附图中：
[0033] 图1示意地示出运用本发明的一些实施方式的电子设备；
[0034] 图2示意地示出适合用于运用本发明的一些实施方式的用户设备；
[0035] 图3进一步示意地示出使用无线和有线网络连接而连接的运用本发明的实施方式的电子设备；
[0036] 图4示意地示出如在装置内并入的本发明的一个实施方式；
[0037] 图5示意地示出根据本发明的一个实施方式的旋转不变快速特征描述符流水线；
[0038] 图6图示子采样的比例空间的示例；
[0039] 图7a图示用于比例内模式的兴趣点检测的示例；
[0040] 图7b图示用于比例间模式的兴趣点检测的示例；
[0041] 图8图示径向梯度的示例；
[0042] 图9图示在不同查询方向上的按对特征匹配的数目；
[0043] 图10图示对于径向梯度变换的旋转不变性；
[0044] 图11是示出本发明的一个实施方式的操作的流程图；
[0045] 图12以框图示出如在装置内并入的根据本发明的一个实施方式的空间转动的示例；
[0046] 图13图示可以从基本描述符推导的描述符集合的示例；
[0047] 图14描绘从描述符的位置生成的2D直方图的示例；
[0048] 图15图示在计算残差增强视觉矢量签名时的步骤的示例；
[0049] 图16图示残差聚合的示例；
[0050] 图17描绘两阶段图像取回的示例的框图；以及
[0051] 图18描绘在m = 3个维度中的量化的概率分布的若干示例集合。

【具体实施方式】
[0052] 以下进一步具体描述用于提供对图像内容识别和从数据库取回图像内容进行改进的适当装置和可能机制。就这一点而言，首先参照图1，该图示出示例装置或者电子设备 50的示意框图，该装置或者电子设备可以并入根据本发明的一个实施方式的装置。
[0053] 电子设备50可以例如是无线通信系统的移动终端或者用户设备。然而将理解，可以在可能需要图像内容识别和/或取回的任何电子设备或者装置内实施本发明的实施方式。
[0054] 装置50可以包括用于并入和保护设备的壳体30。装置50还可以包括形式为液晶显示器的显示器32。在本发明的其它实施方式中，显示器可以是适合于显示图像或者视频的任何适当显示器技术。装置50还可以包括键区34。在本发明的其它实施方式中，可以运用任何适当数据或者用户接口机制。例如，可以实施用户接口为虚拟键盘或者数据录入系统作为触敏显示器的一部分。装置可以包括麦克风36或者任何适当音频输入，该音频输入可以是数字或者模拟信号输入。装置50还可以包括如下音频输出设备，该音频输出设备在本发明的实施方式中可以是以下各项中的任何一项：耳机38、扬声器或者模拟音频或者数字音频输出连接。装置50也可以包括电池40 (或者在本发明的其它实施方式中，设备可以由任何适当移动能量设备、比如太阳能电池、燃料电池或者时钟机构生成器供电）。装置还可以包括用于与其它设备的近程视线通信的红外线端口 42。在其它实施方式中，装置50 还可以包括任何适当近程通信解决方案、比如蓝牙无线连接或者USB/火线有线连接。
[0055] 装置50可以包括用于控制装置50的控制器56或者处理器。控制器56可以连接到存储器58,该存储器在本发明的实施方式中可以存储形式为图像的数据和音频数据二者和/或也可以存储用于在控制器56上实施的指令。控制器56还可以连接到适合于实现音频和/或视频数据的译码和解码或者辅助控制器56有可能实现的译码和解码的编码解码器电路装置54。
[0056] 装置50还可以包括用于提供用户信息并且适合于提供用于在网络处认证和授权用户的认证信息的读卡器48和智能卡46、例如和读取器。
[0057] 装置50可以包括无线电接口电路装置52,该无线电接口电路装置连接到控制器并且适合于生成例如用于与蜂窝通信网络、无线通信系统或者无线局域网通信的无线通信信号。装置50还可以包括天线44,该天线连接到无线电接口电路装置52用于向其它装置发送在无线电接口电路装置52生成的射频信号以及用于从其它装置接收射频信号。
[0058] 在本发明的一些实施方式中，装置50包括能够记录或者检测个别帧的相机61，这些帧然后向编码解码器54或者控制器传递以供处理。在本发明的一些实施方式中，装置可以在传输和/或存储之前从另一设备接收图像数据用于处理。在本发明的一些实施方式中，装置50可以无线或者通过有线连接接收图像以用于处理。
[0059] 关于图3,示出可以在其中利用本发明的实施方式的系统的示例。系统10包括可以通过一个或者多个网络通信的多个通信设备。系统10可以包括有线或者无线网络的任何组合、这些有线或者无线网络包括但不限于无线蜂窝电话网络（比如GSM、UMTS、CDMA网络等）、比如IEEE802. X标准中的任何标准定义的无线局域网（WLAN)、蓝牙专用网络、以太网局域网、令牌环局域网、广域网和因特网。
[0060] 系统10可以包括适合用于实施本发明的实施方式的有线和无线通信设备或者装置50二者。
[0061] 例如，图3中所示系统示出移动电话网络11并且示出因特网28的表示。与因特网28的连通可以包括但不限于远程无线连接、近程无线连接和各种有线连接，这些有线连接包括但不限于电话线路、线缆线路、功率线路和相似通信途径。
[0062] 系统10中所示示例通信设备可以包括但不限于电子设备或者装置50、个人数字助理（PDA)和移动电话14的组合、PDA16、集成消息接发设备（MD) 18、台式计算机20、笔记本计算机22。装置50可以静止或者在由移动的个人携带时可移动。装置50也可以位于运输模式中，该运输模式包括但不限于小汽车、卡车、出租车、公共汽车、火车、船只、飞机、自行车、摩托车或者任何相似的适当运输模式。
[0063] 一些或者更多装置可以发送和接收呼叫和消息并且通过与基站24的无线连接25 与服务提供商通信。基站24可以连接到网络服务器26,该网络服务器允许在移动电话网络 11与因特网28之间的通信。系统可以包括附加通信设备和各种类型的通信设备。
[0064] 通信设备可以使用各种传输技术来通信，这些传输技术包括但不限于码分多址 (CDMA)、全球移动通信系统（GSM)、通用移动电信系统（UMTS)、时分多址（TDMA)、频分多址 (FDMA)、传输控制协议-网际协议（TCP-IP)、短消息接发服务（SMS)、多媒体消息接发服务 (MMS)、电子邮件、即时消息接发服务（MS)、蓝牙、IEEE802. 11和任何类似的无线通信技术。参与实施本发明的各种实施方式的通信设备可以使用各种介质来通信，这些介质包括但不限于无线电、红外线、激光、线缆连接和任何适当连接。
[0065] 在下文中，将参照图4的装置和图11的流程图更具体公开根据一个示例性实施方式的方法。装置50从图像源接收102图像400,该图像源可以是相机、数据库、比如因特网的通信网络、或者另一位置。在一些实施方式中，图像可以已经被存储到装置的存储器58，控制器56可以从该存储器读取它以用于处理。图像可以是所谓快照图像或者静止图像，或者它可以是视频信号的帧。在图像是快照或者静止图像时，装置50可以使用该方法以例如从数据库、从网络等搜索相似图像。在图像是视频序列的一部分时，装置50可以将该方法用于跟踪视频序列中的一个或者多个对象并且有可能突出显示对象在视频序列中的位置或者基于对象在视频序列中的位置和移动显不另一可视指不。
[0066] 在一些实施方式中，图像400可以在处理之前被重设大小402,或者可以对接收的图像执行处理而不先对它重设大小。在亮度通道406中，从图像提取亮度信息、S卩如下像素值，这些像素值表示在图像中的像素的位置处的亮度。
[0067] 控制器56可能已经确定存储器58中的用于存储图像和用于处理图像的区域。图像可以被读取到图像存储器并且被提供到一个或者多个滤波器，该一个或者多个滤波器将图像的一个或者多个滤波的表示形成到存储器58中。这些表示也可以称为比例或者比例级（scale level)。在一些实施方式中，不同比例数可以在1到5之间，但是也可以形成更大数目的比例。第一比例（s = 〇)是原始图像。第二比例（s = 1)--该第二比例是原始图像的第一滤波版本--可以具有原始图像的比例的一半。因此，可以通过按照2对原始图像下采样来形成第二比例的图像。在一些实施方式中，通过在沿X和y方向二者上向下采样的图像中包括原有像素的像素的仅一部分来执行采样。例如，在第二比例级的图像可以包含原始图像的每隔一个像素，在第三比例级的图像可以包含原始图像的每隔两个像素，在第四比例级的图像可以包含原始图像的每隔三个像素，等等。在一些其它实施方式中，下采样使用原始图像的两个或者更多像素以形成经缩放的图像的一个像素。
[0068] 换言之，可以例如通过对原始图像进行滤波以形成更粗略图像而以不同分辨率表示图像。更粗略图像可以被进一步滤波以形成又一图像等。可以减少图像在每个滤波级的分辨率。例如，原始图像先被下采样至原始图像的分辨率的一半，该图像被下采样至原始图像的分辨率的三分之一，下一级是原始图像的四分之一，等等。这一种类的图像跟踪也可以称为图像金字塔。换言之，图像金字塔是以不同分辨率的图像表示。图像金字塔的一个类型是mip图（mipmap)金字塔。mip图金字塔是原始图像的滤波版本分级，从而连续级对应于经滤波的频率。换言之，mip图金字塔将图像分解成一系列滤波的图像。mip图金字塔可以使用包括箱式滤波器和高斯滤波器在内的多种滤波器。
[0069] 向滤波器部408提供原始图像和缩放的图像以进行滤波。在一些实施方式中，为了不受图像比例改变影响，针对滤波器比例范围计算滤波器响应从而产生滤波的图像堆。因此，F是转换3维比例空间的标幅度函数。如果I的维度是wXh个像素并且N是比例数，则比例空间具有维度wXhXN个像素。为了合理覆盖可能比例，可以选择覆盖?3个倍频程（上至8 X比例改变）的范围。在一些实施方式中，选择N大于或者等于8 (N彡8)，并且 s覆盖所有整数1···Ν。这是比例空间线性覆盖。这在大比例时给予比指数覆盖更细微的分辨率。然而在小比例时，分辨率对于两种比例空间覆盖是相似的。
[0070] 在一些实施方式中，使用箱式滤波器，这些箱式滤波器在滤波时使用在选择的像素周围的像素。滤波器响应可以是以相同点（选择的像素）为中心、但是具有不同比例的两个箱式滤波器的简单加权差值。对于比例参数s，内箱可以具有宽度2s+l，并且外箱可以大小为粗略两倍而宽度为4s+l。滤波器响应因此由下式给出：
[0071] (2s+l)-2 Σ in-(4s+l)-2 Σ out (la)
[0072] 其中Σ是在箱内的像素值的总和。可以通过使用积分图像来高效计算这些总和。
[0073] 可以通过定义下式来推广等式（la):
[0074] F (x, y, s) = B (x, y, s) -B (x, y, 2s) (lb)
[0075] 可以实施滤波器例如为控制器56可执行的计算机代码。这些滤波器在本申请中称为内箱式（inner-box)滤波器412和外箱式（outer-box)滤波器414。内箱式滤波器412 以在选择的像素周围的一些像素值为输入并且计算输出值B(x，y，s)、例如（2s+ir 2 Σ in。这些值被存储到存储器58中的图像比例空间存储器缓冲器416中，用于以后在描述符计算中使用。相似地，外箱式滤波器414以在选择的像素周围的一些像素值为输入并且计算输出值B(x, y,2s)、例如（4s+l；T2 Σ _。这些值以及滤波产生的值F(x, y, s)也可以被存储到存储器58中。
[0076] 在一些实施方式中，可以通过使用积分图像（II)来计算在某个宽度（例如2s+l 或者4s+l)的箱内的像素值的总和。令I(x，y)是输入图像400并且S(x，y)是关联积分图像，那么：
[0077]

【权利要求】
1. 一种方法，包括：接收与图像的兴趣点有关的一个或者多个局部描述符；压缩所述描述符；以及基于所述一个或者多个局部描述符来确定用于所述图像的全局描述符。
2. 根据权利要求1所述的方法，还包括：确定比特率；将压缩的全局描述符包括于比特流中；以及如果在包括所述压缩的全局描述符之后存在可用比特率，则向所述比特流添加一个或者多个压缩的局部描述符。
3. 根据权利要求1或者2所述的方法，还包括提供所述比特流以用于从数据库搜索图像。
4. 根据权利要求1、2或者3所述的方法，还包括定义具有梯度仓和空间仓的基础描述符。
5. 根据权利要求4所述的方法，还包括组合所述基础描述符的所述梯度仓中的两个或者更多梯度仓。
6. 根据权利要求4或者5所述的方法，还包括组合所述基础描述符的所述空间仓中的两个或者更多空间仓。
7. 根据权利要求1至6中的任一权利要求所述的方法，还包括将梯度信息作为分布进行存储；以及量化所述梯度直方图。
8. 根据权利要求1至7中的任一权利要求所述的方法，还包括对与所述描述符关联的位置数据重新排序以用于压缩。
9. 根据权利要求1至8中的任一权利要求所述的方法，还包括根据所述描述符的位置生成直方图。
10. 根据权利要求1至9中的任一权利要求所述的方法，还包括将图像划分成空间仓；以及对在每个空间仓内的特征的数目进行计数。
11. 根据权利要求10所述的方法，还包括形成指示哪些空间仓包含特征的二元图；以及形成表示在所占用的仓中的特征的所述数目的特征计数序列。
12. 根据权利要求10或者11所述的方法，还包括压缩所述特征计数序列。
13. -种装置，包括处理器和包括计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置用于与所述处理器一起使所述装置：接收与图像的兴趣点有关的一个或者多个局部描述符；压缩所述全局描述符；以及基于所述一个或者多个局部描述符来确定用于所述图像的全局描述符。
14. 根据权利要求13所述的装置，还包括如下计算机程序代码，所述计算机程序代码被配置为与所述处理器一起使所述装置：确定比特率；将压缩的全局描述符包括于比特流中；以及如果在包括所述压缩的全局描述符之后存在可用比特率，则向所述比特流添加一个或者多个压缩的局部描述符。
15. 根据权利要求13或者14所述的装置，其中所述比特流被提供以用于从数据库搜索图像。
16. 根据权利要求13、14或者15所述的装置，还包括如下计算机程序代码，所述计算机程序代码被配置为与所述处理器一起使所述装置定义具有梯度仓和空间仓的基础描述符。
17. 根据权利要求13至16中的任一权利要求所述的装置，还包括如下计算机程序代码，所述计算机程序代码被配置为与所述处理器一起使所述装置：将图像划分成空间仓；以及对在每个空间仓内的特征的数目进行计数。
18. 根据权利要求17所述的装置，还包括如下计算机程序代码，所述计算机程序代码被配置为与所述处理器一起使所述装置：形成指示哪些空间仓包含特征的二元图；以及形成表示在所占用的仓中的特征的所述数目的特征计数序列。
19. 一种包括计算机指令的存储介质，所述计算机指令用于：接收与图像的兴趣点有关的一个或者多个局部描述符；压缩所述描述符；以及基于所述一个或者多个局部描述符来确定用于所述图像的全局描述符。
20. -种设备，包括：用于接收与图像的兴趣点有关的一个或者多个局部描述符的装置；用于压缩所述描述符的装置；以及用于基于所述一个或者多个局部描述符来确定用于所述图像的全局描述符的装置。
【文档编号】G06F17/30GK104067272SQ201280067514
【公开日】2014年9月24日申请日期:2012年11月19日优先权日:2011年11月21日
【发明者】G·塔卡斯, R·格泽茨克祖克, D·陈, S-H·蔡, V·钱德拉塞克哈, B·吉罗德申请人:诺基亚公司, 小利兰斯坦福大学托管委员会

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：G·塔卡斯;R·格泽茨克祖克;D·陈;S-H·蔡;V·钱德拉塞克哈;B·吉罗德
技术所有人：诺基亚公司;小利兰斯坦福大学托管委员会
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。