用于视觉搜索的直方图映射的基于上下文的编码的方法

文档序号:9278230阅读:311来源:国知局
用于视觉搜索的直方图映射的基于上下文的编码的方法
【技术领域】
[0001] 本发明涉及一种用于对从图像的一组关键点的坐标中确定的位置信息的地图进 行编码的方法并且涉及用于对位置信息的此类地图进行编码的编码器。
[0002] 本发明具体涉及计算机视觉和视觉搜索或增强现实的领域。在视觉搜索和增强现 实应用中,提取自图像或图像序列的信息被发送到服务器,在服务器中将所述信息与提取 自表示将被识别对象的模型的参考图像的数据库的信息进行比较。在此上下文中,本发明 涉及提取自发送到服务器的图像或图像序列的信息的压缩,具体而言是需要发信号通知提 取自所述图像或所述图像序列的关注点位置的信息的压缩。
【背景技术】
[0003] 视觉搜索(VS)被称作自动系统识别在图像或图像的序列中所描绘的对象的能 力,方法是仅分析所述图像或所述的图像序列的视觉方面,而无需采用任何外部数据,例 如,文本描述、元数据等。增强现实(AR)可以被认为是视觉搜索的高级应用。在图像或图 像的序列中所描绘的对象已经被识别之后,额外内容(例如,合成对象)叠加到由图像或图 像序列表示的真实场景,因此"增强"真实内容;额外内容的位置与实际对象中的一者一致。
[0004] VS的优势方法依赖于确定所谓的本地特征,本地特征在文献以及下文中被称作描 述符。最著名的方法是如D.Lowe在"计算机视觉的国际期刊(Int.JournalofComputer Vision) 60 (2) (2004) 91-110.H,来自尺度不变关键点的独特的图像特征"中所描述的尺度 不变特征转换(Scale-InvariantFeatureTransform,SIFT)以及如Bay、T.Tuytelaars、 L.V.Gool在2006年奥地利的格拉兹的计算机视觉的欧洲会议(EuropeanConference onComputerVision,ECCV)的会议记录中的 "SURF:加速强健特征(SpeededUpRobust Features) "中所描述的加速强健特征(SURF),http://www.vision,ee.ethz.ch/ ~surf/。 在文献中有可能找到那些技术的许多变体,所述变体可以被视作那两个原始技术的改进。
[0005] 如从图7中可以看出,本地特征是在图像701中围绕关键点705的补丁 703的紧 凑描述,例如,用于SIFT中的每个本地特征的128字节。图7示出了本地特征的提取(图7 的上部部分)和表示(图7的下部部分)的实例。在图7的上部部分,其中计算出本地特 征的点的位置是通过表示图像701中的点705的圆表示的,所述圆由表示定向补丁 703的 正方形所围绕。在图7的下部部分,补丁 703的网格709细分包含本地特征的直方图组分 711。为了计算本地特征,点705的主要取向707是在点705周围基于主要梯度组分计算的。 从此取向707开始,提取朝向主要取向707定向的补丁 703。这个补丁 703随后被细分成矩 形或径向网格709。对于网格709的每个元素而言,要计算本地梯度的直方图711。计算用 于网格709元素的直方图711表示本地特征的组分。包含如图7的下部部分所说明的网格 709元素的直方图711的此类描述符713的特征在旋转、照射和透视变形时将不变。
[0006] 在图像701中,在其上计算出本地特征713的点705识别场景的不同元素,例如转 角、特定模式等。这些点一般称为关键点705,也称为关注点705。在图7的上部部分中所 描绘的圆示出示例性的关键点705。关键点705的图像中的x/y位置将在下文中被称作本 地特征的位置信息。
[0007] MPEG是目前定义MPEG-7的新部分(ISO/IEC15938-多媒体内容描述接口)(部 分13)的用于专用于视觉搜索的标准的发展的视觉搜索的紧凑描述符(CDVS)。所述标准 旨在定义规范性方式来压缩实现视觉搜索的信息的量,以使网络延迟和总体比特率减到最 少。具体而言,所标准化的技术涵盖了对于与个体关键点705相关的两种信息而言的压缩 机制,所述的两种信息在下文中称为特征信息,一方面是内容信息,即本地特征或提供围绕 关键点705的补丁 703的紧凑描述符的描述符,而另一方面是位置信息,即关键点705的位 置。
[0008] 在CDVS标准化过程中,出于测试目的定义了六个操作点。下文称为比特率的操作 点具有每一图像的以下数目的字节:512、1024、2048、4096、8192和16384。每个操作点指示 用于表示提取自图像的全部本地特征和它们的位置信息的总比特率。根据比特率,这意味 着仅可以编码有限数目的本地特征。这一数目自512字节的最低操作点处的114个本地特 征跨越至16384字节的最高操作点处的970个本地特征。
[0009] 标准化过程目前达到实现基于参考模型(RM)的参考实施方案的核心实验阶段。
[0010] 如Tsai等人在2009年在Mobimedia中的"用于移动图像检索的位置编码 (LocationCodingforMobileImageRetrieval)" 中所描述的以及如通过在 2012 年 10 月的"用于视觉搜索的紧凑描述符的测试模型(TestModelofCompactDescriptorfor VisualSearch) (MPEG文件wl3145) "中的标准化所定义的RM位置信息压缩方法如下文中 所描述的工作。在第一步骤中,初始以浮点值形式计算的关键点坐标缩减为特定分辨率,例 如,标准中的VGA,并且在新分辨率中取整到整数值。在此步骤之后,位置信息可以表示为非 常稀疏的矩阵,如从图8中可以看到。在第二步骤中,具有预定义的块大小的空间网格叠加 到矩阵,并且如从图8中可以看到计算到每个块中的非零值的出现的直方图。通过此表示, 编码两个不同种类的信息。第一者是表示关于在每个块中存在或不存在的关键点的二进制 信息的直方图映射。第二者是表示在每个非零块中多个出现的直方图计数。
[0011] 关键点坐标在初始非缩放图像分辨率中以浮点值表示。由于应用于每个图像的第 一操作缩减到VGA分辨率,所以关键点坐标取整到VGA分辨率中的整数值。因此,可能发生 若干点取整到相同坐标的情况。还有可能的是使两个描述符恰好在相同关键点上以两个不 同取向计算。此第一次取整对检索性能的影响是可忽略的。
[0012] 图8描述此类取整操作的实例,其中每个正方形块803在全分辨率下对应于一个 1x1像素单元。可以形成800图像,其中非零像素对应于关键点位置,并且随后分割成可以 由矩阵表示802表示的块表示801。这些正方形块803、805的值,例如,如图8中所描绘的 对于第一正方形块803的2和对于第二正方形块805的1,以矩阵802的形式表示,其中非 零元素807、809表示关键点的位置,例如对应于第一块803的第一非零元素807和对应于 第二块信元805的第二非零元素809。因此,问题可以重新表示为需要压缩640x480元素的 矩阵802,这种压缩具有极其稀疏的特征,S卩,具有小于1000非零信元,甚至在最高操作点 处。为了压缩此矩阵需要表示两个不同种类的信息,它们是直方图映射(此处还称为位置 信息的映射),也就是空和非空的信元的二进制映射,以及直方图计数,也就是包含在每个 非零信元中的出现的数目的向量。直方图映射是由图8中所描绘的块表示801的二进制格 式表示的,并且直方图计数是由通过图8中所描绘的矩阵表示802的非零元素形成的向量 表示的。为了提高压缩效率,在文献中这两个元素总是分开编码的。
[0013] 在所述RM中,直方图计数是通过普通单模型算术编码进行编码的。直方图映射采 用所谓的基于总和的算术编码:每个元素通过基于上下文的算术编码进行编码,所述上下 文由在待编码元素的空间接近性中出现的非零元素的数目给出。一般地,采用矩形区域来 计算上下文。这种方法旨在采用本地特征的趋势以集中在某些区域中。上下文根据块大小 而改变,这是因为这造成不同特征浓度,并且上下文亦根据比特率而改变,这是因为对于不 同比特率而言编码的特征的数目不同。作为基于上下文的算术编码,基于总和的上下文需 要在特定的训练数据集上训练。
[0014] 所述的现有技术有两个问题,即存储器分配和对训练的需求。
[0015] 就存储器分配而言,⑶VS标准化解决特有的存储器约束环境,S卩,应该是使用小于 128KB的存储器大小的存储器表可实施的,以便改进例如在移动设备上的硬件实施方案。在 RM中,对于基于总和的上下文而言矩形的大小是55个元素,亦即5乘11。因此,由基于总 和算术编码使用
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1