用于确定图像相似性的方法和系统的制作方法_4

文档序号:8303486阅读:来源:国知局
或者多个图像相关联。在本发明 的实施方式中,每个集群中屯、还可与一个或者多个贬存区相关联。使多个集群中屯、与一个 贬存区相关联的能力避免了假定落入同一贬存区内的所有小哈希值对应于相似图像的错 误。与一个贬存区相关联的多个集群中屯、允许在相似图像与落入同一贬存区内的小哈希值 相关联的非相似图像之间进行区分。
[0127] 在本发明的实施方式中,首先,通过将内容感知哈希函数应用于图像而生成图像 的大哈希值。其次,通过将局部敏感哈希法应用于大哈希值而生成小哈希值。局部敏感哈 希法设及将大哈希值投影到一个或者多个矢量上。投影设及将大哈希值从维数k减少至维 数d。通过矩阵乘法可W执行该种减少,如下:
[012 引 U = Hv
[0129] 其中,V表示代表大哈希值的一组k值,H表示具有维度(dxk)的矩阵,并且U表示 代表小哈希值的一组值。在本发明的实施方式中,该组k值和该组d值可W是实数、整数、其 组合、或者任何其他合适类型的值。如上述等式所示,将大哈希值与(dxk)矩阵H相乘W获 得小哈希值。实际上,在用于大哈希值的一组V与矩阵H中的每行之间执行点乘积W获得 用于小哈希值的该组U中的对应值。矩阵H中的每行均对应于d-D坐标系中的一个矢量。 矩阵乘法导致将大哈希值投影到等于维数d的多个矢量中。在本发明的实施方式中,当在 投影中使用多个矢量时,多个矢量可正交于另一个。d-D坐标系中的每个矢量被分割成多个 片段。W d-D坐标系中的d个矢量的d个片段(即,每个矢量的一个片段)定义贬存区。
[0130] 在本发明的实施方式中,维数d被选择为具有值3并且贬存区的总数为1〇9。在本 发明的另一实施方式中,维数d被选择为具有不同于3的值。在本发明的实施方式中,有关 矢量的片段的总数为1〇3并且由此贬存区的总数为10 ,出于示出性之目的,此处所示的投 影是二维(即,当维数d被选择为具有值2时)局部敏感哈希法的简单实施例。
[0131] 图4A是根据本发明的实施方式的有关2-D坐标系中的局部敏感哈希法和相关映 射450的投影410的图形表示,其示出了与新图像相关联的第一集群中屯、的创建。图2中 的大哈希模块240产生与新图像pi (图4A中未示出)相关联的大哈希模块408。例如,新 图像可W是提议发布到社交网络系统130中的图像。图2中的较小哈希模块242将大哈希 值408投影到矢量412和矢量424中。矢量412被分割成多个片段,且图4A中示出了四个 片段414、416、418、420。矢量424被分割成多个片段,且图4A中示出了四个片段426、428、 430、432。较小哈希模块242投影大哈希值408 W落入矢量412的片段418内。较小哈希 模块242还投影大哈希值408 W落入矢量424的片段428内。
[0132] 2-D坐标系中的映射450示出了投影410的图形表示。2-D坐标系包括对应于矢 量424的X轴460和对应于矢量412的y轴462。X轴460被分割成对应于矢量424的片 段的单元。y轴462也被分割成对应于矢量412的片段的单元。矢量412、424的片段定义 2-D坐标系中的贬存区。例如,矢量412的片段418和矢量424的片段428定义2-D坐标系 中的贬存区440。与图像pi相关联的小哈希值434落入贬存区440内。小哈希值434包括 (i)对应于矢量424上用于大哈希值408的虚线终止处的点的X值和(ii)对应于矢量412 上用于大哈希值408的虚线终止处的点的y值。
[0133] 为了捜索与图像pi相似的图像,图2中的空间捜索模块244首先确定任何集群中 屯、是否与贬存区440相关联。因为任何集群中屯、均不与贬存区440相关联,所W集群中屯、 创建模块246基于小哈希值434创建第一集群中屯、422。在本发明的实施方式中,当较小哈 希模块242确定与新图像相关联的小哈希值落入贬存区内时,空间捜索模块244对与同一 贬存区内的新图像相似的图像相关联的集群中屯、进行捜索。通过将捜索限制到一个贬存区 内的集群中屯、,空间捜索模块244优化捜索过程,W允许更为快速和有效地执行捜索。如下 面更为详细讨论的,在本发明的另一实施方式中,空间捜索模块244可将捜索参数定义为 包括坐标系中除新图像的小哈希值落入其中的贬存区之外的其他贬存区。
[0134] 图4B是根据本发明的实施方式的有关2-D坐标系中的局部敏感哈希法和相关映 射472的投影470的图形表示,其示出了新图像与先前存在集群中屯、的关联性。大哈希模 块240产生与新图像p2相关联的大哈希值448。较小哈希模块242将大哈希值448投影 到矢量412和矢量424中。较小哈希模块242投影大哈希值448 W落入在矢量412的片段 418内和矢量424的片段428内。
[01巧]2-D坐标系中的映射472示出了投影470的图形表示。较小哈希模块242确定与 图像p2相关联的小哈希值436落入贬存区440内。为了捜索与图像p2相关联的图像,空 间捜索模块244首先确定任何集群中屯、是否与贬存区440相关联。因为集群中屯、422与贬 存区440相关联,所W图2中的近似度确定模块248确定集群中屯、422在距离上是否充分 接近于小哈希值436。近似度确定模块248计算小哈希值436与集群中屯、422之间的距离。 近似度确定模块248则确定计算距离是否小于阔值距离。如果计算距离小于阔值距离(图 4B中的情况如此),则图像p2被视为与图像pi相似,并且图像p2与集群中屯、422相关联。 如图4C所示,不创建新的集群中屯、。相反,如果计算距离超过阔值距离(图4B中未示出), 则图像p2被视为不同于图像pl,并且集群中屯、创建模块246创建图像p2的新集群中屯、。 实际上,围绕小哈希值436绘制具有半径466的圆468。半径466对应于阔值距离。如果 集群中屯、422落在圆468内,则图像p2被视为与图像pi相似并且与集群中屯、422相关联。 相反,如果集群中屯、落在圆468内,则图像p2被视为不同于图像pi,并且创建图像p2的新 集群中屯、。
[0136] 在本发明的实施方式中,阔值距离(即,半径466)可W是任一合适的值。在图像 被视为相似之前,可W基于图像之间可能实际相似性的希望程度选择阔值距离的值。例如, 仅当存在相对较高程度的可能实际相似性时,在图像被视为相似的上下文中,可将阔值距 离设置为相对较小的值。又例如,在其中图像被视为相似的上下文中,当仅存在适当程度的 可能实际相似性时,可将阔值距离设置成相对较大的值。又例如,尤其在图像被违禁的上下 文中,可将阔值距离设置成相对较大的值W识别与违禁像相似的更多图像。因此,可由社交 网络系统130的管理员配置并且编程阔值距离,W具有适合于社交网络系统130的给定上 下文的任一值,诸如,具体应用程序、模块、活动、团体、用户、图像等。
[0137] 图4D是根据本发明的实施方式的有关2-D坐标系中的局部敏感哈希法和相关映 射482的投影480的图形表示,其示出了与贬存区相关联的一个W上集群中屯、。大哈希模 块240产生与新图像p3相关联的大哈希值488。较小哈希模块242将大哈希值488投影到 矢量412和矢量424上。较小哈希模块242投影大哈希值488 W落在矢量412的片段418 内和矢量424的片段428内。2-D坐标系中的映射482示出了投影480的图形表示。较小 哈希模块242确定与图像p3相关联的小哈希值492落在贬存区440内。
[0138] 为了捜索与图像p3相似的图像,空间捜索模块244首先确定任何集群中屯、是否与 贬存区440相关联。因为集群中屯、422与贬存区440相关联,近似度确定模块248确定集群 中屯、422在距离上是否充分接近于小哈希值492。近似度确定模块248计算小哈希值492 与集群中屯、422之间的距离。然后,近似度确定模块248确定计算距离是否小于阔值距离。 如图4E所示,如果计算距离超过阔值距离(如图4D所示),则图像p3被视为不同于图像 pl,并且集群中屯、创建模块246创建图像p3的新集群中屯、414。相反,如果计算距离小于阔 值距离,则图像p3被视为与图像pi相似,并且图像p3与集群中屯、422相关联(图4D或者 图4E中未示出)并且不创建新集群中屯、。实际上,围绕小哈希值492绘制具有半径466的 圆490。如果集群中屯、422落在圆490内,则图像p3可被视为与图像pi和图像p2相似,并 且图像p3与集群中屯、422相关联。相反,如果集群中屯、422落在圆490外,则图像p3可被 视为不同于图像pi和图像p2,并且创建图像p3的新集群中屯、。
[0139] 可W与上述所述相似的方式考虑与额外图像相关联的小哈希值。例如,与又一图 像p4相关联的小哈希值可落在贬存区内。贬存区构成捜索相似图像的捜索空间。识别与 贬存区相关联的所有集群中屯、。计算小哈希值与每个识别集群中屯、之间的距离并且将其与 阔值距离相比较。如果有关任何识别集群中屯、的计算距离小于阔值距离,则图像p4与距图 像p4的最小哈希值为最小距离的识别集群中屯、相关联(例如,图5中所示的识别集群中屯、 414)。相反,如果有关所有识别集群中屯、的计算距离大于阔值距离,则创建图像p4的新集 群中屯、。实际上,可W围绕小哈希值绘制预定半径的圆。如果发现集群中屯、在圆内,则图像 p4与集群中屯、相关联并且被视为与已经与集群中屯、相关联的图像相似。相反,如果发现任 何集群中屯、均不在圆内,则给予小哈希值创建新的集群中屯、,并且图像p4被视为不同于与 其他集群中屯、相关联的其他图像。可W相似方式继续对除图像Pl、P2、p3、p4之外的进一 步图像的考虑。总之,任意数目的集群中屯、均可与给定贬存区相关联。
[0140] 图5是根据本发明的实施方式的表示结合图4A至图4E所描述的贬存区、集群中 屯、、W及图像之间的关联性的示图。贬存区440与集群中屯、422、414相关联。集群中屯、422、 414中的每个均与被视为相似的一个或者多个图像相关联。根据集群中屯、422、414将图像 pi 400、p2 402、p3 404、p4 406分组。具体地,图像pi 400和图像p2 402被视为相似并 且与集群中屯、422相关联。图像p3 404和图像p4 406被视为相似并且与集群中屯、414相 关联。贬存区440、集群中屯、422、414、^及图像口1 400、口2 402、口3 404、口4 406及其关联 性形成社交网络系统130的社交图谱的一部分。
[0141] 图6示出了根据本发明的实施方式的用于确定图像相似性W减少假阳性的过程 600。最初,在框610中,接收新图像。在框612中,确定新图像的大哈希值。例如,可W使 用内容感知大哈希函数确定大哈希值。在框614中,则基于大哈希值确定新图像的小哈希 值。例如,可W使用局部敏感哈希函数确定小哈希值。例如,如上面图4A至图4E中所示 的2-D坐标系情况,用于小哈希值的哈希函数将大哈希值有效地投影到坐标系中的d个矢 量上。小哈希值包括有关定义d-D坐标系的d个矢量的d个值。在框616中,确定小哈希 值落入其中的贬存区(d-D坐标系中)。通过(i)使小哈希值的d个值量化并且(ii)识别 d-D坐标系中由d个量化值定义的贬存区可W确定贬存区。
[0142] 在框620中,识别与贬存区相关联的所有现有集群中屯、。现有集群中屯、是针对现 有图像已经创建的集群中屯、。通过仅考虑与贬存区相关联的集群中屯、而非与其他贬存区相 关联的所有集群中屯、而充分减少用于新图像的捜索空间。在框622中,确定是否存在与贬 存区相关联的任何现有集群中屯、。如果在框622中答案是"否",则新图像的小哈希值是被 投影到贬存区中的第一小哈希值。在框636中,则创建新图像的新集群中屯、并且给出小哈 希值的坐标。在框638中,则使新图像与新集群中屯、相关联。
[0143] 相反,如果存在与贬存区相关联的至少一个现有集群中屯、并且在框622中答案是 "是",则在框624中,确定小哈希值和与贬存区相关联的每个现有集群中屯、之间的距离。在 框626中,确定从小哈希值至任何现有集群中屯、的距离是否小于阔值距离。如果在框626 中答案是"否",则在框634中,新图像被视为不同于与贬存区相关联的现有集群中屯、相关 联的图像。在框636中,则创建新图像的新集群中屯、,并且在框638中,新图像与新集群中 屯、相关联。因此,如果图像不被视为相似,则可W创建一个W上集群中屯、并且使其与贬存区 相关联。
[0144] 然而,如果在框626中从小哈希值至至少一个现有集群中屯、的距离小于阔值距离 并且答案是"是",则在鲁昂628中,识别距新图像的小哈希值为最小距离的现有集群中屯、。 还可W选择距小哈希值具有小于阔值距离的距离的任何现有集群中屯、。在任何情况下,在 框630中,新图像可W与识别的现有集群中屯、相关联。在框632中,新图像被视为与所识别 的现有集群中屯、相关联的图像相似。
[0145] 在本发明的实施方式中,通过图像相似性分析模块132可W全部或者部分执行过 程600。在本发明的实施方式中,通过社交网络系统130可W至少部分地执行过程600。
[01W 假阴忡的确定
[0147] 图7A至图7G W图形形式示出了根据本发明的实施方式的在确定图像相似性时对 多个贬存区的考虑。在d-D坐标系中,两个相似性图像的两个小哈希值可W相对接近于彼 此,但是,由于量化可被投影到不同的贬存区内。例如,对应于图3B中的大哈希值330和 332的小哈希值相对接近于彼此,但是由于量化被投影到两个不同的贬存区内。由于量化效 应可W在多个贬存区内捜索相似的图像。考虑多个贬存区的能力避免了假定偶然落入不同 贬存区内的小哈希值对应于不同图像的错误。同样,可W解决假阴性的问题。
[0148] 图7A是根据本发明的实施方式的有关2-D坐标系中的局部敏感哈希法和相关映 射750的投影710的图形表示,其示出了与新图像相关联的第一集群中屯、的创建。图2中的 大哈希模块240产生与新图像p5相关联的大哈希值708。图2中的较小哈希模块242将大 哈希值708投影到矢量712和矢量724上。矢量712被分割成多个片段,且图7A中示出了 四个片段714、716、718、720。矢量724被分割成多个片段,且图7A中示出了四个片段726、 728、730、732。大哈希值708被投影至落入矢量712的片段718内并且落入矢量724的片 段728内。
[0149] 2-D坐标系中的映射750示出了投影710的图形表示。2-D坐标系包括对应于矢 量724的X轴760和对应于矢量712的y轴762。X轴760被分割成对应于矢量724的片 段的单元。y轴762也被分割成对应于矢量712的片段的单元。矢量712、724中的片段定 义2-D坐标系中的贬存区。例如,矢量712的片段718和矢量724的片段728定义2-D坐 标系中的贬存区782。与图像p5相关联的小哈希值734落在贬存区782内。
[0150] 为了捜索与图像p5相似的图像,空间捜索模块244可考虑相邻的贬存区,而不仅 仅贬存区782。在本发明的实施方式中,空间捜索模块244通过首先锁定最接近于与新图像 相关联的小哈希值的顶点可确定相邻的贬存区。顶点是d-D坐标系中对应于一组贬存区的 拐角的点。在本发明的实施方式中,可W量化图像的小哈希值,并且量化的小哈希值可被视 为顶点。与顶点相符的贬存区(即,在顶点处具有拐角)可被视为相邻的贬存区。总之,共 享顶点的相邻贬存区的数目独立于d-D坐标系中的维数(d)。d-D坐标系中存在共享顶点 的2d和相邻贬存区。
[0151] 在本发明的实施方式中,3-D坐标系中相邻贬存区的数目为8,并且2-D坐标系中 的相邻贬存区的数目为4。总之,可W在任意数目的相邻贬存区内捜索相似图像。捜索的相 邻贬存区的数目可依赖于各种因素,诸如,用于识别相似图像的阔值距离、定义每个贬存区 的片段大小、假阴性的希望概率等。出于示出性之目的,此处所示的投影是二维(即,当维 数d被选择为具有值2时)局部敏感哈希法的简单实例。因此,如此处示出的,基于简单实 例,捜索的相邻贬存区的数目为4。
[0152] 如图7A所示,顶点790最接近于小哈希值734。就顶点790方面而言,贬存区782、 784、786、788相对于小哈希值734则被视为是相邻贬存区。关于任何集群中屯、是否与贬存 区782、784、786、788相关联做出确定。通过将对集群中屯、的捜索限制到有限数目的贬存 区,空间捜索模块244使捜索过程得到优化,从而允许更为快速并且高效地执行捜索。因为 任何集群中屯、均不与贬存区782、784、786、788相关联,所W集群中屯、创建模块246基于小 哈希值734创建第一新集群中屯、712。图像p5与集群中屯、712相关联。在本发明的实施方 式中
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1