用于确定图像相似性的方法和系统的制作方法_5

文档序号:8303486阅读:来源:国知局
,第一集群中屯、712与四个相邻贬存区782、784、786、788相关联。
[0153] 图7B是根据本发明的实施方式的有关2-D坐标系中的局部敏感哈希法和相关映 射772的投影770的图形表示,其示出了新图像与先前存在集群中屯、的关联性。大哈希模 块240产生与新图像p6相关联的大哈希值748。较小哈希模块242将大哈希值748投影到 矢量712和矢量724上。大哈希值748被投影至落入矢量712的片段718内和矢量724的 片段728内。
[0154] 2-D坐标系中的映射772示出了投影770的图形表示。较小哈希模块242基于与 图像p6相关联的大哈希值749产生小哈希值736。较小哈希模块242确定小哈希值736落 在贬存区782内。为了捜索与图像p6相似的图像,空间捜索模块244考虑相邻的贬存区, 而不仅仅考虑贬存区782。如图7B所示,顶点790最接近于小哈希值736。类似于小哈希 值734,就顶点790方面而言,贬存区782、784、786、788相对于小哈希值736被视为是相邻 的贬存区。空间捜索模块244确定任何集群中屯、是否与相邻的贬存区782、784、786、788中 的任一个或者全部相关联。在本发明的实施方式中,考虑了与用于小哈希值736的所有四 个相邻贬存区782、784、786、788相关联的每个集群中屯、。在另一实施方式中,考虑了与用 于小哈希值736的四个相邻贬存区782、784、786、788中的任一个相关联的每个集群中屯、。 因为集群中屯、712与贬存区782、784、786、788相关联,所W近似度确定模块248根据欧几 里得距离进一步确定集群中屯、712是否充分接近于小哈希值736。通过近似度确定模块248 计算小哈希值736与集群中屯、712之间的距离并且将其与阔值距离进行比较。如果计算距 离小于阔值距离(图7B中的情况),则图像p6被视为与图像p5相似,并且图像p6与集群 中屯、712相关联。如图7C所示,不创建图像p6的新集群中屯、。相反,如果计算距离超过阔 值距离(图7B中未示出),则图像p6被视为不同于图像p5,并且集群中屯、创建模块246创 建图像p6的新集群中屯、。实际上,可W围绕小哈希值736绘制具有半径766的圆768。当 集群中屯、712落在圆768内时,图像p6可被视为与图像p5相似,并且图像p6与集群中屯、 712相关联。当集群中屯、712落在圆768外时,图像p6可被视为不同于图像p5,并且集群 中屯、创建模块246可创建与贬存区782、784、786、788相关联的新集群中屯、。
[0巧5] 阔值距离可W是结合图4B至图4E基于上述所述考虑因素选择的任一合适值。图 7B至图7F中的阔值距离大于图4B至图4E中的阔值距离。在本发明的实施方式中,确定假 阳性的阔值距离可不同于确定假阴性的阔值距离。
[0156] 图7D是根据本发明的实施方式的有关2-D坐标系中的局部敏感哈希法和相关映 射776的投影774的图形表示,其示出了新图像与新集群中屯、的关联性。大哈希模块240 产生与新图像p7相关联的大哈希值792。较小哈希模块242将大哈希值792映射到矢量 712和矢量724上。大哈希模块792被投影至落在矢量712的片段718内和矢量724的片 段730内。
[0157] 2-D坐标系中的映射776示出了投影774的图形表示。较小哈希模块242基于与 图像p7相关联的大哈希值792产生小哈希值794。小哈希值794落在贬存区784内。为 了捜索与图像p7相似的图像,空间捜索模块244考虑相邻的贬存区,而不仅仅考虑贬存区 784。如图7D所示,顶点790最接近于小哈希值794。类似与小哈希值734和小哈希值736, 就至高790方面而言,贬存区782、784、786、788相对于小哈希值794则被视为是相邻的贬 存区。例如,空间捜索模块244确定任何集群中屯、是否与贬存区782、784、786、788中的全 部或者任一个相关联。因为集群中屯、712与贬存区782、784、786、788相关联,所W近似度 确定模块248根据欧几里得距离进一步确定集群中屯、712是否充分接近于小哈希值794。 通过近似度确定模块248计算小哈希值794与集群中屯、712之间的距离并且将其与阔值距 离相比较。如图7E所示,如果计算距离超过阔值距离(图7D中所示),则图像p7被视为不 同于图像p5,并且集群中屯、创建模块246创建图像p7的新集群中屯、796。相反,如果计算 距离小于阔值距离(不是图7D中的情况),则图像p7被视为与图像p5相似,并且图像p7 与集群中屯、712相关联(图7D中未示出)。实际上,可W围绕小哈希值794绘制具有半径 766的圆768。当集群中屯、712落在圆768内时,图像p7可被视为与图像p5相似,并且图 像p7与集群中屯、712相关联。当集群中屯、712落在圆768外时,图像p7可被视为不同于 图像p5,并且集群中屯、创建模块246创建与贬存区782、784、786、788相关联的新集群中屯、 796(图7E中所示)。
[0158] 图7F是根据本发明的实施方式的有关2-D坐标系中的局部敏感哈希法和相关映 射780的投影778的图形表示,其示出了当与新图像相关联的小哈希值和现有集群中屯、落 入不同相邻贬存区内时新图像与现有集群中屯、的关联性。大哈希模块240产生与新图像p8 相关联的大哈希值798。较小哈希模块242将大哈希值798投影到矢量712和矢量724上。 大哈希值798投影至落入在矢量712的片段718内和矢量724的片段726内。
[0159] 2-D坐标系中的映射780示出了投影778的图形表示。较小哈希模块242基于与 图像p8相关联的大哈希值798产生小哈希值746。小哈希值746落在贬存区812内。为 了捜索与图像p8相似的图像,空间捜索模块244考虑相邻的贬存区,而不仅仅考虑贬存区 812。如图7F所示,顶点830最接近于小哈希值746。就顶点830方面而言,贬存区812、 782、816、786相对于小哈希值746被视为是相邻的贬存区。
[0160] 例如,空间确定模块244确定任何集群中屯、是否与贬存区812、782、816、786的全 部或者任一个相关联。因为集群中屯、712和集群中屯、796与贬存区812, 782、816、786相关 联,所W近似度确定模块248根据欧几里得距离进一步确定集群中屯、712和集群中屯、796 中的任一个是否充分接近于小哈希值746。通过近似度确定模块248计算小哈希值746与各 个集群中屯、712之间的距离并且将其与阔值距离相比较。如图7G所示,如果任一计算距离 小于阔值距离(即,图7F中的情况),则小哈希值746与最接近的集群中屯、712相关联,并且 图像p8被视为与集群中屯、712相关联的图像p5相似。相反,如果对所有集群中屯、的计算距 离超过阔值距离(图7F中未示出),则图像p8被视为不同于该些集群中屯、的图像,并且集 群中屯、创建模块246创建图像p8的新集群中屯、。实际上,可W围绕小哈希值746绘制具有 半径766的圆768。如果集群中屯、712或者集群中屯、796落在圆768内,则图像p8可被视 为分别与图像p5或者图像p7相似,并且图像p8分别与集群中屯、712或者集群中屯、796中 较为接近的相关联。如果集群中屯、712和集群中屯、796落在圆768外,则图像p8可被视为 分别不同于图像p5和图像p7,并且集群中屯、创面模块246针对与贬存区812, 782, 816, 786 相关联的新图像p8创建新集群中屯、。
[0161] 在本发明的另一实施方式中,集群中屯、可W与单一贬存区相关联,而非与一组相 邻的贬存区相关联。为了捜索与新图像相似的图像,通过空间捜索模块244可W确定最接 近于新图像的小哈希值的顶点。可W识别共享此顶点的所有相邻的贬存区,并且可W识别 与该些相邻贬存区相关联的所有集群中屯、。通过近似度确定模块248可W确定新图像的小 哈希值是否充分接近于所识别集群中屯、中的任一个(例如,在阔值距离内)。
[0162] 可W与上述所述相似的方式考虑与额外图像相关联的小哈希值。例如,与又一图 像p9相关联的小哈希值可落在贬存区内。可W识别最接近于小哈希值的顶点,并且可W识 别相邻的贬存区。相邻的贬存区构成相似图像的捜索空间。可W识别与相邻贬存区相关联 的所有集群中屯、。可W计算小哈希值与各个识别集群中屯、之间的距离并且将其与阔值距离 相比较。如果任一识别集群中屯、的计算距离小于阔值距离,则图像p9可与所识别集群中屯、 (例如,距图像p9的小哈希值为最小距离的识别集群中屯、)相关联。相反,如果所有识别的 集群中屯、的计算距离大于阔值距离,则可创建图像p9的新集群中屯、。实际上,可W围绕小 哈希值绘制合适半径的圆。如果发现集群中屯、在圆内,则即使发现集群中屯、在不同的贬存 区内,图像p9也与集群中屯、相关联并且被视为与已经与集群中屯、相关联的图像相似。如果 发现任何集群中屯、均不在圆内,则给予小哈希值创建新集群中屯、,并且图像p9被视为不同 于与其他集群中屯、相关联的其他图像。可W相似方式继续除图像P5、p6、p7、p8、p9之外的 进一步图像的考虑。
[0163] 在上述所述实施方式中,相邻的贬存区仅被定义为仅包括共享公共顶点的贬存 区。在本实施方式中,仅考虑顶点周围的一"层"贬存区。还可W其他方式限定相邻的贬存 区。例如,相邻的贬存区可被限定为包括最接近于小哈希值的顶点周围的两层贬存区。在 本实施方式中,相邻贬存区可包括与小哈希值共享同一顶点的"内"贬存区W及与内贬存区 中的任一个共享顶点的"外"贬存区。总之,W增加捜索空间和相关计算为代价,通过考虑 更多的相邻贬存区可W降低假阴性的概率。
[0164] 图8是根据本发明的实施方式的表示结合图7A至图7G所描述的贬存区、集群中 屯、、W及图像之间的关联性的示图。图形850包括贬存区782、784、786、788、812、816。集 群中屯、712与贬存区782、784、786、788相关联。集群中屯、(:7 796与相邻贬存区782、784、 786、788相关联。集群中屯、712和796中的每个均与被视为相似的一个或者多个图像相关 联。图像p5 840、p6 842、p8 846被视为相似并且与集群中屯、712相关联。图像p7 844与 集群中屯、796相关联。贬存区782、784、786、788、812、816、集群中屯、〇5 712、(:7 796、^及 图像p5 840、p6 842、p7 844、p8 846及其关联性构成社交网络系统130中的社交图谱的 一部分。
[01化]图9示出了根据本发明的实施方式的用于确定图像相似性W减号假阴性的过程 900。最初,在框910中,接收新的图像。在框912中,确定新图像的大哈希值。例如,使用 内容感知大哈希函数可W确定大哈希值。在框914中,则从新图像的大哈希值确定小哈希 值。例如,使用局部敏感哈希函数可W确定小哈希值。在框916中,确定d-D坐标系中最接 近于较小哈希的顶点。通过(i)使d个值量化成小哈希值并且(ii)识别由d个量化值限 定的d-D坐标系中的顶点可W确定最接近的顶点。
[0166] 在框918中,基于顶点可W识别接近于小哈希值的贬存区。所识别的贬存区可W 是邻近于小哈希值并且具有在框916中确定的顶点作为其顶点中的一个的贬存区。还可W 其他方式识别接近于小哈希值的贬存区。在任何情况下,在框920中,识别与所识别相关联 的全部现有集群中屯、。通过仅考虑与接近于小哈希值的贬存区相关联的集群中屯、,而非考 虑与所有贬存区相关联的所有集群中屯、,充分减少对新图像的捜索空间。在框922中,确定 是否存在与所识别贬存区中的任一个相关联的任一现有集群中屯、。如果在框922中答案是 "否",则新图像的小哈希值是被投影到所识别贬存区中的一个上的小哈希值。在框936中, 则创建新图像的新集群中屯、并且给出小哈希值的坐标。在框938中,新图像与新集群中屯、 相关联。
[0167] 相反,如果存在与所识别贬存区相关联的至少一个现有集群中屯、并且在框922中 答案是"是",则在框924中,确定小哈希值和与任一识别贬存区相关联的每个现有集群中 屯、之间的距离。在框926中,则确定从小哈希值至任一现有集群中屯、的距离是否小于阔值 距离。如果在框926中答案是"否",则在框934中,新图像被视为不同于与现有集群中屯、相 关联的图像。在框936中,创建新图像的新集群中屯、,并且在框938中,新图像与新集群中 屯、相关联。
[0168] 然而,如果从小哈希值至至少一个现有集群中屯、的距离小于阔值距离并且在框 926中的答案是"是",则在框928中,识别距新图像的小哈希值为最小距离的现有集群中 屯、。还可选择距最小哈希值具有小于阔值距离的距离的另一现有集群中屯、。在任何情况下, 在框930中,新图像可W与所识别的现有集群中屯、相关联。在框932中,新图像被视为与所 识别的现有集群中屯、相关联的图像相似。
[0169] 在本发明的实施方式中,通过图像相似性分析模块132可W全部或者部分地执行 过程900。在本发明的实施方式中,通过社交网络系统130至少可W部分地执行过程900。
[0170] 在各种实施方式中,上述图及其相关的讨论已经描述了使用图像的大哈希值的小 哈希值来识别相关的贬存区W及创建集群中屯、或者与所识别贬存区相关联的现有集群中 屯、相比较。在另一实施方式中,一旦识别具有小哈希值的相关贬存区,则可W使用大哈希值 (而非小哈希值)创建集群中屯、或者与所识别贬存区相关联的现有集群中屯、相比较。例如, 关于假阳性的确定,可W确定新图像的大哈希值。例如,可W使用内容感知大哈希函数确定 大哈希值。基于大哈希值则可确定新图像的小哈希值。例如,使用局部敏感哈希函数可W 确定小哈希值。用于小哈希值的哈希函数可有效地将大哈希值投影到d-D坐标系中的d个 矢量上。小哈希值可包括用于限定d-D坐标系的d个矢量的d个值。确定小哈希值落入其 中的贬存区(d-D坐标系中)。
[0171] 可W识别与贬存区相关联的全部现有集群中屯、。现有集群中屯、是针对现有图像已 经创建的集群中屯、。通过仅考虑与贬存区相关联的集群中屯、。而非考虑与其他贬存区相关 联的所有集群中屯、,充分减少了新图像的捜索空间。可W确定是否存在与贬存区相关联的 任一现有集群中屯、。如果否,则新图像的大哈希值是被投影到贬存区内的第一大哈希值。 可W创建新图像的新集群中屯、并且给出了大哈希值的坐标。新图像可W与新集群中屯、相关 联。
[0172] 相反,如果存在与贬存区相关联的至少一个现有集群中屯、,则确定大哈希值和与 贬存区相关联的每个现有集群中屯、之间的距离。然后,确定从大哈希值至任一现有集群中 屯、的距离是否小于阔值距离。如果否,则新图像可被视为不同于与贬存区相关联的现有集 群中屯、相关联的图像。可W创建新图像的新集群中屯、,并且新图像与新集群中屯、相关联。因 此,如果图像不被视为相似,则可W创建一个W上集群中屯、并且使其与贬存区相关联。
[0173] 然而,如果从大哈希值至至少一个现有集群中屯、的距离小于阔值距离,则可W识 别距新图像的大哈希值为最小距离的现有集群中屯、。还可W选择距大哈希值具有小于阔值 距离的距离的另一现有集群中屯、。在任何情况下,新图像可W与所识别的现有集群中屯、相 关联。新图像被视为与所识别的现有集群中屯、相关联的图像相似。
[0174] 又例如,关于假阴性的确定,可W确定新图像的大哈希值。例如,使用内容感知大 哈希函数可W确定大哈希值。从新图像的大哈希值可W确定小哈希值。例如,使用局部敏 感哈希函数可W确定小哈希值。确定d-D坐标系中最接近于较小哈希的顶点。通过(i)量 化小哈希值的d个值并且(ii)识别由d个量化值限定的d-D坐标系中的顶点可W确定最 接近的顶点。
[01巧]基于顶点可W识别接近于小哈希值的贬存区。识别贬存区可W是邻近于小哈希值 并且具有之前确定的顶点作为其顶点中的一个的贬存区。还可W其他方式识别接近于小哈 希值的贬存区。在任何情况下,可W识别与所识别贬存区相关联的全部现有集群中屯、。通 过仅考虑与接近于小哈希值的贬存区相关联的集群中屯、,而非考虑与所有贬存区相关联的 所有集群中屯、,充分减少了新图像的捜索空间。然后,确定是否存在与所识别贬存区中的任 一个相关联的任一现有集群中屯、。如果否,新图像的大哈希值则是被投影到所识别贬存区 中的一个上的第一大哈希值。可W创建新图像的新集群中屯、并且给出了大哈希值的坐标。 新图像与新集群中屯、相关联。
[0176] 相反,如果存在与所识别贬存区相关联的至少一个现有集群中屯、,则可W确定大 哈希值和与任一所识别贬存区相关联的每个现有集群中屯、之间的距离。可W确定从大哈希 值至任一现有集群中屯
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1