用于确定图像相似性的方法和系统的制作方法

文档序号:8303486阅读:267来源:国知局
用于确定图像相似性的方法和系统的制作方法
【技术领域】
[0001] 本发明设及一种用于确定图像(具体地,设及网络系统中的图像之间的)相似性 的方法和系统W及计算机存储介质。
【背景技术】
[0002] 社交网络网站或者系统提供其中各个成员可连接至其他成员或者与其他成员通 信的动态环境。该些网站通常可提供在线机构,从而允许各个成员在其先前存在的社交网 络中交互W及创建新的社交网络。成员可包括任何个体或者其他实体,诸如,组织或者企 业。在其他属性中,社交网络网站允许成员将相关信息有效并且高效地通信给其社交网络。 例如,成员可将个人信息、工作信息、传记信息、W及其他个性化内容发布到该成员专用的 网站区域。其他成员可通过浏览成员资料或者执行专口的捜索访问所发布的内容。
[0003] 发布到社交网络网站的一种流行类型的内容是图像,例如,照片或者任何类型的 附图,通常为数字文件或者数字化形式的图像。成员通常发布图像W将个人信息通信给其 社交网络。例如,发布图像可描述家庭、朋友、位置、物品、W及其中成员感兴趣的任何其他 主题。因为分享个人信息有助于成员之间的交流,并且由此助于实现网站的潜能,所W社交 网络网站通常鼓励发布图像。
[0004] 特定图像可包含其中社交网络网站出于种种原因特别感兴趣的内容。例如,当不 同成员违反网站的使用条款或者其他指南重复性地发布同一照片时,社交网络网站可尝试 进行干预。又例如,社交网络网站可尝试限制通过网站获知的发布图像包含不适当的内容。 为识别该些不良图像,可W比较图像与已知为不良图像的相似性或者一致性。当识别与不 良图像相似的图像时,社交网络网站可对其采取适当的动作。然而,由于由社交网络网站维 持的大量图像和处理的大量图像数据(例如,像素),所W执行图像比较时的计算成本比较 昂贵,并且社交网络网站和系统在有效地识别相似图像时面临技术挑战。

【发明内容】

[0005] 因此,本发明的目的是减少图像比较中的计算工作量和计算资源。具体地,本发明 的目的是允许对(例如,社交网络系统中)大量图像的相似性进行比较和识别,同时保持查 找相似图像的充分准确度。
[0006] 就本发明的一方面而言,通过具有权利要求1中的特征的方法实现此目的,就本 发明的另一方面而言,通过具有权利要求14中的特征的系统实现此目的,并且就本发明的 进一步方面而言,通过根据权利要求15所述的计算机存储介质实现此目的。
[0007] 根据权利要求1所述的计算机实现方法被设置成用于确定图像(具体地,社交网 络系统中的图像之间的)相似性,并且至少包括下列步骤:
[000引通过包括至少一个处理器W及通常还包括至少一个存储器的计算机系统确定与 第一图像相关联的第一值和与至少一个图像相关联的第一集群中屯、之间的距离;并且
[0009] 当确定距离大于阔值距离时,通过计算机系统确定第一图像与至少一个图像不相 似。
[0010] 根据权利要求14所述的系统被设置成用于确定图像(具体地,社交网络系统中的 图像之间的)相似性,并且包括:
[0011] 至少一个计算机系统,该至少一个计算机系统具有至少一个处理器和被配置为指 示指示一个处理器执行根据本发明所述的方法的存储器存储指令。
[0012] 根据权利要求15所述的计算机存储介质被设置成用于存储在被执行时致使计算 机系统或者计算机系统的至少一个处理器执行根据本发明的计算机实现方法的计算机执 行指令。
[0013] 在本发明的进一步实施方式中,还要求保护一种系统,具体为计算机系统,被设置 成包括:
[0014] 至少一个处理器;和
[0015] 存储器,该存储器存储被配置为指示该至少一个处理器执行下列操作的指令:
[0016] 确定与第一图像相关联的第一值和与至少一个图像相关联的第一集群中屯、之间 的距离;并且
[0017] 当确定距离大于阔值距离时,确定第一图像与该至少一个图像不相似。
[001引在本发明的进一步实施方式中,还要求保护被设置成用于存储在被执行时致使计 算机系统执行计算机实现方法的计算机可执行指令的计算机存储介质,包括:
[0019] 确定与第一图像相关联的第一值和与至少一个图像相关联的第一集群中屯、之间 的距离;并且
[0020] 当确定距离大于阔值距离时,确定第一图像与该至少一个图像不相似。
[0021] 具体地,"集群中屯、"是将被视为相似的图像相关联的坐标系中的点,例如,空间捜 索模块可确定坐标系中的空间W捜索与可能相似图像相关联的集群中屯、。具体地,"第一 值"是坐标系中诸如哈希值等的点。具体地,"距离"是基于该坐标系中的标准或者度量而 确定的,例如但不限于欧几里得距离或者标准,并且例如是非负的实数。
[0022] 为了允许识别和管理在内容上相似或者一致的图像,本发明的实施方式通过社交 网络系统提供对图像的高效比较。当社交网络系统确定图像相似时,则将相似图像相关联。 相似图像的关联性便于对图像执行管理动作。管理动作可包括通过社交网络系统对其内容 经过特殊处理的特定图像的控制。例如,不同成员在特定情况下可能违反社交网络系统的 指南发布、或者尝试发布相同的图像、鼓励、或者操纵在内容上独特的个性化记录。根据其 指南,社交网络系统可限制发布该图像。又例如,如果发现图像包含不适当的内容,则社交 网络系统可防止或者移除所有发布的图像。该些管理动作的有效性基于通过图像相似性确 定识别所有图像实例的能力。
[0023] 有利地,具体地,在独立权利要求中要求保护优选和/或【具体实施方式】。独立权利 要求中的所有特征同样可要求保护根据本发明的任一方面的方法、系统、W及介质。
[0024] 在本发明的实施方式中,当确定距离大于阔值距离时创建第二集群中屯、。具体地, 当确定距离大于阔值距离时,使第一图像与第二集群中屯、相关联。
[0025] 在优选实施方式中,当确定距离小于阔值距离时,确定或者视为第一图像与该至 少一个图像相似。具体地,当确定距离小于阔值距离时,使第一图像与第一集群中屯、相关 联。
[0026] 在另一有利实施方式中,识别与第一值相关联的贬存区化ucket)并且识别与贬 存区相关联的至少一个集群中屯、,该至少一个集群中屯、包括第一集群值;并且针对该至少 一个集群中屯、评估第一值。
[0027] 具体地,"贬存区"是坐标系的最小单位。例如,贬存区可W是1-D坐标系中的最小 片段、2-D坐标系中的最小正方形、或者3-D坐标系中的最小立方体。
[002引在进一步实施方式中,识别多个贬存区并且识别与多个贬存区相关联的至少一个 集群中屯、,该至少一个集群中屯、包括第一集群中屯、,并且针对该至少一个集群中屯、评估第 一值。
[0029] 具体地,多个贬存区包括接近于第一值的哈希值的贬存区的预定数目,其中,具体 地,相邻贬存区的预定数目为2d,其中,d是第一值的坐标系的维数。
[0030] 在优选实施方式中,下列特征被设置成量化与第一图像相关联的第一值的小哈希 值;基于量化的最小哈希值识别至少一个贬存区;并且基于该至少一个贬存区捜索与第一 图像相似的图像。
[0031] 与第一图像相关联的第一值可W是大哈希值和小哈希值中的至少一个。
[0032] 具体地,对于图像比较,并且具体地通过大哈希模块计算关于检查与其他图像的 相似性的图像的"较大"哈希值。大哈希值是图像的表示,其可包括W位表示的像素。大哈 希值可包括一组值。在本发明的实施方式中,基于应用于第一图像的内容感知哈希函数确 定或者计算第一图像的大哈希值。
[0033] 优选地,基于应用于第一图像的大哈希值的小哈希函数确定第一图像的小哈希 值,其中,具体地,小哈希函数将大哈希值的维数减少至预定的维数。优选地,小哈希函数是 局部敏感哈希函数。
[0034] 具体地,"哈希函数"是接收输入值(其可包括多个信息位)并且将其映射至哈希 值(其可包括比输入值更少的位)的函数。对图像所使用的一些哈希函数为"内容感知"。 当两个图像在内容上相似时,内容感知哈希函数的特征在于将图像映射至相似的哈希值。
[0035] 因此,在本发明的实施方式中,例如,为了确定可能的图像相似性,通过将内容感 知哈希函数应用于图像可产生新图像的大哈希值。然后,通过将局部敏感哈希法应用于大 哈希值可产生该图像的小哈希值。
[0036] "局部敏感哈希法"包括将大哈希值投影到映射至对应坐标系的一个或者多个矢 量中。该投影包括将大哈希值从维数k减少至维数d。d-D坐标系中的每个矢量均被分割 成限定小哈希值可能潜在地落入其中的贬存区的多个片段。可W使用局部面干哈希法解决 计算支出的问题。可将局部敏感哈希法应用于具有相对较大维数的大哈希值W获得具有更 少维度的"较小"哈希值。例如,局部敏感哈希法可W将具有上百个维度的大哈希值哈希成 具有较少(例如,两个或者=个)维度的小哈希值。小哈希值可包括其中大哈希值可包括 多个值的几个值。
[0037] 局部敏感哈希法中的维数的减少导致信息丢失,从而在其对应图像实际不同时提 高小哈希值相似的概率。因此,由于其小哈希值相似或者落入相同贬存区内,所W不正确地 视为不同的图像相似。该种类型的错误通常被称之为"假阳性"。此外,基于确定贬存区边 界的任意坐标定义,由于其小哈希值落入不同贬存区内,所W不正确地视为相似图像是不 同的。该种类型的错误通常被称之为"假阴性"。
[003引在本发明的实施方式中,解决了假阳性的问题。识别了与小哈希值落入其中的贬 存区相关联的现有集群中屯、。现有集群中屯、是针对现有图像已经创建的集群中屯、并且具体 地通过社交网络系统进行存储。通过仅考虑与贬存区相关联的集群中屯、而非具体地通过社 交网络系统存储的所有集群中屯、而充分减少新图像的捜索空间。捜索空间减少在图像比较 时提供计算效率。
[0039] 如果不存在与贬存区相关联的现有集群中屯、,则创建新图像的新集群中屯、并且给 出小哈希值的坐标。然后,使新图像与新的集群中屯、相关联。相反,如果存在与贬存区相关 联的至少一个现有集群中屯、,则确定小哈希值与各个现有集群中屯、之间的距离。如果从小 哈希值至任何现有集群中屯、的距离大于阔值距离,则视新图像不同于与现有集群中屯、相关 联的图像。然后,创建新图像的新集群中屯、,并且使新图像与新集群中屯、相关联。因此,如 果视为图像不相似,则可创建一个W上集群中屯、并且使其与贬存区相关联。如果从小哈希 值至该至少一个现有集群中屯、的距离小于阔值距离,则识别到新图像的小哈希值具有最小 距离的现有集群中屯、。新图像被视为与所识别的现有集群中屯、相关联的图像相似,并且可 使新图像与所识别的现有集群中屯、相关联。
[0040] 在本发明的实施方式中,解决了假阴性的问题。可W识别接近于最小哈希值的贬 存区。所识别的贬存区可W是接近于最小哈希值并且具有坐标系中最接近于最小哈希值的 顶点(作为其顶点中的一个)的贬存区。还可W其他方式识别接近于最小哈希值的贬存区。 识别与所识别贬存区相关联的所有现有集群中屯、。通过仅考虑与接近于最小哈希值的贬存 区相关联的集群中屯、而非通过社交网络系统存储的所有集群中屯、而充分减少新图像的捜 索空间。捜索空间的减少在图像比较时进一步提供计算效率。
[004U 如果不存在与所识别贬存区中的任一个相关联的现有集群中屯、,则创建新图像的 新集群中屯、并且给出小哈希值的坐标。然后,使新图像与新集群中屯、相关联。相反,如果存 在与所识别贬存区相关联的至少一个现有集群中屯、,则确定小哈希值与各个现有集群中屯、 之间的距离。如果从小哈希值至任何现有集群中屯、的距离大于阔值距离,则视新图像不同 于与现有集群中屯、相关联的图像。然后,创建新图像的新集群中心并且使新图像与新集群 中屯、相关联。如果从小哈希值至至少一个现有集群中屯、的距离小于阔值距离,则识别到新 图像的小哈希值具有最小距离的现有集群中屯、。新图像可W与所识别的现有集群中屯、相关 联,并且视新图像与所识别的现有集群中屯、相关联的图像相似。
[0042] 在实施方式中,一旦识别具有小哈希值的相关贬存区,则可W使用大哈希值(而 非小哈希值)创建集群中屯、或者在图像相似性评估时与所识别贬存区相关联的现有集群 中屯、相比较。
[0043] 在实施方式中,提供下列特征:
[0044] 使贬存区与多个集群中屯、相关联;并且
[0045] 使多个集群中屯、中的每个集群中屯、与被视为相似的至少一个图像相关联。
[0046] 阔值距离可被编程或者设置成不同的值。
[0047] 在本发明的优选实施方式中,提供下列特征:
[0048] 当确定距离小于阔值距离时,使第一图像与第一集群中屯、相关联;并且
[0049] 具体地,在社交网络系统内,基于第一集群中屯、的识别限制使用第一图像和该至 少一个图像,例如,限制、防止、或者移除社交网络系统中的图像的记录(posting)。
[0050] 在本发明的实施方式中,基于相关联集群中屯、的识别可W采取管理动作限制图像 的使用。例如,如果社交网络系统认为图像不适当或者W其他方式受过特殊处理,则可W识 别与该图像相关联的集群中屯、。然后,可W识别与集群中屯、相关联的所有图像。一旦经过 此识别,则可W从社交网络系统中删除该些图像。又例如,如果视为图像不适当,则可W识 别与该图像相关联的集群中屯、。一旦集群中屯、经过此识别,则与该集群中屯、相关联的任何 未来图像将不能够被上传到社交网络系统中。
[0化1] 从附图和下列细节描述中,本发明的许多其他特征和实施方式将变得显而易见。
【附图说明】
[0052] 图1是根据本发明的实施方式的用于结合社交网络系统确定图像相似性的系统 的网络图。
[0053] 图2是根据本发明的实施方式的社交网络系统的示图。
[0化4] 图3A至图3B示出了根据本发明的实施方式的从图像的大哈希值到矢量的投影。
[0055] 图4A至图4E是根据本发明的实施方式的图像和相关映射的局部敏感哈希法W说 明假阳性的图形表示。
[0056] 图5是根据本发明的实施方式的结合图4A至图4E的描述表示贬存区、集群中屯、、 W及图像的关联性的示图。
[0057] 图6是根据本发明的实施方式的用于确定图像相似性W减少假阳性的过程。
[0化引图7A至图7G是根据本发明的实施方式的图像和相关映射的局部敏感哈希法W说 明假阴性的图形表示。
[0化9] 图8是根据本发明的实施方式的结合图7A至图7G的描述表示贬存区、集群中屯、、 W及图像的关联性的示图。
[0060] 图9是根据本发明的实施方式的用于确定图像相似性W减少假阴性的过程。
[0061] 图10A至图10B示出了根据本发明的实施方式的通过社交网络系统执行的管理动 作。
[0062] 图11是根据本发明的实施方式的用于限制图像使用的过程。
[0063] 图12是根据本发明的实施方式的计算机系统的示图。
[0064] 附图仅出于示出性之目的描述了本发明的各种实施方式,其中,附图使用类似参 考标号表示类似元件。本领域技术人员从下列讨论中容易认识到,在不背离此处所公开的 本发明的原理的情况下,可W采用此处示出的结构和方法的替代实施方式。
【具体实施方式】
[00化]社香网络系统-蒋体介绍
[0066] 图1是根据本发明的实施方式的用于结合社交网络系统130确定图像相似性的系 统100的网络图。系统100包括一个或者多个用户设备110、一个或者多个外部系统120、 社交网络系统130、W及网络140。出于说明性之目的,图1中所示的系统100的实施方式 包括单一外部系统120和单一用户设备110。然而,在其他实施方式中,系统100可包括多 个用户设备110和/或多个外部系统120。在特定实施方式中,由社交网络运营商操作社交 网络系统130,其中,外部系统120独立于社交网络系统130,在于可通过不同的实体操作外 部系统120。然而,在各种实施方式中,社交网络系统130与外部系统120 -起运行W为社 交网络系统130中的用户(或者成员)提供社交网络服务。在该种意义上,社交网络系统 130提供诸如外部系统120等其他系统可用于通过因特网将社交网络服务和功能提供给用 户的平台或者骨干链路。
[0067] 用户设备110包括可接收来自用户的输入并且可经由网络140发送和接收数据的 一个或者多个计算设备。在一种实施方式中,例如,用户设备110是执行与操作系统(0巧、 Apple 0S X、和/或Linux发行套件兼容
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1