用于确定图像相似性的方法和系统的制作方法_3

文档序号:8303486阅读:来源:国知局
部系统120的交互的数据。在该实施例中,外部系统120根据社交图谱 中的结构动作和对象报告用户的交互。
[0089] 其中用户与外部系统120交互的动作的其他实例包括用户表达对外部系统120或 者另一实体的兴趣、用户将讨论外部系统120或者外部系统120内的网页122a的评论发布 到社交网络系统130中、用户将统一资源定位符扣化)或者与外部系统120相关联的其他 标识符发布到社交网络系统130中、用户参与与外部系统120相关联的事件或者用户参与 的与外部系统120相关的任何其他动作。因此,活动日志226可包括描述社交网络系统130 中的用户与独立于社交网络系统130的外部系统120之间的交互的动作。
[0090] 认证服务器228对社交网络系统130中的用户强制实施一种或者多种隐私设置。 用户的隐私设置确定如何分享与用户相关联的特定信息。隐私设置包括与用户相关联的特 定信息的说明和可与其分享信息的实体的说明。可与其分享信息的实体的实例可包括其他 用户、应用程序、外部系统120、或者可潜在访问该信息的任何实体。用户分享的信息包括类 似形象照片的用户资料信息、与用户相关联的电话号码、用户连接、由用户采取的诸如添加 连接等动作、更改用户资料信息等。
[0091] 可W不同的粒度级别提供隐私设置说明。例如,隐私设置可识别与其他用户分享 的特定信息。例如,隐私设置识别工作电话号码或者特定系列的相关信息,诸如,包括形象 照片、家庭电话号码、W及身份的个人信息。可替代地,隐私设置可应用于与用户相关联的 所有信息。还可W各个粒度级别指定可访问特定信息的该组实体的说明。例如,可与其分 享信息的各组实体可包括用户的所有朋友、朋友的所有朋友、所有应用程序、或者所有外部 系统120。一种实施方式允许该组实体的说明包括实体的列举。例如,用户可提供允许访 问特定信息的外部系统120的列表。另一实施方式允许该说明包括除不允许访问该信息之 外的一组实体。例如,用户可允许所有外部系统120访问用户的工作信息,但指定了不允许 访问工作信息的外部系统120的列表。特定实施方式将不允许访问特定信息的除外的列表 称为"黑名单"。由用户指定的属于黑名单的外部系统120被阻止访问隐私设置中规定的信 息。信息说明的粒度和与其分享信息的实体的说明的粒度的各种组合是可W被分享的。例 如,可与朋友分享其中与朋友的朋友分享所有工作信息的所有个人信息。
[0092] 认证服务器228包含确定用户的朋友、外部系统120和/或其他应用程序W及实 体是否可访问与用户相关联的特定信息的逻辑。外部系统120需要认证服务器228的认证 W访问用户更多的隐私和敏感信息,诸如,用户的工作电话号码。基于用户的隐私设置,认 证服务器228确定是否允许另一用户、外部系统120、应用程序、或者另一实体访问与用户 相关联的信息,其中包括有关由用户采取的动作的信息。
[0093] 图像相似性分析模块132可确定被提供给社交网络系统130的图像的相似性并且 基于其相似性使图像相关联W执行管理动作。如此处使用的,根据阔值,两个或者多个图像 之间的相似性称之为相同或者几乎相同的图像内容。对于图像比较,大哈希模块240计算 社交网络系统130中有关可查看与其他图像相似性的图像的"大哈希值"。大哈希值是包括 W位表示的像素的图像的表示。大哈希值可包括一系列值。在本发明的实施方式中,大哈 希模块240可使用内容感知哈希函数计算该图像的大哈希值。
[0094] 为了便于图像之间的比较,较小哈希模块242通过将大哈希值投影到具有减少维 度的d维(d-D)坐标系中计算大哈希值的"较小"哈希值,其中,d是坐标系的维数并且可 W是一或者更大的任何整数值。小哈希值是图像更为紧凑的表示并且可包括一系列值。在 本发明的实施方式中,较小哈希模块242可将局部敏感哈希函数应用于大哈希值W计算小 哈希值。大哈希值的投影产生落在坐标系贬存区内的小哈希值。贬存区是坐标系的最小单 位。例如,贬存区可W是1-D坐标系中的最小片段、2-D坐标系中的最小正方形、或者3-D坐 标系中的最小立方体。
[0095] 空间捜索模块244可确定坐标系中的空间W捜索与可能相似图像相关联的集群 中屯、。集群中屯、是坐标系中将被视为相似的图像相关联的点。在本发明的实施方式中,空 间捜索模块244可仅捜索小哈希值落入其中的贬存区内的集群中屯、。在同一贬存区内捜索 可能相似图像避免不正确地假定与落入在同一贬存区内的小哈希值相关联的所有图像是 相似的。在本发明的实施方式中,空间捜索模块244还可识别相邻的贬存区并且在相邻贬 存区内捜索与相似图像相关联的集群中屯、。相邻贬存区可包括坐标中与最接近于小哈希值 的的顶点一致的贬存区。在多个贬存区内捜索可能相似图像避免不正确地假定与落入在不 同贬存区内的小哈希值相关联的图像是不同的。空间捜索模块244通过不捜索坐标系中的 所有贬存区内的集群中屯、而实现计算效率。
[0096] 集群中屯、创建模块246可创建与贬存区和图像相关联的集群中屯、。对于通过社交 网络系统130接收的第一图像,集群中屯、创建模块246创建与第一图像相关联的第一集群 中屯、。当确定与第二图像相关联的小哈希值与第一集群中屯、之间的距离(例如,欧几里得 距离)超过阔值距离时,集群创建模块246可创建有关第二图像的第二集群中屯、。此外,如 下面更为详细描述的,第二图像与第一集群中屯、相关联,并且并不创建第二图像的新集群 中屯、。各个集群中屯、均表示被视为相似的一个或者多个图像。
[0097] 近似度确定模块248可确定与引入图像相关联的小哈希值和用于社交网络系统 130中维持的一个或者多个现有图像的集群中屯、之间的距离。为了分析图像是否相似,近似 度确定模块248可(i)计算引入图像的小哈希值与现有图像的集群中屯、之间的距离;并且 (ii)比较计算距离与阔值距离。近似度确定模块248有效地对小哈希值施加半径,且通过 阔值距离确定半径。例如,阔值距离(和半径)的值是可配置的并且可由近似度确定模块 248或者社交网络系统130的管理员确定。近似度确定模块248确定集群中屯、何时落入半 径内和何时其落在半径之外。当计算距离小于阔值距离时,引入图像与现有图像的集群中 屯、相关联。相反,当计算距离大于阔值距离时,集群中屯、创建模块246创建与引入图像的小 哈希值相关联的新集群中屯、。
[009引管理动作模块270允许社交网络系统130的管理员基于相似图像的关联性管理图 像。例如,管理动作模块270允许去除(takedown)和阻止相似图像。
[0099] 下面将更为详细地描述大哈希模块240、较小哈希模块242、空间捜索模块244、集 群中屯、创建模块246、近似度确定模块248、W及管理动作模块270的特征和功能。
[0100] 哈希巧撒
[0101] 在特定情况下,社交网络系统130可能希望控制或者防止发布复制图像。例如,社 交网络系统130鼓励或者请求每个用户发布具有用户独特性的内容。又例如,社交网络系 统130可限制或者约束发布不适当的图像W及所有相似图像。通过比较该图像与社交网络 系统130中存储的每个现有图像可W实现对与特定图像相似的图像的识别。然而,因为现 有图像的数目可能比较大并且每个图像可包含多个像素,从而使得特定图像与每个现有图 像的比较在计算上密集并且由此不可实施。
[0102] 通过应用一种或者多种哈希函数可W针对相似性对图像进行分析。哈希函数是接 收输入值(可包括多个信息位)并且将输入值映射至哈希值(可包括壁输入值更少的位) 的函数。针对图像使用的一些哈希函数是"内容感知"型。当两个图像在内容上相似时,内 容感知哈希函数的特征在于激昂图像映射至相似的哈希值。当两个图像的两个哈希值之间 的距离相对较小时,可视为图像相似。例如,可将内容感知哈希函数应用于苹果的第一图像 W获得第一哈希值、应用于另一苹果的第二图像W获得第二哈希值、并且应用于狗的第= 图像W获得第=哈希值。在该实施例中,因为第一图像和第二图像中所描述的内容相似,所 W第一图像的第一哈希值与第二图像的第二哈希值在距离上更为可能接近。相反,因为第 一图像和第=图像中所描述的图像不同,所W第一图像的第一哈希值与第=图像的第=哈 希值在距离上则较不可能接近。同样,因为第二图像和第=图像中所描述的内容不同,所W 第二图像的第二哈希值与第=图像的第=哈希值在距离上则较不可能接近。
[0103] 可W利用内容感知哈希函数使图像哈希W获得该些图像的"大"哈希值。例如,内 容感知哈希函数可W使包含上百个或者上百万个像素的图像哈希成包括上百个值的大哈 希值。因此,大哈希值可W表示为一组值,且该组中的值的数目对应于内容感知哈希函数的 维数。尽管内容感知哈希函数可极大地减少用于表示图像的信息量,然而,大哈希值仍包含 相对较大的信息量。因此,在比较大量图像的大哈希值W识别相似图像时在计算上比较昂 贵,即,计算其间的距离。当大哈希值的维数较大或者当需要比较相当大量的图像时,就计 算资源方面而言,图像之间可能的相似性的确定尤其昂贵。例如,为了确定特定图像是否与 社交网络系统中的任何其他图像相似,可能需要计算上百万或者数W亿计的图像的大哈希 值并且然后进行比较,从而产生巨额的计算支出。
[0104] 可W使用局部敏感哈希法(Ish)解决计算成本。可W将局部敏感哈希法应用于具 有相对较大维数的大哈希值W获得具有更少维度的"较小"哈希值。例如,局部敏感哈希法 可将具有上百个维度的大哈希值哈希成具有较少(例如。两个或者=个)维度的小哈希值。 小哈希值可包括较少的值,而大哈希值可包括多个值。
[01化]对于图像X和图像y,局部敏感哈希法利用下列属性从大哈希值产生小哈希值:
[0106] 当 Ish 化X) = Ish 化y)时;
[0107] d 化x,hy)<R,高概率;
[0108] d〇ix,hy)〉cR,低概率
[0109] 其中
[0110] hx是图像X的大哈希值,
[0111] hy是图像y的大哈希值,
[011引 Ish化X)是hx的小哈希值,
[011引 Ish化y)是hy的小哈希值,
[0114] d(hx, hy)是hx与hy之间的欧几里得距离。
[0115] 分别从大哈希值hx和hy的局部敏感哈希法产生小哈希值Ish (hx)和Ish (hy)。根 据局部敏感哈希法的属性,例如,当小哈希值Ish (hx)和Ish (hy)相等时,大哈希值hx与hy 之间的欧几里得距离W高概率小于合适的值R。此外,例如,当小哈希值Ish (hx)和Ish (hy) 相等时,大哈希值hx与hy之间的欧几里得距离W低概率大于乘W因数c的合适值R。该些 属性反映了当小哈希值Ish (hx)与Ish化y)相等时图像X与图像y之间的相似性。
[0116] 局部敏感哈希法通过将大哈希值投影到比大哈希值具有更少维数的坐标系的一 个或者多个矢量中减少大哈希值的维数。每个矢量均表示坐标系的不同轴并且对应于坐标 系的一个维度。坐标系中的矢量可W或者不可正交于另一个。通过投影减少大哈希值的维 数能够更为有效地比较娇小哈希值W确定图像相似性。在局部敏感哈希法中,可将大哈希 值投影到一个或者多个矢量的片段中。将小哈希值落入其中的矢量片段映射至对应坐标系 中的贬存区。因此,与图像相关联的大哈希值的投影致使娇小哈希值落入特定贬存区内。
[0117] 图3A示出了四个大哈希值到1-D坐标系中的单一矢量312中的投影310。矢量 312被分割成多个片段,且图3A中示出了四个片段314、316、318、320。在1-0坐标系中,每 个片段可被视为贬存区。表示四个图像的四个大哈希值330、332、334、336被投影到矢量 312中并且落入在其特定的贬存区内。大哈希值330被投影到矢量312中并且落入贬存区 316内。大哈希值332、334、336被投影到矢量312中并且落入贬存区318内。尽管图3A 中未加标签,然而,W矢量312上四条虚线终止处的四个点表示对应于四个大哈希值330、 332、334、336的四个小哈希值。
[0118] 通常,与投影到同一贬存区内的大哈希值相关联的图像被视为相似,并且与投影 到不同贬存区内的大哈希值相关联的图像被视为不同(即,不相似)。在图3A中所示的实 施例中,大哈希值332、334、336投影到同一贬存区318内,并且其对应图像被视为相似。相 反,如下所述,大哈希值330、332分别投影到不同贬存区316、318内并且其对应图像被视为 不同。决定图像是否相似或者图像是否仅基于其大哈希值投影到的贬存区通常可导致产生 错误结果。
[0119] 在图3A中所示的实施例中,大哈希值334距大哈希值330、332、336相对较远。大 哈希值330、332、336之中的相对较小间距表明该些大哈希值的对应图像可能相似。大哈希 值334与大哈希值330,、332、336之间的相对较大间距表明大哈希值334的对应图像可能 不同于大哈希值330、332、336的对应图像。因此,大哈希值334的投影落入与大哈希值332、 336相同的贬存区318内不得决定性地表明其对应图像相似。又例如,大哈希值330相对接 近于大哈希值332。大哈希值330、332之间的相对较小间距表明其对应图像可能相似。因 此,大哈希值330与大哈希值332、336的投影分别落入不同贬存区(即,贬存区316和贬存 区318)内不得决定性地表明其对应图像不同。
[0120] 如图3A中的实施例所示,因为该些大哈希值投影到同一贬存区318内,所W与大 哈希值334相关联的图像可能被错误地确定与大哈希值332、336相关联的图像相似。而且, 因为该些大哈希值投影到不同贬存区316、318内,所W与大哈希值330相关联的图像可能 被错误地确定与大哈希值332相关联的图像不同。例如,该些错误结果产生于;(i)将具有 可能多个维度的大哈希值映射至图3A中的1-D坐标系中仅具有一个维度的小哈希值;并且 (ii)将小哈希值量化成矢量312的片段之一。
[0121] 总之,大哈希值可被投影到d-D坐标系的矢量中,其中,d可W是任一整数值。在 设及局部敏感哈希法的投影中,多个矢量而非一个矢量的使用可提供对相似图像和不同图 像的更为准确的识别。通常,当当在投影时使用多个矢量时,有关图像相似性和差异的确定 更为准确。
[0122] 图3B示出了大哈希值到2-D坐标系中的两个矢量312、352的投影350 W更好地 确定图像相似性和差异。矢量312被分割成多个片段,且图3B中示出了四个片段314、316、 318、320。矢量352也被分割成多个片段,且图3B中示出了S个片段360、362、364。四个 大哈希值330、332、334、336被投影到矢量312中并且也被投影到矢量352中,并且落入各 个矢量的特定片段内。大哈希值334被投影到矢量352中并且落入片段364内。大哈希值 330、332、336被投影到矢量352中并且落入片段362中。尽管图3B中为加标签,然而,W (i)矢量312上用于大哈希值的第一虚线终止处的第一点和(ii)矢量352上用于大哈希值 的第二虚线终止处的第二点表示对应于每个大哈希值的小哈希值。每个小哈希值均包括矢 量312、352上的两个值。贬存区是其中W矢量312上的片段限定一边并且W矢量352上的 片段限定另一边的矩形。
[0123] 在特定情况下,大哈希值334和大哈希值330、332、336的投影分别落入矢量352 的不同片段内(即,片段364和片段362)更为准确地表明大哈希值334的对应图像不同于 大哈希值330、332、336的对应图像。同样,在特定情况下,大哈希值330、332、336的投影落 入同一片段362内更为准确地表明大哈希值330、332、336的对应图像相似。
[0124] 通常假定投影到不同贬存区中的大哈希值指其对应图像不同并且投影到同一贬 存区内的大哈希值指其图像相似。然而,甚至对于设及一个W上矢量的投影(图3B中所 示),该下假定通常不正确。大哈希值的局部敏感哈希法减少了大哈希值的维数。该种减少 导致新兴丢失。当维数减少较大时,信息丢失较大并且设置在其对应图像实际上不同时提 高了小哈希值相似的概率。因此,因为其小哈希值相似或者落入同一贬存区内,所W不同图 像可能被正确地视为相似。该种类型的错误通常被称之为"假阳性"。此外,基于确定贬存 区边界的任意坐标定义,因为其小哈希值落入不同贬存区内,所W相似图像可能被正确地 视为不同。该种类型的错误通常被称之为"假阴性"。
[01巧]假阳忡的确定
[01%] 图4A至图4EW图形形式示出了根据本发明的实施方式的与贬存区相关联的多个 集群中屯、的创建。每个集群中屯、均可与被视为相似的一个
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1