一种广告订单的快速聚类方法及系统、服务器的制造方法

文档序号:6518978阅读:211来源:国知局
一种广告订单的快速聚类方法及系统、服务器的制造方法
【专利摘要】本发明涉及互联网【技术领域】,公开一种广告订单的快速聚类方法及系统、服务器,该方法包括:从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;判断所述任意两条广告订单的相似度是否超过预设的相似度阈值,如果是,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。实施本发明实施例,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
【专利说明】一种广告订单的快速聚类方法及系统、服务器

【技术领域】
[0001] 本发明涉及互联网【技术领域】,具体涉及一种广告订单的快速聚类方法及系统、月艮 务器。

【背景技术】
[0002] 在广告推荐中,通常会存在大量不同的广告订单包含完全相同或极其相似的广告 图像的情况,在一些较为极端的情况下,甚至会有多达数千条不同的广告订单包含完全相 同或极其相似的广告图像。而在实践中发现,包含完全相同或极其相似的广告图像的不同 广告订单所携带的冗余信息通常是不同的,这导致了这类广告订单的稀疏分散,从而影响 了这类广告订单投放的效果。


【发明内容】

[0003] 本发明实施例公开了一种广告订单的快速聚类方法及系统、服务器,用于实现包 含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单 投放效果。
[0004] 本发明实施例第一方面公开了一种广告订单的快速聚类方法,包括:
[0005] 从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;
[0006] 利用所述广告图像的场景全局语义特征,获取所述广告图像的图像指纹;
[0007] 根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广 告订单的相似度;
[0008] 判断所述任意两条广告订单的相似度是否超过预设的相似度阈值,如果是,将所 述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
[0009] 本发明实施例第二方面公开了一种广告订单的快速聚类系统,包括:
[0010] 特征提取单元,用于从广告订单包含的广告图像中提取出所述广告图像的场景全 局语义特征;
[0011] 指纹获取单元,用于利用所述广告图像的场景全局语义特征获取所述广告图像的 图像指纹;
[0012] 相似度计算单元,用于根据获取的任意两条广告订单包含的广告图像的图像指 纹,计算所述任意两条广告订单的相似度;
[0013] 第一判断单元,用于判断所述任意两条广告订单的相似度是否超过预设的相似度 阈值;
[0014] 存储单元,用于在所述第一判断单元的判断结果为是时,将所述任意两条广告订 单存储至数据库中的同一聚类标识对应的广告订单集合中。
[0015] 本发明实施例第三方面公开了一种用于广告订单快速聚类的服务器,所述服务器 用于:
[0016] 从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;
[0017] 根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
[0018] 根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广 告订单的相似度;
[0019] 判断所述任意两条广告订单的相似度是否超过预设的相似度阈值;
[0020] 在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存储至数据库 中的同一聚类标识对应的广告订单集合中。
[0021] 本发明实施例中,从广告订单包含的广告图像中提取出该广告图像的场景全局语 义特征后,可以利用该广告图像的场景全局语义特征获取该广告图像的图像指纹,在此基 础上,可以根据获取的任意两条广告订单包含的广告图像的图像指纹计算这任意两条广告 订单的相似度,并且在判断这任意两条广告订单的相似度超过预设的相似度阈值时,将这 任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。本发明实施例 中,任意两条广告订单的相似度超过预设的相似度阈值时,说明这任意两条广告订单包含 了完全相同或极其相似的广告图像,通过实施本发明实施例,可以实现包含完全相同或极 其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。

【专利附图】

【附图说明】
[0022] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的 附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领 域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附 图。
[0023] 图1是本发明实施例公开的一种广告订单的快速聚类方法的流程图;
[0024] 图2是本发明实施例公开的一种普通Hash算法与LSH算法进行GIST特征聚类时 的效果对比图;
[0025] 图3是本发明实施例公开的一种根据SimHash算法和广告图像的GIST特征获取 该广告图像的图像指纹的过程示意图;
[0026] 图4是本发明实施例公开的另一种广告订单的快速聚类方法的流程图;
[0027] 图5是本发明实施例公开的一种完全相同或极其相似的广告图像的广告订单的 示意图;
[0028] 图6是本发明实施例公开的一种采用计算层、收集层分开作业的方式来执行广告 订单的快速聚类的方法流程图;
[0029] 图7是本发明实施例公开的一种广告订单的快速聚类系统的结构图。

【具体实施方式】
[0030] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本 发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实 施例,都属于本发明保护的范围。
[0031] 本发明实施例公开了一种广告订单的快速聚类方法及系统,用于实现包含完全相 同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效 果。以下分别进行详细说明。
[0032] 请参阅图1,图1是本发明实施例公开的一种广告订单的快速聚类方法的流程图。 其中,图1所描述的广告订单的快速聚类方法适用于各种需要进行广告投放的服务器。如 图1所示,该广告订单的快速聚类方法可以包括以下步骤。
[0033] S101、从广告订单包含的广告图像中提取出该广告图像的场景全局语义(GIST)特 征。
[0034] 本发明实施例中,可以由服务器从广告订单包含的广告图像中提取出该广告图像 的场景全局语义(GIST)特征。
[0035] 本发明实施例中,GIST特征作为一种图像全局特征的描述算子,可以描述自然度、 开放度、粗糙度、膨胀度及险峻度这五种空间包络,适用于场景识别与广告图像的相似度检 索。
[0036] 本发明实施例中,步骤S101中的广告订单可以是已投放的广告订单,也可以是待 投放的广告订单,本发明实施例不作限定。
[0037] S102、根据该广告图像的GIST特征获取该广告图像的图像指纹。
[0038] 本发明实施例中,可以由服务器根据该广告图像的GIST特征并结合局部敏感哈 希(Local Sensitive Hashing, LSH)算法获取该广告图像的图像指纹。
[0039] 本发明实施例中,与普通Hash算法相比较,使用LSH算法可以实现更好的GIST特 征聚类。如图2所示,圆点表示广告图像中相同或相似GIST特征,使用LSH算法可以实现 比普通Hash算法更好的GIST特征聚类,从而可以为后续利用该广告图像的GIST特征并结 合LSH算法获取该广告图像的图像指纹做准备。
[0040] 本发明实施例中,服务器具体可以根据LSH算法中的SimHash算法和该广告图像 的GIST特征,获取该广告图像的图像指纹。其中,SimHash算法作为LSH算法中的一种高 效的降维技术,它可以将高维向量映射为位数较小的指纹,并能保留原始特征的汉明相似 度关系,其中,根据LSH算法中的SimHash算法和该广告图像的GIST特征,获取该广告图像 的图像指纹的过程具体可以描述如下:
[0041] (1)、将f维的GIST特征向量V初始化为0, f位的二进制S初始化为0。
[0042] (2)、对每一维GIST特征:用传统的hash算法对该特征产生一个f位的签名b。对 i从1到f :如果b的第i位为1,则V的第i个元素加上该维GIST特征的权重;否则,V的 第i个元素减去该维GIST特征的权重。
[0043] (3)如果V的第i个元素大于0,则S的第i位为1,否则为0。
[0044] (4)输出S作为该广告图像的图像指纹。
[0045] 如图3所示,对每一维的GIST特征,可以采用传统的hash算法对该特征产生一个 6位的签名b (如100110),并且利用hash算法产生的各个签名b和权重进行运算,最终可 以输出一个6位的图像指纹110001。
[0046] S103、根据获取的任意两条广告订单包含的广告图像的图像指纹,计算这任意两 条广告订单的相似度。
[0047] 本发明实施例中,可以由服务器根据获取的任意两条广告订单包含的广告图像的 图像指纹,计算这任意两条广告订单的相似度。
[0048] 本发明实施例中,服务器可以根据计算出的任意两条广告订单包含的广告图像的 图像指纹,计算这任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特 位个数,作为这任意两条广告订单的汉明相似度。
[0049] 举例来说,若获取的任意两条广告订单包含的广告图像的图像指纹之间有η (η大 于等于1)个相同比特位的比特值不同,则这任意两条广告订单的汉明相似度为η。
[0050] S104、判断这任意两条广告订单的相似度是否超过预设的相似度阈值,如果是,将 这任意两条广告订单存储至数据库中的同一聚类标识(ID)对应的广告订单集合中。
[0051] 本发明实施例中,可以由服务器判断这任意两条广告订单的汉明相似度是否超过 预设的相似度阈值,如果是,可以由服务器将这任意两条广告订单存储至数据库中的同一 聚类ID对应的广告订单集合中。
[0052] 本发明实施例中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说 明这任意两条广告订单包含了完全相同或极其相似的广告图像,将这任意两条广告订单存 储至数据库中的同一聚类ID对应的广告订单集合中,可以实现包含完全相同或极其相似 的广告图像的这任意两条广告订单的快速聚类,进一步地,后续可以充分利用已投放的这 类广告订单的投放路径来指导快速聚类的这类广告订单的精准投放,从而有利于提升这类 广告订单投放效果。
[0053] 在图1所描述的方法中,从广告订单包含的广告图像中提取出该广告图像的GIST 特征后,可以根据LSH算法和该广告图像的GIST特征获取该广告图像的图像指纹,在此基 础上,可以根据获取的任意两条广告订单包含的广告图像的图像指纹计算这任意两条广告 订单的汉明相似度,并且在判断这任意两条广告订单的汉明相似度超过预设的相似度阈值 时,将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中。在图1 所描述的方法中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意 两条广告订单包含了完全相同或极其相似的广告图像,通过实施图1所描述的方法,可以 实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广 告订单投放效果。
[0054] 请参阅图4,图4是本发明实施例公开的一种广告订单的快速聚类方法的流程图。 其中,图4所描述的广告订单的快速聚类方法适用于各种需要进行广告投放的服务器。如 图4所示,该广告订单的快速聚类方法可以包括以下步骤。
[0055] S401、服务器收集广告订单,该广告订单包括广告订单ID和广告图像,广告图像 携带有统一资源定位符(Uniform Resource Locator,URL)。
[0056] 本发明实施例中,步骤S201中服务器收集的广告订单可以是已投放的广告订单, 也可以是待投放的广告订单,本发明实施例不作限定。
[0057] S402、服务器从广告订单包含的广告图像中提取出该广告图像的GIST特征。
[0058] 本发明实施例中,GIST特征作为一种图像全局特征的描述算子,可以描述自然度、 开放度、粗糙度、膨胀度及险峻度这五种空间包络,适用于场景识别与广告图像的相似度检 索。
[0059] S403、服务器根据LSH算法和该广告图像的GIST特征,获取该广告图像的图像指 纹。
[0060] 本发明实施例中,服务器具体可以根据LSH算法中的SimHash算法和该广告图像 的GIST特征,获取该广告图像的图像指纹。其中,SimHash算法作为LSH算法中的一种高 效的降维技术,它可以将高维向量映射为位数较小的指纹,并能保留原始特征的汉明相似 度关系,其中,根据LSH算法中的SimHash算法和该广告图像的GIST特征,获取该广告图像 的图像指纹的过程具体可以描述如下:
[0061] (1)、将f维的向量V初始化为0,f位的二进制S初始化为0。
[0062] (2)、对每一维GIST特征:用传统的hash算法对该特征产生一个f位的签名b。对 i从1到f :如果b的第i位为1,则V的第i个元素加上该维GIST特征的权重;否则,V的 第i个元素减去该维GIST特征的权重。
[0063] (3)如果V的第i个元素大于0,则S的第i位为1,否则为0。
[0064] (4)输出S作为该广告图像的图像指纹。
[0065] 本发明实施例中,使用SimHash算法的主要优点有:
[0066] A、一次性扫描数据完成聚类,快速。
[0067] B、不需要指定聚类中心个数,适合分布式环境。
[0068] C、生成的图像指纹在一定程度上表征两广告订单之间的相似度,为使用MinHash 算法再对图像指纹进行进一步的聚类压缩,提供了可能。
[0069] S404、服务器根据获取的任意两条广告订单包含的广告图像的图像指纹,计算这 任意两条广告订单的汉明相似度。
[0070] 本发明实施例中,服务器可以根据计算出的任意两条广告订单包含的广告图像的 图像指纹,计算这任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特 位个数,作为这任意两条广告订单的汉明相似度。
[0071] 举例来说,若获取的任意两条广告订单包含的广告图像的图像指纹之间有η (η大 于等于1)个相同比特位的比特值不同,则这任意两条广告订单的汉明相似度为η。
[0072] S405、服务器判断这任意两条广告订单的汉明相似度是否超过预设的相似度阈 值,如果是,执彳了步骤S406 ;如果否,结束本流程。
[0073] 本发明实施例中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说 明这任意两条广告订单包含了完全相同或极其相似的广告图像。
[0074] 举例来说,如图5所示,图5中的a、b两条广告订单均包含了完全相同或极其相似 的广告图像,则服务器判断这任意两条广告订单的汉明相似度超过预设的相似度阈值。
[0075] 本发明实施例中,预设的相似度阈值的大小可以根据实际需要进行设置,本发明 实施例不作限定。
[0076] S406、服务器将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告 订单集合中。
[0077] 本发明实施例中,将这任意两条广告订单存储至数据库中的同一聚类ID对应的 广告订单集合中,可以实现包含完全相同或极其相似的广告图像的这任意两条广告订单的 快速聚类,进一步地,后续可以充分利用已投放的这类广告订单的投放路径来指导快速聚 类的这类广告订单的精准投放,从而有利于提升这类广告订单投放效果。
[0078] S407、服务器收集待投放广告订单,待投放广告订单包括广告订单ID和广告图 像,广告图像携带有URL。
[0079] S408、服务器判断待投放广告订单包括的广告图像携带的URL是否与数据库中任 意一条广告订单包含的广告图像携带的URL相同,若是,则执行步骤S409 ;若否,结束本流 程。
[0080] S409、服务器将待投放广告订单存储至该任意一条广告订单所属的广告订单集合 中。
[0081] 在图4所描述的方法中,任意两条广告订单的汉明相似度超过预设的相似度阈值 时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施图4所描 述的方法,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以 利于提升这类广告订单投放效果。
[0082] 本发明实施例中,上述图1、图2所描述的方法在具体实现中,可以采用计算层、收 集层分开作业的方式来进行,其中,计算层主要在流程内完成收集广告订单、广告图像的相 似度计算和聚类,收集层主要在流程内收集广告订单,更新数据库中的广告订单所属的广 告订单集合,从而可以有效地保证了整个系统的实时性,降低了系统的出错率。
[0083] 请参阅图6,图6是本发明实施例公开的一种采用计算层、收集层分开作业的方式 来执行广告订单的快速聚类的方法流程图。如图6所示,计算层主要在流程内完成收集广 告订单、提取广告图像的GIST特征、广告图像的相似度计算和广告订单聚类,进一步地,如 图6所示,在计算层中,可以从广告订单更新数据库中收集广告订单,还可以将广告图像的 GIST特征存储到GIST特征数据库。而收集层主要在流程内收集广告订单,更新数据库中的 广告订单所属的广告订单集合,进一步地,收集层还可以将收集的广告订单按照广告订单 集合中已投放广告订单的投放路径,将收集的广告订单上传至分布式文件系统(HDFS)进行 发布,从而可以提高收集的广告订单投放效果。
[0084] 请参阅图7,图7是本发明实施例公开的一种广告订单的快速聚类系统的结构图。 如图7所示,该广告订单的快速聚类系统700可以包括:
[0085] 特征提取单元701,用于从广告订单包含的广告图像中提取出该广告图像的GIST 特征;
[0086] 指纹获取单元702,用于利用该广告图像的GIST特征获取该广告图像的图像指 纹;
[0087] 相似度计算单元703,用于根据获取的任意两条广告订单包含的广告图像的图像 指纹,计算这任意两条广告订单的相似度;
[0088] 第一判断单元704,用于判断这任意两条广告订单的相似度是否超过预设的相似 度阈值;
[0089] 存储单元705,用于在第一判断单元的判断结果为是时,将相似度计算单元703计 算汉明相似度的这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合 中。
[0090] 本发明实施例中,指纹获取单元702具体用于利用广告图像的场景全局语义特征 并结合LSH算法获取广告图像的图像指纹。
[0091] 在一个实施例中,图7所示的广告订单的快速聚类系统700还可以包括:
[0092] 收集单元706,用于在特征提取单元701从广告订单包含的广告图像中提取出该 广告图像的GIST特征之前,收集广告订单,广告订单包括广告订单ID和广告图像,广告图 像携带有URL。
[0093] 相应地,特征提取单元701可以从收集单元706收集的广告订单包含的广告图像 中提取出该广告图像的GIST特征。
[0094] 在一个实施例中,相似度计算单元703具体用于根据计算出的任意两条广告订单 包含的广告图像的图像指纹,计算这任意两条广告订单包含的广告图像的图像指纹之间的 比特值不同的比特位个数,作为这任意两条广告订单的汉明相似度。
[0095] 在一个实施例中,收集单元706还用于在存储单元705将这任意两条广告订单存 储至数据库中的同一聚类ID对应的广告订单集合中之后,收集待投放广告订单,待投放广 告订单包括广告订单ID和广告图像,广告图像携带有URL ;
[0096] 相应地,图7所示的广告订单的快速聚类系统700还可以包括:
[0097] 第二判断单元707,用于判断待投放广告订单包括的广告图像携带的URL是否与 数据库中任意一条广告订单包含的广告图像携带的URL相同;
[0098] 相应地,存储单元705还用于在第二判断单元707的判断结果为相同时,将待投放 广告订单存储至该任意一条广告订单所属的广告订单集合中。
[0099] 本发明实施例中,LSH算法包括Simhash算法。其中,使用SimHash算法的主要优 点有:
[0100] A、一次性扫描数据完成聚类,快速。
[0101] B、不需要指定聚类中心个数,适合分布式环境。
[0102] C、生成的图像指纹在一定程度上表征两广告订单之间的相似度,为使用MinHash 算法再对图像指纹进行进一步的聚类压缩,提供了可能。
[0103] 在图7所描述的系统中,任意两条广告订单的汉明相似度超过预设的相似度阈值 时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施图7所描 述的系统,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以 利于提升这类广告订单投放效果。
[0104] 本发明实施例还公开了一种用于广告订单快速聚类的服务器,所述服务器用于:
[0105] 从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;
[0106] 根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
[0107] 根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广 告订单的相似度;
[0108] 判断所述任意两条广告订单的相似度是否超过预设的相似度阈值;
[0109] 在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存储至数据库 中的同一聚类标识对应的广告订单集合中。
[0110] 在一个实施方式中,所述服务器从广告订单包含的广告图像中提取出所述广告图 像的场景全局语义特征之前,还执行以下操作:
[0111] 收集广告订单,所述广告订单包括广告订单标识和广告图像,所述广告图像携带 有统一资源定位符URL。
[0112] 在一个实施方式中,所述服务器利用所述广告图像的场景全局语义特征获取所述 广告图像的图像指纹的方式具体为:
[0113] 根据所述广告图像的场景全局语义特征并结合局部敏感哈希LSH算法获取所述 广告图像的图像指纹。
[0114] 在一个实施方式中,所述服务器根据计算出的任意两条广告订单包含的广告图像 的图像指纹,计算所述任意两条广告订单的相似度的方式具体为:
[0115] 根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条 广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为所述任意两条 广告订单的汉明相似度。
[0116] 在一个实施方式中,所述服务器将所述任意两条广告订单存储至数据库中的同一 聚类标识对应的广告订单集合中之后,还执行以下操作包括:
[0117] 收集待投放广告订单,所述待投放广告订单包括广告订单标识和广告图像,所述 广告图像携带有统一资源定位符URL。
[0118] 判断所述待投放广告订单包括的所述广告图像携带的所述URL是否与所述数据 库中任意一条广告订单包含的广告图像携带的URL相同;
[0119] 若相同,将所述待投放广告订单存储至所述任意一条广告订单所属的广告订单集 合中。
[0120] 在上述服务器中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说 明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施上述描述的服务 器,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提 升这类广告订单投放效果。
[0121] 本领域普通技术人员可以理解图1所描述的方法中的全部或部分步骤是可以通 过程序来指令服务器相关的硬件来完成,该程序可以存储于交易平台服务器一计算机可读 存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取 器(Random Access Memory, RAM)、磁盘或光盘等。
[0122] 以上对本发明实施例公开的广告订单的快速聚类方法及系统、服务器进行了详细 介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明 只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本 发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应 理解为对本发明的限制。
【权利要求】
1. 一种广告订单的快速聚类方法,其特征在于,包括: 从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征; 根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹; 根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订 单的相似度; 判断所述任意两条广告订单的相似度是否超过预设的相似度阈值,如果是,将所述任 意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
2. 根据权利要求1所述的方法,其特征在于,所述从广告订单包含的广告图像中提取 出所述广告图像的场景全局语义特征之前,所述方法还包括: 收集广告订单,所述广告订单包括广告订单标识和广告图像,所述广告图像携带有统 一资源定位符URL。
3. 根据权利要求2所述的方法,其特征在于,所述利用所述广告图像的场景全局语义 特征获取所述广告图像的图像指纹包括: 根据所述广告图像的场景全局语义特征并结合局部敏感哈希LSH算法获取所述广告 图像的图像指纹。
4. 根据权利要求3所述的方法,其特征在于,所述根据计算出的任意两条广告订单包 含的广告图像的图像指纹,计算所述任意两条广告订单的相似度包括: 根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告 订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为所述任意两条广告 订单的汉明相似度。
5. 根据权利要求1?4任一项所述的方法,其特征在于,所述将所述任意两条广告订单 存储至数据库中的同一聚类标识对应的广告订单集合中之后,所述方法还包括: 收集待投放广告订单,所述待投放广告订单包括广告订单标识和广告图像,所述广告 图像携带有统一资源定位符URL ; 判断所述待投放广告订单包括的所述广告图像携带的所述URL是否与所述数据库中 任意一条广告订单包含的广告图像携带的URL相同; 若相同,将所述待投放广告订单存储至所述任意一条广告订单所属的广告订单集合 中。
6. 根据权利要求3所述的方法,其特征在于,所述局部敏感哈希LSH算法包括SimHash 算法。
7. -种广告订单的快速聚类系统,其特征在于,包括: 特征提取单元,用于从广告订单包含的广告图像中提取出所述广告图像的场景全局语 义特征; 指纹获取单元,用于根据所述广告图像的场景全局语义特征获取所述广告图像的图像 指纹; 相似度计算单元,用于根据获取的任意两条广告订单包含的广告图像的图像指纹,计 算所述任意两条广告订单的相似度; 第一判断单元,用于判断所述任意两条广告订单的相似度是否超过预设的相似度阈 值; 存储单元,用于在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存 储至数据库中的同一聚类标识对应的广告订单集合中。
8. 根据权利要求7所述的系统,其特征在于,所述系统还包括: 收集单元,用于在所述特征提取单元从广告订单包含的广告图像中提取出所述广告图 像的场景全局语义特征之前,收集广告订单,所述广告订单包括广告订单标识和广告图像, 所述广告图像携带有统一资源定位符URL。
9. 根据权利要求8所述的系统,其特征在于, 所述指纹获取单元,用于根据所述广告图像的场景全局语义特征并结合局部敏感哈希 LSH算法获取所述广告图像的图像指纹。
10. 根据权利要求9所述的系统,其特征在于, 所述相似度计算单元,用于根据计算出的任意两条广告订单包含的广告图像的图像指 纹,计算所述任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个 数,作为所述任意两条广告订单的汉明相似度。
11. 根据权利要求7?10任一项所述的系统,其特征在于, 所述收集单元,还用于在所述存储单元将所述任意两条广告订单存储至数据库中的同 一聚类标识对应的广告订单集合中之后,收集待投放广告订单,所述待投放广告订单包括 广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL ; 所述系统还包括: 第二判断单元,用于判断所述待投放广告订单包括的所述广告图像携带的所述URL是 否与所述数据库中任意一条广告订单包含的广告图像携带的URL相同; 所述存储单元,还用于在所述第二判断单元的判断结果为相同时,将所述待投放广告 订单存储至所述任意一条广告订单所属的广告订单集合中。
12. 根据权利要求9所述的系统,其特征在于,所述局部敏感哈希LSH算法包括 SimHash 算法。
13. -种用于广告订单快速聚类的服务器,其特征在于: 所述服务器用于: 从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征; 根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹; 根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订 单的相似度; 判断所述任意两条广告订单的相似度是否超过预设的相似度阈值; 在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存储至数据库中的 同一聚类标识对应的广告订单集合中。
14. 根据权利要求13所述的服务器,其特征在于,所述服务器从广告订单包含的广告 图像中提取出所述广告图像的场景全局语义特征之前,还执行以下操作: 收集广告订单,所述广告订单包括广告订单标识和广告图像,所述广告图像携带有统 一资源定位符URL。
15. 根据权利要求14所述的服务器,其特征在于,所述服务器利用所述广告图像的场 景全局语义特征获取所述广告图像的图像指纹的方式为: 根据所述广告图像的场景全局语义特征并结合局部敏感哈希LSH算法获取所述广告 图像的图像指纹。
16. 根据权利要求15所述的服务器,其特征在于,所述服务器根据计算出的任意两条 广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度的方式为: 根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告 订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为所述任意两条广告 订单的汉明相似度。
17. 根据权利要求13?16任一项所述的服务器,其特征在于,所述服务器将所述任意 两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中之后,还执行以下操 作包括: 收集待投放广告订单,所述待投放广告订单包括广告订单标识和广告图像,所述广告 图像携带有统一资源定位符URL ; 判断所述待投放广告订单包括的所述广告图像携带的所述URL是否与所述数据库中 任意一条广告订单包含的广告图像携带的URL相同; 若相同,将所述待投放广告订单存储至所述任意一条广告订单所属的广告订单集合 中。
【文档编号】G06F17/30GK104090882SQ201310567574
【公开日】2014年10月8日 申请日期:2013年11月14日 优先权日:2013年11月14日
【发明者】黄丕培 申请人:深圳市腾讯计算机系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1