一种视频中同款商品检索方法及装置的制造方法

文档序号:10655411阅读:272来源:国知局
一种视频中同款商品检索方法及装置的制造方法
【专利摘要】本发明实施例公开了一种视频中同款商品检索方法及装置,包括:获得检索图像,所述检索图像中包含检索商品;提取所述检索商品的第一图像全局特征和第一图像局部特征;针对所述目标视频的每一视频帧包含的每一商品,获得商品的第二图像全局特征和第二图像局部特征;并计算所述第一图像全局特征和所述第二图像全局特征的第一匹配距离,以及所述第一图像局部特征和所述第二图像局部特征的第二匹配距离;将所述第一匹配距离和所述第二匹配距离进行融合,得到融合距离;将最小的第一预设数量个融合距离对应的视频帧,确定为包含所述检索商品的同款商品的视频帧。应用本发明实施例,能够提高视频中同款商品检索的准确性。
【专利说明】
-种视频中同款商品检索方法及装置
技术领域
[0001] 本发明设及数据检索技术领域,特别设及一种视频中同款商品检索方法及装置。
【背景技术】
[0002] 如今,在线视频在消费娱乐领域已渐显霸主之势,用户沉浸其中体验电视剧、综 艺、电影等带来的各种情景体验,对他们而言,视频场景具有带入感,可W激发他们的购物 欲望,对广告主来说,运是营销的绝佳机会。
[0003] 视频与电商无缝结合,实现视频内所见即所卖,将逐渐成为一种新的营销模式。而 在视频中实现同款商品的检索,W帮助商品广告精准的投放,是运一新型营销模式的关键 所在。
[0004] 目前,同款商品检索方法主要有:基于图像全局特征的检索方法和基于图像局部 特征的检索方法。其中,基于图像全局特征的检索方法如基于CNN(Convolutional化ural 化twork,卷积神经网络)的方法,利用蝴N网络提取的图像全局特征来进行图像的匹配检 索,其中,利用C順网络提取的图像全局特征,通常简称为C順特征;基于图像局部特征的检 索方法如SIFT(Scale-invariant feaUire transform,尺度不变特征变换)方法,通过侦测 与描述图像中的局部性特征,即SIFT特征来进行图像的检索匹配,该方法对于图像的模糊、 旋转、平移和尺度变换具有很强的鲁棒性。
[0005] 但是,在针对视频中同款商品进行检索时,如果仅考虑图像全局特征而忽略图像 局部特征,或仅考虑图像局部特征而忽略图像全局特征,即单一应用上述的基于图像全局 特征的检索方法或基于图像局部特征的检索方法,都会影响检索结果,导致检索准确性低。

【发明内容】

[0006] 本发明实施例的目的在于提供一种视频中同款商品检索方法及装置,W提高检索 的准确性。
[0007] 为达到上述目的,本发明实施例公开了一种视频中同款商品检索方法,所述方法 包括:
[0008] 获得检索图像,所述检索图像中包含检索商品;
[0009] 提取所述检索商品的第一图像全局特征和第一图像局部特征;
[0010] 针对所述目标视频的每一视频帖包含的每一商品,获得商品的第二图像全局特征 和第二图像局部特征;并计算所述第一图像全局特征和所述第二图像全局特征的第一匹配 距离,W及所述第一图像局部特征和所述第二图像局部特征的第二匹配距离;
[0011] 将所述第一匹配距离和所述第二匹配距离进行融合,得到融合距离;
[0012] 将最小的第一预设数量个融合距离对应的视频帖,确定为包含所述检索商品的同 款商品的视频帖。
[0013] 优选地,所述目标视频的视频帖为所述目标视频的视频关键帖。
[0014] 优选地,所述第一图像全局特征和所述第二图像全局特征为卷积神经网络特征; 所述第一图像局部特征和所述第二图像局部特征为RootSIFT特征。
[0015] 优选地,所述针对所述目标视频的每一视频帖包含的每一商品,获得商品的第二 图像全局特征和第二图像局部特征,包括:
[0016] 针对所述目标视频的每一视频帖包含的每一商品,从视频帖中提取商品的第二图 像全局特征和第二图像局部特征;
[0017] 或,
[0018] 针对所述目标视频的每一视频帖包含的每一商品,从数据库中获得商品的第二图 像全局特征和第二图像局部特征,其中,所述数据库中存储有预先从视频帖中提取的商品 的第二图像全局特征和第二图像局部特征。
[0019] 优选地,在所述获得商品的第二图像全局特征和第二图像局部特征之前,所述方 法还包括:
[0020] 确定所述检索商品所属的种类;
[0021] 获得所述目标视频的每一视频帖包含的每一商品所属的种类;
[0022] 将所述目标视频的每一视频帖包含的商品中、商品所属的种类与所述检索商品所 属的种类相同的商品,确定为待匹配商品;
[0023] 所述针对所述目标视频的每一视频帖包含的每一商品,获得商品的第二图像全局 特征和第二图像局部特征,包括:
[0024] 针对所述目标视频包含的待匹配商品,获得所述待匹配商品的第二图像全局特征 和第二图像局部特征。
[0025] 优选地,所述第一匹配距离和所述第二匹配距离进行融合的融合公式为:
[0026] dfUSion = WCNNClcNN+WSIFldsiFT ,
[0027] 其中,dfusinn是融合距离,d?是所述第一匹配距离,dsiFT是所述第二匹配距离, WCNN、WSIFT分别是所述第一匹配距离和所述第二匹配距离的融合权重。
[0028] 优选地,所述方法还包括:
[0029] 分别计算所述检索图像与所确定的视频帖中每一视频帖的颜色直方图的第=匹 配距离;
[0030] 将最小的第二预设数量个第=匹配距离对应的视频帖,确定为最终包含所述检索 商品的同款商品的视频帖。
[0031] 为达到上述目的,本发明实施例公开了一种视频中同款商品检索装置,所述装置 包括:
[0032] 第一获得模块,用于获得检索图像,所述检索图像中包含检索商品;
[0033] 提取模块,用于提取所述检索商品的第一图像全局特征和第一图像局部特征;
[0034] 第二获得模块,针对所述目标视频的每一视频帖包含的每一商品,用于获得商品 的第二图像全局特征和第二图像局部特征;
[0035] 第一计算模块,针对所述目标视频的每一视频帖包含的每一商品,用于计算所述 第一图像全局特征和所述第二图像全局特征的第一匹配距离,W及所述第一图像局部特征 和所述第二图像局部特征的第二匹配距离;
[0036] 融合模块,用于将所述第一匹配距离和所述第二匹配距离进行融合,得到融合距 离;
[0037] 第一确定模块,用于将最小的第一预设数量个融合距离对应的视频帖,确定为包 含所述检索商品的同款商品的视频帖。
[0038] 优选地,所述目标视频的视频帖为所述目标视频的视频关键帖。
[0039] 优选地,所述第一图像全局特征和所述第二图像全局特征为卷积神经网络特征; 所述第一图像局部特征和所述第二图像局部特征为RootSIFT特征。
[0040] 优选地,所述第二获得模块,具体用于:
[0041] 针对所述目标视频的每一视频帖包含的每一商品,从视频帖中提取商品的第二图 像全局特征和第二图像局部特征;
[0042] 或,
[0043] 针对所述目标视频的每一视频帖包含的每一商品,从数据库中获得商品的第二图 像全局特征和第二图像局部特征,其中,所述数据库中存储有预先从视频帖中提取的商品 的第二图像全局特征和第二图像局部特征。
[0044] 优选地,所述装置还包括:
[0045] 第二确定模块,用于确定所述检索商品所属的种类;
[0046] 第=获得模块,用于获得所述目标视频的每一视频帖包含的每一商品所属的种 类;
[0047] 第=确定模块,用于将所述目标视频的每一视频帖包含的商品中、商品所属的种 类与所述检索商品所属的种类相同的商品,确定为待匹配商品;
[004引所述第二获得模块,具体用于:
[0049] 针对所述目标视频包含的待匹配商品,获得所述待匹配商品的第二图像全局特征 和第二图像局部特征。
[0050] 所述第一计算模块,具体用于:
[0051 ]针对所述目标视频包含的待匹配商品,计算所述第一图像全局特征和所述第二图 像全局特征的第一匹配距离,W及所述第一图像局部特征和所述第二图像局部特征的第二 匹配距离。
[0052]优选地,所述第一匹配距离和所述第二匹配距离进行融合的融合公式为:
[0053 ] df US ion = WCNNClcNN+WSIFldsiFT ,
[0化4] 其中,dfusinn是融合距离,dcNN是所述第一匹配距离,dsiFT是所述第二匹配距离, WCNN、WSIFT分别是所述第一匹配距离和所述第二匹配距离的融合权重。
[0055] 优选地,所述装置还包括:
[0056] 第二计算模块,用于分别计算所述检索图像与所确定的视频帖中每一视频帖的颜 色直方图的第=匹配距离;
[0057] 第四确定模块,用于将最小的第二预设数量个第=匹配距离对应的视频帖,确定 为最终包含所述检索商品的同款商品的视频帖。
[0058] 应用本发明实施例所提供的技术方案,先将检索图像中包含的检索商品和视频帖 中包含的每一商品的图像全局特征及图像局部特征进行匹配,获得图像全局特征匹配距离 和图像局部特征匹配距离;然后对二者进行融合,得到融合距离;再根据融合距离的大小, 将多个最小的融合距离对应的视频帖,确定为包含检索商品的同款商品的视频帖。在进行 视频同款商品检索时,即考虑了图像全局特征,又考虑了图像局部特征,进而提高了检索的 准确性。此外,再采用颜色直方图对检索图像和所确定的视频帖进行匹配,将匹配结果中多 个最小的匹配距离对应的视频帖,确定为最终包含所述检索商品的同款商品的视频帖,进 一步提高了检索的准确性。
[0059] 当然,实施本发明的任一产品或方法必不一定需要同时达到W上所述的所有优 点。
【附图说明】
[0060] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W 根据运些附图获得其他的附图。
[0061] 图1为本发明实施例提供的视频中同款商品检索方法的一种流程示意图;
[0062] 图2为本发明实施例提供的视频中同款商品检索方法的另一种流程示意图;
[0063] 图3为本发明实施例提供的视频中同款商品检索方法的再一种流程示意图;
[0064] 图4为本发明实施例提供的视频中同款商品检索装置的一种结构示意图;
[0065] 图5为本发明实施例提供的视频中同款商品检索装置的另一种结构示意图;
[0066] 图6为本发明实施例提供的视频中同款商品检索装置的再一种结构示意图。
【具体实施方式】
[0067] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0068] 本发明实施例公开了一种视频中同款商品检索方法及装置,W下分别进行详细说 明。
[0069] 参见图1,图1为本发明实施例提供的视频中同款商品检索方法的一种流程示意 图,可W包括如下步骤:
[0070] SlOl,获得检索图像,所述检索图像中包含检索商品。
[0071] S102,提取所述检索商品的第一图像全局特征和第一图像局部特征。
[0072] 实际应用中,所述第一图像全局特征可W为C顺特征、颜色特征或纹理特征等特 征,所述第一图像局部特征可W为RootSIFT特征、SURF特征或化isy特征等特征。其中,SURF 特征(Speed-up robust feagres)为加速健壮特征。
[0073] W下将WCNN特征、RootSIFT特征为例来进行详细说明。
[0074] 通常情况下,一张检索图像只取一个商品进行检索。将所述检索图像,经过 化Ster-RCW^网络,输出一个置信度最高的化ox(Bounding box,物品矩形框)及其种类标 签,即所述检索商品的抓OX和种类标签。置信度表示化OX的种类标签的概率,置信度越高表 示种类准确性越高。
[0075] 将所述置信度最高的化OX作为输入,经预先训练好的C順网络前向计算到"pools/ 7X7_sr层,W该层数据作为所述置信度最高的化OX的CNN特征,即所述检索商品的C順特 征。关于所述p〇〇15/7X7_sl,其中,pools表示第5个池化层,采用平均池化方法对上层输入 进行池化操作,核窗口大小为7 X 7,步长为1。该层既包含浅层特征又包含高层语义信息,实 验表明使用该层数据检索准确性最高,因此本发明实施例方法中选择此层数据作为所述检 索商品的CNN特征,即所述第一图像全局特征。
[0076] 其中,所述预先训练好的C順网络是通过针对商品每一个种类,构造一个基于C順 网络的S类分类器,W化OX和对应的小类类别标签作为训练数据来训练网络的。S为对应商 品种类中包含的小类类别数。所述预先训练好的O^N网络的网络结构选用Google化t。
[0077] 所述RootSIFT是基于SIFT的一种改进算法,采用化Ilinger核函数代替SIFT算法 中欧氏距离来度量两个向量间的相似性,包括:对每一个SIFT特征向量经Ll归一化;再对所 述每一个SIFT特征向量包含的每一个元素取平方根,得到RootSIFT特征向量。本领域技术 人员可W理解的是,在纹理分类和图像分类中使用欧氏距离的性能比使用化Ilinger核函 数低,因此RootSIFT比SIFT检索效果更好。
[0078] 所述RootSIFT特征包括关键点和特征描述子,每一个关键点具有S个信息:位置、 尺度W及方向,为每个关键点建立一个特征描述子,用一组向量将运个关键点描述出来,使 其不随各种变化而改变,比如光照变化、视角变化等等。一般特征描述子使用在关键点尺度 空间内4 X 4的窗口中计算的8个方向的梯度信息,共4 X 4 X 8 = 128维向量表征。
[0079] 本实施例中,首先对所述置信度最高的化OX提取所述检索商品的传统SIFT特征, 特征维数128,关键点数最大限制1000;再根据RootSIFT算法,得到所述检索商品的 RootSIFT特征,即所述第一图像局部特征。
[0080] S103,针对所述目标视频的每一视频帖包含的每一商品,获得商品的第二图像全 局特征和第二图像局部特征;并计算所述第一图像全局特征和所述第二图像全局特征的第 一匹配距离,W及所述第一图像局部特征和所述第二图像局部特征的第二匹配距离。
[0081] 在实际应用中,针对所述目标视频的每一视频帖包含的每一商品,获得商品的第 二图像全局特征和第二图像局部特征,可W针对所述目标视频的每一视频帖包含的每一商 品,从视频帖中提取商品的第二图像全局特征和第二图像局部特征;还可W针对所述目标 视频的每一视频帖包含的每一商品,从数据库中获得商品的第二图像全局特征和第二图像 局部特征,其中,所述数据库中存储有预先从视频帖中提取的商品的第二图像全局特征和 第二图像局部特征。
[0082] 具体的,从视频帖中提取商品的图像全局特征和图像局部特征与从检索图像中提 取检索商品的图像全局特征和图像局部特征相同,本发明实施例在此不对其进行寶述。
[0083] 实际应用中,为减少计算量,提高检索效率,所述目标视频的视频帖可W为所述目 标视频的关键帖;所述第二图像全局特征可W为特征,与所述第一图像全局特征一致; 所述第二图像局部特征可W为RootSIFT特征,与所述第一图像局部特征一致。
[0084] 所述目标视频的每一视频帖可能包含多个商品。首先将所述目标视频的每一视频 帖经过化Ster-RCNN网络检测输出每一商品的抓OX及其种类标签。
[0085] 针对所述目标视频的每一视频帖包含的每一商品,将其化OX作为输入,经所述预 先训练好的CNN网络前向计算到>ol5/7X7_sr层,W该层数据作为商品的CNN特征。所述 pool5/7X7_sl,其中pools表示第5个池化层,该层采用平均池化方法对上层输入进行池化 操作,核窗口大小为7 X 7,步长为1,由于该层既包含浅层特征又包含高层语义信息,实验表 明用该层数据检索准确性最高,因此本发明实施例方法中选择此层数据作为商品的卿寺 征,即所述第二图像全局特征。
[0086] 针对所述目标视频的每一视频帖包含的每一商品,对商品的化OX提取商品的传统 SIFT特征,其中,特征维数128,关键点数最大限制1000;然后根据RootSIFT算法,得到商品 的RootSIFT特征向量,即所述第二图像局部特征。关于RootSIFT,S102中已作详细说明,此 处不再一一寶述。
[0087] 然后,采用皮尔逊相关系数(Pearson coefficient)作为相似性度量,针对所述目 标视频的每一视频帖包含的每一商品,进行所述第一图像全局特征和所述第二图像全局特 征的匹配,即CNN特征匹配。
[0088] 所述皮尔逊相关系数是一种度量两个变量间相关程度的方法。它是介于1和-1之 间的值,其中,1标识变量完全正相关,0表不无关,-1表不完全负相关。
[0089] 对于特征向量X和Y,皮尔逊相关系数Px,Y计算公式如下:
[0090]
[0091] 其中,文表示向量X的均值,F表示向量Y的均值。为后续进行距离融合,将PX,Y转化 为距离并归一化到0~1,转化公式为:
[0092]
[0093] 其中,dcNN为C順特征匹配距离,由皮尔逊相关系数的定义可知,dcNN越小说明对应 的两个商品越相似。
[0094] 针对所述目标视频的每一视频帖包含的每一商品,将所述检索商品的RootSIFT特 征和所述每一商品的RootSIFT特征,使用FXMWFast Approximate Nearest Nei曲bor Search Library,快速最近邻捜索库)算法进行匹配,得出RootSIFT特征匹配距离dsiFT,其 中dsiFT为欧氏距离,取值范围为0~1,。
[00M] S104,将所述第一匹配距离和所述第二匹配距离进行融合,得到融合距离。
[0096] 所述第一匹配距离和所述第二匹配距离进行融合的融合公式为:
[0097] df US ion = WCNNClcNN+WSIFldsiFT ,
[0098] 其中,dfusinn是融合距离,d?是所述第一匹配距离,dsiFT是所述第二匹配距离; WCNN、WSIFT分别是所述第一匹配距离和所述第二匹配距离的融合权重,属于经验值。
[0099] 在实际应用中,所述第一匹配距离可W为CNN特征匹配距离,所述第二匹配距离可 W为RootSIFT特征匹配距离。C顺特征属于图像全局特征,RootSIFT特征属于图像局部特 征,两种特征检索结果具有互补效果,融合后明显提升检索准确性;此外,CN卿寺征皮尔逊相 关系数距离取值范围0~1 ,RootSIFT特征欧氏距离取值范围也是0~1,使得融合效果比使 用传统SIFT特征欧氏距离(取值范围0~+-)进行融合有进一步改善。
[0100] S105,将最小的第一预设数量个融合距离对应的视频帖,确定为包含所述检索商 品的同款商品的视频帖。
[0101] 本领域技术人员可W理解的是,所述融合距离越小,其对应的商品越可能是所述 检索商品的同款商品。
[0102] 假设,视频的视频帖数量为240,上述得到视频的第1帖对应的融合距离为5,第2帖 对应的融合距离为4.5,第3帖对应的融合距离为5.2,第4帖对应的融合距离为15,……第 240帖对应的融合距离为5.56。
[0103] 则可W将最小的10个融合距离对应的视频帖,确定为包含所述检索商品的同款商 品的视频帖。
[0104] 假设确定出的视频帖分别为:第45帖、第46帖、第47帖、第60帖、第75帖、第89帖、第 90帖、第91帖、第92帖和第93帖。
[0105] 应用本发明图1所示实施例,先将检索图像中包含的检索商品和视频帖中包含的 每一商品的图像全局特征及图像局部特征进行匹配,获得图像全局特征匹配距离和图像局 部特征匹配距离;然后对二者进行融合,得到融合距离;再根据融合距离的大小,将多个最 小的融合距离对应的视频帖,确定为包含检索商品的同款商品的视频帖。在进行视频中同 款商品检索时,即考虑了图像全局特征,又考虑了图像局部特征,从而提高了检索的准确 性。
[0106] 相对于图1所示的实施例,图2为本发明实施例提供的视频中同款商品检索方法的 另一种流程示意图,本发明图2所示实施例在图1所示实施例基础上,在S103之前,增加W下 二个步骤:
[0107] S106,确定所述检索商品所属的种类。
[0108] 实际应用中,可W采用化Ster-RC顺网络,对输入的检索图像输出置信度最高的 化OX及其种类标签,即检索商品的抓OX及其种类标签,对商品更清晰准确地分类,所述种类 标签可W为大类标签,例如服装、家具、电器等。
[0109] S107,获得所述目标视频的每一视频帖包含的每一商品所属的种类。
[0110] 实际应用中,可W采用化Ster-RC順网络,对输入的所述目标视频的每一视频帖检 巧拙商品的抓OX和种类标签,所述种类标签可W为大类标签,例如服装、家具、电器等。视频 图像内容复杂,一帖图像往往包含多个商品,采用所述化Ster-RC順网络可只经一次计算就 得出所有商品的抓OX和种类标签,大幅提升单张视频帖图像的处理效率。
[0111] S108,将所述目标视频的每一视频帖包含的商品中、商品所属的种类与检索商品 所属的种类相同的商品,确定为待匹配商品。
[0112] 针对所述目标视频的每一视频帖包含的每一商品,判断商品所属的种类与所述检 索商品所属的种类是否相同,如果相同,则将该商品确定为待匹配商品。
[0113] 具体地,本发明实施例的S103可W为S103/ :针对所述目标视频包含的待匹配商 品,获得所述待匹配商品的第二图像全局特征和第二图像局部特征;并计算所述第一图像 全局特征和所述第二图像全局特征的第一匹配距离,W及所述第一图像局部特征和所述第 二图像局部特征的第二匹配距离。
[0114] 应用本发明图2所示实施例,先将检索图像中包含的检索商品和视频帖中包含的 每一商品的图像全局特征及图像局部特征进行匹配,获得图像全局特征匹配距离和图像局 部特征匹配距离;然后对二者进行融合,得到融合距离;再根据融合距离的大小,将多个最 小的融合距离对应的视频帖,确定为包含检索商品的同款商品的视频帖。在进行视频中同 款商品检索时,即考虑了图像全局特征,又考虑了图像局部特征,从而提高了检索的准确 性。并且对商品进行了过滤,仅对与检索商品同种类的商品进行特征提取、匹配等,缩小了 检索的范围,进而减少了同款商品检索的计算量,提局了检索速度。
[0115] 相对于图I所示的实施例,图3为本发明实施例提供的视频中同款商品检索方法的 再一种流程示意图,本发明图3所示实施例在图1所示实施例的基础上,增加W下两个步骤:
[0116] S109,分别计算所述检索图像与所确定的视频帖中每一视频帖的颜色直方图的第 S匹配距离。
[0117] 在实际应用中,第=匹配距离亦可被称为颜色直方图匹配距离。
[0118] 分别获得所述检索图像与所确定的视频帖中的每一视频帖的颜色直方图,实际应 用中,所述颜色直方图可W为基于HSV化Ue,Sa化ration ,Value)空间的颜色直方图。HSV是 根据颜色的直观特性由A.R. Smi化在1978年创建的一种颜色空间,也称六角椎体模型,运个 模型中颜色的参数分别是:色调化),饱和度(S),明度(V)。计算颜色直方图需要将颜色空间 划分成若干个小的颜色区间,每个小区间成为直方图的一个bin,运个过程称为颜色量化 (color quantization);然后,通过计算颜色落在每个小区间内的像素数量可W得到颜色 直方图。
[0119] 选择合适的颜色小区间(即直方图的bin)数目和颜色量化方法与具体应用的性能 和效率要求有关。实际应用中,可W设定HSVS个通道直方图bin数量:hBins = 8,sBins = 3, vBins = 3,即最终得到72维直方图特征向量。
[0120] 分别计算所述检索图像与所确定的视频帖中每一视频帖的HSV颜色直方图的匹配 距离。实际应用中,所述HSV颜色直方图匹配可W使用化i-Square(卡方)距离,对于两个直 方图向量化,出,计算公式如下:
[0121]
[0122] Sl 10,将最小的第二预设数量个第=匹配距离对应的视频帖,确定为最终包含所 述检索商品的同款商品的视频帖。
[0123] 本领域技术人员可W理解的是,第=匹配距离越小,其对应的视频帖图像包含的 商品越可能是所述检索商品的同款商品。
[0124] 实际应用中,还可W将所最终确定的视频帖按照对应的颜色直方图匹配距离从小 到大进行排序,将排序结果推送给客户,供其有选择地进行广告的投放等。
[0125] 假设,S105确定出的视频帖分别为:第45帖、第46帖、第47帖、第60帖、第75帖、第89 帖、第90帖、第91帖、第92帖和第93帖。上述视频帖对应的所述第=匹配距离分别为20、41、 35、37、54、76、36、27、45、39。
[01 %]则可W将其中最小的5个颜色直方图匹配距离对应的视频帖,确定为最终包含所 述检索商品的同款商品的视频帖。
[0127] 可W确定出视频帖分别为:第45帖、第47帖、第60帖、第90帖、第91帖。
[0128] 还可W按照颜色直方图匹配距离从小到大,对所确定的5帖视频帖重排序,最终将 排序结果:第45帖、第91帖、第47帖、第90帖、第60帖,推送给客户,供其有选择地进行广告的 投放等。
[0129] 应用本发明图3所示实施例,先将检索图像中包含的检索商品和视频帖中包含的 每一商品的图像全局特征及图像局部特征进行匹配,获得图像全局特征匹配距离和图像局 部特征匹配距离;然后对二者进行融合,得到融合距离;再根据融合距离的大小,将多个最 小的融合距离对应的视频帖,确定为包含检索商品的同款商品的视频帖。在进行视频中同 款商品检索时,即考虑了图像全局特征,又考虑了图像局部特征,从而提高了检索的准确 性。此外,再采用颜色直方图对检索图像和所确定的视频帖进行匹配,将匹配结果中多个最 小的匹配距离对应的视频帖,即颜色与检索图像更接近的视频帖,确定为最终包含所述检 索商品的同款商品的视频帖,进一步提高了检索的准确性。
[0130] 与上述的方法实施例相对应,本发明实施例还提供一种视频中同款商品检索装 置。
[0131] 参见图4,图4为本发明实施例提供的视频中同款商品检索装置的一种结构示意 图,与图1所示的流程相对应,包括:
[0132] 第一获得模块201,用于获得检索图像,所述检索图像中包含检索商品。
[0133] 提取模块202,用于提取所述检索商品的第一图像全局特征和第一图像局部特征。
[0134] 第二获得模块203,针对所述目标视频的每一视频帖包含的每一商品,用于获得商 品的第二图像全局特征和第二图像局部特征。
[0135] 本发明实施例所示的第二获得模块203,具体可W用于:
[0136] 针对所述目标视频的每一视频帖包含的每一商品,从视频帖中提取商品的第二图 像全局特征和第二图像局部特征;
[0137] 或,针对所述目标视频的每一视频帖包含的每一商品,从数据库中获得商品的第 二图像全局特征和第二图像局部特征,其中,所述数据库中存储有预先从视频帖中提取的 商品的第二图像全局特征和第二图像局部特征。
[0138] 第一计算模块204,针对所述目标视频的每一视频帖包含的每一商品,用于计算所 述第一图像全局特征和所述第二图像全局特征的第一匹配距离,W及所述第一图像局部特 征和所述第二图像局部特征的第二匹配距离。
[0139] 融合模块205,用于将所述第一匹配距离和所述第二匹配距离进行融合,得到融合 距离。
[0140] 第一确定模块206,用于将最小的第一预设数量个融合距离对应的视频帖,确定为 包含所述检索商品的同款商品的视频帖。
[0141] 本领域技术人员可W理解的是,所述融合距离越小,其对应的商品越可能是所述 检索商品的同款商品。
[0142] 具体地,所述第一图像全局特征和所述第二图像全局特征为卷积神经网络特征。
[0143] 所述第一图像局部特征和所述第二图像局部特征为RootSIFT特征。
[0144] 具体地,所述目标视频的视频帖也可W为所述目标视频的关键帖。
[0145] 应用本发明图4所示实施例,先将检索图像中包含的检索商品和视频帖中包含的 每一商品的图像全局特征及图像局部特征进行匹配,获得图像全局特征匹配距离和图像局 部特征匹配距离;然后对二者进行融合,得到融合距离;再根据融合距离的大小,将多个最 小的融合距离对应的视频帖,确定为包含检索商品的同款商品的视频帖。在进行视频中同 款商品检索时,即考虑了图像全局特征,又考虑了图像局部特征,从而提高了检索的准确 性。
[0146] 相对于图4所示的实施例,图5为本发明实施例提供的视频中同款商品检索装置的 另一种结构示意图,与图2所示的流程相对应,本发明图5所示实施例在图4所示实施例基础 上,增加W下=个模块:
[0147] 第二确定模块207,用于确定所述检索商品所属的种类。
[0148] 第=获得模块208,用于获得所述目标视频的每一视频帖包含的每一商品所属的 种类。
[0149] 第=确定模块209,用于将所述目标视频的每一视频帖包含的商品中、商品所属的 种类与检索商品所属的种类相同的商品,确定为待匹配商品。
[0150] 本发明实施例所示的第二获得模块203,具体可W用于:
[0151] 针对所述目标视频包含的待匹配商品,获得所述待匹配商品的第二图像全局特征 和第二图像局部特征。
[0152] 本发明实施例所示的第一计算模块204,具体可W用于:
[0153] 针对所述目标视频包含的待匹配商品,计算所述第一图像全局特征和所述第二图 像全局特征的第一匹配距离,W及所述第一图像局部特征和所述第二图像局部特征的第二 匹配距离。
[0154] 应用本发明图5所示实施例,先将检索图像中包含的检索商品和视频帖中包含的 每一商品的图像全局特征及图像局部特征进行匹配,获得图像全局特征匹配距离和图像局 部特征匹配距离;然后对二者进行融合,得到融合距离;再根据融合距离的大小,将多个最 小的融合距离对应的视频帖,确定为包含检索商品的同款商品的视频帖。在进行视频中同 款商品检索时,即考虑了图像全局特征,又考虑了图像局部特征,从而提高了检索的准确 性。并且对商品进行了过滤,仅对与检索商品同种类的商品进行特征提取、匹配等,缩小了 检索的范围,进而减少了同款商品检索的计算量,提局了检索速度。
[0155] 相对于图4所示的实施例,图6为本发明实施例提供的视频中同款商品检索装置的 再一种结构示意图,与图3所示的流程相对应,本发明图6所示实施例在图4所示实施例基础 上,增加W下两个模块:
[0156] 第二计算模块210,用于分别计算所述检索图像与所确定的视频帖中每一视频帖 的颜色直方图的第=匹配距离。
[0157] 第四确定模块211,用于将最小的第二预设数量个第=匹配距离对应的视频帖,确 定为最终包含所述检索商品的同款商品的视频帖。
[0158] 本领域技术人员可W理解的是,所述第=匹配距离越小,其对应的视频帖图像包 含的商品越可能是所述检索商品的同款商品。
[0159] 实际应用中,还可W将所最终确定的视频帖按照对应的颜色直方图匹配距离从小 到大进行排序,将排序结果推送给客户,供其有选择地进行广告的投放等。
[0160] 应用本发明图6所示实施例,先将检索图像中包含的检索商品和视频帖中包含的 每一商品的图像全局特征及图像局部特征进行匹配,获得图像全局特征匹配距离和图像局 部特征匹配距离;然后对二者进行融合,得到融合距离;再根据融合距离的大小,将多个最 小的融合距离对应的视频帖,确定为包含检索商品的同款商品的视频帖。在进行视频中同 款商品检索时,即考虑了图像全局特征,又考虑了图像局部特征,从而提高了检索的准确 性。此外,再采用颜色直方图对检索图像和所确定的视频帖进行匹配,将匹配结果中多个最 小的匹配距离对应的视频帖,即颜色与检索图像更接近的视频帖,确定为最终包含所述检 索商品的同款商品的视频帖,进一步提高了检索的准确性。
[0161] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实 体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示运些实体或操作之间存 在任何运种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为运种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在 包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0162] 本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实 施例而言,由于其基本相似于方法实施例,所W描述的比较简单,相关之处参见方法实施例 的部分说明即可。
[0163] 本领域普通技术人员可W理解实现上述方法实施方式中的全部或部分步骤是可 W通过程序来指令相关的硬件来完成,所述的程序可W存储于计算机可读取存储介质中, 运里所称得的存储介质,如:R0M/RAM、磁碟、光盘等。
[0164] W上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在 本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围 内。
【主权项】
1. 一种视频中同款商品检索方法,其特征在于,所述方法包括: 获得检索图像,所述检索图像中包含检索商品; 提取所述检索商品的第一图像全局特征和第一图像局部特征; 针对所述目标视频的每一视频帧包含的每一商品,获得商品的第二图像全局特征和第 二图像局部特征;并计算所述第一图像全局特征和所述第二图像全局特征的第一匹配距 离,以及所述第一图像局部特征和所述第二图像局部特征的第二匹配距离; 将所述第一匹配距离和所述第二匹配距离进行融合,得到融合距离; 将最小的第一预设数量个融合距离对应的视频帧,确定为包含所述检索商品的同款商 品的视频帧。2. 根据权利要求1所述的方法,其特征在于,所述目标视频的视频帧为所述目标视频的 视频关键帧。3. 根据权利要求1所述的方法,其特征在于,所述第一图像全局特征和所述第二图像全 局特征为卷积神经网络特征; 所述第一图像局部特征和所述第二图像局部特征为RootSIFT特征。4. 根据权利要求1所述的方法,其特征在于,所述针对所述目标视频的每一视频帧包含 的每一商品,获得商品的第二图像全局特征和第二图像局部特征,包括: 针对所述目标视频的每一视频帧包含的每一商品,从视频帧中提取商品的第二图像全 局特征和第二图像局部特征; 或, 针对所述目标视频的每一视频帧包含的每一商品,从数据库中获得商品的第二图像全 局特征和第二图像局部特征,其中,所述数据库中存储有预先从视频帧中提取的商品的第 二图像全局特征和第二图像局部特征。5. 根据权利要求1所述的方法,其特征在于,在所述获得商品的第二图像全局特征和第 二图像局部特征之前,所述方法还包括: 确定所述检索商品所属的种类; 获得所述目标视频的每一视频帧包含的每一商品所属的种类; 将所述目标视频的每一视频帧包含的商品中、商品所属的种类与所述检索商品所属的 种类相同的商品,确定为待匹配商品; 所述针对所述目标视频的每一视频帧包含的每一商品,获得商品的第二图像全局特征 和第二图像局部特征,包括: 针对所述目标视频包含的待匹配商品,获得所述待匹配商品的第二图像全局特征和第 二图像局部特征。6. 根据权利要求1所述的方法,其特征在于,所述第一匹配距离和所述第二匹配距离进 行融合的融合公式为: dfusion = WC_dc_+WSIFTdsiFT, 其中,dfUsicin是融合距离,d?是所述第一匹配距离,dSIFT是所述第二匹配距离,w?、 WSIFT 分别是所述第一匹配距离和所述第二匹配距离的融合权重。7. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 分别计算所述检索图像与所确定的视频帧中每一视频帧的颜色直方图的第三匹配距 离; 将最小的第二预设数量个第三匹配距离对应的视频帧,确定为最终包含所述检索商品 的同款商品的视频帧。8. -种视频中同款商品检索装置,其特征在于,所述装置包括: 第一获得模块,用于获得检索图像,所述检索图像中包含检索商品; 提取模块,用于提取所述检索商品的第一图像全局特征和第一图像局部特征; 第二获得模块,用于针对所述目标视频的每一视频帧包含的每一商品,获得商品的第 二图像全局特征和第二图像局部特征; 第一计算模块,用于针对所述目标视频的每一视频帧包含的每一商品,计算所述第一 图像全局特征和所述第二图像全局特征的第一匹配距离,以及所述第一图像局部特征和所 述第二图像局部特征的第二匹配距离; 融合模块,用于将所述第一匹配距离和所述第二匹配距离进行融合,得到融合距离; 第一确定模块,用于将最小的第一预设数量个融合距离对应的视频帧,确定为包含所 述检索商品的同款商品的视频帧。9. 根据权利要求8所述的装置,其特征在于,所述目标视频的视频帧为所述目标视频的 视频关键帧。10. 根据权利要求8所述的装置,其特征在于,所述第一图像全局特征和所述第二图像 全局特征为卷积神经网络特征; 所述第一图像局部特征和所述第二图像局部特征为RootSIFT特征。11. 根据权利要求8所述的装置,其特征在于,所述第二获得模块,具体用于: 针对所述目标视频的每一视频帧包含的每一商品,从视频帧中提取商品的第二图像全 局特征和第二图像局部特征; 或, 针对所述目标视频的每一视频帧包含的每一商品,从数据库中获得商品的第二图像全 局特征和第二图像局部特征,其中,所述数据库中存储有预先从视频帧中提取的商品的第 二图像全局特征和第二图像局部特征。12. 根据权利要求8所述的装置,其特征在于,所述装置还包括: 第二确定模块,用于确定所述检索商品所属的种类; 第三获得模块,用于获得所述目标视频的每一视频帧包含的每一商品所属的种类; 第三确定模块,用于将所述目标视频的每一视频帧包含的商品中、商品所属的种类与 所述检索商品所属的种类相同的商品,确定为待匹配商品; 所述第二获得模块,具体用于: 针对所述目标视频包含的待匹配商品,获得所述待匹配商品的第二图像全局特征和第 二图像局部特征。 所述第一计算模块,具体用于: 针对所述目标视频包含的待匹配商品,计算所述第一图像全局特征和所述第二图像全 局特征的第一匹配距离,以及所述第一图像局部特征和所述第二图像局部特征的第二匹配 距离。13. 根据权利要求8所述的装置,其特征在于,所述第一匹配距离和所述第二匹配距离 进行融合的融合公式为: dfusion = WC_dc_+WSIFTdsiFT, 其中,dfUsicin是融合距离,d?是所述第一匹配距离,dSIFT是所述第二匹配距离,w?、 WSIFT 分别是所述第一匹配距离和所述第二匹配距离的融合权重。14.根据权利要求8所述的装置,其特征在于,所述装置还包括: 第二计算模块,用于分别计算所述检索图像与所确定的视频帧中每一视频帧的颜色直 方图的第三匹配距离; 第四确定模块,用于将最小的第二预设数量个第三匹配距离对应的视频帧,确定为最 终包含所述检索商品的同款商品的视频帧。
【文档编号】G06F17/30GK106021575SQ201610379883
【公开日】2016年10月12日
【申请日】2016年5月31日
【发明人】朱宏吉, 兰细鹏, 李甫
【申请人】北京奇艺世纪科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1