本技术涉及人工智能,尤其涉及一种商品聚类方法、商品识别方法及相关产品。
背景技术:
1、通过对商品进行标准化产品单元(standard product unit,spu)聚类,可将相同的商品聚为同一类得到聚类结果,进而可基于聚类结果进行后续操作,例如,基于该聚类结果建立电子商务产品库。因此,如何对商品进行聚类具有非常重要的意义。
技术实现思路
1、本技术提供一种商品聚类方法、商品识别方法及相关产品。
2、第一方面,提供了一种商品聚类方法,所述商品聚类方法,包括:
3、获取至少两个待聚类商品的至少两个图像特征、所述至少两个待聚类商品的至少两个文本特征以及所述至少两个待聚类商品的至少两个品牌,所述图像特征为包括所述待聚类商品的商品图像的特征,所述文本特征为用于描述所述待聚类商品的商品文本的特征,所述品牌基于所述商品文本得到;
4、基于不同所述待聚类商品的所述图像特征之间的第一相似度、不同所述待聚类商品的所述文本特征之间的第二相似度、不同所述待聚类商品的所述品牌,将所述至少两个待聚类商品中的相同商品划分至同一个簇,得到至少一个商品簇。
5、结合本技术任一实施方式,所述基于不同所述待聚类商品的所述图像特征之间的第一相似度、不同所述待聚类商品的所述文本特征之间的第二相似度、不同所述待聚类商品的所述品牌,将所述至少两个待聚类商品中的相同商品划分至同一个簇,得到至少一个商品簇,包括:
6、基于不同所述待聚类商品的所述图像特征之间的第一相似度和不同所述待聚类商品的所述文本特征之间的第二相似度,构建所述至少两个待聚类商品的初始邻接图;
7、确定所述初始邻接图中具有连接关系、且品牌不同的两个所述待聚类商品为不同商品对;
8、从所述初始邻接图中删除所述不同商品对之间的连接关系,得到最终邻接图;
9、基于所述最终邻接图,将所述至少两个待聚类商品中的相同商品划分至同一个簇,得到所述至少一个商品簇。
10、结合本技术任一实施方式,在所述确定所述初始邻接图中具有连接关系、且品牌不同的两个所述待聚类商品为不同商品对之前,所述方法还包括:
11、获取所述至少两个待聚类商品的至少两个品类特征,所述品类特征为所述待聚类商品的品类的特征,所述待聚类商品的品类基于所述商品文本得到;
12、所述确定所述初始邻接图中具有连接关系、且品牌不同的两个所述待聚类商品为不同商品对,包括:
13、确定所述初始邻接图中具有连接关系、且满足以下至少一个条件:品牌不同、品类特征的第三相似度小于或等于第一阈值的两个所述待聚类商品为所述不同商品对。
14、结合本技术任一实施方式,所述基于所述最终邻接图,将所述至少两个待聚类商品中的相同商品划分至同一个簇,得到所述至少一个商品簇,包括:
15、将所述最终邻接图中具有直接连接关系或具有间接连接关系的至少一个所述待聚类商品作为一个簇,得到至少一个商品簇。
16、结合本技术任一实施方式,在所述将所述最终邻接图中具有直接连接关系或具有间接连接关系的至少一个所述待聚类商品作为一个簇,得到至少一个商品簇之前,所述方法还包括:
17、利用图分割算法对所述最终邻接图进行处理,从所述最终邻接图中确定连通子区域内的所述待聚类商品,为具有直接连接关系或具有间接连接关系的至少一个所述待聚类商品。
18、结合本技术任一实施方式,所述基于不同所述待聚类商品的所述图像特征之间的第一相似度和不同所述待聚类商品的所述文本特征之间的第二相似度,构建所述至少两个待聚类商品的初始邻接图,包括:
19、确定不同所述待聚类商品的所述图像特征之间的所述第一相似度;
20、确定不同所述待聚类商品的所述文本特征之间的所述第二相似度;
21、对所述第一相似度和所述第二相似度进行融合,得到不同所述待聚类商品之间的第四相似度;
22、通过在所述第四相似度大于或等于第二阈值的情况下,在所述第四相似度所对应的两个所述待聚类商品之间建立连接关系,构建所述初始邻接图。
23、结合本技术任一实施方式,所述至少两个待聚类商品包括目标商品,所述目标商品为所述至少两个待聚类商品中的任意一个商品;
24、所述通过在所述第四相似度大于或等于第二阈值的情况下,在所述第四相似度所对应的两个所述待聚类商品之间建立连接关系,构建所述初始邻接图,包括:
25、确定所述目标商品的最大的n个所述第四相似度所对应的所述待聚类商品,得到n个备选商品,所述n为小于所述待聚类商品的数量的正整数;
26、通过在所述备选商品与所述目标商品之间的所述第四相似度大于或等于所述第二阈值的情况下,在所述备选商品与所述目标商品之间建立连接关系,构建所述初始邻接图。
27、结合本技术任一实施方式,所述获取至少两个待聚类商品的至少两个图像特征,包括:
28、获取包括所述至少两个待聚类商品的至少两张所述商品图像;
29、利用视觉神经网络提取所述至少两张所述商品图像的特征,得到所述至少两个图像特征。
30、结合本技术任一实施方式,所述获取所述至少两个待聚类商品的至少两个文本特征,包括:
31、获取所述至少两个待聚类商品的至少两个所述商品文本;
32、利用文本神经网络提取所述至少两个所述商品文本的特征,得到所述至少两个文本特征。
33、结合本技术任一实施方式,所述获取所述至少两个待聚类商品的至少两个品牌,包括:
34、从所述至少两个所述商品文本中确定所述至少两个待聚类商品的品牌,得到所述至少两个品牌。
35、第二方面,提供了一种商品识别方法,所述方法包括:
36、接收来自客户端的针对待识别商品的识别请求,所述识别请求用于请求识别与所述待识别商品相同的商品;
37、获取根据权利要求1至10中任意一项所述的方法得到的至少一个商品簇;
38、从所述至少一个商品簇中确定所述待识别商品所属的商品簇,作为目标簇;
39、将所述目标簇中的商品作为所述识别请求的识别结果返回至所述客户端
40、结合本技术任一实施方式,在所述从所述至少一个商品簇中确定所述待识别商品所述的商品簇,作为目标簇之后,所述方法还包括:
41、确定所述目标簇中的商品的购买链接为目标链接;
42、向所述客户端发送所述目标链接。
43、第三方面,提供了一种商品聚类装置,所述商品聚类装置,包括:
44、获取单元,用于获取至少两个待聚类商品的至少两个图像特征、所述至少两个待聚类商品的至少两个文本特征以及所述至少两个待聚类商品的至少两个品牌,所述图像特征为包括所述待聚类商品的商品图像的特征,所述文本特征为用于描述所述待聚类商品的商品文本的特征,所述品牌基于所述商品文本得到;
45、处理单元,用于基于不同所述待聚类商品的所述图像特征之间的第一相似度、不同所述待聚类商品的所述文本特征之间的第二相似度、不同所述待聚类商品的所述品牌,将所述至少两个待聚类商品中的相同商品划分至同一个簇,得到至少一个商品簇。
46、结合本技术任一实施方式,所述处理单元,用于:
47、基于不同所述待聚类商品的所述图像特征之间的第一相似度和不同所述待聚类商品的所述文本特征之间的第二相似度,构建所述至少两个待聚类商品的初始邻接图;
48、确定所述初始邻接图中具有连接关系、且品牌不同的两个所述待聚类商品为不同商品对;
49、从所述初始邻接图中删除所述不同商品对之间的连接关系,得到最终邻接图;
50、基于所述最终邻接图,将所述至少两个待聚类商品中的相同商品划分至同一个簇,得到所述至少一个商品簇。
51、结合本技术任一实施方式,所述获取单元,还用于:
52、获取所述至少两个待聚类商品的至少两个品类特征,所述品类特征为所述待聚类商品的品类的特征,所述待聚类商品的品类基于所述商品文本得到;
53、所述处理单元,用于确定所述初始邻接图中具有连接关系、且满足以下至少一个条件:品牌不同、品类特征的第三相似度小于或等于第一阈值的两个所述待聚类商品为所述不同商品对。
54、结合本技术任一实施方式,所述处理单元,用于将所述最终邻接图中具有直接连接关系或具有间接连接关系的至少一个所述待聚类商品作为一个簇,得到至少一个商品簇。
55、结合本技术任一实施方式,所述处理单元,还用于利用图分割算法对所述最终邻接图进行处理,从所述最终邻接图中确定连通子区域内的所述待聚类商品,为具有直接连接关系或具有间接连接关系的至少一个所述待聚类商品。
56、结合本技术任一实施方式,所述处理单元,用于:
57、确定不同所述待聚类商品的所述图像特征之间的所述第一相似度;
58、确定不同所述待聚类商品的所述文本特征之间的所述第二相似度;
59、对所述第一相似度和所述第二相似度进行融合,得到不同所述待聚类商品之间的第四相似度;
60、通过在所述第四相似度大于或等于第二阈值的情况下,在所述第四相似度所对应的两个所述待聚类商品之间建立连接关系,构建所述初始邻接图。
61、结合本技术任一实施方式,所述至少两个待聚类商品包括目标商品,所述目标商品为所述至少两个待聚类商品中的任意一个商品;
62、所述处理单元,用于:
63、确定所述目标商品的最大的n个所述第四相似度所对应的所述待聚类商品,得到n个备选商品,所述n为小于所述待聚类商品的数量的正整数;
64、通过在所述备选商品与所述目标商品之间的所述第四相似度大于或等于所述第二阈值的情况下,在所述备选商品与所述目标商品之间建立连接关系,构建所述初始邻接图。
65、结合本技术任一实施方式,所述获取单元,用于:
66、获取包括所述至少两个待聚类商品的至少两张所述商品图像;
67、利用视觉神经网络提取所述至少两张所述商品图像的特征,得到所述至少两个图像特征。
68、结合本技术任一实施方式,所述获取单元,用于:
69、获取所述至少两个待聚类商品的至少两个所述商品文本;
70、利用文本神经网络提取所述至少两个所述商品文本的特征,得到所述至少两个文本特征。
71、结合本技术任一实施方式,所述获取单元,用于:
72、从所述至少两个所述商品文本中确定所述至少两个待聚类商品的品牌,得到所述至少两个品牌。
73、第四方面,提供了一种商品识别装置,所述装置包括:
74、接收单元,用于接收来自客户端的针对待识别商品的识别请求,所述识别请求用于请求识别与所述待识别商品相同的商品;
75、获取单元,用于获取根据第一方面及其任一实施方式得到的至少一个商品簇;
76、确定单元,用于从所述至少一个商品簇中确定所述待识别商品所属的商品簇,作为目标簇;
77、返回单元,用于将所述目标簇中的商品作为所述识别请求的识别结果返回至所述客户端。
78、结合本技术任一实施方式,所述确定单元,还用于确定所述目标簇中的商品的购买链接为目标链接;
79、所述返回单元,还用于向所述客户端发送所述目标链接。
80、第五方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种实施方式的方法;在所述处理器执行所述计算机指令的情况下,所述电子设备或者执行如上述第二方面及其任意一种实施方式的方法。
81、第六方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任一实施方式;在所述处理器执行所述计算机指令的情况下,所述电子设备或者执行如上述第二方面及其任一实施方式。
82、第七方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令;在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任一实施方式;在所述程序指令被处理器执行的情况下,或者使所述处理器执行如上述第二方面及其任一实施方式。
83、第八方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一实施方式;在所述计算机程序或指令在计算机上运行的情况下,或者使得所述计算机执行上述第二方面及其任一实施方式。
84、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术。
85、本技术中,商品聚类装置在获取至少两个待聚类商品的至少两个图像特征、至少两个待聚类商品的至少两个文本特征以及至少两个待聚类商品的至少两个品牌后,基于不同待聚类商品的图像特征之间的第一相似度、不同待聚类商品的文本特征之间的第二相似度、不同待聚类商品的品牌,将至少两个待聚类商品中的相同商品划分至同一个簇,得到至少一个商品簇。在这个过程中,由于利用了至少两个待聚类商品的图像特征、至少两个待聚类商品的文本特征和至少两个待聚类商品的品牌,对至少两个待聚类商品聚类得到至少一个商品簇,故可提高至少一个商品簇的准确度。