在本发明涉及实体解析领域,尤其涉及一种基于双模态特征融合的商品匹配方法。
背景技术:
1、商品匹配最大的作用就是帮助消费者或零售商在相同或者不同的平台上寻找目标产品的最佳价格或服务。在这种场景下,由于相同平台不同商家以及不同平台不同商家对同一商品的标题描述往往会具有一致性,这就导致目前商品匹配最广泛的方法就是利用商品标题信息的相似度去判别相匹配的商品,同时一些改进的方法还引入了商品属性等文本信息对单一的标题信息进行补充,以提高商品匹配的精确程度。
2、在实际商品匹配的过程中,商品的属性信息相比于商品的标题和图片更难以获取,对于某些特定的商品种类,产品的(文本或数字)属性不足以作出可靠的匹配决策。例如,以鞋子为例,一些球鞋的商品标题往往及其相似,但并不是同一个商品;一些球鞋的商品标题差异度很大,但却是同一种商品。因此,仅靠单模态的商品文本信息并不一定能匹配到准确的产品。
3、在电子商务领域中,商品往往都必定带有商品标题和商品图片,相同的商品往往具有极其相似的商品图片,而商品图片比商品属性信息更易获取。相比于标题,商品图片也更容易加深消费者的印象。
技术实现思路
1、在针对上述问题,本发明提供了一种基于双模态特征融合的商品匹配方法。通过对商品图片信息的获取与利用,从文本和图片两个模态进行相似度的比较,从而精确判断出两个商品是否为一个商品。
2、本发明提供了一种基于双模态特征融合的商品匹配方法,包括以下内容。
3、获取待匹配的所有商品数据,并进行数据预处理。
4、根据预处理后的数据获取各商品的标题特征向量和商品图像特征向量。
5、将各商品的所述标题特征向量和所述图片特征向量进行特征融合拼接,得到各商品的所述融合特征向量。
6、计算待匹配商品c的融合后的特征向量与各商品融合后的特征向量的余弦相似度。
7、对于待匹配商品c,设定相似度阈值筛选出与其最相似的x个已知商品的融合特征向量。
8、将筛选出的融合特征向量所对应的商品集合作为匹配商品c的匹配结果。
9、优选地,所述根据预处理后的数据获取各商品的标题特征向量和商品图像特征向量:包括以下内容。
10、在预处理后的数据中对商品标题信息进行分词,去停用词,词根化,针对各所述商品标题中识别的各商品词分别计算tf-idf特征,并将所述商品标题映射到向量空间中得到标题特征向量。
11、在预处理后的数据中,针对各所述商品图像信息输入至商品图像特征提取模型中,并由所述商品图像特征提取模型中的骨干网络提取图片商品特征向量映射到向量空间中得到商品图像特征向量。
12、优选地,所述在预处理后的数据中对商品标题信息进行分词,去停用词,词根化,针对各所述商品标题中识别的各商品词分别计算tf-idf特征;包括以下内容。
13、在预处理后的数据中对商品标题信息进行分词,去停用词,词根化,构造商品词袋模型,得到所有商品关键词。
14、将词袋模型作为语料库构建商品字典。
15、对各商品标题中包含在商品词字典中的商品词计算tf-idf特征。
16、优选地,所述数据预处理,包括以下内容。
17、将以网页中商品的非结构化数据转化到为结构化数据和图片数据,得到每个商品的标题信息和图片信息。
18、对重复商品数据进行去重、清洗,缺失数据进行丢弃,对涉及规格、体积、容量等单位的商品信息进行统一。
19、每个商品只保留一张主图图片信息,对图片数据进行裁剪,确保图片中商品主体位于中心位置。
20、建立已知商品的数据集合g={gi|gi= (idi,titlei,imgi)},其中,idi是商品gi的唯一标识,titlei是商品gi对应的标题,imgi是商品gi对应的唯一图像。
21、优选地,所述商品图像特征提取模型中的骨干网络提取图片商品特征向量映射到向量空间中得到商品图像特征向量,还包括以下内容。
22、一种商品图像特征提取方法。
23、优选地,所述一种商品图像特征提取方法,包括以下内容。
24、搭建神经网络模型,其中,所述神经网络模型由骨干网络和神经网络组成,所述骨干网络用于提取图像的图像特征,所述神经网络用于对骨干网络提取到的图像特征进行特征嵌入处理,获得所述图像的特征向量。
25、获取包括商品的样本图片。
26、利用所述商品样本集对所述神经网络进行训练,得到商品图像特征提取模型。
27、优选地,所述设定相似度阈值筛选出与其最相似的x个已知商品的融合特征向量之后,还包括以下内容。
28、预设相似度阈值,并与待匹配商品c的融合后的特征向量与各商品融合后的特征向量的余弦相似度依次进行比较,若该组商品余弦相似度大于或等于所述相似度阈值,则保留并记录该商品的融合特征向量,最终得到x个特征向量。
29、优选地,本发明还提供一个基于双模态特征融合的商品匹配方法的系统,其特征在于:包括以下内容。
30、预处理模块,用于获取待匹配的所有商品数据,并进行数据预处理。
31、数据库模块,用于储存处理后商品的数据。
32、模型训练模块,用于对商品数据进行清洗、分类以及标注,以获得商品图像特征提取模型的训练数据,并使用训练数据训练商品图像特征提取模型,并保存好训练好的模型。
33、特征提取模块,用于根据预处理后的数据获取商品的标题特征向量和使用训练完成的商品图像特征提取模型计算商品图片特征向量。
34、双模态特征融合模块,用于将商品所述标题特征向量和商品图片特征向量进行融合拼接,得到各个商品的融合特征向量。
35、商品匹配模块,用于计算待匹配商品融合特征向量与数据库模块中所有已知商品的融合特征向量的余弦相似度,并根据相似度阈值,筛选匹配结果。
1.在一种基于双模态特征融合的商品匹配方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于:根据预处理后的数据获取各商品的标题特征向量和商品图像特征向量;包括:
3.根据权利要求2所述的方法,其特征在于:在预处理后的数据中对商品标题信息进行分词,去停用词,词根化,针对各所述商品标题中识别的各商品词分别计算tf-idf特征;包括:
4.根据权利1所述的方法,其特征在于,所述数据预处理,包括:
5.根据权利要求2所述的方法,其特征在于:商品图像特征提取模型中的骨干网络提取图片商品特征向量映射到向量空间中得到商品图像特征向量,还包括:
6.根据权利要求5所述的方法,其特征在于:一种商品图像特征提取方法,还包括:
7.根据权利要求1所述的方法,其特征在于:设定相似度阈值筛选出与其最相似的x个已知商品的融合特征向量之后,还包括:
8.一种基于权利要求1-7所述的基于双模态特征融合的商品匹配方法的系统,其特征在于:包括: