基于向量索引的工业品物料替换物料搜索方法及系统与流程

文档序号:34657468发布日期:2023-07-04 22:12阅读:53来源:国知局
基于向量索引的工业品物料替换物料搜索方法及系统与流程

本发明涉及向量搜索,具体地,涉及基于向量索引的工业品物料替换物料搜索方法及系统,更为具体地,涉及基于专家经验和向量索引的工业品物料替换物料搜索方法。


背景技术:

1、目前众多物料相似计算方法采用文本和图像相似度进行判断。基于图像和文本的相似度计算难以将其技术属性作为相似因素,即使将技术属性作为文本一起嵌入,也难以根据不同品类区分不同技术属性的重要程度。由于在工业品领域中物料是否相似是否可替换主要取决于其品类以及技术属性,所以基于文本和图像相似度的相似商品计算方法无法确保结果的可靠性。

2、专利文献cn104504055b(申请号:201410798968.3)公开了基于图像相似度的商品相似计算方法及商品推荐系统,所述方法包括:对目标图像进行预处理,去除亮度、色差等光照条件的变化所带来的图像差异;对目标图像进行处理检测出前景框;通过双线性插值,把前景框内的商品图像变换为不同尺度的像素图,在不同尺度下的获取前景框中商品图像不同维度的属性特征;计算前景框中商品图像属性特征向量与商品样本图像属性特征向量在不同维度下属性特征相似度;采用决策森林模型联合不同维度下的属性特征相似度,计算前景框中商品图像与商品样本图像在不同尺度的像素图像下的商品图像的相似度;以商品图像作为商品在不同商务平台的统一标识,极大地增加了推荐系统的可靠性。该专利虽然使用了基于图像相似度的相似商品计算方法,但计算结果相对粗糙,无法适用与要求严格的工业品领域。


技术实现思路

1、针对现有技术中的缺陷,本发明的目的是提供一种基于向量索引的工业品物料替换物料搜索方法及系统。

2、根据本发明提供的一种基于向量索引的工业品物料替换物料搜索方法,包括:

3、步骤s1:根据品类物料的使用场景和物料特点,设置物料的技术属性架构;

4、步骤s2:将技术属性结合技术属性权重编码为技术属性向量;

5、步骤s3:基于faiss搭建技术属性的向量索引,通过向量索引检索计算物料的可替换物料集合,并根据向量距离排序;

6、所述物料的技术属性架构包括当前品类物料具备的技术属性以及当前技术属性对描述当前物料的权重。

7、优选地,所述步骤s1采用:

8、步骤s1.1:基于商品物料库中的商品物料数据,对商品物料品类和技术属性数据进行预处理;

9、步骤s1.2:对预处理后的技术属性数据按品类统计分析得到各品类物料包含的技术属性以及各技术属性在各品类下的出现率;

10、步骤s1.3:基于统计分析结果为各品类设置物料的技术属性架构,包括:品类物料核心技术属性、品类物料必需技术属性以及品类物料选填技术属性;

11、所述品类物料核心技术属性是同品类两个物料技术属性相同,可以互相替换;

12、所述品类物料必需技术属性是描述当前物料必需的技术属性;

13、所述品类物料选填技术属性是描述当前物料非必需的技术属性。

14、优选地,所述步骤s1.1采用:对商品物料品类和技术属性数据进行数据预处理和数据对齐,包括:单位转化对齐、数据规范统一以及错误噪声数据清洗。

15、优选地,所述步骤s2采用:

16、步骤s2.1:针对类别型技术属性采用onehot编码方式编码;

17、步骤s2.2:对数值型技术属性进行预处理,得到预处理后的数值型技术属性;

18、步骤s2.3:将预处理后的数值型技术属性和编码后的类别型技术属性组成物料的技术属性向量。

19、优选地,所述步骤s2.2采用:对数值型技术属性在单位统一、去除异常值的基础上进行归一化处理;

20、

21、其中,x表示数值型技术属性,min(x)表示当前技术属性值的最小值,max(x)表示当前技术属性中的最大值。

22、优选地,所述步骤s3采用:

23、步骤s3.1:基于物料的技术属性向量将物料按品类分为子数据集,每个子数据集包含一个品类的物料;

24、步骤s3.2:根据品类设置技术属性的预设权重,将每个子数据集技术属性向量乘以对应的预设权重向量;

25、步骤s3.3:对每个子数据集筛除包含技术属性值种类小于等于1的技术属性,对剩余技术属性分别建立faiss索引,针对每个物料计算该品类下该物料技术属性向量与该品类下其他物料技术属性向量的距离;

26、步骤s3.4:根据距离由近到远排序,计算每个点之间距离的梯度;若最小距离大于预设值,则无可替换物料,若最小距离小于预设值,找到梯度出现第一次剧烈上升的位置,取该梯度涉及到的第一个物料以及之前所有的物料,作为计算得到的目标物料的可替换物料,保留排序;针对所有物料进行计算得到每个物料对应的可替换物料集合。

27、根据本发明提供的一种基于向量索引的工业品物料替换物料搜索系统,包括:

28、模块m1:根据品类物料的使用场景和物料特点,设置物料的技术属性架构;

29、模块m2:将技术属性结合技术属性权重编码为技术属性向量;

30、模块m3:基于faiss搭建技术属性的向量索引,通过向量索引检索计算物料的可替换物料集合,并根据向量距离排序;

31、所述物料的技术属性架构包括当前品类物料具备的技术属性以及当前技术属性对描述当前物料的权重。

32、优选地,所述模块m1采用:

33、模块m1.1:基于商品物料库中的商品物料数据,对商品物料品类和技术属性数据进行预处理;

34、模块m1.2:对预处理后的技术属性数据按品类统计分析得到各品类物料包含的技术属性以及各技术属性在各品类下的出现率;

35、模块m1.3:基于统计分析结果为各品类设置物料的技术属性架构,包括:品类物料核心技术属性、品类物料必需技术属性以及品类物料选填技术属性;

36、所述品类物料核心技术属性是同品类两个物料技术属性相同,可以互相替换;

37、所述品类物料必需技术属性是描述当前物料必需的技术属性;

38、所述品类物料选填技术属性是描述当前物料非必需的技术属性;

39、所述模块m1.1采用:对商品物料品类和技术属性数据进行数据预处理和数据对齐,包括:单位转化对齐、数据规范统一以及错误噪声数据清洗。

40、优选地,所述模块m2采用:

41、模块m2.1:针对类别型技术属性采用onehot编码方式编码;

42、模块m2.2:对数值型技术属性进行预处理,得到预处理后的数值型技术属性;

43、模块m2.3:将预处理后的数值型技术属性和编码后的类别型技术属性组成物料的技术属性向量;

44、所述模块m2.2采用:对数值型技术属性在单位统一、去除异常值的基础上进行归一化处理;

45、

46、其中,x表示数值型技术属性,min(x)表示当前技术属性值的最小值,max(x)表示当前技术属性中的最大值。

47、优选地,所述模块m3采用:

48、模块m3.1:基于物料的技术属性向量将物料按品类分为子数据集,每个子数据集包含一个品类的物料;

49、模块m3.2:根据品类设置技术属性的预设权重,将每个子数据集技术属性向量乘以对应的预设权重向量;

50、模块m3.3:对每个子数据集筛除包含技术属性值种类小于等于1的技术属性,对剩余技术属性分别建立faiss索引,针对每个物料计算该品类下该物料技术属性向量与该品类下其他物料技术属性向量的距离;

51、模块m3.4:根据距离由近到远排序,计算每个点之间距离的梯度;若最小距离大于预设值,则无可替换物料,若最小距离小于预设值,找到梯度出现第一次剧烈上升的位置,取该梯度涉及到的第一个物料以及之前所有的物料,作为计算得到的目标物料的可替换物料,保留排序;针对所有物料进行计算得到每个物料对应的可替换物料集合。

52、与现有技术相比,本发明具有如下的有益效果:

53、1、本发明通过统计分析结合专家经验的物料技术属性结构,解决了物料技术属性难以规范数字化,技术属性重要性难以系统体现的问题;

54、2、本发明通过逐品类的faiss向量检索物料以及基于向量距离梯度召回可替换物料的方法,解决海量物料高维度技术属性向量检索速度慢准确度低,召回范围难以判断的问题,并确保只有必需技术属性相同的物料才会被作为可替换物料召回;

55、3、本发明通过引入带权重以及专家经验的技术属性框架,能够量化判断两个同类工业品之间在工业领域的相似程度,并判断两工业品之间是否可以互相替代。相比传统工业品领域基于文本相似度的物料相似度判读,或基于业务员手工归类的相似度判断,有效率高、专业性以及可解释性强、准确度高的优点。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1