确定商品匹配信息的方法、系统、电子设备及存储介质与流程

文档序号：22390685发布日期：2020-09-29 17:55阅读：157来源：国知局

本发明涉及互联网技术领域，特别涉及一种确定商品匹配信息的方法、系统、电子设备及存储介质。

背景技术：

排序模型在现实中有许多应用，比如搜索引擎。搜索引擎会根据用户的输入为每个与之关联的数据打分，将这些数据按照得分由高到低排列即可得到搜索结果。同样，在商品匹配应用中，也可以基于排序算法来做匹配推荐。下面以sigmoid(一种s型函数)函数作为排序模型为例，来说明商品匹配的应用。

sigmoid函数为：

其中x为特征，θ为特征权重。

在商品匹配中，如果排序模型是上述sigmoid函数，那么此函数值就是最终匹配关系的相似度(或者称为得分)，得分越高越有可能成为匹配关系，存在匹配关系的商品往往有若干共同的特征，比如有相同的品牌词、产品词、规格，价格和标题句向量的余弦相似度的差距不大等，如果将满足某个特征标记为1，不满足标记为0，显然存在更多的相同特征对于两个商品成为匹配关系更有利。采用上述特征进行商品的匹配的召回率较高，如何提升商品匹配的召回率是一个需要解决的问题。

另外，商品匹配中经常遇到特征大规模缺失的情况，如何利用已有特征来优化排序一直是一个技术难题。在实现本发明过程中，发明人发现现有技术中只能针对特征有少量缺失的情况进行优化，一般是根据其它特征找到与缺失特征的数据接近的其他数据，用其他数据在这个特征维度上的值来近似计算缺失的特征，比如可以对近似数据的相同维度的特征求平均。但是对于某个或某几个维度的特征有大量缺失值的情况则缺少有效的解决方式，这对商品匹配应用中的预测的准确性产生较大的负面影响。

技术实现要素：

本发明要解决的技术问题是为了克服现有技术中商品匹配的召回率较高以及对于商品的某个或某几个维度的特征有大量缺失值的情况缺少有效的解决方式，对商品匹配应用中的预测效果产生较大的影响的缺陷，提供一种能够利用特征并合理处理缺失值以及对相关特征的权重进行优化进而提高商品匹配时的预测效果的确定商品匹配信息的方法、系统、电子设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明实施例提供了一种确定商品匹配信息的方法，每个所述商品包括销售属性和商品标题，待匹配的两个所述商品分别为第一商品和第二商品，所述第一商品属于第一类商品，所述第二商品属于第二类商品，所述方法包括以下步骤：

构建第一模型，使用第一历史数据和第二历史数据生成训练数据集，使用所述训练数据集对所述第一模型进行训练；

其中，所述第一历史数据为所述第一类商品的包括销售属性和商品标题的历史数据，所述第二历史数据为所述第二类商品的包括销售属性和商品标题的历史数据；

基于所述第一模型使用所述第一商品的销售属性和商品标题与所述第二商品的销售属性和商品标题交叉匹配计算得到所述第一商品和所述第二商品构成的商品对所对应的销售属性的特征向量；

基于排序模型使用所述销售属性的特征向量计算所述第一商品和所述第二商品的匹配度。

较佳地，所述训练数据集包括若干条训练数据，每条所述训练数据包括n个特征，n为大于等于2的整数；

构建的所述第一模型为

其中，i为取值1至n的整数变量；

xi表示第i个特征；

ai表示xi对应的第一权重参数；

bi表示xi对应的第二权重参数；

wi表示xi对应的第一系数；

所述使用所述训练数据集对所述第一模型进行训练的步骤包括以下步骤：

利用所述训练数据集确定所述第一模型中的所述第一权重参数ai、所述第二权重参数bi和所述第一系数wi。

较佳地，所述第一历史数据的数量为p条，p为大于1的自然数；

所述第二历史数据的数量为q条，q为大于1的自然数；

所述使用所述第一历史数据和所述第二历史数据生成训练数据集的步骤包括以下步骤：

将p条所述第一历史数据与q条所述第二历史数据两两组合生成p*q组历史商品对，对每对所述历史商品对进行标注以得到对应的标签，所述标签包括匹配和不匹配；

将每对所述历史商品对中的所述第一历史数据对应的销售属性和所述第二历史数据对应的销售属性分别拆分出汉字、字母和数字三个特征维度，其中缺失的所述特征维度置空；

计算每对所述历史商品对中的所述第一历史数据对应的销售属性的所述汉字、所述字母、所述数字分别与所述第二历史数据对应的标题的雅克比相似度，以得到所述历史商品对对应的第一特征x1、第二特征x2和第三特征x3，计算每对所述历史商品对中的所述第二历史数据对应的销售属性的所述汉字、所述字母、所述数字分别与所述第一历史数据对应的标题的雅克比相似度，以得到所述历史商品对对应的第四特征x4、第五特征x5和第六特征x6；

将每对所述历史商品对的所述第一特征x1、所述第二特征x2、所述第三特征x3、所述第四特征x4、所述第五特征x5、所述第六特征x6以及对应的所述标签生成历史商品序列；

其中，p*q条所述历史商品序列组成所述训练数据集；所述训练数据集中置空的所述特征维度对应的xi不填充。

较佳地，所述利用所述训练数据集确定所述第一模型中的所述第一权重参数ai、所述第二权重参数bi和所述第一系数wi的步骤中确定所述第一权重参数ai、所述第二权重参数bi包括以下步骤：

通过梯度下降法利用所述训练数据集分别求解单个特征xi对应的所述第一权重参数ai、所述第二权重参数bi；

其中所述梯度下降法使用的损失函数loss为：

其中，yi表示所述标签，取值为-1时表示不匹配，取值为1时表示匹配；m表示所述训练数据集的数量；x′是二维向量。

较佳地，所述利用所述训练数据集确定所述第一模型中的所述第一权重参数ai、所述第二权重参数bi和所述第一系数wi的步骤中确定所述第一系数wi包括以下步骤：

测试所述第一系数wi对应的xi的分类准确率pi；

使用softmax计算所述第一系数wi，计算公式为：

较佳地，所述基于所述第一模型使用所述第一商品的销售属性和商品标题与所述第二商品的销售属性和商品标题交叉匹配计算得到所述第一商品和所述第二商品构成的商品对所对应的销售属性的特征向量的步骤包括以下步骤：

将所述第一商品对应的销售属性和所述第二商品对应的销售属性分别拆分出汉字、字母和数字三个特征维度，其中缺失的所述特征维度置空；

分别计算所述第一商品对应的销售属性的所述汉字、所述字母、所述数字分别与所述第二商品对应的标题的雅克比相似度，以得到所述第一商品与所述第二商品组成的商品对对应的第一特征x1、第二特征x2和第三特征x3，分别计算所述第二商品对应的销售属性的所述汉字、所述字母、所述数字分别与所述第一商品对应的标题的雅克比相似度，以得到所述第一商品与所述第二商品组成的商品对对应的第四特征x4、第五特征x5和第六特征x6；

使用witanh(ai·xi+bi)分别对所述第一商品与所述第二商品组成的商品对的特征xi进行特征变换以得到所述第一商品和所述第二商品构成的商品对所对应的销售属性的特征向量中的特征，其中置空的所述特征维度对应的所述第一商品和所述第二商品构成的商品对所对应的销售属性的特征向量中的特征置0。

较佳地，所述基于排序模型使用所述销售属性的特征向量计算所述第一商品和所述第二商品的匹配度的步骤中还使用以下特征向量中的至少一个计算所述第一商品和所述第二商品的匹配度：所述商品的标题句向量的余弦相似度、所述商品的品牌词、所述商品的产品词、所述商品的规格以及所述商品的价格。

本发明另一实施例提供了一种确定商品匹配信息的系统，每个所述商品包括销售属性和商品标题，待匹配的两个所述商品分别为第一商品和第二商品，所述第一商品属于第一类商品，所述第二商品属于第二类商品，所述系统包括：

模型生成模块，用于构建第一模型，使用第一历史数据和第二历史数据生成训练数据集，使用所述训练数据集对所述第一模型进行训练；

特征向量计算模块，用于基于所述第一模型使用所述第一商品的销售属性和商品标题与所述第二商品的销售属性和商品标题交叉匹配计算得到所述第一商品和所述第二商品构成的商品对所对应的销售属性的特征向量；

匹配度计算模块，用于基于排序模型使用所述销售属性的特征向量计算所述第一商品和所述第二商品的匹配度。

本发明另一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述实施例提供的确定商品匹配信息的方法。

本发明另一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述实施例提供的确定商品匹配信息的方法的步骤。

本发明的积极进步效果在于：本发明提供的确定商品匹配信息的方法、系统、电子设备及存储介质通过在商品匹配过程中引入销售属性这一特征，使得商品匹配的召回率显著提升。针对商品匹配中商品的销售属性存在大量缺失值的情况，提出了一种合理的处理方式。通过构建模型，对历史数据组成的历史商品对对应的销售属性与商品标题交叉匹配计算相似度得到训练数据集，使用训练数据集确定模型中不同特征的权重参数及系数，使用确定了最终的参数及系数的模型对待匹配的商品对的特征的取值范围拉伸到(-1,1)区间，具体使用双曲正切函数配合线性函数进行拉伸，当特征缺失时，直接给对应特征置0，这样保证了缺失的销售属性对最终商品匹配时的整体得分没有影响。

附图说明

图1为本发明实施例1的确定商品匹配信息的方法的流程图。

图2为本发明实施例2的确定商品匹配信息的系统的模块示意图。

图3为本发明实施例3的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供了一种确定商品匹配信息的方法，每个所述商品包括销售属性和商品标题，待匹配的两个所述商品分别为第一商品和第二商品，所述第一商品属于第一类商品，如京东的商品，所述第二商品属于第二类商品，如淘宝的商品；销售属性类似于衣服的颜色或尺寸等。如图1所示，所述方法包括以下步骤：

步骤101、获取第一商品的销售属性和商品标题以及第二商品的销售属性和商品标题。

步骤102、获取第一历史数据和第二历史数据。

其中，所述第一历史数据为所述第一类商品的包括销售属性和商品标题的历史数据，所述第二历史数据为所述第二类商品的包括销售属性和商品标题的历史数据。所述第一历史数据的数量为p条，p为大于1的自然数；所述第二历史数据的数量为q条，q为大于1的自然数。

步骤103、将p条所述第一历史数据与q条所述第二历史数据两两组合生成p*q组历史商品对，对每对所述历史商品对进行标注以得到对应的标签，所述标签包括匹配和不匹配。

本实施例中，p和q取值均为50，也就是组成了2500组历史商品对。

步骤104、将每对所述历史商品对中的所述第一历史数据对应的销售属性和所述第二历史数据对应的销售属性分别拆分出汉字、字母和数字三个特征维度，其中缺失的所述特征维度置空。

步骤105、计算每对所述历史商品对中的所述第一历史数据对应的销售属性的所述汉字、所述字母、所述数字分别与所述第二历史数据对应的标题的雅克比相似度，以得到所述历史商品对对应的3个特征，分别为第一特征x1、第二特征x2和第三特征x3，计算每对所述历史商品对中的所述第二历史数据对应的销售属性的所述汉字、所述字母、所述数字分别与所述第一历史数据对应的标题的雅克比相似度，以得到所述历史商品对对应的另外3个特征，分别为第四特征x4、第五特征x5和第六特征x6。

其中，雅可比相似度＝商品标题与销售属性的字符串的交集/两者的字符串的并集。

本发明中，对于销售属性进行特征拆分的维度可以有多种，不同的拆分方式得到的特征的数量不同。虽然本实施例中以对销售属性的特征的拆分从汉字、字母及数字三个维度为例进行说明，但本实施例并不对销售属性的特征拆分的具体数量进行限制，本领域技术人员可以根据具体业务需求而适应性的设置销售属性的特征的拆分角度，例如：也可以从整个字符串一个特征维度进行拆分，最后一对历史商品对得到的特征就是两个，分别为第一历史数据中的商品的销售属性的字符串与第二历史数据中的商品的标题的字符串计算相似度得到特征1，第二历史数据中的商品的销售属性的字符串与第一历史数据中的商品的标题的字符串计算得到特征2。

步骤106、将每对所述历史商品对的所述第一特征x1、所述第二特征x2、所述第三特征x3、所述第四特征x4、所述第五特征x5、所述第六特征x6以及对应的所述标签生成历史商品序列。

其中，p*q条也就是2500条所述历史商品序列组成所述训练数据集，该训练数据集的行数为2500，列数为7，其中6列为特征列，另外一列为标签列。具体应用中根据具体业务需求也可以增加其它列数据。所述训练数据集中置空的所述特征维度对应的xi不填充。每条所述训练数据包括n个特征，n为大于等于2的整数；本实施例中n＝6。

步骤107、构建第一模型

其中，tanh为双曲正切函数；

i为取值1至n的整数变量；

xi表示第i个特征；

ai表示xi对应的第一权重参数；

bi表示xi对应的第二权重参数；

wi表示xi对应的系数。

步骤108、利用所述训练数据集确定所述第一模型中的第一权重参数ai、第二权重参数bi和系数wi。

步骤109、将所述第一商品对应的销售属性和所述第二商品对应的销售属性分别拆分出汉字、字母和数字三个特征维度，其中缺失的所述特征维度置空。

步骤110、计算所述第一商品对应的销售属性的所述汉字、所述字母、所述数字分别与所述第二商品对应的标题的雅克比相似度，以得到所述第一商品与所述第二商品组成的商品对对应的第一特征x1、第二特征x2和第三特征x3，分别计算所述第二商品对应的销售属性的所述汉字、所述字母、所述数字分别与所述第一商品对应的标题的雅克比相似度，以得到所述第一商品与所述第二商品组成的商品对对应的第四特征x4、第五特征x5和第六特征x6。

步骤111、使用witanh(ai·xi+bi)分别对所述第一商品与所述第二商品组成的商品对的特征xi进行特征变换以得到所述第一商品和所述第二商品构成的商品对所对应的销售属性的特征向量中的特征，其中置空的所述特征维度对应的所述第一商品和所述第二商品构成的商品对所对应的销售属性的特征向量中的特征置0。

本步骤中，输入witanh(ai·xi+bi)中的是拆分出来的六个特征，也就是六个雅克比相似度的计算结果，但是每个特征需要单独输入，分别计算出最后的特征值。

其中，对销售属性的特征的取值范围拉伸的办法是使用双曲正切函数配合线性函数，特征变换的函数是：tanh(ai·xi+bi)。

步骤112、基于排序模型使用商品的标题句向量的余弦相似度、商品的品牌词、商品的产品词、商品的规格、商品的价格以及商品的销售属性的特征向量计算所述第一商品和所述第二商品的匹配度。

本发明中无法对第一模型直接使用梯度下降法，因为不但销售属性整体缺失的情况比较严重，而且对于销售属性不缺失时，也不能保证数字、字母、汉字这几个维度的特征同时存在。本实施例提供的解决方案是，假设特征之间相互独立，可以分步求解相关参数，因为不同维度上特征的变化对其他特征不产生影响，所以这种求解方式具有合理性。

本实施例中，步骤108中确定第一权重参数ai、第二权重参数bi包括以下步骤：

通过梯度下降法利用所述训练数据集分别求解单个特征xi对应的第一权重参数ai、第二权重参数bi，对于本实施例而言，也即先求解第一特征x1对应的a1、b1，然后再依次求解第二特征x2对应的a2、b2，以此类推，直至求解完六个特征的参数。

其中所述梯度下降法使用的损失函数loss为：

其中，yi表示所述标签，取值为-1时表示不匹配，取值为1时表示匹配；m表示所述训练数据集的数量，理论该值越大越好，为了使训练数据分布能够与真实数据分布保持一致，本实施例中为2500；x′是二维向量。

求解所述损失函数loss的极小值的步骤包括：

使用对数似然函数对所述损失函数loss做等价变换，公式如下：

对求偏导数公式如下：

其中j表示向量。

本实施例中，步骤108中确定系数wi包括以下步骤：

测试系数wi对应的xi的分类准确率pi；

使用softmax计算系数wi，计算公式为：

本步骤中，直接拿一个雅克比相似度做一个二分类，匹配或不匹配，然后求分类准确率。具体求解分类准确率pi的方法有很多现有的实现方式，在此不再赘述。

本实施例中，基于训练数据集，也即本实施例中步骤106得到的2500*7的数据集，将其输入至构建的第一模型中经过步骤108确定模型中最佳的参数和系数。然后使用确定了参数和系数的第一模型对新的商品对的销售属性的特征进行特征变换得到特征值处于(-1,1)之间的特征向量，也即两个商品在销售属性上的相似度，这个值作为销售属性上的特征和品牌词特征、产品词特征等一起参与到基于排序模型计算两个商品是否匹配，对于缺失值对应的特征在特征变换后直接置0。

本实施例提供的确定商品匹配信息的方法通过在商品匹配过程中引入销售属性这一特征，使得商品匹配的召回率显著提升。针对商品匹配中商品的销售属性存在大量缺失值的情况，提出了一种合理的处理方式。通过构建模型，对历史数据组成的历史商品对对应的销售属性与商品标题交叉匹配计算相似度得到训练数据集，使用训练数据集确定模型中不同特征的权重参数及系数，使用确定了最终的参数及系数的模型对待匹配的商品对的特征的取值范围拉伸到(-1,1)区间，具体使用双曲正切函数配合线性函数进行拉伸，当特征缺失时，直接给对应特征置0，这样保证了缺失的销售属性对最终商品匹配时的整体得分没有影响。

实施例2

本实施例提供了一种确定商品匹配信息的系统，每个所述商品包括销售属性和商品标题，待匹配的两个所述商品分别为第一商品和第二商品，所述第一商品属于第一类商品，所述第二商品属于第二类商品，所述系统包括模型生成模块1、特征向量计算模块2以及匹配度计算模块3。

模型生成模块1用于构建第一模型，使用第一历史数据和第二历史数据生成训练数据集，使用所述训练数据集对所述第一模型进行训练。

其中，所述第一历史数据为所述第一类商品的包括销售属性和商品标题的历史数据，所述第二历史数据为所述第二类商品的包括销售属性和商品标题的历史数据。

特征向量计算模块2用于基于所述第一模型使用所述第一商品的销售属性和商品标题与所述第二商品的销售属性和商品标题交叉匹配计算得到所述第一商品和所述第二商品构成的商品对所对应的销售属性的特征向量。

匹配度计算模块3用于基于排序模型使用所述销售属性的特征向量计算所述第一商品和所述第二商品的匹配度。

本发明提供的确定商品匹配信息的系统通过在商品匹配过程中引入销售属性这一特征，使得商品匹配的召回率显著提升。针对商品匹配中商品的销售属性存在大量缺失值的情况，提出了一种合理的处理方式。通过构建模型，对历史数据组成的历史商品对对应的销售属性与商品标题交叉匹配计算相似度得到训练数据集，使用训练数据集训练模型，再使用训练后的模型对待匹配的商品对的销售属性和商品标题交叉匹配计算得到销售属性的特征向量，最后再利用该特征向量计算得到两个商品的匹配度，保证了缺失的销售属性对最终商品匹配时的整体得分没有影响。

实施例3

图3为本发明实施例3提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1的确定商品匹配信息的方法。图3显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(ram)321和/或高速缓存存储器322，还可以进一步包括只读存储器(rom)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1所提供的确定商品匹配信息的方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1所提供的确定商品匹配信息的方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1所述的确定商品匹配信息的方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：安旭;贾宝玉
技术所有人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。