将商品对象挂载到标准产品单元的方法及系统的制作方法

文档序号:8457285阅读:602来源:国知局
将商品对象挂载到标准产品单元的方法及系统的制作方法
【技术领域】
[0001] 本申请涉及商品对象信息分析技术领域,特别是涉及将商品对象挂载到标准产品 单元的方法及系统。
【背景技术】
[0002] 在一个电子商务网站中,存在大量的交易信息,其中包括卖家出售的商品对象的 描述信息。这些商品对象的描述信息一般是卖家在发布商品对象是通过枚举输入产生的。 在实际应用中,出于获得更1?的搜索命中率等目的,卖家在发布商品对象时,在对商品对象 的名称进行描述时,除了最基本的商品名、型号等信息之外,往往还会添加进一些属性信息 到名称中。例如,某商品对象是一款iPhone5S手机,但是卖家可能会将其名称描述为:"苹 果iPhone5S16G内存800W像素",另外一卖家可能会将其名称描述为:"假一赔命Apple/苹 果iPhone5S代手机16G32G国际无锁正品包邮",等等。这就会出现以下情况:许多不同的 卖家会出售本质上相同的商品对象,但是对商品对象名称的具体描述却千差万别。
[0003] 另一方面,电子商务网站可以采用标准产品单元(Standard Product Unit, SPU) 来描述本质上相同的商品。SPU是一组可复用、易检索的标准化信息的集合,该集合描述 了一个产品最本质的特性。例如,在前述手机的例子中,对应的SPU就可以描述为"苹果/ iPhone5S16G",等等。在实际应用中,往往会具有将商品对象映射到标准产品单元SPU的需 求。将商品对象映射到SPU后的应用有很多。例如:通过观察同一 SPU下不同商品的价格 分布,识别电子商务中的假货问题;通过分析相同SPU商品的交易,可以得到电子商务领域 中商品的供应链关系;通过识别相同SPU的商品,可以改进搜索结果的用户体验;等等。但 是,如何将商品映射到SPU,是电子商务领域的基础性难题。
[0004] 现有技术对于商品挂载到SPU的处理方式为,让卖家自行填写商品的各种属性以 及属性值,当商品的关键属性的属性值与SPU的关键属性的属性值完全匹配时,将商品挂 载到该SPU上。
[0005] 可见,现有技术中的实现方式中,挂载结果的准确性在很大程度上依赖于用户手 动输入的属性及属性值的准确性。但是,由于电子商务领域的属性与属性值的可能取值太 过庞大,以至于卖家填写的过程非常复杂,而且在这种复杂的过程中,卖家往往会由于各种 原因,发生漏填、错填或者填写不规范内容的情况。在这种情况下,商品就无法正常的挂载 到正确的SPU上,这不但会降低商品发布效率,而且会浪费网络资源。
[0006] 因此,如何更准确地将商品对象自动挂载到正确的SPU上,是迫切需要本领域技 术人员解决的技术问题。

【发明内容】

[0007] 本申请提供了将商品对象挂载到标准产品单元的方法及系统,能够更准确地将商 品对象自动挂载到正确的SPU上。
[0008] 本申请提供了如下方案:
[0009] -种将商品对象挂载到标准产品单元的方法,包括:
[0010] 对商品对象以及标准产品单元SPU的文本描述信息分别进行分词,并计算各个分 词在对应文本描述信息中的权重,获取各个分词所属的类型,以便将各个商品对象以及SPU 分别用一个或多个〈分词,权重,类型〉三元组组成的三元组向量进行描述;其中,类型包括 品牌词、产品词、属性词或普通词;
[0011] 获取第一训练数据,其中,各个SPU下预先挂载有预置数目的商品对象;对挂载在 同一 SPU下的各个商品对象分别对应的三元组进行聚类,生成SPU聚类中心;
[0012] 基于各个商品对象以及SPU聚类中心的三元组向量,获取与商品对象的距离小于 预置阈值的所有目标SPU聚类中心;
[0013] 将各个商品对象分别表示为〈商品对象,目标SPU聚类中心〉二元组,并针对各个 二元组,分别进行特征提取,将二元组分别表示为特征向量;
[0014] 针对预置数目的二元组,获取标注信息,得到第二训练数据,所述标注信息用于表 示商品对象是否属于对应的目标SPU聚类中心;
[0015] 根据第二训练数据中的各个特征向量以及所述标注信息,对预置的回归模型中的 参数进行拟合,建立回归模型;
[0016] 将待预测的商品对象的特征向量输入到所述回归模型中,根据预测结果确定待预 测的商品对象所属的SPU,并将待预测的商品对象挂载到所述的SPU下,以便向相关应用提 供挂载结果。
[0017] 一种将商品对象挂载到标准产品单元的系统,包括:
[0018] 文本处理单元,用于对商品对象以及标准产品单元SPU的文本描述信息分别进行 分词,并计算各个分词在对应文本描述信息中的权重,获取各个分词所属的类型,以便将各 个商品对象以及SPU分别用一个或多个〈分词,权重,类型〉三元组组成的三元组向量进行 描述;其中,类型包括品牌词、产品词、属性词或普通词;
[0019] 聚类单元,用于获取第一训练数据,其中,各个SPU下预先挂载有预置数目的商品 对象;对挂载在同一 SPU下的各个商品对象分别对应的三元组进行聚类,生成SPU聚类中 心;
[0020] 近似对象识别单元,用于基于各个商品对象以及SPU聚类中心的三元组向量,获 取与商品对象的距离小于预置阈值的所有目标SPU聚类中心;
[0021] 特征提取单元,用于将各个商品对象分别表示为〈商品对象,目标SPU聚类中心〉 二元组,并针对各个二元组,分别进行特征提取,将二元组分别表示为特征向量;
[0022] 训练数据获取单元,用于针对预置数目的二元组,获取标注信息,得到第二训练数 据,所述标注信息用于表示商品对象是否属于对应的目标SPU聚类中心;
[0023] 回归模型建立单元,用于根据第二训练数据中的各个特征向量以及所述标注信 息,对预置的回归模型中的参数进行拟合,建立回归模型;
[0024] 预测单元,用于将待预测的商品对象的特征向量输入到所述回归模型中,根据预 测结果确定待预测的商品对象所属的SPU,并将待预测的商品对象挂载到所述的SPU下,以 便向相关应用提供挂载结果。
[0025] 根据本申请提供的具体实施例,本申请公开了以下技术效果:
[0026] 通过本申请实施例,为SPU识别问题特别设计了文本挖掘方法,在该方法中,首先 将商品对象以及SPU的文本描述信息用一个或多个〈分词,权重,类型〉三元组组成的向量 来表示,并根据已经正确挂载到SPU下的部分商品对象进行聚类,得到SPU聚类中心,这样, 可以提供丰富的语义信息;之后,为了降低计算量,还可以首先针对各个商品对象,计算出 与商品对象距离比较仅的部分目标SPU聚类中心,再基于部分训练数据中的商品对象与目 标SPU聚类中心组成的二元组进行模型的训练,利用训练出的模型对商品对象进行预测。 这样可以将各个商品对象挂载到对应的SPU上,并且由于语义信息比较丰富,可以得到较 高的准确性。
[0027] 其次,本申请实施例还提供了 TF,IDF,Cosine距离,扩展Jaccard距离等各种距 离度量指标。通过上述方法,提供丰富的信息帮助最终的决策判断。另外,为了自动给商 品对象推荐SPU,需要计算每个商品对象与SPU之间的COSINE相似性。本申请实施例通过 COSINE相似性与扩展Jaccard距离之
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1