商品匹配方法及系统的制作方法

文档序号:6434192阅读:187来源:国知局
专利名称:商品匹配方法及系统的制作方法
技术领域
本发明涉及一种商品匹配方法及系统,特别是涉及一种能自动识别不同网站的同种商品的商品匹配方法及系统。
背景技术
在电子商务蓬勃发展的今天,商品信息的比较、分析显得尤为重要。然而,各个网站对同一个商品的描述往往是不统一的,比如同样一只牙膏,A网站描述成“黑人牙膏洁白护齿家庭装500g”,B网站描述成“特价热销黑人牙膏全家装500克”,这给电脑识别和比较带来了困难,因为电脑是不了解语意的。由于商品描述不尽相同,用户在搜索某一商品时往往会无法搜全所要的商品,这从某种程度上给用户带来了一定的困扰。因此,期望能找到一种能消除商品描述上的误差、让电脑通过一定的方法识别语意、并且能应用于自动识别不同网站的同种商品的商品匹配方法及系统。

发明内容
本发明要解决的技术问题是为了克服现有技术中各个网站对同一个商品的描述往往是不统一的、相同商品不同表述会给用户带来困扰的缺陷,提供一种能消除商品描述上的误差、让电脑通过一定的方法识别语意、并且能应用于自动识别不同网站的同种商品的商品匹配方法及系统。本发明是通过下述技术方案来解决上述技术问题的一种商品匹配方法,其特点在于,其包括以下步骤先针对每件商品根据商品的商品描述确定商品类别,并根据商品类别调用与该商品类别相应的词库;将商品描述分为至少两个要素并为每个要素分配要素权值,其中以Pi来表示第i 个要素的要素权值,以η表示要素的个数,所有要素的要素权值之和为1 ;要素权值的分配, 跟商品类别有关,例如若商品是书籍类的,那么ISBN码(International Standard Book Number,国际标准书号)要素的要素权值是最高的,作者要素、出版社要素的要素权值就相对可以低一些;若商品是数码产品的,那么品牌要素、型号要素的要素权值比较高,颜色要素、产地要素等要素的要素权值可以低一些;利用该词库并按照每个要素将商品描述切词成至少一个要素关键词,以及格式化该至少一个要素关键词以统一要素关键词的格式;再针对每两件商品为每个要素建立分组映射,该分组映射为该两件商品的同一要素的要素关键词的集合;比如切词后A商品的品牌要素是“n0kia、诺基亚”,B商品的品牌要素是“诺基亚”, 那么“nokia、诺基亚”跟“诺基亚”就是该品牌要素的分组映射;计算每个分组映射的相似度,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度;计算该两件商品的匹配分值,该EESB分乃xf ;将该匹配分值与一阈值比较,若该匹配分值大于等于该阈值,则该两件商品相匹配,确定该两件商品为同一商品;若该匹配分值小于该阈值,则该两件商品不相匹配,确定该两件商品为不同商品。针对不同的商品类别,阈值是不一样的;有时即使是同一商品类另|J,当调用的词库变化后,阈值也可能随之变化。优选地,当第i个要素的分组映射的相似度Fi为0时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。也就是说,该分组映射中的两件商品的所有要素关键词都不同,即该分组映射中不存在相同的要素关键词,这种情况下,该要素的要素权值将转移分配至其他要素的要素权值,例如按一定比例转移至其他要素的要素权值。优选地,采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。例如,可以先构建一同义词库,该同义词词库包括简称、术语、学名、全称、拼音、 英文等都会收录到同义词库,之后利用该同义词词库统一要素关键词,将相同含义的要素关键词统一用语,方便后续的比较。对于一些用于表示商品型号、单位的外语字符、数字等, 采用格式化的方式来减少以不同方式撰写的外语字符对之后要素关键词比较的影响,如 N908、Π908、N九零八,会被格式化成n908,以方便后续的比较。优选地,该词库为品牌词库、商品通用名称词库、单位词库、属性词库、型号词库和常规词词库中的一种或多种。优选地,该利用该词库并按照每个要素将商品描述切词成至少一个要素关键词的步骤之前还包括以下步骤采用常规词词库切除商品描述中的介词和/或助词。优选地,该至少两个要素选自以下要素品牌要素、商品通用名称要素、单位要素、 属性要素和型号要素。本发明还提供一种商品匹配系统,其特点在于,其包括根据商品的商品描述确定商品类别的商品类别识别模块;根据商品类别调用与该商品类别相应的词库的词库调用模块;将商品描述分为至少两个要素并为每个要素分配要素权值的要素形成模块,其中以Pi来表示第i个要素的要素权值,以η表示要素的个数,所有要素的要素权值之和为1 ; 要素权值的分配,跟商品类别有关,例如若商品是书籍类的,那么ISBN码要素的要素权值是最高的,作者要素、出版社要素的要素权值就相对可以低一些;若商品是数码产品的,那么品牌要素、型号要素的要素权值比较高,颜色要素、产地要素等要素的要素权值可以低一些;利用该词库并按照每个要素将商品描述切词成至少一个要素关键词、以及格式化该至少一个要素关键词以统一要素关键词的格式的切词模块;以及,一针对每两件商品的子系统,其中该子系统还包括为每个要素建立分组映射的分组映射建立模块,该分组映射为该两件商品的同一要素的要素关键词的集合;比如切词后A商品的品牌要素是“n0kia、诺基亚”,B商品的品牌要素是“诺基亚”,那么“nokia、诺基亚”跟“诺基亚”就是该品牌要素的分组映射;
计算每个分组映射的相似度的相似度计算模块,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度;计算该两件商品的匹配分值的匹配分值计算模块,该匹配分值=I^x厂‘
/=1将该匹配分值与一阈值比较的比较模块,其中,若该匹配分值大于等于该阈值,则该两件商品相匹配,确定该两件商品为同一商品;若该匹配分值小于该阈值,则该两件商品不相匹配,确定该两件商品为不同商品。针对不同的商品类别,阈值是不一样的;有时即使是同一商品类别,当调用的词库变化后,阈值也可能随之变化。另外,该阈值可在系统运行一段时间后,由系统学习来自动设置。优选地,该子系统还包括一要素权值转移模块,用于当第i个要素的分组映射的相似度Fi为0时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。也就是说, 该分组映射中的两件商品的所有要素关键词都不同,即该分组映射中不存在相同的要素关键词,这种情况下,该要素的要素权值将转移分配至其他要素的要素权值,例如按一定比例转移至其他要素的要素权值。优选地,该切词模块还用于采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。例如,可以先构建一同义词库,该同义词词库包括简称、术语、 学名、全称、拼音、英文等都会收录到同义词库,之后利用该同义词词库统一要素关键词,将相同含义的要素关键词统一用语,方便后续的比较。对于一些用于表示商品型号、单位的外语字符、数字等,采用格式化的方式来减少以不同方式撰写的外语字符对之后要素关键词比较的影响,如N908、n908、N九零八,会被格式化成n908,以方便后续的比较。优选地,该词库为品牌词库、商品通用名称词库、单位词库、属性词库、型号词库和常规词词库中的一种或多种。优选地,该切词模块还用于采用常规词词库切除商品描述中的介词和/或助词。优选地,该至少两个要素选自以下要素品牌要素、商品通用名称要素、单位要素、 属性要素和型号要素。本发明的积极进步效果在于本发明提供的商品匹配方法及系统,消除了不同网站的同种商品在商品描述上的误差,得以自动识别不同网站的同种商品,在用户浏览、搜索某一商品时为用户提供了极大的便利,有效提高了搜索的查全率。


图1为本发明的一实施例的商品匹配方法的流程图。图2为本发明的一实施例的商品匹配系统的结构框图。图3为本发明的一实施例的商品匹配方法中的切词匹配示意图。
具体实施例方式下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
参 考图1,介绍本发明的一实施例的商品匹配方法。步骤101,先针对每件商品而言根据商品的商品描述确定商品类别,并根据商品类别调用与该商品类别相应的词库。例如品牌词库、商品通用名称词库、单位词库、属性词库、型号词库和常规词词库。步骤102,将商品描述分为至少两个要素。例如品牌要素、商品通用名称要素、单位要素、属性要素和型号要素。步骤103,为每个要素分配要素权值,其中以Pi来表示第i个要素的要素权值,以 η表示要素的个数,所有要素的要素权值之和为1 ;步骤104,利用该词库并按照每个要素将商品描述切词成至少一个要素关键词,以及格式化该至少一个要素关键词以统一要素关键词的格式。其中,在利用该词库并按照每个要素将商品描述切词成至少一个要素关键词之前可以先采用常规词词库切除商品描述中的介词和/或助词,这样有助于切词的准确性。具体来说,采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。步骤105,再针对每两件商品为每个要素建立分组映射,该分组映射为该两件商品的同一要素的要素关键词的集合。步骤106,计算每个分组映射的相似度,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度。特别地, 当第i个要素的分组映射的相似度Fi为0时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。步骤107,计算该两件商品的匹配分值,貞厂。
/=1步骤108,将该匹配分值与一阈值比较,若该匹配分值大于等于该阈值,则进入步骤109 ;若该匹配分值小于该阈值,则进入步骤110。步骤109,该两件商品相匹配,确定该两件商品为同一商品。步骤110,该两件商品不相匹配,确定该两件商品为不同商品。参考图2,介绍本发明的一实施例的商品匹配系统。如图2所示,该商品匹配系统,包括根据商品的商品描述确定商品类别的商品类别识别模块1 ;根据商品类别调用与该商品类别相应的词库的词库调用模块2,其中,该词库为品牌词库、商品通用名称词库、单位词库、属性词库、型号词库和常规词词库;将商品描述分为至少两个要素并为每个要素分配要素权值的要素形成模块3,例如,品牌要素、商品通用名称要素、单位要素、属性要素和型号要素,其中以Pi来表示第i个要素的要素权值,以η表示要素的个数,所有要素的要素权值之和为1 ;利用该词库并按照每个要素将商品描述切词成至少一个要素关键词、以及格式化该至少一个要素关键词以统一要素关键词的格式的切词模块4 ;以及,一针对每两件商品的子系统5,其中该子系统5还包括为每个要素建立分组映射的分组映射建立模块51,该分组映射为该两件商品的同一要素的要素关键词的集合;计算每个分组映射的相似度的相似度计算模块52,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度;计算该 两件商品的匹配分值的匹配分值计算模块53,貞砠=I^xf ;将该匹配分值与一阈值比较的比较模块54,其中,若该匹配分值大于等于该阈值, 则该两件商品相匹配,确定该两件商品为同一商品;若该匹配分值小于该阈值,则该两件商品不相匹配,确定该两件商品为不同商品。另外,该子系统5还包括一要素权值转移模块55,用于当第i个要素的分组映射的相似度Fi为0时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。其中,该切词模块4还用于采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。另外,该切词模块4还用于采用常规词词库切除商品描述中的介词和/或助词。接下来,参考图3,举一应用实例,进一步介绍本发明的商品匹配方法。如图3所示,以两件用不同商品描述的商品为例,简述商品匹配方法中切词和匹配的步骤,其中,两件商品的商品描述分别为海尔洗衣机XQS50-Z9288FM超低价5公斤双动力洗衣机,以及海尔洗衣机XQS50-Z9288FM。首先,进行切词的步骤将一个商品描述分成7个要素并切词成要素关键词(一般来说,品牌要素必须存在),这7个要素分别为要素1 品牌要素,如“诺基亚” “夏新”(按商品类别划分,比如大家电有大家电的商品品牌关键词集合,手机也有自己的品牌关键词集合);要素2 商品通用名称要素,如“洗衣粉” “空调”这样的通用名称;要素3 单位要素,如“20ml” “30kg,,;要素4 表示不同商品类别的商品属性的属性要素如大家电有“立柜”、“挂壁式”、“冷暖”、“双开”(冰箱的属性词);(一般属性是按商品类别划分的)要素5 表示商品通用属性的属性要素如商品颜色“红色” “银黑”之类的;要素6 型号要素,一般以字符和数字以及一些连接符组成的连续字符串表示;要素7 剩下的用通用切词方法切词后得到的关键词。切词需要词库,这里的词库是按照分组进行分类的如大家电的品牌有“夏新” “长虹” “飞利浦”等。按要素进行切词的需要按照一定的顺序,如要素6的切词需要放在要素3和要素1 之后,因为如果要素6在要素1和要素3之前进行切词,则会导致一部分的英文的品牌或者商品单位描述进入要素6,导致不同要素的切词混淆而导致最终匹配结果的不准确。同时, 需要一个按商品类别和要素划分类别同义词表,如手机的品牌同义词有Znokia”对应“诺基亚”,“联想”对应“Lenovo”。大家电的通用名同义词有“冰柜”与“电冰柜”同义,“陈列柜”与“展示柜”同义。通用的单位关键词同义词有单位“毫升”与“ml”同义,这样能统一相同含义的要素关键词以利于后续的匹配。接下来进行匹配的步骤切词是匹配的基础,在切词之后会得到7个要素,并且为两件商品的每个要素的建立分组映射,每个分组映射包含两件商品的该要素的所有要素关键词,在判断两个商品描述是否匹配的过程中,计算每个分组映射的相似度Fi,即两件商品的该要素的相同的要素关键词占该分组映射所有要素关键词的比例。 计算匹配分值^jPi+F^^+F^Ps+F^PjFdPs+FdPe+F^Pr将匹配分值与阈值比较以得出结果,这里要素总数η = 7。不同的商品类别,其要素的分组映射在匹配过程中的作用是不同的,所以需要根据不同的商品类别设置不同的要素的要素权值。前期主要靠人工设置这些要素权值,后期希望设计一套机器学习的方法自动地设置这些要素权值。当然,并不是任何情况都是按照这样的匹配分值进行匹配率的计算的,比如对于某些商品分类,如果分组1的Fi为1的情况下(表示是品牌匹配),分组6的Fi值也为1, 则不需要考虑其他分组的匹配情况,可以直接认为商品是匹配的。最后,参考图3,参照上述的要素1-7,简述一下切词和建立分组映射的过程。要素1的分组映射“海尔”、“海尔”;要素2的分组映射“洗衣机”、“洗衣机”;要素3的分组映射“5公斤”、无;要素6 的分组映射“XQS50-Z9288FM”、“XQS50-Z9288FM,,;要素7的分组映射“超低价、双动力”、无。虽然以上描述了本发明的具体实施方式
,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
权利要求
1.一种商品匹配方法,其特征在于,其包括以下步骤 先针对每件商品根据商品的商品描述确定商品类别,并根据商品类别调用与该商品类别相应的词库; 将商品描述分为至少两个要素并为每个要素分配要素权值,其中以Pi来表示第i个要素的要素权值,以η表示要素的个数,所有要素的要素权值之和为1 ;利用该词库并按照每个要素将商品描述切词成至少一个要素关键词,以及格式化该至少一个要素关键词以统一要素关键词的格式; 再针对每两件商品为每个要素建立分组映射,该分组映射为该两件商品的同一要素的要素关键词的集合;计算每个分组映射的相似度,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度;计算该两件商品的匹配分值,该匹配分值;/=1将该匹配分值与一阈值比较,若该匹配分值大于等于该阈值,则该两件商品相匹配,确定该两件商品为同一商品;若该匹配分值小于该阈值,则该两件商品不相匹配,确定该两件商品为不同商品。
2.如权利要求1所述的商品匹配方法,其特征在于,当第i个要素的分组映射的相似度 Fi为O时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。
3.如权利要求1所述的商品匹配方法,其特征在于,采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。
4.如权利要求1-3中任意一项所述的商品匹配方法,其特征在于,该词库为品牌词库、 商品通用名称词库、单位词库、属性词库、型号词库和常规词词库中的一种或多种。
5.如权利要求4所述的商品匹配方法,其特征在于,该利用该词库并按照每个要素将商品描述切词成至少一个要素关键词的步骤之前还包括以下步骤采用常规词词库切除商品描述中的介词和/或助词。
6.如权利要求4所述的商品匹配方法,其特征在于,该至少两个要素选自以下要素品牌要素、商品通用名称要素、单位要素、属性要素和型号要素。
7.—种商品匹配系统,其特征在于,其包括根据商品的商品描述确定商品类别的商品类别识别模块; 根据商品类别调用与该商品类别相应的词库的词库调用模块; 将商品描述分为至少两个要素并为每个要素分配要素权值的要素形成模块,其中以Pi 来表示第i个要素的要素权值,以η表示要素的个数,所有要素的要素权值之和为1 ;利用该词库并按照每个要素将商品描述切词成至少一个要素关键词、以及格式化该至少一个要素关键词以统一要素关键词的格式的切词模块;以及, 一针对每两件商品的子系统,其中该子系统还包括为每个要素建立分组映射的分组映射建立模块,该分组映射为该两件商品的同一要素的要素关键词的集合;计算每个分组映射的相似度的相似度计算模块,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度;计算该两件商品的匹配分值的匹配分值计算模块
8.如权利要求7所述的商品匹配系统,其特征在于,该子系统还包括一要素权值转移模块,用于当第i个要素的分组映射的相似度Fi为O时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。
9.如权利要求7所述的商品匹配系统,其特征在于,该切词模块还用于采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。
10.如权利要求7-9中任意一项所述的商品匹配系统,其特征在于,该词库为品牌词库、商品通用名称词库、单位词库、属性词库、型号词库和常规词词库中的一种或多种。
11.如权利要求10所述的商品匹配系统,其特征在于,该切词模块还用于采用常规词词库切除商品描述中的介词和/或助词。
12.如权利要求10所述的商品匹配系统,其特征在于,该至少两个要素选自以下要素 品牌要素、商品通用名称要素、单位要素、属性要素和型号要素。
全文摘要
本发明公开了一种商品匹配方法,包括确定商品类别并调用与商品类别相应的词库;将商品描述分为至少两个要素并为每个要素分配要素权值;利用词库并按照每个要素将商品描述切词成至少一个要素关键词;针对每两件商品为每个要素建立分组映射;计算每个分组映射的相似度;计算该两件商品的匹配分值,该匹配分值=;将该匹配分值与一阈值比较,若该匹配分值大于等于该阈值,则确定该两件商品为同一商品;若该匹配分值小于该阈值,则确定该两件商品为不同商品。本发明还公开了一种商品匹配系统。本发明提供的商品匹配方法及系统,消除了不同网站的同种商品在商品描述上的误差,得以自动识别不同网站的同种商品。
文档编号G06Q30/00GK102332137SQ20111028871
公开日2012年1月25日 申请日期2011年9月23日 优先权日2011年9月23日
发明者黄哲铿 申请人:纽海信息技术(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1