选购热点标签的挖掘方法

文档序号:9727412阅读:300来源:国知局
选购热点标签的挖掘方法
【技术领域】
[0001 ]本发明提供一种基于海量商品数据的选购热点标签挖掘方法。
【背景技术】
[0002]随着电子商务迅速的发展,网上购物由于其节省时间和提供丰富的可对比选择商 品受到人们的青睐。目前京东(公司名称)商品库中有海量的商品提供给用户选择,随着商 品数量的剧增、商品名称书写的不规范等因素的出现,当用户搜索一类产品时,搜索结果页 会召回成千上万的商品,用户可能在短时间内无法获取当前比较流行的各个元素的商品。 例如,用户搜索连衣裙,召回的商品包含成千上万,可能排名靠前的并不是用户喜欢的类 型,用户无法短时间内找到自己心仪的商品,这样可能会造成部分用户流失。有些比较有耐 心的用户,会在搜索框中补充信息,如:"修身显瘦连衣裙"、"蕾丝拼接连衣裙","小香风连 衣裙"等,搜索自己喜欢类型的连衣裙。通过用户增加关键词召回商品增加了用户购物的复 杂性。
[0003 ]结合用户喜欢选购当前比较流行元素的商品这一习惯,我们从海量的商品中结合 商品类目、该类目下商家最近上架的商品描述的文本信息和用户的搜索习惯,挖掘出各个 类别商品的热点选购词。给每一个商品打上标签,这些标签可以反映当前该类商品流行的 趋势,选购热点标签将商品的卖点及特色以一种比较简洁的方式展示给用户,可以对用户 进行导购,将其从海量的商品选购中解放出来。
[0004] 热点选购标签与其他导航属性相比,更能吸引用户的眼球,符合大众挑选用户的 习惯,节省用户购买商品的成本。
[0005] 与本发明相关的技术有新词识别,新词识别主要有两类方法:一是基于统计的方 法,对待处理的文本统计其重复字符串的频率,然后利用信息熵计算词边界;二是基于监督 的方法,首先选取能区分词边界的特征,然后利用大量训练语料训练,利用学习的模型进行 分词。
[0006] 现有技术存在以下缺点。现有技术虽然可以提取到新词,但是选购热点标签又不 同于一般的新词,选购热点标签大部分是修饰新词,目前还没有修饰词提取较为成熟的技 术。目前电子商务网站中的选购热点标签都是由运营人员编辑设定的,所以存在不能及时 发现并更新的问题。而且维护这些标签会浪费大量的人力物力。

【发明内容】

[0007] 本发明提供一种基于海量商品数据的选购热点标签挖掘方法,其目的有两个:一 是将商品的卖点及特色以一种比较简单的方式展示给用户,可以对用户进行导购,将其从 海量的商品选购中解放出来;二是减少运营人员的工作量,并完成及时更新,最快地将最近 的选购热点标签反映给用户。
[0008] 与本发明相关的主要技术有以下三个方面:
[0009] ?按照商品类目挖掘标签,该技术是新词识别,将描述商品的材质、
[0010] 类型、风格的词识别出来,这类词主要是修饰词。
[0011] ?优质搜索词提取,该技术提取用户点击率高于基准值(例如1000次)
[0012] 的搜索词(即,优质搜索词),过滤掉用户反馈不好以及包含错别字
[0013] 的搜索词。
[0014] ?产品词类别判断,该技术是高相关分类,通过用户在一段时间内的
[0015] 搜索点击行为给搜索词一个最相关的类目信息。
[0016] 本发明的选购热点标签的挖掘方法包括以下步骤:搜索步骤,根据用户输入的关 键词进行搜索,得到与搜索结果有关的商品标题;分词步骤,使用分词工具对搜索到的商品 标题进行分词;组合步骤,使用语言模型N-Gram对分词结果进行组合,得到候选标签;和交 集步骤,将使用最大匹配算法对优质搜索词和用户输入的关键词进行处理而得到的修饰词 与在上述候选标签做交集,从而获得选购热点标签,其中,上述优质搜索词是指在有效时间 内,点击搜索率高于某阈值的查询式。
[0017]发明效果
[0018] 根据本发明,能将商品的卖点及特色以一种比较简单的方式展示给用户,可以对 用户进行导购,将其从海量的商品选购中解放出来,另外能减少运营人员的工作量,并完成 及时更新,最快地将最近的选购热点标签反映给用户。
【附图说明】
[0019] 图1是表示本发明的概要的流程图。
[0020] 图2是利用优质搜索词挖掘选购热点标签的流程图。
[0021 ]图3是利用高相关分类挖掘选购热点标签的流程图。
【具体实施方式】
[0022]下面结合图1对本发明的概要进行说明,图1是表示本发明的概要的流程图。
[0023] 本发明的一方式的选购热点标签的挖掘方法,包括以下步骤:搜索步骤,根据用户 输入的关键词进行搜索,得到与搜索结果有关的商品标题;分词步骤,使用分词工具对搜索 到的商品标题进行分词;组合步骤,使用语言模型N-Gram对分词结果进行组合,得到候选标 签;和交集步骤,将使用最大匹配算法对优质搜索词和用户输入的关键词进行处理而得到 的修饰词与在上述候选标签做交集,从而获得选购热点标签,其中,上述优质搜索词是指在 有效时间内,点击搜索率高于某阈值的查询式。
[0024] 根据上述方式所述的选购热点标签的挖掘方法,其中,在上述组合步骤中,保留组 合之后词长大于等于第1词长且小于等于第2词长的标签,并且对只包含字母和汉字的标签 进行N-Gram计算,其中,上述第1词长小于上述第2词长。
[0025] 根据上述方式所述的选购热点标签的挖掘方法,其中,在上述组合步骤中,在采用 语言模型N-Gram获取候选标签时删除了商品标题的前部和后部的商品信息。
[0026] 根据上述方式所述的选购热点标签的挖掘方法,其中,在上述组合步骤中,在采用 语言模型N-Gram获取候选标签时删除了商品标题的前部1/5和后部1/5的商品信息。
[0027] 根据上述方式所述的选购热点标签的挖掘方法,其中,上述优质搜索词满足的条 件如下:条件(1),搜索词在最近N天的点击搜索日志中出现,其中N = 7;条件(2),累计搜索 量大于等于某阈值TIME,其中TIME = 100;条件(3),点击搜索率大于等于某阈值P,其中P = 15%〇
[0028]根据上述方式所述的选购热点标签的挖掘方法,其中,挖掘上述优质 [0029]搜索词的步骤包括:当EK 7时,一旦满足上述条件(1 )、(2)、(3),则输出查询式,作 为优质搜索词,当满足上述条件(1)、(2)且不满足条件(3)时,则输出查询式,作为低反馈 词,该低反馈词是指点击搜索率低于某阈值的搜索词,当只满足上述条件(1)时,继续计算 第D+1天的点击搜索量;当D>7时,将不符合上述条件(1)的查询式输出,其余的处理逻辑与 D < 7的情况相同,当D = 180时,结束统计,其中,上述D是指统计的日期距当日的天数。
[0030] 根据上述方式所述的选购热点标签的挖掘方法,其中,在上述交集步骤之后,还包 括通过商品标题的关键词匹配来绑定上述选购热点标签的步骤。
[0031] 下面对具体的实施方式进行说明。
[0032] 本发明基于京东海量的商品标题并结合用户的搜索习惯自动挖掘出选购热点标 签,整个技术方案分为以下三个部分:
[0033 ] -、挖掘17个一级类目下商品的候选热点标签
[0034] 17个一级类目涉及的三级类目有800多个(此处列举的数字只是京东海量的商品 数量的一个例子),统计的数据是最近4个月上架且仍然在柜上的商品,商家为了使自己的 商品更容易被用户搜索到,会在商品名称中填写一系列热点选购标签组合。下面是一个商 品名称的例子:
[0035]花田雅织2015宽松大码九分裤女小脚裤韩国BF风破洞牛仔图片色29。
[0036]其中,"宽松大码"、"九分裤"、"小脚裤"、"BF风"、"破洞牛仔"都是描述牛仔裤的标 签。因此,本发明通过商品标题提取到大量的候选热点标签。
[0037]将提取到的商品名称按照类别分别放在各个文件夹中。京东商品有自己的三级类 目体系,将不同类别的商品区分开。选购热点标签与商品类目有密切的关系,每个类别下的 标签差别很大,因此需要分别处理。如连衣裙类目下的标签:"波西米亚"、"欧根纱"、"收腰 显瘦"等;牛仔裤类目下的标签:"高腰排扣"、"韩版破洞"、"BF风"等。首先,我们使用分词工 具对上面的商品标题进行分词,分词后的结果例如如下:
[0038]花田/雅/织//2015/宽松/大/码/九分裤//女/小脚裤/韩国/BF/风/破洞/牛仔// 图片/色//29。
[0039] 我们将只包含一个词的选购热点标签称为简单标签,将包含两个或者两个以上词 的选购热点标签称为复合标签。只依赖现有的分词系统无法提取到包含新词的热点标签和 复合标签,无法更好的描述该商品。为了得到更多的选购热点标签("热点标签"是指本发明 的挖掘目标),本发明使用以下两种方法A和B获取候选标签("候选标签"只是一个候选集 合,里面有很多杂质,热点标签是从这个候选标签中获取的)。
[0040] ?方法 A
[0041 ]使用N-Gram将分词的上下文term( "term"是指"词")组合起来,保留组合之后词长 大于等于3且小于等于5的候选选购热点标签。对只包含字母和汉字的term进行N-Gram计 算,当符合以下两个条件时停止计算:(1)词长大于等于5; (2)遇到非字母或者汉字的字。该 term计算完毕之后,从下一个term继续计算,直到最后一个term。
[0042]这里所说的N-Gram是指:大词汇连续语音识别中常用的一种语言模型,对中文而 言,我们称之为"汉语语言模型",常用的是二元的Bi-Gram和三元的Tri-Gram。本发明中因 为限制词长为5,所以最多利用了五元Gram。
[0043]另外,为了过滤噪音,我们采用N-Gram获取候选热点标签时删除了商品标题的前 部(例如,前1/5)和后部(例如,后1/5)的商品信息。因为商品标题前部的信息多为品牌,后 部多为颜色、尺码等。假设,上面标题,过滤掉前面和后面之后的信息为:
[0044] 2015/宽松/大/码/九分裤//女/小脚裤/韩国/BF/风/破洞/牛仔。
[0045] 米用N-Gram之后得到的候选标签为:
[0046] 宽松大;宽松大码;大码九分裤;码九分裤;九分裤;女小脚裤;小脚裤;小脚裤韩 国;韩国BF;韩国BF风;BF风;BF风破洞;风破洞;风破洞牛仔;破洞牛仔。
[0047] ?方法 B
[0048] 基于分词的标注结果,选取修饰词、人名、字母的词。如果词长度大于等于3,则该 词直接作为一个标签;如果词长小于等于2,且该
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1