一种基于用户历史数据获得工业产品名称同义词的方法_2

文档序号:8498721阅读:来源:国知局
行切割,将所述搜索词条切割成至少一个汉语单词,汉语单词中包含工业产品名称。搜索词条为搜索用户输入的原始文字,而“工业产品名称”为某种工业产品的名称。例如,如果用户搜索“工业酒精如何购买”,则“工业酒精如何购买”为其“搜索词条”,对该词条进行分词,得到“工业酒精”、“如何”、“购买”,三个汉语单词,其中“工业酒精”为工业产品名称。
[0039]本发明的一个较佳实施例中,进一步包括,第二步中对工业产品名称意图进行挖掘,包括以下几步:
[0040]首先,计算工业产品名称的搜索倾向:通过用户历史数据,计算每种工业产品名称的每个被点击的搜索结果和相应次数,对于任意一个工业产品名称W与任意一个搜索结果D,以Count (W,D)表示通过搜索包含W的词条而点击D的次数;对于任意一个搜索词条Q与任意一个搜索结果D,以Count(Q,D)表示通过搜索词条Q而点击D的次数;用户历史数据包含了 Q与D的--对应关系,计算Q-D对即可以得到Count (Q, D)。而计算Count (ff, D)
的方法为:Count (W,D) =SUM(C0Unt(Qi^))D其中,Qi表示所有通过分词后包含W的搜索词条,i为自然数,SUM为求和函数。
[0041]其次,对工业产品的搜索倾向进行表征:对于任意一个搜索名词Wp其对于每个搜索结果的搜索倾向:Count (Wj, Dk),对于Wj做如下处理:
[0042]去除Count (W」,Dk) = O的文档Dk,只保留Count (W」,Dk) Φ O的文档Dk;
[0043]将所有保留的Dk按照Count (ff」,Dk)进行降序排序,取排名靠前10 %的文档Dk (k =
1,2,3,……,N)组成的集合为名称Wj的意图表征。
[0044]如果,任意两个工业产品的意图表征相同,贝U两个工业产品名称互为同义词。
[0045]用户在工业产品搜索平台输入搜索词条发起搜索请求,工业产品搜索引擎直接搜索用户输入的搜索词条,工业产品搜索引擎还降搜索词条中的工业产品名称替换为其同义词,并且重新向工业产品搜索弓I擎发起搜索请求。
[0046]以本实施例上述公开的基于用户历史数据获得工业产品名称同义词的方法,其过程如下:
[0047]1.在工业产品搜索引擎中,记录用户输入的每一条搜索词条,同时记录其随后点击的每一个搜索结果,并积累该数据一段时间,形成100万条以上的数据源。
[0048]2.获得“搜索词条“被点击的搜索结果”的对应关系,对数据中的“搜索词条”进行分词,得到“工业产品名称“被点击的搜索结果”的对应关系。
[0049]3.对于每个“工业产品名称”,抛弃其未点击的搜索结果,计算被点击的搜索结果的点击次数,并取出点击次数最多的10%的点击结果,以该“结果集合”作为该“工业产品名称”的意图表征。
[0050]4.将意图表征相同的“工业产品名称”归集在一起,被归集在一起的“工业产品名称”互为同义词。
[0051]5.基于该同义词关系,用户在工业产品搜索平台中发起搜索请求时,引擎不但直接搜索用户输入的搜索词条,同时,引擎还将词条中的工业产品名称替换为其任意的同义词,并重新发起搜索请求。
[0052]本发明的基于用户历史数据获得工业产品名称同义词的方法,该方法构建同义词库的覆盖范围广,不易出现遗漏,并且该方法是基于用户数据挖掘工业产品名称的同义词,数据基数大;数据来源于用户的真实操作行为,数据反映了用户真正的搜索意图。
[0053]用户在工业产品搜索平台输入搜索词条发起搜索请求,工业产品搜索引擎直接搜索用户输入的搜索词条,工业产品搜索引擎还降搜索词条中的工业产品名称替换为其同义词,并且重新向工业产品搜索引擎发起搜索请求,缓解了用户先前经验知识不足的缺陷。
[0054]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【主权项】
1.一种基于用户历史数据获得工业产品名称同义词的方法,其特征在于,通过对用户使用工业产品搜索引擎产生的历史数据进行分析,挖掘具有相同含义的工业产品名称,包括以下几步: 第一步:对工业产品搜索词条进行分词; 第二步:对工业产品名称意图挖掘; 第三步:对工业产品名称同义词匹配,获得工业产品名称同义词。
2.根据权利要求1所述的一种基于用户历史数据获得工业产品名称同义词的方法,其特征在于,第一步中对工业产品搜索词条进行切割,将所述搜索词条切割成至少一个汉语单词,汉语单词中包含工业产品名称。
3.根据权利要求2所述的一种基于用户历史数据获得工业产品名称同义词的方法,其特征在于,第二步中对工业产品名称意图进行挖掘,包括以下几步: 首先,计算工业产品名称的搜索倾向:通过用户历史数据,计算每种工业产品名称的每个被点击的搜索结果和相应被点击的次数,对于任意一个工业产品名称W与任意一个搜索结果D,以Count (W,D)表示通过搜索包含W的词条而点击D的次数;对于任意一个搜索词条Q与任意一个搜索结果D,以Count (Q, D)表示所有用户搜索词条Q点击结果D的次数总和; 其次,对工业产品的搜索倾向进行表征:对于任意一个搜索名词Wp其对于每个搜索结果的搜索倾向:Count (Wj, Dk),对于Wj做如下处理: 去除Count (Wj, Dk) = O的文档Dk,只保留Count (W」,Dk)乒O的文档Dk; 将所有保留的Dk按照Count(WyDk)进行降序排序,取排名靠前10%的文档Dk(k =1,2, 3,……,N)组成的集合为名称Wj的意图表征。
4.根据权利要求3所述的一种基于用户历史数据获得工业产品名称同义词的方法,其特征在于,Count (W,D) = SUM (Count (Qi, D)),其中,Qi表示所有通过分词后包含W的搜索词条,i为自然数,SUM为求和函数。
5.根据权利要求4所述的一种基于用户历史数据获得工业产品名称同义词的方法,其特征在于,两个工业产品的意图表征相同,则两个工业产品名称互为同义词。
6.根据权利要求1所述的一种基于用户历史数据获得工业产品名称同义词的方法,其特征在于,所述历史数据包括用户输入的搜索词条和用户在搜索该词条后,在搜索结果里点击的结果。
7.根据权利要求1所述的一种基于用户历史数据获得工业产品名称同义词的方法,其特征在于,用户在工业产品搜索平台输入搜索词条发起搜索请求,工业产品搜索引擎直接搜索用户输入的搜索词条,工业产品搜索引擎还降搜索词条中的工业产品名称替换为其同义词,并且重新向工业产品搜索弓I擎发起搜索请求。
【专利摘要】本发明涉及一种基于用户历史数据获得工业产品名称同义词的方法,通过对用户使用工业产品搜索引擎产生的历史数据进行分析,挖掘具有相同含义的工业产品名称,包括以下几步:对工业产品搜索词条进行分词;对工业产品名称意图挖掘;对工业产品名称同义词匹配,获得工业产品名称同义词。本发明的基于用户历史数据获得工业产品名称同义词的方法,该方法构建同义词库的覆盖范围广,不易出现遗漏,并且该方法是基于用户数据挖掘工业产品名称的同义词,数据基数大。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104820713
【申请号】CN201510256349
【发明人】张晶晶
【申请人】苏州工讯科技有限公司
【公开日】2015年8月5日
【申请日】2015年5月19日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1