一种扩展词对的筛选方法及装置的制造方法_2

文档序号:9687445阅读:来源:国知局
而导致包含的各查询词在特定时 间段内的共现次数不小于规定次数阔值的查询词对数量较小的场景下,也可W得到较多的 扩展词对,解决在该场景下按照现有的扩展词对确定方式能够确定出的扩展词对的数量较 小的问题。当然,在一些实施方式中,也可W进一步结合用户行为对扩展词进行挖掘。
[0036] 本申请实施例中,具体可W但不限于采用下述几种方式实现步骤13, W下具体介 绍送几种方式。
[0037] 第一种方式:
[0038] 根据通过执行步骤12而确定出的查询词对包含的各查询词在特定时间段内分别 被不同用户用作搜索依据的次数,从确定出的查询词对中,选取符合扩展词对必要条件的 查询词对作为扩展词对。
[0039] 第一种方式中,扩展词对必要条件可W包括;包含的各查询词在特定时间段内被 不同用户分别用作搜索依据的次数均大于第二次数阔值。
[0040] 第二种方式:
[0041] 根据通过执行步骤12而确定出的查询词对分别包含的各查询词的查询词单元的 重合度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
[0042] 送里所说的"查询词单元"是指对查询词进行分词处理而得到的词单元。比如,对 "挪威进口的Η文鱼"送一查询词进行分词处理,可W得到词单元"挪威"、"进口 "和"H文 鱼"。本申请实施例中,可W采用现有技术中的分词技术实现对查询词的分词处理。
[0043] 第二种方式中,扩展词对必要条件可W包括;满足查询词单元重合条件。
[0044] 其中,查询词单元重合条件的含义在于:
[0045] 若假设单个查询词对包含第一查询词和第二查询词,则查询词单元重合条件包 括;第一查询词的查询词单元中,至少有一个查询词单元与第二查询词的查询词单元相同。 即第一查询词和第二查询词在语义上是有一定的相关性的。
[0046] 第Η种方式:
[0047] 根据通过执行步骤12而确定出的查询词对分别包含的各查询词之间的提升度, 从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
[0048] 其中,若假设单个查询词对包含第一查询词和第二查询词,则第一查询词和第二 查询词之间的提升度lift(Qi,Q2)的计算公式如下式[1]所示:
[004引
[1-
[0050] 公式山中,P傅,〇2)的计算方式如式凹所示:
[0051]

[005引公式凹中,η为第一查询词和第二查询词在特定时间段内被特定用户均用作搜 索依据的总次数;Ν为;通过执行步骤12而确定出各查询词对分别包含的查询词在特定时 间段内被特定用户均用作搜索依据的总次数。其中,送里所说的"特定用户"为在特定时间 段内W通过执行步骤12而确定出查询词作为搜索依据的用户。
[005引基于公式巧],比如针对包含第一查询词"Α"和第二查询词"Β"的查询词对而言, 若假设通过执行步骤12而确定出的查询词对为{Α、Β} W及巧、口,且假设特定用户包含第 一用户、第二用户和第Η用户,郝么,当第一用户和第二用户在特定时间段内都使用"Α"和 "Β"查询过商品,而第一用户、第二用户和第Η用户在该特定时间段内都使用过"Β"和"C" 查询过商品时,可W确定;"Α"和"Β"在特定时间段内被特定用户均用作搜索依据的总次数 为2, "Β"和"C"在特定时间段内被特定用户均用作搜索依据的总次数为3,则有η = 2, Ν 二2+3 = 5。从而根据公式[2],可W计算出与{A、Β}对应的Ρ傅,〇2)二2/5 = 0. 4。
[0054] 公式山中,P傅)的计算方式如式閒所示:
[00财
巧]
[0056] 其中,m为第一查询词在特定时间段内被特定用户用作搜索依据的总次数;Μ为通 过执行步骤12而确定出的各查询词对分别包含的查询词在特定时间段内被特定用户用作 搜索依据的次数之和。
[0057] 基于公式巧],比如仍然假设通过执行步骤12而确定出的查询词对为{Α、Β} W及 (Β、C},且假设特定用户包含第一用户、第二用户和第Η用户,郝么,若第一用户和第二用户 在特定时间段内都使用"Α"查询过商品,且"Α"的使用总次数为5,则有m = 5。若第一用 户、第二用户和第Η用户在该特定时间段内使用"B"查询过商品的次数分别为1、1和4 ;使 用"C"查询过商品的次数分别为1、1和3,则有M = m+l+l+4+l+l+3 = 16。从而根据公式 巧],可W计算出与A对应的P(Qi) = 5/16 = 0.3125。
[005引公式山中,Ρ(02)的计算方式如式Μ所示:
[0059]

[0060] 其中,1为第二查询词在特定时间段内被特定用户用作搜索依据的总次数;L为通 过执行步骤12而确定出各查询词对分别包含的查询词在特定时间段内被特定用户用作搜 索依据的次数之和。
[0061] 基于公式[4],比如仍然假设通过执行步骤12而确定出的查询词对为{A、B} W及 (B、C},且假设特定用户包含第一用户、第二用户和第Η用户,郝么,若第一用户和第二用户 在特定时间段内都使用"Β"查询过商品,且"Β"的使用总次数为6,则有1 = 6。若第一用 户、第二用户和第Η用户在该特定时间段内使用"Α"查询过商品的次数总和为5 ;使用"C" 查询过商品的次数总和也为5,则有L = 1巧巧=16。从而根据公式[4],可W计算出与Β 对应的 Ρ(〇2) = 6/16 = 0.375。
[006引 针对查询词对{Α、Β}而言,在计算出Ρ傅)=0. 3125、Ρ化)=0. 375、Ρ傅,Qz)= 0. 4的基础上,可W进一步根据公式[1],计算出A和B之间的提升度lift怕1,Q2) = 0. 4/ (0. 3125X0. 375) W 3. 4。
[0063] 在一种实施方式中,若确定出的提升度的值大于提升度阔值,则可W确定相应的 查询词对符合扩展词对必要条件,从而进一步确认该查询词对可W作为扩展词对。
[0064] 举例而言,若提升度阔值为1,则当针对查询词对{A、B}确定出的提升度 lift(Qi,Q2) W 3.4时,可W确定查询词对{A、B}可W作为扩展词对。
[00财第四种方式:
[0066] 根据通过执行步骤12而确定出的查询词对包含的各查询词在特定时间段内分别 被不同用户用作搜索依据的次数,W及所述确定出的查询词对分别包含的各查询词的查询 词单元的重合度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩 展词对。
[0067] 第四种方式中,扩展词对必要条件可W包括;包含的各查询词在特定时间段内被 不同用户分别用作搜索依据的次数均大于第二次数阔值,且满足前文所述的查询词单元重 合条件。
[0068] 第五种方式:
[0069] 根据通过执行步骤12而确定出的查询词对包含的各查询词在特定时间段内分别 被不同用户用作搜索依据的次数,W及所述确定出的查询词对分别包含的各查询词之间的 提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
[0070] 第五种方式中,扩展词对必要条件可W包括;包含的各查询词在特定时间段内被 不同用户分别用作搜索依据的次数均大于第二次数阔值,且包含的查询词之间的提升度的 值大于提升度阔值。
[0071] 第六种方式:
[0072] 根据通过执行步骤12而确定出的查询词对分别包含的各查询词的查询词单元的 重合度,W及所述确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询 词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
[0073] 第六种方式中,扩展词对必要条件可W包括;满足前文所述的查询词单元重合条 件,且包含的查询词之间的提升度的值大于提升度阔值。
[0074] 第走种方式:
[0075] 根据通过执行步骤12而确定出的查询词
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1