一种用于基于查询序列簇提取核心关键词的方法与设备的制作方法

文档序号:6338936阅读:128来源:国知局
专利名称:一种用于基于查询序列簇提取核心关键词的方法与设备的制作方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种用于基于查询序列簇提取核心 关键词的技术。
背景技术
现有的分词技术大多数利用词典、或者语义分析等对句子或者片段进行切分,但 是,词典中包括的词的数量有限,并且互联网中新词层出不穷,词典更新的速度远远低于互 联网中新词更新的速度,从而使得按照词典分词无法满足实际需要。而根据语义分析进行 句子或者片段的切分,由于涉及机器学习,并且语言表达方式的多样化和互联网中网络语 言的口语化,使得通过语义分析分词的结果也不尽如人意。当网络中出现大量相同的用户点击的搜索结果的搜索需求时,这些搜索需求往往 反映的是相同的主题,但是由于搜索用户表达方式的不同,通过语义分析很多时候不能得 到正确反映这一搜索需求的核心关键词,同时,这种大量相同的用户点击的搜索结果的搜 索需求往往也是当时的热点,因此,该搜索需求对应的核心关键词,还可能是词典中没有的 新词,这就导致也无法根据词典从这些搜索需求中提取相应的核心关键词。因此,如何从对应于相同的用户点击的搜索结果的搜索需求中提取相应的核心关 键词,成为目前急需解决的问题之一。

发明内容
本发明的目的是提供一种用于基于查询序列簇提取核心关键词的方法与提取设 备。根据本发明的一个方面,提供了一种用于基于查询序列簇提取核心关键词的方 法,其中,该方法包括以下步骤a获取查询序列簇,其中,所述查询序列簇包括多个查询序列,其中每个查询序列 对应至少一个相同的用户点击的搜索结果;b从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。根据本发明的另一个方面,还提供了一种用于基于查询序列簇提取核心关键词的 提取设备,其中,该提取设备包括获取装置,用于获取查询序列簇,其中,所述查询序列簇包括多个查询序列,其中 每个查询序列对应至少一个相同的用户点击的搜索结果;提取装置,用于从所述查询序列簇中提取与所述查询序列簇相对应的核心关键 词。与现有技术相比,本发明通过获取对应于相同的用户点击的搜索结果的查询序列 簇,并从该查询序列簇中提取相应的核心关键词,获得了输入该查询序列簇中的查询序列 的用户的搜索需求,还可以根据该核心关键词为用户提供更为贴切的搜索建议或者更为相 关的搜索结果等,使得用户获得更好的搜索体验。进一步地,当词库中未包括该核心关键词,则该核心关键词将可以作为新词加入词库,以进行各项应用。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它 特征、目的和优点将会变得更明显图1示出根据本发明一个方面的用于基于查询序列簇提取核心关键词的提取设 备的设备示意图;图2示出根据本发明一个优选实施例的用于基于查询序列簇提取核心关键词的 提取设备的设备示意图。图3示出根据本发明另一个方面的用于基于查询序列簇提取核心关键词的方法 的流程图;图4示出根据本发明一个优选实施例的用于基于查询序列簇提取核心关键词的 方法的流程图。附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1为根据本发明一个方面的设备示意图,示出用于基于查询序列簇提取核心关 键词的设备。其中,提取设备1包括获取装置11和提取装置12。具体地,获取装置11获取 查询序列簇,其中,所述查询序列簇包括多个查询序列,其中每个查询序列对应至少一个相 同的用户点击的搜索结果;随后,提取装置12从所述查询序列簇中提取与所述查询序列簇 相对应的核心关键词。在此,提取设备1包括但不限于搜索引擎服务器或与之相连的专用 服务器等,本领域技术人员应能理解上述提取设备1仅为举例,其他现有的或今后可能出 现的设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。更具体地,获取装置11获取查询序列簇,其中,所述查询序列簇包括多个查询序 列,其中每个查询序列对应至少一个相同的用户点击的搜索结果。具体地,获取装置11根 据诸如搜索引擎的查询日志、第三方设备的大量用户查询浏览记录等获取查询序列簇,其 中,该查询序列簇包括多个查询序列,其中的每个查询序列对应于至少一个相同的用户点 击的搜索结果。例如,假设第三方设备存储有对应至少一个相同的用户点击的搜索结果的 查询序列簇,获取装置11通过调用该第三方设备的应用程序接口(API),向该第三方设备 的应用程序接口(API)发送获取该查询序列簇的请求,并接收该第三方设备的应用程序接 口(API)根据该请求返回的查询序列簇,其中,该查询序列簇中的每个查询序列对应至少 一个相同的用户点击的搜索结果,如“中国移动”,“北京移动”,“北京动感地带”这三个查询 序列,其输入用户都点击了相应的搜索结果中北京移动的主页。本领域技术人员应能理解 上述查询序列簇的获取方式仅为举例,其他现有的或今后可能出现的查询序列簇的获取方 式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。提取装置12从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。 具体地,根据获取装置11获得的对应至少一个相同的用户点击的搜索结果的查询序列簇, 提取装置12根据分词技术,诸如基于词典的前向最大匹配法、后向最大匹配法,基于字标注的最大熵模型、条件随机场模型、感知器模型,或者与词性标注结合、与句法分析结合的 其它分词方法,从该查询序列簇中提取与该查询序列簇相对应的核心关键词。例如,提取装 置12根据基于词典的前向最大匹配法对获取装置11获得的查询序列簇中的每个查询序列 进行切分,以获得相应的切分块,再对这些切分块进行去重,并对去重后的切分块按照一定 的频次阈值进行过滤,从而获得与该查询序列簇相对应的核心关键词;在此,该频次阈值设 置的越大,对应的切分块在该查询序列簇中出现的次数越多,从而该切分块是与该查询序 列簇相对应的核心关键词的可能性也越大。又如,提取装置12对查询序列簇内的查询序列 进行交叉匹配,获得出现频次超过该查询序列簇中查询序列个数的一半的字段,再将该字 段与词典进行匹配查询,获得与该查询序列簇相对应的核心关键词。本领域技术人员应能 理解上述分词技术以及提取与查询序列簇相对应的核心关键词的方式仅为举例,其他现有 的或今后可能出现的分词技术或者提取与查询序列簇相对应的核心关键词的方式如可适 用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,获取装置11和提取装置12是持续不断工作的。具体地,获取装置11获 取查询序列簇,其中,所述查询序列簇包括多个查询序列,其中每个查询序列对应至少一个 相同的用户点击的搜索结果;随后,提取装置12从所述查询序列簇中提取与所述查询序列 簇相对应的核心关键词。在此,本领域技术人员应理解“持续”是指获取装置11和提取装 置12分别按照设定的或实时调整的工作模式要求进行查询序列簇的获取及核心关键词的 提取,直至提取设备1在较长时间内停止获取查询序列簇。图2为根据本发明的一个优选实施例,示出用于基于查询序列簇提取核心关键词 的设备的提取装置。其中,提取装置12’还包括提取单元121’和筛选单元122’。具体地, 提取单元121’从所述查询序列簇中的每个查询序列中,提取与所述每个查询序列相对应的 切分块;随后,筛选单元122’根据所述切分块,按照预定筛选规则,获取与所述查询序列簇 相对应的核心关键词。更具体地,提取单元121’从所述查询序列簇中的每个查询序列中,提取与所述每 个查询序列相对应的切分块。具体地,提取单元121’根据获取装置11获得的查询序列簇, 从该查询序列簇中的每个查询序列中,根据分词技术,诸如基于词典的前向最大匹配法、后 向最大匹配法,基于字标注的最大熵模型、条件随机域模型、感知器模型,或者与词性标注 结合、与句法分析结合的其它方法,提取与每个查询序列分别对应的切分块。例如,提取单 元121’根据基于词典的前向最大匹配法,对获取装置11获得的查询序列簇中的每个查询 序列进行切分,以获得相应的切分块。又如,提取单元121’根据与词性标注结合的语义分 析法,从获取装置11获得的查询序列簇中的每个查询序列提取名词、动词等,从而完成对 每个查询序列的切分,以获得与每个查询序列相对应的切分块。本领域技术人员应能理解 上述提取切分块的方式仅为举例,其他现有的或今后可能出现的提取切分块的方式如可适 用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。筛选单元122’根据所述切分块,按照预定筛选规则,获取与所述查询序列簇相对 应的核心关键词。具体地,筛选单元122’根据从查询序列簇中的每个查询序列提取的切分 块,按照预定筛选规则,诸如切分块在该查询序列簇中的出现频次超过第一阈值、切分块在 该查询序列簇中的覆盖比例超过第二阈值等,获取与该查询序列簇相对应的核心关键词。 例如,假设预定筛选规则为切分块在查询序列簇中的出现频次超过该查询序列簇中的查询序列个数的一半,获取装置11获取的查询序列簇中包括10个查询序列,那么筛选单元122’ 对提取单元121’提取的与每个查询序列相对应的切分块进行频次累加,当切分块在该查询 序列簇中的出现频次超过5次时,该切分块即成为与该查询序列簇相对应的核心关键词。优选地,筛选单元122’中的所述预定筛选规则包括但不限于,以下至少任一项1)所述切分块在所述查询序列簇中的出现频次超过第一阈值;2)所述切分块在所述查询序列簇中的覆盖比例超过第二阈值;3)所述切分块的组词概率超过第三阈值;4)如果所述切分块中包括停留字,则筛除所述切分块。其中,1)切分块在获取装置11获取的查询序列簇中的出现频次,包括对提取单元 121’从该查询序列簇中的每个查询序列提取的切分块的出现频次的累加,即相同的切分块 在一个查询序列中出现一次,就对其相应的出现频次累加一次,当该出现频次超过第一阈 值时,相应的切分块即成为与该查询序列簇相对应的核心关键词;在此,该第一阈值设置的 越大,对应的切分块在该查询序列簇中的出现频次越多,从而该切分块是与该查询序列簇 相对应的核心关键词的可能性也越大。例如,假设查询序列簇中包括10个查询序列,切分 块在该查询序列簇中的出现频次的第一阈值为5次,当从该查询序列簇中的每个查询序列 提取的切分块在该查询序列簇中的出现频次超过5次时,该切分块即为与该查询序列簇相 对应的核心关键词。2)切分块在获取装置11获取的查询序列簇中的覆盖比例,包括对提取单元121’ 从该查询序列簇中的每个查询序列提取的切分块所在查询序列的个数进行累加,该个数与 该查询序列簇中查询序列的个数的比值即为覆盖比例,当该覆盖比例超过第二阈值时,相 应的切分块即为与该查询序列簇相对应的核心关键词;在此,该第二阈值设置的越大,对应 的切分块在该查询序列簇中的覆盖比例也越大,即该切分块出现在越多的该查询序列簇的 查询序列中,从而该切分块是与该查询序列簇相对应的核心关键词的可能性也越大。例如, 假设查询序列簇中包括10个查询序列,切分块在该查询序列簇中的覆盖比例所对应的第 二阈值为60%,当从该查询序列簇中的每个查询序列提取的切分块在该查询序列簇中的覆 盖比例超过60%时,该切分块即为与该查询序列簇相对应的核心关键词。3)切分块的组词概率超过第三阈值,包括对获取装置11获取的查询序列簇中的 每个字获取其分别在词首、词中、词尾的概率,再对提取单元121’从该查询序列簇中的每 个查询序列提取的切分块计算组词概率,如该组词概率=该切分块中的第一个字在词首 的概率*该切分块中的最后一个字在词尾的概率,当该组词概率超过第三阈值时,相应的 切分块即为与该查询序列簇相对应的核心关键词;在此,该第三阈值设置的越大,对应的 切分块是一个结构紧密的词的概率也越大,从而该切分块是与该查询序列簇相对应的核 心关键词的可能性也越大。例如,假设切分块为“傲娇”,根据对特定文本的统计,如对一 定主题范围的文本统计、或者一定网页范围的文本统计,“傲”出现在词首有100次,出现 在词中有50次,出现在词尾有100次,单独出现50次,那么“傲”在词首的概率就是100/ (100+100+50+50) = 1/3,同理可以得到“娇”在词尾的概率,假设为1/4,则“傲娇”的组词 概率=1/3*1/4 = 1/12 ;如果组词概率的第三阈值为8%,则该“傲娇”即为与该查询序列簇 相对应的核心关键词,如果组词概率的第三阈值为10%,则该“傲娇”不是与该查询序列簇 相对应的核心关键词。优选地,所述切分块中的第一个字在词首的概率包括该切分块中的第一个字在词首,并且该切分块中的最后一个字在词尾时,该切分块中的第一个字在词首 的概率当该组词概率,相应地,所述切分块中的最后一个字在词尾的概率包括该切分块中 的第一个字在词首,并且该切分块中的最后一个字在词尾时,该切分块中的最后一个字在 词尾的概率。例如,接上例,“傲”出现在词首有100次,其中“娇”同时出现在词尾有50次, “傲”出现在词中有50次,“傲”出现在词尾有100次,“傲”单独出现50次。那么“傲”在词 首的概率就是50/(100+100+50+50) = 1/6,同理可以得到“娇”在词尾,同时“傲”在词首的 概率,假设为1/8,则此时“傲娇”的组词概率=1/6*1/8 = 1/48 ;如果此时组词概率的第三 阈值为2%,则该“傲娇”即为与该查询序列簇相对应的核心关键词,如果此时组词概率的第 三阈值为5 %,则该“傲娇”不是与该查询序列簇相对应的核心关键词。在此,上述查询序列 簇中的每个字分别在词首、词中、词尾的概率可以由筛选单元122’统计相关文本计算得出, 也可以由提取设备1的其他装置统计相关文本计算得出,还可以由筛选单元122’从第三方 设备获取,如从专用的组词概率数据库获取。本领域技术人员应能理解上述查询序列簇中 的每个字分别在词首、词中、词尾的概率的获取方式仅为举例,其他现有的或今后可能出现 的查询序列簇中的每个字分别在词首、词中、词尾的概率的获取方式如可适用于本发明,也 应包含在本发明保护范围以内,并以引用方式包含于此。4)如果切分块中包括停留字,则筛除该切分块。在此,停留字包括经常出现,但是 不能参与构词的字,例如“的”、“吗”、“呀”、“下载”、“观看”等等。当提取单元121’从该查 询序列簇中的每个查询序列提取的切分块中包括停留字时,筛除该切分块。例如,假设筛选 单元122中预置了一个停留字表,将切分块在该停留字表中进行匹配查询,当切分块中包 括该停留字表中的停留字时,筛除该切分块。需要说明的是,本领域技术人员应能理解上述每一项预定筛选规则不仅能够单独 用于筛选单元122’对提取单元121’提取的切分块的筛选,还可以两两结合,甚至是全部结 合,用于对筛选单元122’对提取单元121’提取的切分块的筛选。本领域技术人员还应能理解上述预定筛选规则仅为举例,其他现有的或今后可能 出现的预定筛选规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式 包含于此。在一个优选实施例中(参照图2),提取单元121’还根据所述查询序列簇的统计 相关信息,从所述查询序列簇中的每个查询序列中,提取与所述每个查询序列相对应的切 分块。具体地,获取装置11获取由对应至少一个相同的用户点击的搜索结果的查询序列 组成的查询序列簇,提取单元121’根据该查询序列簇的统计相关信息,如通过互信息方法 (Ml)、卡方分布方法(chi-幻计算相邻两个字之间的相似度,从该查询序列簇中的每个查 询序列中,提取与每个查询序列分别对应的切分块;或者通过条件随机域模型(CRF)对该 查询序列簇中的每个字标注字首字尾字中以及单个字四种状态,并根据每个字的相应状态 从每个查询序列中提取切分块;或者对该查询序列簇中每个基本粒度词对应的检索量的统 计,与该查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的 出现频次的统计,根据该统计出现频次和该统计检索量建立关系矩阵,并根据乘幂(Power) 法、雅可比法、单侧旋转(One-side Rotation)法、或者QR方法OlR decomposition)对该关 系矩阵分解后求取特征值和特征向量,再根据最大特征值确定主特征空间,将该关系矩阵 投影至该主特征空间,并通过迭代确定相似度阈值,从而得到相似矩阵,再根据该相似矩阵切分该查询序列,以获得与该查询序列相对应的切分块。在此,基本粒度词指不能再进行切 分的词,是构成其它词或者词组的单元;出现频次指由每个基本粒度词为首、另一个基本粒 度词为尾组成的片段在该查询序列簇中出现的次数,如果在所述每个基本粒度词和该另一 个基本粒度词之间还有其他的字或词,则该子或词包括在该片段中。例如,提取单元121’通 过互信息方法(MI)计算该查询序列簇中每相邻两个字之间的相似度,MI (x,y) =p(x,y)/ {ρ (χ) Xp (y)},并根据该相似度,从该查询序列簇中的每个查询序列中,提取与每个查询序 列相对应的切分块。本领域技术人员应能理解上述根据查询序列簇的统计相关信息提取切 分块的方式仅为举例,其他现有的或今后可能出现的根据查询序列簇的统计相关信息提取 切分块的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于 此。与互信息方法(MI)、卡方分布方法(chi-幻和隐马尔可夫模型方法(HMM)相比,上 述建立关系矩阵的方法穷举了查询序列中任意的可能切分在一起的情况的概率,根据任意 一个连续序列的统计信息,在全局的角度进行计算;在获得大量的信息后,采用矩阵变换的 方法既对数据进行了降维和除噪,又对数据进行了矩阵变换。互信息方法(MI)、卡方分布方 法(chi-幻等方法采用相邻2个字/词之间的统计信息,在计算相邻两个字之间的相似度 的时候,分别计算P(w_ik_i_l),这样便丢失了很多信息;同时,在后期,这两种方法也没 有进行相应的数据处理。HMM使用EM算法进行处理,该算法可以在一定程度上优化缺失数 据,但是有条件地优化到某个极值点。优选地,提取单元121’还根据所述查询序列簇中每个基本粒度词的统计检索量, 与所述查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的统 计出现频次,获得所述统计相关信息。具体地,提取单元121’根据获取装置11获取的查 询序列簇,通过对该查询序列簇中每个基本粒度词对应的检索量的统计,以及该查询序列 簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的出现频次的统计, 获得相应的该查询序列簇中每个基本粒度词的统计检索量以及该查询序列簇中由所述每 个基本粒度词为首、另一个基本粒度词为尾组成的片段的统计出现频次,在此,如果在所述 每个基本粒度词和该另一个基本粒度词之间还有其他的字或词,则该子或词包括在该片段 中;根据该统计出现频次和该统计检索量建立关系矩阵,并根据乘幂(Power)法、雅可比 法、单侧旋转(One-side Rotation)法、或者QR方法OlR decomposition)对该关系矩阵分 解后求取特征值和特征向量,再根据最大特征值确定主特征空间,将该关系矩阵投影至该 主特征空间,并通过迭代确定相似度阈值,从而得到相似矩阵,再根据该相似矩阵切分该查 询序列,以获得与该查询序列相对应的切分块。例如,假设查询序列簇1中的查询序列1为 w_l, w_2,…,w_n,包括η个基本粒度词,根据这η个基本粒度词的统计数据建立一个η*η 的对称正定矩阵,作为该查询序列1的关系矩阵Μ,其中,.M=ImiJnxn{l4"(w,)if / = jFiu-,ιι·,. ι · · · Wj) if i < j if i > j10
权利要求
1.一种计算机实现的用于基于查询序列簇提取核心关键词的方法,其中,该方法包括 以下步骤a获取查询序列簇,其中,所述查询序列簇包括多个查询序列,其中每个查询序列对应 至少一个相同的用户点击的搜索结果;b从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。
2.根据权利要求1所述的方法,其中,所述步骤b还包括bl从所述查询序列簇中的每个查询序列中,提取与所述每个查询序列相对应的切分块;b2根据所述切分块,按照预定筛选规则,获取与所述查询序列簇相对应的核心关键词。
3.根据权利要求2所述的方法,其中,所述步骤1^2中的所述预定筛选规则包括以下至 少任一项-所述切分块在所述查询序列簇中的出现频次超过第一阈值; -所述切分块在所述查询序列簇中的覆盖比例超过第二阈值; -所述切分块的组词概率超过第三阈值; -如果所述切分块中包括停留字,则筛除所述切分块。
4.根据权利要求2或3所述的方法,其中,所述步骤bl还包括-根据所述查询序列簇的统计相关信息,从所述查询序列簇中的每个查询序列中,提取 与所述每个查询序列相对应的切分块。
5.根据权利要求4所述的方法,其中,所述步骤bl还包括-根据所述查询序列簇中每个基本粒度词的统计检索量,与所述查询序列簇中由所述 每个基本粒度词为首、另一个基本粒度词为尾组成的片段的统计出现频次,获得所述统计 相关信息。
6.根据权利要求1至5中任一项所述的方法,其中,该方法还包括 c对所述核心关键词在预设词库中进行匹配查询,以获得目标新词。
7.根据权利要求6所述的方法,其中,所述步骤c还包括-结合预定过滤规则,对所述核心关键词在预设词库中进行匹配查询,以获得目标新词。
8.根据权利要求7所述的方法,其中,所述预定过滤规则包括以下至少任一项 -所述核心关键词的粒度超过第四阈值;-所述核心关键词的关联词集合的信息熵超过第五阈值; -所述核心关键词的紧密度低于第六阈值。
9.根据权利要求8所述的方法,其中,所述预定过滤规则还包括所述核心关键词的关 联词集合的信息熵超过第五阈值;其中,所述关联词集合的选择基于以下至少任一项-所述关联词集合中关联词在搜索引擎查询日志中的累计频次超过第七阈值; -当所述关联词集合中关联词的个数低于第八阈值时,不对所述关联词集合获取信息熵。
10.根据权利要求1至9中任一项所述的方法,其中,所述步骤a还包括-获取对应至少一个相同的用户点击的搜索结果的多个查询序列,以得到所述查询序列簇。
11.一种用于基于查询序列簇提取核心关键词的提取设备,其中,该提取设备包括 获取装置,用于获取查询序列簇,其中,所述查询序列簇包括多个查询序列,其中每个查询序列对应至少一个相同的用户点击的搜索结果;提取装置,用于从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。
12.根据权利要求11所述的提取设备,其中,所述提取装置还包括提取单元,用于从所述查询序列簇中的每个查询序列中,提取与所述每个查询序列相 对应的切分块;筛选单元,用于根据所述切分块,按照预定筛选规则,获取与所述查询序列簇相对应的 核心关键词。
13.根据权利要求12所述的提取设备,其中,所述筛选单元中的所述预定筛选规则包 括以下至少任一项-所述切分块在所述查询序列簇中的出现频次超过第一阈值; -所述切分块在所述查询序列簇中的覆盖比例超过第二阈值; -所述切分块的组词概率超过第三阈值; -如果所述切分块中包括停留字,则筛除所述切分块。
14.根据权利要求12或13所述的提取设备,其中,所述提取单元还用于-根据所述查询序列簇的统计相关信息,从所述查询序列簇中的每个查询序列中,提取 与所述每个查询序列相对应的切分块。
15.根据权利要求14所述的提取设备,其中,所述提取单元还用于-根据所述查询序列簇中每个基本粒度词的统计检索量,与所述查询序列簇中由所述 每个基本粒度词为首、另一个基本粒度词为尾组成的片段的统计出现频次,获得所述统计 相关信息。
16.根据权利要求11至15中任一项所述的提取设备,其中,该提取设备还包括 查询装置,用于对所述核心关键词在预设词库中进行匹配查询,以获得目标新词。
17.根据权利要求16所述的提取设备,其中,所述查询装置还用于-结合预定过滤规则,对所述核心关键词在预设词库中进行匹配查询,以获得目标新词。
18.根据权利要求17所述的提取设备,其中,所述预定过滤规则包括以下至少任一项 -所述核心关键词的粒度超过第四阈值;-所述核心关键词的关联词集合的信息熵超过第五阈值; -所述核心关键词的紧密度低于第六阈值。
19.根据权利要求18所述的提取设备,其中,所述预定过滤规则还包括所述核心关键 词的关联词集合的信息熵超过第五阈值;其中,所述关联词集合的选择基于以下至少任一项-所述关联词集合中关联词在搜索引擎查询日志中的累计频次超过第七阈值; -当所述关联词集合中关联词的个数低于第八阈值时,不对所述关联词集合获取信息熵。
20.根据权利要求11至19中任一项所述的提取设备,其中,所述获取装置还用于-获取对应至少一个相同的用户点击的搜索结果的多个查询序列,以得到所述查询序 列簇。
全文摘要
本发明的目的是提供一种用于基于查询序列簇提取核心关键词的方法与提取设备。其中,提取设备获取查询序列簇,其中,所述查询序列簇包括多个查询序列,其中每个查询序列对应至少一个相同的用户点击的搜索结果,并从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。与现有技术相比,本发明获得了输入该查询序列簇中的查询序列的用户的搜索需求,还可以根据该核心关键词为用户提供更为贴切的搜索建议或者更为相关的搜索结果等,使得用户获得更好的搜索体验。进一步地,当词库中未包括该核心关键词,则该核心关键词将可以作为新词加入词库,以进行各项应用。
文档编号G06F17/30GK102043845SQ20101059220
公开日2011年5月4日 申请日期2010年12月8日 优先权日2010年12月8日
发明者张超, 忻舟, 王强 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1