搜索方法、搜索装置以及搜索服务器的制造方法

文档序号:9750878阅读:455来源:国知局
搜索方法、搜索装置以及搜索服务器的制造方法
【技术领域】
[0001]本发明涉及搜索领域,尤其涉及对搜索词时效性的判定。
【背景技术】
[0002] 随着互联网的发展和搜索技术的改善,人们愈发依赖搜索引擎从互联网的海量信 息中及时准确地获取自己所需的信息。用户通过向搜索引擎提交查询来获取相应的结果。 通常情况下,搜索引擎返回的最为相关的结果。但是对于突发或者热门事件,用户会更倾向 于获取时效性更好的结果,例如,最新消息或是近期的新闻专题。
[0003] 信息的时效性是指信息的效用依赖于时间并有一定的期限,其价值的大小与提供 信息的时间密切相关。传统方法会从字面上去分析用户的时效性需求,该方法只在用户的 搜索请求中包含时效性的特征词的时候才能起作用。但是通常用户都倾向于提交更短的中 心词,这种情况在使用移动设备时更为明显。如何在缺少时效性特征词的情况下更为快速 和准确的判断出用户的时效性需求,并给出更为及时或是最新的信息,对于搜索,尤其是移 动搜索而言十分重要。

【发明内容】

[0004] -般情况下,将由于突发和热门事件引发的时效性称为突发时效性。从搜索服务 的角度上看,当出现突发时效性事件时,通常都伴随着资源突发和相关搜索突发,即,相关 新闻和搜索量的显著增加。
[0005] 基于上述认识,本申请通过在线实时统计用户搜索的相关资源和相关搜索的数量 来建立时间序列统计分析模型,通过分析时间序列模型来判断用户是否具有时效性需求。 上述分析可以是白噪声检验或基于某些默认时间点的趋势分析。在未通过白噪声检验或是 趋势分析显示出突变性的前提下,再寻找序列中的突变点,通过对比突变点前后的序列数 据的差异来判断时效性的强度和趋势,由此作为调序搜索结果的进一步的指导。
[0006] 于是,本发明能够在缺少时效性特征词的情况下快速准确地判断出用户的时效性 需求。
[0007] 在本发明的一个方面,公开了一种搜索方法,包括:接收用户的搜索请求以获取搜 索词;获取基于所述搜索词得到的搜索结果、搜索结果数量以及与所述搜索词相关的搜索 数量;对一定时间段内的所述搜索结果数量和所述搜索数量进行时序分析,以判断所述搜 索词的时效性;响应于判定所述搜索词具有时效性,以时效性作为调序依据对所述搜索结 果的排列顺序进行调整。
[0008] 这样,通过对仅对搜索结果的数量和搜索请求的数量进行时序分析,就能推断出 缺乏时间词的用户搜索的时效性意图,由此提升返回内容的准确性,从而改善用户的搜索 体验。
[0009] 优选地,对搜索结果数量和搜索数量进行时序分析,以判断所述搜索词的时效性 特征的步骤可以包括:将所述时间段内的搜索结果数量和搜索数量按时间间隔划分,生成 第一时间序列数据;对所述第一时间序列数据进行白噪声检验并根据所述白噪声检验的结 果判断所述搜索词的时效性特征。
[0010]上述"时间间隔"例如可以是一天,比如将两个月内的数据按天划分,得到第一时 间序列数据。这样,通过常见的白噪声检验对已有数量数据的时序分析,为本发明的搜索方 法提供了一个相对简单的实现。
[0011]优选地,对第一时间序列数据进行白噪声检验并根据所述白噪声检验的结果判断 所述搜索词的时效性特征的步骤可以包括:假设所述第一时间序列数据X1,X2,X3.. .Xn的 QLB统计量符合卡方分布:
[0012]
[0013] 其中η是所述时间段经所述时间间隔划分后得到的值,V0</( 是自由度,爲 是自相关系数;响应于所述QLB统计量的P值小于作为约定的显著性水平的第一阈值,判断 搜索词具有时效性特征。
[0014] 这样,通过本领域周知的Q值和P值进行白噪声检验,为本发明的搜索方法提供了 一个相对简单的实现。
[0015] 优选地,对所述搜索结果数进行时序分析,以判断所述搜索词的时效性特征的可 以步骤包括:选择与当前时刻相距不同时段的默认时间点,计算当前时刻到默认时间点的 各时段内的搜索结果数量Mi,M 2, . . .,Μη,Μρ其中j是默认时间点的个数,且所述时段中的 最长不长于获取搜索结果数量的所述时间段;求取从所述时段中的最长时段到所述时间段 之间按所述时间间隔划分的每一项的平均值^,计算施, 2, . . .,Μη,Μ」与Mm的比值:
[0016]
[0017] 响应于有任一项R的值大于第二阈值,判断所述搜索词具有时效性特征。
[0018] 这样,通过设置默认时间点来对已有的搜索结果数量数据进行趋势分析,就能通 过简单的计算来判断搜索词的时效性,由此为实现本申请的目的提供了另一个简单的实现 方式。
[0019] 优选地,如果判断所述搜索词具有时效性,则时序分析还可以包括进行突变点检 测,以找出表征所述时效性的突变点位置。
[0020] 由于不仅判断时效性,还具体找出突变点的位置,就能够更为精确地为用户返回 搜索结果,由此改善用户的搜索体验。
[0021] 优选地,突变点检测可以针对上述第一时间序列数据进行,并且包括:找出使下式 的五个值都大于第三阈值的k值以确定突变点的位置:
[0022] diffi = Xk-Xk-i
[0023] diff2 = Xk-Xk-2
[0024] diff3 = Xk-Xk-3〇
[0025] diff4=Xk+i-Xk-i
[0026] diff5 = Xk+2-Xk-i
[0027] 这样,通过简单的差分判断就能够找出突变点位置,并且还能够根据突变点的位 置更为精确地对搜索结果进行调序,以返回更符合用户需要的内容。
[0028] 优选地,还可以根据找出的k值,将所述第一时间序列数据划分成2个单独的时间 序列数据Sl = Xl,X2. . .Xk-l,S2 = Xk,Xk+l. . .Xn,并根据Si和S2的数据模型判断时效性是在增 强、衰减还是趋于平稳;以及根据时效性是在增强、衰减还是趋于平稳作为调序依据对所述 搜索结果的排列顺序进行调整。
[0029] 这样,通过对k点前后的数据分别建模,就能够判断出时效性的趋势,由此进一步 精确对搜索结果的调序。
[0030] 根据本发明的另一方面,公开了一种搜索装置,包括:接收单元,用于接收用户的 搜索请求以获取搜索词;获取单元,用于获取基于所述搜索词得到的搜索结果、搜索结果数 量以及与所述搜索词相关的搜索数量;时序分析单元,用于对一定时间段内的所述搜索结 果数量和所述搜索数量进行时序分析,以判断所述搜索词的时效性;以及调序单元,用于响 应于判定所述搜索词具有时效性,以时效性作为调序依据对所述搜索结果的排列顺序进行 调整。
[0031] 优选地,时序分析单元还可以用于将所述时间段内的搜索结果数量和搜索数量按 时间间隔划分,生成第一时间序列数据;并对所述第一时间序列数据进行白噪声检验并根 据所述白噪声检验的结果判断所述搜索词的时效性。
[0032]优选地,时序分析单元还可用于:假设所述第一时间序列数据X1,X2,X3. . .Xn的QLB 统计量符合卡方分布:
[0033]
[0034] 其中η是所述时间段经所述时间间隔划分后得到的值,是自由度,爲 是自相关系数;并响应于所述QLB统计量的P-value小于作为约定的显著性水平的第一阈 值,判断所述搜索词具有时效性特征。
[0035] 优选地,时序分析单元还可用于:选择与当前时刻相距不同时段的默认时间点,计 算当前时刻到默认时间点的各时段内的搜索结果数量...,Μ^,Μ」,其中j是默认时间 点的个数,且所述时段中的最长时段不长于获取搜索结果数量的所述时间段;求取从所述 时段中的最长时段到所述时间段之间按所述时间间隔划分的每一项的平均值M m,计算此, M2, . . .,Mi-! .Mi与 1\1的比倌:
[0036]
[0037] 响应于有任一项R的值大于第二阈值,判断所述搜索词具有时效性特征。
[0038] 优选地,如果所述时序分析单元判断所述搜索词具有时效性,则所述时序分析单 元还可以进行突变点检测,以找出表征所述时效性的突变点位置。
[0039] 优选地,所述突变点检测可以包括找出时下式的五个值都大于第三阈值的k值以 确定突变点的位置:
[0040] diffi = Xk-Xk
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1