搜索方法、搜索装置以及搜索服务器的制造方法_3

文档序号:9750878阅读:来源:国知局
长于获取搜索结果数量的所述时间段;求取从 所述时段中的最长时段到所述时间段之间按所述时间间隔划分的每一项的平均值M m,计算 Miifc,. . .,Mi-的比值:
[0083]
[0084] 响应于有任一项R的值大于第二阈值,判断搜索词具有时效性特征。
[0085] 具体地,在一个优选实施例中,可以在原始时间序列包括近两个月(例如,60天)的 数据的情况下选择如下五个默认时间点:离当前时间点1小时、3小时、1天、3天和7天。对由 这五个时间点划分出的时间段内的数据进行求和。对第六个时段,即第7天至第60天,计算 该时段内基本时间序列数据的均值Mm。在一个优选实施例中,可以在计算均值时去掉一个 最高值和去掉一个最低值,以防止异常数据造成的统计结果和真实的模型发生大的偏离。 由此,得到上述六个时段的平均资源数量:
[0086] Mhi,Mh3,Mdi,Md3,Md7,Mm
[0087] 求取前五个时段相当于第六个背景时段的比值:
[0088]
[0089] 通过分析上述的比例数据,如果上述R值中有任一个大于某一特定阈值,则认为搜 索结果体现出时效性特征。
[0090] 由此可知,可以对一定时间段内的搜索结果数量和搜索数量进行时序分析,通过 对搜索结果数量和搜索数量的白噪声检验来判断搜索词的时效性。也可以对搜索结果数量 进行默认时间点的趋势分析,作为上述通过白噪声检验进行判断的补充或是替换。
[0091] 在一个优选实施例中,在通过上述途径判断出用户的当前查询具有时效性特征 之后,可以对时间序列数据进行更细致的分析以确定时效性的强度和趋势。
[0092] 在一个优选实施例中,可以在判断搜索词具有时效性之后,对第一时间序列模型 进行突变点检测,以找出表征所述时效性的突变点位置。
[0093] 在数据无法通过白噪声检验和/或默认时间点分割的时间序列的数据的分布差异 比较明显的情况下。可以认为当前用户查询很有可能具有时效性。由此可以根据之前的假 设,认为该时效性查询对应的时间序列数据存在突变点,通过寻找突变点和分析突变点前 后的序列数据的分布的变化,能够帮助我们分析和判断时效性的强度和趋势。
[0094] 在一个优选实施例中,可以使用差分检测来寻找突变点。具体地,可以计算在某一 个时间点的差分值是否发生了剧烈的变化。在这里,仍然可以使用前例中的时间序列数据 X1,X2,X3. . .Xn。在η取1到60之间的整数时,在近六个月的实践中查找突变点(以某一天为 限)。在一个优选实施例中,可以仅使用近30天的数据来进行计算。
[0095] 在一个优选实施例中,可以计算如下的5个差分值可以大致确定时间序列的突变 点的位置。
[0096] diffi = Xk-Xk-i
[0097] diff2 = Xk-Xk-2
[0098] diff3 = Xk-Xk-3
[0099] diff4=Xk+i-Xk-i
[0100] diff5 = Xk+2-Xk-i
[0101] 当这5个值的绝对值都大于某一特定的阈值时,可以推测这个值就是这个时间序 列的突变点。即,时间序列数据的分布在此时发生结构突变。
[0102] 应该理解的是,也可以根据具体实现计算更多和更少个差分值(例如,3个、7个), 这都在本发明原理所涵盖的范围之内。
[0103] 在找出突变点之后,则可以根据找出的k值,将第一时间序列数据划分成2个单独 的时间序列数据Sl = Xl,X2. . .Xk-l,S2 = Xk,Xk+l. . .Xn,并根据Si和S2的数据模型判断时效性是 在增强、衰减还是趋于平稳,并且根据时效性是在增强、衰减还是趋于平稳来作为搜索结果 调序依据。
[0104] -般情况下,如果突变点后的数据均值远大于突变点之前的数据均值,则可以认 为在突变点时刻之后相应查询的资源发生了爆发。如果突变点后的差分持续为正,则可认 为与搜索词对应的事件或者对象在持续的发酵,如果二阶差分持续为正那么则更有证据表 明其时效性在不断增强。如果分析差分在某个点之后持续为负数,则可认为相应的资源的 数量或者用户的搜索数量在下降,表明当前用户查询的时效性已经发生了衰减。如果正负 相差不多,则可认为时效性已在慢慢回归平稳。
[0105] 如上已经结合图1描述了搜索方法及其优选实施例。下面描述的装置中相应单元 和部件的功能分别与上面参考图1及随后优选实施例所描述的相应步骤的功能相同。为了 避免重复,这里重点描述装置可以具有的结构和部件,而对于一些细节则不再赘述,可以参 考上文中的相应描述。
[0106] 图2是根据本发明一个实施例的一种搜索装置20的示意性方框图。搜索装置20可 以包括接收单元100、获取单元200、时序分析单元300以及调序单元400。
[0107] 接收单元100可以接收用户的搜索请求以获取搜索词。
[0108] 获取单元200可以获取基于所述搜索词得到的搜索结果、搜索结果数量以及与所 述搜索词相关的搜索数量。
[0109] 时序分析单元300可对一定时间段内的搜索结果数量和搜索数量进行时序分析, 以判断所述搜索词的时效性。
[0110] 调序单元400可以响应于判定该搜索词具有时效性,以时效性作为调序依据对所 述搜索结果的排列顺序进行调整。
[0111] 在一个优选实施例中,时序分析单元300可以将上述时间段内的搜索结果数量和 搜索数量按时间间隔划分,生成第一时间序列数据,对第一时间序列数据进行白噪声检验 并根据白噪声检验的结果判断搜索词的时效性特征。由该时序分析单元300进行的白噪声 检验可以与前述的具体方法相同,在此不再赘述。
[0112] 在一个优选实施例中,该时序分析单元300还可以如上所述进行默认突变点处的 趋势分析。
[0113] 在一个优选实施例中,该时序分析单元300还可以进行突变点检测。时序分析单元 300可以在其判断搜索词具有时效性的情况下对第一时间序列模型进行突变点检测,以找 出表征时效性的突变点位置。
[0114] 在一个优选实施例中,突变点检测也可以是通过与上文针对搜索方法描述的差 分取值法相类似地寻找突变点,并生成前后两个不同的时序模型以判断时效性趋势,在此 不再赘述。
[0115] 在一个优选实施例中,调序单元400可以根据时效性是在增强、衰减还是趋于平稳 来作为搜索结果调序依据。
[0116] 以上结合图2描述了根据本发明的搜索方法的功能模块实现。如下将结合图3描述 相应装置的硬件支持。
[0117] 图3是根据本发明的一个实施例的一种搜索服务器30的硬件组成图。该搜索服务 器30可以包括处理器31、存储器32、接收装置33及发送装置34。
[0118] 存储器32可以与搜索词关联存储的网络信息并存储用户对搜索词的搜索记录。
[0119] 接收装置33可以接收用户的搜索请求。
[0120] 处理器31连接到存储器32、接收装置33及发送装置34。处理器31可以对由接收装 置33接收的搜索请求加以处理以获取搜索词,可以从存储器32中获取基于所述搜索词得到 的搜索结果、搜索结果数量以及与所述搜索词相关的搜索数量,对一定时间段内的搜索结 果数量和所述搜索数量进行时序分析来判断所述搜索词的时效性,以及响应于判定所述搜 索词具有时效性,以时效性作为调序依据对所述搜索结果的排列顺序进行调整。
[0121] 发送装置34可以向用户的客户端设备发送以时效性作为调序依据调整了排列顺 序的所述搜索结果。
[0122]搜索服务器30可以与图2的搜索装置20是分别表征硬件和功能模块的同一装置, 也可以是不同装置。它们都可以实现图1示例及其优选实施例中描述的方法。
[0123] 上文中已经参考附图详细描述了根据本发明的搜索方法和装置。
[0124] 此外,根据本发明的方法还可以实现为一种计算机程序,该计算机程序包括用于 执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者,根据本发明的 方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计 算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领 域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1