搜索方法、搜索装置以及搜索服务器的制造方法_2

文档序号:9750878阅读:来源:国知局
-i
[0041] diff2 = Xk-Xk-2
[0042] diff3 = Xk-Xk-3。
[0043] diff4=Xk+i-Xk-i
[0044] diff5 = Xk+2-Xk-i
[0045] 优选地,所述时序分析单元还可以根据找出的k值,将所述第一时间序列数据划分 成2个单独的时间序列数据Sl = Xl,X2. . .Xk-l,S2 = Xk,Xk+l. . .Xn,并根据Si和S2的数据模型判 断时效性是在增强、衰减还是趋于平稳;以及调序单元可以根据时效性是在增强、衰减还是 趋于平稳作为调序依据对所述搜索结果的排列顺序进行调整。
[0046] 根据本发明的又一方面,公开了一种搜索服务器,包括:存储器,用于与搜索词关 联存储的网络信息并存储用户对搜索词的搜索记录;接收装置,用于接收用户的搜索请求; 处理器,连接到所述存储器和所述接收装置,用于从由所述接收装置接收的所述搜索请求 获取搜索词,从存储器中获取基于所述搜索词得到的搜索结果、搜索结果数量以及与所述 搜索词相关的搜索数量,对一定时间段内的所述搜索结果数量和所述搜索数量进行时序分 析来判断所述搜索词的时效性,以及响应于判定所述搜索词具有时效性,以时效性作为调 序依据对所述搜索结果的排列顺序进行调整;发送装置,用于向用户的客户端设备发送以 时效性作为调序依据调整了排列顺序的所述搜索结果。
[0047 ]由此,就为根据本发明的搜索方法提供了装置上的支持。
【附图说明】
[0048] 通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其 它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号 通常代表相同部件。
[0049] 图1是根据本发明一个实施例的一种搜索方法的示意性流程图。
[0050] 图2是根据本发明的一个实施例的一种搜索装置的示意性方框图。
[0051] 图3是根据本发明的一个实施例的一种搜索服务器的硬件组成图。
【具体实施方式】
[0052] 下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开 的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方 式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的 范围完整地传达给本领域的技术人员。
[0053] 图1是根据本发明一个实施例的一种搜索方法的示意性流程图。
[0054] 在步骤S110,接收用户的搜索请求以获取搜索词。
[0055] 在步骤S120,获取基于该搜索词得到的搜索结果、搜索结果数量以及与该搜索词 相关的搜索数量。
[0056] 在步骤S130,对一定时间段内的搜索结果数量和搜索数量进行时序分析,以判断 所述搜索词的时效性。
[0057] 在步骤S140,响应于判定所述搜索词具有时效性,以时效性作为调序依据对所述 搜索结果的排列顺序进行调整。
[0058] 由此,就能够仅通过对一定时间内搜索结果的数量和搜索的数量进行时序分析来 实现对搜索词时效性的判断,并由此对搜索结果的排列顺序进行相应的调整。
[0059] 在这里,时序分析所指的是本领域内周知的概念,ΒΓ将一组按时间顺序排列的观 测数据(称为时序)与某种参数模型拟合并进行分析"。
[0060] 对步骤S110加以进一步说明。搜索引擎都是根据用户的搜索请求来召回相应的文 档。一般情况下,用户的搜索请求各种各样。如果仅按字面查询则很可能会漏掉大量相关结 果。由此,需要对用户请求进行一定的处理,例如,需要去掉搜索请求中的一些不重要的词, 并对用户搜索中的部分词语进行适当的变换,增加召回的结果的数据。
[0061] 从搜索请求中获取搜索词的处理并非本发明的主要内容,在此不再赘述。
[0062] 在一个优选实施例中,步骤S130可以包括将上述一定时间段内的搜索结果数量和 搜索数量按一定时间间隔划分,生成第一时间序列数据。上述"时间间隔"例如可以是一天, 上述"时间段"例如可以是两个月(为方便计算,视为60天),因此比如可以将近两个月的数 据按天划分来生成第一时间序列数据。如下将结合示例详述对搜索结果数量和搜索数量的 数据准备。
[0063] 本发明用来判断用户时效性需求的依据主要是两份数据,一份是用户请求的相关 资讯的数量(例如,相关新闻的数量),另外一份是其他用户进行类似搜索的数量。在一个优 选实施例中,可以预先将这两份数据分别建成资讯索引和查询日志索引以便后续的数据统 计和召回。
[0064] 在一个优选实施例中,资讯索引可以包括两部分:天级更新索引和实时更新索引。 资讯索引的数据来源,例如可以是人工和机器挑选出来的新闻的种子页面,爬虫实时的爬 取种子页面上页面的链接,将爬取的新闻数据建立索引。
[0065] 在一个优选实施例中,查询日志索引可以包括两个部分:天级更新索引和小时级 更新索引。该查询日志的数据可以来自线上用户搜索的实时查询日志。
[0066] 在一个优选实施例中,资讯索引可以是从当前时间起两个月内索引的资讯页面 (例如,爬虫爬取到的新闻页面),获取的值是相关资讯页面的数量。
[0067] 在一个优选实施例中,查询日志索引相应地可以是从当前时间起两个月内所有的 用户搜索的查询日志,获取的是相关或者相似查询的数量。
[0068] 在一个优选实施例中,上述天级更新索引可以是按1天、2天、3天…60天逐天更新 的索引。小时级更新例如可以是以1小时、3小时、6小时、9小时、12小时、15小时、18小时、21 小时、24小时进行更新。
[0069]应该理解的是,以上关于两个月、逐天、每三小时的限定仅是为方便说明而提供的 例子,本领域技术人员可以根据具体实现选取不同的值。获取原始数据的"一定时间段"可 以是两个月之外的任何合适时间段,例如两周、一个月、半年等。用于划分该一定时间段的 "时间间隔"可以是一天之外的任何时间间隔,例如半天、隔天、每三天等。"小时级更新"可 以是例如每小时、每两小时、甚至是间隔不等的更新。显而易见的是,这些变化都位于本发 明原理所涵盖的范围之内。
[0070] 在一个优选实施例中,将用户查询召回的资源数量和相关搜索的数量按照一定时 间间隔进行划分,得到一个带有时间下标的向量,将数据按照离当前时间的远近排序,生成 时间序列数据 X1,X2,X3...xn。例如,将近两个月(这里为方便计算,取两个月为60天)的数据 按天划分,得到时间序列数据 X1,X2,X3. . .Xn,这里η取1到60之间的整数。
[0071] 在对第一时间序列数据进行分析时,首先建立如下的基本假设:在正常的随机查 询下召回的相关结果和相关查询满足正态分布,生成的时间序列是白噪声,而在查询具有 时效性特征时,召回的时间序列存在突变点,并且突变点前和突变点后的数据的分布明显 不同。
[0072] 随后,可以对时间序列数据X1,X2,X3. . .&进行基本统计量的计算。基本统计量可 以包括均值,方差,自协方差和自相关系数等。
[0073]
[0074]
[0075]
[0076]
[0077] 在一个优选实施例中,步骤S130还可以包括对所述第一时间序列数据进行白噪声 检验并根据白噪声检验的结果判断搜索词的时效性。
[0078]在一个优选实施例中,假设所述第一时间序列数据X1,X2,X3. . .x^QLB统计量符 合卡方分布:
[0079]
[0080]其中η是所述时间段经所述时间间隔划分后得到的值,ν〇<?<?,πι是自由度,A 是自相关系数;响应于所述QLB统计量的P值(P-value)小于作为约定的显著性水平的第一 阈值,判断所述搜索词具有时效性特征。
[0081]具体地,在这里可以直接使用按天级汇总的值。在计算仅30天数据的情况下,假如 今天是30号,那么检测用的序列数据就是本月30号、29号、28号"_3号、2号和1号的数据。 [0082]在一个优选实施例中,步骤S130可以包括选择与当前时刻相距不同时段的默认时 间点,计算当前时刻到默认时间点的各时段内的搜索结果数量...,Μη,Μ」,其中j是 默认时间点的个数,且所述时段中的最长不
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1