通过计算机实现的用于生成趋势解释数据的方法及装置制造方法

文档序号:6634453阅读:125来源:国知局
通过计算机实现的用于生成趋势解释数据的方法及装置制造方法
【专利摘要】本发明提供一种通过计算机实现的用于生成趋势解释数据的方法及装置。所述方法包括:获取用户搜索日志;从所述用户搜索日志提取与一组待考查搜索词关联搜索的第一关联搜索词、关联时间点及其搜索次数;根据提取的第一关联搜索词、关联时间点及其搜索次数以及所述用户搜索日志选取搜索次数改变幅度超过预定标准的第二关联搜索词、其在搜索次数上的变化方向以及变化时间区间,所述变化方向为正向或反向;根据所述第二关联搜索词以及变化时间区间生成趋势解释数据。如此,自动地生成客观且准确度较高的趋势解释数据,给用户提供客观、有效、系统的趋势解释,进而增强用户体验。
【专利说明】通过计算机实现的用于生成趋势解释数据的方法及装置

【技术领域】
[0001]本发明涉及计算机数据处理技术,尤其涉及一种通过计算机实现的用于生成趋势解释数据的方法及装置。

【背景技术】
[0002]随着互联网数据的爆炸性增长,围绕互联网数据展开的趋势性应用和产品正不断受到关注。例如,社交类网站可以给出用户社交活跃程度的趋势变化,电子商务类网站可以给出用户网络消费的趋势变化,搜索引擎类网站可以给出用户兴趣点的趋势变化,趋势本身可以通过对数据的组织和挖掘表现出来,但是如何自主的、有效的、系统的对趋势进行解读成了一个难题。
[0003]常规的趋势可解释性方法主要是人工或者半自动的对趋势进行解读,赋予主观理解,或者单纯的把趋势变化跟外部新闻绑定在一起。
[0004]上述方法存在如下问题:1)偏主观性,由于人工解读,不同的主观偏见往往会呈现不同结果;2)局限性,缺乏对可能结果集的完整的分析;3)非自主性,这样解读通常依赖领域专家的先验知识,对于某些常规的领域能产出结果,但是对于用户任意的输入行为则无法获取结果;4)时效性差,现有方法往往无法及时的对所描述的趋势给出可解释性结果O


【发明内容】

[0005]本发明的目的在于,提供一种通过计算机实现的用于生成趋势解释数据的方法及装置,通过对用户搜索日志进行分析以生成一定时间范围内的趋势解释数据,从而可自动地生成客观且准确度较高的趋势解释数据。
[0006]根据本发明的一方面,提供一种通过计算机实现的用于生成趋势解释数据的方法,包括:获取用户搜索日志;从所述用户搜索日志提取与一组待考查搜索词关联搜索的第一关联搜索词、关联时间点及其搜索次数;根据提取的第一关联搜索词、关联时间点及其搜索次数以及所述用户搜索日志选取搜索次数改变幅度超过预定标准的第二关联搜索词、其在搜索次数上的变化方向以及变化时间区间,所述变化方向为正向或反向;根据所述第二关联搜索词以及变化时间区间生成趋势解释数据。
[0007]根据本发明的另一方面,提供一种用于生成趋势解释数据的装置,包括:日志获取单元,用户获取用户搜索日志;第一信息提取单元,用于从所述用于搜索日志提取与一组待考查搜索词关联搜索的第一关联搜索词、关联搜索时间点及其搜索次数;第二信息提取单元,用于根据提取的第一关联搜索词、关联时间点及其搜索次数以及所述用户搜索日志选取搜索次数改变幅度超过预定标准的第二关联搜索词、其在搜索次数上的变化方向以及变化时间区间,所述变化方向为正向或反向;趋势解释数据生成单元,根据所述第二关联搜索词以及变化时间区间生成趋势解释数据。
[0008]本发明实施例提供的一种用于生成趋势解释数据的方法及装置,通过从用户搜索日志获取第一关联搜索词、关联时间点及其搜索次数,再从所述第一关联搜索词中筛选出第二关联搜索词,根据第二关联搜索词及其在搜索次数上的变化方向和变化时间区间生成趋势解释数据,如此,自动地生成客观且准确度较高的趋势解释数据,给用户提供客观、有效、系统的趋势解释,进而增强用户体验。

【专利附图】

【附图说明】
[0009]图1是示出本发明一示例性实施例的用于生成趋势解释数据的方法流程示意图。
[0010]图2是示出本发明另一示例性实施例的用户生成趋势解释数据的方法流程示意图。
[0011]图3是示出本发明示例性实施例的从用户搜索日志中提取的第一关联搜索词、关联时间点及其搜索次数的数据示例图。
[0012]图4是示出本发明示例性实施例的第二关联搜索词、其在搜索次数上的变化方向以及变化时间区间的数据示例图。
[0013]图5是示出本发明示例性实施例的第二关联搜索词的趋势匹配示意图。
[0014]图6是示出本发明示例性实施例的第二关联搜索词的变化时间区间映射到一组待考查搜索词的搜索曲线的数据示例图。
[0015]图7是示出本发明示例性实施例的生成的数据趋势以及结合其他数据源进行趋势解释的示例图。
[0016]图8是示出与图7所示的数据趋势相对应的相关数据源示例图。
[0017]图9是示出本发明一示例性实施例的用于生成趋势解释数据的装置结构框图。
[0018]图10是示出本发明另一示例性实施例的用于生成趋势解释数据的装置结构框图。

【具体实施方式】
[0019]本发明的基本构思是,通过计算机技术从用户的搜索日志中提取关联搜索词及其相关数据内容信息,并基于关联搜索词的搜索次数对关联搜索词进行筛选,将筛选出的满足预定标准的关联搜索词与其搜索次数的变化时间区间结合,生成趋势解释数据。
[0020]下面结合附图对本发明示例性实施例的通过计算机实现的用于生成趋势解释数据的方法及装置进行详细描述。
[0021]图1是示出本发明一示例性实施例的用于生成趋势解释数据的方法流程示意图。
[0022]参照图1,在步骤S101,获取用户搜索日志,优选地,所述用户搜索日志包括来自多个数据源的互联网搜索记录。
[0023]在步骤S102,从用户搜索日志提取与一组待考查搜索词关联搜索的第一关联搜索词、关联时间点及其搜索次数。
[0024]例如,可从要考查的目标词包、用户访问的标题集合或者用户访问的非结构化数据提取所述一组待考查搜索词。
[0025]根据本发明优选实施例,通过以下方式提取所述第一关联搜索词:从所述用户搜索日志提取任意用户在一定时间间隔内与所述一组待考查搜索词中的任一待考查搜索词一同搜索的搜索词(可称作查询间共现的搜索词,例如,用户A通过任一待考查搜索词“嘉宝”进行搜索,在时隔半小时后,该用户A将“亨氏米粉”与“嘉宝”同时搜索,此时,可以将“亨氏米粉”作为第一关联搜索词),以及/或者在任一查询搜索词中与所述一组待考查搜索词中的任一待考查搜索词一同出现的搜索词作为第一关联搜索词(可称作查询内共现的搜索词,例如,用户A通过任一待考查搜索词“嘉宝”进行搜索时,与其同时出现的搜索词还包括“亨氏米粉”、“范冰冰李治廷”等,可以将“亨氏米粉”、“范冰冰李治廷”等作为第一关联搜索词)。
[0026]本领域技术人员可以理解的是,所述任一待考查搜索词也可能被选取为第一关联搜索词,此时,将从选取出的第一关联搜索词的结果中将所述任一待考查搜索词剔除。
[0027]此外,根据本发明的优选实施例,在步骤S102,还从提取的第一关联搜索词删除这样的搜索词:其与所述一组待考查搜索词中的任一待考查搜索词一同出现的次数低于预定的共现次数,从而仅选取与待考查搜索词共现足够多次数的搜索词。
[0028]在提取了第一关联搜索词之后,按照预定的统计时间段单位(例如I天),将所述第一关联搜索词被搜索的统计单位时间段作为其关联时间点,并且统计所述第一关联搜索词在所述统计单位时间段内被搜索的次数作为其搜索次数。
[0029]图3是示出本发明示例性实施例的从用户搜索日志中提取的第一关联搜索词、关联时间点及其搜索次数的数据示例图。
[0030]参照图3,可以看出,从目标词包中选取的任一待考查搜索词为“嘉宝”,通过步骤S102的选取之后,得到的第一关联搜索词有“亨氏米粉最新事件”(关联时间点为2014年8月19日和2014年8月20日)、“范冰冰李治廷”(关联时间点为2014年8月19日和2014年8月20日)、“中国好声音张江泡沫”(关联时间点为2014年8月19日)、“burning退役”(关联时间点为2014年8月19日)以及“魅族发布会”(关联时间点为2014年8月19日)等,且还从用户搜索日志中提取前述各第一关联搜索词的关联时间点以及与“嘉宝”共现次数和各自的访问量(即使用所述关联搜索词进行搜索的搜索次数),其中,“亨氏米粉最新事件”与“嘉宝”的共现次数最多,分别为13559和13429,访问量分别为26737和26168。
[0031]在步骤S103,根据步骤S102中提取的第一关联搜索词、关联时间点及其搜索次数以及所述用户搜索日志选取搜索次数改变幅度超过预定标准的第二关联搜索词、其在搜索次数上的变化方向以及变化时间区间,其中,所述变化方向为正向或者反向。
[0032]优选地,对任一所述第一关联搜索词,执行如下操作:
[0033]根据所述用户搜索日志获取在其关联时间点前的预定的考查时间段内的所述统计单位时间段的搜索次数均值,如果所述第一关联搜索词的搜索次数相对于所述搜索次数均值的改变幅度超过预定改变阈值,则将所述第一关联搜索词选取为第二关联搜索词,其中,所述改变幅度可以但不限于用所述第一关联搜索词的搜索次数相对于所述搜索次数均值的比值来表示,所述预定改变阈值也可以但不限于是比值形式,例如,假设计算的改变幅度为4,预定的改变阈值为3,则将其对应的第一关联搜索词选取为第二关联搜索词。
[0034]此外,将所述第一关联搜索词的搜索次数相对于所述搜索次数均值的改变方向作为所述第二关联搜索词的在搜索次数上的变化方向。例如,如果所述第一关联搜索词的搜索次数大于所述搜索次数均值,则可以确定所述第二关联搜索词在搜索次数上的变化方向为正方向,反之,则可以确定所述第二关联搜索词在搜索次数上的变化方向为负方向。
[0035]对任一选取的第二关联搜索词,将其相邻的关联时间点连续或者间断小于预定时间间隔的关联时间点合并成为其变化时间区间。
[0036]图4是示出本发明示例性实施例的第二关联搜索词、其在搜索次数上的变化方向以及变化时间区间的数据示例图。
[0037]假设所述统计单位时间段为I天,预定改变阈值为3,考查时间段为过去的I个月。从图4中可以看出,“亨氏米粉最新事件”在2014年8月19日相对于考查时间段的搜索次数均值的改变幅度为63.27,搜索次数为26168,2014年8月20日相对于考查时间段的搜索次数均值的改变幅度为20.45,搜索次数为26737,“范冰冰李治廷”分别为285.98和33.14,搜索次数分别为23983和30160,而“burning退役”以及“魅族发布会”在2014年8月19日相对于考查时间段的搜索次数均值的改变幅度分别为44.03和48.49,搜索次数分别为30717和30405,因而上述第二关联搜索词的变化方向均为正向。
[0038]在步骤S104,根据在步骤S103中选取的第二关联搜索词以及变化时间区间生成趋势解释数据。
[0039]本发明实施例提供的一种用于生成趋势解释数据的方法,通过从用户搜索日志获取第一关联搜索词、关联时间点及其搜索次数,再从所述第一关联搜索词中筛选出第二关联搜索词,根据第二关联搜索词及其在搜索次数上的变化方向和变化时间区间生成趋势解释数据,如此,自动地生成客观且准确度较高的趋势解释数据,给用户提供客观、有效、系统的趋势解释,进而增强用户体验。
[0040]图2是示出本发明另一示例性实施例的用户生成趋势解释数据的方法流程示意图。图2中的步骤SlOl?步骤S103的处理与图1中相应步骤的处理一致,在此不再详述。
[0041]参照图2,在步骤S105,将第二关联搜索词的变化时间区间映射到所述一组待考查搜索词的搜索曲线上。
[0042]可根据在考查时间段内,在每个统计单位时间段所述一组待考查搜索词的总搜索次数来获得所述搜索曲线。
[0043]在步骤S106,自第二关联搜索词的变化时间区间的区间起始点回溯至所述搜索变化曲线上沿第二关联搜索词的变化方向延伸到的阶段起始时间点,然后计算在所述第二关联搜索词的变化时间区间内所述待考查搜索词的第一平均搜索次数以及所述阶段起始时间点和所述区间起始时间段之间的所述待考查搜索词的第二平均搜索次数,其中,关联搜索词在统计单位时间段内被搜索的次数作为其搜索次数。
[0044]在步骤S107,根据所述第二关联搜索词在搜索次数上的变化方向、所述第一平均搜索次数和第二平均搜索次数的值确定是否将所述第二关联搜索词选取为第三关联搜索
ο
[0045]根据本发明的示例性实施例,如果所述变化方向为正向,并且所述第二平均搜索次数小于所述第一平均搜索次数,则可认为所述第二关联搜索词的变化方向与所述搜索曲线在所述变化区间的改变匹配,将所述第二关联搜索词选取为第三关联搜索词;如果所述变化方向为负向,并且所述第二平均搜索次数大于所述第一平均搜索次数,则将所述第二关联搜索词选取为第三关联搜索词;如果所述变化方向为正向并且所述第二平均搜索次数不小于所述第一平均搜索次数,或者如果所述变化方向为负向并且所述第二平均搜索次数不大于所述第一平均搜索次数,则不将所述第二关联搜索词选取为第三关联搜索词。
[0046]还可通过对所述第一平均搜索次数和所述第二平均搜索次数相差的值设置阈值来进一步控制第三关联搜索词的选取。根据本发明的另一示例性实施例,如果所述变化方向为正向,所述第二平均搜索次数小于所述第一平均搜索次数,并且所述第一平均搜索次数与所述第二平均搜索次数之间的差大于预定的第一搜索次数阈值,则选取所述关联搜索词;如果所述变化方向为负向,所述第二平均搜索次数大于所述第一平均搜索次数,并且所述第二平均搜索次数与所述第一平均搜索次数之间的差大于预定的第二搜索次数阈值,则选取所述关联搜索词;如果所述变化方向为正向并且所述第二平均搜索次数不小于所述第一平均搜索次数,则不选取所述关联搜索词;如果所述变化方向为正向,所述第二平均搜索次数小于所述第一平均搜索次数,并且所述第一平均搜索次数与所述第二平均搜索次数之间的差不大于预定的第一搜索次数阈值,则不选取所述关联搜索词;如果所述变化方向为负向并且所述第二平均搜索次数不大于所述第一平均搜索次数,则不选取所述关联搜索词;如果所述变化方向为负向,所述第二平均搜索次数大于所述第一平均搜索次数,并且所述第二平均搜索次数与所述第一平均搜索次数之间的差不大于预定的第二搜索次数阈值,则选取所述关联搜索词。
[0047]图5是示出本发明示例性实施例的第二关联搜索词的趋势匹配示意图。
[0048]如图5所示,以在搜索次数上正向变化的第二关联搜索词的变化时间区间为示例进行说明,从图中可以看出图中较大的黑线框中的点表示第一平均搜索次数,较小的线框中的点表示第二平均搜索次数。可以看出,所述第二平均搜索次数小于所述第一平均搜索次数,因此可以认为第二关联搜索词的在该变化时间区间在该段所述一组待考查搜索词的搜索曲线上是匹配的,即可以将所述第二关联搜索词选取为第三关联搜索词。
[0049]图6是示出本发明示例性实施例的第二关联搜索词的变化时间区间映射到待考查搜索词的搜索曲线的数据示例图。
[0050]参照图6,该部分数据除了包括图4中所示的数据外,还包括区间的匹配判断,从图中可以看出,前述第二关联搜索词的变化时间区间与映射到的所述一组待考查搜索词的搜索曲线完全匹配,均可将所述第二关联搜索词选取为第三关联搜索词。
[0051]在步骤S108,根据所述第三关联搜索词以及变化时间区间生成趋势解释数据。
[0052]优选地,根据所述第三关联搜索词从多个数据源(如新闻、综艺节目等)获取描述数据,并且获取其变化时间区间内的搜索次数,根据所述第三关联搜索词的所述描述数据和搜索次数生成所述变化时间区间的趋势解释数据。
[0053]进一步地,对于变化时间区间重叠的第三关联搜索词,按照其在所述变化时间区间被搜索的次数由高到低的顺序排序。
[0054]图7是示出本发明示例性实施例的生成的数据趋势以及结合其他数据源进行趋势解释的示例图,图8是示出与图7所示的数据趋势相对应的相关数据源示例图。
[0055]参照图7,待考查搜索词为“新叶古村”,考查时间为20140601?20140729,经过筛选后提取的第三关联搜索词为“爸爸去哪儿第二季”,在2014年7月5日当天的“新叶古村”的搜索次数处于考查时间内最高值,在此第三关联搜索词“爸爸去哪儿第二季”、关联时间2014年7月5日以及搜索次数17336可以作为基本的趋势解释数据。图8示出根据其他数据源获取的描述数据,通过对所述基本的趋势解释数据进行扩展,可将“新叶古村”的搜索量在2014年7月5日骤然升高的趋势解释为,由于爸爸去哪儿第二季的取景地是新叶古村,使得新古叶村的访问趋势发生变化。
[0056]综上所述,趋势解释数据包括但不限于关联搜索词、可解释时间或时间区间、关联搜索词的搜索次数以及关联搜索词的新闻或其他相关内容。
[0057]本发明实施例提供的一种用于生成趋势解释数据的方法,通过从用户搜索日志获取关联搜索词、关联时间点及其搜索次数,并通过预设的标准或条件对关联搜索词进行多次筛选,结合关联时间点及其关联搜索词的搜索次数最终生成趋势解释数据,如此,如此,自动地生成客观且准确度较高的趋势解释数据,给用户提供客观、有效、系统的趋势解释,进而增强用户体验。
[0058]图9是示出本发明一示例性实施例的用于生成趋势解释数据的装置结构框图。参照图9,所述装置包括:日志获取单元201、第一信息提取单元202、第二信息提取单元203以及趋势解释数据生成单元204。
[0059]日志获取单元201用于获取用户搜索日志,其中,所述用户搜索日志包括来自多个数据源的互联网搜索记录。
[0060]第一信息提取单元202用于从所述用于搜索日志提取与一组待考查搜索词关联搜索的第一关联搜索词、关联搜索时间点及其搜索次数。
[0061]根据本发明的优选实施例,第一信息提取单元202用于从所述用户搜索日志提取任一用户在一定时间间隔内与所述一组待考查搜索词中的任一待考查搜索词一同搜索的搜索词,以及/或者在任一查询搜索词中与所述一组待考查搜索词中的任一待考查搜索词一同出现的搜索词作为第一关联搜索词,
[0062]根据本发明的优选实施例,第一信息提取单元202还用于按照预定的统计时间段单位,将所述第一关联搜索词被搜索的统计单位时间段作为其关联时间点,并且统计所述关联搜索词在所述统计单位时间段内被搜索的次数作为其搜索次数。
[0063]第二信息提取单元203用于根据提取的第一关联搜索词、关联时间点及其搜索次数以及所述用户搜索日志选取搜索次数改变幅度超过预定标准的第二关联搜索词、其在搜索次数上的变化方向以及变化时间区间,所述变化方向为正向或反向。
[0064]根据本发明的优选实施例,第二信息提取单元203用于对任一所述第一关联搜索词,执行以下操作:根据所述用户搜索日志获取在其关联时间点前的预定的考查时间段内的所述统计单位时间段的搜索次数均值,如果所述第一关联搜索词的搜索次数相对于所述搜索次数均值的改变幅度超过预定改变阈值,则将所述第一关联搜索词选取为第二关联搜索词,并且将所述第一关联搜索词的搜索次数相对于所述搜索次数均值的改变方向作为所述第二关联搜索词在搜索次数上的变化方向。
[0065]优选地,第二信息提取单元203还用于对任一选取的第二关联搜索词,将其相邻的关联时间点连续或间隔小于预定时间间隔的关联时间点合并成为其变化时间区间。
[0066]趋势解释数据生成单元204用于根据所述第二关联搜索词以及变化时间区间生成趋势解释数据。
[0067]优选地,所述装置还包括待考查搜索词获取单元(图中未示出),用于从要考查的目标词包、用户访问的标题集合或者用户访问的非结构化数据提取所述一组待考查搜索
1-rJ ο
[0068]本发明实施例提供的一种用于生成趋势解释数据的装置,通过从用户搜索日志获取第一关联搜索词、关联时间点及其搜索次数,再从所述第一关联搜索词中筛选出第二关联搜索词,根据第二关联搜索词及其在搜索次数上的变化方向和变化时间区间生成趋势解释数据,如此,能够很好地捕捉到数据趋势产生的原因,给用户提供一个自主的、有效的、系统的趋势解释,进而增强用户体验。
[0069]图10是示出本发明另一示例性实施例的用于生成趋势解释数据的装置结构框图。参照图10,所述装置包括:日志获取单元201、第一信息提取单元202、第二信息提取单元203、第三关联搜索词获取单元205以及趋势解释数据生成单元204,其中,日志获取单元201、第一信息提取单元202以及第二信息提取单元203与图9中所示的相应单元一致,在此不再详述。
[0070]第三关联搜索词获取单元205用于将所述第二关联搜索词的变化时间区间映射到所述一组待考查搜索词的搜索变化曲线上,根据所述一组待考查搜索词的搜索次数的变化筛选出变化方向匹配的第三关联搜索词。
[0071]根据本发明优选实施例,第三关联搜索词获取单元205用于对于任一所述第二关联搜索词,执行以下操作:自所述第二关联搜索词的变化时间区间的区间起始时间点回溯至所述搜索变化曲线上沿所述第二关联搜索词的变化方向延伸到的阶段起始时间点,计算在所述第二关联搜索词的变化时间区间内所述待考查搜索词的第一平均搜索次数以及所述阶段起始时间点和所述区间起始时间点之间所述待考查搜索词的第二平均搜索次数,用于根据所述变化方向、所述第一平均搜索次数和第二平均搜索次数的值确定是否将所述第二关联搜索词选取为第三关联搜索词。
[0072]如果所述变化方向为正向,并且所述第二平均搜索次数小于所述第一平均搜索次数,则第三关联搜索词获取单元205选取所述关联搜索词。
[0073]如果所述变化方向为负向,并且所述第二平均搜索次数大于所述第一平均搜索次数,则第三关联搜索词获取单元205选取所述关联搜索词。
[0074]如果所述变化方向为正向并且所述第二平均搜索次数不小于所述第一平均搜索次数,或者如果所述变化方向为负向并且所述第二平均搜索次数不大于所述第一平均搜索次数,则第三关联搜索词获取单元205不选取所述关联搜索词。
[0075]基于第三关联搜索词获取单元205,此时,趋势解释数据生成单元204用于根据所述第三关联搜索词以及变化时间区间生成趋势解释数据。
[0076]优选地,趋势解释数据生成单元204根据所述第三关联搜索词从多个数据源获取描述数据,并且获取其变化时间区间内的搜索次数,且根据所述第三关联搜索词的所述描述数据和搜索次数生成所述变化时间区间的趋势解释数据。
[0077]优选地,趋势解释数据生成单元204还用于对于变化时间区间重叠的第三关联搜索词,按照其在所述变化时间区间被搜索的次数由高到低的顺序排序。
[0078]本发明实施例提供的一种用于生成趋势解释数据的装置,通过从用户搜索日志获取关联搜索词、关联时间点及其搜索次数,并通过预设的标准或条件对关联搜索词进行多次筛选,结合关联时间点及其关联搜索词的搜索次数最终生成趋势解释数据,如此,能够很好地捕捉到数据趋势产生的原因,给用户提供一个自主的、有效的、系统的趋势解释,进而增强用户体验。
[0079]需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现本发明的目的。
[0080]上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、R0M、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
[0081]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【权利要求】
1.一种通过计算机实现的用于生成趋势解释数据的方法,其特征在于,所述方法包括: 获取用户搜索日志; 从所述用户搜索日志提取与一组待考查搜索词关联搜索的第一关联搜索词、关联时间点及其搜索次数; 根据提取的第一关联搜索词、关联时间点及其搜索次数以及所述用户搜索日志选取搜索次数改变幅度超过预定标准的第二关联搜索词、其在搜索次数上的变化方向以及变化时间区间,所述变化方向为正向或反向; 根据所述第二关联搜索词以及变化时间区间生成趋势解释数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括: 从要考查的目标词包、用户访问的标题集合或者用户访问的非结构化数据提取所述一组待考查搜索词。
3.根据权利要求2所述的方法,其特征在于,所述用户搜索日志包括来自多个数据源的互联网搜索记录。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括: 将所述第二关联搜索词的变化时间区间映射到所述一组待考查搜索词的搜索变化曲线上,根据所述一组待考查搜索词的搜索次数的变化筛选出变化方向匹配的第三关联搜索词,并且 所述根据所述第二关联搜索词以及变化时间区间生成趋势解释数据的处理包括:根据所述第三关联搜索词以及变化时间区间生成趋势解释数据。
5.根据权利要求4所述的方法,其特征在于,所述根据所述一组待考查搜索词的搜索次数的变化筛选出变化方向匹配的第三关联搜索词的处理包括: 对于任一所述第二关联搜索词,执行以下操作: 自所述第二关联搜索词的变化时间区间的区间起始时间点回溯至所述搜索变化曲线上沿所述第二关联搜索词的变化方向延伸到的阶段起始时间点, 计算在所述第二关联搜索词的变化时间区间内所述待考查搜索词的第一平均搜索次数以及所述阶段起始时间点和所述区间起始时间点之间所述待考查搜索词的第二平均搜索次数, 根据所述变化方向、所述第一平均搜索次数和第二平均搜索次数的值确定是否将所述第二关联搜索词选取为第三关联搜索词。
6.根据权利要求5所述的方法,其特征在于,所述根据所述变化方向、所述第一平均搜索次数和第二平均搜索次数的值确定是否选取所述关联搜索词的处理包括: 如果所述变化方向为正向,并且所述第二平均搜索次数小于所述第一平均搜索次数,则选取所述关联搜索词, 如果所述变化方向为负向,并且所述第二平均搜索次数大于所述第一平均搜索次数,则选取所述关联搜索词, 如果所述变化方向为正向并且所述第二平均搜索次数不小于所述第一平均搜索次数,或者如果所述变化方向为负向并且所述第二平均搜索次数不大于所述第一平均搜索次数,则不选取所述关联搜索词。
7.根据权利要求5所述的方法,其特征在于,所述根据所述变化方向、所述第一平均搜索次数和第二平均搜索次数的值确定是否选取所述关联搜索词的处理包括: 如果所述变化方向为正向,所述第二平均搜索次数小于所述第一平均搜索次数,并且所述第一平均搜索次数与所述第二平均搜索次数之间的差大于预定的第一搜索次数阈值,则选取所述关联搜索词, 如果所述变化方向为负向,所述第二平均搜索次数大于所述第一平均搜索次数,并且所述第二平均搜索次数与所述第一平均搜索次数之间的差大于预定的第二搜索次数阈值,则选取所述关联搜索词, 如果所述变化方向为正向并且所述第二平均搜索次数不小于所述第一平均搜索次数,则不选取所述关联搜索词, 如果所述变化方向为正向,所述第二平均搜索次数小于所述第一平均搜索次数,并且所述第一平均搜索次数与所述第二平均搜索次数之间的差不大于预定的第一搜索次数阈值,则不选取所述关联搜索词, 如果所述变化方向为负向并且所述第二平均搜索次数不大于所述第一平均搜索次数,则不选取所述关联搜索词, 如果所述变化方向为负向,所述第二平均搜索次数大于所述第一平均搜索次数,并且所述第二平均搜索次数与所述第一平均搜索次数之间的差不大于预定的第二搜索次数阈值,则选取所述关联搜索词。
8.根据权利要求1?7中任一项所述的方法,其特征在于,所述从所述用户搜索日志提取与一组待考查搜索词关联搜索的第一关联搜索词、关联时间点及其搜索次数的处理包括: 从所述用户搜索日志提取任一用户在一定时间间隔内与所述一组待考查搜索词中的任一待考查搜索词一同搜索的搜索词,以及/或者在任一查询搜索词中与所述一组待考查搜索词中的任一待考查搜索词一同出现的搜索词作为第一关联搜索词, 按照预定的统计时间段单位,将所述第一关联搜索词被搜索的统计单位时间段作为其关联时间点,并且统计所述关联搜索词在所述统计单位时间段内被搜索的次数作为其搜索次数。
9.根据权利要求8所述的方法,其特征在于,所述从所述用户搜索日志提取与一组待考查搜索词关联搜索的第一关联搜索词、关联时间点及其搜索次数的处理还包括: 从提取的第一关联搜索词删除这样的搜索词:其与所述一组待考查搜索词中的任一待考查搜索词一同出现的次数低于预定的共现次数。
10.根据权利要求9所述的方法,其特征在于,所述根据提取的第一关联搜索词、关联时间点及其搜索次数以及所述用户搜索日志选取搜索次数改变幅度超过预定标准的第二关联搜索词、其在搜索次数上的变化方向以及变化时间区间的处理包括: 对任一所述第一关联搜索词,执行以下操作: 根据所述用户搜索日志获取在其关联时间点前的预定的考查时间段内的所述统计单位时间段的搜索次数均值, 如果所述第一关联搜索词的搜索次数相对于所述搜索次数均值的改变幅度超过预定改变阈值,则将所述第一关联搜索词选取为第二关联搜索词,并且将所述第一关联搜索词的搜索次数相对于所述搜索次数均值的改变方向作为所述第二关联搜索词在搜索次数上的变化方向, 对任一选取的第二关联搜索词,将其相邻的关联时间点连续或间隔小于预定时间间隔的关联时间点合并成为其变化时间区间。
11.根据权利要求10所述的方法,其特征在于,所述根据所述筛选出的第三关联搜索词以及变化时间区间生成趋势解释数据的处理包括: 根据所述第三关联搜索词从多个数据源获取描述数据,并且获取其变化时间区间内的搜索次数, 根据所述第三关联搜索词的所述描述数据和搜索次数生成所述变化时间区间的趋势解释数据。
12.根据权利要求11所述的方法,其特征在于,所述根据所述筛选出的第三关联搜索词以及变化时间区间生成趋势解释数据的处理还包括: 对于变化时间区间重叠的第三关联搜索词,按照其在所述变化时间区间被搜索的次数由高到低的顺序排序。
13.一种用于生成趋势解释数据的装置,其特征在于,所述装置包括: 日志获取单元,用于获取用户搜索日志; 第一信息提取单元,用于从所述用于搜索日志提取与一组待考查搜索词关联搜索的第一关联搜索词、关联搜索时间点及其搜索次数; 第二信息提取单元,用于根据第一信息提取单元提取的第一关联搜索词、关联时间点及其搜索次数以及所述用户搜索日志选取搜索次数改变幅度超过预定标准的第二关联搜索词、其在搜索次数上的变化方向以及变化时间区间,所述变化方向为正向或反向; 趋势解释数据生成单元,用于根据所述第二关联搜索词以及变化时间区间生成趋势解释数据。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括: 待考查搜索词获取单元,用于从要考查的目标词包、用户访问的标题集合或者用户访问的非结构化数据提取所述一组待考查搜索词。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括: 第三关联搜索词获取单元,用于将所述第二关联搜索词的变化时间区间映射到所述一组待考查搜索词的搜索变化曲线上,根据所述一组待考查搜索词的搜索次数的变化筛选出变化方向匹配的第三关联搜索词,并且 所述趋势解释数据生成单元用于根据所述第三关联搜索词以及变化时间区间生成趋势解释数据。
16.根据权利要求15所述的装置,其特征在于,所述第三关联搜索词获取单元用于对于任一所述第二关联搜索词,执行以下操作: 自所述第二关联搜索词的变化时间区间的区间起始时间点回溯至所述搜索变化曲线上沿所述第二关联搜索词的变化方向延伸到的阶段起始时间点, 计算在所述第二关联搜索词的变化时间区间内所述待考查搜索词的第一平均搜索次数以及所述阶段起始时间点和所述区间起始时间点之间所述待考查搜索词的第二平均搜索次数, 根据所述变化方向、所述第一平均搜索次数和第二平均搜索次数的值确定是否将所述第二关联搜索词选取为第三关联搜索词。
17.根据权利要求16所述的装置,其特征在于, 如果所述变化方向为正向,并且所述第二平均搜索次数小于所述第一平均搜索次数,则所述第三关联搜索词获取单元选取所述关联搜索词, 如果所述变化方向为负向,并且所述第二平均搜索次数大于所述第一平均搜索次数,则所述第三关联搜索词获取单元选取所述关联搜索词, 如果所述变化方向为正向并且所述第二平均搜索次数不小于所述第一平均搜索次数,或者如果所述变化方向为负向并且所述第二平均搜索次数不大于所述第一平均搜索次数,则所述第三关联搜索词获取单元不选取所述关联搜索词。
18.根据权利要求13?17中任一项所述的装置,其特征在于,所述第一信息提取单元用于: 从所述用户搜索日志提取任一用户在一定时间间隔内与所述一组待考查搜索词中的任一待考查搜索词一同搜索的搜索词,以及/或者在任一查询搜索词中与所述一组待考查搜索词中的任一待考查搜索词一同出现的搜索词作为第一关联搜索词, 按照预定的统计时间段单位,将所述第一关联搜索词被搜索的统计单位时间段作为其关联时间点,并且统计所述关联搜索词在所述统计单位时间段内被搜索的次数作为其搜索次数。
19.根据权利要求18所述的装置,其特征在于,所述第二信息提取单元用于: 对任一所述第一关联搜索词,执行以下操作: 根据所述用户搜索日志获取在其关联时间点前的预定的考查时间段内的所述统计单位时间段的搜索次数均值, 如果所述第一关联搜索词的搜索次数相对于所述搜索次数均值的改变幅度超过预定改变阈值,则将所述第一关联搜索词选取为第二关联搜索词,并且将所述第一关联搜索词的搜索次数相对于所述搜索次数均值的改变方向作为所述第二关联搜索词在搜索次数上的变化方向, 第二信息提取单元还用于对任一选取的第二关联搜索词,将其相邻的关联时间点连续或间隔小于预定时间间隔的关联时间点合并成为其变化时间区间。
20.根据权利要求19所述的装置,其特征在于,所述趋势解释数据生成单元用于: 根据所述第三关联搜索词从多个数据源获取描述数据,并且获取其变化时间区间内的搜索次数, 根据所述第三关联搜索词的所述描述数据和搜索次数生成所述变化时间区间的趋势解释数据, 其中,对于变化时间区间重叠的第三关联搜索词,所述趋势解释数据生成单元还用于按照其在所述变化时间区间被搜索的次数由高到低的顺序排序。
【文档编号】G06F17/30GK104331493SQ201410652571
【公开日】2015年2月4日 申请日期:2014年11月17日 优先权日:2014年11月17日
【发明者】王晓元, 陈承泽 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1