检索信息热度统计方法

文档序号:6559350阅读:518来源:国知局
专利名称:检索信息热度统计方法
技术领域
本发明涉及互联网络技术和搜索引擎相关技术领域,特别涉及一种检索信息热度统计方法。
背景技术
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。当前,很多的搜索引擎网站都为用户提供热点信息参考服务,即在用户输入检索信息时,根据用户输入的关键字,列出与用户输入内容相关的热点信息为用户提供有用参考。热点信息,通常是对一定历史时段内用户的检索信息进行热度统计而得到,根据热度值进行排序,热度值约大则表明相应的信息在网络中被检索和讨论得越多,从而通过热点信息参考服务尽可能的为用户提供最有价值的互联网信息。目前的热度统计过程中,通常是直接将用户在检索时输入的整条检索信息作为一个统计项目进行检索次数统计;然而,针对相同的讨论话题,不同的用户往往会根据其表达习惯而输入不同的检索信息,因此在热度统计过程中就会将这些针对相同话题的不同检索信息进行区别统计,在统计数量上没有形成累积,因此出现针对相同话题的不同检索信息热度统计都不高的情况,从而被共同讨论的话题经热度统计后并未体现出其真实热度,导致统计错误,不能够为用户提供真正有用的参考数据。

发明内容
针对现有技术中存在的上述不足,本发明为了解决现有热度统计所体现的热度真实性难以得到保证的问题,提出一种检索信息热度统计方法,通过该方法为给用户提供更加准确的热点信息提供帮助。为实现上述目的,本发明采用了如下技术手段检索信息热度统计方法,其特征在于,采集用户在搜索引擎输入的检索信息,对检索信息整体、检索信息中所含的词汇以及检索信息中所含词汇的集合分别作为不同的统计项目进行热度统计。上述的检索信息热度统计方法包括如下步骤A)采集用户在搜索引擎输入的检索信息,并记录采集时间;B)对采集的每条检索信息进行统计项目划分处理,具体为bl)将一项检索信息作为一个第一维度统计项目;b2)利用分词技术对检索信息进行分词处理,将分词处理得到的每个词汇作为一个第二维度统计项目;b3)将一项检索信息分词处理得到的各个词汇的集合作为一个第三维度统计项目;C)设定统计起始时间,将统计起始时间到热度值计算时间之间的时长划分为若干个时间段,按下式计算各个第一维度统计项目、第二维度统计项目和第三维度统计项目的热度值
权利要求
1.检索信息热度统计方法,其特征在于,采集用户在搜索引擎输入的检索信息,对检索信息整体、检索信息中所含的词汇以及检索信息中所含词汇的集合分别作为不同的统计项目进行热度统计。
2.根据权利要求1所述的检索信息热度统计方法,其特征在于,该方法包括如下步骤A)采集用户在搜索引擎输入的检索信息,并记录采集时间;B)对采集的每条检索信息进行统计项目划分处理,具体为bl)将一项检索信息作为一个第一维度统计项目;b2)利用分词技术对检索信息进行分词处理,将分词处理得到的每个词汇作为一个第二维度统计项目;b3)将一项检索信息分词处理得到的各个词汇的集合作为一个第三维度统计项目;C)设定统计起始时间,将统计起始时间到热度值计算时间之间的时长划分为若干个时间段,按下式计算各个第一维度统计项目、第二维度统计项目和第三维度统计项目的热度值NF = ^-S1);i=l其中,F表示第一维度统计项目、第二维度统计项目或第三维度统计项目的热度值,热度值越大表示关注热度越高;N表示统计起始时间到热度值计算时间之间划分的时间段的段数成表示第一维度统计项目、第二维度统计项目或第三维度统计项目在第i个时间段内采集到的次数;λ i表示第i个时间段对应的权重值,越靠近热度值计算时间的时间段, 其对应的权重值越大。
3.根据权利要求2所述的检索信息热度统计方法,其特征在于,所述步骤C)中,第i个时间段对应的权重值λ i按下式获得為=合,i = 1,2, -,N;其中,i的值越大表示第i个时间段越靠近热度值计算时间,第N个时间段即为热度值计算时间所在时间段。
4.根据权利要求2所述的检索信息热度统计方法,其特征在于,所述步骤C)中,第i个时间段对应的权重值λ i按下式获得為:^T,i = 1,2,...,N;其中,i的值越大表示第i个时间段越靠近热度值计算时间,第N个时间段即为热度值计算时间所在时间段。
全文摘要
本发明提供了一种检索信息热度统计方法,该方法基于热点话题的特点,对检索信息整体、检索信息中所含的词汇以及检索信息中所含词汇的集合分别作为不同的统计项目进行热度统计,使得针对相同话题的关键词汇以及词组都能够分别的得到累积统计,从多个维度反映出检索信息中所包含的热点因素,以此达到降低热度统计错误率的目的;并且,还对各个统计项目的热度值进行了“时间降温”的统计计算,使得最新的热点信息具有更高的热度值体现,以助于为用户提供更加实时、有用的热点信息服务。
文档编号G06F17/30GK102194015SQ20111018204
公开日2011年9月21日 申请日期2011年6月30日 优先权日2011年6月30日
发明者史寿伟, 李龙 申请人:重庆新媒农信科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1