一种基于查询输入的热点事件确定方法和系统的制作方法

文档序号:6363827阅读:170来源:国知局
专利名称:一种基于查询输入的热点事件确定方法和系统的制作方法
技术领域
本发明实施方式涉及互联网应用技术领域,更具体地,涉及一种基于查询输入的热点事件确定方法和系统。
背景技术
随着计算机技术和网络技术的飞速发展,互联网(Internet)在人们的日常生活、学习和工作中发挥的作用也越来越大。人们越来越习惯通过互联网来获取包括热点事件在内的许多资讯信息。目前人们一般通过新闻网站、搜索引擎、微博等多种方式来获取各种最新的热点事件。搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎是用户在互联网上寻找感兴趣内容的主要渠道之一。对于新闻事件或者最新的热门话题,用户会在很短时间以内通过查询输入(QUERY)向搜索引擎发出查询输入,从而检索到最新的新闻信息。因此在新闻事件发生后的很短时间内,搜索引擎会接收到大量用户关于某一事件或话题的大量查询输入。比如:苹果公司最新产品发布会开始以后,搜索引擎的日志中会大量出现关于某款产品的查询输入(如:“iph0ne”、“ipad”
坐^
寸/ ο然而,目前新闻网站、搜索引擎和微博等诸多资讯提供平台都是在获取到相应事件后,预先由编辑人员确定出热点事件,再向用户派发热点事件消息。首先,这种派发方式所派发出的热点事件并不一定是用户真正关注的内容,而且这种主动派发方式并不能保证热点事件信息的即时性。再 有,这种主动派发方式需要由编辑人员进行处理后才能派发,而无法自动生成热点事件,这样无论是成本还是用户体验上都会产生不利影响。

发明内容
本发明实施方式提出一种基于查询输入的热点事件确定方法,以提高热点事件的即时性。本发明实施方式提出一种基于查询输入的热点事件确定系统,以以提高热点事件的即时性。本发明实施方式的具体方案如下:—种基于查询输入的热点事件确定方法,该方法包括:确定每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数;基于所述每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数,确定每个查询输入在该预定时间窗口内的时新度;选择时新度符合预定条件的查询输入作为热点事件。—种基于查询输入的热点事件确定系统,该系统包括:查询次数确定单元,用于确定每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数;时新度确定单元,用于基于所述每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数,确定每个查询输入在该预定时间窗口内的时新度;热点事件选择单元,用于选择时新度符合预定条件的查询输入作为热点事件。
从上述技术方案可以看出,在本发明实施方式中,首先确定每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数;然后基于每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数,确定每个查询输入在该预定时间窗口内的时新度;再选择时新度符合预定条件的查询输入作为热点事件。由此可见,应用本发明实施方式之后,通过结合一定时间窗口中的查询次数统计趋势,能够自动从各种查询日志中基于时新度确定出热点事件,从而保证了热点事件的即时性。


图1为根据本发明实施方式的基于查询输入的热点事件确定方法流程图;图2为根据本发明实施方式的历史日志划分示意图;图3为根据本发明实施方式的基于查询输入的热点事件确定系统结构图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。在本发明实施方式中,从搜索引擎、微博系统等多种网络平台的用户查询中自动发现热点事件。同时,优选能够给出其对应的时新度值,并能够有效去除其中的周期性话题。图1为根据本发明实施方式的基于查询输入的热点事件确定方法流程图。如图1所示,该方法包括:步骤101:确定每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数。在这里,预定的时间窗口一般是若干天,而单位时间粒度的优选单位为I天。针对每个查询输入,都统计出该查询输入在预定时间窗口中的每个单位时间粒度内的查询次数。比如,假设预定的时间窗口为3天,而单位时间粒度为I天,则统计出每个查询输入在最近3天之内的每一天中的查询次数。在具体实施中,可以从搜索引擎、微博、新闻网站等诸多类型平台的查询日志中来获取查询次数。以上虽然罗列出单位时间粒度、时间窗口的具体数值和/或数值单位,本领域技术人员可以意识到,这仅起到阐述作用,而并不用于限定本发明实施方式的保护范围。步骤102:基于每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数,确定每个查询输入在该预定时间窗口内的时新度。首先,新闻是事实的报道,而事实作为某些事物的稳定态出现,总是相对的、暂时的、瞬息的,而且即便是这种“稳定态”,实际上也在不停地运动和变化.新闻所报道的,实际上是事物的某种变动,是变动的事实。事实作为事物稳定态出现及其所具有的变动不居、瞬息万变的特性,便是事实的瞬息性,因此时新度是一项非常关键的指标。 基于每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数,可以了解到在每一个单位时间粒度内的查询次数,从而根据该查询次数在该预定时间窗口中的相对升降情况,可以确定每个查询输入在该预定时间窗口内的时新度。步骤103:选择时新度符合预定条件的查询输入作为热点事件。在这里,计算出各个查询输入的时新度后,可以选择符合预定条件的查询输入作为热点事件。比如:选择时新度高于预先设置的时新度阈值的查询输入作为热点事件;或按照时新度从大到小的顺序选择预定数目的查询输入作为热点事件。选择出热点事件之后,可以主动向用户推出热点事件榜单,或者基于用户的请求向用户推出热点事件榜单。此时,该热点事件榜单完全基于用户的查询输入(比如:对应于用户的查询输入的特定事件),而且该热点事件榜单综合考虑了时新度,因此符合用户的需求,并且保证了即时性。优选地,在该方法中进一步包括设置查询输入次数阈值的步骤。在确定每个查询输入在该预定时间窗口内的时新度之前,该方法进一步包括:过滤去查询输入次数低于查询输入次数阈值的查询输入,从而去除一些可能具有一定时新度但是关注热点却不够的查询输入。在一个实施方式中,在确定每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数之前,进一步对每个查询输入执行归一化处理。更具体地,由于用户对同一事件的描述可能各不相同,因此输入的查询可能不同。例如用户输入的“ipad发布”与“ipad發布”实际内容并无区别,仅是简繁体的差别;“ipad发布”与“ipad发布”实际内容并无区别,仅仅是前者多了空格,而这些描述的事件均为“ipad 发布”。因此,可以通过归一化处理来将所有的用户查询归一化,将同一事件的查询用统一的方式描述。归一化处理具体可以包括:(I)将所有查询输入统一转换为相同的字符集。比如:利用简繁转换对应词表,将所有用户查询统一转换为简体或繁体。(2)将所有查询输入中具有数字意义的符号之外的所有其它标点符号替换成空格。比如:将用户查询中的所有中英文标点符号替换成空格,而小数点或时间间隔符等有数字意义的符号除外。(3)将所有查询输入之间的空格去除。比如:不改变语义的情况下,将中英文之间,中文与数字之间的空格去除;将多个连续的空格去除。根据归一化后的用户查询,可以统计一段时间粒度以内不同查询的各自查询次数,并可以得出该段时间内查询与次数列表。优选地,查询的统计有两种方式:1.将同一用户在同一时间窗口(即时间段内)的多次查询记为一次,此时统计的是该时间段内某查询对应用户数,这种方式可以避免某一用户恶意大量查询造成的失真,此处记为查询的PV。

2.将同一用户在同一时间窗口(即时间段内)的多次查询记多次,也即每次查询都记录,这种情况更接近实际,此处记为查询的QV。
比如:时间粒度以天为例,可以统计出列表如下:表I
权利要求
1.一种基于查询输入的热点事件确定方法,其特征在于,该方法包括: 确定每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数; 基于所述每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数,确定每个查询输入在该预定时间窗口内的时新度; 选择时新度符合预定条件的查询输入作为热点事件。
2.根据权利 要求1所述的基于查询输入的热点事件确定方法,其特征在于,在所述确定每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数之前,该方法进一步包括:对每个查询输入执行归一化处理。
3.根据权利要求2所述的基于查询输入的热点事件确定方法,其特征在于,所述对每个查询输入执行归一化处理包括执行下列处理中的至少一项: 将所有查询输入统一转换为相同的字符集; 将所有查询输入中具有数字意义的符号之外的所有其它标点符号替换成空格; 将所有查询输入之间的空格去除。
4.根据权利要求1所述的基于查询输入的热点事件确定方法,其特征在于,该方法进一步包括设置查询输入次数阈值的步骤;在确定每个查询输入在该预定时间窗口内的时新度之前,该方法进一步包括: 过滤掉查询输入次数低于所述查询输入次数阈值的查询输入。
5.根据权利要求1所述的基于查询输入的热点事件确定方法,其特征在于,所述确定每个查询输入在该预定时间窗口内的时新度包括: 将该预定时间窗口分为T-n部分和η部分,其中T为该预定时间窗口的长度,η为从当前时间算起的时间粒度数; 计算所述T-n部分内的所有查询输入次数ρτ_η以及所述η部分内的所有查询输入次数Pn;其中: Tη Ρτ-η = Σ PV> Pn=YjPVi i为序号,PVi为第i个时间粒度内的查询输入次 i = n + l./=1.55数; 针对每个查询输入,计算在该预定时间窗口内的时新度f,其中:当 Ρτ-η > = Pn 时,f 为 O ; 而当。τ-η 小于。n 时,/ = HrJ= Σ ——\<n<T\<n<T Iv Pn + Ρτ-η J f = Pn ~ Ρτ-η 其中 η Pn+PT-n rn为衰减系数;0 < α <1。
6.根据权利要求1所述的基于查询输入的热点事件确定方法,其特征在于,所述选择时新度符合预定条件的查询输入作为热点事件包括: 选择时新度高于预先设置的时新度阈值的查询输入作为热点事件,或按照时新度从大到小的顺序选择预定数目的查询输入作为热点事件。
7.根据权利要求1所述的基于查询输入的热点事件确定方法,其特征在于,该方法进一步包括:保存已经计算过时新度的查询输入; 在所述选择时新度符合预定条件的查询输入作为热点事件之前,该方法进一步包括: 过滤掉所述已被保存的查询输入。
8.一种基于查询输入的热点事件确定系统,其特征在于,该系统包括: 查询次数确定单元,用于确定每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数; 时新度确定单元,用于基于所述每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数,确定每个查询输入在该预定时间窗口内的时新度; 热点事件选择单元,用于选择时新度符合预定条件的查询输入作为热点事件。
9.根据权利要求8所述的基于查询输入的热点事件确定系统,其特征在于,该系统进一步包括归一化处理单元; 所述归一化处理单元,用于在确定每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数之前,对每个查询输入执行归一化处理。
10.根据权利要求8所述的基于查询输入的热点事件确定系统,其特征在于,该系统进一步包括查询输入过滤单元; 所述查询输入过滤单元,用于设置查询输入次数阈值,并且在所述确定每个查询输入在该预定时间窗口内的时新度之前,过滤去查询输入次数低于所述查询输入次数阈值的查询输入。
11.根据权利要求8所述的基于查询输入的热点事件确定系统,其特征在于, 所述时新度确定单元,具体用于: 将该预定时间窗口分为T-n部分和η部分,其中T为该预定时间窗口的长度,η为从当前时间算起的时间粒度数; 计算所述T-n部分内的所有查询输入次数ρτ_η以及所述η部分内的所有查询输入次数Pn;其中:
全文摘要
本发明实施方式提出了一种基于查询输入的热点事件确定方法和系统。该方法包括确定每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数;基于每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数,确定每个查询输入在该预定时间窗口内的时新度;选择时新度符合预定条件的查询输入作为热点事件。应用本发明实施方式之后,能够自动从各种查询日志中基于时新度确定出热点事件。而且,本发明实施方式还能够给出热点事件对应的时新度值,方便人工参考和过滤,而且能够有效去除热点事件中的周期性事件或话题,保证了热点事件的时新性和准确性。
文档编号G06F17/30GK103226550SQ201210021488
公开日2013年7月31日 申请日期2012年1月31日 优先权日2012年1月31日
发明者高小平, 宋国龙, 练振杰, 李超 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1