一种网络词热度确定方法和装置的制作方法

文档序号:6431545阅读:103来源:国知局
专利名称:一种网络词热度确定方法和装置的制作方法
技术领域
本发明涉及互联网技术,特别涉及一种网络词热度确定方法和装置。
背景技术
网络词热度确定,对有关部门的调研、决策、管理和服务有着重要的参考价值。现有确定方式主要为查询搜索引擎的接口,根据网络词的搜索次数和搜索结果量,按照某种方式计算出一个表征网络词热度的参数,搜索次数和搜索结果量均与网络词热度成正比。但是,这种方式需要依赖于用户在使用搜索引擎时的输入行为,因此有一定的主观性和片面性,不够准确;而且,搜索结果量仅能体现出网络词的出现频率,无法体现出分布情况等信息,也会导致确定结果不准确,比如,如果一网络词只是在某一或某几个页面中出现的频率很高,而在其它页面中很少出现甚至不出现,那么按照现有方式确定出的该网络词的热度也会较高。

发明内容
有鉴于此,本发明提供了一种网络词热度确定方法和装置,能够提高网络词热度确定结果的准确性。为达到上述目的,本发明的技术方案是这样实现的一种网络词热度确定方法,包括接收用户输入的网络词X,获取包括所述网络词X的页面的页面地址和发布时间;根据获取到的页面地址计算所述网络词X的地域分布参数,根据获取到的发布时间计算所述网络词X的时间分布参数,根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,展示给用户。一种网络词热度确定装置,包括应用程序接口 API,用于接收用户通过用户界面输入的网络词X,获取包括所述网络词X的页面的页面地址和发布时间;热度计算模块,用于根据获取到的页面地址计算所述网络词X的地域分布参数,根据获取到的发布时间计算所述网络词X的时间分布参数,根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,通过用户界面展示给用户。可见,采用本发明所述方案,在确定网络词热度时,无需依赖于用户在使用搜索引擎时的输入行为,而且,充分考虑了网络词的地域分布情况和时间分布情况,从而使得确定结果更为客观和全面,进而提高了确定结果的准确性。


图I为本发明方法实施例的流程图。图2为本发明装置实施例的组成结构示意图。
具体实施例方式针对现有技术中存在的问题,本发明中提出一种改进后的网络词热度确定方案,能够提高确定结果的准确性。为使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。图I为本发明方法实施例的流程图。如图I所示,包括以下步骤步骤11 :接收用户输入的网络词X(用网络词X来代表用户输入的任一网络词),获取包括网络词X的页面的页面地址和发布时间。所述页面地址即指页面的统一资源定位符(URL, Uniform Resource Locator)。·
本发明中,需要建立一个词库和一个网页正文索引库,其中,词库中保存有一系列的网络词,初始阶段,词库中的网络词可由人工输入,网页正文索引库中保存有按照某种方式从各网站中抓取到的各页面的正文内容,以及每篇正文内容的页面地址和发布时间。如何进行抓取为现有技术,另外,对哪些网站进行抓取以及对网站中的哪些页面进行抓取均可根据实际需要而定。之后,利用词库中保存的网络词对每篇正文内容进行分词,S卩如果词库中保存的某一网络词出现在了某一篇正文内容中,则用特殊符号将该网络词在该正文内容中标识出来,如何进行标识不作限制,只要能够识别即可,并用分词后的正文内容对应替换掉分词前的正文内容。词库和网页正文索引库中保存的内容均可实时更新,比如,在对正文内容进行分词后,选取单个字组成的序列,如果某一序列的出现频率大于预设阈值,则将该序列作为新的网络词,补充到词库中。另外,词库中可同时保存有每个网络词被加入到词库中的时间,具体作用后续将会介绍。当接收到用户输入的网络词X后,从网页正文索引库中查询出包括网络词X的页面的页面地址和发布时间。步骤12 :根据获取到的页面地址计算网络词X的地域分布参数,根据获取到的发布时间计算网络词X的时间分布参数,根据地域分布参数和时间分布参数计算网络词X的热度值,展示给用户。本发明中在计算网络词X的热度值时,主要考虑两个因素,即网络词X的地域分布情况和时间分布情况,相应地,可计算出网络词X的地域分布参数和时间分布参数,并结合它们对热度值的贡献权重,最终计算出热度值。在实际应用中,可以仅将当前时间对应的热度值展示给用户,也可以将一段时间内的热度值变化趋势展示给用户,为此,本步骤可以有以下两种实现方式。I)方式一将当前时间设置为基准时间T ;计算指定页面地址中的任意每两个页面地址之间的距离之和,将计算结果作为地域分布参数,指定页面地址为步骤11中获取到的各页面地址中对应的发布时间位于T-tl T范围内的页面地址,tl为预定时长;计算指定发布时间中的每个发布时间与T之差的绝对值之和,将计算结果作为时间分布参数,指定发布时间为步骤11中获取到的各发布时间中位于T-tl T范围内的发布时间;根据地域分布参数和时间分布参数计算网络词X的热度值,并展示给用户。其中,计算任意每两个页面地址之间的距离的方式可以为针对任意每两个页面地址,分别获取每个页面地址中的第I k级域名,k为大于I的正整数,如果一页面地址中的域名级数不足k级,则用O补齐,如果域名级数大于k级,则舍弃多余的域名;从第I级域名开始,依次比较两个页面地址中的各级域名是否相同,并将第一个不相同的级别对应的权重作为这两个页面地址之间的距离,如果各级域名均相同,则将O作为这两个页面地址之间的距离;级别越高,对应的权重越小。 下面通过具体示例,对方式一进行进一步说明。
假设针对网络词X共获取到了 m个页面地址和m个发布时间;并且,针对页面地址,预先定义了一个通用模型(假设k的取值为9) http://pn2 · Ρη1/Ρη3/Ρη4/Ρη5/Ρη6/Ρι 7/Pn8/Ρη9 ;其中,Pnl表示一级域名,Pn2表示二级域名,依次类推;比如,对于页面地址http ://labs, chinamobile. com/news/12345, htm,其中的“labs” 即为二级域名,“chinamobile.com”即为一级域名;针对各级域名,分别设置一个权重,级别越高,权重越小。将当前时间设置为基准时间T,得到共η个对应的发布时间位于T-tl T范围内的页面地址以及共η个位于T-tl T范围内的发布时间,m和η均为正整数,η小于或等于m0首先,计算网络词X的地域分布参数,包括a、根据η个页面地址以及上述通用模型得到一个地域分布矩阵
权利要求
1.一种网络词热度确定方法,其特征在于,包括 接收用户输入的网络词X,获取包括所述网络词X的页面的页面地址和发布时间; 根据获取到的页面地址计算所述网络词X的地域分布参数,根据获取到的发布时间计算所述网络词X的时间分布参数,根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,展示给用户。
2.根据权利要求I所述的方法,其特征在于, 所述接收用户输入的网络词X之前,进一步包括建立词库和网页正文索引库,所述词库中保存有一系列的网络词;抓取各网站中的页面的正文内容,保存到所述网页正文索引库中,并对应保存每篇正文内容的页面地址和发布时间,利用所述词库中保存的网络词对每篇正文内容进行分词,并用分词后的正文内容对应替换掉分词前的正文内容; 所述获取包括所述网络词X的页面的页面地址和发布时间包括从所述网页正文索引库中查询出包括所述网络词X的页面的页面地址和发布时间。
3.根据权利要求2所述的方法,其特征在于,该方法进一步包括对所述词库和所述网页正文索引库中保存的内容进行实时更新。
4.根据权利要求I所述的方法,其特征在于,所述根据获取到的页面地址计算所述网络词X的地域分布参数,根据获取到的发布时间计算所述网络词X的时间分布参数,根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,展示给用户包括 将当前时间设置为基准时间T ; 计算指定页面地址中的任意每两个页面地址之间的距离之和,将计算结果作为所述地域分布参数,所述指定页面地址为获取到的各页面地址中对应的发布时间位于T-tl T范围内的页面地址,tl为预定时长; 计算指定发布时间中的每个发布时间与T之差的绝对值之和,将计算结果作为所述时间分布参数,所述指定发布时间为获取到的各发布时间中位于T-tl T范围内的发布时间; 根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,并展示给用户。
5.根据权利要求4所述的方法,其特征在于,所述根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值包括 计算热度值= r,Hd + r2 (I-H. V^ B), 其中,所述A和r2均为权值,所述Hd为地域分布参数,所述Ht为时间分布参数,所述A为参与本次热度值计算的页面地址数,所述B等于tl。
6.根据权利要求3所述的方法,其特征在于,所述根据获取到的页面地址计算所述网络词X的地域分布参数,根据获取到的发布时间计算所述网络词X的时间分布参数,根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,展示给用户包括 设置两个以上基准时间,针对每个基准时间分别计算出一个热度值,各基准时间均小于或等于当前时间,且各相邻基准时间之间间隔的时长相同; 根据计算出的各热度值及其对应的基准时间绘制热度值变化趋势图,并展示给用户。
7.根据权利要求6所述的方法,其特征在于,所述词库中进一步保存有每个网络词被保存到所述词库中的时间;所述设置两个以上基准时间,针对每个基准时间分别计算出一个热度值,根据计算出的各热度值及其对应的基准时间绘制热度值变化趋势图,并展示给用户包括 BI、将所述网络词X被保存到所述词库中的时间设置为初始的基准时间T ; B2、计算指定页面地址中的任意每两个页面地址之间的距离之和,将计算结果作为所述地域分布参数,所述指定页面地址为获取到的各页面地址中对应的发布时间位于T-tl T范围内的页面地址,tl为预定时长; 计算指定发布时间中的每个发布时间与T之差的绝对值之和,将计算结果作为所述时间分布参数,所述指定发布时间为获取到的各发布时间中位于T-tl T范围内的发布时间; 根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,并保存计算出的热度值及其对应的基准时间; B3、令T = T+t2, t2为预定时长,并确定新的T是否大于当前时间,如果是,则执行步骤B4,否则,根据新的T重复执行步骤B2 ; B4、根据所保存的各热度值及其对应的基准时间绘制热度值变化趋势图,并展示给用户。
8.根据权利要求7所述的方法,其特征在于,所述根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值包括 计算热度值= VlHd + r2 (I--^j. 其中,所述A和r2均为权值,所述Hd为地域分布参数,所述Ht为时间分布参数,所述A为参与当次热度值计算的页面地址数,所述B为tl和t2中的较大值。
9.根据权利要求4或7所述的方法,其特征在于,所述计算任意每两个页面地址之间的距离包括 针对任意每两个页面地址,分别获取每个页面地址中的第I k级域名,k为大于I的正整数,如果一页面地址中的域名级数不足k级,则用O补齐,如果域名级数大于k级,则舍弃多余的域名; 从第I级域名开始,依次比较两个页面地址中的各级域名是否相同,并将第一个不相同的级别对应的权重作为这两个页面地址之间的距离,如果各级域名均相同,则将O作为这两个页面地址之间的距离;级别越高,对应的权重越小。
10.根据权利要求9所述的方法,其特征在于,该方法进一步包括 获取每个页面地址对应的网页级别PR值; 用计算得到的两个页面地址之间的距离乘以这两个页面地址各自对应的PR值之和,将乘积最终作为这两个页面地址之间的距离。
11.一种网络词热度确定装置,其特征在于,包括 应用程序接口 API,用于接收用户通过用户界面输入的网络词X,获取包括所述网络词X的页面的页面地址和发布时间; 热度计算模块,用于根据获取到的页面地址计算所述网络词X的地域分布参数,根据获取到的发布时间计算所述网络词X的时间分布参数,根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,通过用户界面展示给用户。
12.根据权利要求11所述的装置,其特征在于,所述装置中进一步包括 词库,用于保存一系列的网络词; 聚合模块,用于抓取各网站中的页面的正文内容,保存到网页正文索引库中,并对应保存每篇正文内容的页面地址和发布时间; 分词模块,用于利用所述词库中保存的网络词对保存在所述网页正文索引库中的每篇正文内容进行分词,并用分词后的正文内容对应替换掉分词前的正文内容; 所述API从所述网页正文索引库中查询出包括所述网络词X的页面的页面地址和发布时间。
13.根据权利要求12所述的装置,其特征在于,所述词库和所述网页正文索引库均支持对自身保存的内容进行实时更新。
14.根据权利要求11所述的装置,其特征在于,所述热度计算模块中包括 计算单元,用于将当前时间设置为基准时间T ;计算指定页面地址中的任意每两个页面地址之间的距离之和,将计算结果作为所述地域分布参数,所述指定页面地址为获取到的各页面地址中对应的发布时间位于T-tl T范围内的页面地址,tl为预定时长;计算指定发布时间中的每个发布时间与T之差的绝对值之和,将计算结果作为所述时间分布参数,所述指定发布时间为获取到的各发布时间中位于T-tl T范围内的发布时间;根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值; 处理单元,用于通过用户界面将所述计算单元计算出的热度值展示给用户。
15.根据权利要求14所述的装置,其特征在于, 所述热度值
16.根据权利要求13所述的装置,其特征在于,所述热度计算模块中包括 计算单元,用于设置两个以上基准时间,针对每个基准时间分别计算出一个热度值,各基准时间均小于或等于当前时间,且各相邻基准时间之间间隔的时长相同; 处理单元,用于根据计算出的各热度值及其对应的基准时间绘制热度值变化趋势图,并通过用户界面展示给用户。
17.根据权利要求16所述的装置,其特征在于,所述词库中进一步保存有每个网络词被保存到所述词库中的时间; 所述计算单元计算指定页面地址中的任意每两个页面地址之间的距离之和,将计算结果作为所述地域分布参数,所述指定页面地址为获取到的各页面地址中对应的发布时间位于T-tl T范围内的页面地址,T为基准时间,tl为预定时长;计算指定发布时间中的每个发布时间与T之差的绝对值之和,将计算结果作为所述时间分布参数,所述指定发布时间为获取到的各发布时间中位于T-tl T范围内的发布时间;根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,并保存计算出的热度值及其对应的基准时间;令T = T+t2,t2为预定时长,并确定新的T是否大于当前时间,如果是,则通知处理单元执行自身功能,否则,根据新的T重复执行自身功能;初始基准时间为所述网络词X被保存到所述词库中的时间。
18.根据权利要求17所述的装置,其特征在于, 所述热度值砵
19.根据权利要求14或17所述的装置,其特征在于,针对任意每两个页面地址,所述计算单元分别获取每个页面地址中的第I k级域名,k为大于I的正整数,如果一页面地址中的域名级数不足k级,则用O补齐,如果域名级数大于k级,则舍弃多余的域名,从第I级域名开始,依次比较两个页面地址中的各级域名是否相同,并将第一个不相同的级别对应的权重作为这两个页面地址之间的距离,如果各级域名均相同,则将O作为这两个页面地址之间的距离;级别越高,对应的权重越小。
20.根据权利要求19所述的装置,其特征在于,所述计算单元进一步用于,获取每个页面地址对应的网页级别PR值;用计算得到的两个页面地址之间的距离乘以这两个页面地址各自对应的PR值之和,将乘积最终作为这两个页面地址之间的距离。
全文摘要
本发明公开了一种网络词热度确定方法和装置接收用户输入的网络词X,获取包括网络词X的页面的页面地址和发布时间;根据获取到的页面地址计算网络词X的地域分布参数,根据获取到的发布时间计算网络词X的时间分布参数,根据计算出的地域分布参数和时间分布参数计算网络词X的热度值,展示给用户。应用本发明所述方案,能够提高网络词热度确定结果的准确性。
文档编号G06F17/30GK102955804SQ20111024783
公开日2013年3月6日 申请日期2011年8月25日 优先权日2011年8月25日
发明者田冬, 张远, 吴淑燕 申请人:中国移动通信集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1