本申请涉及计算机,特别是涉及一种舆情信息热度评分方法、装置、计算机设备和存储介质。
背景技术:
1、随着网络的普及,用户能够获取到更多的网络信息,不同的用户可能会根据自身习惯关注一些特定的网络信息,为了能够使得用户得知当前网络信息被关注的排行,则产生了信息热度的概念,信息热度主要是指该信息被用户关注的程度,一般来说,用户关注程度越高的信息,其热度越高。
2、以网络社区为例,在网络社区中,帖子作为网络信息的特例,某一用户发表了一个帖子之后,该帖子的浏览量与回复量是衡量该帖子热度的依据,浏览量和回复量越高的帖子,其热度越高。为了能够向社区会员展示目前最受关注的帖子,网络社区将选取热度排行靠前的帖子作为“热贴”,置于显眼处供会员浏览,所以必须对每个帖子的热度进行实时地更新。
3、当前面向互联网的信息热榜,基本都是根据搜索引擎指数、资讯指数、播放量及用户的阅读、评论、转发、点赞等行为的数量加权求和、指数化处理后得出的。但是,当前这种互联网上的热度计算方式,是基于各个行业、各种背景下的用户行为来进行计算的,对于指定背景、指定行业下的客户专注的热榜起不到计算热度的作用,也就是无法满足用户个性化热榜推荐需求。
技术实现思路
1、基于此,针对上述技术问题,提供舆情信息热度评分方法、装置、计算机设备和存储介质,以解决现有面向互联网的热度计算方式无法满足用户个性化热榜推荐需求的技术问题。
2、为了实现上述目的,本申请提供如下技术方案:
3、第一方面,一种舆情信息热度评分方法,包括:
4、按时间对精加工舆情信息进行全量分词,并对重复分词因子进行相似聚合,得到去重后的多个分词因子,每个分词因子包括多个系数;
5、通过预设分词因子综合评分计算公式,计算每个分词因子的综合评分ew,得到分词因子综合评分集合;
6、对所述分词因子综合评分集合进行综合评分排序,选取综合评分排名在前的若干个分词因子;
7、通过预设舆情信息热度计算公式,计算所述综合评分排名在前的若干个分词因子命中的每个舆情信息的热度评分hm,得到具有热度评分的命中舆情信息集合;
8、对所述具有热度评分的命中舆情信息集合按照时间进行排序,通过预设评分公式,对每个命中舆情信息计算最终热度评分hv。
9、可选地,所述对精加工舆情信息进行全量分词具体是采用n-最短路径分词算法。
10、可选地,所述多个系数包括舆情信息情感系数kiv、收藏系数fav、选取系数sel、推送系数pus和分词量系数cw。
11、进一步可选地,所述预设分词因子综合评分计算公式为:
12、
13、其中,ew为分词因子综合评分,λ为舆情信息情感系数kiv在分词因子综合评分计算中的占比;θ为收藏系数fav在分词因子综合评分计算中的占比;ω为选取系数sel在分词因子综合评分计算中的占比;μ为推送系数pus在分词因子综合评分计算中的占比;为分词量系数cw在分词因子综合评分计算中的占比;α为分词因子元素最大下标;β为调整常量值。
14、可选地,所述预设舆情信息热度计算公式为:
15、
16、其中,hm为命中舆情信息的热度评分;data为舆情信息命中的分词因子的综合评分,sim为与该舆情信息命中的分词因子相同的分词因子的综合评分。
17、可选地,所述预设评分公式为:
18、
19、其中,hv表示命中舆情信息的最终热度评分;λ表示时间:0表示今天,1表示昨天,2表示前天……;q1、q2、q3……表示不同时间的影响值。
20、可选地,所述选取综合评分排名在前的若干个分词因子,具体是选取综合评分排名前十的分词因子。
21、第二方面,一种舆情信息热度评分装置,包括:
22、全量分词模块,用于按时间对精加工舆情信息进行全量分词,并对重复分词因子进行相似聚合,得到去重后的多个分词因子,每个分词因子包括多个系数;
23、分词因子综合评分计算模块,用于通过预设分词因子综合评分计算公式,计算每个分词因子的综合评分ew,得到分词因子综合评分集合;
24、综合评分排序模块,用于对所述分词因子综合评分集合进行综合评分排序,选取综合评分排名在前的若干个分词因子;
25、命中舆情信息热度评分计算模块,用于通过预设舆情信息热度计算公式,计算所述综合评分排名在前的若干个分词因子命中的每个舆情信息的热度评分hm,得到具有热度评分的命中舆情信息集合;
26、最终热度评分计算模块,用于对所述具有热度评分的命中舆情信息集合按照时间进行排序,通过预设评分公式,对每个命中舆情信息计算最终热度评分hv。
27、第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项所述的方法的步骤。
28、第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。
29、本发明至少具有以下有益效果:
30、本发明实施例提供了一种舆情信息热度评分方法,采用对用户精加工舆情信息进行全量分词和去重,得到多个分词因子,每个分词因子包括多个系数,计算每个分词因子的综合评分ew,得到分词因子综合评分集合,选取综合评分排名在前的若干个分词因子,计算综合评分排名在前的若干个分词因子命中的每个舆情信息的热度评分hm,得到具有热度评分的命中舆情信息集合,对具有热度评分的命中舆情信息集合按照时间进行排序,通过预设评分公式,对每个命中舆情信息计算最终热度评分hv;能够得到用户精加工舆情信息中每个舆情的最终热度评分,进而能够为根据用户关注的指定背景、指定行业的舆情信息生成信息热榜提供排序依据,实现用户个性化热榜推荐的需求。
1.一种舆情信息热度评分方法,其特征在于,包括:
2.根据权利要求1所述的舆情信息热度评分方法,其特征在于,所述对精加工舆情信息进行全量分词具体是采用n-最短路径分词算法。
3.根据权利要求1所述的舆情信息热度评分方法,其特征在于,所述多个系数包括舆情信息情感系数kiv、收藏系数fav、选取系数sel、推送系数pus和分词量系数cw。
4.根据权利要求3所述的舆情信息热度评分方法,其特征在于,所述预设分词因子综合评分计算公式为:
5.根据权利要求1所述的舆情信息热度评分方法,其特征在于,所述预设舆情信息热度计算公式为:
6.根据权利要求1所述的舆情信息热度评分方法,其特征在于,所述预设评分公式为:
7.根据权利要求1所述的舆情信息热度评分方法,其特征在于,所述选取综合评分排名在前的若干个分词因子,具体是选取综合评分排名前十的分词因子。
8.一种舆情信息热度评分装置,其特征在于,包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。