一种基于内容报道相似量的热度值计算方法及装置与流程

文档序号:33383786发布日期:2023-03-08 07:09阅读:48来源:国知局
一种基于内容报道相似量的热度值计算方法及装置与流程

1.本发明涉及的是一种基于内容报道相似量的热度值计算方法及装置,属于文本内容分析技术领域。


背景技术:

2.现有技术中,新闻文章热度值计算方法,通常是通过用户交互行为产生的数据来进行热度值计算,会消耗非常多的人力资源去实时关注互联网上发生的热点事件;或者单纯的使用点赞、评论等互动数据来计算文章热度值作为热点话题,对用户行为数据依赖性太高,况且现今的许多新闻网站贴文并无如点赞、转发、评论等互动数据。
3.现有技术上述新闻热度值计算方法都存在不方便,无法有效满足使用需要。
4.cn109344316a公开了一种新闻热度计算方法及装置,仅通过新闻聚类技术将相关的新闻报道聚合在一起,存在聚合准确度不足的情况,无法真实反映新闻文章热度值。


技术实现要素:

5.本发明提出的是一种基于内容报道相似量的热度值计算方法及装置,其目的旨在克服现有技术存在的上述不足,实现准确计算热度值。
6.本发明的技术解决方案:一种基于内容报道相似量的热度值计算装置,包括预设值模块和热度值计算模块,
7.预设值模块用于设置相似度比对时间范围、设置文章相似度阈值和根据不同类型文章设置初始热度值;
8.热度值计算模块用于提取文章关键词计算文章相似度进而比较文章相似性,并计算相似文章数量,然后根据相似文章数量和初始热度及阅读数计算热度值;基于文章相似量进行热度值计算,对用户行为数据的依赖性较低,对于没有用户行为数据的文章数据集也可以进行热度计算;可避免恶意刷赞、评论等数据对热度值计算带来的影响。
9.一种基于内容报道相似量的热度值计算装置的热度值计算方法,包括以下步骤:
10.步骤1:预处理设置:设置相似度比对时间范围,设置文章相似度阈值,根据不同类型文章设置初始热度值;具体是设置选取一定时间内的文章进行相似度比较,相似度阈值在某值以上判断为相似文章,不同类新闻初始热度值分别为s1、s2、s3...sn;
11.步骤2:进行文章关键词提取:使用关键词提取工具包j i eba对所选范围内的文章进行关键词提取,得到每篇文章的关键词集合,表示为集合a、集合b;
12.步骤3:进行文章相似度计算:对所选范围内的文章通过jaccard相似系数比较样本集之间的相似性,计算a∩b、a∪b,根据以下公式计算jaccard系数即相似度j(a,b):
[0013][0014]
通过jaccard系数分析文章相似性可避免只考虑用户评分而忽略其他信息量的弊端,适合稀疏度过高且对分词等算法精确度无太大要求的数据
[0015]
步骤4:相似文章数量计算:通过比较相似文章后进行相似数s i_num累加,得到一
篇文章的相似文章数量s i_num=si_num+1;
[0016]
步骤5:热度值计算:将相似文章数量作为系数结合初始热度sn、阅读数read_num计算文章热度值score=read_num*si_num+sn。
[0017]
本发明的优点:1)通过jaccard系数分析文章相似性,避免了只考虑用户评分而忽略了其他信息量的弊端,特别适合于应用到稀疏度过高的数据,且分词等算法的精确度无太大要求;
[0018]
2)基于内容报道相似量的热度值计算方法,优点主要在于对用户行为数据的依赖性较低,对于没有用户行为数据的文章数据集也可以给出热度计算的方法;同时避免了恶意刷赞、评论等数据对热度值计算带来的影响。
附图说明
[0019]
图1是本发明基于内容报道相似量的热度值计算装置的结构框图。
[0020]
图2是本发明基于内容报道相似量的热度值计算方法的流程图。
具体实施方式
[0021]
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
[0022]
如图1所示,一种基于内容报道相似量的热度值计算装置,包括预设值模块和热度值计算模块,
[0023]
预设值模块用于设置相似度比对时间范围、设置文章相似度阈值和根据不同类型文章设置初始热度值;
[0024]
热度值计算模块用于提取文章关键词计算文章相似度进而比较文章相似性,并计算相似文章数量,然后根据相似文章数量和初始热度及阅读数计算热度值。
[0025]
实施例
[0026]
如图2所示,一种基于内容报道相似量的热度值计算方法,包括以下步骤:
[0027]
步骤1:预处理设置:设置相似度比对时间范围,设置文章相似度阈值,根据不同类型文章设置初始热度值;例如设置选取近24小时内的文章进行相似度比较,相似度阈值在0.5以上判断为相似文章,时政、体育、财经类新闻初始热度值分别为s1、s2、s3;
[0028]
步骤2:进行文章关键词提取:使用关键词提取工具包j i eba对所选范围内的文章进行关键词提取,得到每篇文章的关键词集合;例如:
[0029]
a文章(卡塔尔,世界杯,大力神杯,巴西,大名单)
[0030]
b文章(卡塔尔,世界杯,大力神杯,阿根廷,大名单);
[0031]
步骤3:进行文章相似度计算:对所选范围内的文章通过jaccard相似系数比较样本集之间的相似性;例如:
[0032]
a∩b=卡塔尔,世界杯,大力神杯,大名单4
[0033]
a∪b=卡塔尔,世界杯,大力神杯,阿根廷,巴西,大名单6
[0034][0035]
则相似度(jaccard系数)为4/6=0.67。
[0036]
步骤4:相似文章数量计算:通过比较相似文章后进行相似数s i_num累加,得到一
篇文章的相似文章数量s i_num=si_num+1;
[0037]
步骤5:热度值计算:将相似文章数量作为系数结合初始热度s2、阅读数read_num计算文章热度值score=read_num*si_num+s2。
[0038]
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。


技术特征:
1.一种基于内容报道相似量的热度值计算装置,其特征在于,包括预设值模块和热度值计算模块,预设值模块用于设置相似度比对时间范围、设置文章相似度阈值和根据不同类型文章设置初始热度值;热度值计算模块用于提取文章关键词计算文章相似度进而比较文章相似性,并计算相似文章数量,然后根据相似文章数量和初始热度及阅读数计算热度值。2.如权利要求1所述的一种基于内容报道相似量的热度值计算装置的热度值计算方法,其特征在于,包括以下步骤:步骤1:预处理设置:设置相似度比对时间范围,设置文章相似度阈值,根据不同类型文章设置初始热度值;具体是设置选取一定时间内的文章进行相似度比较,相似度阈值在某值以上判断为相似文章,不同类新闻初始热度值分别为s1、s2、s3...sn;步骤2:进行文章关键词提取:对所选范围内的文章进行关键词提取,得到每篇文章的关键词集合;步骤3:进行文章相似度计算:对所选范围内的文章比较样本集之间的相似性;步骤4:相似文章数量计算:通过比较相似文章后进行相似数si_num累加,得到一篇文章的相似文章数量si_num=si_num+1;步骤5:热度值计算:将相似文章数量作为系数结合初始热度sn、阅读数read_num计算文章热度值score=read_num*si_num+sn。3.如权利要求2所述的一种基于内容报道相似量的热度值计算装置的热度值计算方法,其特征在于,所述的步骤2使用关键词提取工具包jieba对所选范围内的文章进行关键词提取。4.如权利要求3所述的一种基于内容报道相似量的热度值计算装置的热度值计算方法,其特征在于,所述的步骤3对所选范围内的文章通过jaccard相似系数比较样本集之间的相似性。5.如权利要求4所述的一种基于内容报道相似量的热度值计算装置的热度值计算方法,其特征在于,所述的步骤2中每篇文章的关键词集合表示为集合a、集合b,所述的步骤3通过jaccard相似系数比较集合a、集合b之间的相似性,计算a∩b、a∪b,根据以下公式计算jaccard系数即相似度j(a,b):

技术总结
本发明是基于内容报道相似量的热度值计算方法及装置,装置包括预设值模块用于设置相似度比对时间范围、设置文章相似度阈值和根据不同类型文章设置初始热度值;热度值计算模块用于提取文章关键词计算文章相似度进而比较文章相似性,并计算相似文章数量,然后根据相似文章数量和初始热度及阅读数计算热度值。本发明的优点:通过Jaccard系数分析文章相似性,避免了只考虑用户评分而忽略其他信息量的弊端,适合应用到稀疏度过高的数据,且分词等算法精确度无太大要求;基于内容报道相似量计算热度值,对用户行为数据依赖性较低,对无用户行为数据的文章数据集也可给出热度计算的方法;同时避免了恶意刷赞、评论等数据对热度值计算带来的影响。计算带来的影响。计算带来的影响。


技术研发人员:韩凯 黄建杰
受保护的技术使用者:央视国际网络无锡有限公司
技术研发日:2022.11.24
技术公布日:2023/3/7
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1