一种基于大数据处理技术的新闻传播影响力预测系统

文档序号:35704011发布日期:2023-10-12 03:53阅读:53来源:国知局
一种基于大数据处理技术的新闻传播影响力预测系统

本发明涉及大数据处理,更具体地说,本发明涉及一种基于大数据处理技术的新闻传播影响力预测系统。


背景技术:

1、纵观现今的大数据实际发展状况,跟媒体相互间保持愈发密切的联系,现阶段,大数据引领着时代潮流,在信息传播的过程中占据着十分关键的重要地位,并对新闻传播产生较大影响,其重要性不容忽视。

2、在大数据技术平台支持下,传统媒体和受众可以进行良好互动;人们可以通过微博、微信参与新闻话题的讨论,传统媒体通过自己的网站平台、数据库系统对评论进行分析,由此增强自身对新闻报道质量的认知,从而改善其工作中存在的问题;由于大数据类型繁多,新闻媒体在传播形式上可以将文字、图表、音频、视频传播内容融合,还能将电视、网络、手机传播渠道实现融合,为受众展现出新闻内容的生动性与直观性,契合了用户需求。

3、但是其在实际使用时,仍旧存在较多缺点,如目前针对于新闻传播影响力预测的系统所评估的维度过于单一,通常是通过新闻转发量,新闻评论量,以及新闻点击量进行评估,实际上还有发布者账号的因素没有考虑进去,导致预测结果和实际结果存在误差值极大的情况,并且没有一个具体的处理方式去修正误差值。


技术实现思路

1、为了克服现有技术的上述缺陷,本发明提供一种基于大数据处理技术的新闻传播影响力预测系统,通过新闻传播影响力预测模型分析模块、新闻传播影响力预测模块确定新闻传播影响力预测模型并代入得到最终预测数据;通过新闻传播影响力预测准确性评估模块计算得出新闻传播影响力预测准确性;通过新闻传播影响力预测修正模块将新闻传播影响力预测准确性q与新闻传播影响力预测准确性阈值q阈进行对比,筛选出q>q阈的数据根据修正因子ρ对最终预测数据进行修正,可以极大程度上避免最终预测数据和实际数据相差数值大的风险,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案:

3、新闻数据采集模块:用于根据网络爬虫技术采集同个新闻事件从发布时间至今的新闻传播范围,传播持续时间,新闻传播速度,目标群体覆盖率,新闻点击率,新闻收藏量,新闻转发量,以及新闻评论量数据,并将数据传输至新闻数据预处理模块;

4、新闻数据预处理模块:用于接收新闻数据采集模块传输的数据,对新闻传播范围,传播持续时间,新闻传播速度,目标群体覆盖率,新闻点击率,新闻收藏量,新闻转发量,以及新闻评论量数据进行数据清洗操作,合并数据集并传输数据至新闻数据处理模块;

5、新闻数据采样模块:用于接收新闻数据预处理模块传输的数据,将数据集ri拆分训练集ai和测试集bi;根据训练集ai的数据提取特征,通过传播力计算公式,公信力计算公式,以及影响力计算公式分别计算出其传播力,公信力和影响力;

6、新闻传播影响力预测模型分析模块:用于接收新闻数据处理模块传输的数据,包括新闻热度评估单元,预测模型构建单元;所述新闻热度评估单元根据新闻点击率,新闻收藏量,新闻转发量,以及新闻评论量数据计算新闻热度;所述预测模型构建单元根据训练集特征初选多个预测模型,根据拟合度指数计算公式确定新闻传播影响力预测模型,并传输至新闻传播影响力预测模块;

7、新闻传播影响力预测模块:用于接收新闻传播影响力预测模型分析模块传输的数据,将需要预测的数据输入系统,系统根据输入的数据代入新闻传播影响力预测模型得到最终预测数据f;

8、新闻传播影响力预测准确性评估模块:用于接收新闻传播影响力预测模块传输的数据,结合影响力、新闻热度计算公式计算得出新闻传播影响力预测准确性,将数据传输至新闻传播影响力预测修正模块;

9、新闻传播影响力预测修正模块:用于接收新闻传播影响力预测准确性评估模块传输的数据,将新闻传播影响力预测准确性q与新闻传播影响力预测准确性阈值q阈进行对比,q≤q阈表示为新闻传播影响力预测准确性符合标准,q>q阈表示为新闻传播影响力预测准确性不符合标准需要修正因子ρ进行修正。

10、在一个优选地实施方式中,所述新闻数据采集模块的采集方式具体为:所述传播范围根据新闻网站,微博数据,以及微信数据,计算新闻事件占当天新闻比重,从而得出传播范围;所述新闻传播速度v根据传播持续时间d和传播持续时间内新闻总数n通过v=n/d计算公式计算,从而得出新闻传播速度;所述目标群体覆盖率根据同一新闻事件发布及转载的媒体传播力排行榜数据值之和计算,从而得出目标群体覆盖率;其中媒体包括新闻网站,微博,以及微信;媒体传播力排行榜根据媒体阅读总数排行榜的前10%排名设置传播力为10,10%至20%排名设置传播力为9,20%至50%排名设置传播力为8,50%以后的排名设置传播力为5;同个事件包括多个账号的新闻首发报道以及多个账号的新闻后续报道,将采集的数据传输至新闻数据预处理模块。

11、在一个优选地实施方式中,所述新闻数据预处理模块的具体处理方式为:根据新闻传播范围,传播持续时间,新闻传播速度,目标群体覆盖率,新闻点击率,新闻收藏量,新闻转发量,以及新闻评论量数据,分别去掉最大值、无用值和最小值后进行合并得到每天的数据集ri,将ri传输至新闻数据采样模块。

12、在一个优选地实施方式中,所述新闻数据采样模块的具体处理方式为:将数据集ri按照数据量8比2的比例随机拆分为训练集ai和测试集bi,从训练集中提取特征x,x包括新闻传播范围,传播持续时间,新闻传播速度,目标群体覆盖率,新闻点击率,新闻收藏量,新闻转发量,以及新闻评论量数据;根据训练集的权重分别进行调整;

13、所述传播力计算公式具体为:其中c表示为传播力,u表示为新闻传播范围,d表示为传播持续时间,n/d表示为新闻传播速度,u表示为目标群体覆盖率;

14、所述公信力计算公式具体为:其中a表示为公信力,qi,yi,mi分别表示为原作者、发布媒体和转载媒体的公信力数值和,λ表示为影响因子;

15、所述影响力计算公式具体为:其中z表示为影响力,β,ε分别表示为公信力a,传播力c的比例系数,λ表示为影响因子。

16、在一个优选地实施方式中,所述新闻热度评估单元的新闻热度的计算公式为:其中h表示为新闻热度,s0表示为初始新闻热度,f1,f2,f3,f4分别表示为新闻点击率ci,新闻收藏量wi,新闻转发量si,以及新闻评论量gi的比例系数,k表示为一个常数,t1表示为当前时间,t0表示为初始时间,λ表示为影响因子。

17、在一个优选地实施方式中,所述预测模型构建单元的新闻传播影响力预测模型的具体构建过程为:

18、步骤一、根据训练集的特征初步选定多个预测模型;

19、步骤二、将训练集ai的数据代入多个预测模型中进行训练,并将训练结果记录下来存储在数据库中;

20、步骤三、对多个预测模型进行拟合度指数分析,拟合度指数计算公式具体为:其中nih表示为拟合度指数,oi表示为预测误差值,λ表示为影响因子;

21、步骤四、根据拟合度指数将多个预测模型进行比较,最终选择拟合度指数最大的预测模型作为新闻传播影响力预测模型。

22、在一个优选地实施方式中,所述新闻传播影响力预测模块的具体处理方式是用户将需要预测的新闻事件名称输入系统进行检索,系统提供检索结果以供选择,用户选择具体新闻事件数据,系统根据具体新闻事件数据进行分析处理,爬取媒体对应新闻事件首发报道及后续报道,根据新闻传播影响力预测模型进行预测,最终得到预测数据f并传输至新闻传播影响力预测准确性评估模块。

23、在一个优选地实施方式中,所述新闻传播影响力预测准确性评估模块的新闻传播影响力预测准确性计算公式具体为:q=(h*z-f)*λ,其中q表示为新闻传播影响力预测准确性,h表示为新闻热度,z表示为影响力,f表示为最终预测数据,λ表示为影响因子。

24、在一个优选地实施方式中,所述新闻传播影响力预测修正模块的具体处理方式为:将新闻传播影响力预测准确性q与新闻传播影响力预测准确性阈值q阈进行对比,q≤q阈表示为新闻传播影响力预测准确性符合标准不需要修正,q>q阈表示为新闻传播影响力预测准确性不符合标准需要修正因子ρ进行修正;其中ρ用于修正最终预测数据f。

25、本发明的技术效果和优点:

26、本发明通过新闻数据采样模块将数据集拆分训练集和测试集,根据训练集的数据提取特征,计算传播力,公信力和影响力;通过新闻传播影响力预测模型分析模块、新闻传播影响力预测模块确定新闻传播影响力预测模型并代入得到最终预测数据;通过新闻传播影响力预测准确性评估模块计算得出新闻传播影响力预测准确性;通过新闻传播影响力预测修正模块将新闻传播影响力预测准确性q与新闻传播影响力预测准确性阈值q阈进行对比,筛选出q>q阈的数据根据修正因子ρ对最终预测数据进行修正,可以极大程度上避免最终预测数据和实际数据相差数值大的风险。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1