一种互联网舆情事件传播指数的获取方法和系统与流程

文档序号：12465168阅读：851来源：国知局

本发明涉及互联网技术领域，尤其涉及一种互联网舆情事件传播指数的获取方法和系统。

背景技术：

互联网舆情是指在互联网上流行的对社会问题不同看法的网络舆论，是社会舆论的一种表现形式。以网络为载体，以事件为核心，广大网民情感、态度、意见、观点的表达、传播与互动，以及后续影响力的集合。通过互联网传播公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。互联网舆情的表现方式多种多样，例如：新闻评论、论坛帖子、微博博文、微信文章等。近年来，网络舆情对政治生活秩序和社会稳定的影响与日俱增，一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时，网络舆情突发事件如果处理不当，极有可能诱发民众的不良情绪，引发群众的违规和过激行为，进而对社会稳定构成威胁。同时，随着我国正处的改革关键期、矛盾突发期诸种问题冲突的叠合积聚，网络舆情已经成为当前社会和谐度和稳定度的标志，成为领导和社会各界的关注焦点。

舆情事件传播指数是通过对互联网中各种类型媒体所发布的信息进行独立的第三方观察，形成量化统计和定性分析，并结合算法推导、归纳总结而最终形成的一套网络舆情传播指数体系，从而实现对网络舆情的科学收集、分析研判和预警对策一整套科学规范的工作体系。

目前，对于舆情事件的传播量化已有一定的方案，但存在监测媒体源不够全面，模型未切合实际、未能反应事件动态变化等问题，本专利申请针对目前方案的缺点，提出一种不同于现有方案的全新传播指数量化模型。

现有技术方案一：基于指定站点的单媒体源文章基础要素计算

在申请号为【201310525071.9】，标题为：《一种网络舆情事件的热度分析方法及系统》的专利中，提出了此种计算方法。该方法对指定网站的文章进行采集、保存。通过聚类，形成不同的话题事件，针对话题事件内的文章，提取文章的基本传播要素，如阅读数、回复数等，进行加权计算，得到单篇文章的传播指数，再对所有文章的指数进行累计，得到最终的传播指数。

该方法存在明显的缺点。其一：该方法的数据范围存在明显缺陷，仅依靠指定的少数站点进行判断，未能实现全网监控。其二：随着微博、微信、微视等为代表的自媒体和以数字媒体、手机报、门户网站等为代表的新媒体空前繁荣发展，舆情的传播呈现多种媒体源交叉传播的特点，仅监控采集普通网站站点明显未符合当前舆情的传播特点。其三：该方法的指数模型也存在较大问题，舆情事件并非静态的数据信息，一个事件的形成、发展、爆发、衰退都受时间的影响，而该方案未考虑这些因素。

现有技术方案二：基于样本库的多媒体源文章基础要素计算

在申请号为【201510042230.9】，标题为：《一种舆情热度的快速计算方法》的专利中，提出了此种计算方法。该发明提出一种在信息量不完整的情况下采取对部分媒体源(新闻、论坛、微博)的采集、存储，形成基础的样本库，基于该基础样本库构建指数模型，对所涉及的媒体单独计算指数，各媒体源指数模型之间互不相关，对各个媒体源指数进行相加，即为最终的指数。

相较于方案一，现有方案二的优点是：引入了多媒体源的指数计算方式，使指数计算精度较高，同时，不断累积的样本库，对于指数模型的构建起到不断优化的作用。但是该方法依然存在如下缺点。其一：在当前的新媒体繁荣发展的前提下，微博、微信、电子报等媒体源越来越受关注，已成为网民发表舆论的首选场景，而该方法中，纳入计算的媒体源却未包含微信、电子报等媒体，因此，基础样本库数据构成不够严谨，缺少现实意义。其二：未能解决方案一中同样出现的，忽略舆情事件动态变化的因素。其三：该发明最终的传播指数来自于各个媒体源指数的加权总和，同时各个媒体源的传播指数却是互相独立的，而在实际情况中，舆情事件的传播存在着跨媒体源的传播路径，例如用户将舆情信息从论坛分享至微博，各媒体源指数应与传播路径、传播时间息息相关。

综上所述，目前对于舆情传播指数的计算已存在相应的方案,但现有方案均存在模块构建较为简单、未能解决跨媒体源传播的复杂情况、媒体源不够全面等问题。同时，应注意到，舆情传播并发是一种动态的事件，其模型的建立，应能反应舆情事件的形成、发展、爆发、高峰、衰落等生命周期，同时，应能体现出事件传播中跨媒体源传播的影响因素，而在现有方案中，均未能达到上述要求。

技术实现要素：

本发明要解决的技术问题之一，在于提供一种互联网舆情事件传播指数的获取方法，能反映舆情事件从生成、发展、爆发、高峰期、衰弱、结束等整个生命周期的发展态势。

本发明问题之一是这样实现的：一种互联网舆情事件传播指数的获取方法，所述获取方法包括如下步骤：步骤1、输入舆情事件；

步骤2、采集在各个媒体源中抓取该舆情事件的相关舆情文章，并存入舆情事件分析库；

步骤3、对该舆情事件的所有舆情文章进行分析，以文章的发布时间先后对所有媒体源文章进行排序，形成舆情事件传播轨迹，同时，对每一篇文章进行单文章传播指数计算；

步骤4、通过文章传播指数提取舆情事件传播轨迹关键信息；

步骤5、通过舆情事件传播轨迹关键信息构建最终模型。

进一步的，所述媒体源包括：新闻、博客、论坛、贴吧、微博、微信、电子报、或者主流新闻APP。

进一步的，所述步骤3中对每一篇文章进行单文章传播指数计算，具体为：

针对不同的媒体源，结合当前媒体源的流行趋势，采取不同的媒体源指数；

不同的媒体源根据不同的传播学要素采用不同的量化方式：

新闻、论坛、贴吧类型计算模型为：

NPI＝[30％×r1+70％×c]×m1×g1

其中NPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

m1为媒体源指数，新闻m1取值2，贴吧m1取值1.5，论坛取值1

g1为在同类媒体源下排名权重

博客类型计算模型为：

BPI＝[10％×r1+40％c1+50％×r2]×m1×g1

其中BPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

r2为转发数

m1为媒体源指数，博客m1取值1

g1为在同类媒体源下排名权重

微博类计算模型为：

WPI＝[10％×r1+40％×c+40％×r2+10％×(40％×c2+60％×r3)]×m1×g1

其中WPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

r2为转发数

c2为转发微博中评论总数

r3为转发微博中转发总数

m1为媒体源指数，微博的m1为3.5

g1为在同类媒体源下排名权重

微信类计算模型为：

WPI＝[20％×r+70％×a+10％ln(f+1)]×m1×r1

其中WPI为单篇文章传播指数：

r1为文章阅读数

a为点赞数

f为等价粉丝数

m1为媒体源指数，微信的m1为3

g1为在同类媒体源下排名权重。

进一步的，取得整个事件中单篇指数最高的文章，此为舆情事件传播指数峰值，记为Smax,该舆情事件，记为Tmiddle；

获得事件的有效传播时间T，定义事件传播衰弱指数为1/10；取发生时间小于Tmiddle，且得分小于Smax/10的最小时间作为事件有效开始传播时间Tstart；同理，取发生时间大于Tmiddle，且得分大于Smax/10的最大时间作为事件有效结束传播时间Tend；得到舆情事件有效传播时间：T＝Tend–Tstart，在T时间内的舆情文章总数量记为C。

进一步的，所述最终模型为

其中：EPI为事件最终的传播指数；

SMi为舆情事件中单个媒体源单篇最高得分；

Mc为该事件有效传播时间内传播轨迹所跨越的媒体源数量；

T为该事件传播的有效时间；

C为该事件有效时间内的舆情文章总数量；

Si为第i篇文章单篇传播指数得分。

本发明要解决的技术问题之二，在于提供一种互联网舆情事件传播指数的获取系统，能反映舆情事件从生成、发展、爆发、高峰期、衰弱、结束等整个生命周期的发展态势。

本发明问题之二是这样实现的：一种互联网舆情事件传播指数的获取系统，所述获取系统包括输入模块、采集模块、分析模块、提取模块、以及构建模型模块；

所述输入模块，用于输入舆情事件；

所述采集模块，采集在各个媒体源中抓取该舆情事件的相关舆情文章，并存入舆情事件分析库；

所述分析模块，对该舆情事件的所有舆情文章进行分析，以文章的发布时间先后对所有媒体源文章进行排序，形成舆情事件传播轨迹，同时，对每一篇文章进行单文章传播指数计算；

所述提取模块，通过文章传播指数提取舆情事件传播轨迹关键信息；

所述构建模型模块通过舆情事件传播轨迹关键信息构建最终模型。

进一步的，所述媒体源包括：新闻、博客、论坛、贴吧、微博、微信、电子报、或者主流新闻APP。

进一步的，所述分析模块中对每一篇文章进行单文章传播指数计算，具体为：

针对不同的媒体源，结合当前媒体源的流行趋势，采取不同的媒体源指数；

不同的媒体源根据不同的传播学要素采用不同的量化方式：

新闻、论坛、贴吧类型计算模型为：

NPI＝[30％×r1+70％×c]×m1×g1

其中NPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

m1为媒体源指数，新闻m1取值2，贴吧m1取值1.5，论坛取值1

g1为在同类媒体源下排名权重

博客类型计算模型为：

BPI＝[10％×r1+40％c1+50％×r2]×m1×g1

其中BPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

r2为转发数

m1为媒体源指数，博客m1取值1

g1为在同类媒体源下排名权重

微博类计算模型为：

WPI＝[10％×r1+40％×c+40％×r2+10％×(40％×c2+60％×r3)]×m1×g1

其中WPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

r2为转发数

c2为转发微博中评论总数

r3为转发微博中转发总数

m1为媒体源指数，微博的m1为3.5

g1为在同类媒体源下排名权重

微信类计算模型为：

WPI＝[20％×r+70％×a+10％ln(f+1)]×m1×r1

其中WPI为单篇文章传播指数：

r1为文章阅读数

a为点赞数

f为等价粉丝数

m1为媒体源指数，微信的m1为3

g1为在同类媒体源下排名权重。

进一步的，所述提取模块具体为：取得整个事件中单篇指数最高的文章，此为舆情事件传播指数峰值，记为Smax,该舆情事件，记为Tmiddle；

进一步的，所述最终模型为

其中：EPI为事件最终的传播指数；

SMi为舆情事件中单个媒体源单篇最高得分；

Mc为该事件有效传播时间内传播轨迹所跨越的媒体源数量；

T为该事件传播的有效时间；

C为该事件有效时间内的舆情文章总数量；

Si为第i篇文章单篇传播指数得分。

本发明具有如下优点：1、本发明对舆情事件的传播指数做出了较为精确的量化。相比于现有的基于文章基本要素构建的指数模型，本发明模型更为精确、更能反映舆情事件从生成、发展、爆发、高峰期、衰弱、结束等整个生命周期的发展态势。

2.本发明提出的舆情事件传播轨迹的构建，包括舆情事件传播中的重要因素的提取，可对当前复杂网络舆情环境下舆情事件的跨媒体源传播做一个清晰的展示；对事件的未来走势、跨媒体传播路径、事件持续影响时间做出预测、对舆情的管控措施提供富有显示意义效果的指导依据。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明方法总体流程示意图。

图2为本发明系统结构示意图。

具体实施方式

请参阅图1所示，一种互联网舆情事件传播指数的获取方法，所述获取方法包括如下步骤：步骤1、输入舆情事件；

步骤2、采集在各个媒体源中抓取该舆情事件的相关舆情文章，并存入舆情事件分析库；所述媒体源包括：新闻、博客、论坛、贴吧、微博、微信、电子报、或者主流新闻APP。

步骤4、通过文章传播指数提取舆情事件传播轨迹关键信息；

步骤5、通过舆情事件传播轨迹关键信息构建最终模型。

其中，所述步骤3中对每一篇文章进行单文章传播指数计算，具体为：

针对不同的媒体源，结合当前媒体源的流行趋势，采取不同的媒体源指数；如媒体源指数：微博取值为3.5，微信取值3，新闻取值2，贴吧取值1.5，其余取值1。

不同的媒体源根据不同的传播学要素(如：阅读数、回复数、转发数、点赞数)，采用不同的量化方式：

新闻、论坛、贴吧类型计算模型为：

NPI＝[30％×r1+70％×c]×m1×g1

其中NPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

m1为媒体源指数，新闻m1取值2，贴吧m1取值1.5，论坛取值1

g1为在同类媒体源下排名权重

博客类型计算模型为：

BPI＝[10％×r1+40％c1+50％×r2]×m1×g1

其中BPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

r2为转发数

m1为媒体源指数，博客m1取值1

g1为在同类媒体源下排名权重

微博类计算模型为：

WPI＝[10％×r1+40％×c+40％×r2+10％×(40％×c2+60％×r3)]×m1×g1

其中WPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

r2为转发数

c2为转发微博中评论总数

r3为转发微博中转发总数

m1为媒体源指数，微博的m1为3.5

g1为在同类媒体源下排名权重

微信类计算模型为：

WPI＝[20％×r+70％×a+10％ln(f+1)]×m1×r1

其中WPI为单篇文章传播指数：

r1为文章阅读数

a为点赞数

f为等价粉丝数

m1为媒体源指数，微信的m1为3

g1为在同类媒体源下排名权重。

所述步骤4具体为：取得整个事件中单篇指数最高的文章，此为舆情事件传播指数峰值，记为Smax,该舆情事件，记为Tmiddle；

所述最终模型为

其中：EPI为事件最终的传播指数；

SMi为舆情事件中单个媒体源单篇最高得分；

Mc为该事件有效传播时间内传播轨迹所跨越的媒体源数量；

T为该事件传播的有效时间；

C为该事件有效时间内的舆情文章总数量；

Si为第i篇文章单篇传播指数得分。

区别于传统的现有技术方案中仅考虑文章基本要素的模型算法，该模型综合考虑各媒体源单篇最大得分、事件有效传播时间、事件有效舆情文章数量、传播媒体源数量、文章篇均得分等因素，符合舆情事件传播的传播学理论、体现出舆情事件的爆发点、事件的持续时间、事件的跨媒体源传播等特点。

参阅图2所示，本发明的一种互联网舆情事件传播指数的获取系统，所述获取系统包括输入模块、采集模块、分析模块、提取模块、以及构建模型模块；

所述输入模块，用于输入舆情事件；

所述采集模块，采集在各个媒体源中抓取该舆情事件的相关舆情文章，并存入舆情事件分析库；所述媒体源包括：新闻、博客、论坛、贴吧、微博、微信、电子报、或者主流新闻APP。

所述提取模块，通过文章传播指数提取舆情事件传播轨迹关键信息；

所述构建模型模块通过舆情事件传播轨迹关键信息构建最终模型。

所述分析模块中对每一篇文章进行单文章传播指数计算，具体为：

不同的媒体源根据不同的传播学要素(如：阅读数、回复数、转发数、点赞数)，采用不同的量化方式：

新闻、论坛、贴吧类型计算模型为：

NPI＝[30％×r1+70％×c]×m1×g1

其中NPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

m1为媒体源指数，新闻m1取值2，贴吧m1取值1.5，论坛取值1

g1为在同类媒体源下排名权重

博客类型计算模型为：

BPI＝[10％×r1+40％c1+50％×r2]×m1×g1

其中BPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

r2为转发数

m1为媒体源指数，博客m1取值1

g1为在同类媒体源下排名权重

微博类计算模型为：

WPI＝[10％×r1+40％×c+40％×r2+10％×(40％×c2+60％×r3)]×m1×g1

其中WPI为单篇文章传播指数：

r1为文章阅读数

c为评论数

r2为转发数

c2为转发微博中评论总数

r3为转发微博中转发总数

m1为媒体源指数，微博的m1为3.5

g1为在同类媒体源下排名权重

微信类计算模型为：

WPI＝[20％×r+70％×a+10％ln(f+1)]×m1×r1

其中WPI为单篇文章传播指数：

r1为文章阅读数

a为点赞数

f为等价粉丝数

m1为媒体源指数，微信的m1为3

g1为在同类媒体源下排名权重。

所述提取模块具体为：取得整个事件中单篇指数最高的文章，此为舆情事件传播指数峰值，记为Smax,该舆情事件，记为Tmiddle；

所述最终模型为

其中：EPI为事件最终的传播指数；

SMi为舆情事件中单个媒体源单篇最高得分；

Mc为该事件有效传播时间内传播轨迹所跨越的媒体源数量；

T为该事件传播的有效时间；

C为该事件有效时间内的舆情文章总数量；

Si为第i篇文章单篇传播指数得分。

总之，本发明通过分析采集到的主流媒体源的该事件的舆情文章，形成该事件的跨媒体源传播轨迹，基于该传播轨迹，提取传播学要素，构造传播指数模型，从而得到该事件的传播指数。

相较于现有方案，本发明具有如下优点：

优点1：度量的媒体源更为全面，涵括目前主流的各种媒体源。

采集当前的主流媒体源：新闻、博客、论坛、贴吧、微博、微信、电子报、主流新闻APP(网易新闻、腾讯新闻、凤凰新闻、今日头条、一点资讯等)、浏览器推荐新闻(UC浏览器、百度浏览器、QQ浏览器等)进行监控采集，并结合当前用户习惯由PC端转移到移动终端的特点，对移动终端主流相关媒体源进行了采集。

优点2：首次提出结合传播学理论形成舆情事件传播轨迹，基于传播轨迹构建指数模型，指数模型吻合舆情事件发展事态，更具现实意义。

首次提出基于传播学理论，构建舆情事件传播轨迹。通过传播轨迹，分析事件传播的爆发期、高峰期、传播媒体源、有效传播时间，基于事件传播的要素进行模型的构建。而已有方案中均未考虑事件传播的传播学要素、现实意义，仅是对舆情文章的基础要素做相应的分析计算，不具有任何现实意义，未能体现舆情事件的传播态势、未对事件作出符合现实意义的度量。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈江海;倪时龙;苏江文;王秋琳
技术所有人：福建亿榕信息技术有限公司;国家电网公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司
我是此专利的发明人

上一篇：组合式电子秤的制作方法与工艺
上一篇：一种改进型复合电子秤的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。