一种通过动力学特性预测社交媒体中事件规模的方法与流程

文档序号:17132158发布日期:2019-03-16 01:26

本发明涉及信息技术领域,尤其涉及一种通过动力学特性预测社交媒体中事件规模的方法。



背景技术:

随着移动互联网快速高速发展进入到人人都是自媒体的时代,交互更加实时便捷,成本更加低廉。无论网络上亦或现实中的大小事件通过社交媒体平台的快速广泛传播,对社会生活、政策法规、人民心态影响逐渐加深。事件监控、舆论引导等问题引起政府各级部分和企事业单位的高度重视。由此,对社交媒体的实时监测,尤其对"潜在风险"事件的未来发展进行预测是事件监控、舆论引导工作中最为重要的参考。

目前,已有的事件规模预测是基于对大量事件发生后的总结、归类,主要从事件扩散方式、信息传递方式的角度来形成经验和模型,并用于事件规模预测。其中,在事件扩散方式中提出了急局促发式扩散、深度蔓延式扩散、区域位移式扩散、异质转化式扩散、连锁式扩散、循环式扩散、辐射式扩散等;在信息传递方式中提出了单链传递、树状传递、网状传递等。

但随着互联网日新月异的发展速度,存在新类型、新规律的事件扩散和传播的可能。此时,按照先积累再总结的传统方式,因其需要更多时间用于新兴事件积累以便相关分析和总结,那么必然会存在一个滞后期,这样的真空间隔,极有可能影响对事件发展的判断,错过舆论引导的最佳时机,导致事件自然恶性发展,影响社会正常的稳定秩序。

所以,需要一种不依赖监督式学习过程,无滞后期,可高度适应过去、现在、以及未来各类事件发展规律的新方法。



技术实现要素:

本发明的目的在于解决现有技术中存在的上述问题,提供一种通过动力学特性预测社交媒体中事件规模的方法,本发明将事件发展映射为变速运动,以事件可能的发展规模为预期,计算可能性与到达时间,能够对事件规模进行更加直接有效的实时测算,效率更高,精度更准。

为实现上述目的,本发明采用的技术方案如下:

一种通过动力学特性预测社交媒体中事件规模的方法,其特征在于包括以下步骤:

(1)对社交媒体内容进行无监督合并,产生事件集,再计算事件集中各事件的热度,最后提取出满足基础热度门限的基础热度事件;其中,事件的热度由阅读数、评论数、转发数加权综合计算得出;

(2)对基础热度事件的热度进行可变周期采样,采样后通过变速运动规律计算出基础热度事件的热度处于加速过程或减速过程,若基础热度事件的热度处于加速过程,则通过变速运动的结果预测该基础热度事件是否有成为大规模事件的可能以及有可能成为大规模事件的到达时间。

所述步骤(1)中的无监督合并是指:先对社交媒体内容进行分词,并通过 TF-IDF进行特征词提取,当出现大于或等于两个相同的特征词时,判定为相似内容,自动进行合并处理。

所述步骤(2)中的可变周期采样是指:对基础热度事件的热度进行连续周期采样,且在采样时根据基础热度事件的热度变化快慢情况调整采样周期长短。

所述步骤(1)中的事件的热度由热度计算公式计算得出,热度计算公式:r= p*β+q*γ+z*δ+s*ε;其中,p表示评论数,β表示评论因子,q表示阅读数,γ表示阅读因子,z表示转发数,δ表示转发因子,s表示构成事件数,ε表示事件因子;

所述步骤(2)中对基础热度事件的热度进行可变周期采样后,得到热度值集合为r={r1,r2,r3,r4,...rn},对应的采样时间点集合为t={t1,t2,t3,t4,... tn},通过热度值集合r和时间点集合t,先按照速度计算公式和加速度计算公式分别计算出热度变化的速度集合v={v1,v2,v3, v4,...vn}和加速度集合a={a1,a2,a3,a4,...an};再分别将速度集合v 和加速度集合a按照以下公式,每5个连续周期计算出不等权均值V={V1,V2,V3, V4,...Vn}和A={A1,A2,A3,A4,...An},

不等权均值V公式:

不等权均值A公式:

所述的可变周期采样的采样周期T={T1,T2,T3,T4,...Tn},采样周期公式为:T_default/(1+(V-T_Thd)/T_Thd),T_default为常量,表示最小周期值;T_Thd为常量,表示最大周期值;

最后,根据以下预测公式计算并预测基础热度事件是否有成为大规模事件的可能以及有可能成为大规模事件的到达时间,

预测公式:其中,P为常量,表示基础热度事件的规模预期值,t为有可能成为大规模事件的到达时间。

采用本发明的优点在于:

1、本发明将事件发展映射为变速运动,以动力学特性预测事件可能的发展规模,计算可能性与到达时间,能够对事件规模进行更加直接有效的实时测算,效率更高,精度更准。进一步的,由于本发明能够提前对事件规模进行更为精准的实时预测,因此就能够提前对事件的发展做出判断,以便于在最佳的舆论引导时期引导事件良性发展,有效地了防止事件恶性发展。

2、本发明不依赖监督式学习过程,无滞后期,可高度适应过去、现在、以及未来各类事件发展规律的新方法。

3、本发明完全自动化运动,无需人为干预,降低人工和成本,从互联网每天不间断采集数据,经过信息合并聚类提取基础热度事件,再通过智能可变周期进行采样,计算预警可能和时间。

附图说明

具体实施方式

本发明公开了一种通过动力学特性预测社交媒体中事件规模的方法,用到的原始数据为社交媒体传播的内容集合,文字数据包含正文、评论,数值数据包含阅读数、转发数、评论数,具体包括以下步骤:

(1)对社交媒体内容进行无监督合并,产生事件集,再计算事件集中各事件的热度,最后提取出满足基础热度门限的基础热度事件;其中,事件的热度由阅读数、评论数、转发数加权综合计算得出;

(2)对基础热度事件的热度进行可变周期采样,采样后通过变速运动规律计算出基础热度事件的热度处于加速过程或减速过程,若基础热度事件的热度处于加速过程,则通过变速运动的结果预测该基础热度事件是否有成为大规模事件的可能以及有可能成为大规模事件的到达时间。

所述步骤(1)中的无监督合并是指:先对社交媒体内容进行分词,并通过 TF-IDF进行特征词提取,当出现大于或等于两个相同的特征词时,判定为相似内容,自动进行合并处理。

所述步骤(2)中的可变周期采样是指:对基础热度事件的热度进行连续周期采样,且在采样时根据基础热度事件的热度变化快慢情况调整采样周期长短。

所述步骤(1)中的事件的热度由热度计算公式计算得出,热度计算公式:r= p*β+q*γ+z*δ+s*ε;其中,p表示评论数,β表示评论因子,q表示阅读数,γ表示阅读因子,z表示转发数,δ表示转发因子,s表示构成事件数,ε表示事件因子;

所述步骤(2)中对基础热度事件的热度进行可变周期采样后,得到热度值集合为r={r1,r2,r3,r4,...rn},对应的采样时间点集合为t={t1,t2,t3,t4,... tn},通过热度值集合r和时间点集合t,按如下流程即能够预测基础热度事件是否有成为大规模事件的可能以及有可能成为大规模事件的到达时间。

首先,按照速度计算公式和加速度计算公式分别计算出热度变化的速度集合v={v1,v2,v3,v4,...vn}和加速度集合a={a1, a2,a3,a4,...an}。

其次,分别将速度集合v和加速度集合a按照以下公式,每5个连续周期计算出不等权均值V={V1,V2,V3,V4,...Vn}和A={A1,A2,A3,A4,...An},不等权均值V公式:

不等权均值A公式:

其中,由于事件的发展是连续的,而周期采样点只能代表该时刻的瞬态,所以需要结合历史趋势,以便更好的反映当下的客观实际情况。因此具体实现时可以使用5个周期采样值进行不等权均值处理。

所述的可变周期采样的采样周期T={T1,T2,T3,T4,...Tn},采样周期公式为:T_default/(1+(V-T_Thd)/T_Thd),T_default为常量,表示最小周期值;T_Thd为常量,表示最大周期值。其中,当事件发展变化较快时,采取缩短采样周期以便更密集的采样变化过程;相反,当事件发展变化较慢,可延长采样周期。可变周期相较传统固定周期采样方式,其优点在于更加经济和高效

最后,根据以下预测公式计算并预测基础热度事件是否有成为大规模事件的可能以及有可能成为大规模事件的到达时间,

预测公式:其中,P为常量,表示基础热度事件的规模预期值,t为有可能成为大规模事件的到达时间。

下面采用某厂一只可爱的猫成为“正式员工”而备受网络关注对上述步骤进行具体说明,具体如下:

(1)通过分词、提取关键字,找出以下4条信息,并基于以下信息产生事件关键字:流浪、小猫、调解员、调解、大腿、人气、擅长、老鼠;

a,有一位特别的“员工”,它不仅把厂里的鼠患收拾了个干净,还成为了所里的特殊调解员。手握这样的成绩,厂长特批这只喵转为了“正式员工”,享受“同等级”的福利待遇!在员工照片墙的下面贴上了喵的照片。

b,最近,有一只流浪猫,因擅长捕鼠和卖萌,在某厂成了网红,每次调解室里有人发火声音大,小猫就冲进去抱住对方大腿。

c,不久前,某厂的一只喵星人“小黄”成功的载入员工手册。以前,小黄是只流浪喵,因为厂里档案室的老鼠太多了,工作人员就把它抱回来捉老鼠。可人家不仅仅是抓老鼠本领强,更厉害的是调节能力。

d,【流浪猫因擅抓老鼠,靠抱大腿卖萌调解纠纷】猫咪小黄是某厂当之无愧的人气王。原本在外流浪的它,因擅长捕鼠和卖萌,在厂里为自己谋得一席之位。厂长介绍,小黄主要负责抓老鼠以保护档案安危,周末它就自己在厨房溜达,抓了老鼠也不吃掉。等周一我们来开门时,就能看见小黄在门口等,旁边摆着它这两天抓的老鼠。此外,小黄还擅长抱大腿以缓解调解气氛。一旦有人发火、声音大,它就冲进去抱住对方大腿,再生气的人经这么一抱也消气了。自从它上任,厂里调解工作效率明显提高了。所里有厨房,每次大家吃饭它就趴在桌底,吃点鱼头、剩饭。厂里员工也会主动给小黄带猫粮,其他单位员工也会慕名来看小黄给它带吃的。

再通过热度计算公式(r=p*β+q*γ+z*δ+s*ε)计算出该事件的热度为 654.0,该事件的热度满足基础热度门限,因此提取出来作为基础热度事件。

(2)对该基础热度事件进行可变周期采样,采样后通过变速运动规律计算出基础热度事件的速度和加速度若基础热度事件的热度处于加速过程,则通过变速运动的结果预测该基础热度事件是否有成为大规模事件的可能以及有可能成为大规模事件的到达时间。具体见下表:

由上表可知:

1,序号1—4为初始采样阶段,此时按照最高小周期进行采样。

2,序号5—10为上网高峰期,但逐渐进入休息时间,速度逐渐下降,同时预测剩余时间t也随之延长。

3,序号11—13为深夜至清晨,此时网络活跃度很低,预测剩余时间t不可达。

4,序号14—19为事发第二天,事件在网络中不断扩散传播,预测剩余时间 t逐渐缩短,为0时即已经触发大规模门限。

本发明将事件发展映射为变速运动,以动力学特性预测事件可能的发展规模,计算可能性与到达时间,能够提前对事件规模进行更加直接有效的实时测算,才及提前对事件的发展做出判断,有利于在最佳的舆论引导时期引导事件良性发展,有效地了防止事件恶性发展。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1