1.一种基于分布式多任务的社会负面舆情实时分析方法,其特征在于:包括如下步骤,
s1:信息采集,实时采集互联网上的原始数据,并进行存储;
s2:数据处理,对存储后的原始数据进行处理,获得修整数据;
s3:实时数据分析;对修整数据进行统计以及nlp情感分析算法实时分析,及时获得负面舆情;
s4:实时报警;
其中,所述信息采集和所述数据处理均采用分布式多任务进行。
2.根据权利要求1所述的一种基于分布式多任务的社会负面舆情实时分析方法,其特征在于:s1中所述信息采集具体步骤如下:
i:通过各大网站以及app进行信息数据采集;其中,在采集过程中采用多分布多线程和多任务执行,从多个队列中并行读取数据,读写同时进行;
ii:存放到hadoop分布式存储集群中。
3.根据权利要求2所述的一种基于分布式多任务的社会负面舆情实时分析方法,其特征在于:s2中所述数据处理具体步骤如下:
①:简单清洗;对原始数据中存在的乱码、多余空格、多余空行等进行祛噪点;
②:条件筛选:根据数据渠道以及数据类型对数据进行筛选;
③:复杂清洗:祛除数据中广告性质的文字。
4.根据权利要求3所述的一种基于分布式多任务的社会负面舆情实时分析方法,其特征在于:s3中所述实时数据分析的具体步骤如下:
ss1:对舆情信息数据进行统计;
ss2:nlp情感分析算法对舆情信息数据进行处理分析;
ss3:汇总每日、周、月、区域等相关舆情信息传播情况,包括整体趋势、媒体监测情况、周热点、舆论重点等方面;
ss4:分析总结监测结果,形成报告提供给用户使用。
5.根据权利要求1-4任一项所述的一种基于分布式多任务的社会负面舆情实时分析方法:其特征在于:所述nlp情感分析算法包括:
输入门:rt=σ(dtwdr+yt-1wyr+cr);
遗忘门:st=σ(dtwds+yt-1wys+cs);
输出门:ut=σ(dtwdu+yt-1wyu+cu);
候选记忆细胞:
记忆细胞:
隐藏状态:yt=ut⊙tanh(et);
其中,wdr、wds、wdu、
wdr、wds、wdu、wde、wyr、wys、wyu、wye均是权重参数,cr、cs、cu、ce均是偏差参数,σ、tanh分别为sigmoid函数、双曲正切函数,符号⊙表示按元素乘法来完成计算,