微博舆情监测系统的制作方法

文档序号:8223619阅读:1680来源:国知局
微博舆情监测系统的制作方法
【技术领域】
[0001]本发明涉及互联网信息处理技术领域,具体来讲,涉及一种微博舆情监测系统。
【背景技术】
[0002]随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。
[0003]网络舆情是通过互联网传播的,公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的情感、态度、意见、言论或观点,其主要通过论坛BBS上的发帖评论及跟贴、新闻、博客Blog等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。
[0004]随着互联网技术的迅速发展,以微博媒体等为代表的新一代媒体打破信息的控制和垄断,在网络上人们自由表达自己的态度和意见,不再像过去那么容易地无条件接受,相反,不同阶层的利益诉求纷纷呈现,不同思想观点正面碰撞。对相关政府部门来说,如何及时准确的了解网络微博舆情,加强对网络微博舆论的及时监测、有效引导,成为网络微博舆情管理的一大难点。在这种情况下,建设能够覆盖微博数据源的微博舆情监测系统十分必要,此类系统可针对新的微博媒介传播环境,进一步深入研宄微博舆情的热点研判方法以及新媒体带来的影响,对微博舆情研宄进行丰富和完善。
[0005]虽然目前已经有很多单位针对网络微博舆情监控提出了一些不同的解决方案。但是,需要本领域技术人员解决的技术问题是如何提高判断网络微博舆情信息的效率和精确度。因为截至目前,尚未有较为高效、准确的针对微博媒体数据的网络舆情监测系统。

【发明内容】

[0006]本发明就是针对上述【背景技术】中的不足之处,而提出的一种微博媒体的舆情监测系统,其具有较高的准确率。本发明的目的是通过如下技术措施来实现的。
[0007]本发明提出一种微博舆情监测系统,该系统包括:舆情热度获取模块1、智能爬虫爬取模块2、提取和预处理模块3、特征短语过滤模块4、舆情分析模块5、情感倾向性分析模块6、以及用户交互模块7,其中
[0008]舆情热度获取模块I用于根据微博的舆情热度权值来筛选需要进行舆情分析的微博页面;
[0009]智能爬虫爬取模块2用于通过对指定的微博页面爬取指定时间内的微博数据,并根据预定义的事件对所爬取的微博数据进行分析,过滤掉与要监测的舆情无关的微博数据;
[0010]提取和预处理模块3用于将智能爬虫爬取模块2获取的微博数据中的信息进行提取和预处理;
[0011 ] 特征短语过滤模块4用于对提取和预处理模块3处理后的微博数据中的特征短语进行过滤筛选;
[0012]舆情分析模块5用于以特征短语过滤模块4处理后的微博数据为基础,发现微博舆情执占.1 H n.? w …,
[0013]情感倾向性分析模块6用于对所发现的微博舆情热点执行情感倾向性分析;
[0014]用户交互模块7用于以图表或报告形式显示输出微博舆情分析结果,实现用户交互功能。
[0015]优选地,所述舆情热度获取模块I计算所述微博的舆情热度权值P,若P大于预先设定的阈值T P,则将该微博作为舆情分析的数据来源和分析依据,具体地:
[0016]假设微博的浏览点击数为Kl,评论数为Κ2,回复数为Κ3,点击支持数为Κ4,点击反对数为Κ5,转发数为Κ6,收藏数为Κ7,β??β 4为预先设定的且可调整的系数,则
[0017]P= (Ig(Kl) 3/4+0.03) * β 1+ (lg((Κ2)2/3+ (Κ3)2/3) +0.02) * β 2+ (lg((Κ4)1/2+ (Κ5)1/2)+0.01) * β 3+ (lg ((Κ6)1/3+ (Κ7)1/3) +0.005) * β 4 ;
[0018]其中,βI ?β 4 可以设置为:β1 = 0.4;β2 = 0.2;β3 = 0.1;β4 = 0.1。
[0019]优选地,所述智能爬虫爬取模块2执行以下步骤:
[0020]步骤2-1,通过系统预定义的事件对微博页面进行分析,以此将与要监测的预定义的事件无关的链接过滤掉,剩下与预定义的事件有关的链接,将这些与预定义的事件有关的链接保留下来,并把它们存入等待抓取页面的URL队列;
[0021]步骤2-2,根据预先定义的搜索策略,从所述URL队列中选出根据所述预先定义的搜索策略抓取的页面所对应的URL,重复步骤2-1,当满足了系统预设的停止条件后则停止爬取过程。
[0022]优选地,所述提取和预处理模块3执行以下步骤:
[0023]首先,提取对微博舆情分析有用的微博正文部分的信息,对微博正文部分进行重构,将具有主题代表性的微博数据聚集在一起;
[0024]其次,对所述微博数据进行分词处理、过滤停用词、命名实体识别、语法解析、词性标注、情感识别、特征词提取;然后进行特征短语提取。
[0025]优选地,所述特征短语过滤模块4执行以下步骤:
[0026]步骤4-1,对特征短语进行去重,包括:记录微博的文本中出现的重复性特征短语以及其出现的次数,过滤掉出现频率低于重复阈值的重复性特征短语和长度低于重复阈值的重复性特征短语;
[0027]步骤4-2,对特征短语进行分组,包括:计算每个特征短语与其他特征短语之间的相似度值,将相似度值高于相似度阈值的特征短语分入相同的组;如果一个特征短语与所有其他特征短语之间的相似度值都为0,则将该特征短语过滤掉;具体地,可以选择以下两个步骤之一来计算所述两个特征短语Χ、γ的相似度值Sims (X,Y),然后进行特征短语分组:
[0028]步骤4-2-1:
[0029]首先,假设同时出现特征短语Χ、Υ的句子的数量为sum(XY);仅出现特征短语X,不出现特征短语Y的句子的数量为SUm(X);仅出现特征短语Y,不出现特征短语X的句子的数量为sum(Y);此时,特征短语X、Y的相似度值Sims (X,Y)计算公式如下:
[0030]Sims (X, Y) = 1g2 (sum (XY)) /1g2 (sum (X)) +1g2 (sum (XY)) /1g2 (sum (Y));
[0031 ] 其次,如果Sims (X,Y)(阈值TDl,则将特征短语Y分入特征短语X所在的组;
[0032]步骤 4-2-2:
[0033]首先,假设两个特征短语X、Y中包括字符的个数分别为m和η,令k取m、n中的较小值,分别以X1、Yi代表特征短语X、Y中前i个字符组成的子短语,其中,i = 1,2,…,k ;定义IX1-YiI表示子短语X1、Yi的最长公共字符串中包含的字符数量,则特征短语X、Y的相似度值Sims (X,Y)计算公式如下:
[0034]Sims (X,Y) = (| Xl—Yl |3+| X2—Y2 |3+…+1 Xk-Yk |3) 1/3;
[0035]其次,如果Sims (X,Y)(阈值TD2,则将特征短语Y分入特征短语X所在的组;
[0036]步骤4-3,对特征短语进行熵值过滤,包括:计算特征短语的熵值,过滤掉熵值低于预设的下阈值的特征短语以及熵值高于预设的上阈值的特征短语。
[0037]优选地,所述舆情分析模块5用于分析并发现微博舆情热点,包括如下步骤:
[0038]首先,使用多个微博热点发现子模块,通过并行的MapReduce分布式计算方式来获取微博舆情热点,所述微博热点发现子模块包括:
[0039]I) Single-Pass微博热点发现子模块5.1,采用single pass算法;
[0040]2) KNN微博热点发现子模块5.2,采用KNN最近邻分类算法;
[0041 ] 3) SVM微博热点发现子模块5.3,采用支持向量机SVM算法;
[0042]4) K-means微博热点发现子模块5.4,采用K平均聚类算法
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1