微博舆情监测系统的制作方法_4

文档序号:8223619阅读:来源:国知局
取模块(2)用于通过对指定的微博页面爬取指定时间内的微博数据,并根据预定义的事件对所爬取的微博数据进行分析,过滤掉与要监测的舆情无关的微博数据;提取和预处理模块(3)用于将智能爬虫爬取模块(2)获取的微博数据中的信息进行提取和预处理; 特征短语过滤模块(4)用于对提取和预处理模块(3)处理后的微博数据中的特征短语进行过滤筛选; 舆情分析模块(5)用于以特征短语过滤模块(4)处理后的微博数据为基础,发现微博舆情执占.情感倾向性分析模块(6)用于对所发现的微博舆情热点执行情感倾向性分析; 用户交互模块(7)用于以图表或报告形式显示输出微博舆情分析结果,实现用户交互功能。
2.根据权利要求1所述的微博舆情监测系统,其特征在于: 所述舆情热度获取模块(I)计算所述微博的舆情热度权值P,若P大于预先设定的阈值T P,则将该微博作为舆情分析的数据来源和分析依据,具体地: 假设微博的浏览点击数为Kl,评论数为Κ2,回复数为Κ3,点击支持数为Κ4,点击反对数为Κ5,转发数为Κ6,收藏数为Κ7,β??β 4为预先设定的且可调整的系数,则 P = (Ig(Kl) 3/4+0.03) * β 1+ (lg((Κ2)2/3+ (Κ3)2/3) +0.02) * β 2+ (lg((Κ4)1/2+ (Κ5)1/2) +0.01)* β 3+ (lg ((K6)1/3+ (K7)1/3) +0.005) * β 4 ; 其中,β I ?β 4 可以设置为:β1=0.4;β2 = 0.2;β3 = 0.1;β4 = 0.1。
3.根据权利要求2所述的微博舆情监测系统,其特征在于: 所述智能爬虫爬取模块(2)执行以下步骤: 步骤2-1,通过系统预定义的事件对微博页面进行分析,以此将与要监测的预定义的事件无关的链接过滤掉,剩下与预定义的事件有关的链接,将这些与预定义的事件有关的链接保留下来,并把它们存入等待抓取页面的URL队列; 步骤2-2,根据预先定义的搜索策略,从所述URL队列中选出根据所述预先定义的搜索策略抓取的页面所对应的URL,重复步骤2-1,当满足了系统预设的停止条件后则停止爬取过程。
4.根据权利要求3所述的微博舆情监测系统,其特征在于: 所述提取和预处理模块(3)执行以下步骤: 首先,提取对微博舆情分析有用的微博正文部分的信息,对微博正文部分进行重构,将具有主题代表性的微博数据聚集在一起; 其次,对所述微博数据进行分词处理、过滤停用词、命名实体识别、语法解析、词性标注、情感识别、特征词提取;然后进行特征短语提取。
5.根据权利要求4所述的微博舆情监测系统,其特征在于: 所述特征短语过滤模块(4)执行以下步骤: 步骤4-1,对特征短语进行去重,包括:记录微博的文本中出现的重复性特征短语以及其出现的次数,过滤掉出现频率低于重复阈值的重复性特征短语和长度低于重复阈值的重复性特征短语; 步骤4-2,对特征短语进行分组,包括:计算每个特征短语与其他特征短语之间的相似度值,将相似度值高于相似度阈值的特征短语分入相同的组;如果一个特征短语与所有其他特征短语之间的相似度值都为O,则将该特征短语过滤掉;具体地,可以选择以下两个步骤之一来计算所述两个特征短语X、Y的相似度值Sims (X,Y),然后进行特征短语分组:步骤4-2-1: 首先,假设同时出现特征短语X、Y的句子的数量为sum(XY);仅出现特征短语X,不出现特征短语Y的句子的数量为Sum(X);仅出现特征短语Y,不出现特征短语X的句子的数量为sum (Y);此时,特征短语X、Y的相似度值Sims (X,Y)计算公式如下:Sims (X, Y) = 1g2 (sum (XY)) /1g2 (sum (X)) +1g2 (sum (XY)) /1g2 (sum (Y)); 其次,如果Sims (X,Y)(阈值TDl,则将特征短语Y分入特征短语X所在的组; 步骤4-2-2: 首先,假设两个特征短语X、Y中包括字符的个数分别为m和n,令k取m、η中的较小值,分别以X1、Yi代表特征短语X、Y中前i个字符组成的子短语,其中,i = l,2,一,k;定义|X1-Yi|表示子短语X1、Yi的最长公共字符串中包含的字符数量,则特征短语X、Y的相似度值Sims (X,Y)计算公式如下:Sims (X,Y) = (Ix1-YllilxS-YSl^-Jlxk-YkI3)"3; 其次,如果Sims (X,Y)(阈值TD2,则将特征短语Y分入特征短语X所在的组; 步骤4-3,对特征短语进行熵值过滤,包括:计算特征短语的熵值,过滤掉熵值低于预设的下阈值的特征短语以及熵值高于预设的上阈值的特征短语。
6.根据权利要求5所述的微博舆情监测系统,其特征在于: 所述舆情分析模块(5)用于分析并发现微博舆情热点,包括如下步骤: 首先,使用多个微博热点发现子模块,通过并行的MapReduce分布式计算方式来获取微博舆情热点,所述微博热点发现子模块包括: 1)Single-Pass微博热点发现子模块(5.1),采用single pass算法; 2)KNN微博热点发现子模块(5.2),采用KNN最近邻分类算法; 3)SVM微博热点发现子模块(5.3),采用支持向量机SVM算法; 4)K-means微博热点发现子模块(5.4),采用K平均聚类算法;以及 5)SOM微博热点发现子模块(5.5),采用自组织映射SOM神经网络聚类算法; 其次,对上述各个微博热点发现子模块所分别获取的所有微博舆情热点进行汇总,进行以下分类判断: 如果获取的微博舆情热点来源于上述三个以上热点发现子模块,则将该微博舆情热点的类别标记为高级微博舆情热点; 如果获取的微博舆情热点来源于上述两个热点发现子模块,则将该微博舆情热点的类别标记为中级微博舆情热点; 如果获取的微博舆情热点仅来源于上述一个热点发现子模块,则将该微博舆情热点的类别标记为初级微博舆情热点; 最后,将所述高级微博舆情热点、中级微博舆情热点和初级微博舆情热点依次发送到所述情感倾向性分析模块(6)。
7.根据权利要求6所述的微博舆情监测系统,其特征在于: 所述情感倾向性分析模块(6)用于执行微博的文本情感倾向性分析,包括以下步骤: 步骤6-1,人工选取若干常见的情感倾向性的中文和英文的形容词、名词和动词和作为初始化种子集;其中,所述初始化种子集中,形容词的数量可以是50,名词和动词的数量可以是100 ; 步骤6-2,将微博的文本中所有具有指代关系的代词还原为名词性的原始指代对象,以防止分析过程中对象的漏判或错判; 步骤6-3,以微博的句子为单位,利用词性标注POS和语义角色标注SRL分析微博中每个句子的句子成分,提取每个句子中的主观性词语; 步骤6-4,依次输入每个句子中的主观性词语,根据所述种子集对微博的句子中的主观性词语进行情感倾向性自动标注;对于无法自动标注的主观性词语,由人工判断其情感倾向性后,将该主观性词语补充入所述种子集。
8.根据权利要求7所述的微博舆情监测系统,其特征在于: 所述用户交互模块(7)用于实现用户交互功能,可形成的图表或报告包括:微博舆情信息热度排行报表、微博舆情预警信息分布报表、微博舆情地理信息分布报表、微博舆情情感分析报表、微博舆情状态统计报表以及微博舆情趋势走向分析图。
【专利摘要】本发明公开了一种微博舆情监测系统,该系统包括舆情热度获取模块、智能爬虫爬取模块、提取和预处理模块、特征短语过滤模块、舆情分析模块、情感倾向性分析模块、以及用户交互模块;该系统通过分布式的云计算方式,使用多种微博舆情监测算法获取微博舆情热点,对获取的微博舆情热点进行综合判断分类评估,从而实现对微博舆情热点话题较高效、准确的监测。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104537097
【申请号】CN201510009995
【发明人】张鹏
【申请人】成都布林特信息技术有限公司
【公开日】2015年4月22日
【申请日】2015年1月9日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1