新闻舆情监测系统的制作方法

文档序号:6649004阅读:342来源:国知局
新闻舆情监测系统的制作方法
【专利摘要】本发明公开了一种新闻舆情监测系统,该系统包括新闻信息采集模块、新闻数据预处理模块、新闻舆情分析模块和新闻舆情结果显示模块;所述新闻数据预处理模块包括:初步过滤子模块、正文提取子模块、分词子模块、特征短语过滤子模块、文本情感倾向性分析子模块、图片分析子模块、以及舆情热度获取子模块;针对新闻数据预处理模块预处理后的数据,通过分布式的云计算方式,使用多种新闻舆情监测算法子模块来获取新闻舆情热点,并对获取的新闻舆情热点进行综合判断分类评估,从而实现对新闻舆情热点话题较高效、准确的监测。
【专利说明】新闻舆情监测系统

【技术领域】
[0001]本发明涉及互联网信息处理【技术领域】,具体来讲,涉及一种新闻舆情监测系统。

【背景技术】
[0002]随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。
[0003]网络舆情是通过互联网传播的,公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的情感、态度、意见、言论或观点,其主要通过论坛883上的发帖评论及跟贴、博客8108等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。
[0004]网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。由于网络的开放性,会导致网络舆情形成迅速,对社会影响巨大。特别是当出现负面的网络新闻舆情时,若不能及时了解、有效引导,很容易形成舆论危机,严重时甚至影响公共安全。对网络新闻舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。对网络新闻舆情观点进行收集具有相当重要的意义,在一个热点事件的发展过程中网民观点起着至关重要的作用,甚至可以被认为是网络新闻舆情的核心。
[0005]最近,随着互联网技术的迅速发展,以新闻媒体等为代表的新媒体打破信息的控制和垄断,在网络上人们自由表达自己的态度和意见,不再像过去那么容易地无条件接受,相反,不同阶层的利益诉求纷纷呈现,不同思想观点正面碰撞。对相关政府部门来说,如何及时准确的了解网络新闻舆情,加强对网络新闻舆论的及时监测、有效引导,成为网络新闻舆情管理的一大难点。在这种情况下,建设能够覆盖新闻数据源的新闻舆情监测系统十分必要,此类系统可针对新的新闻媒介传播环境,进一步深入研宄新闻舆情的热点研判方法以及新媒体带来的影响,对新闻舆情研宄进行丰富和完善。
[0006]虽然目前已经有很多单位针对网络新闻舆情监控提出了一些不同的解决方案。但是,需要本领域技术人员解决的技术问题是如何提高判断网络新闻舆情信息的效率和精确度。因为截至目前,尚未有较为高效、准确的针对新闻媒体数据的网络舆情监测系统。


【发明内容】

[0007]本发明就是针对上述【背景技术】中的不足之处,而提出的一种新闻媒体的舆情监测系统,其具有较高的准确率。本发明的目的是通过如下技术措施来实现的。
[0008]本发明提出一种新闻舆情监测系统,该系统包括新闻信息采集模块1、新闻数据预处理模块2、新闻舆情分析模块3和新闻舆情结果显示模块4,其中
[0009]新闻信息采集模块1用于对互联网上的新闻舆情信息进行采集,获取新闻数据;
[0010]新闻数据预处理模块2用于将新闻信息采集模块1获取的新闻数据中的无用信息去除,并对去除了无用信息的所述新闻数据进行必要的整理;
[0011]新闻舆情分析模块3以新闻数据预处理模块2整理的新闻数据为基础,采用多个新闻热点发现子模块发现新闻舆情热点;
[0012]新闻舆情结果显示模块4以图表或报告形式输出新闻舆情分析结果,实现用户交互功能。
[0013]优选地,所述新闻信息采集模块1用于根据指定的关键词、来源或信息主题,使用基于链接分析的搜索引擎网络爬虫方法,通过多线程下载队列并发地自动采集多种类型的新闻舆情信息;其中,所述多种类型的新闻舆情信息至少包括新闻的文本信息和丨或图片信息;并且
[0014]所述新闻数据预处理模块2包括:初步过滤子模块如、正文提取子模块此、分词子模块2匕特征短语过滤子模块2(1、文本情感倾向性分析子模块26、图片分析子模块2?、舆情热度获取子模块28。
[0015]优选地,所述初步过滤子模块如,用于对新闻数据中的信息进行初步过滤,清除所述新闻数据中的噪声,对每条新闻数据进行以下处理:
[0016]步骤2^1,对于每条新闻数据,按照标题进行语义分析,检测出网络中与该条新闻数据相似的所有新闻数据,得到该条新闻数据的相似组;如果未发现与该条新闻数据相似的新闻数据,则该条新闻数据的相似组为其本身;
[0017]步骤如-2,对于每条新闻数据,将网络中所有位置出现的该条新闻数据的相似组中所有新闻数据的总数量除以发布该条新闻数据的相似组中所有新闻数据的网络地址的总数量,得到该条新闻数据的空间重复度值31 ;
[0018]步骤如-3,对于每条新闻数据,计算网络中出现的该条新闻数据的相似组中所有新闻数据的总数量,得到该条新闻数据的时间重复度值32 ;
[0019]步骤23-4,根据每条新闻数据的空间重复度值51和时间重复度值32计算该条新闻数据的综合重复度值3,并进行阈值判断,如果所述综合重复度值3超过阈值,则过滤掉该条新闻数据及其相似组;
[0020]其中,所述综合重复度值3通过以下公式计算:
[0021〕 8 = (10? (81+50)) 172十(10? (82+20)) 172十((1^81)氺(1^82))1/40
[0022]优选地,所述正文提取子模块26,用于在所述初步过滤子模块23处理后的新闻数据中,提取对新闻舆情分析有用的新闻正文部分的信息,对新闻正文部分进行重构,将具有主题代表性的新闻信息聚集在一起;
[0023]所述分词子模块20,用于对所述正文提取子模块26处理后的新闻数据进行分词处理、过滤停用词、命名实体识别、语法解析、词性标注、情感识别、特征词提取、以及特征短语提取,建立正序索引和倒序索引;并根据词的语法属性、词性属性、情感属性解析出词语的倾向性、主题属性和情感属性。
[0024]优选地,所述特征短语过滤子模块2(1,用于对所述分词子模块2^处理后的新闻数据中的特征短语进行过滤筛选,包括以下步骤:
[0025]步骤2(1-1,对特征短语进行去重,包括:记录新闻的文本中出现的重复性特征短语以及其出现的次数,过滤掉出现频率低于重复阈值的重复性特征短语和长度低于重复阈值的重复性特征短语;
[0026]步骤2(1-2,对特征短语进行分组,包括:计算每个特征短语与其他特征短语之间的相似度值,将相似度值高于相似度阈值的特征短语分入相同的组;如果一个特征短语与所有其他特征短语之间的相似度值都为0,则将该特征短语过滤掉;具体地,可以选择以下三个步骤中之一来计算所述两个特征短语X、I的相似度值3108〈X,1),然后进行特征短语分组:
[0027]步骤2(1-2-1:
[0028]首先,所述特征短语X、I的相似度值3108〈X,1)为两个特征短语X、I之间的相同字符的数量;
[0029]其次,如果3108〈X,1)(阈值101,则将特征短语X分入特征短语X所在的组;
[0030]步骤2(1-2-2:
[0031]首先,假设同时出现特征短语X、?的句子的数量为;仅出现特征短语X,不出现特征短语V的句子的数量为811111(? ;仅出现特征短语V,不出现特征短语X的句子的数量为81111100 ;此时,特征短语X、?的相似度值计算公式如下:
[0032]811118 1) = 10? (811111(^1) )/10? (311111(^)) +10? (311111(^1) )/10? (311111(1));
[0033]其次,如果3108〈X,1)(阈值102,则将特征短语X分入特征短语X所在的组;
[0034]步骤2(1-2-3:
[0035]假设两个特征短语X、?中包括字符的个数分别为III和II,令&取中的较小值,分别以X1、打代表特征短语X、V中前1个字符组成的子短语,其中,1 = 1,2,…沙;定义:
[0036]1X1-111表示子短语X1、II的最长公共字符串中包含的字符数量,则特征短语X、^的相似度值3108〈X,1)计算公式如下:
[0037]311118 0, 丫) = 0X1-11 |3十|父2-12 13十…十|父卜%| 3 173;
[0038]其次,如果3108〈X,1)(阈值103,则将特征短语X分入特征短语X所在的组;
[0039]步骤2(1-3,对特征短语进行熵值过滤,包括:计算特征短语的熵值,过滤掉熵值低于预设的下阈值的特征短语以及熵值高于预设的上阈值的特征短语。
[0040]优选地,所述文本情感倾向性分析子模块26,用于执行新闻的文本情感倾向性分析,包括以下步骤:
[0041]步骤26-1,人工选取若干常见的情感倾向性的中文和英文的形容词、名词和动词和作为初始化种子集;其中,所述初始化种子集中,形容词的数量可以是50,名词和动词的数量可以是150 ;
[0042]步骤26-2,将新闻的文本中所有具有指代关系的代词还原为名词性的原始指代对象,以防止分析过程中对象的漏判或错判;
[0043]步骤26-3,以新闻的句子为单位,利用词性标注?03和语义角色标注3此分析新闻中每个句子的句子成分,提取每个句子中的主观性词语;
[0044]步骤26-4,依次输入每个句子中的主观性词语,根据所述种子集对新闻的句子中的主观性词语进行情感倾向性自动标注;对于无法自动标注的主观性词语,由人工判断其情感倾向性后,将该主观性词语补充入所述种子集。
[0045]优选地,所述图片分析子模块2?,用于对新闻数据中图片的视觉特征进行提取和表达,所述图片的视觉特征包括图片的颜色特征、皿11^纹理特征和形状特征;
[0046]所述颜色特征通过基于空间、[狀空间和[处空间的颜色直方图表示;
[0047]所述了肅111^纹理特征包括图片的粗糙度、对比度和方向度;
[0048]所述形状特征包括通过对图片中物体边界轮廓上所有像素点的坐标进行傅里叶变换而获得的曲率函数、质心距离和复坐标函数。
[0049]优选地,所述舆情热度获取子模块28,用于计算所述新闻的舆情热度权值0,若0大于预先设定的阈值,则将该新闻作为舆情分析的数据来源和分析依据,具体地:
[0050]假设浏览点击数为1(1,评论数为1(2,回复数为1(3,点击支持数为1(4,点击反对数为1(5,转发数为1(6,收藏数为1(7,II?I 4为预先设定的且可调整的系数,则
[0051〕 9 =(匕¢1)3,4+0.03)^ | 1+(1^(¢2) 273十(1(3)27” +0.02)^ | 2+(1^((1(4) 172十(1(5)1/2)+0.01) ^ | 3+ (1^( (1(6) 173十(1(7) ^3) +0.005) ^ | 4 ;
[0052]其中,I1 ?I 4 可以设置为:I 1 = 0.5 4 2 = 0.3 3 3 = 0.2 3 4 = 0.1。
[0053]优选地,所述新闻舆情分析模块3用于分析并发现新闻舆情热点,包括如下步骤:
[0054]首先,使用多个新闻热点发现子模块,通过并行的分布式计算方式来获取新闻舆情热点,所述新闻热点发现子模块包括:
[0055]1)新闻热点发现子模块3.1,该子模块采用基于的一丨叩丄一师8算法;
[0056]2) 新闻热点发现子模块3.2,该子模块采用基于1^^6(11106的最近邻分类算法;
[0057]3) 3穩新闻热点发现子模块3.3,该子模块采用基于的支持向量机3穩算法;
[0058]4) 1(-11168118新闻热点发现子模块3.4,该子模块采用基于妨叩如如⑶的1(平均聚类算法;以及
[0059]5) 801新闻热点发现子模块3.5,该子模块采用基于的自组织映射301神经网络聚类算法;
[0060]其次,对上述各个新闻热点发现子模块所分别获取的所有新闻舆情热点进行汇总,进行以下分类判断:
[0061]如果获取的新闻舆情热点来源于上述三个以上热点发现子模块,则将该新闻舆情热点的类别标记为高级新闻舆情热点;
[0062]如果获取的新闻舆情热点来源于上述两个热点发现子模块,则将该新闻舆情热点的类别标记为中级新闻舆情热点;
[0063]如果获取的新闻舆情热点仅来源于上述一个热点发现子模块,则将该新闻舆情热点的类别标记为初级新闻舆情热点;
[0064]最后,将所述高级新闻舆情热点、中级新闻舆情热点和初级新闻舆情热点依次发送到所述新闻舆情结果显示模块4。
[0065]优选地,所述新闻舆情结果显示模块4基于了222架构,可形成:新闻舆情信息热度排行报表、新闻舆情预警信息分布报表、新闻舆情地理信息分布报表、新闻舆情情感分析报表、新闻舆情状态统计报表以及新闻舆情趋势走向分析图。
[0066]现有技术中,网络舆情的主要数据来源一般是各种网站或论坛,而单独针对新闻舆情数据的监测系统则比较少;即使是专门针对新闻舆情数据的监测系统,也往往由于各种原因而准确率或效率较低。而本发明提出了一种专门针对新闻网络数据源的舆情数据的监测系统。
[0067]与现有技术相比,本发明包括以下优点:
[0068]首先,本发明的新闻舆情监测系统面向新闻网络资源,所采集的新闻数据经初步过滤、正文提取、分词、特征短语过滤、文本情感倾向性分析、图片分析、舆情热度获取等数据预处理步骤,有效提高了新闻网络数据源的新闻舆情数据过滤效率;
[0069]其次,通过分布式的云计算方式,能够对大规模采集数据进行挖掘、分析,并能够基于多种新闻舆情监测算法模块来获取新闻舆情热点,对所述新闻舆情热点综合判断分类,从而实现对新闻舆情热点话题的发现及追踪、对新闻的社会网络分析,分析结果可视化呈现,为党政机关、大型企业等单位和组织及时发现新闻敏感信息、掌握新闻舆情热点、把握新闻舆情趋势、应对新闻舆情危机提供自动化、系统化和科学化的信息支持。有效提高了所述新闻舆情监测系统判断的准确性,为网络新闻舆情信息的后续处理提供了更为真实、准确的基础。

【专利附图】

【附图说明】
[0070]下面结合附图对本发明的技术方案进行进一步的说明。在附图中,用相同的附图标记表示相同的功能模块。所述附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
[0071]图1示出了根据本发明的实施例的新闻舆情监测系统的功能结构图。
[0072]图2示出了根据本发明的实施例的新闻数据预处理模块的功能结构图。

【具体实施方式】
[0073]通过下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。所述描述仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂。
[0074]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0075]本发明请求保护一种新闻舆情监测系统,该系统包括新闻信息采集模块、新闻数据预处理模块、新闻舆情分析模块和新闻舆情结果显示模块;所述新闻数据预处理模块包括:初步过滤子模块、正文提取子模块、分词子模块、特征短语过滤子模块、文本情感倾向性分析子模块、图片分析子模块、以及舆情热度获取子模块;针对新闻数据预处理模块预处理后的数据,通过分布式的云计算方式,使用多种新闻舆情监测算法子模块来获取新闻舆情热点,并对获取的新闻舆情热点进行综合判断分类评估,从而实现对新闻舆情热点话题较高效、准确的监测。
[0076]图1是根据本发明的实施例的新闻舆情监测系统的功能结构图。
[0077]如图1所示,所述新闻舆情监测系统包括四个模块,分别为:新闻信息采集模块1、新闻数据预处理模块2、新闻舆情分析模块3和新闻舆情结果显示模块4。其中:
[0078]新闻信息采集模块1用于对互联网上的新闻舆情信息进行采集,获取新闻数据;
[0079]新闻数据预处理模块2用于将新闻信息采集模块1获取的新闻数据中的无用信息去除,并对去除了无用信息的所述新闻数据进行必要的整理;
[0080]新闻舆情分析模块3以新闻数据预处理模块2整理的信息为基础,利用热点发现子模块发现舆情热点;
[0081]新闻舆情结果显示模块4以图表或报告形式输出新闻舆情分析结果,实现用户交互功能。
[0082]具体地:
[0083]所述新闻信息采集模块1用于根据指定的关键词、来源[此或信息主题,使用基于链接分析的搜索引擎网络爬虫方法,通过多线程下载队列并发地自动采集多种类型的新闻舆情信息;其中,所述多种类型的新闻舆情信息至少包括文本信息和/或图片信息。
[0084]图2是根据本发明的实施例的新闻数据预处理模块的功能结构图。
[0085]如图2所示,所述新闻数据预处理模块2包括:初步过滤子模块2^正文提取子模块26、分词子模块2(3、特征短语过滤子模块2(1、文本情感倾向性分析子模块26、图片分析子模块2?、舆情热度获取子模块2。
[0086]具体地:
[0087]所述初步过滤子模块%,用于对新闻数据中的信息进行初步过滤,清除所述新闻数据中的噪声,对每条新闻数据进行以下处理:
[0088]步骤2^1,对于每条新闻数据,按照标题进行语义分析,检测出网络中与该条新闻数据相似的所有新闻数据,得到该条新闻数据的相似组;如果未发现与该条新闻数据相似的新闻数据,则该条新闻数据的相似组为其本身;
[0089]步骤如-2,对于每条新闻数据,将网络中所有位置出现的该条新闻数据的相似组中所有新闻数据的总数量除以发布该条新闻数据的相似组中所有新闻数据的网络地址的总数量,得到该条新闻数据的空间重复度值31 ;
[0090]步骤如-3,对于每条新闻数据,计算网络中出现的该条新闻数据的相似组中所有新闻数据的总数量,得到该条新闻数据的时间重复度值32 ;
[0091]步骤23-4,根据每条新闻数据的空间重复度值51和时间重复度值32计算该条新闻数据的综合重复度值3,并进行阈值判断,如果所述综合重复度值3超过阈值,则过滤掉该条新闻数据及其相似组;
[0092]其中,所述综合重复度值3通过以下公式计算:
[0093]8 = (10? (81+50)) 172十(10? (82+20)) 172十((1^81)氺(1^82))1/40
[0094]具体地:
[0095]所述正文提取子模块26,用于在所述初步过滤子模块23处理后的新闻数据中,提取对新闻舆情分析有用的新闻正文部分的信息,对新闻正文部分进行重构,将具有主题代表性的新闻信息聚集在一起;
[0096]所述分词子模块20,用于对所述正文提取子模块26处理后的新闻数据进行分词处理、过滤停用词、命名实体识别、语法解析、词性标注、情感识别、特征词提取、以及特征短语提取,建立正序索引和倒序索引;并根据词的语法属性、词性属性、情感属性解析出词语的倾向性、主题属性和情感属性。
[0097]具体地:
[0098]所述特征短语过滤子模块2(1,用于对所述分词子模块2(3处理后的新闻数据中的特征短语进行过滤筛选,包括以下步骤:
[0099]步骤2(1-1,对特征短语进行去重,包括:记录新闻的文本中出现的重复性特征短语以及其出现的次数,过滤掉出现频率低于重复阈值的重复性特征短语和长度低于重复阈值的重复性特征短语;
[0100]步骤2(1-2,对特征短语进行分组,包括:计算每个特征短语与其他特征短语之间的相似度值,将相似度值高于相似度阈值的特征短语分入相同的组;如果一个特征短语与所有其他特征短语之间的相似度值都为0,则将该特征短语过滤掉;具体地,可以选择以下三个步骤中之一来计算所述两个特征短语X、I的相似度值3108〈X,1),然后进行特征短语分组:
[0101]步骤2(1-2-1:
[0102]首先,所述特征短语X、I的相似度值义咖〈X,1)为两个特征短语X、I之间的相同字符的数量;
[0103]其次,如果3108〈X,1)(阈值101,则将特征短语X分入特征短语X所在的组;
[0104]步骤2(1-2-2:
[0105]首先,假设同时出现特征短语X、?的句子的数量为;仅出现特征短语X,不出现特征短语V的句子的数量为811111(? ;仅出现特征短语V,不出现特征短语X的句子的数量为81111100 ;此时,特征短语X、?的相似度值计算公式如下:
[0106]811118 1) = 10? (811111(^1) )/10? (311111(^)) +10? (311111(^1) )/10? (311111(1));
[0107]其次,如果311118〈X,1)(阈值102,则将特征短语X分入特征短语X所在的组;
[0108]步骤2(1-2-3:
[0109]假设两个特征短语X、?中包括字符的个数分别为III和II,令&取中的较小值,分别以X1、打代表特征短语X、V中前1个字符组成的子短语,其中,1 = 1,2,…沙;定义:
[0110]1X1-11!表示子短语X1、II的最长公共字符串中包含的字符数量,则特征短语X、^的相似度值3108〈X,1)计算公式如下:
[0111]311118 0, 丫) = 0X1-11 |3十|父2-12 13十…十|父卜%| 3 173;
[0112]其次,如果3108〈X,1)(阈值103,则将特征短语X分入特征短语X所在的组;
[0113]步骤2(1-3,对特征短语进行熵值过滤,包括:计算特征短语的熵值,过滤掉熵值低于预设的下阈值的特征短语以及熵值高于预设的上阈值的特征短语。
[0114]具体地:
[0115]所述文本情感倾向性分析子模块26,用于执行新闻的文本情感倾向性分析,包括以下步骤:
[0116]步骤26-1,人工选取若干常见的情感倾向性的中文和英文的形容词、名词和动词和作为初始化种子集;其中,所述初始化种子集中,形容词的数量可以是50,名词和动词的数量可以是150 ;
[0117]步骤26-2,将新闻的文本中所有具有指代关系的代词还原为名词性的原始指代对象,以防止分析过程中对象的漏判或错判;
[0118]步骤26-3,以新闻的句子为单位,利用词性标注?03和语义角色标注3此分析新闻中每个句子的句子成分,提取每个句子中的主观性词语;
[0119]步骤26-4,依次输入每个句子中的主观性词语,根据所述种子集对新闻的句子中的主观性词语进行情感倾向性自动标注;对于无法自动标注的主观性词语,由人工判断其情感倾向性后,将该主观性词语补充入所述种子集。
[0120]具体地:
[0121]所述图片分析子模块2?,用于对新闻数据中图片的视觉特征进行提取和表达,所述图片的视觉特征包括图片的颜色特征、纹理特征和形状特征;
[0122]所述颜色特征通过基于空间、[狀空间和[处空间的颜色直方图表示;
[0123]所述1肅111^纹理特征中最主要的特征包括图片的粗糙度((302^8611688)、对比度(00111:1-881:)和方向度1: 101^11 #),它们对图片检索尤其重要;
[0124]对于所述形状特征,本发明的系统采用傅里叶描述符81181)6(16801-11)1:01-8),基本思想是通过对图片中物体边界轮廓上所有像素点的坐标进行傅里叶变换而获得曲率函数、质心距离和复坐标函数。
[0125]具体地:
[0126]所述舆情热度获取子模块况,用于计算所述新闻的舆情热度权值0,若0大于预先设定的阈值,则将该新闻作为舆情分析的数据来源和分析依据,具体地:
[0127]假设浏览点击数为1(1,评论数为1(2,回复数为1(3,点击支持数为1(4,点击反对数为1(5,转发数为1(6,收藏数为1(7,II?I 4为预先设定的且可调整的系数,则
[0128]^ = (1^(1(1)^+0.03)^ | 1+(1^(¢2) 273十(1(3)^3) +0.02)^ | 2+(1^((1(4) 172十(1(5)1/2)+0.01) ^ | 3+ (1^( (1(6) 173十(1(7) ^3) +0.005) ^ | 4 ;
[0129]其中,I1 ?I 4 可以设置为:I 1 = 0.5 4 2 = 0.3 3 3 = 0.2 3 4 = 0.1。
[0130]所述新闻舆情分析模块3用于对所述新闻数据预处理模块2处理后的数据进行分析以发现新闻舆情热点。具体地:
[0131]本发明采用分布式的云计算方式,能够对大规模采集新闻数据进行挖掘、分析;并能够基于多种舆情监测算法模块来获取新闻舆情热点,对所述新闻舆情热点综合判断分类,从而实现对新闻舆情热点话题的发现及追踪、对新闻的社会网络分析,分析结果可视化呈现,为党政机关、大型企业等单位和组织及时发现新闻敏感信息、掌握新闻舆情热点、把握新闻舆情趋势、应对新闻舆情危机提供自动化、系统化和科学化的信息支持。有效提高了所述新闻舆情监测系统判断的准确性,为网络新闻舆情信息的后续处理提供了更为真实、准确的基础。具体地:
[0132]通过分布式存储层存储采集的新闻数据以及分析结果,所述分布式存储层基于实现;
[0133]而在分布式计算层,采用并行计算方法实现并行化计算;
[0134]通过文件存储和传输优化、1^1^6(11106并行计算优化,实现了海量的新闻舆情监测的优化,并实现了稳定、高效的大数据存储优化,使得海量的新闻舆情数据查询处理优化,具有良好的可扩展性、可靠性、安全性。该系统基于云平台,具有良好的响应速度,支持海量新闻数据分析与挖掘服务。
[0135]所述新闻舆情分析模块3用于对所述新闻数据预处理模块2处理后的新闻数据进行分析以发现新闻舆情热点的具体步骤如下:
[0136]首先,使用多个新闻热点发现子模块,通过并行的分布式计算方式来获取新闻舆情热点,所述新闻热点发现子模块包括:
[0137]1)新闻热点发现子模块3.1,该子模块采用基于的8111816¢£188算法;
[0138]2) 新闻热点发现子模块3.2,该子模块采用基于妨叩如如⑶的最近邻分类算法;
[0139]3) 3穩新闻热点发现子模块3.3,该子模块采用基于的支持向量机3穩算法;
[0140]4) 1(-11168118新闻热点发现子模块3.4,该子模块采用基于1^^6(11106的1(平均聚类算法;以及
[0141]5) 801新闻热点发现子模块3.5,该子模块采用基于的自组织映射301神经网络聚类算法;
[0142]其次,对上述各个新闻热点发现子模块所分别获取的所有新闻舆情热点进行汇总,进行以下分类判断:
[0143]如果获取的新闻舆情热点来源于上述三个以上热点发现子模块,则将该新闻舆情热点的类别标记为高级新闻舆情热点;
[0144]如果获取的新闻舆情热点来源于上述两个热点发现子模块,则将该新闻舆情热点的类别标记为中级新闻舆情热点;
[0145]如果获取的新闻舆情热点仅来源于上述一个热点发现子模块,则将该新闻舆情热点的类别标记为初级新闻舆情热点;
[0146]最后,将所述高级新闻舆情热点、中级新闻舆情热点和初级新闻舆情热点依次发送到所述新闻舆情结果显示模块4。
[0147]其中,上述热点发现子模块3.1?3.5所采用的算法都采用一般意义上的本领域的通用算法。因此本发明的改进之处并非在于上述几种算法本身。因为在现有的新闻舆情监测系统中,往往只是使用了其中的一种新闻舆情热点发现算法,而尚未发现将上述多种新闻舆情热点发现算法同时使用,并对集中算法的结果进行等级分类的系统。并且,虽然本发明的新闻舆情监测系统使用了多种舆情热点发现算法,但由于本发明的系统采用了基于云计算的分布式架构,因此并不会带来难以承受的开销,并由于多种方式的组合,大大提高了新闻舆情监测系统的准确性,取得了较好的技术效果。
[0148]具体地:
[0149]所述新闻舆情结果显示模块4基于了222架构,可形成:新闻舆情信息热度排行报表、新闻舆情预警信息分布报表、新闻舆情地理信息分布报表、新闻舆情情感分析报表、新闻舆情状态统计报表以及新闻舆情趋势走向分析图。
[0150]本说明书中所描述的系统及其组成模块的实施例仅仅是示意性的,可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0151]综上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
【权利要求】
1.一种新闻舆情监测系统,该系统包括新闻信息采集模块(I)、新闻数据预处理模块(2)、新闻舆情分析模块(3)和新闻舆情结果显示模块(4),其中 新闻信息采集模块(I)用于对互联网上的新闻舆情信息进行采集,获取新闻数据;新闻数据预处理模块(2)用于将新闻信息采集模块(I)获取的新闻数据中的无用信息去除,并对去除了无用信息的所述新闻数据进行必要的整理; 新闻舆情分析模块(3)以新闻数据预处理模块(2)整理的新闻数据为基础,采用多个新闻热点发现子模块发现新闻舆情热点; 新闻舆情结果显示模块(4)以图表或报告形式输出新闻舆情分析结果,实现用户交互功能。
2.根据权利要求1所述的新闻舆情监测系统,其特征在于: 所述新闻信息采集模块(I)用于根据指定的关键词、来源URL或信息主题,使用基于链接分析的搜索引擎网络爬虫方法,通过多线程下载队列并发地自动采集多种类型的新闻舆情信息;其中,所述多种类型的新闻舆情信息至少包括新闻的文本信息和/或图片信息;并且 所述新闻数据预处理模块(2)包括:初步过滤子模块(2a)、正文提取子模块(2b)、分词子模块(2c)、特征短语过滤子模块(2d)、文本情感倾向性分析子模块(2e)、图片分析子模块(2f)、舆情热度获取子模块(2g)。
3.根据权利要求2所述的新闻舆情监测系统,其特征在于: 所述初步过滤子模块(2a),用于对新闻数据中的信息进行初步过滤,清除所述新闻数据中的噪声,对每条新闻数据进行以下处理: 步骤2a_l,对于每条新闻数据,按照标题进行语义分析,检测出网络中与该条新闻数据相似的所有新闻数据,得到该条新闻数据的相似组;如果未发现与该条新闻数据相似的新闻数据,则该条新闻数据的相似组为其本身; 步骤2a_2,对于每条新闻数据,将网络中所有位置出现的该条新闻数据的相似组中所有新闻数据的总数量除以发布该条新闻数据的相似组中所有新闻数据的网络地址的总数量,得到该条新闻数据的空间重复度值SI ; 步骤2a_3,对于每条新闻数据,计算网络中出现的该条新闻数据的相似组中所有新闻数据的总数量,得到该条新闻数据的时间重复度值S2 ; 步骤2a-4,根据每条新闻数据的空间重复度值SI和时间重复度值S2计算该条新闻数据的综合重复度值S,并进行阈值判断,如果所述综合重复度值S超过阈值,则过滤掉该条新闻数据及其相似组; 其中,所述综合重复度值S通过以下公式计算:
S = (1g2 (Sl+50))1/2+ (1g2 (S2+20))1/2+ ((IgSl) * (lgS2))1/4?
4.根据权利要求3所述的新闻舆情监测系统,其特征在于: 所述正文提取子模块(2b),用于在所述初步过滤子模块(2a)处理后的新闻数据中,提取对新闻舆情分析有用的新闻正文部分的信息,对新闻正文部分进行重构,将具有主题代表性的新闻信息聚集在一起; 所述分词子模块(2c),用于对所述正文提取子模块(2b)处理后的新闻数据进行分词处理、过滤停用词、命名实体识别、语法解析、词性标注、情感识别、特征词提取、以及特征短语提取,建立正序索引和倒序索引;并根据词的语法属性、词性属性、情感属性解析出词语的倾向性、主题属性和情感属性。
5.根据权利要求4所述的新闻舆情监测系统,其特征在于: 所述特征短语过滤子模块(2d),用于对所述分词子模块(2c)处理后的新闻数据中的特征短语进行过滤筛选,包括以下步骤: 步骤2d-l,对特征短语进行去重,包括:记录新闻的文本中出现的重复性特征短语以及其出现的次数,过滤掉出现频率低于重复阈值的重复性特征短语和长度低于重复阈值的重复性特征短语;步骤2d-2,对特征短语进行分组,包括:计算每个特征短语与其他特征短语之间的相似度值,将相似度值高于相似度阈值的特征短语分入相同的组;如果一个特征短语与所有其他特征短语之间的相似度值都为O,则将该特征短语过滤掉;具体地,可以选择以下三个步骤中之一来计算所述两个特征短语X、Y的相似度值Sims (X,Y),然后进行特征短语分组:步骤 2d-2-l: 首先,所述特征短语X、Y的相似度值Sims (X,Y)为两个特征短语X、Y之间的相同字符的数量; 其次,如果Sims (X,Y)(阈值TDl,则将特征短语Y分入特征短语X所在的组;
步骤 2d-2-2: 首先,假设同时出现特征短语X、Y的句子的数量为sum(XY);仅出现特征短语X,不出现特征短语Y的句子的数量为Sum(X);仅出现特征短语Y,不出现特征短语X的句子的数量为sum (Y);此时,特征短语X、Y的相似度值Sims (X,Y)计算公式如下:
Sims (X, Y) = 1g2 (sum (XY)) /1g2 (sum (X)) +1g2 (sum (XY)) /1g2 (sum (Y)); 其次,如果Sims (X,Y)(阈值TD2,则将特征短语Y分入特征短语X所在的组;
步骤 2d-2-3: 假设两个特征短语X、Y中包括字符的个数分别为m和η,令k取m、n中的较小值,分别以X1、Yi代表特征短语X、Y中前i个字符组成的子短语,其中,i = 1,2,…,k ;定义: X1-Yi I表示子短语X1、Yi的最长公共字符串中包含的字符数量,则特征短语X、Y的相似度值Sims (X,Y)计算公式如下:
Sims (X,Y) = (Ix1-YllilxS-YSl^-Jlxk-YkI3)"3; 其次,如果Sims (X,Y)(阈值TD3,则将特征短语Y分入特征短语X所在的组; 步骤2d-3,对特征短语进行熵值过滤,包括:计算特征短语的熵值,过滤掉熵值低于预设的下阈值的特征短语以及熵值高于预设的上阈值的特征短语。
6.根据权利要求5所述的新闻舆情监测系统,其特征在于: 所述文本情感倾向性分析子模块(2e),用于执行新闻的文本情感倾向性分析,包括以下步骤: 步骤2e_l,人工选取若干常见的情感倾向性的中文和英文的形容词、名词和动词和作为初始化种子集;其中,所述初始化种子集中,形容词的数量可以是50,名词和动词的数量可以是150 ; 步骤2e_2,将新闻的文本中所有具有指代关系的代词还原为名词性的原始指代对象,以防止分析过程中对象的漏判或错判; 步骤2e-3,以新闻的句子为单位,利用词性标注POS和语义角色标注SRL分析新闻中每个句子的句子成分,提取每个句子中的主观性词语; 步骤2e-4,依次输入每个句子中的主观性词语,根据所述种子集对新闻的句子中的主观性词语进行情感倾向性自动标注;对于无法自动标注的主观性词语,由人工判断其情感倾向性后,将该主观性词语补充入所述种子集。
7.根据权利要求6所述的新闻舆情监测系统,其特征在于: 所述图片分析子模块(2f),用于对新闻数据中图片的视觉特征进行提取和表达,所述图片的视觉特征包括图片的颜色特征、Tamura纹理特征和形状特征; 所述颜色特征通过基于HSV空间、Luv空间和Lab空间的颜色直方图表示; 所述Tamura纹理特征包括图片的粗糙度、对比度和方向度; 所述形状特征包括通过对图片中物体边界轮廓上所有像素点的坐标进行傅里叶变换而获得的曲率函数、质心距离和复坐标函数。
8.根据权利要求7所述的新闻舆情监测系统,其特征在于: 所述舆情热度获取子模块(2g),用于计算所述新闻的舆情热度权值P,若P大于预先设定的阈值T P,则将该新闻作为舆情分析的数据来源和分析依据,具体地: 假设浏览点击数为Kl,评论数为K2,回复数为K3,点击支持数为K4,点击反对数为K5,转发数为K6,收藏数为K7,ξ I?ξ 4为预先设定的且可调整的系数,则
P = (Ig(Kl)3/4+0.03)* ξ 1+ (lg((Κ2)2/3+ (Κ3)2/3) +0.02)* ξ 2+ (lg((Κ4)1/2+ (Κ5)1/2) +0.01)* ξ 3+ (lg((K6)1/3+ (K7)1/3) +0.005)* ξ 4 ;
其中,ξ I ?ξ 4 可以设置为:ξ I = 0.5 ; ξ 2 = 0.3 ; ξ 3 = 0.2 ; ξ 4 = 0.1。
9.根据权利要求8所述的新闻舆情监测系统,其特征在于: 所述新闻舆情分析模块(3)用于分析并发现新闻舆情热点,包括如下步骤: 首先,使用多个新闻热点发现子模块,通过并行的分布式计算方式来获取新闻舆情热点,所述新闻热点发现子模块包括: 1)Single-Pass新闻热点发现子模块(3.1),该子模块采用基于MapReduce的singlepass算法; 2)KNN新闻热点发现子模块(3.2),该子模块采用基于MapReduce的KNN最近邻分类算法; 3)SVM新闻热点发现子模块(3.3),该子模块采用基于MapReduce的支持向量机SVM算法; 4)K-means新闻热点发现子模块(3.4),该子模块采用基于MapReduce的K平均聚类算法;以及 5)SOM新闻热点发现子模块(3.5),该子模块采用基于MapReduce的自组织映射SOM神经网络聚类算法; 其次,对上述各个新闻热点发现子模块所分别获取的所有新闻舆情热点进行汇总,进行以下分类判断: 如果获取的新闻舆情热点来源于上述三个以上热点发现子模块,则将该新闻舆情热点的类别标记为高级新闻舆情热点; 如果获取的新闻舆情热点来源于上述两个热点发现子模块,则将该新闻舆情热点的类别标记为中级新闻舆情热点; 如果获取的新闻舆情热点仅来源于上述一个热点发现子模块,则将该新闻舆情热点的类别标记为初级新闻舆情热点; 最后,将所述高级新闻舆情热点、中级新闻舆情热点和初级新闻舆情热点依次发送到所述新闻舆情结果显示模块(4)。
10.根据权利要求9所述的新闻舆情监测系统,其特征在于: 所述新闻舆情结果显示模块(4)基于J2EE架构,可形成:新闻舆情信息热度排行报表、新闻舆情预警信息分布报表、新闻舆情地理信息分布报表、新闻舆情情感分析报表、新闻舆情状态统计报表以及新闻舆情趋势走向分析图。
【文档编号】G06F17/30GK104504150SQ201510009993
【公开日】2015年4月8日 申请日期:2015年1月9日 优先权日:2015年1月9日
【发明者】张鹏 申请人:成都布林特信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1