基于特征模型的云挖掘网络舆情监测系统的制作方法

文档序号:6443311阅读:196来源:国知局
专利名称:基于特征模型的云挖掘网络舆情监测系统的制作方法
技术领域
本发明属于电子信息技术领域,涉及计算机及网络产品,是ー种面向行业及企业信息化的应用系统,具体地说是ー种基于特征模型的云挖掘网络舆情监测系统。
背景技术
随着网络在我国社会生活中发挥着日益重要的作用,政府以及有关企事业单位也越来越重视网络舆情的监测和预警,舆情分析与监测成为了具有重大战略意义和现实意义的研究領域。由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处理,因此需要依靠信息技术和相关学科专业知识建立起自动化的网络舆情分析系统。由于hternet在全球互连互通,可以从中取得的数据量难以计算,从中获取有用信息的工作是人工处理根本无法完成的,因此网络舆情监测必然要与数据挖掘技术紧密结合,使舆情监测实现自动化和智能化。基于数据挖掘技术在舆情监测中的应用,如何在 Internet这个全球最大的数据集合中发现关键舆情信息,尤其是针对不同舆情监测项目的特点对其进行建摸,以提供精准化服务,已经成为数据挖掘技术研究的热点。Web数据挖掘就是在hternet环境下进行数据挖掘的专门技术,它指使用数据挖掘技术在hternet数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究領域,包括数据库技木、 信息获取技术、统计学、人工智能中的机器学习和神经网络等,各种技术的有机融合和综合应用,将推动Web数据挖掘技术向更加成熟的方向发展。随着分布式处理、并行处理和网格计算的发展,将这些技术进行有机融合和商业应用成为了业界的热点,云计算的概念也应运而生。所谓的云计算可以被看成是网格计算和虚拟化技术的融合即利用网格分布式计算处理的能力。将IT资源构筑成ー个资源池, 再加上成熟的服务器虚拟化、存储虚拟化技木,以便用户可以实时地监控和调配资源。云计算是ー种基于因特网的超级计算模式.在远程的数据中心里.成千上万台电脑和服务器连接成一片电脑云,用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。“云计算”与传统以电脑为中心的计算模式相区別,它将计算和数据分布在大量的分布式计算机上。人们通过手机、电脑上网后就能检索到。目前,许多IT类公司都在进行云计算产品的开发。从2003年开始,Google连续几年在计算机系统研究領域的最顶级会议与杂志上发表论文,掲示其内部的分布式数据处理方法,向外界展示其使用的云计算核心技木。从其近几年发表的论文来看,Google使用的云计算基础架构模式包括四个相互独立又紧密结合在一起的系统。包括Google建立在集群之上的文件系统Google File System,针对Google应用程序的特点提出的Map/Reduce 编程模式,分布式的锁机制Chubby以及Google开发的模型简化的大规模分布式数据库 BigTable。Yahoo公司參与了云计算平台Hadoop的开发,同时为了测试与部署Hadoop系统.在Yahoo公司内部也使用Hadoop软件,建立了世界上最大的Hadoop集群系统,这个集群系统包含了 1万个Linux节点。现在,Yahoo公司的很多应用程序都构建在云计算平台之上。而上述的最大Hadoop平台则用来计算网络搜索的页面连接图,处理海量的数据。硬件公司Dell提供了 DCS (Dell Cloud Computing Solution)解决方案.帮助用户构建云计算平台,该解决方案能够降低数据中心的运维成本,提升计算速度、简化数据中心管理,具有良好的可扩展性。目前,将Web数据挖掘技术与云计算架构相结合的成熟云挖掘技术还没有出现, 而现有的相关舆情监测系统还存在如下问题(1)不具备舆情监测需求建模和智能匹配技木,互联网信息挖掘的准确性较低。(2)系统的易用性和个性化程度不高,用户使用成本较高。(3)由于系统架构的限制导致系统运行效率较低。(4)对舆情监测信息的智能相关处理、舆情趋势分析、舆情自动预警以及舆情热点发现和跟踪能力较弱。

发明内容
为了解决上述技术问题,本发明提供ー种基于特征模型的云挖掘网络舆情监测系统。本系统实现的技术目的主要体现在以下方面(1)实现对舆情监测需求进行建摸,提出描述舆情监测需求的特征模型,并引入系统,通过特征模型和舆情信息的匹配过滤算法,以及特征模型的自学习更新算法,保证了互联网信息挖掘的准确性。(2)采用软件即服务(SaaS)的模式为用户提供服务,基于互联网为用户提供软件服务的软件应用模式是软件发展的最新趋势,用户可以根据需求按需订购本系统提供的舆情监测服务,降低了用户的IT成本。(3)采用基于分布式的云挖掘架构,将大量在线数据挖掘服务器和数据库服务器分布于不同地理位置,作为系统的计算资源和存储资源。系统能够针对用户的不同需求,利用云计算资源调度服务动态调配云计算架构中服务器资源的有效使用,以提高数据挖掘应用程序的运行效率、满足用户的实际需求。(4)实现多维度关联的舆情展现,本系统基于相似性算法的自动聚类技木,自动对每天采集的海量的、无类别的舆情进行归类,把内容相近的文档归为一类,并自动为该类生成主题词。(5)实现基于智能化训练序列模式下的舆情趋势分析,通过舆情关注热点的连续时间监测数据描述舆情变化趋势分布,并通过这种舆情热点的变化自动对检测特征模型进行训练和更新,使特征模型能与舆情监测热点相一致,从而更好的从海量信息中筛选出有价值的资讯。(6)实现自动发现网络舆情热点,对重要的热点新闻信息进行分析和追踪,对于突发事件引起的网络舆情,可以及时掌握舆情爆发点和事态,系统会根据新闻文章数及文章在各大网站和社区的传播链进行自动跟踪统计。(7)实现按需自动预警网络舆情,对监控的信息类别提供预警功能。预警等级可根据用户需求分为高级、中级、低级、安全等级别。用户可查看预警的各类信息,如在预警总分布图中可查看到每类信息的预警文章条数及百分比。其技术方案如下
4
ー种基于特征模型的云挖掘网络舆情监测系统主要由以下五个功能部分构成(1)云计算资源池该部分包含分布于不同地理位置的计算与存储资源,由大量在线数据挖掘服务器和数据库服务器组成。在云计算框架下,通过调度策略利用虚拟化技术,针对用户的不同需求,动态、透明的提供其所需的计算与存储资源,并在当前用户和应用程序不使用时将其资源动态回收供给其他用户,就像发电厂供电ー样为用户输送廉价的计算与存储资源,让普通用户实现大规模并行计算与海量数据操作成为可能。(2)系统监控与负载测量该部分提供对云计算框架中计算与存储资源的监控和測量。主要监控测量的指标有数据挖掘服务器资源负载状态,数据库服务器资源负载状态,数据挖掘相关应用程序对计算和存储资源的请求量,以及用户对计算和存储资源的请求量。(3)云计算资源调度服务该部分用于动态调配云计算框架中服务器资源的有效使用,以提高数据挖掘应用程序的运行效率、满足用户的实际需求。在资源请求量很少的时候将会把数据挖掘应用程序的运行和对用户的响应执行在很少量的服务器资源上,而当资源请求量增长时,最先成为系统瓶颈的往往是当前数据挖掘服务器资源的计算能力,这时云计算平台通过系统监控与负载测量部分发现当前计算资源负载过高,自动动态从云计算资源池中请求新的计算服务器资源加入到当前运行环境,以集群的方式线性增长当前运行环境的计算能力以满足数据挖掘应用程序的资源请求。而当数据挖掘应用程序的资源请求进ー步增长吋,这时不只运行环境的计算能力,存储能力也将成为瓶颈,特别是当数据挖掘服务器资源的増加所帯来的并发与协调执行代价过高吋,数据库服务器资源也将被动态扩展以满足海量的资源请求。而当数据挖掘应用程序资源请求降低吋,则是相反的情況,数据挖掘和数据库服务器资源将会逐步被回收回资源池。(4)多平台舆情发布服务该部分的功能是将数据挖掘处理得到的网络舆情监测信息以多种不同的发布方式推送给用户。主要的推送方式有WEB页面浏览、WAP页面浏览、RSS订阅、Email推送、 MMS/SMS订阅、移动客户端软件等。通过多平台舆情发布服务将网络舆情监测信息进行发布,使舆情推送实现无缝衔接和无缝覆盖,让用户随时随地以各种方式获取舆情资讯,能最大限度地满足用户对舆情监测的需求。(5)用户交互界面该部分为用户提供不同舆情发布方式的界面接ロ。针对不同的舆情发布方式,建立与之对应的用户界面,该界面提供用户注册与登录、舆情监测配置与管理以及舆情推送功能,用于用户进行授权访问、查看最新舆情信息以及对舆情监测的个性化配置。数据挖掘服务器和数据库服务器原理框图如图2所示,采用的技术主要有以下四个方面(1)互联网资讯收集模块该技术实现对互联网资讯的收集和存储,它类似于搜索引擎中使用的“网络爬虫”,但与“网络爬虫”又有着明显的区別。“网络爬虫”是从ー个或若干初始网页地址开始抓取网页,并不断从当前页面上提取所有的链接地址进行进ー步抓取,直到满足一定停止条件为止,其特点是最大限度的抓取网页。而该技术进行的是预先设定抓取指令的有限页面抓取,只抓取包含用户舆情监测需求的页面,收集数据目的在于“精”而不在干“广”,因此, 每设定一个数据抓取指令,就相当于进行了一次特定领域的“垂直捜索”。(2)网页内容智能提取模块对互联网信息收集模块抓取到的网页进行结构化处理,使非结构化页面内容转换为计算机能够进行识别和处理的有语义结构的数据,并将具有舆情监测价值的数据部分提取出来。按照目前技术,计算机无法直接识别和理解网页数据体现的信息和意义,也就不可能进行对信息的进ー步处理。该技术能够克服计算机对信息结构识别的困难,利用属性标记来帮助计算机识别信息结构,一旦完成了这项智能化的工作,就能够利用计算机精确、快速的优势,来进行海量信息的处理工作。(3)舆情监测特征建模模块该技术用于收集用户对不同舆情监测项目的需求特征,并根据该特征建立监测项的特征模型,作为为用户进行舆情监测服务的依据。系统要进行恰当的数据挖掘工作,前提是必须能够了解用户对舆情监测的实际需求,而且这种实际需求必须要转换成计算机能够识别的格式,在本系统中,这种格式化的舆情监测需求称为舆情监测项特征模型。系统以特征模型为依据,进行基于特征模型的数据挖掘处理,从而为用户从海量数据中提取出满足其舆情监测需求的信息。(4)数据挖掘及知识发现模块该技术根据监测项的特征模型,从由网页内容智能提取技术得到的结构化数据中为用户智能筛选出符合其监测需求的有用信息。由于该技术中涉及的数据挖掘处理是以特征模型为依据进行的,而特征模型是用户实际监测需求的抽象表示,因此系统为用户推荐的舆情信息必然是用户需要的有价值信息,从而实现了舆情信息的智能发现。与现有技术相比,本发明的有益效果体现在以下六个方面在基于分布式的云计算系统架构设计方面,利用先进的云计算架构思想,将大量在线数据挖掘服务器和数据库服务器分布于不同地理位置,作为系统的计算资源和存储资源。系统能够针对用户的不同需求,利用云计算资源调度服务动态调配云计算架构中服务器资源的有效使用,以提高数据挖掘应用程序的运行效率、满足用户的实际需求。云计算架构中设置的系统监控与负载测量模块能够对数据挖掘服务器资源负载状态、数据库服务器资源负载状态、数据挖掘相关应用程序对计算和存储资源的请求量以及用户对计算和存储资源的请求量等数据指标进行监控和测量,这些实时数据是云计算资源调度服务对系统资源进行调配的依据。在互联网资讯收集技术和网页内容智能提取技术方面,互联网资讯收集技术能够根据用户舆情监测需求利用网页抓取技术抓取全网信息或特定信息源页面,并将抓取的页面进行存储供后续处理使用,以实现对互联网资讯的收集和存储功能,该技术需要实现对互联网上不同性质的信息发布网站页面的抓取,包括新闻网站、BBS论坛、博客。网页内容智能提取技术实现将抓取到的网页进行结构化处理,使非结构化页面内容转换为计算机能够进行识别和处理的有语义结构的数据,并将具有舆情监测价值的数据部分提取出来,一旦完成了这项智能化的工作,就能够利用计算机精确、快速的优势,来进行海量信息的数据挖掘处理工作。在舆情监测特征建模技术方面,系统将用户的舆情监测需求进行抽象和量化,形成计算机能够识别的监测特征模型。该特征模型由监测信息源序列以及监测特征标签序列組成,作为资讯收集以及进行数据挖掘的依据,使用户能够享受到精准化的舆情监测服务。 特征模型可以进行更新,通过主动和被动两种方式进行主动方式是由用户自主设置和维护监测信息源和监测特征标签,从而建立和更新特征模型,其特点是特征模型可以快速建立和更新,适用于监测需求明确的用户;被动方式是无需用户主动设置和维护,系统通过一定的特征训练机制来确定和更新监测特征模型,其特点是可以发现用户潜在的监测需求, 适用于监测需求不明确的用户。这两种更新方式可以综合使用,首先由用户通过主动方式设置初始特征模型,再利用被动方式修正和更新特征模型,使特征模型越发趋近于用户实际的监测需求,井能不断跟踪用户监测需求的变化,使特征模型始终与用户当前的监测需求相一致。在基于特征模型的数据挖掘分析及展现技术方面,数据挖掘分析技术根据监测项的特征模型,利用自主的信息过滤和筛选机制从由网页内容智能提取技术得到的结构化数据中为用户智能筛选出符合其监测需求的有用信息。由于该技术中涉及的数据挖掘处理是以特征模型为依据进行的,而特征模型是用户实际监测需求的抽象表示,因此系统为用户推荐的舆情信息必然是用户需要的有价值信息,从而实现了舆情信息的智能发现。这些挖掘得到的有价值信息可通过多种分析和展现方式提供给用户通过聚类技术发现网络舆情的关注热点,通过舆情热点在不同重要度网站上的出现频度提供舆情热点排行,通过舆情关注热点的连续时间监测数据描述舆情变化趋势分布,通过舆情变化趋势提供舆情预警, 舆情关注热点间的关联度分析等。在基于MaS的用户服务提供模式方面,系统利用先进的软件服务化技木,使用户不需自己架设舆情监测硬件系统,只需在该项目提供的云挖掘网络舆情监测平台上按需使用舆情监测服务,就能不受时间和地域的限制获得所需的舆情监测信息。在多平台舆情发布模式方面,系统利用多种信息传输手段,使用户尽可能利用最方便的信息获取平台获得舆情监测信息。主要的发布方式有WEB页面浏览、WAP页面浏览、 RSS订阅、Email推送、匪S/SMS订阅、移动客户端软件等。


图1系统架构图;图2舆情监测服务器原理框图;图3舆情监测需求特征模型的建立和更新方法流程图;图4舆情信息去重技术流程图;图5云挖掘系统平台架构图;图6 SaaS与元计算相结合的服务模式实现流程图;图7网络舆情热点信息自动发现方法基本流程图。
具体实施例方式下面结合附图和具体实施方式
对本发明的技术方案作进ー步详细地说明。
1)舆情监测需求的特征模型和舆情信息的匹配过滤技术舆情监测需求特征模型是从用户的舆情监测需求中提取出的需求特征及其关注程度的数据记录集,是对舆情需求特征的数据化模拟。特征模型能够被计算机识别和处理, 能够为不同用户提供与之舆情监测需求相适应的精准化服务。A.舆情监测需求特征模型的定义设特征序列I0(S,T) = ([(S15T1), (s2,r2),···,(sn, rn) ], [U15W1), (t2,w2),···, (tm,wm)]},其中(Si,r,)表示一个信息源単元,Si为监测信息源,r,为该信息源对应的网络排名;(ti; Wi)表示一个监测特征单元,、为特征标签,Wi为其对应的重要度。对巧和Wi归一化处理,得到 I (S,T) = ([(S1, X1), (s2,x2),..., (sn, xn) ], [(ti;yi), (t2,y2),.··,(tm, ym)]},其中
权利要求
1.ー种基于特征模型的云挖掘网络舆情监测系统,其特征在干,包括五个组成部分 云计算资源池包含分布于不同地理位置的计算与存储资源,由数据挖掘服务器和数据库服务器组成;系统监控与负载测量提供对云计算框架中计算与存储资源的监控和測量;云计算资源调度服务用于动态调配云计算框架中服务器资源的使用;多平台舆情发布服务将数据挖掘处理得到的网络舆情监测信息以ー种以上的发布方式推送给用户;用户交互界面为用户提供不同舆情发布方式的界面接ロ。针对不同的舆情发布方式, 建立与之对应的用户界面,该界面提供用户注册与登录、舆情监测配置与管理以及舆情推送功能,用于用户进行授权访问、查看最新舆情信息以及对舆情监测的个性化配置。
2.根据权利要求1所述的基于特征模型的云挖掘网络舆情监测系统,其特征在干,所述的数据挖掘服务器和数据库服务器包括互联网资讯收集模块实现对互联网资讯的收集和存储;网页内容智能提取模块对互联网信息收集模块抓取到的网页进行结构化处理,使非结构化页面内容转换为计算机能够进行识别和处理的有语义结构的数据,并将具有舆情监测价值的数据部分提取出来;舆情监测特征建模模块用于收集用户对不同舆情监测项目的需求特征,井根据该特征建立监测项的特征模型,作为为用户进行舆情监测服务的依据;数据挖掘及知识发现模块根据监测项的特征模型,从由网页内容智能提取技术得到的结构化数据中为用户智能筛选出符合其监测需求的有用信息。
3.根据权利要求1所述的基于特征模型的云挖掘网络舆情监测系统,其特征在干,所述系统监控与负载测量主要监控测量的指标有数据挖掘服务器资源负载状态,数据库服务器资源负载状态,数据挖掘相关应用程序对计算和存储资源的请求量,以及用户对计算和存储资源的请求量。
4.根据权利要求1所述的基于特征模型的云挖掘网络舆情监测系统,其特征在干,所述多平台舆情发布服务主要的推送方式有=WEB页面浏览、WAP页面浏览、RSS订阅、Email 推送、MMS/SMS订阅、移动客户端软件。
5.根据权利要求1所述的基于特征模型的云挖掘网络舆情监测系统,其特征在干,所述用户交互界面针对不同的舆情发布方式,建立与之对应的用户界面,该界面提供用户注册与登录、舆情监测配置与管理以及舆情推送功能,用于用户进行授权访问、查看最新舆情信息以及对舆情监测的个性化配置。
全文摘要
本发明公开了一种基于特征模型的云挖掘网络舆情监测系统,包括五个组成部分云计算资源池、系统监控与负载测量、云计算资源调度服务、多平台舆情发布服务、用户交互界面。针对不同的舆情发布方式,建立与之对应的用户界面,该界面提供用户注册与登录、舆情监测配置与管理以及舆情推送功能,用于用户进行授权访问、查看最新舆情信息以及对舆情监测的个性化配置。该系统具有运行效率高成本低的特点,适用于电子信息技术领域。
文档编号G06F17/30GK102546771SQ20111044228
公开日2012年7月4日 申请日期2011年12月27日 优先权日2011年12月27日
发明者朱大鹏, 杜晨光, 颜涛 申请人:西安博构电子信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1