一种对重点人员言论监督与关联关系挖掘的方法

文档序号:6626593阅读:249来源:国知局
一种对重点人员言论监督与关联关系挖掘的方法
【专利摘要】本发明公开了一种对重点人员言论监督与关联关系挖掘的方法,该方法步骤如下:1)建立Hadoop大数据平台;2)微博数据采集及解析;3)数据清洗及人员匹配;4)言论倾向及关联关系分析;5)数据可视化展现。本发明的一种对重点人员言论监督与关联关系挖掘的方法和现有技术相比,具有设计合理、使用方便等特点,系统在大数据平台基础上,应用分布式存储和处理技术,采集网民在微博的注册信息和浏览信息,经过信息匹配和关联关系挖掘,分析出给定重点关注人员的言论倾向与关联关系,将挖掘数据进行可视化展现,并根据微博刷新情况持续跟踪。
【专利说明】一种对重点人员言论监督与关联关系挖掘的方法

【技术领域】
[0001]本发明涉及基于云计算大数据的舆情监督和关联关系的【技术领域】,具体地说是一种对重点人员言论监督与关联关系挖掘的方法。

【背景技术】
[0002]Hadoop是一个分布式系统基础架构,由Apache基金会所开发。Hadoop是在Internet上对搜索关键字进行内容分类的工具。
[0003]NameNode是一个通常在HDFS实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode决定是否将文件映射到DataNode上的复制块上。
[0004]DataNode也是一个通常在HDFS实例中的单独机器上运行的软件。DataNode通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。
[0005]ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
[0006]HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
[0007]微博是一个基于用户关系信息分享、传播以及获取的平台,注重时效性和随意性,微博客更能表达出每时每刻的思想和最新动态。近几年,微博客人数与发博信息量暴增,已成为国内网民可以独立自主且相对自由的发声渠道,不论富贵贫穷的公开平台,数据量也达到大数据级别。根据监督微博内容,更能够真实、实时的跟踪重点关注人员的思想动态、言论倾向以及关联关系。同时,hadoop生态系统提供的分布式存储、计算、nosql数据库、数据查询处理工具以及数据挖掘算法等的日趋成熟,也为微博大数据挖掘提供了技术平台。目前,还没有处理基于云计算大数据对重点人员言论监督与关联关系的合理的方法。


【发明内容】

[0008]本发明的技术任务是提供一种对重点人员言论监督与关联关系挖掘的方法。
[0009]本发明的技术任务是按以下方式实现的,该方法步骤如下:
1)建立Hadoop大数据平台:建立由11个节点组成的Hadoop集群;
2)微博数据采集及解析:网络爬虫采用经过二次开发的nutch,实现主题爬虫采集;对与给定重点关注人员的相关信息作为主题,爬取互联网上的微博数据,并根据自定义词库进行分词解析,将预定义的特征属性值存入数据库,形成结构化数据;
3)数据清洗及人员匹配:对结构化数据进行数据预处理,使用欧式距离,与提供的重点关注人员特性向量进行相似度计算,选取相似度超过阈值的网民信息作为分析对象;
4)言论倾向及关联关系分析:根据自定义词库,采用语义分析与词频统计等技术对重点关注人员言论倾向进行分析;根据从微博采集的人员互动信息,采用关联关系算法挖掘重点关注人员的关系网,并根据微博更新情况进行追踪;
5)数据可视化展现:对重点关注人员的言论倾向和关联关系进行可视化展现。
[0010]所述的步骤I)中,11个节点包括I个NameNode节点、I个SecondaryNameNode节点、I 个 zookeeper 节点和 8 个 DataNode/Tasktracker 节点。
[0011]所述的步骤2)中的数据库采用hbase。
[0012]所述的步骤3)中数据预处理包括制定空缺值填充规则、差值计算规则。
[0013]本发明的一种对重点人员言论监督与关联关系挖掘的方法和现有技术相比,具有设计合理、使用方便等特点,系统在大数据平台基础上,应用分布式存储和处理技术,采集网民在微博的注册信息和浏览信息,经过信息匹配和关联关系挖掘,分析出给定重点关注人员的言论倾向与关联关系,将挖掘数据进行可视化展现,并根据微博刷新情况持续跟踪。

【专利附图】

【附图说明】
[0014]附图1为一种对重点人员言论监督与关联关系挖掘的方法的流程示意图。

【具体实施方式】
[0015]实施例1:
该对重点人员言论监督与关联关系挖掘的方法步骤如下:
1)建立Hadoop大数据平台:建立由11个节点组成的Hadoop集群;
2)微博数据采集及解析:网络爬虫采用经过二次开发的nutch,实现主题爬虫采集;对与给定重点关注人员的相关信息作为主题,爬取互联网上的微博数据,并根据自定义词库进行分词解析,将预定义的特征属性值存入数据库,形成结构化数据;
3)数据清洗及人员匹配:对结构化数据进行数据预处理,制定空缺值填充规则、差值计算规则,使用欧式距离,与提供的重点关注人员特性向量进行相似度计算,选取相似度超过阈值的网民信息作为分析对象;
4)言论倾向及关联关系分析:根据自定义词库,采用语义分析与词频统计等技术对重点关注人员言论倾向进行分析;根据从微博采集的人员互动信息,采用关联关系算法挖掘重点关注人员的关系网,并根据微博更新情况进行追踪;
5)数据可视化展现:对重点关注人员的言论倾向和关联关系进行可视化展现。
[0016]实施例2:
该对重点人员言论监督与关联关系挖掘的方法步骤如下:
I)建立Hadoop大数据平台:建立由11个节点组成的Hadoop集群,包括I个NameNode节点、I 个 SecondaryNameNode 节点、I 个 zookeeper 节点和 8 个 DataNode/Tasktracker 节点。
[0017]2)微博数据采集及解析:网络爬虫采用经过二次开发的nutch,实现主题爬虫采集;对与给定重点关注人员的相关信息作为主题,爬取互联网上的微博数据,并根据自定义词库进行分词解析,将预定义的特征属性值存入hbase数据库,形成结构化数据;
3)数据清洗及人员匹配:对结构化数据进行数据预处理,制定空缺值填充规则、差值计算规则,使用欧式距离,与提供的重点关注人员特性向量进行相似度计算,选取相似度超过阈值的网民信息作为分析对象; 4)言论倾向及关联关系分析:根据自定义词库,采用语义分析与词频统计等技术对重点关注人员言论倾向进行分析;根据从微博采集的人员互动信息,采用关联关系算法挖掘重点关注人员的关系网,并根据微博更新情况进行追踪;
5)数据可视化展现:对重点关注人员的言论倾向和关联关系进行可视化展现。
[0018]通过上面【具体实施方式】,所述【技术领域】的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种【具体实施方式】。在公开的实施方式的基础上,所述【技术领域】的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
【权利要求】
1.一种对重点人员言论监督与关联关系挖掘的方法,其特征在于该方法步骤如下: 1)建立Hadoop大数据平台:建立由11个节点组成的Hadoop集群; 2)微博数据采集及解析:网络爬虫采用经过二次开发的nutch,实现主题爬虫采集;对与给定重点关注人员的相关信息作为主题,爬取互联网上的微博数据,并根据自定义词库进行分词解析,将预定义的特征属性值存入数据库,形成结构化数据; 3)数据清洗及人员匹配:对结构化数据进行数据预处理,使用欧式距离,与提供的重点关注人员特性向量进行相似度计算,选取相似度超过阈值的网民信息作为分析对象; 4)言论倾向及关联关系分析:根据自定义词库,采用语义分析与词频统计等技术对重点关注人员言论倾向进行分析;根据从微博采集的人员互动信息,采用关联关系算法挖掘重点关注人员的关系网,并根据微博更新情况进行追踪; 5)数据可视化展现:对重点关注人员的言论倾向和关联关系进行可视化展现。
2.根据权利要求1所述的一种对重点人员言论监督与关联关系挖掘的方法,其特征在于,所述的步骤I)中,11个节点包括I个NameNode节点、I个SecondaryNameNode节点、I个 zookeeper 节点和 8 个 DataNode/Tasktracker 节点。
3.根据权利要求1所述的一种对重点人员言论监督与关联关系挖掘的方法,其特征在于,所述的步骤2)中的数据库采用hbase。
4.根据权利要求1所述的一种对重点人员言论监督与关联关系挖掘的方法,其特征在于,所述的步骤3)中数据预处理包括制定空缺值填充规则、差值计算规则。
【文档编号】G06F17/30GK104199947SQ201410459905
【公开日】2014年12月10日 申请日期:2014年9月11日 优先权日:2014年9月11日
【发明者】范莹, 于治楼, 梁华勇 申请人:浪潮集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1