健康舆情监测方法与系统与流程

文档序号:15982322发布日期:2018-11-17 00:28阅读:325来源:国知局

本发明涉及信息技术领域,具体来说,本发明涉及一种健康舆情监测方法与系统。

背景技术

随着互联网的快速发展,网络媒体做一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。医疗一直是舆论的焦点,各种突发疫情、医疗灾害等在网络上都能得到第一时间的传播。医疗相关信息通过网络媒体迅速传播放大,往往给公众心理、情绪与行为选择带来一定影响。

舆情监测及智能分析相关技术点正在如火如荼地研究与发展中。当前,已经有高校bbs舆情监测系统监控与引导网络舆情,进一步推进和谐校园建设;智能微博舆情监测系统帮助政府与群众“早发现”舆情,为早报告、早响应提供先机;除此之外,很多企业也利用相关的舆情监测技术处理销售业务、投标招标、锁定关键目标人群等问题,极大地提高了准确率和效率。医疗与健康信息及以相关信息存在众多的数据来源,并且有数据量大、涉及的系统多、数据质量无保证、数据结构差异大、访问频繁等特点,需要建立大数据整合平台,采集和预处理数据,为大数据分析与挖掘提供基础数据。现有的网络舆情监测方法没有对某个没有针对医疗健康领域的舆情检测与智能分析系统的解决方案,针对性不强,舆情分析的效率低下,对于医疗卫生行业的监测不到位。



技术实现要素:

本发明所要解决的技术问题是提供一种健康舆情监测方法与系统,面向医疗卫生行业的健康数据垂直深度爬取技术,健康大数据智能分析预处理技术,面向政府的大数据分析与决策支持技术以及面向健康诊疗的大数据深度学习技术。

为实现上述目的,本发明提供以下的技术方案:

该健康舆情监测方法与系统包括支持pb级的数据存储与高效处理、面向医疗卫生行业的健康数据垂直深度爬取、健康大数据智能分析,其中:

(1)支持pb级的数据存储与高效处理:医疗健康数据有些是结构化的,而医学影像、报表、日志等数据的是半结构化或非结构化数据,对于结构化大数据,适于采用hive数据仓库,对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的大数据适合用hbase,搭建hadoop,利用hdfs,使用hive和hbase管理大数据,使用高性能高容量存储服务器作为hdfs的datanode,总容量可达到pb数量级,主节点namenode则使用128gb高内存服务器,集群内网使用千兆网卡与连接线,保证节点之间的数据传输速率;

(2)面向医疗卫生行业的健康数据垂直深度爬取方案:根据hadoop架构,实现分布式爬虫技术和布隆过滤去重技术,这部分主要由3个部分构成:数据采集模块,融合分析模块和快速索引模块,首先,信息采集模块从网络上抓取html文件,并将下载的文件保存到hadoop的hdfs中,然后经过网页分析,并消除重复抓取的网页,接着,根据分析模块所提供的分词功能,将抓取的内容进行分次处理,并将分词后的词元序列给索引模块,索引模块根据抓取文本的分词结果进行倒排索引,并将索引存入hadoop分布式文件系统上的索引库中供上层居民健康智能服务使用和访问;

(3)健康大数据智能分析:针对爬取到的健康大数据进行智能分析,给出分析结果。

数据采集模块采用简单分布式的框架实现不同类型网站的数据采集任务,同时采用云存储存架实现海量信息的分布式存储并保证数据一致性,每个爬虫以公用的hbase内存数据库作为统一的url调度器,以插件式的形式安装在爬虫客户端;实现分布式的部署,直接将相应程序jar包部署在每台机器上,启动运行即可,每个爬虫的具体url调度将会由hbase服务器进行集中式的管理,保证数据不重复爬取,具体步骤如下:

(1)建立分布式爬虫主从结构,设立爬行控制器和爬行终端,其中控制器(master)控制全部爬行器的同步和中止命令,同时负责分配url,保证集群中所有节点的负载均衡;终端(slave)负责信息的采集,并将拓扑信息和内容信息反馈给控制器;

(2)建立中间件通信系统,保证主控和爬虫之间的高性能和可扩展性,同时保证各爬取进程各司其职,相互独立;

(3)建立hadoop分布式存储系统,分别根据领域维度,数据类型维度,时间维度进行数据文件存储,减少小文件的产生,保证数据组织的完整性,其中,结构化数据采用hbase进行存储,非结构化数据采用hdfs进行存储。

健康大数据智能分析的具体步骤如下:

(1)自然语言处理模块,对爬取到的文本数据进行处理,对文本本身进行分析,提取文本数据的关键词,摘要提取,进行情感分析,提取文本本身对于某个事件的描述信息;

(2)情感极性模块:根据文本的相关评论判断其是否为负面的舆情,反对正面评论的记为负面值,反对正面的记为负面值,反对、赞同中立的都记为中立值,设定舆情文本的负面情感等级;

(3)热度计算模块,根据文本数据的浏览量、评论数、以及互动数,以浏览量*1+评论数*2+互动数*2的公式计算文本的热度,传输给预警等级计算模块;

(4)地域分析模块,根据网友的地域信息,结合情感极性、热度分析以及时间对各个省市进行分析,从宏观上分析该舆情的传播速度以及方向;

(5)预警等级计算模块,根据获取的舆情文本的负面情感等级以及其对应的关注的热度计算相应舆情的综合预警数据,并与预设的预警等级进行比较,若对应某个预警等级,则采用对应该预警等级的措施对相应舆情进行监控预警,对于每一级预警等级,设定不同的数据采集频率,对于超过某一预警等级的舆情爬取与其相似的舆情内容,进行分析类比,计算预警等级,直到解除预警,对于热度低于预设阈值的舆情内容,降低爬虫频率,降低系统关注度。

采用以上技术方案的有益效果是:该健康舆情监测方法与系统针对医疗健康行业的特点,提出了一种面向医疗健康行业的舆情监测方法,通过对舆情本身进行分析,统计评论的情感极性、热度,计算舆情的预警等级,针对不同等级采用不同的处理方式,有针对性的对医疗健康行业的舆情进行监测,提高医疗健康行业的舆情分析分析效率。该健康舆情监测方法与系统有针对性的对医疗健康行业进行舆情监测;提高了医疗健康领域的舆情分析效率;增加了医疗健康领域舆情分析的多样性。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的描述。

图1是hdfs结构示意图;

图2是健康数据垂直深度爬取结构图;

图3是分布式爬虫架构图;

图4是分布式爬虫部署架构图。

具体实施方式

下面结合附图详细说明本发明健康舆情监测方法与系统的优选实施方式。

图1、图2、图3和图4出示本发明健康舆情监测方法与系统的具体实施方式:

该健康舆情监测方法与系统包括支持pb级的数据存储与高效处理、面向医疗卫生行业的健康数据垂直深度爬取、健康大数据智能分析,其中:

1、支持pb级的数据存储与高效处理:医疗健康数据有些是结构化的,而医学影像、报表、日志等数据的是半结构化或非结构化数据。对于结构化大数据,适于采用hive数据仓库。对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的大数据适合用hbase。搭建hadoop,利用hdfs,使用hive和hbase管理大数据。使用高性能高容量存储服务器作为hdfs的datanode,总容量可达到pb数量级。主节点namenode则使用128gb高内存服务器。集群内网使用千兆网卡与连接线,保证节点之间的数据传输速率。

2、面向医疗卫生行业的健康数据垂直深度爬取方案:根据hadoop架构,实现分布式爬虫技术和布隆过滤去重技术。这部分主要由3个部分构成:数据采集模块,融合分析模块和快速索引模块。首先,信息采集模块从网络上抓取html文件,并将下载的文件保存到hadoop的hdfs中,然后经过网页分析,并消除重复抓取的网页。接着根据分析模块所提供的分词功能,将抓取的内容进行分次处理,并将分词后的词元序列给索引模块。索引模块根据抓取文本的分词结果进行倒排索引,并将索引存入hadoop分布式文件系统上的索引库中供上层居民健康智能服务使用和访问。

数据采集模块采用简单分布式的框架实现不同类型网站的数据采集任务,同时采用云存储存架实现海量信息的分布式存储并保证数据一致性。分布式深度爬虫系统架构如图3所示。每个爬虫以公用的hbase内存数据库作为统一的url调度器,以插件式的形式安装在爬虫客户端;实现分布式的部署,直接将相应程序jar包部署在每台机器上,启动运行即可,分布式爬虫部署架构如图4所示。每个爬虫的具体url调度将会由hbase服务器进行集中式的管理,保证数据不重复爬取。

具体步骤如下:

1)建立分布式爬虫主从结构,设立爬行控制器和爬行终端,其中控制器(master)控制全部爬行器的同步和中止命令,同时负责分配url,保证集群中所有节点的负载均衡;终端(slave)负责信息的采集,并将拓扑信息和内容信息反馈给控制器;

2)建立中间件通信系统,保证主控和爬虫之间的高性能和可扩展性,同时保证各爬取进程各司其职,相互独立;

3)建立hadoop分布式存储系统,分别根据领域维度,数据类型维度,时间维度进行数据文件存储,减少小文件产生,保证数据组织完整性。其中,结构化数据采用hbase进行存储,非结构化数据采用hdfs进行存储。

3、健康大数据智能分析:针对爬取到的健康大数据进行智能分析,给出分析结果。

1)自然语言处理模块,对爬取到的文本数据进行处理,对文本本身进行分析,提取文本数据的关键词,摘要提取,进行情感分析。提取文本本身对于某个事件的描述信息。

2)情感极性模块:根据文本的相关评论判断其是否为负面的舆情,计算方法如表1所示,反对正面评论的记为负面值,反对正面的记为负面值,反对、赞同中立的都记为中立值。设定舆情文本的负面情感等级。

3)热度计算模块,根据文本数据的浏览量、评论数、以及互动数,以浏览量*1+评论数*2+互动数*2的公式计算文本的热度,传输给预警等级计算模块。

4)地域分析模块,根据网友的地域信息,结合情感极性、热度分析以及时间对各省市进行分析,从宏观上分析该舆情的传播速度以及方向。

5)预警等级计算模块,根据获取的舆情文本的负面情感等级以及其对应的关注的热度计算相应舆情的综合预警数据,并与预设的预警等级进行比较,若对应某个预警等级,则采用对应该预警等级的措施对相应舆情进行监控预警。对于每一级预警等级,设定不同的数据采集频率,对于超过某一预警等级的舆情爬取与其相似的舆情内容,进行分析类比,计算预警等级,直到解除预警。对于热度低于预设阈值的舆情内容,降低爬虫频率,降低系统关注度。

表1情感极性判定标准

以上的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1