对网络舆情监控的方法

文档序号:8472994阅读:330来源:国知局
对网络舆情监控的方法
【技术领域】
[0001] 本发明涉及网络数据监控技术领域,具体地说是一种对网络舆情监控的方法。
【背景技术】
[0002] 舆情是指在一定的社会空间内,围绕社会事件的发生、发展和变化,民众对社会管 理者产生和持有的社会政治态度,它是较多群众关于社会中各种现象以及问题所表达的信 念、态度、意见和情绪等表现的总和。随着互联网的迅猛发展,网络已成为庞大的公共信息 集散地和民众参政议政最常用的平台。目前,对网络舆情的研宄,在理论方面有学者注意到 网络舆情的影响力,提出需要建立网络舆情信息汇集、分析、预警机制,但尚未进一步涉及 深入到细节的【具体实施方式】口。

【发明内容】

[0003] 本发明的技术任务是提供一种对网络舆情监控的方法。
[0004] 本发明的技术任务是按以下方式实现的,该舆情监控的方法通过网页信息采集与 清洗、网页信息预处理和网络舆情分析三部分实现;
[0005] 网页信息采集与清洗:采用分布式协同爬虫,动态配置爬虫服务器数量以及爬虫 数量,在不同的采集需求下动态增减使用在采集上的计算资源;通过网页采集子系统中的 爬虫模块在Internet上获取相关的网页信息;对获取的网页,通过网页清洗模块清除噪声 数据,萃取出相关数据,导入数据库;
[0006] 网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页 相似度计算模块;
[0007] 网络舆情分析:选择一段时间样本网页进行一次聚类,形成多个网络舆情热点簇, 通过热点簇的分析得到各热点簇的特征向量,使用这些特征向量对更大范围的网页数据进 行二次聚类,获得舆情热点走势图表;同时,通过一次聚类和二次聚类的区分,将系统的工 作界定为热点发现和热点跟踪。
[0008] 所述的爬虫模块设置爬虫的数量、抓取速度、起始URL、符合采集要求的URL的正 则表达式、爬虫线程终止条件。
[0009] 所述的噪声数据为网页中的广告、导航信息、图片以及版权说明;相关数据为网页 的标题、正文、链接地址和采集时间。
[0010] 所述的网页文本分词模块:根据是否使用切分词典,可分为有词典切分和无词典 切分;根据切分的具体方法,分为基于规则的方法和基于统计的方法;
[0011] 特征提取模块:采用抽取样本网页的全部网页词库作为网页的特征向量待选集 合,对网页特征向量进行降维处理。
[0012] 本发明的对网络舆情监控的方法和现有技术相比,通过对网页、论坛、博客、新闻 评论等网络资源的精确采集,并结合网页净化、中文分词、向量模型建立、特征选择、降维处 理、文本聚类等中文信息处理技术,实现对网络舆情的有效监测,能够对网络舆情进行有效 的信息汇集、分析和预警。
【具体实施方式】
[0013] 实施例1:
[0014] 该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三 部分实现;
[0015]( -)网页信息采集与清洗:采用分布式协同爬虫,动态配置爬虫服务器数量以及 爬虫数量,在不同的采集需求下动态增减使用在采集上的计算资源;通过网页采集子系统 中的爬虫模块在Internet上获取相关的网页信息,爬虫模块设置爬虫的数量、抓取速度、 起始URL、符合采集要求的URL的正则表达式、爬虫线程终止条件;对获取的网页,通过网 页清洗模块清除网页中的广告、导航信息、图片以及版权说明等噪声数据,萃取出网页的标 题、正文、链接地址和采集时间等相关数据,导入数据库。
[0016](二)网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、 网页相似度计算模块;
[0017] 1)网页文本分词模块:根据是否使用切分词典,可分为有词典切分和无词典切 分。根据切分的具体方法,可分为基于规则的方法和基于统计的方法。采用了层叠隐马尔 可夫模型(HiddenMarkovModel),主要功能包括中文分词、词性标注、命名实体识别、新词 识别;同时支持用户词典,其分词速度单机可达996KB/S,分词精度到达98. 45%,分词效 果良好。
[0018] 2)特征提取模块:首先采用抽取样本网页的全部网页词库作为网页的特征向量 待选集合,由于分词后的特征向量空间维度很大,因此有必要对网页特征向量进行降维处 理。首先根据词性进行初步筛选,定义助词、介词、连词等虚词以及词语长度为1的无实际 含义词为停用词,然后构造网页主题评价函数,对每个特征向量进行评估,选择符合预定阈 值的词作为网页的特征向量集。采取词频与信息增益(InformationGain,IG)相结合的方 法,将特征Tk信息增益的定义为:
【主权项】
1. 对网络舆情监控的方法,其特征在于,该舆情监控的方法通过网页信息采集与清洗、 网页信息预处理和网络舆情分析三部分实现; 网页信息采集与清洗:采用分布式协同爬虫,动态配置爬虫服务器数量以及爬虫数量, 在不同的采集需求下动态增减使用在采集上的计算资源;通过网页采集子系统中的爬虫模 块在Internet上获取相关的网页信息;对获取的网页,通过网页清洗模块清除噪声数据, 萃取出相关数据,导入数据库; 网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似 度计算模块; 网络舆情分析:选择一段时间样本网页进行一次聚类,形成多个网络舆情热点簇,通过 热点簇的分析得到各热点簇的特征向量,使用这些特征向量对更大范围的网页数据进行二 次聚类,获得舆情热点走势图表;同时,通过一次聚类和二次聚类的区分,将系统的工作界 定为热点发现和热点跟踪。
2. 根据权利要求1所述的对网络舆情监控的方法,其特征在于,所述的爬虫模块设置 爬虫的数量、抓取速度、起始URL、符合采集要求的URL的正则表达式、爬虫线程终止条件。
3. 根据权利要求1所述的对网络舆情监控的方法,其特征在于,所述的噪声数据为网 页中的广告、导航信息、图片以及版权说明;相关数据为网页的标题、正文、链接地址和采集 时间。
4. 根据权利要求1所述的对网络舆情监控的方法,其特征在于,所述的网页文本分词 模块:根据是否使用切分词典,可分为有词典切分和无词典切分;根据切分的具体方法,分 为基于规则的方法和基于统计的方法; 特征提取模块:采用抽取样本网页的全部网页词库作为网页的特征向量待选集合,对 网页特征向量进行降维处理。
【专利摘要】本发明公开了一种对网络舆情监控的方法,该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现;网页信息采集与清洗:采用分布式协同爬虫动态获取相关的网页信息;对获取的网页清除噪声数据,萃取出相关数据,导入数据库;网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块;网络舆情分析:选择一段时间样本网页进行一次聚类得到特征向量,使用这些特征向量对更大范围的网页数据进行二次聚类,获得舆情热点走势图表。本发明通过对网络资源的精确采集,实现对网络舆情的有效监测,能够对网络舆情进行有效的信息汇集、分析和预警。
【IPC分类】G06F17-30
【公开号】CN104794161
【申请号】CN201510129837
【发明人】岳立松, 徐宏伟, 左少标
【申请人】浪潮集团有限公司
【公开日】2015年7月22日
【申请日】2015年3月24日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1