对网络舆情监控的方法

文档序号：8472994阅读：330来源：国知局

对网络舆情监控的方法
【技术领域】
[0001] 本发明涉及网络数据监控技术领域，具体地说是一种对网络舆情监控的方法。
【背景技术】
[0002] 舆情是指在一定的社会空间内，围绕社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度，它是较多群众关于社会中各种现象以及问题所表达的信念、态度、意见和情绪等表现的总和。随着互联网的迅猛发展，网络已成为庞大的公共信息集散地和民众参政议政最常用的平台。目前，对网络舆情的研宄，在理论方面有学者注意到网络舆情的影响力，提出需要建立网络舆情信息汇集、分析、预警机制，但尚未进一步涉及深入到细节的【具体实施方式】口。

【发明内容】

[0003] 本发明的技术任务是提供一种对网络舆情监控的方法。
[0004] 本发明的技术任务是按以下方式实现的，该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现；
[0005] 网页信息采集与清洗：采用分布式协同爬虫，动态配置爬虫服务器数量以及爬虫数量，在不同的采集需求下动态增减使用在采集上的计算资源；通过网页采集子系统中的爬虫模块在Internet上获取相关的网页信息；对获取的网页，通过网页清洗模块清除噪声数据，萃取出相关数据，导入数据库；
[0006] 网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块；
[0007] 网络舆情分析：选择一段时间样本网页进行一次聚类，形成多个网络舆情热点簇，通过热点簇的分析得到各热点簇的特征向量，使用这些特征向量对更大范围的网页数据进行二次聚类，获得舆情热点走势图表；同时，通过一次聚类和二次聚类的区分，将系统的工作界定为热点发现和热点跟踪。
[0008] 所述的爬虫模块设置爬虫的数量、抓取速度、起始URL、符合采集要求的URL的正则表达式、爬虫线程终止条件。
[0009] 所述的噪声数据为网页中的广告、导航信息、图片以及版权说明；相关数据为网页的标题、正文、链接地址和采集时间。
[0010] 所述的网页文本分词模块：根据是否使用切分词典，可分为有词典切分和无词典切分；根据切分的具体方法，分为基于规则的方法和基于统计的方法；
[0011] 特征提取模块：采用抽取样本网页的全部网页词库作为网页的特征向量待选集合，对网页特征向量进行降维处理。
[0012] 本发明的对网络舆情监控的方法和现有技术相比，通过对网页、论坛、博客、新闻评论等网络资源的精确采集，并结合网页净化、中文分词、向量模型建立、特征选择、降维处理、文本聚类等中文信息处理技术，实现对网络舆情的有效监测，能够对网络舆情进行有效的信息汇集、分析和预警。
【具体实施方式】
[0013] 实施例1:
[0014] 该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现；
[0015]( -）网页信息采集与清洗：采用分布式协同爬虫，动态配置爬虫服务器数量以及爬虫数量，在不同的采集需求下动态增减使用在采集上的计算资源；通过网页采集子系统中的爬虫模块在Internet上获取相关的网页信息，爬虫模块设置爬虫的数量、抓取速度、起始URL、符合采集要求的URL的正则表达式、爬虫线程终止条件；对获取的网页，通过网页清洗模块清除网页中的广告、导航信息、图片以及版权说明等噪声数据，萃取出网页的标题、正文、链接地址和采集时间等相关数据，导入数据库。
[0016](二）网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块；
[0017] 1)网页文本分词模块：根据是否使用切分词典，可分为有词典切分和无词典切分。根据切分的具体方法，可分为基于规则的方法和基于统计的方法。采用了层叠隐马尔可夫模型（HiddenMarkovModel),主要功能包括中文分词、词性标注、命名实体识别、新词识别；同时支持用户词典，其分词速度单机可达996KB/S，分词精度到达98. 45%，分词效果良好。
[0018] 2)特征提取模块：首先采用抽取样本网页的全部网页词库作为网页的特征向量待选集合，由于分词后的特征向量空间维度很大，因此有必要对网页特征向量进行降维处理。首先根据词性进行初步筛选，定义助词、介词、连词等虚词以及词语长度为1的无实际含义词为停用词，然后构造网页主题评价函数，对每个特征向量进行评估，选择符合预定阈值的词作为网页的特征向量集。采取词频与信息增益（InformationGain,IG)相结合的方法，将特征Tk信息增益的定义为：
【主权项】
1. 对网络舆情监控的方法，其特征在于，该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现；网页信息采集与清洗：采用分布式协同爬虫，动态配置爬虫服务器数量以及爬虫数量，在不同的采集需求下动态增减使用在采集上的计算资源；通过网页采集子系统中的爬虫模块在Internet上获取相关的网页信息；对获取的网页，通过网页清洗模块清除噪声数据，萃取出相关数据，导入数据库；网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块；网络舆情分析：选择一段时间样本网页进行一次聚类，形成多个网络舆情热点簇，通过热点簇的分析得到各热点簇的特征向量，使用这些特征向量对更大范围的网页数据进行二次聚类，获得舆情热点走势图表；同时，通过一次聚类和二次聚类的区分，将系统的工作界定为热点发现和热点跟踪。
2. 根据权利要求1所述的对网络舆情监控的方法，其特征在于，所述的爬虫模块设置爬虫的数量、抓取速度、起始URL、符合采集要求的URL的正则表达式、爬虫线程终止条件。
3. 根据权利要求1所述的对网络舆情监控的方法，其特征在于，所述的噪声数据为网页中的广告、导航信息、图片以及版权说明；相关数据为网页的标题、正文、链接地址和采集时间。
4. 根据权利要求1所述的对网络舆情监控的方法，其特征在于，所述的网页文本分词模块：根据是否使用切分词典，可分为有词典切分和无词典切分；根据切分的具体方法，分为基于规则的方法和基于统计的方法；特征提取模块：采用抽取样本网页的全部网页词库作为网页的特征向量待选集合，对网页特征向量进行降维处理。
【专利摘要】本发明公开了一种对网络舆情监控的方法，该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现；网页信息采集与清洗：采用分布式协同爬虫动态获取相关的网页信息；对获取的网页清除噪声数据，萃取出相关数据，导入数据库；网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块；网络舆情分析：选择一段时间样本网页进行一次聚类得到特征向量，使用这些特征向量对更大范围的网页数据进行二次聚类，获得舆情热点走势图表。本发明通过对网络资源的精确采集，实现对网络舆情的有效监测，能够对网络舆情进行有效的信息汇集、分析和预警。
【IPC分类】G06F17-30
【公开号】CN104794161
【申请号】CN201510129837
【发明人】岳立松, 徐宏伟, 左少标
【申请人】浪潮集团有限公司
【公开日】2015年7月22日
【申请日】2015年3月24日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：岳立松;徐宏伟;左少标;
技术所有人：浪潮集团有限公司;
我是此专利的发明人

上一篇：实时数据存储与查询方法
上一篇：石化企业数字化工厂平台系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。