面向云平台的一种政务舆情监控方法_2

文档序号:9687542阅读:来源:国知局
接抽取,把抽取的链接加入待采集URL集 合;
[0063] 第五步,自动文本特征提取,生成网页指纹;
[0064] 第六步,检测是否为有相同文章;
[0065] 第屯步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操 作;
[0066] 第八步,用TF_IDF算法提取N个关键词;
[0067] 第九步,找到与其重合度最高的m篇文章;
[0068] 第十步,若其重合度大于C则归为相应主题数据库;
[0069] 第十一步,建立倒排索引W供其他模块使用。
[0070] 如图4所示,数据分析模块利用机器学习的方法对清洗后的文本进行聚类、情感分 析、热点分析,并对分析结果进行预警,包括如下步骤:
[0071] 第一步,将主题数据库进行重构,选择有代表性的数据;
[0072] 第二步,对每篇文档进行情感分析并计算分值化ndencye[-l,l];
[0073] 第Ξ步,对上述分析结果记入预警数据库;
[0074] 第四步,计算预警级别,
其中degreei代表第i 篇文档的热度,其计算公式为:
[0075] degreei= (praisei X 0.3+commenti X 0.7)/(houri+2)
[0076] 其中:praisei代表赞数,commenti代表评论数,houri代表发帖时间到现在的时差;
[0077] 第五步,根据预警策略和预警级别给予email或短信等相应预警信息。
[0078] 如图1所示,采用本发明方法获得信息可W在W邸前端进行展示。
【主权项】
1. 面向政务的一种舆情实时监控方法,其特征在于:所述的方法包括数据采集、数据预 处理、数据分析及预警;所述的系统搭载在分布式集群上,由一个作为主节点的爬虫服务器 和多个作为从节点的爬虫客户端组成,主节点负责任务分配,子节点负责任务执行,主从节 点之间采用加密的心跳包进行通信;从节点上包括数据采集、预处理、分析及预警模块;所 述的采集模块根据用户配置、以及知识库抓取论坛、新闻、贴吧、博客等数据,并自动过滤重 复数据,构建主题数据库;数据预处理模炔基于规则和自动混合的方式提取正文数据;数据 分析及预警模块利用机器学习的方法对清洗后的文本进行聚类、情感分析、热点分析,并对 分析结果进行预警。2. 根据权利要求1所述的面向政务的一种舆情实时监控方法,其特征在于:所述的主从 节点之间的通信,包括如下步骤: 第一步,用户开启采集任务; 第二步,主节点保存任务信息到元数据信息库; 第三步,主节点根据用户配置信息进行任务初始化; 第四步,主节点根据丛节点的CPU、内存、当前任务数等指标进行任务分配; 第五步,从节点接收任务; 第六步,从节点发送成功接收任务消息到主节点; 第七步,主节点写任务信息到元数据库; 第八步,从节点开始执行任务; 第九步,若主节点N次未接收到从节点心跳包,则视为丛节点宕机并记录到日志系统, 并重新分配任务给其他节点。3. 根据权利要求1所述的面向政务的一种舆情实时监控方法,其特征在于:所述的采集 模块具体处理流程是: 第一步,获取待采集的URL; 第二步,通过数据路由器对URL进行过滤; 第三步,抓取页面数据; 第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合; 第五步,自动文本特征提取,生成网页指纹; 第六步,检测是否为有相同文章; 第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作; 第八步,用TF_IDF算法提取N个关键词; 第九步,找到与其重合度最高的m篇文章; 第十步,若其重合度大于c则归为相应主题数据库; 第十一步,建立倒排索引以供其他模块使用。4. 根据权利要求2所述的面向政务的一种舆情实时监控方法,其特征在于:所述的采集 模块具体处理流程是: 第一步,获取待采集的URL; 第二步,通过数据路由器对URL进行过滤; 第三步,抓取页面数据; 第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合; 第五步,自动文本特征提取,生成网页指纹; 第六步,检测是否为有相同文章; 第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作; 第八步,用TF_IDF算法提取N个关键词; 第九步,找到与其重合度最高的m篇文章; 第十步,若其重合度大于c则归为相应主题数据库; 第十一步,建立倒排索引以供其他模块使用。5. 根据权利要求1至4任一项所述的面向政务的一种舆情实时监控方法,其特征在于: 所述的数据分析及预警模块具体处理流程是: 第一步,将主题数据库进行重构,选择有代表性的数据; 第二步,对每篇文档进行情感分析并计算分值Tendency^ [-1,1]; 第三步,对上述分析结果记入预警数据库; 第四步,计算预警级别,,_其中degreei代表第i篇文 档的热度,其计算公式为: degreei = (praisei X 0.3+commenti XO. 7)/ (houn+2) 其中:prai sei代表赞数,commenti代表评论数,houri代表发帖时间到现在的时差; 第五步,根据预警策略和预警级别给予email或短信等相应预警信息。6. 根据权利要求3或4所述的面向政务的一种舆情实时监控方法,其特征在于:所述的 自动文本特征提取,生成网页指纹的步骤是: 第一步,提取正文各段落首句关键词(去掉停用词)作为文章的主特征; 第二步,提取正文各段落的标点符号作为副特征; 第三步,分别对主特征和副特征使用SimHash,然后拼接两段特征码,得到整个文章的 指纹; 第四步,存入缓存数据库。7. 根据权利要求5所述的面向政务的一种舆情实时监控方法,其特征在于:所述的自动 文本特征提取,生成网页指纹的步骤是: 第一步,提取正文各段落首句关键词(去掉停用词)作为文章的主特征; 第二步,提取正文各段落的标点符号作为副特征; 第三步,分别对主特征和副特征使用SimHash,然后拼接两段特征码,得到整个文章的 指纹; 第四步,存入缓存数据库。
【专利摘要】本发明涉及云计算技术领域,尤其是面向云平台的一种政务舆情监控方法。本发明方法包括数据采集、数据预处理、数据分析及预警;所述的系统搭载在分布式集群上,由一个作为主节点的爬虫服务器和多个作为从节点的爬虫客户端组成,主节点负责任务分配,子节点负责任务执行,主从节点之间采用加密的心跳包进行通信;从节点上包括数据采集、预处理、分析及预警模块;所述的采集模块根据用户配置、以及知识库抓取论坛、新闻、贴吧、博客等数据,并自动过滤重复数据,构建主题数据库;数据预处理模块基于规则和自动混合的方式提取正文数据;数据分析及预警模块利用机器学习的方法对清洗后的文本进行聚类、情感分析、热点分析,并对分析结果进行预警。本发明解决用户的网络舆情监测等问题,可以用于政务舆情监控上。
【IPC分类】G06F17/30
【公开号】CN105447081
【申请号】CN201510746977
【发明人】侯朋, 李勇波, 季统凯
【申请人】国云科技股份有限公司
【公开日】2016年3月30日
【申请日】2015年11月4日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1