互联网数据中心有害信息监测系统的制作方法

文档序号:9235515阅读:508来源:国知局
互联网数据中心有害信息监测系统的制作方法
【技术领域】
[0001]本发明涉及互联网数据中心有害信息监测系统。
【背景技术】
[0002]随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。
[0003]面对日益活跃的网络社区环境,每个网民都可能成为有害信息的发布者和散布者,网络有害传播途径越来越广包括博客、新闻、论坛、微博、以及其他途径。网络爬虫是各种搜索引擎能够实现的先驱技术,大数据时代的来临以及互联网技术的飞速发展,使得网络爬虫具有更重大的研宄意义。应对网页数据量增幅大、网络文本更新周期短以及网页结构动态变化等一系列挑战,高效率且不间断工作的网络爬虫成为有害信息挖掘的研宄热点。

【发明内容】

[0004]本发明的目的在于克服现有技术的不足,提供互联网数据中心有害信息监测系统,本系统提供了强大的数据收集功能,通过多个爬虫集群对动态网页和静态网页进行全面的实时监控;并从海量数据中,采集到与敏感词有关的数据,做到主动发现有害网页,通过有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元实现更加精确的搜索。
[0005]本发明的目的是通过以下技术方案来实现的:互联网数据中心有害信息监测系统,它包括爬虫系统和有害信息监测系统,有害信息监测系统通过爬虫系统获取互联网数据中心中的网页数据,并对其进行有害分析。
[0006]所述爬虫系统包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,并与有害信息监测系统进行相互通信,爬虫结点用于采集网络中的有害信息,所述每个爬虫结点均由以下多种模块组成:
1、多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集。
[0007]2、网页库,存储多线程网页采集模块所采集的网页。
[0008]3、编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理。
[0009]4、网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库根据敏感词库抓取编码转换处理后存在有害信息网页的URL。
[0010]5、URL过滤器,过滤不需要下载的URL。
[0011]6、URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL—致,若一致则不再对该URL进行后续的处理。
[0012]7、URL调度模块,根据去重后的URL队列,控制多线程网页采集模块下载相应的网页。
[0013]8、网页去重模块,用于判断网页内容是否与已下载过的网页内容一致,若一致则不再对该网页进行后续的处理,并从网页库中将其删除。
[0014]所述网页去重模块包括指纹计算模块、指纹库和指纹去重模块,指纹计算模块根据网页指纹算法,将网页的内容经过计算生成指纹,指纹去重模块将该生成指纹与指纹库中的指纹进行对比,若存在相同或相近似的指纹,则判断该网页内容已下载过,指纹库用于存储指纹数据,且每个爬虫结点的指纹库进行同步更新。
[0015]9、间隔抓取模块,间隔抓取模块通过网页评分和网站权重自动生成间隔规则,并控制网页内容自动提取模块对网页进行相应的间隔抓取。
[0016]10、抓取规则设置模块,抓取规则设置模块根据所设置的抓取规则,控制网页内容自动提取模块对网页进行相应的抓取动作。
[0017]11、反爬虫抓取模块,当网页设置有反爬虫程序时,启动反爬虫抓取模块,对目标网页进行强制采集。
[0018]12、采集监控模块,采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理,并接收爬虫根节点的控制。
[0019]所述有害信息监测系统包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元。
[0020]有害信息搜索单元包括本地搜索端口和网络搜索端口,本地搜索端口用于启动本地爬虫结点的搜索引擎,在本地执行该有害信息搜索任务。网络搜索端口用于启动多个爬虫结点的搜索引擎,通过多个爬虫结点同时执行该有害信息搜索任务,还通过该网络搜索端口将搜索结果返回到该本地爬虫结点。
[0021]有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合,通过多种筛选器及其组合完成精确搜索。
[0022]关键字处理单元用于生成关键字搜索指令,有害信息搜索单元根据该关键字搜索指令执行有害信息搜索任务。
[0023]模糊匹配单元用于根据输入的搜索字符串匹配相近似的近似词汇,使有害信息搜索单元对搜索字符串进行搜索的同时,还完成近似词汇的搜索,并返回近似词汇搜索结果。
[0024]自动分词单元用于将输入的搜索字符串进行自动提取关键字,使有害信息搜索单元根据该自动提取关键字完成精确搜索。
[0025]所述关键字搜索指令包括分类ID号、事件名称、关键字选项、排除关键字选项、权重、起始时间。所述排除关键字选项用于使包含排除关键字选项中任一关键字的网页不会被匹配认定为有害信息网页。
[0026]所述有害信息监测系统还包括自动摘要生成单元,自动摘要生成单元根据输入的搜索字符串及其近似词汇对目标网页动态的生成网页摘要。
[0027]所述自动摘要生成单元还通过关键字处理单元对网页进行关键字分析,自动提取关键字段生成网页摘要。
[0028]所述有害信息监测系统还包括结果统计分析单元,结果统计分析单元用于对返回的搜索结果进行分析统计,所述统计分析单元包括任务舆情图生成模块、报表生成模块、任务文章统计模块、任务趋势分析模块和任务概况分析模块。
[0029]所述任务舆情图生成模块根据搜索条件和搜索结果生成任务舆情图,包括有害信息数量统计、中标关键词数量统计和网页数量分类统计。
[0030]所述报表生成模块用于根据搜索结果信息生成报表。
[0031]所述任务趋势分析模块用于生成增量图。
[0032]所述任务概况分析模块用于生成任务列表、站点分布图和媒体分布图。
[0033]所述有害信息监测系统还包括防火墙,爬虫系统通过防火墙对互联网数据中心中的网页数据进行安全爬取。
[0034]本发明的有益效果是:本发明所提出的互联网数据中心有害信息监测系统,能从海量数据中,采集到与敏感词有关的数据,做到主动发现有害;收录有害的分布站点、传播途径、回帖率、点击率、参与者等相关信息,辅助分析有害网页的热度、重要性、发展趋势,做到准确分析有害;设置可疑人员虚拟身份进行重点监控,根据采集到数据进行分析活动范围、散布内容、活动时间等;可设置言论定性数据分析;事件热度快速定位分析。
[0035]本发明还具有以下多个功能特点:
1)多线程采集:针对不同类型的网站定制不同的策略,采集支持多线程,实现快速信息米集;
2)分布式采集:通过多个爬虫集群、若干的爬虫结点进行大规模数据采集;
3)采集监控:对爬虫结点工作状态、采集任务、采集深度、日志、系统运行报告等进行监控和管理;
4)网页内容自动提取:能采集多种动态和静态网页,例如HTM、HTML、SHTML、XML、PHP、ASP、JSP、JavaScript 等网页;
5)编码自动识别转换:支持GBK、GB2312、BIG5、UTF-8、UTF-16、BIGENDIAN、IS08859-1等多种编码自动识别,系统自动进行编码转换为UTF ;
6)增量更新:保证爬虫结点只采集上次更新后新生成或更改的网页,不用重新采集已下载的网页来保证信息更新的效率,用户
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1