一种基于idc有害信息监测系统的样本训练系统的制作方法_4

文档序号:8922691阅读:来源:国知局
置在爬虫系统中的爬虫样本训练单元和设置在有害信息监测系统中的有害监测样本训练单元; 所述爬虫样本训练单元包括爬虫样本训练模块、爬虫样本数据库和主题相关度计算模块,主题相关度计算模块将爬虫系统抓取的网页信息结合爬虫样本数据库计算网页的主题相关度,并根据该主题相关度调整URL队列,过滤掉低于预设阈值的URL,并把计算得到的主题相关度值反馈给爬虫样本训练模块,爬虫样本训练模块进行训练学习后,更新爬虫样本数据库; 所述有害监测样本训练单元包括关键字近似词汇训练模块、搜索结果拟合度计算模块和有害监测样本数据库; 关键字近似词汇训练模块,有害信息监测系统根据近似匹配算法所生成的与输入字符串相关的近似词汇进行有害检测,关键字近似词汇训练模块根据搜索结果拟合度计算模块来确定搜索结果的准确性,判断近似词汇的相似度,并将有效的近似词汇更新到有害监测样本数据库中。2.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述爬虫系统包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,并与有害信息监测系统进行相互通信,爬虫结点用于采集网络中的有害信息,所述每个爬虫结点均由以下多种模块组成: 多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集; 网页库,存储多线程网页采集模块所采集的网页; 编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理; 网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库根据敏感词库抓取编码转换处理后存在有害信息网页的URL ; URL过滤器,过滤不需要下载的URL ; URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL —致,若一致则不再对该URL进行后续的处理; URL调度模块,在去重后的URL队列基础上,根据该主题相关度调整URL队列,控制多线程网页采集模块下载相应的网页。3.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述有害信息监测系统包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元; 有害信息搜索单元包括本地搜索端口和网络搜索端口,本地搜索端口用于启动本地爬虫结点的搜索引擎,在本地执行该有害信息搜索任务;网络搜索端口用于启动多个爬虫结点的搜索引擎,通过多个爬虫结点同时执行该有害信息搜索任务,还通过该网络搜索端口将搜索结果返回到该本地爬虫结点; 有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合,通过多种筛选器及其组合完成精确搜索; 关键字处理单元用于生成关键字搜索指令,有害信息搜索单元根据该关键字搜索指令执行有害信息搜索任务; 模糊匹配单元用于根据输入的搜索字符串匹配相近似的近似词汇,使有害信息搜索单元对搜索字符串进行搜索的同时,还完成近似词汇的搜索,并返回近似词汇搜索结果; 自动分词单元用于将输入的搜索字符串进行自动提取关键字,使有害信息搜索单元根据该自动提取关键字完成精确搜索。4.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述爬虫结点还包括网页去重模块,用于判断网页内容是否与已下载过的网页内容一致,若一致则不再对该网页进行后续的处理,并从网页库中将其删除。5.根据权利要求4所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述网页去重模块包括指纹计算模块、指纹库和指纹去重模块,指纹计算模块根据网页指纹算法,将网页的内容经过计算生成指纹,指纹去重模块将该生成指纹与指纹库中的指纹进行对比,若存在相同或相近似的指纹,则判断该网页内容已下载过,指纹库用于存储指纹数据,且每个爬虫结点的指纹库进行同步更新。6.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述爬虫样本训练单元还包括网页指纹样本训练模块,网页指纹样本训练模块将网页按一定规则分成多个小段,通过指纹计算模块计算每段的指纹,组成一指纹信息块,当两个网页的指纹信息块中,相同指纹数量达到一定阈值时,网页指纹样本训练模块判断该两个网页为近似网页。7.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述有害监测样本训练单元还包括搜索偏好训练模块,搜索偏好训练模块用于判别输入字符串所属的类型,并进行计数统计和偏好设置,筛选出符合偏好设置的搜索结果。8.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述有害监测样本训练单元还包括人工控制端口,人工控制端口与关键字近似词汇训练模块连接,接收用户的人工控制信号,通过人工控制来判断近似词汇的相似度。9.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述爬虫结点还包括间隔抓取模块,间隔抓取模块通过网页评分和网站权重自动生成间隔规则,并控制网页内容自动提取模块对网页进行相应的间隔抓取; 所述爬虫结点还包括抓取规则设置模块,抓取规则设置模块根据所设置的抓取规则,控制网页内容自动提取模块对网页进行相应的抓取动作; 所述爬虫结点还包括反爬虫抓取模块,当网页设置有反爬虫程序时,启动反爬虫抓取模块,对目标网页进行强制采集; 所述爬虫结点还包括采集监控模块,采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理,并接收爬虫根节点的控制。10.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述有害信息监测系统还包括自动摘要生成单元,自动摘要生成单元根据输入的搜索字符串及其近似词汇对目标网页动态的生成网页摘要; 所述自动摘要生成单元还通过关键字处理单元对网页进行关键字分析,自动提取关键字段生成网页摘要。
【专利摘要】本发明公开了一种基于IDC有害信息监测系统的样本训练系统,爬虫样本训练单元中,主题相关度计算模块将爬虫系统抓取的网页信息结合爬虫样本数据库计算网页的主题相关度,并根据该主题相关度调整URL队列,过滤掉低于预设阈值的URL,并把计算得到的主题相关度值反馈给爬虫样本训练模块,爬虫样本训练模块进行训练学习后,更新爬虫样本数据库;有害监测样本训练单元中,关键字近似词汇训练模块,有害信息监测系统根据近似匹配算法所生成的与输入字符串相关的近似词汇进行有害检测,关键字近似词汇训练模块根据搜索结果拟合度计算模块来确定搜索结果的准确性,判断近似词汇的相似度,并将有效的近似词汇更新到有害监测样本数据库中。
【IPC分类】G06F17/30, G06K9/66
【公开号】CN104899324
【申请号】CN201510343176
【发明人】彭光辉, 屈立笳, 陶磊, 苏礼刚, 林伟
【申请人】成都国腾实业集团有限公司
【公开日】2015年9月9日
【申请日】2015年6月19日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1