基于Web信息抽取的软件更新信息的监控方法和装置的制作方法

文档序号:7860834阅读:120来源:国知局
专利名称:基于Web信息抽取的软件更新信息的监控方法和装置的制作方法
技术领域
本发明涉及网络技术,特别是涉及一种基于Web信息抽取的软件更新信息的监控方法和装置。
背景技术
随着计算机技术在社会生活中各个领域的广泛运用,恶意程序(Malwar,malicious software,指任何故意创建用来执行未经授权并通常是有害行为的软件程序)也如同其附属品一样接踵而来。由于这些恶意程序所具有的感染性、复制性及破坏性,其已成为困扰计算机使用的一个重大问题,因此,在网络威胁飙升的今天,更新病毒特征码成为企业及网民每天必备的工作,从每周一次到每天一次,直至时刻更新,而传统杀毒软件是将病毒库放在客户端计算机,在客户端进行文件的分析工作,在扫描过程中会反复在本地病毒库中进行比对,占用大量系统资源,并且随着病毒库的不断升级,病毒库的容量越来越大,分析文件时所耗费的时间也越来越长,让客户端计算机越用越慢,因此,反病毒行业必须寻找新的技术突破。“云安全(Cloud Security)"计划即是网络时代信息安全的最新体现,它融合了并行处理、网格计算、未知病毒行为判断等新兴技术概念,将“云计算”的理念应用到了安全领域。“云安全”计划的实现是与其样本数据库的构建息息相关的,因此,如何有效的组织并维护样本数据库,遂成为业界亟待解决的问题。在通过“云安全”对软件升级进行的监控中,为了避免软件升级链接被病毒感染,需要构建各种软件的升级页面的样本数据库,以便进行安全监控,这就要求对数以十万计的互联网网页进行监控,并且从这些网页中抽取出软件更新信息,以便进行升级监控和防病毒保护,而要有效的组织并维护这样的样本数据库,对于业界来说是尚未有效解决的难题。

发明内容
本发明实施例的目的是提供一种基于Web信息抽取的软件更新信息的监控方法和装置,能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。为了实现上述目的,本发明提供了一种基于Web信息抽取的软件更新信息的监控方法,包括下载被监控的目标网页的网页内容;解析所述网页内容,抽取所述网页内容中的有效链接;对所述有效链接进行过滤,获得过滤后的链接;将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。优选地,上述的方法中,在所述下载被监控的目标网页的网页内容的步骤之前,通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页,所述周期性检测包括使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯来实现平行扩展和高并发的处理;使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。优选地,上述的方法中,在所述下载被监控的目标网页的网页内容的步骤中,包括通过直接下载或者通过浏览器渲染下载所述目标网页的网页内容,所述浏览器渲染下载米用IE浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;通过反向链接的方式由代理服务器进行网页下载来隐藏服务器IP。优选地,上述的方法中,在对所述有效链接进行过滤的步骤中,包括根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接。优选地,上述的方法中,将所述过滤后的链接所对应的相关信息与历史数据进行比对的步骤中,包括将所述相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在所述当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在所述当前版本信息则说明存在软件更新,进行后续处理。优选地,上述的方法中,获得所述目标网页对应的软件的更新信息的步骤中,包括在发现软件更新后,进行预定处理;根据所述软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储所述软件包、所述软件生成的文件、以及所述下载链接和父页面链接的对应关系。优选地,上述的方法中,所述预定处理为发送通知邮件或发送通知短信;下载解包,对有更新的软件进行下载;监控外挂网页时,将外挂网页下载后投递沙箱,根据沙箱日志判断安全性;和/或通过接口 gearman来定制后续处理。本发明还提供一种基于Web信息抽取的软件更新信息的监控装置,包括抓取器,适用于下载被监控的目标网页的网页内容;解析器,适用于解析所述网页内容,抽取所述网页内容中的有效链接;过滤器,适用于对所述有效链接进行过滤,获得过滤后的链接;检测及动作处理器,适用于将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。优选地,上述的装置中,包括种子调度器,适用于通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页。
5
优选地,上述的装置中,包括调度队列,适用于使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯来实现平行扩展和高并发的处理;管理平台,适用于使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。优选地,上述的装置中,所述抓取器,适用于 通过直接下载或者通过浏览器渲染下载所述目标网页的网页内容,所述浏览器渲染下载米用IE浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;通过反向链接的方式由代理服务器进行网页下载来隐藏服务器IP。优选地,上述的装置中,所述过滤器,适用于根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接。优选地,上述的装置中,所述检测及动作处理器,适用于将所述相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在所述当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在所述当前版本信息则说明存在软件更新,进行后续处理。优选地,上述的装置中,所述检测及动作处理器,适用于在发现软件更新后,进行预定处理;根据所述软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储所述软件包、所述软件生成的文件、以及所述下载链接和父页面链接的对应关系。优选地,上述的装置中,所述预定处理为发送通知邮件或发送通知短信;下载解包,对有更新的软件进行下载;监控外挂网页时,将外挂网页下载后投递沙箱,根据沙箱日志判断安全性;和/或通过接口 gearman来定制后续处理。本发明实施例至少存在以下技术效果I)本发明实施例是针对网页进行监控,分析网页结构及其中的链接,将分析结果与历史数据比对,判断该网页的软件是否存在更新,发现更新后可定制化处理策略,从而本发明实施例能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。2)本发明实施例使用gearman作为进程间消息队列,实现系统的平行扩展,达到高并发的效果,使用redis作为高速缓存,实现任务的周期性调度,达到精确调度监控任务的效果,解决了大规模数据处理问题(监控的网页有十万级,其他数据有千万级)。3)本发明实施例解决了网页渲染问题,IE内核渲染器、Gecko内核渲染器和Chrome内核渲染器三种内核渲染器均部署在XEN虚机中,对外接口为gearman,便于实现平行扩展,提高并发渲染的能力。4)本发明实施例解决了防抓取(封IP)问题,使用公司提供的代理节点,在服务器IP被禁止访问登录时,采用代理访问网页,确保监控的及时性和不间断性。5)本发明实施例实现了从网页监控到软件更新检测,再到下载解包,最后到样本MD5 (Message Digest Algorithm MD5,消息摘要算法第五版)与其durl (下载链接),purl(父页面链接)的一一对应关系,实现了流水线的精细化运作。


图I为本发明方法实施例的步骤流程图;图2为本发明装置实施例的执行示意图;图3为本发明装置实施例的结构图。
具体实施例方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对具体实施例进行详细描述。图I为本发明方法实施例的步骤流程图,如图I所示,本发明实施例提供了一种基于Web信息抽取的软件更新信息的监控方法,包括步骤101,下载被监控的目标网页的网页内容;其中,通过直接下载或者通过浏览器渲染下载所述目标网页的网页内容,所述浏览器渲染下载米用IE浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;也可以选择通过代理软件进行下载,从而隐藏服务器IP,防止服务器IP被禁止访问登录。例如监控系统内置了一批代理服务器,系统会通过ssh反向链接(就是其它网站链向自己站点的链接)的方式,通过代理服务器下载网页,使被抓取站点无法获知真实的抓取IP。步骤102,解析所述网页内容,抽取所述网页内容中的有效链接;其中,抽取的为有效链接,因为网页监控主要是监控网页中的URL链接,网页中的部分URL链接可能存在无法打开等各种错误,这些链接属于无效链接,不需要监控。步骤103,对所述有效链接进行过滤,获得过滤后的链接;其中,根据目标网页的域名进行过滤,防止将病毒链接作为软件更新链接。有效链接是以上提到的那些能正常打开的链接;过滤的规则举例如下规则〈1>系统主要监控网页中的软件更新,软件的下载链接一般以exe, msi, rar为后缀,所以一般关注这些链接;规则〈2>有些网站可能会被入侵或者感染病毒,被植入一些病毒的下载链接,不过病毒的下载链接一般都是不是该站点的域名,系统根据域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接,可以防止误将病毒作为软件更新。比如有个站点叫www. 123. com,该站点下的软件下载域名中都带有123. com,系统只会监控带有123. com的下载链接。如果有一天站点被入侵了,在被监控的页面中出现了 456. com/1, exe类似的病毒下载链接,那么系统会根据123. com这个域名进行过滤,即不会理会456. com/1, exe类似的病毒链接。步骤104,将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。其中,将过滤后的链接所对应的相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在当前版本信息则说明存在软件更新,进行后续处理。
获得目标网页对应的软件的更新信息的步骤中,包括在发现软件更新后,根据预定策略进行预定处理;根据软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储软件包、软件生成的文件、以及下载链接和父页面链接的对应关系。其中,该预定策略主要指前置处理过程中的配置,预定处理基本分为四类1.通知客户端,例如通过邮件通知,通过短信通知等;2.下载解包,对有更新的软件进行下载,并投递至解包流程,查看该软件生成的文件列表;3.投递沙箱,监控外挂网页时,将外挂程序,例如一些第三方的软件下载后直接投递沙箱,根据沙箱日志判断其安全性;其中,可以将至少一个第三方程序放入沙箱运行,这样该程序所创建、修改、删除的所有文件和注册表都会被虚拟化重定向,也就是说所有操作都是虚拟的,真实的文件和注册表不会被改动,这样可以确保病毒无法对系统关键部位进行改动破坏系统,且可以根据沙箱日志判断其安全性。4.特殊定制,有些监控页面需要后续进行特殊处理(例如有些软件更新需要对操作系统打补丁,有些软件更新需要同时升级与其兼容的软件环境),特殊处理的接口gearman,由后续负责特殊处理的进程完成监控任务。可见,本发明实施例是针对网页进行监控,分析网页结构及网页中的链接,将分析结果与历史数据比对,判断该网页的软件是否存在更新,发现更新后可定制化处理策略(例如有些软件更新需要对操作系统打补丁,那么处理策略是先对操作系统打补丁再升级软件)。因此,本发明实施例能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。在所述步骤101之前,还可以包括通过任务调度器对需要监控的网页进行周期性检测,获得所述目标网页。在所述周期性检测中,包括使用gearman作为进程间消息队列,通过gearman分发任务来实现平行扩展和高并发的处理效果;例如工作进程将数据以XML格式投递至gearman队列作为一个消息,后续工作进程从gearman队列中取到消息,并解析XML中配置项,按照前置处理过程中的配置实施相应动作。Gearman就相当于一个进程间通讯的工具,该工具基于网络环境,实现不同数据中心和/或不同的服务器之间的进程通讯。使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的精确调度。例如每个网页有自己的调度周期,有的是5分钟,有的是10分钟,视具体情况而定;系统将需要监控网页按照调度时间排序形成调度队列,每隔15秒对队列进行检测,调度时间大于当前时间的网页视为需要进行监控的网页,调度器会立即产生一个监控任务通过gearman传递给后续进程处理。这些以时间为调度单位的网页都以有序集合的方式存放在redis中,通过调用redis接口实现精确调度网页监控任务。其中,Gearman是一个分发任务的程序框架,能用来把工作委派给其他机器、分布式的调用更适合做某项工作的机器、并发的做某项工作在多个调用间做负载均衡,或用来在调用其它语言的函数的系统。Redis是一个分布式的Key-Value类型的内存数据库,整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库数据转移到硬盘上进行保存。因为是纯内存操作,Redis的性能非常出色,每秒可以处理超过10万次读写操作,是已知性能最快的Key-Value 数据库。
本实施例也可以采用其他的分发任务的程序框架,以及其他类型的分布式的内存数据库,具体的不以此为限。由上可知,本发明方法实施例还具有以下有益效果I)本发明实施例解决了大规模数据处理问题(监控的网页有十万级,其他数据有千万级),本发明实施例所采用的解决方案为〈1>使用gearman作为进程间消息队列,实现系统的平行扩展,达到高并发的效果;〈2>使用redis作为高速缓存,实现任务的周期性调度,达到精确调度监控任务的效果。2)本发明实施例解决了网页渲染问题,随着ajax (AsynchronousJavaScript andXML,异步JavaScript和XML)技术的普遍使用,很多网页通过直接下载无法获取全部信息,本发明实施例所采用的解决方案为〈1>IE内核渲染器,HOOK住IE浏览器渲染网页的过程,获取渲染结果输出,<2>Gecko内核渲染器,实现基于Gecko内核的浏览器插件,渲染网页,并输出渲染结果,<3>Chrome内核渲染器,修改Chrome源码,将渲染出的DOM树直接输出到stdin;以上三种方案均可以完整获取网页信息,三种内核渲染器均部署在XEN虚机中,对外接口为gearman,便于实现平行扩展,提高并发渲染的能力。3)本发明实施例解决了防抓取(封IP)问题,部分网站对频繁访问的IP进行封锁,严重影响系统对网页的监控,本发明实施例所采用的解决方案为〈1>使用公司提供的代理节点,在服务器IP被禁止访问登录时,采用代理访问网页,确保监控的及时性和不间断性。4)本发明实施例实现了从网页监控到软件更新检测,再到下载解包,最后到样本MD5与其durl (下载链接),purl (父页面链接)的一一对应关系,这一套流水线的精细化运作。图3为本发明装置实施例的结构图,本发明还提供了一种基于Web信息抽取的软件更新信息的监控装置的实施例,包括抓取器301,适用于下载被监控的目标网页的网页内容;解析器302,适用于解析所述网页内容,抽取所述网页内容中的有效链接;过滤器303,适用于对所述有效链接进行过滤,获得过滤后的链接;检测及动作处理器304,适用于将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。还可以包括种子调度器,适用于通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页。可见,本发明监控装置的实施例是针对网页进行监控,分析网页结构及其中的链接,将分析结果与历史数据比对,判断该网页的软件是否存在更新,发现更新后可定制化处理策略。因此,本发明实施例能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。图2为本发明装置实施例的执行示意图,如图2所示,装置实施例中个模块的关系如下重要软件平台的输入为人工添加的种子(没有父页面,关键字,域名的限制)和其他来源,并储存到DB (数据库)中;种子调度器的输入为DB中的新添加的种子(包括调度时间间隔,检测更新方式,解析方式,是否抓取,是否解析以及检测更新和失败的处理方式);
0099]种子调度器的输出为包含种子信息的xml ;
0100]url抓取器的输入为种子调度器的输出;url抓取器的输出包含抓取到的html、js、xml、txt、ini的信息,并以xml的格式输出;
0101]html解析器的输入为url抓取器的输出;通过输入中定义的解析方式对页面进行抽取link,输出为含有抽取到links的xml
0102]url检测器的输入为html解析器的输出;通过输入中定义的检测方式进行检查。输入为含有检测结果的xml
0103]动作处理器,对检测结果进行处理,例如,更新储存到DB中并提醒或者推送给下载解包;失败记日志并提醒。
2所示,装置实施例主要执行过程包括7个步骤,各个步骤的执行主体如下I执行主体=> 流程图中的种子调度器;
2的执行主体=> 流程图中的url抓取器,url抓取器包括直接下载与三种内
0104]如图
0105]步骤
0106]步骤核的渲染下载
0107]步骤
0108]步骤
0109]步骤
0110]步骤
3的执行主体=> 流程图中的html解释器;
4的执行主体=> 流程图中的url过滤器;
5的执行主体=> 流程图中的url检测器;
6,步骤7的执行主体=> 流程图中的动作处理器;
0111]装置实施例的执行过程举例如下
0112]步骤1,任务调度器负责对需要监控的网页进行周期检测,对符合条件的网页投递至监控系统;
0113]其中,每个网页有自己的调度周期,有的是5分钟,有的是10分钟,视具体情况而定;系统将需要监控网页按照调度时间排序形成调度队列,每隔15秒对队列进行检测,调度时间大于当前时间的网页视为符合条件。
0114]步骤2,下载网页内容,可以直接下载网页,也可以通过浏览器渲染下载(系统配备了三种内核的渲染模块IE内核,Gecko内核,Chrome内核),还可以通过代理软件下载(防止服务器IP被禁止访问登录);
0115]步骤3,解析网页内容,抽取其中的有效链接;
0116]网页监控主要是监控网页中的URL链接,网页中的部分URL链接可能存在无法打开等各种错误,这些链接属于无效链接,不需要监控。
0117]步骤4,分析抽取出有效链接,并根据规则对链接过滤;
0118]有效链接是以上提到的那些能正常打开的链接;过滤的具体规则为规则〈1>系统主要监控网页中的软件更新,软件的下载链接一般以exe、msi、rar为后缀,所以一般关注这些链接;规则〈2>有些网站可能会被入侵或者感染病毒,被植入一些病毒的下载链接,不过病毒的下载链接一般都是不是该站点的域名,系统根据域名进行过滤,可以防止误将病毒作为软件更新。步骤5,将链接的相关信息与历史数据比对,判断软件是否存在更新;系统检测到的每一款软件的每一次更新都会存储至数据库,存储的内容包括软件的下载链接,父页面链接,软件大小,软件更新时间,软件包,软件的监控策略等;系统将前置处理过程中监控到的一个软件版本与数据库中的历史版本比对,判断库中是否存在该软件版本的信息,如果存在则丢弃,如果不存在则视为新软件,继续后续流程。步骤6,检测到新软件后,根据事先定制的策略,系统做出相应处理,如发邮件等;步骤7,根据下载链接,下载软件包,并进行解包,得到软件生成的文件,最后,存储软件包及其生成文件、下载链接、父页面链接的对应关系。由上可知,本发明实施例具有以下优势<1>高并发,有千万级甚至更大规模数据的处理能力;<2>网页渲染,IE,GECKO (火狐内核),Chrome三种渲染器,涵盖了主流浏览器市场,基本可以渲染所有的网页,渲染模块对外接口使用gearman,并发度非常高;〈3>规避网站的防抓取功能,本发明实施例有丰富的可靠的代理节点,可以隐藏服务器IP,防止服务器IP被禁止访问登录;〈4>精细化运作。具体包括通过gearman,实现多机抓取,多机解析,多机检测;实现种子调度器,抓取器,解析器,检测器,后处理模块之间的解耦合;各流程的数据会一直保留下来,以便回查和统计;运营人员可以自定义种子或者软件的检测时间间隔和种子检测的方式;可以方便的衔接到新的下载和解包模块。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
权利要求
1.一种基于Web信息抽取的软件更新信息的监控方法,包括下载被监控的目标网页的网页内容;解析所述网页内容,抽取所述网页内容中的有效链接;对所述有效链接进行过滤,获得过滤后的链接;将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。
2.根据权利要求I所述的监控方法,其特征在于,在所述下载被监控的目标网页的网页内容的步骤之前,通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页;所述周期性检测包括使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯;使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。
3.根据权利要求I所述的监控方法,其特征在于,在所述下载被监控的目标网页的网页内容的步骤中,包括通过直接下载或者通过浏览器渲染下载所述目标网页的网页内容,所述浏览器渲染下载米用I E浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;通过反向链接的方式由代理服务器进行网页下载来隐藏服务器I P。
4.根据权利要求I所述的监控方法,其特征在于,在对所述有效链接进行过滤的步骤中,包括根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接。
5.根据权利要求I所述的监控方法,其特征在于,将所述过滤后的链接所对应的相关信息与历史数据进行比对的步骤中,包括将所述相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在所述当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在所述当前版本信息则说明存在软件更新,进行后续处理。
6.根据权利要求5所述的监控方法,其特征在于,获得所述目标网页对应的软件的更新信息的步骤中,包括在发现软件更新后,进行预定处理;根据所述软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储所述软件包、所述软件生成的文件、以及所述下载链接和父页面链接的对应关系。
7.根据权利要求6所述的监控方法,其特征在于,所述预定处理为发送通知邮件或发送通知短信;下载解包,对有更新的软件进行下载;监控外挂网页时,将外挂网页下载后投递沙箱,根据沙箱日志判断安全性;和/或通过接口 gearman来定制后续处理。
8.一种基于Web信息抽取的软件更新信息的监控装置,包括抓取器,适用于下载被监控的目标网页的网页内容;解析器,适用于解析所述网页内容,抽取所述网页内容中的有效链接;过滤器,适用于对所述有效链接进行过滤,获得过滤后的链接;检测及动作处理器,适用于将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。
9.根据权利要求8所述的监控装置,其特征在于,包括种子调度器,适用于通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页。
10.根据权利要求9所述的监控装置,其特征在于,包括调度队列,适用于使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯来实现平行扩展和高并发的处理;管理平台,适用于使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。
11.根据权利要求8所述的监控装置,其特征在于,所述抓取器,适用于通过直接下载或者通过浏览器渲染下载所述目标网页的网页内容,所述浏览器渲染下载米用I E浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;通过反向链接的方式由代理服务器进行网页下载来隐藏服务器IP。
12.根据权利要求8所述的监控装置,其特征在于,所述过滤器,适用于根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接。
13.根据权利要求8所述的监控装置,其特征在于,所述检测及动作处理器,适用于将所述相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在所述当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在所述当前版本信息则说明存在软件更新,进行后续处理。
14.根据权利要求13所述的监控装置,其特征在于,所述检测及动作处理器,适用于在发现软件更新后,进行预定处理;根据所述软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储所述软件包、所述软件生成的文件、以及所述下载链接和父页面链接的对应关系。
15.根据权利要求14所述的监控装置,其特征在于,所述预定处理为发送通知邮件或发送通知短信;下载解包,对有更新的软件进行下载;监控外挂网页时,将外挂网页下载后投递沙箱,根据沙箱日志判断安全性;和/或通过接口 gearman来定制后续处理。
全文摘要
本发明公开了一种基于Web信息抽取的软件更新信息的监控方法和装置,监控方法包括下载被监控的目标网页的网页内容;解析所述网页内容,抽取所述网页内容中的有效链接;对所述有效链接进行过滤,获得过滤后的链接;将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。本发明能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。
文档编号H04L29/06GK102929920SQ20121035092
公开日2013年2月13日 申请日期2012年9月19日 优先权日2012年9月19日
发明者徐锐波, 路轶 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1