一种网站信息分析系统及其方法

文档序号:6337731阅读:132来源:国知局
专利名称:一种网站信息分析系统及其方法
技术领域
本发明涉及一种对网站的信息分析系统,特别是涉及一种网站信息分析系统及其 方法。
背景技术
现有技术的针对网站的信息分析过程,主要采用人工通过浏览器访问网站(如果 需要权限的网站还需要用户名和密码登陆),然后采用截屏方式对网站页面进行截屏信息 分析;如果网页页面比较长的话,需要采用特殊的截屏工具才能截取整个页面;同时还存 在着网站结构复杂等问题,采用人工方式工作量大又没有办法准确得完成整个网站的信息 分析工作。因此,现有技术在解决网站信息分析时存在如下问题一是,对于页面较长的数 据需要特殊的截屏工具才能完成截屏,致使操作复杂;二是,对于结构复杂的网站,不但人 工工作量大,并且容易出现页面遗漏现象;三是,在网站内容信息分析过程中,如果已经信 息分析过的页面内容发生变化没有办法及时发现,导致信息分析内容跟页面内容出现不一 致现象;四是,网站信息分析的结果需要人工录入形成报表,工作量大。

发明内容
本发明的目的在于克服现有技术之不足,提供一种网站信息分析系统及其方法, 是利用网络爬虫技术和内存自动成像技术来实现对网站的自动信息分析过程,该信息分析 系统不但能够实现自动信息分析,而且能够消除人工信息分析所存在的页面遗漏现象,具 有信息分析准确、快速、无遗漏,以及操作容易的特点。本发明解决其技术问题所采用的技术方案是一种网站自动信息分析的信息分析 系统,包括一权限验证器,其用来对目标网站进行权限检测,向目标网站发送登陆指令以提 取网站的页面信息,判定目标网站是否需要用户名和密码登陆访问,对于需要用户名和密 码登陆访问的目标网站,利用网络爬虫技术分析模块模拟网站的登陆流程自动登陆目标网 站;一链接提取器,其用来获取目标网站的所有链接数据信息,利用链接提取算法模 块,从目标网站的页面中提取所有链接数据信息;—链接分析器,其用来对所有链接数据信息进行分析,并按照预先设定的分类方 式对所有链接数据信息进行分类分析;一链接页面成像器,其用来对已经分类好的链接数据信息进行内存成像分析,以 将链接页面自动加载在内存中并对页面直接进行成像保存分析,保存于指定存储器中;一增量信息分析器,其用来重新遍历目标网站的所有链接并成像存储未出现于指 定存储器的链接队列;一报表生成器,根据成像的链接数据信息生成预置格式的报表;权限验证器的输出接至链接提取器的输入,权限验证器将目标网站的页面信息输给链接提取器,由链接提取器进行网站页面链接数据信息的提取;链接提取器的输出接至 链接分析器的输入,链接提取器将提取的链接数据信息输给链接分析器,由链接分析器进 行归类整理;链接分析器的输出接至链接页面成像器的输入,链接分析器将归类整理的链 接数据信息输给链接页面成像器,由链接页面成像器进行链接页面成像分析;链接页面成 像器的输出接至增量信息分析器的输入,由增量信息分析器重新遍历目标网站的所有链接 并成像存储未出现于指定存储器的链接队列;增量信息分析器的输出接至报表生成器,由 报表生成器生成报表。一种网站信息分析方法,包括如下步骤对目标网站进行权限检测的步骤;该步骤用来判定目标网站是否需要用户名和密 码登陆访问,对于需要用户名和密码登陆访问的目标网站,采用网络爬虫技术模拟网站的 登陆流程自动登陆目标网站;获取目标网站的所有链接的步骤;该步骤是采用链接提取算法来提取目标网站中 的所有链接数据信息;分析所述链接数据信息并对其进行分类的步骤;该步骤是根据预置的方式对链接 数据信息进行分类分析;对分类好的所述链接数据信息进行内存成像分析并保存于指定存储器的步骤;重新遍历目标网站的所有链接并成像存储未出现在指定存储器的链接队列的步 骤;根据成像的链接数据信息生成报表的步骤。所述对分类好的所述链接数据信息进行内存成像分析并保存于指定存储器的步 骤,其进一步包括A.提取内存中分类好的链接队列中的链接信息;B.创建一个应用程序窗口,该窗口具有一定的初始大小,同时该窗口处于隐藏状 态;C.绑定一个浏览器内核到该窗口上;D.通过浏览器内核访问并加载链接页面内容;E.浏览器内核加载的链接页面通过绑定的窗口展现在窗口中;F.当链接页面加载完成或达到预定时间,则对隐藏窗口页面内容进行成像存储;G.获取链接页面内容在窗口中的长度和高度,调用图形GDI接口对该范围内的窗 口输出进行成像保存;H.重复步骤A至G,直至链接队列容器中的链接为空。所述重新遍历目标网站的所有链接并成像存储未出现在指定存储器的链接队列 的步骤,其进一步包括a.将已遍历的链接信息以及内存成像器成像过的链接信息保存在内存哈西容器 中;b.对整个网站重新进行遍历,将提取到的链接信息发送到内存哈西容器中进行快 速查找,若发现该链接已经存在则直接忽略,否则对链接进行分类进入链接列队;c.内存成像器对链接队列中的链接进行成像保存,同时将链接的信息存入内存哈 西容器中。
本发明的有益效果是,由于本发明采用了权限验证器、链接提取器、链接分析器、 链接页面成像器、增量信息分析器和报表生成器来构成网站信息分析系统,利用权限验证 器对目标网站进行权限检测,利用链接提取器来获取目标网站的所有链接数据信息,利用 链接分析器对所有链接数据信息进行分析分析,利用链接页面成像器来对已经分类好的链 接数据信息进行内存成像分析,利用增量信息分析器来重新遍历目标网站的所有链接并成 像存储未出现于指定存储器的链接队列,利用报表生成器来生成预置格式的报表。采用本 发明的系统及其方法,不但能够实现自动信息分析,而且能够消除人工信息分析所存在的 页面遗漏现象,具有信息分析准确、快速、无遗漏,以及操作容易的特点。这种利用网络爬虫 技术和内存自动成像技术来实现对网站的自动信息分析过程,可代替传统的人工手动对网 站信息分析的大工作量的过程,极大提高工作效率。以下结合附图及实施例对本发明作进一步详细说明;但本发明的一种网站信息分 析系统及其方法不局限于实施例。


图1是本发明的系统的框图。
具体实施例方式实施例,参见附图所示,本发明的一种网站信息分析系统,包括一权限验证器1,其用来对目标网站进行权限检测,向目标网站发送登陆指令以提 取网站的页面信息,判定目标网站是否需要用户名和密码登陆访问,对于需要用户名和密 码登陆访问的目标网站,利用网络爬虫技术分析模块模拟网站的登陆流程自动登陆目标网 站;—链接提取器2,其用来获取目标网站的所有链接数据信息,利用链接提取算法模 块,从目标网站的页面中提取所有链接数据信息;一链接分析器3,其用来对所有链接数据信息进行分析分析,并按照预先设定的分 类方式对所有链接数据信息进行分类分析;一链接页面成像器4,其用来对已经分类好的链接数据信息进行内存成像分析,以 将链接页面自动加载在内存中并对页面直接进行成像保存分析,保存于指定存储器中;一增量信息分析器5,其用来重新遍历目标网站的所有链接并成像存储未出现于 指定存储器的链接队列;一报表生成器6,根据成像的链接数据信息生成预置格式的报表;权限验证器1的输出接至链接提取器2的输入,权限验证器1将目标网站的页面 信息输给链接提取器2,由链接提取器2进行网站页面链接数据信息的提取;链接提取器2 的输出接至链接分析器3的输入,链接提取器2将提取的链接数据信息输给链接分析器3, 由链接分析器3进行归类整理;链接分析器3的输出接至链接页面成像器4的输入,链接分 析器3将归类整理的链接数据信息输给链接页面成像器4,由链接页面成像器4进行链接页 面成像分析;链接页面成像器4的输出接至增量信息分析器5的输入,由增量信息分析器5 重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列;增量信息分析 器5的输出接至报表生成器6,由报表生成器6生成报表。
本发明的一种网站信息分析方法,包括如下步骤1、对目标网站进行权限检测的步骤;本步骤用来判定目标网站是否需要用户名和密码登陆访问,对于需要用户名和密 码登陆访问的目标网站,采用网络爬虫技术模拟网站的登陆流程自动登陆目标网站;本步 骤通过“网络爬虫”对用户设定的网站地址进行权限检测,权限检测的目的是为了确定网站 是否需要用户名和密码登陆访问;权限检测的方法主要通过访问网站返回的状态值和提示 信息进行判断,也可以提过人工预先设置状态值的办法;如果网站需求用户名和密码才能 访问,网络爬虫需要模拟网站的登陆流程实现自动登陆;网络爬虫可以通过录制网络包的 方法,将整个登陆过程发送的数据包录制下来,后续访问失效的时候通过回放登陆包的流 程进行自动登陆。2、获取目标网站的所有链接的步骤;本步骤是采用链接提取算法来提取目标网站中的所有链接数据信息;本步骤是根据任务网站的地址,通过链接提取算法,从任务网站的页面中提取所 有链接;本步骤中,链接提取算法可以采用正则表达式或者字符特征匹配的方法。一个网 页页面中可能出现链接的地方主要有以下几处1)、〈BASE href = URL>,表示基URL,在HTML中,路径信息经常通过URL来指定, 相对URL根据基URL来决定;2)、<A href = URL>,这是最常用的链接格式,用于链接到另一个TOB页面或链接 到同一页面的其他地方;3)、〈LINK href = URL>,用于链接WEB页面使用到的CSS样式表地址或者 javascript 1^0 !:;4)、〈FRAME src = URL>,在框架页面中用于链接框架所指向的页面地址;5) IFRAME src = URL>,IFRAME是框架的一种形式,它与 FRAME不同的是,IFRAME 可以嵌在网页中的任意部分。如果采用字符特征匹配算法,就是去找字符串“href”和“src”后面的链接;如果采用正则表示式,我们构造正则表达式<·* (src|href)\s* = \s*[\〃 |,] ( ? <uri>["' >\s]+)。通过这个正 则表达式我们就可以获得网页中所有链接。3、分析所述链接数据信息并对其进行分类的步骤;该步骤是根据预置的方式对链 接数据信息进行分类分析;本步骤对于提取到的链接需要进行分析归类,归类的目的是为了让信息分析的结 果更符合用户的需求。根据不同的网站的类型,有不同的归类策略。论坛网站需要归类出列表页、列表翻页、帖子主页、帖子翻页;对于用户来说截屏的重点在于帖子主页,因为主要的内容都在帖子主页;因此链 接归类对网站截屏信息分析是一个非常重要的步骤。比如像比较常见的开源免费的Discuz论坛,其各个类型的链接举例如下列表页http://xxx. com/forum-29-1. html ;列表翻页:http://xxx. com/forum-29-2. html ;
7
http://xxx. com/forum-29-3. html ; http://xxx. com/forum-29-4. html ; 也就是最后一位数字的递加来表示翻页; 中占子页http://xxx. com/thread-1878415-1-1. html ; 中占子翻页:http://xxx. com/thread-1878415-2-1. html ;
http://xxx. com/thread-1878415-3-1. html ; http://xxx. com/thread-1878415-4-1. html ;也就是通过倒数第二个数字的递加来表示翻页;对于这些不同类型的链接分析归类,我们采用前缀规则技术和特征字符相结合的 方式进行归类。前缀规则技术即采用一定的前缀字符规则来进行模式匹配,上述例子中的帖子页 和帖子翻页的前缀规则都是forum-,帖子页和帖子翻页的前缀规则都是thread-。前缀规 则我们可以采用预先训练好的模板可进行快速提取,也可通过人工事先设置好的规则。根 据前缀规则我们就可以对链接进行准确的分析归类。链接的特征字符提取是对前缀规则归类过的链接进行进一步归类,即将同一主题 或同一版块内容的列表页及其翻页归为一类、同一帖子及其帖子翻页归为一类。这样归类 的目的有三个(1)为了网络爬虫继续搜索爬取页面的向导指引;(2)为后续步骤中内存成 像做准备,即对某种类型的链接页面才进行内存成像;C3)为了过滤链接,减少爬虫搜索的 链接数目。链接的特征字符提取采用字符分割算法,主要步骤如下一是,去除域名部分(前提是每个链接都包含域名部分,通过爬虫程序可进 行构造)从字符首字母向后找第一个’ /’字符,将’ /’字符及其前面的所有字符截 断,如链接http://xxx. com/thread-1878415-1-1. html,去除域名部分后的字符为 thread-1878415-1-1. html ;二是,去除翻页分割部分字符利用预先设置好的翻页分割字符对前一步骤得出 的字符进行反向查找匹配,若出现翻页分隔符,将翻页分隔符及其后面的字符截断,直至字 符只剩下前缀规则跟相应数字组成的部分;该步骤中去除翻页分割部分字符后的字符为 thread-1878415 ;三是,剔除无效字符利用预先设置好的无效字符分割符对前一步骤得出的字符 进行反向查找,若出现无效字符分隔符,将无效字符分隔符及其后面的字符截断,直至字符 中不再出现无效字符分隔符。根据上述三个步骤我们可对前缀规则归类好的链接进行特征提取,之后爬虫所分 析提取到的链接都将按照这些特征进行归类。内存中得到归类结果的链接队列容器如下
8
权利要求
1.一种网站信息分析系统,其特征在于包括一权限验证器,其用来对目标网站进行权限检测,向目标网站发送登陆指令以提取网 站的页面信息,判定目标网站是否需要用户名和密码登陆访问,对于需要用户名和密码登 陆访问的目标网站,利用网络爬虫技术分析模块模拟网站的登陆流程自动登陆目标网站;一链接提取器,其用来获取目标网站的所有链接数据信息,利用链接提取算法模块,从 目标网站的页面中提取所有链接数据信息;一链接分析器,其用来对所有链接数据信息进行分析,并按照预先设定的分类方式对 所有链接数据信息进行分类分析;一链接页面成像器,其用来对已经分类好的链接数据信息进行内存成像分析,以将链 接页面自动加载在内存中并对页面直接进行成像保存分析,保存于指定存储器中;一增量信息分析器,其用来重新遍历目标网站的所有链接并成像存储未出现于指定存 储器的链接队列;一报表生成器,根据成像的链接数据信息生成预置格式的报表; 权限验证器的输出接至链接提取器的输入,权限验证器将目标网站的页面信息输给链 接提取器,由链接提取器进行网站页面链接数据信息的提取;链接提取器的输出接至链接 分析器的输入,链接提取器将提取的链接数据信息输给链接分析器,由链接分析器进行归 类整理;链接分析器的输出接至链接页面成像器的输入,链接分析器将归类整理的链接数 据信息输给链接页面成像器,由链接页面成像器进行链接页面成像分析;链接页面成像器 的输出接至增量信息分析器的输入,由增量信息分析器重新遍历目标网站的所有链接并成 像存储未出现于指定存储器的链接队列;增量信息分析器的输出接至报表生成器,由报表 生成器生成报表。
2.—种网站信息分析方法,其特征在于包括如下步骤对目标网站进行权限检测的步骤;该步骤用来判定目标网站是否需要用户名和密码登 陆访问,对于需要用户名和密码登陆访问的目标网站,采用网络爬虫技术模拟网站的登陆 流程自动登陆目标网站;获取目标网站的所有链接的步骤;该步骤是采用链接提取算法来提取目标网站中的所 有链接数据信息;分析所述链接数据信息并对其进行分类的步骤;该步骤是根据预置的方式对链接数据 信息进行分类分析;对分类好的所述链接数据信息进行内存成像分析并保存于指定存储器的步骤; 重新遍历目标网站的所有链接并成像存储未出现在指定存储器的链接队列的步骤; 根据成像的链接数据信息生成报表的步骤。
3.根据权利要求2所述的网站信息分析方法,其特征在于所述对分类好的所述链接 数据信息进行内存成像分析并保存于指定存储器的步骤,其进一步包括A.提取内存中分类好的链接队列中的链接信息;B.创建一个应用程序窗口,该窗口具有一定的初始大小,同时该窗口处于隐藏状态;C.绑定一个浏览器内核到该窗口上;D.通过浏览器内核访问并加载链接页面内容;E.浏览器内核加载的链接页面通过绑定的窗口展现在窗口中;F.当链接页面加载完成或达到预定时间,则对隐藏窗口页面内容进行成像存储;G.获取链接页面内容在窗口中的长度和高度,调用图形GDI接口对该范围内的窗口输 出进行成像保存;H.重复步骤A至G,直至链接队列容器中的链接为空。
4.根据权利要求2所述的网站信息分析方法,其特征在于所述重新遍历目标网站的 所有链接并成像存储未出现在指定存储器的链接队列的步骤,其进一步包括a.将已遍历的链接信息以及内存成像器成像过的链接信息保存在内存哈西容器中;b.对整个网站重新进行遍历,将提取到的链接信息发送到内存哈西容器中进行快速查 找,若发现该链接已经存在则直接忽略,否则对链接进行分类进入链接列队;c.内存成像器对链接队列中的链接进行成像保存,同时将链接的信息存入内存哈西容 器中。
全文摘要
本发明公开了一种网站信息分析系统及其方法,该系统包括权限验证器、链接提取器、链接分析器、链接页面成像器、增量信息分析器和报表生成器,其方法是利用权限验证器对目标网站进行权限检测,利用链接提取器来获取目标网站的所有链接数据信息,利用链接分析器对所有链接数据信息进行分析,利用链接页面成像器来对已经分类好的链接数据信息进行内存成像分析,利用增量信息分析器来重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列,利用报表生成器来生成预置格式的报表。采用本发明的系统及其方法,不但能够实现自动信息分析,而且能够消除人工信息分析所存在的页面遗漏现象,具有信息分析准确、快速、无遗漏,以及操作容易的特点。
文档编号G06F17/30GK102073678SQ201010574349
公开日2011年5月25日 申请日期2010年12月3日 优先权日2010年12月3日
发明者吴世雄, 张永光, 陈奋 申请人:厦门市美亚柏科信息股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1