一种网页分类方法

文档序号:6576814阅读:326来源:国知局
专利名称:一种网页分类方法
技术领域
本发明涉及网络技术领域,尤其涉及一种对网页进行分类的方法。
站旦灶i 冃豕汉不
随着网络信息的不断膨胀,人们越来越离不开搜索引擎。百度、谷歌等 通用搜索引擎虽然给人们提供了很多便利,但也存在着一定的局限性,如 通用搜索引擎所返回的结果包含大量用户不关心的网页,且搜索深度不够。
于是,垂直搜索应运而生,它是服务于某个行业领域的精确搜索技术, 是搜索引擎的细分和延伸,更加专业,返回的结果更具有针对性,通过特定 行业主题的领域知识,可以提供根据语义信息的査询,从而能满足用户的特 殊搜索需求。但目前的垂直搜索大多是针对某一特定行业、某一特定领域的 搜索,无法对众多行业和领域都进行垂直搜索,无法达到通用搜索的广度。
另外,目前网页的网址都未考虑到语意,在没有上网浏览网页之前,很 难知道该网址是什么类型的网站。比如www.yahoo.com,由于网页地址 (Uniform Resource Locator, URL)是没有语意的,如果没有上网浏览网 页,并不能了解该URL字符串代表着一个综合资讯门户网站。目前还没有 方法对未知URL进行分类,绝大部分人所使用的方法是,人工浏览网页, 然后根据经验进行分类,这种方法费时费力,且无法覆盖较广的范围。

发明内容
本发明的目的是提供一种网页分类的方法,将垂直搜索和通用搜索的 优点结合起来,既拥有通用搜索的搜索广度,又拥有垂直搜索的搜索深度, 并且能方便地获得分类网站上一个未知URL所属的网页分类信息。
本发明的技术方案是 一种网页分类方法,根据数据流向从下往上依次 包括数据采集层、网页解析层和应用表示层,其中,数据采集层利用聚焦爬 虫技术对预设在导航网站网址表中的所有网页的源代码进行采集,网页解析
层包括以下步骤
(1) 判断网页是否满足正则表达式定时学习器模式学习得到的网页结
构特征;
(2) 对符合结构特征的网页进行结构化信息抽取;
(3) 从结构化信息中提取符合要求的所有下层链接;(4) 判断下层链接是否满足搜索策略;
(5) 将满足搜索策略的下层链接的信息加入网址类别表。 本发明更为详细的技术方案是所述结构化信息用正则表达式表示。 所述下层链接的信息包括此链接的网页类别信息以及各个类别中对应
的网址信息。
所述结构化信息抽取采用聚焦爬虫技术。
所述搜索策略和从结构化信息中提取链接采用广度优先搜索策略。 所述应用表示层可以根据所述网址类别表得到未知URL的网页分类信 息,步骤如下
(1) 用户输入未知URL;
(2) 搜索URL网址类别表;
(3) 判断该未知URL是否在网址类别表中;
(4) 对包含在该类别表中的未知URL输出其分类信息。 本发明的优点是-
1. 基于垂直搜索的搜索机制,因此可用于专业领域的特定人群对特定 信息的搜索,对各种领域的网页分类覆盖范围具有较好的深度;
2. 由于网页读取基于众多导航类网站,具有丰富的各行业网址信息, 因此可用于不同专业领域的人群对各自领域的精确搜索,具有通用搜索的广 度,且具有较高的搜索效率;
3. 拥有内容丰富、信息全面的网址类别表,能针对分类网站上的未知 的URL给出其网页分类信息;
4. 可用于对网络用户的搜索进行后期的数据统计,进行兴趣热点分析。 根据此方法开发的系统,通过验证得到该方法抓取的URL在中文站点
ALEXATOPIOO中的覆盖率达到98% ,在全球站点ALEXA TOP500中的覆 盖率达到87%,地方特色网站的URL覆盖率达到56%。


下面结合附图及实施例对本发明作进一步描述-
图i为本发明的优选实施例的整体流程图2为本发明的优选实施例的网页内容解析的工作流程图3为本发明的优选实施例的应用表示层对未知网址分类的流程图。
具体实施方式
实施例
本实施例的一种网页分类的方法,根据数据流向从下往上依次包括数据采 集层、网页解析层和应用表示层,如图1所示,包括以下具体步骤
(1) 读取预设网址导航站点的URL列表,其中存储着众多导航类网址,
如www.haol23.com , www.sohu.com等;
(2) 判断此URL列表是否为空,若空,则说明已搜索完,转步骤8结 束,若不空,则继续步骤3;
(3) 取出一个URL;
(4) 将URL在已访问URL存储表V—URL列表中进行査询,VJJRL 存储着所有已访问过的URL地址,若在V一URL中查询到该URL,则说明 己访问过,则转步骤3,若未査询到,说明未访问过,则继续步骤5;
(5) 利用聚焦爬虫技术对网页进行读取,获取网页源代码;
(6) 网页内容解析;
(7) 将完成解析的URL从URL列表中删除,并将此URL加入到己访 问URL列表V—URL中,并转步骤2;
(8) 结束。
其中,步骤5网页读取利用聚焦爬虫技术对预设在导航网站网址表中的 所有网页的源代码进行采集,聚焦爬虫是一个自动下载网页的程序,是垂直 搜索引擎的重要组成部分,它根据既定的抓取目标,有选择地访问网页和与 其相关的链接,获取所需要的信息。网页读取步骤得到网页源码字符串数据, 为网页解析提供输入数据。
步骤6网页内容解析,根据下层即数据采集层采集来的网页源代码进行 HTML (超文本置标语言,HyperText Markup Language)解析,如图2所 示,包括以下步骤
(6.1) 判断网页是否满足正则表达式定时学习器模式学习得到的网页 结构特征,若不满足,转步骤6.9,若满足,则继续步骤6.2;
(6.2) 对满足网页结构特征的网页进行网页结构化信息抽取,此结构 化信息即网址分类信息的内容块;
(6.3) 从结构化信息中提取符合要求的所有下层链接;(6.4) 将所有下层链接加入URL队列;
(6.5) 判断URL队列是否为空,若为空,转歩骤6.9,若不为空,继 续步骤6.6;
(6.6) 从URL队列中提取一个下层链接;
(6.7) 判断是否满足搜索策略,若不满足,转歩骤6.5,若满足继续步 骤6.8;
(6.8) 将满足搜索策略的URL的网页类别信息以及各个类别中对应的 网址信息加入网址类别表Category中;
(6.9) 网页内容解析过程结束。
页面链接中直接给出的URL —般是多种格式的,可能是完整的,包括 协议、站点和路径的,也可能是省略了部分内容的,或者是一个相对路径, 因此需要抽取网页的结构化信息。
导航类网站基本上有两种页面组成一主目录页面和各个分类的子目录 页面,主目录页面包含大量的指向各个分类子页面的链接,而各个分类的子 目录页面则包含属于该分类的网站的链接。同一个导航网站上各个分类的子 目录页面也有着很强的相似性,也就是说这些页面中都有相似的结构,可以 通过模式学习用一个或若干个正则表达式来概括页面的结构化信息,只要找 到代表这些页面结构化信息的正则表达式就可以很好的指导聚焦爬虫尽量 抓取与分类相关的网页。
现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数 据模式和基于领域概念3种。基于目标网页特征的爬虫所抓取、存储并索引 的对象一般为网站或网页。网页特征可以是网页的内容特征,也可以是网页 的链接结构特征等。在步骤6.2中,本实施例根据网页的内容特征来抽取网 页的结构化信息。
以www.haol23.com为例,我们想要査找"休闲娱乐"类别的所有URL, 可以编写正则表达式href\\s*=\\s*( :\"( <l>A\"]*)\"|( <l>\\S+)),用来匹配 字符串中的形如href="......"的链接,就可以得到"休闲娱乐"类别的所有
URL。为了适应导航网站不定期的更新,更好的抽取目录页面的网页结构化 信息,我们增加了 URL正则表达式的定时学习器,可以适应导航站点的不 断变化。正则表达式的定时学习器为现有技术,不再赘述。现有网页的搜索策略可以分为深度优先、广度优先和最佳优先三种,在 歩骤6.7中,本实施例采用能覆盖尽可能多的网页的广度优先搜索策略。广 度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一 层次的搜索。该算法的设计和实现相对简单,这种方法可以有效地减少采集 页面的数量,同时也节约了网络带宽,提高信息搜索的效率。用广度优先策 略从结构化信息中抓取网页URL,得到网站分类和URL的对应关系表 Category,以满足上 一层面应用表示层对网页分类的搜索。网页内容解析层 与应用表示层的接口是一张网站分类和URL对应关系的网址类别表。
在应用表示层,提供用户的输入和搜索结果的反馈。用户可以输入关键 字,对特定行业主题进行精确搜索,根据网址类别表中的信息,得到该领域 的网址信息,返回有针对行的精确搜索结果。也可以根据所述网址类别表得 到未知URL的网页所属的网页分类信息,步骤如图3所示
(1) 用户在应用界面上输入未知URL;
(2) 搜索URL网址类别表;
(3) 判断该未知URL是否在网址类别表中,若不存在,则在应用界面 显示"未搜索到"告知用户,若存在,应用界面显示未知URL的网址分类 信息;
(4) 结束。
权利要求
1.一种网页分类方法,根据数据流向从下往上依次包括数据采集层、网页解析层和应用表示层,其特征在于所述数据采集层利用聚焦爬虫技术对预设在导航网站网址表中的所有网页的源代码进行采集,所述网页解析层包括以下步骤(1.1)判断网页是否满足正则表达式定时学习器模式学习得到的网页结构特征;(1.2)对符合结构特征的网页进行结构化信息抽取;(1.3)从结构化信息中提取符合要求的所有下层链接;(1.4)判断下层链接是否满足搜索策略;(1.5)将满足搜索策略的下层链接的信息加入网址类别表。
2. 根据权利要求1所述的网页分类方法,其特征在于所述结构化信 息用正则表达式表示。
3. 根据权利要求1所述的网页分类方法,其特征在于所述下层链接 的信息包括此链接的网页类别信息以及各个类别中对应的网址信息。
4. 根据权利要求1或2所述的网页分类方法,其特征在于所属结构化信息抽取采用聚焦爬虫技术。
5. 根据权利要求1或2所述的网页分类方法,其特征在于所述搜索策略和从结构化信息中提取链接采用广度优先搜索策略。
6. 根据权利要求1所述的网页分类方法,其特征在于所述应用表示层可以根据所述网址类别表得到未知URL的网页分类信息,步骤如下-(6.1) 用户输入未知URL;(6.2) 搜索URL网址类别表;(6.3) 判断该未知URL是否在网址类别表中;(6.4) 对包含在该类别表中的未知URL输出其分类信息。
全文摘要
本发明公开了一种网页分类的方法,根据数据流向从下往上依次包括数据采集层、网页解析层和应用表示层,所述数据采集层利用聚焦爬虫技术对预设在导航网站网址表中的所有网页的源代码进行采集,所述网页解析层对满足网页特定结构特征的网页进行结构化信息抽取并提取符合要求的下层链接,并对将满足搜索策略的下层链接的信息加入网址类别表,应用表示层可以根据所述网址类别表得到未知URL的网页分类信息。本发明既拥有通用搜索的搜索广度,又拥有垂直搜索的搜索深度,并且能方便地获得分类网站上一个未知URL所属的网页分类信息。
文档编号G06F17/30GK101630330SQ20091011598
公开日2010年1月20日 申请日期2009年8月14日 优先权日2009年8月14日
发明者婷 宫, 张顺颐, 攀 王 申请人:苏州锐创通信有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1