一种网页分类方法

文档序号：6576814阅读：326来源：国知局

专利名称：一种网页分类方法
技术领域：
本发明涉及网络技术领域，尤其涉及一种对网页进行分类的方法。
站旦灶i 冃豕汉不
随着网络信息的不断膨胀，人们越来越离不开搜索引擎。百度、谷歌等通用搜索引擎虽然给人们提供了很多便利，但也存在着一定的局限性，如通用搜索引擎所返回的结果包含大量用户不关心的网页，且搜索深度不够。
于是，垂直搜索应运而生，它是服务于某个行业领域的精确搜索技术，是搜索引擎的细分和延伸，更加专业，返回的结果更具有针对性，通过特定行业主题的领域知识，可以提供根据语义信息的査询，从而能满足用户的特殊搜索需求。但目前的垂直搜索大多是针对某一特定行业、某一特定领域的搜索，无法对众多行业和领域都进行垂直搜索，无法达到通用搜索的广度。
另外，目前网页的网址都未考虑到语意，在没有上网浏览网页之前，很难知道该网址是什么类型的网站。比如www.yahoo.com，由于网页地址 (Uniform Resource Locator, URL)是没有语意的，如果没有上网浏览网页，并不能了解该URL字符串代表着一个综合资讯门户网站。目前还没有方法对未知URL进行分类，绝大部分人所使用的方法是，人工浏览网页，然后根据经验进行分类，这种方法费时费力，且无法覆盖较广的范围。

发明内容
本发明的目的是提供一种网页分类的方法，将垂直搜索和通用搜索的优点结合起来，既拥有通用搜索的搜索广度，又拥有垂直搜索的搜索深度，并且能方便地获得分类网站上一个未知URL所属的网页分类信息。
本发明的技术方案是一种网页分类方法，根据数据流向从下往上依次包括数据采集层、网页解析层和应用表示层，其中，数据采集层利用聚焦爬虫技术对预设在导航网站网址表中的所有网页的源代码进行采集，网页解析
层包括以下步骤
(1) 判断网页是否满足正则表达式定时学习器模式学习得到的网页结
构特征；
(2) 对符合结构特征的网页进行结构化信息抽取；
(3) 从结构化信息中提取符合要求的所有下层链接；(4) 判断下层链接是否满足搜索策略；
(5) 将满足搜索策略的下层链接的信息加入网址类别表。本发明更为详细的技术方案是所述结构化信息用正则表达式表示。所述下层链接的信息包括此链接的网页类别信息以及各个类别中对应
的网址信息。
所述结构化信息抽取采用聚焦爬虫技术。
所述搜索策略和从结构化信息中提取链接采用广度优先搜索策略。所述应用表示层可以根据所述网址类别表得到未知URL的网页分类信息，步骤如下
(1) 用户输入未知URL;
(2) 搜索URL网址类别表；
(3) 判断该未知URL是否在网址类别表中；
(4) 对包含在该类别表中的未知URL输出其分类信息。本发明的优点是-
1. 基于垂直搜索的搜索机制，因此可用于专业领域的特定人群对特定信息的搜索，对各种领域的网页分类覆盖范围具有较好的深度；
2. 由于网页读取基于众多导航类网站，具有丰富的各行业网址信息，因此可用于不同专业领域的人群对各自领域的精确搜索，具有通用搜索的广度，且具有较高的搜索效率；
3. 拥有内容丰富、信息全面的网址类别表，能针对分类网站上的未知的URL给出其网页分类信息；
4. 可用于对网络用户的搜索进行后期的数据统计，进行兴趣热点分析。根据此方法开发的系统，通过验证得到该方法抓取的URL在中文站点
ALEXATOPIOO中的覆盖率达到98% ，在全球站点ALEXA TOP500中的覆盖率达到87%，地方特色网站的URL覆盖率达到56%。

下面结合附图及实施例对本发明作进一步描述-
图i为本发明的优选实施例的整体流程图2为本发明的优选实施例的网页内容解析的工作流程图3为本发明的优选实施例的应用表示层对未知网址分类的流程图。
具体实施方式
实施例
本实施例的一种网页分类的方法，根据数据流向从下往上依次包括数据采集层、网页解析层和应用表示层，如图1所示，包括以下具体步骤
(1) 读取预设网址导航站点的URL列表，其中存储着众多导航类网址，
如www.haol23.com ， www.sohu.com等；
(2) 判断此URL列表是否为空，若空，则说明已搜索完，转步骤8结束，若不空，则继续步骤3;
(3) 取出一个URL;
(4) 将URL在已访问URL存储表V—URL列表中进行査询，VJJRL 存储着所有已访问过的URL地址，若在V一URL中查询到该URL，则说明己访问过，则转步骤3，若未査询到，说明未访问过，则继续步骤5;
(5) 利用聚焦爬虫技术对网页进行读取，获取网页源代码；
(6) 网页内容解析；
(7) 将完成解析的URL从URL列表中删除，并将此URL加入到己访问URL列表V—URL中，并转步骤2;
(8) 结束。
其中，步骤5网页读取利用聚焦爬虫技术对预设在导航网站网址表中的所有网页的源代码进行采集，聚焦爬虫是一个自动下载网页的程序，是垂直搜索引擎的重要组成部分，它根据既定的抓取目标，有选择地访问网页和与其相关的链接，获取所需要的信息。网页读取步骤得到网页源码字符串数据，为网页解析提供输入数据。
步骤6网页内容解析，根据下层即数据采集层采集来的网页源代码进行 HTML (超文本置标语言，HyperText Markup Language)解析，如图2所示，包括以下步骤
(6.1) 判断网页是否满足正则表达式定时学习器模式学习得到的网页结构特征，若不满足，转步骤6.9，若满足，则继续步骤6.2;
(6.2) 对满足网页结构特征的网页进行网页结构化信息抽取，此结构化信息即网址分类信息的内容块；
(6.3) 从结构化信息中提取符合要求的所有下层链接；(6.4) 将所有下层链接加入URL队列；
(6.5) 判断URL队列是否为空，若为空，转歩骤6.9，若不为空，继续步骤6.6;
(6.6) 从URL队列中提取一个下层链接；
(6.7) 判断是否满足搜索策略，若不满足，转歩骤6.5，若满足继续步骤6.8;
(6.8) 将满足搜索策略的URL的网页类别信息以及各个类别中对应的网址信息加入网址类别表Category中；
(6.9) 网页内容解析过程结束。
页面链接中直接给出的URL —般是多种格式的，可能是完整的，包括协议、站点和路径的，也可能是省略了部分内容的，或者是一个相对路径，因此需要抽取网页的结构化信息。
导航类网站基本上有两种页面组成一主目录页面和各个分类的子目录页面，主目录页面包含大量的指向各个分类子页面的链接，而各个分类的子目录页面则包含属于该分类的网站的链接。同一个导航网站上各个分类的子目录页面也有着很强的相似性，也就是说这些页面中都有相似的结构，可以通过模式学习用一个或若干个正则表达式来概括页面的结构化信息，只要找到代表这些页面结构化信息的正则表达式就可以很好的指导聚焦爬虫尽量抓取与分类相关的网页。
现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。网页特征可以是网页的内容特征，也可以是网页的链接结构特征等。在步骤6.2中，本实施例根据网页的内容特征来抽取网页的结构化信息。
以www.haol23.com为例，我们想要査找"休闲娱乐"类别的所有URL，可以编写正则表达式href\\s*=\\s*( :\"( <l>A\"]*)\"|( <l>\\S+))，用来匹配字符串中的形如href="......"的链接，就可以得到"休闲娱乐"类别的所有
URL。为了适应导航网站不定期的更新，更好的抽取目录页面的网页结构化信息，我们增加了 URL正则表达式的定时学习器，可以适应导航站点的不断变化。正则表达式的定时学习器为现有技术，不再赘述。现有网页的搜索策略可以分为深度优先、广度优先和最佳优先三种，在歩骤6.7中，本实施例采用能覆盖尽可能多的网页的广度优先搜索策略。广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单，这种方法可以有效地减少采集页面的数量，同时也节约了网络带宽，提高信息搜索的效率。用广度优先策略从结构化信息中抓取网页URL，得到网站分类和URL的对应关系表 Category,以满足上一层面应用表示层对网页分类的搜索。网页内容解析层与应用表示层的接口是一张网站分类和URL对应关系的网址类别表。
在应用表示层，提供用户的输入和搜索结果的反馈。用户可以输入关键字，对特定行业主题进行精确搜索，根据网址类别表中的信息，得到该领域的网址信息，返回有针对行的精确搜索结果。也可以根据所述网址类别表得到未知URL的网页所属的网页分类信息，步骤如图3所示
(1) 用户在应用界面上输入未知URL;
(2) 搜索URL网址类别表；
(3) 判断该未知URL是否在网址类别表中，若不存在，则在应用界面显示"未搜索到"告知用户，若存在，应用界面显示未知URL的网址分类信息；
(4) 结束。
权利要求
1.一种网页分类方法，根据数据流向从下往上依次包括数据采集层、网页解析层和应用表示层，其特征在于所述数据采集层利用聚焦爬虫技术对预设在导航网站网址表中的所有网页的源代码进行采集，所述网页解析层包括以下步骤(1.1)判断网页是否满足正则表达式定时学习器模式学习得到的网页结构特征；(1.2)对符合结构特征的网页进行结构化信息抽取；(1.3)从结构化信息中提取符合要求的所有下层链接；(1.4)判断下层链接是否满足搜索策略；(1.5)将满足搜索策略的下层链接的信息加入网址类别表。
2. 根据权利要求1所述的网页分类方法，其特征在于所述结构化信息用正则表达式表示。
3. 根据权利要求1所述的网页分类方法，其特征在于所述下层链接的信息包括此链接的网页类别信息以及各个类别中对应的网址信息。
4. 根据权利要求1或2所述的网页分类方法，其特征在于所属结构化信息抽取采用聚焦爬虫技术。
5. 根据权利要求1或2所述的网页分类方法，其特征在于所述搜索策略和从结构化信息中提取链接采用广度优先搜索策略。
6. 根据权利要求1所述的网页分类方法，其特征在于所述应用表示层可以根据所述网址类别表得到未知URL的网页分类信息，步骤如下-(6.1) 用户输入未知URL;(6.2) 搜索URL网址类别表；(6.3) 判断该未知URL是否在网址类别表中；(6.4) 对包含在该类别表中的未知URL输出其分类信息。
全文摘要
本发明公开了一种网页分类的方法，根据数据流向从下往上依次包括数据采集层、网页解析层和应用表示层，所述数据采集层利用聚焦爬虫技术对预设在导航网站网址表中的所有网页的源代码进行采集，所述网页解析层对满足网页特定结构特征的网页进行结构化信息抽取并提取符合要求的下层链接，并对将满足搜索策略的下层链接的信息加入网址类别表，应用表示层可以根据所述网址类别表得到未知URL的网页分类信息。本发明既拥有通用搜索的搜索广度，又拥有垂直搜索的搜索深度，并且能方便地获得分类网站上一个未知URL所属的网页分类信息。
文档编号G06F17/30GK101630330SQ20091011598
公开日2010年1月20日申请日期2009年8月14日优先权日2009年8月14日
发明者婷宫, 张顺颐, 攀王申请人:苏州锐创通信有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王攀;张顺颐;宫婷
技术所有人：苏州锐创通信有限责任公司
我是此专利的发明人

上一篇：一种多叶准直器静态调强叶片序列算法的制作方法
上一篇：基于Hash映射的综合管网三维可视化资源管理方法

该领域下的技术专家

如您需求助技术专家，请点此查看客服电话进行咨询。

1、李老师：1.计算力学 2.无损检测

2、毕老师：机构动力学与控制

3、袁老师：1.计算机视觉 2.无线网络及物联网

4、王老师：1.计算机网络安全 2.计算机仿真技术

5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用

如您是高校老师，可以点此联系我们加入专家库。

相关技术

基于Hash映射的综合管网三...
一种用于城市综合管网三维可视...
网络实时定位的方法
用于综合管网地理信息系统的一...
银行短信理财的方法
一种面向图形对象的配电网单线...
基于二阶盲辨识的脑电信号识别...
将汉字笔划组合排列编码的汉字...
系统间海量数据检索传输方法
一种在单Domino域中支持...

网友询问留言已有0条留言

还没有人留言评论。精彩留言会获得点赞！

1

精彩留言，会给你点赞！