一种网页信息的抽取方法及装置的制造方法

文档序号:8258746阅读:323来源:国知局
一种网页信息的抽取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息技术领域,尤其涉及一种网页信息的抽取方法及装置。
【背景技术】
[0002] 随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日 常生活。文本信息抽取技术是一种精确、高效的信息获取方法。它是从一个或多个网页中 抽取指定的实体、关系及事件等用户需要的信息,并形成结构化的数据,呈现给用户。这种 方法具有内容精确、冗余度小、组织规范等优点。
[0003] 在现有技术中,有多种技术方法可用于多记录网页的抽取。如传统的方法中可采 用编写规则来进行抽取。该方法能够准确快速地从特定的数据源中抽取出记录信息。随着 网络信息量的日益增长,以及网页内容的不断更新,面对海量千变万化的数据,仅通过单一 的人工配置模板来抽取网页的相关信息,必然会降低抽取的准确率。即使仅用于同一领域 站点网页信息的抽取,由于其网页数目较多,布局风格多样且多变,现有的技术方法仍不能 有效地提高抽取信息的准确率。

【发明内容】

[0004] 有鉴于此,本发明实施例提出一种网页信息的抽取方法及装置,以提高抽取网页 信息的准确率。
[0005] 第一方面,本发明实施例提供了一种网页信息的抽取方法,所述方法包括:
[0006] 获取欲抽取信息网页的统一资源定位器URL ;
[0007] 根据欲抽取信息网页的URL选择预先设定的模板;
[0008] 使用所选择的预先设定的模板抽取网页信息。
[0009] 第二方面,本发明实施例提供了一种网页信息的抽取装置,所述装置包括:
[0010] URL获取单元,用于获取欲抽取信息网页的统一资源定位器URL ;
[0011] 模板选择单元,用于根据欲抽取信息网页的URL选择预先设定的模板;
[0012] 网页信息抽取单元,用于使用所选择的预先设定的模板抽取网页信息。
[0013] 本发明实施例提供的网页信息的抽取方法和装置,通过获取欲抽取信息网页的统 一资源定位器URL ;根据欲抽取信息网页的URL选择预先设定的模板;使用所选择的预先设 定的模板抽取网页信息。从而提高了抽取网页信息的准确率。
【附图说明】
[0014] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它 特征、目的和优点将会变得更明显:
[0015] 图1是本发明第一实施例提供的网页信息的抽取方法的流程图;
[0016] 图2是本发明第一实施例提供的网页信息的抽取方法的示意图;
[0017] 图3是本发明第二实施例提供的网页信息的抽取方法的流程图;
[0018] 图4是本发明第二实施例提供的网页信息的抽取方法的示意图;
[0019] 图5是本发明第三实施例提供的网页信息的抽取方法的流程图;
[0020] 图6是本发明第四实施例提供的网页信息的抽取方法的流程图;
[0021] 图7是本发明第五实施例提供的网页信息的抽取方法的流程图;
[0022] 图8是本发明第六实施例提供的网页信息的抽取结构的结构图。
【具体实施方式】
[0023] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于 描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0024] 图1及图2示出了本发明的第一实施例。
[0025] 图1是本发明第一实施例提供的网页信息的抽取方法的流程图;图2为所述网页 信息的抽取方法的示意图,所述网页信息的抽取方法包括:
[0026] 步骤S101,获取欲抽取信息网页的统一资源定位器(URL)。
[0027] 统一资源定位器(Uniform Resoure Locator,URL)是对可以从互联网上所获取到 资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个 文件都有唯一的URL,它包含的信息能够指出文件的位置以及浏览器对该文件的处理方法。
[0028] 另外,URL也可以用来作为万维网的地址。对于在互联网上能够被访问的网页,都 存在具有统一资源定位器URL。因此,对于欲抽取信息的网页,应该首先获取该网页的URL。 例如欲抽取网易首页的信息,则需要先获取网易首页的URL(即http://www. 163. com/)。
[0029] 步骤S102,根据欲抽取信息的网页的URL选择预先设定的模板。
[0030] 不同的网站会预先设置不同的模板,这是因为不同的网站所展示的信息具有很大 的不同,例如新浪网与淘宝网。新浪网作为综合性门户网站,其展示的信息以新闻为主;而 淘宝则以商品展示为主。对于上述两个网站,所采用的抽取信息模板必然存在较大差异。如 采用同一抽取模板,由于抽取模板所抽取信息的正则表达式只对具有相应设定的字符串起 作用,必然会降低准确率。因此,可以通过获取对欲抽取信息网页的URL来选择相应的预先 设定的模板,从而提高提取网页信息的准确率。
[0031] 步骤S103,使用选择的预先设定的模板抽取网页信息。
[0032] 根据步骤S102所选择的预设的模板,对网页信息进行抽取,所述的模板可以是一 组正则表达式。正则表达式是对字符串操作的一种逻辑公式,就是指用事先定义好的一些 特定字符及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"可以用来表 达对字符串的一种过滤逻辑。
[0033] 给定一个正则表达式和另一个字符串,可以达到如下的目的:判定字符串是否符 合正则表达式的过滤逻辑(称作"匹配;也可以通过正则表达式,从字符串中获取我们想 要的特定部分。
[0034] 通过设定的正则表达式,可以从网页内容中识别和抽取网页中的相关内容,去除 无关内容,并将抽取到的信息存入指定的数据库中,从而方便进行查询和查看。
[0035] 本发明实施例通过获取欲抽取信息网页的统一资源定位器(URL),并根据欲抽取 信息网页的URL选择预先设定的模板,及使用选择的预先设定的模板抽取网页信息,从而 提高抽取信息的准确率。
[0036] 实施例二
[0037] 图3及图4示出了本发明的第二实施例。
[0038] 图3是本发明第二实施例提供的网页信息的抽取方法的流程图,图4为本发明第 二实施例提供的网页信息的抽取方法所述网页信息的抽取方法的示意图。所述的网页信息 的抽取方法以第一实施例为基础,进一步的,将获取欲抽取信息的网页的统一资源定位器 (URL)具体优化为:获取欲抽取信息网页的URL及欲抽取信息网页所包括的URL ;将根据欲 抽取信息网页的URL选择预先设定的模板具体优化为:根据欲抽取信息网页的URL及欲抽 取信息网页所包括的URL选择预先设定的模板。
[0039] 参见图3及图4,所述的网页信息的抽取方法包括:
[0040] 步骤S201,获取欲抽取信息网页的URL及欲抽取信息网页所包括的URL。
[0041] 欲抽取信息的网页内部可能包括多个链接。例如,欲抽取信息的网页为某门户网 站的入口网页。如网易首页,在其首页上包括若干子单元的链接,例如论坛、新闻、财经等。 可以通过网络爬虫获取相应的链接及链接所指向的网页内容。网络爬虫是一个自动提取网 页的程序,可从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过 程中,不断从当前页面上抽取新的URL放入队列。
[0042] 步骤S202,根据欲抽取信息网页的URL及欲抽取信息网页所包括的URL选择预先 设定的模板。
[0043] 欲抽取信息的网页内部可能包括多个链接。例如某门户网站首页,在其首页上包 括若干子单元的链接,如论坛、新闻、财经等。各个子单元由于内容差异极大,需要根据各个 子单元的URL选取对应的预先设定的模板,模板可以由一组正则表达式组成。
[0044] 步骤S203,使用所选择的预先设定的模板抽取网页信息。
[0045] 本发明实施例通过将获取欲抽取信息网页的统一资源定位器(URL)具体优化为: 获取欲抽取信息网页的URL及欲抽取信息网页所包括的URL;将根据欲抽取信息网页的URL 选择预先设定的模板具体优化为:根据欲抽取信息网页的URL及欲抽取信息网页所包括的 URL,选择预先设定的模板。可以使用网络爬虫获取网页所包括的URL及URL所指向的网页 内容,并根据包括的URL选择合适的模板对网页信息进行抽取。这样就可以在保证准确率 的情况下,自动快速的完成多个网页信息的抽取。
[0046] 实施例三
[0047] 图5示出了本发明的第三实施例。
[0048] 图5是本发明第三实施例提供的网页信息的抽取方法的流程图,所述的网页信 息的抽取方法以第一实施例为基础,进一步的,在获取欲抽取信息网页的统一资源定位器 (URL)之后,增加如下步骤:对页面进行分块,将所述的根据欲抽取信息网页的URL选择预 先设定的模板具体优化为:根据欲抽取信息的网页的URL及分块信息选择预先设定的模 板;将所述的使用选择的预先设定的模板抽取网页信息具体包括:使用根据欲抽取信息网 页的URL及分块信息所选择的预先设定模板对网页信息进行抽取。
[0049] 参见图5,所述的网页信息的抽取方法包括:
[0050] 步骤S301,获取欲抽取信息网页的统一资源定位器(URL)。
[0051] 步骤S302,对页面进行分块。
[0052] 抽取信息的页面通过布局,对页面的文字、图形或表格进行格式设置,使得页面上 包括多个块,例如信息块、图像块、广告块等。可以根据每一块的具体内容来对网页分块,也 可以对内容简单的网页设定区域范围来分块。
[0053] 步骤S303,根据欲抽取信息的网页及分块信息选择预先设定的模板。
[0054] 对于已经分块的页面,可以根据其网页的URL和该块在页面的位置从模板数据库 中选择合适的预先设定的模板。
[0055] 步骤S304,使用根据欲抽取信息网页的URL及分块信息所选择的预先设定模板对 网页信息进行抽取。
[0056] 根据步骤S303所选择的模板对网页的分块内的信息
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1