一种网页信息的抽取方法及装置的制造方法

文档序号：8258746阅读：323来源：国知局

一种网页信息的抽取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息技术领域，尤其涉及一种网页信息的抽取方法及装置。
【背景技术】
[0002] 随着互联网的快速发展，网络媒体作为一种新的信息传播形式，已深入人们的日常生活。文本信息抽取技术是一种精确、高效的信息获取方法。它是从一个或多个网页中抽取指定的实体、关系及事件等用户需要的信息，并形成结构化的数据，呈现给用户。这种方法具有内容精确、冗余度小、组织规范等优点。
[0003] 在现有技术中，有多种技术方法可用于多记录网页的抽取。如传统的方法中可采用编写规则来进行抽取。该方法能够准确快速地从特定的数据源中抽取出记录信息。随着网络信息量的日益增长，以及网页内容的不断更新，面对海量千变万化的数据，仅通过单一的人工配置模板来抽取网页的相关信息，必然会降低抽取的准确率。即使仅用于同一领域站点网页信息的抽取，由于其网页数目较多，布局风格多样且多变，现有的技术方法仍不能有效地提高抽取信息的准确率。

【发明内容】

[0004] 有鉴于此，本发明实施例提出一种网页信息的抽取方法及装置，以提高抽取网页信息的准确率。
[0005] 第一方面，本发明实施例提供了一种网页信息的抽取方法，所述方法包括：
[0006] 获取欲抽取信息网页的统一资源定位器URL ;
[0007] 根据欲抽取信息网页的URL选择预先设定的模板；
[0008] 使用所选择的预先设定的模板抽取网页信息。
[0009] 第二方面，本发明实施例提供了一种网页信息的抽取装置，所述装置包括：
[0010] URL获取单元，用于获取欲抽取信息网页的统一资源定位器URL ;
[0011] 模板选择单元，用于根据欲抽取信息网页的URL选择预先设定的模板；
[0012] 网页信息抽取单元，用于使用所选择的预先设定的模板抽取网页信息。
[0013] 本发明实施例提供的网页信息的抽取方法和装置，通过获取欲抽取信息网页的统一资源定位器URL ;根据欲抽取信息网页的URL选择预先设定的模板；使用所选择的预先设定的模板抽取网页信息。从而提高了抽取网页信息的准确率。
【附图说明】
[0014] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
[0015] 图1是本发明第一实施例提供的网页信息的抽取方法的流程图；
[0016] 图2是本发明第一实施例提供的网页信息的抽取方法的示意图；
[0017] 图3是本发明第二实施例提供的网页信息的抽取方法的流程图；
[0018] 图4是本发明第二实施例提供的网页信息的抽取方法的示意图；
[0019] 图5是本发明第三实施例提供的网页信息的抽取方法的流程图；
[0020] 图6是本发明第四实施例提供的网页信息的抽取方法的流程图；
[0021] 图7是本发明第五实施例提供的网页信息的抽取方法的流程图；
[0022] 图8是本发明第六实施例提供的网页信息的抽取结构的结构图。
【具体实施方式】
[0023] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。
[0024] 图1及图2示出了本发明的第一实施例。
[0025] 图1是本发明第一实施例提供的网页信息的抽取方法的流程图；图2为所述网页信息的抽取方法的示意图，所述网页信息的抽取方法包括：
[0026] 步骤S101，获取欲抽取信息网页的统一资源定位器（URL)。
[0027] 统一资源定位器（Uniform Resoure Locator，URL)是对可以从互联网上所获取到资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有唯一的URL，它包含的信息能够指出文件的位置以及浏览器对该文件的处理方法。
[0028] 另外，URL也可以用来作为万维网的地址。对于在互联网上能够被访问的网页，都存在具有统一资源定位器URL。因此，对于欲抽取信息的网页，应该首先获取该网页的URL。例如欲抽取网易首页的信息，则需要先获取网易首页的URL(即http://www. 163. com/)。
[0029] 步骤S102,根据欲抽取信息的网页的URL选择预先设定的模板。
[0030] 不同的网站会预先设置不同的模板，这是因为不同的网站所展示的信息具有很大的不同，例如新浪网与淘宝网。新浪网作为综合性门户网站，其展示的信息以新闻为主；而淘宝则以商品展示为主。对于上述两个网站，所采用的抽取信息模板必然存在较大差异。如采用同一抽取模板，由于抽取模板所抽取信息的正则表达式只对具有相应设定的字符串起作用，必然会降低准确率。因此，可以通过获取对欲抽取信息网页的URL来选择相应的预先设定的模板，从而提高提取网页信息的准确率。
[0031] 步骤S103,使用选择的预先设定的模板抽取网页信息。
[0032] 根据步骤S102所选择的预设的模板，对网页信息进行抽取，所述的模板可以是一组正则表达式。正则表达式是对字符串操作的一种逻辑公式，就是指用事先定义好的一些特定字符及这些特定字符的组合，组成一个"规则字符串"，这个"规则字符串"可以用来表达对字符串的一种过滤逻辑。
[0033] 给定一个正则表达式和另一个字符串，可以达到如下的目的：判定字符串是否符合正则表达式的过滤逻辑（称作"匹配；也可以通过正则表达式，从字符串中获取我们想要的特定部分。
[0034] 通过设定的正则表达式，可以从网页内容中识别和抽取网页中的相关内容，去除无关内容，并将抽取到的信息存入指定的数据库中，从而方便进行查询和查看。
[0035] 本发明实施例通过获取欲抽取信息网页的统一资源定位器（URL)，并根据欲抽取信息网页的URL选择预先设定的模板，及使用选择的预先设定的模板抽取网页信息，从而提高抽取信息的准确率。
[0036] 实施例二
[0037] 图3及图4示出了本发明的第二实施例。
[0038] 图3是本发明第二实施例提供的网页信息的抽取方法的流程图，图4为本发明第二实施例提供的网页信息的抽取方法所述网页信息的抽取方法的示意图。所述的网页信息的抽取方法以第一实施例为基础，进一步的，将获取欲抽取信息的网页的统一资源定位器 (URL)具体优化为：获取欲抽取信息网页的URL及欲抽取信息网页所包括的URL ;将根据欲抽取信息网页的URL选择预先设定的模板具体优化为：根据欲抽取信息网页的URL及欲抽取信息网页所包括的URL选择预先设定的模板。
[0039] 参见图3及图4,所述的网页信息的抽取方法包括：
[0040] 步骤S201，获取欲抽取信息网页的URL及欲抽取信息网页所包括的URL。
[0041] 欲抽取信息的网页内部可能包括多个链接。例如，欲抽取信息的网页为某门户网站的入口网页。如网易首页，在其首页上包括若干子单元的链接，例如论坛、新闻、财经等。可以通过网络爬虫获取相应的链接及链接所指向的网页内容。网络爬虫是一个自动提取网页的程序，可从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列。
[0042] 步骤S202,根据欲抽取信息网页的URL及欲抽取信息网页所包括的URL选择预先设定的模板。
[0043] 欲抽取信息的网页内部可能包括多个链接。例如某门户网站首页，在其首页上包括若干子单元的链接，如论坛、新闻、财经等。各个子单元由于内容差异极大，需要根据各个子单元的URL选取对应的预先设定的模板，模板可以由一组正则表达式组成。
[0044] 步骤S203,使用所选择的预先设定的模板抽取网页信息。
[0045] 本发明实施例通过将获取欲抽取信息网页的统一资源定位器（URL)具体优化为：获取欲抽取信息网页的URL及欲抽取信息网页所包括的URL;将根据欲抽取信息网页的URL 选择预先设定的模板具体优化为：根据欲抽取信息网页的URL及欲抽取信息网页所包括的 URL，选择预先设定的模板。可以使用网络爬虫获取网页所包括的URL及URL所指向的网页内容，并根据包括的URL选择合适的模板对网页信息进行抽取。这样就可以在保证准确率的情况下，自动快速的完成多个网页信息的抽取。
[0046] 实施例三
[0047] 图5示出了本发明的第三实施例。
[0048] 图5是本发明第三实施例提供的网页信息的抽取方法的流程图，所述的网页信息的抽取方法以第一实施例为基础，进一步的，在获取欲抽取信息网页的统一资源定位器 (URL)之后，增加如下步骤：对页面进行分块，将所述的根据欲抽取信息网页的URL选择预先设定的模板具体优化为：根据欲抽取信息的网页的URL及分块信息选择预先设定的模板；将所述的使用选择的预先设定的模板抽取网页信息具体包括：使用根据欲抽取信息网页的URL及分块信息所选择的预先设定模板对网页信息进行抽取。
[0049] 参见图5,所述的网页信息的抽取方法包括：
[0050] 步骤S301，获取欲抽取信息网页的统一资源定位器（URL)。
[0051] 步骤S302,对页面进行分块。
[0052] 抽取信息的页面通过布局，对页面的文字、图形或表格进行格式设置，使得页面上包括多个块，例如信息块、图像块、广告块等。可以根据每一块的具体内容来对网页分块，也可以对内容简单的网页设定区域范围来分块。
[0053] 步骤S303,根据欲抽取信息的网页及分块信息选择预先设定的模板。
[0054] 对于已经分块的页面，可以根据其网页的URL和该块在页面的位置从模板数据库中选择合适的预先设定的模板。
[0055] 步骤S304,使用根据欲抽取信息网页的URL及分块信息所选择的预先设定模板对网页信息进行抽取。
[0056] 根据步骤S303所选择的模板对网页的分块内的信息

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘雄伟;
技术所有人：北京锐安科技有限公司;
我是此专利的发明人

上一篇：推广信息投放有效性确定方法及装置的制造方法
上一篇：信息处理方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。