受限Web数据库的数据抽取方法及装置的制造方法

文档序号:8381108阅读:440来源:国知局
受限Web数据库的数据抽取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,具体而言,涉及一种受限Web数据库的数据抽取方 法及装置。
【背景技术】
[0002] 无论是出于技术原因还是应用需求,若Web数据库的查询返回结果被限制在一定 范围内,即使用属性组对Web数据库进行查询,仅仅k个对象能够被程序自动获得,那么具 有这样特点的Web数据库为受限Web数据库。Web网页分为浅网和深网,浅网是由超链接连 接起来的静态网页,据统计,深网资源的规模是静态页面资源的500倍左右,同时拥有更好 的数据质量,而深网中最重要的资源就是Web数据库。如何抽取受限Web数据库中的数据, 且抽取出质量较高的数据一直是被广泛研宄的课题。

【发明内容】

[0003] 有鉴于此,本发明的目的在于提供一种受限Web数据库的数据抽取方法及装置, 能够实现从受限Web数据库中提取出质量较高的数据。
[0004] 本发明是这样实现的:
[0005] 第一方面,本发明实施例提供了一种受限Web数据库的数据抽取方法,应用于受 限Web数据库的数据抽取装置,所述抽取装置包括本地数据库,所述方法包括:
[0006] 所述抽取装置获得Web数据库查询接口中的一个属性值;
[0007] 所述抽取装置根据所述属性值生成查询请求,将所述查询请求发送给所述受限 Web数据库;
[0008] 所述抽取装置解析查询反馈的网页页面,抽取出所述网页页面所包括的查询数 据;
[0009] 所述抽取装置根据所述查询数据更新本地数据库中的数据;
[0010] 所述抽取装置通过基于最大子概念受限Web数据库抽取(Extract data from Limited Web Database based on Formal Concept Analysis,EdaliwdbFCA)算法对所述 本地数据库进行分析,产生下一组查询属性值,以便再次对所述受限Web数据库进行查询; [0011] 当所述查询数据的条数等于查询后反馈的网页页面每页显示的数据条数的预设 阈值时,所述抽取装置结束数据的抽取。
[0012] 结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中所 述抽取装置解析查询反馈的网页页面之前,所述方法还包括:
[0013] 判断预设时间内是否接收到反馈查询的网页页面;
[0014] 若在预设时间内未反馈查询的网页页面,所述抽取装置再次将所述查询请求发送 给所述受限Web数据库。
[0015] 该抽取方法面对的是一个复杂多变的互联网,任何突发事件均可能引起抽取过程 中查询失败的现象。因此,每一次查询都需要被管理和维护,失败的查询能够被发现,并且 可以重新进行查询,这样能使得该抽取方法具有更好的鲁棒性,能够保证抽取工作的顺利 进行。
[0016] 结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中所 述抽取装置根据所述查询数据更新本地数据库中的数据,包括:
[0017] 所述抽取装置比较抽取出的查询数据和所述本地数据库中的数据;
[0018] 所述抽取装置将不同于所述本地数据库中的数据的查询数据添加到所述本地数 据库中。
[0019] 抽取数据是将受限web数据库中的数据按照一定的规则抽取到本地数据库中,让 受限web数据库中的数据能够被利用。若本地数据库中已经存在抽取出的数据,则不需要 再添加进本地数据库中。
[0020] 结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中所 述抽取装置根据所述属性值生成查询请求,包括:
[0021] 所述抽取装置将单值属性转化为所述Web数据库查询接口能识别的多值属性。
[0022] 第二方面,本发明实施例还提供了一种受限Web数据库的数据抽取装置,所述抽 取装置包括本地数据库,所述抽取装置还包括:
[0023] 查询属性值获得单元,用于获得Web数据库查询接口中的一个属性值;
[0024] 查询单元,用于根据所述属性值生成查询请求,将所述查询请求发送给所述受限 Web数据库;
[0025] 解析单元,用于解析查询反馈的网页页面,抽取出所述网页页面所包括的查询数 据;
[0026] 数据更新单元,用于根据所述查询数据更新本地数据库中的数据;
[0027] 查询属性值生成单元,用于通过基于最大子概念受限Web数据库抽取 EdaliwdbFCA算法对所述本地数据库进行分析,产生下一组查询属性值,以便再次对所述受 限Web数据库进行查询;
[0028] 查询结束单元,用于当所述查询数据的条数等于查询后反馈的网页页面每页显示 的数据条数的预设阈值时,结束数据的抽取。
[0029] 结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中所 述解析单元包括:
[0030] 网页接收判断子单元,用于判断预设时间内是否接收到反馈查询的网页页面;
[0031] 若在预设时间内未反馈查询的网页页面,所述查询单元再次将所述查询请求发送 给所述受限Web数据库。
[0032] 该抽取装置应用在复杂多变的互联网中,任何突发事件均能引起抽取过程中查询 失败的现象。因此,每一次查询都需要被管理和维护,失败的查询能够被发现,并且可以重 新进行查询,这样能使得该抽取装置具有更好的鲁棒性,能够保证抽取工作的顺利进行。
[0033] 结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中所 述数据更新单元包括:
[0034] 比较子单元,用于比较所述解析单元抽取出的查询数据和所述本地数据库中的数 据;
[0035] 数据添加子单元,用于将不同于所述本地数据库中的数据的抽取出的查询数据添 加到所述本地数据库中。
[0036] 抽取数据是将受限web数据库中的数据按照一定的规则抽取到本地数据库中,让 受限web数据库中的数据能够被利用。若本地数据库中已经存在抽取出的数据,则不需要 再添加进本地数据库中。
[0037] 结合第二方面,本发明实施例提供了第二方面的第三种可能的实施方式,其中所 述查询单元包括:
[0038] 属性转化子单元,用于将单值属性转化为所述Web数据库查询接口能识别的多值 属性。
[0039] 本发明实施例提供一种受限Web数据库的数据抽取方法及装置,通过结合形式概 念分析方法对基于属性值查询接口的受限Web数据库的数据抽取,实现在受限Web数据库 中抽取出质量较高的数据,并且具有稳定性好、效率快的特点。
[0040] 为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合 所附附图,作详细说明如下。
【附图说明】
[0041] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。
[0042] 图1示出了本发明实施例提供的一种受限Web数据库的数据抽取方法;
[0043] 图2示出了本发明实施例提供的另一种受限Web数据库的数据抽取方法;
[0044] 图3示出了本发明实施例提供的一种受限Web数据库的数据抽取装置;
[0045] 图4示出了本发明实施例提供的另一种受限Web数据库的数据抽取装置。
[0046] 图中标记:本地数据库301,查询属性值获得单元302,查询单元303,受限Web数 据库304,解析单元305,数据更新单元306,查询属性值生成单元307,查询结束单元308,网 页接收判断子单元309,比较子单元310,数据添加子单元311,属性转化子单元312。
【具体实施方式】
[0047] 下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在 此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因 此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的 范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做 出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0048] Web数据的获取主要通过对网页信息抽取获得。Web网页分为浅网和深网。浅网 是由超链接连接起来的静态网页,其内容可以被当前的通用搜索引擎(谷歌、百度等)直接 索引和检索。深网是指那些根据用户请求由Web服务器动态产生的Web页面。其中可访问 的在线数据库(这里简称为Web数据库或WDB),例如中国知网、万方数据、卓越亚马逊等等, 它们是重要的深网组成部分。Web数据库的内容存储在真正的后台数据库中,且大部分不能 被当前的通用搜索引擎所索引。深网Web页面内
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1