一种获取结构化数据的方法及装置的制造方法

文档序号:10725108阅读:205来源:国知局
一种获取结构化数据的方法及装置的制造方法
【专利摘要】本发明公开了一种获取结构化数据的方法及装置,其中,该方法包括:获取页面地址列表,所述页面地址列表中包含一条或多条目标页面地址;抓取与所述目标页面地址相对应的目标页面中的目标页面数据;根据预设的信息提取规则提取所述目标页面数据中的结构化数据,所述信息提取规则为一个或多个子提取规则的集合。该方法简化了信息提取的过程,同时可以及时、高通量、精准地提取目标页面数据中的结构化数据。
【专利说明】
一种获取结构化数据的方法及装置
技术领域
[0001] 本发明涉及信息检索技术领域,特别涉及一种获取结构化数据的方法及装置。
【背景技术】
[0002] 目前,搜索引擎已经成为人们获取信息的首要工具,实现网页数据抓取是搜索引 擎的基本功能之一。每个独立的搜索引擎都有自己的网页抓取程序(spider) jpider顺着 网页中的超链接信息,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超 链接信息的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
[0003] -般情况下,利用搜索引擎在网页中搜集到的数据通常都是半结构化数据。半结 构化数据是指:数据中的部分信息可以按照分类保存到对应的表中,这部分信息与该表中 的字段具有对应关系,但数据中还有非结构化数据,即部分信息无法简单地用表中的字段 与其对应。例如网页中的图片、声音、视频等等,这类信息通常无法直接知道内容,数据库也 只能保存在一个BLOB字段中,对以后检索非常麻烦。现有对此部分非结构化数据的一般处 理方法是:建立一个包含三个字段的表(编号number、内容描述varchar( 1024)、内容blob), 通过编号进行引用,通过内容描述进行检索。
[0004] 在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
[0005] 现有技术仅能从网页中抓取出半结构化的WEB数据,而无法根据实际需求从这些 半结构化的WEB数据中准确提取出想要的结构化的有效信息。因此,如何设计一种在保证及 时抓取半结构化的WEB数据的前提下,能够准确提取出半结构化的WEB数据中有效信息的方 法是提高搜索引擎质量的关键。
[0006] 公开于该【背景技术】部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应 当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

【发明内容】

[0007] 本发明的目的在于提供一种获取结构化数据的方法,从而克服现有方案不能准确 获取网页中结构化数据的缺陷。
[0008] 为实现上述目的,本发明实施例提供了一种获取结构化数据的方法,包括:
[0009] 获取页面地址列表,页面地址列表中包含一条或多条目标页面地址;
[0010] 抓取与目标页面地址相对应的目标页面中的目标页面数据;
[0011] 根据预设的信息提取规则提取目标页面数据中的结构化数据,信息提取规则为一 个或多个子提取规则的集合。
[0012] 在一种可能的实现方式中,信息提取规则为XML格式和/或JS0N格式的规则;
[0013] 子提取规则包括:XPath提取规则,并还包括正则过滤规则、正则提取规则、添加前 缀规则、添加后缀规则和目标字符串连接规则中的零项或多项,目标字符串连接规则为以 预设字符串连接多个目标字符串。
[0014]在一种可能的实现方式中,抓取与目标页面地址相对应的目标页面中的目标页面 数据,包括:
[0015] 根据目标网站的权重和目标页面的权重确定目标页面的优先级,目标网站为目标 页面所在的网站;
[0016] 根据目标页面的优先级依次抓取目标页面中的目标页面数据。
[0017] 在一种可能的实现方式中,结构化数据包括子目标页面的子目标页面地址,子目 标页面为目标页面的下级页面;方法还包括:
[0018] 抓取子目标页面中的子目标页面数据;
[0019] 根据预设的信息提取规则提取子目标页面数据中的结构化数据。
[0020] 在一种可能的实现方式中,还包括:
[0021 ]在检测到报警事件时推送报警消息,报警事件包括信息提取规则失效和/或CPU过 载。
[0022] 基于同样的发明构思,本发明实施例还提供一种获取结构化数据的装置,包括:
[0023] 获取模块,用于获取页面地址列表,页面地址列表中包含一条或多条目标页面地 址;
[0024] 第一抓取模块,用于抓取与目标页面地址相对应的目标页面中的目标页面数据;
[0025] 第一提取模块,用于根据预设的信息提取规则提取目标页面数据中的结构化数 据,信息提取规则为一个或多个子提取规则的集合。
[0026]在一种可能的实现方式中,信息提取规则为XML格式和/或JS0N格式的规则;
[0027] 子提取规则包括:XPath提取规则,并还包括正则过滤规则、正则提取规则、添加前 缀规则、添加后缀规则和目标字符串连接规则中的零项或多项,目标字符串连接规则为以 预设字符串连接多个目标字符串。
[0028] 在一种可能的实现方式中,第一抓取模块包括:
[0029] 确定单元,用于根据目标网站的权重和目标页面的权重确定目标页面的优先级, 目标网站为目标页面所在的网站;
[0030] 抓取单元,用于根据目标页面的优先级依次抓取目标页面中的目标页面数据。
[0031 ]在一种可能的实现方式中,结构化数据包括子目标页面的子目标页面地址,子目 标页面为目标页面的下级页面;装置还包括:
[0032]第二抓取模块,用于抓取子目标页面中的子目标页面数据;
[0033] 第二提取模块,用于根据预设的信息提取规则提取子目标页面数据中的结构化数 据。
[0034] 在一种可能的实现方式中,还包括:报警模块,用于在检测到报警事件时推送报警 消息,报警事件包括信息提取规则失效和/或CPU过载。
[0035] 本发明实施例提供的一种获取结构化数据的方法及装置,在抓取到目标页面数据 后,利用集合一个或多个子提取规则的信息提取规则获取目标页面数据中的结构化数据, 将信息提取步骤简化为子提取规则,简化了信息提取的过程,同时可以及时、高通量、精准 地提取目标页面数据中的结构化数据。该信息提取规则为可重复调用的规则,针对多条目 标页面地址时,可以重复利用该信息提取规则提取出相应的结构化数据。根据优先级调度 原则优先抓取优先级高的目标页面,能够优先抓取重要的目标页面,可以提高重要页面抓 取的时效性。通过重复确定目标页面的下级页面,从而重复调用该信息提取规则即可以获 取完整的结构化数据。
[0036] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明 书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0037] 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
【附图说明】
[0038]附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实 施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0039] 图1是本发明实施例中获取结构化数据的方法流程图;
[0040] 图2是本发明实施例中抓取目标页面数据的方法流程图;
[0041 ]图3是实施例一中获取结构化数据的方法流程图;
[0042]图4是本发明实施例中获取结构化数据的装置的第一结构图;
[0043]图5是本发明实施例中第一抓取模块的结构图;
[0044]图6是本发明实施例中获取结构化数据的装置的第二结构图;
[0045]图7是本发明实施例中获取结构化数据的装置的第三结构图;
[0046]图8是本发明实施例中网络设备的结构框图。
【具体实施方式】
[0047] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。附图 中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面, 但是除非特别指出,不必按比例绘制附图。
[0048] 在这里专用的词"示例性"意为"用作例子、实施例或说明性"。这里作为"示例性" 所说明的任何实施例不必解释为优于或好于其它实施例。
[0049] 本发明实施例提供的一种获取结构化数据的方法,参见图1所示,具体包括步骤 101-103:
[0050] 步骤101:获取页面地址列表,页面地址列表中包含一条或多条目标页面地址; [0051] 本发明实施例中,该页面地址列表可以为预设的初始URL(Uniform Resource Locator,统一资源定位器)列表;例如,用户需要获取123网站中的电影视频资源,则可以将 movie. 123.com作为该页面地址列表中的一条目标页面地址。或者,根据关键词检索相应的 页面地址,并将该页面地址添加至页面地址列表中。例如,用户需要获取123网站中的电影 视频资源,则可以通过关键词"123"和"电影"确定页面地址movie. 123. com,进而将其添加 至页面地址列表中,该页面地址movie. 123. com即为一条目标页面地址。
[0052] 步骤102:抓取与目标页面地址相对应的目标页面中的目标页面数据;
[0053] 具体的,根据页面地址列表中的目标页面地址即可以定位相应的目标页面,该目 标页面即为需要被抓取数据的网页,目标页面数据即为该目标页面内存有的数据资源。由 于一般网页中均存在图片、视频等资源,故在步骤102中抓取到的目标页面数据一般为半结 构化数据。
[0054] 同时,为了提高目标页面数据的获取效率和信息的提取效率,在本发明实施例中, 可以采用消息队列的分布式技术来获取目标页面数据和后续提取出的结构化数据。其中, 分布式技术是一种基于网络的计算机处理技术,其优点是可以快速访问、多用户使用,每台 计算机都能够存储和处理数据,所以不要求服务器功能十分强大,这种类型的网络可以适 应各种需要,同时允许他们共享网络的数据、资源和服务。在分布式网络中使用的计算机既 能够作为独立的系统使用,也可以把它们连接在一起得到更强的网络功能。
[0055] 步骤103:根据预设的信息提取规则提取目标页面数据中的结构化数据,该信息提 取规则为一个或多个子提取规则的集合。
[0056] 本发明实施例中,该信息提取规则用于从半结构化数据的目标页面数据中提取出 结构化数据。具体的,该信息提取规则为一个或多个子提取规则的集合,每一个子提取规则 对应信息提取过程中的一个处理过程(例如正则提取、去掉特殊字符串等),即将信息提取 的处理步骤转换为子提取规则。通过将一个或多个子提取规则集合为一个信息提取规则, 简化了信息提取的过程,同时可以高通量精准提取目标页面数据中的结构化数据。同时,该 信息提取规则为可重复调用的规则,即针对多条目标页面地址时,可以重复利用该信息提 取规则提取出相应的结构化数据。
[0057] 本发明实施例提供的一种获取结构化数据的方法,在抓取到目标页面数据后,利 用集合一个或多个子提取规则的信息提取规则获取目标页面数据中的结构化数据,将信息 提取步骤简化为子提取规则,简化了信息提取的过程,同时可以高通量精准提取目标页面 数据中的结构化数据。且该信息提取规则为可重复调用的规则,针对多条目标页面地址时, 可以重复利用该信息提取规则提取出相应的结构化数据。
[0058]本发明实施例提供了又一种获取结构化数据的方法,包括上述实施例的步骤101-103:
[0059] 步骤101:获取页面地址列表,页面地址列表中包含一条或多条目标页面地址;
[0060] 步骤102:抓取与目标页面地址相对应的目标页面中的目标页面数据;
[0061] 步骤103:根据预设的信息提取规则提取目标页面数据中的结构化数据,该信息提 取规则为一个或多个子提取规则的集合。
[0062] 其中,参见图2所示,步骤102中抓取与目标页面地址相对应的目标页面中的目标 页面数据,具体包括步骤1021-1022:
[0063] 步骤1021:根据目标网站的权重和目标页面的权重确定目标页面的优先级,该目 标网站为目标页面所在的网站。
[0064] 步骤1022:根据目标页面的优先级依次抓取目标页面中的目标页面数据。
[0065] 本发明实施例中,目标网站为该目标页面所在的网站或站点;例如,目标页面的地 址为movie . 123 . com( 即123网站中的视频网页),该目标页面相对应的目标网站为 www. 123. com( 即123网站)。同时,预先为每一个页面地址列表对应的目标页面和目标网站 设置相应的权重,每个目标页面的权重可以为一固定值,也可以根据该目标页面与关键词 之间的相关度实时确定权重。
[0066] 具体的,步骤1021根据目标网站的权重和目标页面的权重确定目标页面的优先 级,可选地,将目标网站的权重与目标页面的权重的乘机作为目标页面的优先级调度权重, 根据该优先级调度权重确定目标页面的优先级。例如,页面a和页面b均为页面地址列表对 应的一个目标页面;其中,A网站的优先级是5,B网站的优先级是3,A网站的页面a的优先级 是6,B网站的页面b的优先级是8,那么页面a的优先级调度权重为5x6 = 30,b的优先级调度 权重3x8 = 24,因此页面a的优先级高于页面b的优先级,页面a优先被调度,即先从页面a中 抓取目标页面数据。本发明实施例中根据优先级调度原则优先抓取优先级高的目标页面, 能够优先抓取重要的目标页面,可以提高重要页面抓取的时效性。
[0067] 在步骤103中,具体的,该信息提取规则具体的为XML(Extensible Markup Language,可扩展标记语言)格式和/或JS0N(JavaScript Object Notation,JavaScript对 象表示法,一种轻量级的数据交换格式)格式的规则。其中,该子提取规则包括:XPath提取 规则,利用该XPath提取规则寻找相应的节点或链接。同时,该子提取规则还可以包括其他 规则,具体的,子提取规则还包括正则过滤规则、正则提取规则、添加前缀规则、添加后缀规 则和目标字符串连接规则中的零项或多项。其中,正则过滤规则用于根据正则表达式对 XPath提取出的节点或链接进行过滤;正则提取规则用于根据正则表达式对XPath提取出的 节点或链接进行进一步提取;添加前缀规则用于为特定字符串添加前缀;添加后缀规则用 于为特定字符串添加后缀;目标字符串连接规则用于以预设字符串连接多个目标字符串。 例如,一个信息提取规则如下:
[0070]这条信息提取规则意思是:利用XPath提取所有连接(//a/Ohref),然后进一步执 行其他子提取处理规则(上例为执行正则过滤规则,过滤掉所有不匹配正则~http(s)?:// movie. 123. com.*的所有连接)。
[0071 ]在一种可能的实现方式中,该结构化数据还包括子目标页面的子目标页面地址, 子目标页面为目标页面的下级页面。即,在步骤103中抓取到的结构化数据中还包括下一级 或下几级页面的地址。例如,目标页面movie . 123. com中包括电影A和电影B的相关资源,且 具有电影A和电影B的相关链接,分别为movie · 123 · com/f ilmA和movie · 123 · com/f ilmB。贝ij 根据信息提取规则获取目标页面movie. 123. com中的结构化数据时,也可以获取到两个子 目标页面地址:movie · 123 · com/filmA 和 movie · 123 · com/filmB〇
[0072] 在获取到子目标页面地址后,方法还包括步骤A1-A2:
[0073] 步骤A1、抓取子目标页面中的子目标页面数据。
[0074] 步骤A2、根据预设的信息提取规则提取子目标页面数据中的结构化数据。
[0075]本发明实施例中,该步骤A1-A2与上述的步骤102-103没有本质区别,二者均为提 取网页中的结构化数据;区别在于:步骤A1-A2为提取子目标页面数据中的结构化数据,步 骤102-103为提取目标页面数据中的结构化数据。因此,在获取到子目标页面地址后的另一 种方法为:根据子目标页面地址形成新的网页地址列表,进而执行上述的步骤102-103。通 过重复确定目标页面的下级页面,可以获取目标页面及其所有下级页面中所有的结构化数 据,从而重复调用该信息提取规则即可以获取完整的结构化数据。
[0076] 在一种可能的实现方式中,该方法还包括:在检测到报警事件时推送报警消息,报 警事件包括信息提取规则失效和/或CPU过载。具体的,在获取结构化数据的过程中会产生 相应的日志记录,根据该日志记录中的异常记录即可以确定是否存在报警事件,如信息提 取规则失效(信息提取规则中的预设字段与实际获取到的目标页面数据不符)、CPU过载等。
[0077] 现有技术中的报警机制不够完善,当出现日志解析错误时,系统仍会执行目标页 面数据抓取操作,但并不会有预期结果的输出。本发明实施例中采用了实时报警,用户可以 根据实时报警信息随时知道问题故障,以便决策是否继续执行该抓取任务。
[0078] 下面通过一个实施例详细介绍该获取结构化数据的方法流程。
[0079] 在本发明实施例中,在目标页面中存在下级页面时,获取到的结构化数据包括子 目标页面地址。参见图3所示,该方法具体包括步骤301-306:
[0080] 步骤301:获取页面地址列表,页面地址列表中包含一条或多条目标页面地址。
[0081] 步骤302:根据目标网站的权重和目标页面的权重确定目标页面的优先级。
[0082] 其中,该目标网站为目标页面所在的网站
[0083] 步骤303:根据目标页面的优先级依次抓取目标页面中的目标页面数据。
[0084] 步骤304:根据预设的信息提取规则提取目标页面数据中的结构化数据。
[0085] 在实施例一中,该信息提取规则为一个或多个子提取规则的集合,子提取规则包 括:XPath提取规则;且该子提取规则还包括正则过滤规则、正则提取规则、添加前缀规则、 添加后缀规则和目标字符串连接规则中的零项或多项。同时,该结构化数据中可能包含下 级的子目标页面地址。
[0086] 步骤305:确定子目标页面地址,并根据子目标页面地址形成新的网页地址列表, 并重复执行步骤302。此时步骤302中的对目标页面和对子目标页面的处理方式完全相同。
[0087] 步骤306:在获取到所有结构化数据后,存储该结构化数据。
[0088] 本发明实施例提供的一种获取结构化数据的方法,在抓取到目标页面数据后,利 用集合一个或多个子提取规则的信息提取规则获取目标页面数据中的结构化数据,将信息 提取步骤简化为子提取规则,简化了信息提取的过程,同时可以及时、高通量、精准地提取 目标页面数据中的结构化数据。该信息提取规则为可重复调用的规则,针对多条目标页面 地址时,可以重复利用该信息提取规则提取出相应的结构化数据。根据优先级调度原则优 先抓取优先级高的目标页面,能够优先抓取重要的目标页面,可以提高重要页面抓取的时 效性。通过重复确定目标页面的下级页面,从而重复调用该信息提取规则即可以获取完整 的结构化数据。
[0089] 以上详细介绍了该获取结构化数据的方法流程,该方法也可以通过相应的装置实 现,下面详细介绍该装置的结构和功能。
[0090] 本发明实施例提供的一种获取结构化数据的装置,参见图4所示,包括:
[0091 ]获取模块41,用于获取页面地址列表,页面地址列表中包含一条或多条目标页面 地址;
[0092] 第一抓取模块42,用于抓取与目标页面地址相对应的目标页面中的目标页面数 据;
[0093] 第一提取模块43,用于根据预设的信息提取规则提取目标页面数据中的结构化数 据,信息提取规则为一个或多个子提取规则的集合。
[0094]在一种可能的实现方式中,信息提取规则为XML格式和/或JS0N格式的规则;子提 取规则包括:XPath提取规则,并还包括正则过滤规则、正则提取规则、添加前缀规则、添加 后缀规则和目标字符串连接规则中的零项或多项,目标字符串连接规则为以预设字符串连 接多个目标字符串。
[0095]在一种可能的实现方式中,参见图5所示,第一抓取模块42包括:
[0096] 确定单元421,用于根据目标网站的权重和目标页面的权重确定目标页面的优先 级,目标网站为目标页面所在的网站;
[0097] 抓取单元422,用于根据目标页面的优先级依次抓取目标页面中的目标页面数据。
[0098] 在一种可能的实现方式中,结构化数据包括子目标页面的子目标页面地址,子目 标页面为目标页面的下级页面;此时参加那图6所示,该装置还包括:
[0099] 第二抓取模块44,用于抓取子目标页面中的子目标页面数据;
[0100]第二提取模块45,用于根据预设的信息提取规则提取子目标页面数据中的结构化 数据。
[0101] 在一种可能的实现方式中,参见图7所示,还包括:报警模块46,用于在检测到报警 事件时推送报警消息,报警事件包括信息提取规则失效和/或CPU过载。
[0102] 本发明实施例提供的一种获取结构化数据的方法及装置,在抓取到目标页面数据 后,利用集合一个或多个子提取规则的信息提取规则获取目标页面数据中的结构化数据, 将信息提取步骤简化为子提取规则,简化了信息提取的过程,同时可以及时、高通量、精准 地提取目标页面数据中的结构化数据。该信息提取规则为可重复调用的规则,针对多条目 标页面地址时,可以重复利用该信息提取规则提取出相应的结构化数据。根据优先级调度 原则优先抓取优先级高的目标页面,能够优先抓取重要的目标页面,可以提高重要页面抓 取的时效性。通过重复确定目标页面的下级页面,从而重复调用该信息提取规则即可以获 取完整的结构化数据。
[0103] 图8示出了本发明的另一个实施例的一种网络设备的结构框图。所述网络设备 1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终 端等。本发明具体实施例并不对计算节点的具体实现做限定。
[0104] 该网络设备 1100包括处理器(processor) 1110、通信接口(Communications Interface) 1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口 1120、以及存储器1130通过总线1140完成相互间的通信。
[0105] 通信接口 1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。 [0106] 处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集 成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明 实施例的一个或多个集成电路。
[0107] 存储器1130用于存放文件。存储器1130可能包含高速RAM存储器,也可能还包括非 易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存 储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。
[0108] 在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码。该程 序具体可用于:
[0109] 在第一方面,提供一种获取结构化数据的方法,包括:
[0110] 获取页面地址列表,页面地址列表中包含一条或多条目标页面地址;
[0111] 抓取与目标页面地址相对应的目标页面中的目标页面数据;
[0112] 根据预设的信息提取规则提取目标页面数据中的结构化数据,信息提取规则为一 个或多个子提取规则的集合。
[0113]在一种可能的实现方式中,信息提取规则为XML格式和/或JS0N格式的规则;
[0114] 子提取规则包括:XPath提取规则,并还包括正则过滤规则、正则提取规则、添加前 缀规则、添加后缀规则和目标字符串连接规则中的零项或多项,目标字符串连接规则为以 预设字符串连接多个目标字符串。
[0115] 在一种可能的实现方式中,抓取与目标页面地址相对应的目标页面中的目标页面 数据,包括:
[0116]根据目标网站的权重和目标页面的权重确定目标页面的优先级,目标网站为目标 页面所在的网站;
[0117]根据目标页面的优先级依次抓取目标页面中的目标页面数据。
[0118] 在一种可能的实现方式中,结构化数据包括子目标页面的子目标页面地址,子目 标页面为目标页面的下级页面;方法还包括:
[0119] 抓取子目标页面中的子目标页面数据;
[0120] 根据预设的信息提取规则提取子目标页面数据中的结构化数据。
[0121] 在一种可能的实现方式中,还包括:
[0122] 在检测到报警事件时推送报警消息,报警事件包括信息提取规则失效和/或CPU过 载。
[0123] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序 产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实 施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机 可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形 式。
[0124] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程 图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流 程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序 指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产 生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实 现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0125] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特 定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
[0126] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计 算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一 个方框或多个方框中指定的功能的步骤。
[0127] 前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述 并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变 和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应 用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及 各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
[0128] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可 以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单 元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其 中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性 的劳动的情况下,即可以理解并实施。
【主权项】
1. 一种获取结构化数据的方法,其特征在于,包括: 获取页面地址列表,所述页面地址列表中包含一条或多条目标页面地址; 抓取与所述目标页面地址相对应的目标页面中的目标页面数据; 根据预设的信息提取规则提取所述目标页面数据中的结构化数据,所述信息提取规则 为一个或多个子提取规则的集合。2. 根据权利要求1所述的方法,其特征在于,所述信息提取规则为XML格式和/或JSON格 式的规则; 所述子提取规则包括:XPath提取规则,还包括正则过滤规则、正则提取规则、添加前缀 规则、添加后缀规则和目标字符串连接规则中的零项或多项,所述目标字符串连接规则为 以预设字符串连接多个目标字符串。3. 根据权利要求1所述的方法,其特征在于,所述抓取与所述目标页面地址相对应的目 标页面中的目标页面数据,包括: 根据目标网站的权重和所述目标页面的权重确定所述目标页面的优先级,所述目标网 站为所述目标页面所在的网站; 根据所述目标页面的优先级依次抓取目标页面中的目标页面数据。4. 根据权利要求1所述的方法,其特征在于,所述结构化数据包括子目标页面的子目标 页面地址,所述子目标页面为所述目标页面的下级页面;所述方法还包括: 抓取所述子目标页面中的子目标页面数据; 根据预设的信息提取规则提取所述子目标页面数据中的结构化数据。5. 根据权利要求1-4任一所述的方法,其特征在于,还包括: 在检测到报警事件时推送报警消息,所述报警事件包括信息提取规则失效和/或CPU过 载。6. -种获取结构化数据的装置,其特征在于,包括: 获取模块,用于获取页面地址列表,所述页面地址列表中包含一条或多条目标页面地 址; 第一抓取模块,用于抓取与所述目标页面地址相对应的目标页面中的目标页面数据; 第一提取模块,用于根据预设的信息提取规则提取所述目标页面数据中的结构化数 据,所述信息提取规则为一个或多个子提取规则的集合。7. 根据权利要求6所述的装置,其特征在于,所述信息提取规则为XML格式和/或JSON格 式的规则; 所述子提取规则包括:XPath提取规则,还包括正则过滤规则、正则提取规则、添加前缀 规则、添加后缀规则和目标字符串连接规则中的零项或多项,所述目标字符串连接规则为 以预设字符串连接多个目标字符串。8. 根据权利要求6所述的装置,其特征在于,所述第一抓取模块包括: 确定单元,用于根据目标网站的权重和所述目标页面的权重确定所述目标页面的优先 级,所述目标网站为所述目标页面所在的网站; 抓取单元,用于根据所述目标页面的优先级依次抓取目标页面中的目标页面数据。9. 根据权利要求6所述的装置,其特征在于,所述结构化数据包括子目标页面的子目标 页面地址,所述子目标页面为所述目标页面的下级页面;所述装置还包括: 第二抓取模块,用于抓取所述子目标页面中的子目标页面数据; 第二提取模块,用于根据预设的信息提取规则提取所述子目标页面数据中的结构化数 据。10.根据权利要求6-9任一所述的装置,其特征在于,还包括: 报警模块,用于在检测到报警事件时推送报警消息,所述报警事件包括信息提取规则 失效和/或CPU过载。
【文档编号】G06F17/30GK106095984SQ201610446125
【公开日】2016年11月9日
【申请日】2016年6月20日
【发明人】方婧
【申请人】乐视控股(北京)有限公司, 乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1