提取动态生成网页内容的技术方案的制作方法

文档序号:6462398阅读:184来源:国知局
专利名称:提取动态生成网页内容的技术方案的制作方法
技术领域
本发明提出了一种技术方案涉及计算机软件、硬件及其结合在网络领域的应 用。它使得在请求获得网页数据的客户端(如浏览器等)或网络转发节点(如 代理服务器等)可以精确灵活地提取动态网页数据中的特定内容。
背景技术
在互联网上广泛使用的网页是以文本数据格式描述的按照特定计算机语言 规范构成的数据。此类语言规范是为网页创建和在网页浏览器中看到信息而设 计的置标语言。其中,超文本置标语言(英文Hyper Text Markup Language, 以下简称HTML)是最普遍被使用和支持的一种。它是一个由万维网联盟(英文 The World Wide Web Consortium,以下简称W3C)制定规范的国际标准。
HTML语言用纯文本数据描述网页的各方面属性,包括文字信息内容、页面布 局形式、页面展现风格和其他类型内容(如图像、视频、声音等)的引用位置。 根据其数据描述,浏览器将页面内容以W3C标准规定的方式显示在用户界面中。 由于HTML语言标准的制定,页面因此可以以页面制作者预先设计的样式展现给 页面阅读者。HTML语言被所有主流浏览器所支持并使用,是互联网网页阅览 功能的基础和核心技术。
在标准的HTML规范基础之上,各浏览器开发者或开发厂商引入了一些额外 的标志信息,如微软公司所提出的VBScript脚本语言和网景公司所提出的 JavaScript脚本语言等。这些额外的标志信息被附加到以HTML为基础的信息 上,在相应的浏览器上就可以产生出一些HTML标准所未提供的展示效果和附加 功能。
此外,也存在另一些其他非HTML的文本形式语言规范,通常由HTML派生, 也具有以上提到的HTML语言的诸特性。
以上提到的标准HTML语言数据、非标准内容的HTML扩展数据、其他非HTML 标准的文本数据格式网页描述语言,均适用于本发明的范围,并在本发明的说明 中统称为网页语言和网页数据。网页数据被应用的典型场景是页面阅读者在浏览器操作界面中通过手工输 入、选定预制书签或点击网页内链接的方式请求存放在指定网络位置的网页数 据,该网络位置用"统一资源定位符"(英文Uniform Resource Location,以 下简称URL)描述,通常指向一个网页服务器(英文Webserver)所维护的网 页文件。此网页文件,可以是映射到存储介质上实际存在的文件,也可以是虚 拟的文件。网页数据由源网络位置传递到浏览器后,浏览器以网页语言所规定 的方式,将该网页所包含的信息内容以该数据所描述的展示方式和格式显示给页 面阅读者。
根据应用场景的不同,用户端软件可以是浏览器,也可以是其他通过向网页 服务器提交或转发URL形式的网页请求,并获取相应网页数据的软件或硬件。 其中涉及的通讯和交互使用超文本传输协议(英文Hyper Text Transfer Protocol,以下简称HTTP)完成。
在服务器端,网页数据可能以两种形式被产生
1) 静态网页数据全部网页数据(包括网页内容和展现方式信息)由网
页设计人员预先编写完成,并以文件形式存储在网页服务器可以直接 访问的存储介质上。当接收到客户端对某网页的请求时,网页服务器 读取存储介质上对应的文件,并将文件内容直接发送给客户端。客户 端得到的数据,和网页设计人员预先编写的完全相同。
2) 动态网页数据指部分网页数据(包括网页内容和展现方式信息)为 服务器动态生成。通常,网页设计开发人员使用网页模版数据作为网 页的框架来确定网页中静态的部分,然后使用服务器端脚本或其他程 序开发技术,以网页模版数据为基础在适当的位置附加上动态内容的 生成代码。当接收到客户端对某网页的请求时,网页服务器读取网页 数据的静态部分,然后实施该网页所涉及的动态内容生成代码,得到 动态部分的数据,按照预定的方式与静态数据进行组合,形成最终发 送给客户端的网页数据。客户端对同一网页的多次访问,可能由于传 递参数或访问时间的差异而得到不相同的网页数据。
需要提到的是,通过缓存技术(英文Cache Service),网页服务器可以将之 前读取的静态网页或生成的动态网页暂存在内存中,在一定条件下,对于后续访 问相同URL的请求直接发送内存中的暂存数据,但这并不改变该页面最初生成的 方式及其分类。即,若初始的网页数据是被动态生成的,那么即使在缓存处理 的作用下,某些后续访问可以直接获得此数据而不需另行动态产生,这些后续访 问依然被认为是在读取动态网页数据。
在某些情况下,客户端或转发节点需要获取网页数据中动态信息的全部或一 部分,然后对提取出的数据加以利用。目前,主要有如下几种方法来实现
1) 使用正则表达式正则表达式是一种简单的字符组合模式表示法,通
过使用通配符号,可将符合该字符组合模式的任何字符串实例用一个正则表达式字符串来表达出来。在此被来标识目标字符串特征,并 将匹配字串从网页数据全文中提取出来或排除出去。其特点是适合 提取格式比较固定、特殊和简单的数据,如URL、特殊格式数据、表 格内数据等。但对于格式重复性高、组合复杂的文本,其准确性和 适用性则常常无法达到要求。
2) 使用HTML标记符排除即过滤并丢弃网页数据中各HTML标记符及附 加在其上的格式信息,仅保留其内容的文本信息。其特点是可以把 HTML数据文件完全转化为文本内容,比较适用于结构简单并且干扰 信息少的网页数据。然而对于有大量干扰文本的网页,它不具有对 不同文本的区分能力和对有效数据的精确提取能力。
3) 使用绝对位置即对于固定字符数量的格式,在完整数据中规定目标 数据的起始点和结束点之绝对位置。其特点是对于格式极为严格和 固定的网页文本具有精确的提取能力,然而绝大部分网页并不采用如 此严格的格式定义。
4) 使用相似度排除即提供一组样本网页,将目标网页数据中与样本网
页相同或相似的部分排除。其特点是可以较准确获取网页数据中的 动态部分,然而这种方法并不能很好地区分不同动态数据,从而也无 法很好地排除动态数据中存在的干扰信息。同时,此种方法的效率 较低,会造成较大的系统开销。
从以上分析可见,这四种提取方式都适用于某些场景,但都有各自的缺陷和 限制。归纳起来的结论是,这四种方法都无法提供完善的对复杂动态网页数据 的灵活、精确提取能力,要么是无法适应不同类型的动态数据,要么是不能有效 地区分和排除动态数据中的干扰信息。

发明内容
本发明提出了一种在动态网页数据中进行内容定位和提取的方法和流程,可 以达到简单、灵活和准确地提取预定网站的指定主题内容的效果。
为了便于后续介绍,首先引入两个概念
1.页面模版数据-
关于动态网页数据的描述中,页面模版泛指网页中被预先确定固定不变的部 分,通常包含页面显示的格式信息和其他类似页面的共有内容。 一般在动 态网页开发活动中,制作人员会把页面模版从目标网页中抽离出来单独设 计,并保存为一系列静态文件即模版文件,然后以模版文件为基础附加动态 内容的生成代码。然而,在某些情况下动态内容的生成代码也会产生一部 分固定不变的内容,或遵循非常严格格式的输出(如限定格式的人员称谓、日期时间等)。以上这两种情况产生的静态部分数据及严格的格式定义,在 本发明的后续描述中均被称为页面模版数据或(广义的)动态页面的静态部 分。
2.同源模版的动态网页数据(同源动态网页)
同一个页面模版数据可以被一个或多个动态网页所使用。在被一个动态网 页独享的情况下,可能是对应于不同的URL (由于传递给网页的参数不同), 也可能是相同的URL (但不同时间访问可能产生不同的动态内容)。在被多 个动态网页共享的情况下,对应多个不同的URL。这两种情况下,基于同一 个页面模版数据被产生出来的所有动态网页数据结果,都被看作构建于该网 页模版数据的实例,在本发明的后续描述中被称为同源模版的动态网页数 据(或简称同源动态网页)。
本技术方案应用于预先确定的同源动态网页,可以通过预定义的URL匹配规 则来确定一个给定网页所从属的源页面模版数据,从而也就可以获得为其预先配 置好的提取要素信息。根据这些提取要素信息,就可以按照本技术方案所定义 的方法和流程,配合针对该同源动态网页所制定的特定规则,对网页实例的数据 进行处理并提取出所需的内容。当网页数据的来源按照约定确定的情况下,也 可能直接使用约定的提取要素信息,而不需进行URL匹配来进行要素信息的选 择。
定位和提取指定内容的主要原理是根据一组区域提取要素信息从一个较大 的数据査找区域(以下称为査找区域)中定位出一个较小的子区域(以下称为结 果区域)。这个结果区域是由针对查找区域的两个定位指针来确定,即由两个定 位指针指出査找区域内部的两个位置,这两个位置之间的区域即为结果区域。根 据需要可以多次使用此方法,后续的每一次査找都使用前一次的结果区域作为当 次的査找区域,并使用该轮次的特定区域定位要素信息来确定定位指针位置。这 样,就可以逐步縮小查找区域和结果区域的范围,直到结果区域即为预先期望的 目标数据,则数据的定位和提取完成。
定位指针由标志正则表达式在査找区域中的匹配获得定位。作为一种特例, 若标志正则表达式内不包含任何通配符号,则其为一特定字符串,此种情况下的
匹配操作即为字符串精确查找。定位指针的定位要素信息包括
1) 标志正则表达式
2) 査找开始位置从数据査找区域的开始或结尾处,或由字节数标识的某
固位置(若是该轮次的第二个定位指针,还可以第一个定位指针的位置 或其相对位置开始)
3) 査找的方向向前或向后
4) 标志字正则表达式匹配出现的次数
5) 结果区域是否包含定位指针最终匹配的字串
两个定位指针分别的定位要素信息之组合形成了一轮查找的完整定位要素 信息。其中,定位使用的标志正则表达式均根据源页面模版数据来制定,且可各不相同;指定的匹配次数均为正整数且可各不相同。存在一种特例,在一轮 查找中只有进行了一次定位指针的定位,结果区域被定义为此次得到的定位指针 到查找区域一侧边界(首或尾)之间的范围。这种特例可以认为第二个定位指 针被直接设定在所指定边界,并依然符合本发明的原理和方法。各轮的完整定 位要素信息,连同轮次的顺序信息等形成了针对于该页面模版数据的提取要素信 息,用于支持相应的同源模版的动态网页数据的内容提取。
以上这些可配置信息都是通过对源页面模版数据分析而得到,在没有源页面 模版数据原始数据的情况下,也可以通过对该同源动态网页进行分析归纳而得 到。由于同源动态网页归属的页面模版数据的存在, 一般情况下都可以从其静 态数据部分选择出恰当的标志正则表达式,从而保证了本技术广泛的适用性和通 用性。区域定位要素信息的确定高度依赖于具体的页面模版数据,针对每一组 同源动态网页,需要有相应的提取要素信息来支持。此组合信息可以以特定格 式表述并存储在外部文件或数据库中,并通过URL匹配与相应的同源动态网页进 行关联,从而达到灵活调整和易于扩展的效果。该信息也可以被直接编写为程 序代码并从程序逻辑中得到体现,在外部配置信息未完整提供全部定位要素的情 况下,由程序代码执行缺省的约定行为来执行提取操作。
多数情况下动态网页内文本形式的正文内容提取,均可由此方法完成;通过 对同一页面数据使用不同提取要素信息组合使用本方法,还可以实现对同一页面 内多组主题内容的分别提取。对于其它类型的目标数据(如链接、图片、视频 等),可以在经过上述方法进行充分区域定位后,使用正则表达式匹配的方法提 取具有相应特征的信息。
本发明的有益效果是,为动态网页的预定内容提取提供了一种通用的方法和 流程,不受网页内容类型、显示风格、布局格式、设计语言等限制,基本上可以 覆盖所有动态网页的组织形态。具有灵活的可定制性和内容针对性,尤其适用 于网页内特定主题和板块内容的提取,可以很好地排除无关信息的干扰。对于 结构复杂和数据量较大的动态网页,依然可以准确高效地进行信息提取。每一 轮的区域定位都相对独立,并且对目标区域内的数据不做改动,因而易于与其他 提取技术组合使用。


所附权利要求书中阐述了被认为是本发明的特点和创造性特征。但是,通 过参照附图阅读下面对说明性实施例的详细说明可以更易于理解发明本身以及 其使用方式。下面结合图和实施例对本发明进一步说明 图l.示意性地示出了本发明的一个典型实施例(装置部分) 图2.示意性地示出了本发明的一个典型实施例(内容提取流程)
图中
1. 第一轮查找区域的首位置
2. 第一轮查找区域的尾位置3. 第一轮查找的第一定位指针,即第一轮结果区域及第二轮查找区域的首位置
4. 第一轮查找的第二定位指针,即第一轮结果区域及第二轮查找区域的尾位置
5. 第二轮查找的第一定位指针,即第二轮结果区域及提取目标数据之起始位置
6. 第二轮査找的第一定位指针,即第二轮结果区域及提取目标数据之结束位置 10.第一轮査找的第一定位指针查找方向(此例为向后)
20.第一轮査找的第二定位指针査找方向(此例为向前) 30.第二轮查找的第一定位指针査找方向(此例为向后) 40.第二轮查找的第二定位指针查找方向(此例为向前)
101.第一轮查找,第一定位指针所遇到的标识正则表达式的前nl-l次匹配(nl 为预定的此次定位匹配次数,此例中nl4)
101.第一轮査找,第一定位指针所遇到的标识正则表达式的第nl次匹配(nl 为预定的此次定位匹配次数,此例中nl二3)
103. 第一轮查找,第二定位指针所遇到的标识正则表达式的前ml-l次匹配(ml 为预定的此次定位匹配次数,此例中1111=2)
104. 第一轮査找,第一定位指针所遇到的标识正则表达式的第ml次匹配(ml 为预定的此次定位匹配次数,此例中mh2)
105. 第二轮査找,第一定位指针所遇到的标识正则表达式的前n2-l次匹配(n2 为预定的此次定位匹配次数,此例中n2二4)
106. 第二轮查找,第一定位指针所遇到的标识正则表达式的第n2次匹配(n2 为预定的此次定位匹配次数,此例中n2二4)
108.第二轮查找,第二定位指针所遇到的标识正则表达式的第m2次匹配(n2 为预定的此次定位匹配次数,此例中m24)
200. 第一轮查找的査找区域,即完整网页数据
201. 第一轮査找的结果区域,即第二轮查找的査找区域
202. 第二轮查找的结果区域,即所要提取数据的目标区域
500. 网页访问扩展信息集
501. 网页数据
502. 网页访问的附加上下文信息(如URL等)
600. 内容提取引擎
601. 网页内容提取模块
602. 提取要素信息选择模块
603. 网页对应的提取要素信息
604. 网页提取要素的选择信息
610.附加的其他提取方式的功能模块 620.提取的内容结果
具体实施例方式
下面参照附图来说明本发明的实施例。在下面的说明中,阐述了许多具体技 术特征等细节以便更全面地了解本发明。但是,对于本技术领域内的技术人员显 然的是,本发明的实现可不具有其中的一些具体技术特征。本发明的完整描述 由本文的发明内容一节所提供,且其范围由所附的权利要求书的语言限定。图l示意性地示出了本发明的一个典型实施例的装置部分,其核心是网页内 容提取引擎或网页内容提取程序模块(600),包含如下描述的若干子模块。
在对某一动态网页数据进行内容提取的活动中,所示的模块的输入为网页访 问扩展信息集(500),包括网页数据(501)和网页访问的附加上下文信息(502)。 其中网页数据(501)为原始数据内容,是网页内容提取的源数据;网页访问的 附加上下文信息(502)为特定辅助信息(如网页的URL等),根据此信息网页内 容提取引擎(500)可以选择针对此特定同源动态网页的特定内容提取要素和规 则来进行后续提取操作。
网页访问的附加上下文信息(502)被传递给提取要素信息选择模块(602), 此模块根据网页提取要素的选择信息(604),选择出条件匹配的提取要素信息, 即网页对应的提取要素信息(603)。 其中,网页提取要素的选择信息(604) 为网页访问的附加上下文信息(502)与网页对应的提取要素信息(603)的某种 对应规则。提取要素信息选择模块(602)将选择到的网页对应的提取要素信息 (603)指明给网页内容提取模块(601),供其针对网页数据(501)进行相应操 作。
网页内容提取模块(601)使用网页对应的提取要素信息(603)所指定的方 式,对网页数据(501)进行内容选择和提取操作,产生出提取的内容结果(620)。 可选的,在网页内容提取引擎(600)内部,还可以存在附加的其他提取方式的 功能模块(610),对于网页内容提取模块(601)的结果数据可以应用其他内容 选择和提取方式进行进一步的操作,而获得最终的提取的内容结果(620)。
需要指出的是,上述的实施例仅是本发明所涉及装置的一个优选例,在应用 本发明的实际实施中,也可以使用与本例不同的实施方式,而不必影响本发明的 适用性。如,在不需要外界信息即可获得网页对应的提取要素信息(603)的情 况下,则不需要网页访问的附加上下文信息(502);在约定了特定的网页来源 和提取要素信息的情况下,则不需要提取要素信息选择模块(602)和网页提取 要素的选择信息(604)。又如,在所有网页对应的提取要素信息(603)均为事 先约定且实现于网页内容提取模块(601)程序内部时,则不需要外部化的网页 对应的提取要素信息(603)。 再如,附加的其他提取方式的功能模块(610) 是可选模块,在选择了此模块的情况下,可以将其置于此例所示的流程尾部;如 果此流程的输出结果为单一连续区域或可合并为单一连续区域的情况下,也可以 将其置于网页内容提取模块(601)之前端;在网页内容提取模块(601)的数量 为两个或以上时,也可以将功能模块(610)置于多个网页内容提取模块(601) 的串行操作之间。此外,本图示中的各个模块为便于描述操作所做的逻辑功能 划分,在实际应用本发明的软件或装置中,并不必要在代码封装、编译链接或物 理构造等方面按照同样划分进行实现。
图2示意性地示出了本发明的一个典型实施例中内容提取流程部分,此流程 为网页内容提取模块(601)的核心操作。网页内容提取模块(601)在获得网 页对应的提取要素信息(603)和网页数据(501)后,可以按照前者所指定的方式以后者为初始操作数据进行内容选择和提取。
此图示中的网页对应的提取要素信息(603)实例性地制定了如下内容提取
规则
a)网页的内容查找和提取分两轮进行
b)第一轮査找的第-一定位指针从査找区域的起始点开始,向后査找
c)第-一轮查找的第-一定位指针使用的标志正则表达式
d)第-一轮查找的第-一定位指针将定位在第3次匹配
e)第-一轮査找的第」二定位指针从査找区域的结束点开始,向前查找
f)第-一轮查找的第:二定位指针使用的标志正则表达式
g)第-一轮查找的第:二定位指针将定位在第2次匹配
h)第-一轮结果区域不包含第一和第二定位指针最终匹配的字符串i)第」二轮查找的第-一定位指针从査找区域的起始点开始,向后査找
j)第」二轮查找的第i一定位指针使用的标志正则表达式
k)第」二轮査找的第-一定位指针将定位在第4次匹配
1)第」二轮査找的第」二定位指针从查找区域的结束点开始,向前查找
m)第:二轮查找的第:二定位指针使用的标志正则表达式
n)第:二轮查找的第:二定位指针将定位在第l次匹配
o)第:二轮结果区域不包含第一但包含第二定位指针最终匹配的字符'注作为一种特例,若标志正则表达式内不包含任何通配符号,则其为一特 定字符串,此种情况下的正则表达式匹配操作等同于字符串精确査找。
如图所示,第一轮查找以完整网页数据(200)作为查找区域。
第一定位指针从第一轮查找区域的首位置(1)开始向后进行査找动作
(10),在(101)所标示位置发现前2次标志正则表达式的匹配,(102)所 标示位置发现第3次标志正则表达式的匹配,则将本轮第一定位指针(3) 定位于(102)标示位置。
第二定位指针从第一轮査找区域的尾位置(2)开始向前进行查找动作 (20),在(103)所标示位置发现前l次标志正则表达式的匹配,(104)所 标示位置发现第2次标志正则表达式的匹配,则将本轮第二定位指针(4) 定位于(104)标示位置。
取第一轮查找的两个定位指针之间的数据段(即结果区域)作为第二轮 査找的查找区域(201)。第一和第二定位指针最终匹配的字符串未被包含 于此轮结果区域(即从区域边缘排除)。
第一定位指针从第二轮查找区域的首位置(3)开始向后进行查找动作 (30),在(105)所标示位置发现前3次标志正则表达式的匹配,(106)所 标示位置发现第4次标志正则表达式的匹配,则将本轮第一定位指针(5) 定位于(106)标示位置。第二定位指针从第二轮査找区域的尾位置(4)开始向前进行查找动作 (40),在(108)所标示位置发现第1次标志正则表达式的匹配,则将本轮 第二定位指针(6)定位于(108)标示位置。
取第二轮査找的两个定位指针之间的数据段(即结果区域)作为提取数 据的目标区域(202)。 第一定位指针最终匹配的字符串未被包含于目标区 域(即从区域边缘排除),第二定位指针最终匹配的字符串被包含于目标区 域。数据查找和提取完成。
需要指出的是,上述的实施例仅是本发明所涉及装置的一个特例,可以 有许多不同的提取要素信息组合,均可以适用于本发明的范围。如网页
的内容査找和提取的轮数可以是任何正整数。又如每轮的两个定位指针
均可以从查找区域开始位置向后查找,或从查找区域结束位置向前查找,两 者的查找方向可以相同也可以不同,此外第二定位指针还可以从第一定位指
针的位置(或其相对位置)开始向前或向后査找;每轮定位后的指针并不必 第一在前第二在后,结果区域只取二者之间即可;结果区域可以包括或不包 括最后一次匹配的字串。再如每个定位指针使用的标志正则表达式可相 同也可不同,匹配次数均为正整数,可相同或不同。此外,也允许在两轮 查找之间插入其他范围縮小方式,使得后续轮次的查找范围被重新划定。
权利要求
1.本发明提供一种对动态生成网页中特定动态内容进行精确提取的技术,其特征是对于网页数据内给定的一个查找区域,将两个定位指针通过查找操作定位在区域内,截取两个定位指针之间的子区域作为结果区域。结果区域可以作为内容查找和提取的目标数据。或者,也可以多次应用此过程,将前一轮查找得到的结果区域,作为后一轮查找的查找区域,直到指定的查找轮次,其结果区域为内容查找和提取的目标数据。
2. 根据权利要求1所述的动态网页内容提取技术,其特征是定位指针在查找 区域内定位的方法是使用标志正则表达式,从指定的位置开始按照指定的方 向进行顺序匹配。开始査找的位置可以是査找区域的起始位置或结束位置, 若为当轮查找的第二个定位指针,还可以以第一定位指针的位置或其相对位 置作为査找起始点。査找的方向可以是向前或向后。针对每个定位指针, 有一个预定的匹配次数。当未达到预先指定的匹配次数时,前述查找将继续 向原方向进行,直到达到预定的匹配次数为止,即为该指针的定位位置。作 为一种特例,若标志正则表达式内不包含任何通配符号,则其为一特定字符 串,此种情况下的正则表达式匹配操作等同于字符串精确查找。
3. 根据权利要求1所述的动态网页内容提取技术,还包括使用定位指针形成 结果区域时,需要指定或约定是否将该定位指针最终定位到的标志正则表达 式匹配字符串包含在结果区域内。
4. 根据权利要求l所述的动态网页内容提取技术,还包括存在一种特殊情况, 某轮查找仅使用一个定位指针,在这种情况下,可以约定将査找区域开始位 置或结束位置视为第二定位指针的位置。
5. 根据权利要求1所述的动态网页内容提取技术,还包括可以在进行本提取 技术之前,对原始网页数据应用其它提取技术进行预提取,将其结果作为本 提取技术的输入;可以在本提取技术完成对网页数据的提取后,对结果数据 应用其它提取技术进行进一步提取;对于使用多轮查找的情况,也可以在轮 次之间应用其它提取技术,将前一轮的结果区域进一步縮小,然后作为后一 轮的查找区域,前提是该提取技术的结果是单一区域或可以合并为单一区域。
6. 根据权利要求1所述的动态网页内容提取技术,其特征是查找的轮次顺序 信息、各轮査找所涉及的定位指针要素信息(统称内容提取要素信息)可以 全部或部分来自于可配置的外部参数,可以全部或部分作为事先约定以程序 代码的形式实现在软件或硬件中。
7. 根据权利要求1所述的动态网页内容提取技术,其特征是内容提取要素信 息是通过对目标动态网页的模版的预先分析而获得,在相关模版数据不可得的情况下,可以通过观察其产生的动态网页数据而了解其大致的模版信息, 并分析获得内容提取要素信息。
8.根据权利要求1所述的动态网页内容提取技术,还包括在对源网页数据进 行内容提取时,可以利用网页访问相关的附加信息或网页数据内某些特征数 据,以预先约定的方式找到与之对应的内容提取要素信息,并用这些信息所 指定的方式对该网页数据进行提取。对于不同来源的网页数据,可能会找到 并应用不同的内容提取要素信息。
全文摘要
本发明提出了一种技术方案涉及计算机网络应用和软件、硬件及其结合领域,可以在请求获得网页数据的客户端(如浏览器等)或网络转发节点(如代理服务器等)精确灵活地提取动态网页数据中的特定内容。对于给定的网页数据,根据一组区域定位要素信息从一个较大的数据查找区域(以下称为查找区域)中定位出一个较小的子区域(以下称为结果区域)。这个结果区域是由针对查找区域的两个定位指针来确定,即由两个定位指针指出查找区域内部的两个位置,这两个位置之间的区域即为结果区域。根据需要可以多次使用此方法,后续的每一次查找都使用前一次的结果区域作为当次的查找区域,并使用该轮次的特定区域定位要素信息来确定定位指针位置。这样,就可以逐步缩小查找区域和结果区域的范围,直到结果区域即为预先期望的目标数据,则数据的定位和提取完成。其中,定位指针的定位是通过对标志正则表达式按照特定规则搜索的方式来达成。
文档编号G06F17/30GK101576885SQ200810094188
公开日2009年11月11日 申请日期2008年5月8日 优先权日2008年5月8日
发明者露 韩 申请人:露 韩
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1