网页信息提取方法和装置与流程

文档序号:15159500发布日期:2018-08-14 10:06阅读:238来源:国知局

本申请涉及互联网技术领域,尤其涉及一种网页信息提取方法和装置。



背景技术:

当前互联网已成为信息传递的主要载体。由于网页上能够展示的信息是有限的,为了提高展示效率和降低成本,需要解决在众多信息中提取更有效信息的问题。例如,需要在网页上投放广告时,如何在广告主网站中提取有效信息是亟待解决的问题。



技术实现要素:

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本申请的一个目的在于提出一种网页信息提取方法,该方法可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。

本申请的另一个目的在于提出一种网页信息提取装置。

为达到上述目的,本申请第一方面实施例提出的网页信息提取方法,包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。

本申请第一方面实施例提出的网页信息提取方法,通过提取网页的结构化信息,由于结构化信息是网页正文中的规律性信息,因此可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。

为达到上述目的,本申请第二方面实施例提出的网页信息提取装置,包括:获取模块,用于获取待提取网页的源代码和视觉信息;确定模块,用于根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;提取模块,用于对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。

本申请第二方面实施例提出的网页信息提取装置,通过提取网页的结构化信息,由于结构化信息是网页正文中的规律性信息,因此可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。

本申请实施例还提出了一种设备,包括:一个或多个处理器;用于存储一个或多个程序的存储器;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如本申请第一方面实施例任一项所述的方法。

本申请实施例还提出了一种非易失性计算机可读存储介质,当所述存储介质中的一个或多个程序由设备的一个或多个处理器执行时,使得所述一个或多个处理器执行如本申请第一方面实施例任一项所述的方法。

本申请实施例还提出了一种计算机程序产品,当所述计算机程序产品被设备中的一个或多个处理器执行时,使得所述一个或多个处理器执行如本申请第一方面实施例任一项所述的方法。

本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1是本申请一个实施例提出的网页信息提取方法的流程示意图;

图2是本申请另一个实施例提出的网页信息提取方法的流程示意图;

图3是本申请实施例中一种待提取网页的示意图;

图4是本申请实施例中一种展示结构化信息的示意图;

图5是本申请一个实施例提出的网页信息提取装置的结构示意图;

图6是本申请另一个实施例提出的网页信息提取装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一个实施例提出的网页信息提取方法的流程示意图。

如图1所示,本实施例的方法包括:

s11:获取待提取网页的源代码和视觉信息。

其中,可以根据需求确定待提取网页,例如,用户在输入查询(query)后,将查询相关的网页作为待提取网页。

以待提取网页是一个广告主网站提供的广告页面为例,则可以获取该广告页面的源代码和视觉信息。

具体的,可以根据广告页面的统一资源定位符(uniformresourcelocator,url)获取到广告页面的超文本标记语言(hypertextmark-uplanguage,html)源代码。

网页的视觉信息是呈现给用户的视觉上的感知信息,例如,背景颜色、字体颜色和大小、边框、逻辑块之间的间距等,可以使用浏览器渲染工具获取到视觉信息。

s12:根据所述源代码和视觉信息,确定所述待提取网页中的区块信息。

在很多网页中,为了使得网页内容更清晰,可以将网页上的内容划分成不同的部分,这些不同的部分可以称为区块,一般来讲,可以将同一主题的内容放置在同一个区块中进行展示。相应的,可以将区块的类别或大小等属性作为区块信息。具体的,区块信息例如包括:导航区、正文区、html标签、区块大小、图片大小等信息。通过对源代码和视觉信息进行分析,可以确定出需要获取的区块信息。

其中,可以对源代码和视觉信息进行聚类以获取到区块信息,具体的聚类算法不限定,可以根据需要设置。

s13:对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。

其中,结构化信息是指网页正文中的一些具有规律性的内容,比如,区分出正文中的图片、文本、视频等,还可以对上述信息进一步划分,比如根据文本区分出标题、类别(如财经、体育、医疗等)、摘要等。

本实施例中,通过提取网页的结构化信息,由于结构化信息是网页正文中的规律性信息,因此可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。另外,通过获取区块信息并进行聚类,可以自动完成结构化信息的提取,不需要根据每个网站配置模板,能够大规模提取结构化信息。

图2是本申请另一个实施例提出的网页信息提取方法的流程示意图。

本实施例以在搜索引擎的结果页中展示结构化信息为例。

如图2所示,本实施例的方法包括:

s21:接收用户的查询。

例如,用户在搜索引擎的搜索框中输入查询(query)。

s22:获取与所述查询相关的网页,将与所述查询相关的网页作为待提取网页。

例如,搜索引擎可以在数据库中获取在互联网上抓取到与query相关的网页,并将与query相关的网页作为待提取网页。

s23:获取待提取网页的源代码和视觉信息。

以待提取网页是一个广告主网站提供的广告页面为例,则可以获取该广告页面的源代码和视觉信息。

具体的,可以根据广告页面的统一资源定位符(uniformresourcelocator,url)获取到广告页面的超文本标记语言(hypertextmark-uplanguage,html)源代码。

网页的视觉信息是呈现给用户的视觉上的感知信息,例如,背景颜色、字体颜色和大小、边框、逻辑块之间的间距等,可以使用浏览器渲染工具获取到视觉信息。

s24:根据所述源代码和视觉信息,确定所述待提取网页中的区块信息。

在很多网页中,为了使得网页内容更清晰,可以将网页上的内容划分成不同的部分,这些不同的部分可以称为区块,一般来讲,可以将同一主题的内容放置在同一个区块中进行展示。相应的,可以将区块的类别或大小等属性作为区块信息。具体的,区块信息例如包括:导航区、正文区、html标签、区块大小、图片大小等信息。通过对源代码和视觉信息进行分析,可以确定出需要获取的区块信息。

其中,可以对源代码和视觉信息进行聚类以获取到区块信息,具体的聚类算法不限定,可以根据需要设置。

s25:对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。

其中,结构化信息是指网页正文中的一些具有规律性的内容,比如,区分出正文中的图片、文本、视频等,还可以对上述信息进一步划分,比如根据文本区分出标题、类别(如财经、体育、医疗等)、摘要等。

例如,参见图3,示出了一种待提取网页,通过上述的处理获取到的结构化信息可以包括:图片、标题、价格和出发地。

s26:在搜索结果页面中,展示所述待提取网页的结构化信息。

例如,在搜索结果页面中,可以展示如图4所示的搜索结果,该搜索结果包括相应网页的结构化信息。

进一步的,在提取到网页的结构化信息之后,还可以对其进行处理,如缩放、核心区域截取等,展示处理后的结构化信息。

本实施例以在搜索引擎中展示结构化信息为例,可以理解的是,提取的结构化信息也可以应用到其他场景,比如作为相应网站的中间页面。

本实施例中,通过提取网页的结构化信息,由于结构化信息是网页正文中的规律性信息,因此可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。另外,通过获取区块信息并进行聚类,可以自动完成结构化信息的提取,不需要根据每个网站配置模板,能够大规模提取结构化信息。进一步的,通过将结构化信息前置在搜索引擎的展现结果中,会直接在结果中为用户带来更多的信息介绍,缩短了用户获取信息的路径,提升用户体验,进而提高结果点击率。

图5是本申请一个实施例提出的网页信息提取装置的结构示意图。

如图5所示,本实施例的装置50包括:获取模块51、确定模块52和提取模块53。

获取模块51,用于获取待提取网页的源代码和视觉信息;

其中,可以根据需求确定待提取网页,例如,用户在输入查询(query)后,将查询相关的网页作为待提取网页。

以待提取网页是一个广告主网站提供的广告页面为例,则可以获取该广告页面的源代码和视觉信息。

具体的,可以根据广告页面的统一资源定位符(uniformresourcelocator,url)获取到广告页面的超文本标记语言(hypertextmark-uplanguage,html)源代码。

网页的视觉信息是呈现给用户的视觉上的感知信息,例如,背景颜色、字体颜色和大小、边框、逻辑块之间的间距等,可以使用浏览器渲染工具获取到视觉信息。

确定模块52,用于根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;

在很多网页中,为了使得网页内容更清晰,可以将网页上的内容划分成不同的部分,这些不同的部分可以称为区块,一般来讲,可以将同一主题的内容放置在同一个区块中进行展示。相应的,可以将区块的类别或大小等属性作为区块信息。具体的,区块信息例如包括:导航区、正文区、html标签、区块大小、图片大小等信息。通过对源代码和视觉信息进行分析,可以确定出需要获取的区块信息。

其中,可以对源代码和视觉信息进行聚类以获取到区块信息,具体的聚类算法不限定,可以根据需要设置。

提取模块53,用于对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。

其中,结构化信息是指网页正文中的一些具有规律性的内容,比如,区分出正文中的图片、文本、视频等,还可以对上述信息进一步划分,比如根据文本区分出标题、类别(如财经、体育、医疗等)、摘要等。

例如,参见图3,示出了一种待提取网页,通过上述的处理获取到的结构化信息可以包括:图片、标题、价格和出发地。

一些实施例中,参见图5,该装置50还包括:

接收模块54,用于接收用户的查询;

例如,用户在搜索引擎的搜索框中输入查询(query)。

查询模块55,用于获取与所述查询相关的网页,将与所述查询相关的网页作为待提取网页。

例如,搜索引擎可以在数据库中获取在互联网上抓取到与query相关的网页,并将与query相关的网页作为待提取网页。

一些实施例中,参见图5,该装置50还包括:

展示模块56,用于在搜索结果页面中,展示所述待提取网页的结构化信息。

例如,在搜索结果页面中,可以展示如图4所示的搜索结果,该搜索结果包括相应网页的结构化信息。

进一步的,在提取到网页的结构化信息之后,还可以对其进行处理,如缩放、核心区域截取等,展示处理后的结构化信息。

一些实施例中,所述获取模块51用于获取待提取网页的源代码,包括:

根据待提取网页的url,获取待提取网页的源代码。

一些实施例中,所述获取模块51用于获取待提取网页的视觉信息,包括:

根据浏览器渲染工具,获取待提取网页的视觉信息。

可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。

本实施例中,通过提取网页的结构化信息,由于结构化信息是网页正文中的规律性信息,因此可以提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。另外,通过获取区块信息并进行聚类,可以自动完成结构化信息的提取,不需要根据每个网站配置模板,能够大规模提取结构化信息。进一步的,通过将结构化信息前置在搜索引擎的展现结果中,会直接在结果中为用户带来更多的信息介绍,缩短了用户获取信息的路径,提升用户体验,进而提高结果点击率。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

本申请实施例还提出了一种设备,包括:一个或多个处理器;用于存储一个或多个程序的存储器;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。

本申请实施例还提出了一种非易失性计算机可读存储介质,当所述存储介质中的一个或多个程序由设备的一个或多个处理器执行时,使得所述一个或多个处理器执行:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。

本申请实施例还提出了一种计算机程序产品,当所述计算机程序产品被设备中的一个或多个处理器执行时,使得所述一个或多个处理器执行:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1