正文相关的结构化数据的处理方法及装置制造方法

文档序号:6485937阅读:113来源:国知局
正文相关的结构化数据的处理方法及装置制造方法
【专利摘要】本发明公开了一种正文相关的结构化数据的处理方法及装置,属于互联网【技术领域】。所述方法包括:根据预设的候选分块节点的类型对网页的文档对象模型树中的节点进行分块处理,得到数个候选分块节点;候选分块节点的类型为用于存储网页的正文的标签对应的节点类型;滤除数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点得到数个分块节点;从数个分块节点中提取网页的正文相关的结构化数据;显示网页的正文相关的结构化数据。,网页的正文相关的结构化数据至少包括标题、正文信息和正文。本发明通过采用上述方案能够提供一种高效的提取并显示正文相关的结构化数据的技术方案。
【专利说明】正文相关的结构化数据的处理方法及装置
【技术领域】
[0001]本发明实施例涉及互联网【技术领域】,特别涉及一种正文相关的结构化数据的处理方法及装置。
【背景技术】
[0002]现有技术中,如WWW网页之类的网页主要为个人计算机(Personal Computer ;PC)端的浏览器设计。随着技术的发展及商业的驱动,近年来网页越来越复杂,包含的内容也越来越多,比如网页中可以包含导航、文本、链接、广告、JS等等各种复杂的内容。
[0003]伴随着移动互联网的快速发展以及如手机之类的移动设备的普及使用,用户可以随时随地的使用移动设备上网,因此,用户在如手机之类的移动设备上直接浏览网页的需求越来越大。
[0004]在实现本发明的过程中,发明人发现现有技术至少存在以下问题:由于复杂的网页的页面通常无法直接被移动设备的浏览器所支持,再加上移动网络以及移动设备屏幕受限等客观条件,为在移动设备上显示网页带来了一定的困难,使得用户通常无法在移动设备的浏览器上看到网页的正文相关的信息。因此,现有技术中亟需提供一种正文相关的结构化数据的处理方案,以能够从网页中提取并显示正文相关的结构化数据,从而能够实现在移动设备的浏览器上显示网页中的正文相关的结构化数据。

【发明内容】

[0005]为了解决现有技术的问题,本发明实施例提供了一种正文相关的结构化数据的处理方法及装置、移动设备。所述技术方案如下:
[0006]一方面,本发明实施例提供了一种正文相关的结构化数据的处理方法,所述方法包括:
[0007]根据预设的候选分块节点的类型对网页的文档对象模型树中的节点进行分块处理,得到数个候选分块节点;所述候选分块节点的类型为用于存储所述网页的正文的标签对应的节点类型;
[0008]滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点;
[0009]从所述数个分块节点中提取所述网页的正文相关的结构化数据,所述网页的正文相关的结构化数据中至少包括标题、正文信息和正文;
[0010]显示所述网页的正文相关的结构化数据。
[0011]可选地,如上所述的方法中,根据预设的候选分块节点的类型对网页的文档对象模型树中的节点进行分块处理,得到数个候选分块节点之后,滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之前,还包括:
[0012]当所述网页的文档对象模型树中的所述候选分块节点的相邻节点为非候选分块节点时,将所述候选分块节点的相邻节点整合为所述候选分块节点的子节点;和/或
[0013]当所述网页的文档对象模型树中还包括有与所述候选分块节点不相邻的非候选分块节点时,将所述不相邻的非候选分块节点打包为所述候选分块节点。
[0014]可选地,如上所述的方法中,滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点,包括:
[0015]对于所述数个候选分块节点中的每个候选分块节点,判断所述候选分块节点对应的文本长度与所述候选分块节点的相邻节点对应的文本长度之和与所述候选分块节点的父节点对应的文本长度的比例是否大于等于第一预设阈值;当大于等于时将所述候选分块节点作为所述分块节点,共得到所述数个分块节点;否则当小于时,滤除所述候选分块节点。
[0016]可选地,如上所述的方法中,滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之后,从所述数个分块节点中提取所述网页的正文相关的结构化数据之前,还包括:
[0017]对于所述数个分块节点中的每个分块节点,删除所述分块节点中与所述网页的正文相关的结构化数据无关的子节点。
[0018]可选地,如上所述的方法中,滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之后,从所述数个分块节点中提取所述网页的正文相关的结构化数据之前,还包括:
[0019]根据所述数个分块节点在所述网页的文档对象模型树中的位置,标识所述数个分块节点的父子关系;
[0020]从所述数个分块节点中提取所述网页的正文相关的结构化数据包括:结合所述数个分块节点的父子关系,从所述数个分块节点中提取所述网页的正文相关的结构化数据。
[0021]可选地,如上所述的方法中,结合所述数个分块节点的父子关系,从所述数个分块节点中提取所述网页的正文相关的结构化数据,包括:
[0022]遍历所述数个分块节点,从所述数个分块节点中提取标题块;
[0023]结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文信息块;
[0024]结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文块。
[0025]可选地,如上所述的方法中,遍历所述数个分块节点,从所述数个分块节点中提取标题块,包括:
[0026]遍历所述数个分块节点,从所述数个分块节点中提取包含有Hn标签的块;
[0027]判断包含有Hn标签的块中是否包括有所述网页的页面标题;当包含有Hn标签的块中包括有所述网页的页面标题时,将包含有Hn标签的块作为标题块。
[0028]可选地,如上所述的方法中,结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文信息块,包括:
[0029]结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块之后的预设距离范围内的子孙节点中获取包含有正文信息参数的正文信息块,所述正文信息参数包括发表时间、来源和作者;
[0030]结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文块,包括:
[0031]结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块和所述正文信息块之后的子孙节点中获取正文块。
[0032]可选地,如上所述的方法中,所述网页的正文相关的结构化数据中还包括二级导航块、字体选择块、翻页块、相关文章块、微薄分享块、版权声明块和回复块中的至少一种;
[0033]从所述数个分块节点中提取所述网页的正文相关的结构化数据,还包括如下至少一种:
[0034]结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块之前的父辈节点中获取包含有特定资符&gt且不包含句子的所述二级导航块;
[0035]结合所述数个分块节点的父子关系,从所述数个分块节点中位于所述正文信息块之后的子孙节点中获取包含有字体选择信息的所述字体选择块;
[0036]从所述数个分块节点中提取包括有页面指示信息的所述翻页块,所述页面指示信息包括上一页、下一页和连续数字串中的至少一种;
[0037]从所述数个分块节点中提取包括有链接标题和链接统一资源定位符的块,并当所述链接标题与所述网页的页面标题的相似度大于等于第二预设阈值,且所述链接统一资源定位符与所述网页的统一资源定位符的相似度大于等于第三预设阈值时,确定所述包括有链接标题和链接统一资源定位符的块为所述相关文章块;
[0038]从所述数个分块节点中提取包括有微薄分享特征信息的所述微薄分享块;
[0039]从所述数个分块节点中提取包括有版权声明特征信息的所述版权声明块;和
[0040]从所述数个分块节点中提取包括有回复特征信息的所述回复块。
[0041]另一方面,本发明实施例提供了一种正文相关的结构化数据的处理装置,所述装置包括:
[0042]分块处理模块,用于根据预设的候选分块节点的类型对网页的文档对象模型树中的节点进行分块处理,得到数个候选分块节点;所述候选分块节点的类型为用于存储所述网页的正文的标签对应的节点类型;
[0043]滤除模块,用于滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点;
[0044]数据提取模块,用于从所述数个分块节点中提取所述网页的正文相关的结构化数据,所述网页的正文相关的结构化数据中至少包括标题、正文信息和正文;
[0045]显示模块,用于显示所述网页的正文相关的结构化数据。
[0046]可选地,如上所述的装置中,还包括:整合模块,用于在所述分块处理模块根据预设的候选分块节点的类型对网页的文档对象模型树中的节点进行分块处理,得到数个候选分块节点之后,在所述滤除模块滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之前,当所述网页的文档对象模型树中的所述候选分块节点的相邻节点为非候选分块节点时,将所述候选分块节点的相邻节点整合为所述候选分块节点的子节点;和/或打包模块,用于当所述网页的文档对象模型树中还包括有与所述候选分块节点不相邻的非候选分块节点时,将所述不相邻的非候选分块节点打包为所述候选分块节点。
[0047]可选地,如上所述的装置中,滤除模块,具体用于对于所述数个候选分块节点中的每个候选分块节点,判断所述候选分块节点对应的文本长度与所述候选分块节点的相邻节点对应的文本长度之和与所述候选分块节点的父节点对应的文本长度的比例是否大于等于第一预设阈值;当大于等于时将所述候选分块节点作为所述分块节点,共得到所述数个分块节点;否则当小于时,滤除所述候选分块节点。
[0048]可选地,如上所述的装置中,还包括:删除模块,用于在所述滤除模块滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之后,所述数据提取模块从所述数个分块节点中提取所述网页的正文相关的结构化数据之前,对于所述数个分块节点中的每个分块节点,删除所述分块节点中与所述网页的正文相关的结构化数据无关的子节点。
[0049]可选地,如上所述的装置中,还包括标识模块;
[0050]所述标识模块,用于在所述滤除模块滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之后,所述数据提取模块从所述数个分块节点中提取所述网页的正文相关的结构化数据之前,根据所述数个分块节点在所述网页的文档对象模型树中的位置,标识所述数个分块节点的父子关系;
[0051]所述数据提取模块,具体用于结合所述数个分块节点的父子关系,从所述数个分块节点中提取所述网页的正文相关的结构化数据;
[0052]可选地,如上所述的装置中,所述数据提取模块,包括:
[0053]标题块提取单元,用于遍历所述数个分块节点,从所述数个分块节点中提取标题块;
[0054]正文信息块提取单元,用于结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文信息块;
[0055]正文块提取单元,用于结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文块。
[0056]可选地,如上所述的装置中,所述标题块提取单元,具体用于遍历所述数个分块节点,从所述数个分块节点中提取包含有Hn标签的块;并判断包含有Hn标签的块中是否包括有所述网页的页面标题;当包含有Hn标签的块中包括有所述网页的页面标题时,将包含有Hn标签的块作为标题块。
[0057]可选地,如上所述的装置中,所述正文信息块提取单元,具体用于结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块之后的预设距离范围内的子孙节点中获取包含有正文信息参数的正文信息块,所述正文信息参数包括发表时间、来源和作者;
[0058]所述正文块提取单元,具体用于结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块和所述正文信息块之后的子孙节点中获取正文块。
[0059]可选地,如上所述的装置中,所述网页的正文相关的结构化数据中还包括二级导航块、字体选择块、翻页块、相关文章块、微薄分享块、版权声明块和回复块中的至少一种;
[0060]所述数据提取模块,还包括如下至少一个单元:
[0061]二级导航块提取单元,用于结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块之前的父辈节点中获取包含有特定资符&gt且不包含句子的所述二级导航块;
[0062]字体选择块提取单元,用于结合所述数个分块节点的父子关系,从所述数个分块节点中位于所述正文信息块之后的子孙节点中获取包含有字体选择信息的所述字体选择块;
[0063]翻页块提取单元,用于从所述数个分块节点中提取包括有页面指示信息的所述翻页块,所述页面指示信息包括上一页、下一页和连续数字串中的至少一种;
[0064]相关文章块提取单元,用于从所述数个分块节点中提取包括有链接标题和链接统一资源定位符的块,并当所述链接标题与所述网页的页面标题的相似度大于等于第二预设阈值,且所述链接统一资源定位符与所述网页的统一资源定位符的相似度大于等于第三预设阈值时,确定所述包括有链接标题和链接统一资源定位符的块为所述相关文章块;
[0065]微薄分享块提取单元,用于从所述数个分块节点中提取包括有微薄分享特征信息的所述微薄分享块;
[0066]版权声明块提取单元,用于从所述数个分块节点中提取包括有版权声明特征信息的所述版权声明块;和
[0067]回复块提取单元,用于从所述数个分块节点中提取包括有回复特征信息的所述回复块。
[0068]本发明实施例提供的技术方案带来的有益效果是:
[0069]通过根据预设的候选分块节点的类型对网页的文档对象模型树中的节点进行分块处理,得到数个候选分块节点;该候选分块节点的类型为用于存储网页的正文的标签对应的节点类型;滤除数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点;从数个分块节点中提取网页的正文相关的结构化数据,本发明实施例中网页的正文相关的结构化数据中至少包括标题、正文信息和正文;并显示网页的正文相关的结构化数据。本发明实施例通过采用上述技术方案,能够弥补现有技术的不足,提供一种从网页中提取并显示正文相关的结构化数据的高效的技术方案。而且本发明实施例的技术方案,能够适合任何网页的正文相关的结构化数据的提取和显示,在有效提取正文相关的结构化数据的同时,避免提取广告模块,从而实现过滤正文中部分广告的功能。再者本发明实施例的技术方案还能够在提取出正文相关的结构化数据之后,并显示该正文相关的结构化数据,能够为用户提供一种清爽的阅读体验,以满足移动设备用户的需求。
【专利附图】

【附图说明】
[0070]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0071]图1为本发明实施例一提供的正文相关的结构化数据的处理方法流程图;
[0072]图2为现有技术中的一个Wffff网页;
[0073]图3A-图3C分别为对图2所示的WWW网页的正文相关的结构化数据进行处理后的网页;
[0074]图4为本发明实施例二提供的正文相关的结构化数据的处理装置的结构示意图;
[0075]图5为本发明实施例三提供的正文相关的结构化数据的处理装置的结构示意图。
【具体实施方式】[0076]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0077]实施例一
[0078]图1为本发明实施例一提供的正文相关的结构化数据的处理方法流程图。如图1所示,本实施例的正文相关的结构化数据的处理方法的执行主体具体可以为一正文相关的结构化数据的处理装置。本实施例的正文相关的结构化数据的处理方法,具体可以包括如下步骤:
[0079]100、根据预设的候选分块节点的类型对网页的文档对象模型(Document ObjectModel ;D0M)树中的节点进行分块处理,得到数个候选分块节点;
[0080]本实施例中候选分块节点的类型为用于存储网页的正文的标签对应的节点类型;例如现有技术中存储网页的正文的标签可以为DIV标签或者TABLE标签,此时对应的用于存储网页的正文的标签对应的节点类型可以称为DIV节点或者TABLE节点。但是随着技术的发展,将来还有可能采用其他类型的节点存储网页的正文,因此本发明实施例中用于存储网页的正文的标签对应的节点类型包括但不限制于仅包括DIV节点或者TABLE节点。
[0081]101、滤除数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点;
[0082]102、从数个分块节点中提取网页的正文相关的结构化数据;
[0083]103、显示网页的正文相关的结构化数据。
[0084]本实施例的网页的正文相关的结构化数据中至少包括标题、正文信息和正文。
[0085]本实施例的正文相关的结构化数据的处理方法,通过根据预设的候选分块节点的类型对网页的DOM树中的节点进行分块处理,得到数个候选分块节点;该候选分块节点的类型为用于存储网页的正文的标签对应的节点类型;滤除数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点;从数个分块节点中提取网页的正文相关的结构化数据,本实施例中网页的正文相关的结构化数据中至少包括标题、正文信息和正文;并显示网页的正文相关的结构化数据。本实施例通过采用上述技术方案,能够弥补现有技术的不足,提供一种从网页中提取并显示正文相关的结构化数据的高效的技术方案。而且本实施例的技术方案,能够适合任何网页的正文相关的结构化数据的提取和显示,在有效提取正文相关的结构化数据的同时,避免提取广告块,从而实现过滤正文中部分广告的功能。再者本实施例的技术方案还能够在提取出正文相关的结构化数据之后,,并显示该正文相关的结构化数据,能够为用户提供一种清爽的阅读体验,以满足移动设备用户的需求。
[0086]需要说明的是,现有技术中还提供有一种利用包装器(Wrapper)来抽取网页中感兴趣的内容。它根据一定的信息模式识别知识从特定的信息源中抽取相关内容,并以特定形式表示。但是由于网页结构的复杂性及不规范性,一个包装器的实现一般只能针对一个信息源即一个网页,另外获取信息模式识别知识也是一个费时和人工的过程。与该现有技术相比,本实施例的技术方案能够适用于所有网页,不需要对不同的网页设置不同的包装器,能够有效地节省包装器的使用以及维护成本。
[0087]可选地,在上述图1所示实施例的基础上,其中的步骤100 “对网页的DOM树中的节点进行分块处理,得到数个候选分块节点”之后,步骤101 “滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点”之前,还可以包括如下步骤(I)和/或(2):
[0088](I)当网页的DOM树中的候选分块节点的相邻节点为非候选分块节点时,将候选分块节点的相邻节点整合为候选分块节点的子节点;本实施例中的非候选分块节点的类型为用于存储网页的正文的标签对应的节点类型之外的其他节点类型;
[0089]本实施例中网页的DOM与网页的超文本标记语言(HyperText Markup Language ;HTML)标签相对应,DOM树中的每个节点与HTML标签中的一个标签对应,DOM与HTML标签两者采用不同的方式来表示网页的内容。为便于描述下述实施例均以候选分块节点为DIV节点或者TABLE节点为例描述本发明的技术方案。
[0090]本发明实施例中的相邻节点即指的是属于同一父节点的兄弟节点。此处的候选分块节点的相邻节点即指的是与该候选节点属于同一父节点节点、与该候选节点可以称之为兄弟节点的一些节点。
[0091]仍以候选分块节点为DIV节点或者TABLE节点为例,由于步骤(I)已经将网页的DOM树中的DIV节点或者TABLE节点划分出来,但是,由于DOM树中还会存在除DIV节点或者TABLE节点之外的其他节点,例如DIV节点或者TABLE节点的相邻节点类型可以为P节点、OBJECT节点或者SCRIPT节点等等其他类型的节点,此时可以将DIV节点或者TABLE节点的相邻节点整合至DIV节点或者TABLE节点中,作为DIV节点或者TABLE节点的子节点。
[0092](2)当网页的DOM树中还包括有与候选分块节点不相邻的非候选分块节点时,将不相邻的非候选分块节点打包为候选分块节点。
[0093]该步骤(2)用于当网页的DOM树中还存在不与DIV节点或者TABLE节点相邻的其他类型的节点,如P节点、OBJECT节点或者SCRIPT节点。此时可以将其他类型的节点打包为候选分块节点的类型,即用于存储网页的正文的标签对应的节点类型如DIV节点或者TABLE节点。
[0094]经上述分块处理之后,将DOM树处理为仅包括DIV节点和/或者TABLE节点。当分块处理之后的DOM树中包括两类用于存储网页的正文的标签对应的节点类型,如既包括DIV节点,又包括TABLE节点,此时可以定义两类节点中一类为主标签对应的节点,在后续步骤中标识数个分块节点的父子关系可以参考主标签对应的节点进行。例如可以取两类节点中节点数目较多的一类作为主标签对应的节点。
[0095]进一步可选地,在上述图1所示实施例的基础上,其中步骤101 “滤除数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点”,具体可以包括:对于数个候选分块节点中的每个候选分块节点,判断候选分块节点对应的文本长度与候选分块节点的相邻节点对应的文本长度之和与候选分块节点的父节点对应的文本长度的比例是否大于等于第一预设阈值;当大于等于时将候选分块节点作为分块节点,共得到数个分块节点;否则当小于时,滤除候选分块节点。
[0096]本实施例中,当候选分块节点对应的文本长度与候选分块节点的相邻节点对应的文本长度之和与候选分块节点的父节点对应的文本长度的比例小于第一预设阈值时,可以认为该候选分块节点用于存储网页的正文的概率小于预设概率阈值,此时可以滤除该候选分块节点;否则当候选分块节点对应的文本长度与候选分块节点的相邻节点对应的文本长度之和与候选分块节点的父节点对应的文本长度的比例大于等于第一预设阈值时,可以认为该候选分块节点用于存储网页的正文的概率大于等于预设概率阈值,此时可以滤除该候选分块节点。本实施例中的预设概率阈值即对应候选分块节点对应的文本长度与候选分块节点的相邻节点对应的文本长度之和与候选分块节点的父节点对应的文本长度的比例等于第一预设阈值的情况。本实施例中的第一预设阈值可以根据实际情况从0-1中选取,例如可以取0.65。
[0097]例如上述步骤101在实现的时候,可以先对数个候选分块节点中位于DOM树的最底层的候选分块节点进行处理,将DOM树中最底层的候选分块节点取出放入一个队列中,按照上述操作进行滤除处理,对这一层处理完毕,向DOM树的顶层方向再取出一层候选分块节点进行滤除操作,这样按照由DOM底层向顶层的方向逐层处理,在同一层可以按照从左到右的顺序依次处理,直到对所有候选分块节点进行处理,可以对数个候选分块节点进行滤除操作得到数个分块节点。
[0098]可选地,在上述图1所示实施例的基础上,其中步骤101 “滤除数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点”之后,步骤102 “从数个分块节点中提取网页的正文相关的结构化数据”之前,其方法还包括:,本实施例的正文相关的结构化数据的处理方法还可以包括:对于数个分块节点中的每个分块节点,删除分块节点中与网页的正文相关的结构化数据无关的子节点。例如对于如DIV节点中还包括=SCRIPT节点和OBJECT节点之类的子节点,根据现有技术可以知道这些节点与网页的正文的结构化数据无关,此时可以直接将这些子节点删除。经过上述步骤100和101的处理,这些子节点应该位于分块节点之中,该步骤直接将这些无关子节点删除,可以减少分块节点的内容,提高后续抽取网页的正文相关的结构化数据的效率。
[0099]进一步可选地,在上述图1所示实施例的基础上,其中步骤101 “滤除数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点”之后,102 “从数个分块节点中提取网页的正文相关的结构化数据”之前,其方法还包括:根据数个分块节点在所述网页的文档对象模型树中的位置,标识数个分块节点的父子关系;例如可以根据数个分块节点在网页的DOM树中的深度以及各分块节点之间的关系(如父子关系或者兄弟关系等等),可以按照DOM树中从顶到底的顺序对数个分块节点进行排序,并标识数个分块节点的父子关系。例如数据分块节点中的分块节点A和分块节点B,若在DOM树中,分块节点B为分块节点A的一个子孙节点,但是在数据分块节点中不存在DOM树中属于分块节点A的子孙节点,同时又属于分块节点B的父辈节点的其他节点,此时在数个分块节点中,将分块节点B标识为分块节点A的子节点。
[0100]此时对应的步骤102 “从所述数个分块节点中提取所述网页的正文相关的结构化数据”具体可以包括:“结合数个分块节点的父子关系,从数个分块节点中提取网页的正文相关的结构化数据”。该步骤具体可以包括:
[0101](a)遍历数个分块节点,从数个分块节点中提取标题块;
[0102]例如,具体可以包括:遍历数个分块节点,从数个分块节点中提取包含有Hn标签的块;判断包含有Hn标签的块中是否包括有网页的页面标题;当包含有Hn标签的块中包括有网页的页面标题时,将包含有Hn标签的块作为标题块。
[0103](b)结合数个分块节点的父子关系,从数个分块节点中提取正文信息块;
[0104]例如,具体可以包括:结合数个分块节点的父子关系,从数个分块节点中标题块之后的子孙节点中预设距离范围内的子孙节点中获取包含有正文信息参数的正文信息块,正文信息参数包括发表时间、来源和作者。
[0105](c)结合数个分块节点的父子关系,从数个分块节点中提取正文块。
[0106]例如,具体可以包括:结合数个分块节点的父子关系,从数个分块节点中标题块和正文信息块之后的子孙节点中获取正文块。
[0107]其中正文块包含的正文内容较多的时候,正文块可以有多个,当有多个正文块的时候,多个正文块可以位于一个分块节点中,也可以位于多个分块节点中。
[0108]需要说明的是,根据移动设备的用户的需求不同,本发明实施例中的网页的正文相关的结构化数据中还包括二级导航块、字体选择块、翻页块、相关文章块、微薄分享块、版权声明块和回复块中的至少一种。具体地,上述这些块具体都位于某一个或者多个分块节点中。
[0109]此时对应的步骤102 “从数个分块节点中提取网页的正文相关的结构化数据”,还包括如下至少一种:
[0110](i)结合数个分块节点的父子关系,从数个分块节点中标题块之前的父辈节点中获取包含有特定资符&gt且不包含句子的二级导航块;
[0111](ii)结合数个分块节点的父子关系,从数个分块节点中位于正文信息块之后的子孙节点中获取包含有字体选择信息的字体选择块;
[0112](iii)从数个分块节点中提取包括有页面指示信息的翻页块,页面指示信息包括上一页、下一页和连续数字串中的至少一种;
[0113](iv)从数个分块节点中提取包括有链接标题和链接统一资源定位符的块,并当链接标题与网页的页面标题的相似度大于等于第二预设阈值,且链接统一资源定位符(Uniform Resource Locator ;URL)与网页的URL的相似度大于等于第三预设阈值时,确定包括有链接标题和链接URL的块为相关文章块;
[0114](V)从数个分块节点中提取包括有微薄分享特征信息的微薄分享块;
[0115](Vi)从数个分块节点中提取包括有版权声明特征信息的版权声明块;和
[0116](Vii)从数个分块节点中提取包括有回复特征信息的回复块。
[0117]上述这些块都有一定的特征信息,详细可以参考相关现有技术,在此不再赘述。
[0118]且上述各个块都有一定的位置信息,还可以利用各个块的位置信息对已提取的块进行验证,当验证确定已提取的块有误,可以采用上述方式进行重新提取。
[0119]上述所有可选技术方案可以采用可以结合的方式任意结合构成本发明实施例的可选实施例,在此不再一一举例说明。
[0120]上述实施例的正文相关的结构化数据的处理方法,能够弥补现有技术的不足,提供一种从网页中提取并显示正文相关的结构化数据的高效的技术方案。而且本实施例的技术方案,能够适合任何网页的正文相关的结构化数据的提取和显示,在有效提取正文相关的结构化数据的同时,避免提取广告模块,从而实现过滤正文中部分广告的功能。再者本实施例的技术方案还能够在提取出正文相关的结构化数据之后,并显示该正文相关的结构化数据,能够为用户提供一种清爽的阅读体验,以满足移动设备用户的需求。
[0121]上述实施例的步骤100-102实现正文相关的结构化数据的提取,步骤103实现正文相关的结构树数据的显示。上述实施例的各方法步骤的全部或部分步骤可以通过软件程序来实现,或者也可以通过软件程序指令相关的硬件来完成。
[0122]例如图2为现有技术中的一个WWW网页。根据上述本发明实施例的正文相关的结构化数据的处理方法对图2所示的WWW网页的正文相关的结构化数据进行正文相关的结构化数据的处理,可以得到如图3A-图3C所示为对图2所示的网页进行正文相关的结构化数据处理后的显示的网页。
[0123]如图2和图3A,图3B和图3C所示,可以知道,采用上述实施例的技术方案能够在提取出正文相关的结构化数据之后,可以对网页进行重排版并显示,能够为用户提供一种清爽的阅读体验,以满足移动设备用户的需求。
[0124]根据上述实施例的记载,上述实施例中各步骤可以在移动设备的浏览器上来实现,其中实现正文相关的结构化数据提取的各步骤可以通过一个加载在浏览器上的插件或者工具来实现,显示正文相关的结构化数据的功能可以在浏览器上来实现。
[0125]实施例二
[0126]图4为本发明实施例二提供的正文相关的结构化数据的处理装置的结构示意图。如图4所示,本实施例的正文相关的结构化数据的处理装置,具体可以包括:分块处理模块
10、滤除模块11、数据提取模块12和显示模块13。
[0127]其中分块处理模块10用于根据预设的候选分块节点的类型对网页的DOM树中的节点进行分块处理,得到数个候选分块节点;该候选分块节点的类型为用于存储网页的正文的标签对应的节点类型;滤除模块11与分块处理模块10连接,滤除模块11用于滤除分块处理模块10处理得到的数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点数据提取模块12与滤除模块11连接,数据提取模块12用于从滤除模块11处理得到的数个分块节点中提取网页的正文相关的结构化数据,该网页的正文相关的结构化数据中至少包括标题、正文信息和正文;显示模块13与数据提取模块12连接,显示模块13用于显示数据提取模块12提取的正文相关的结构化数据。
[0128]本实施例的正文相关的结构化数据的处理装置,通过采用上述模块实现正文相关的结构化数据的处理与上述相关方法实施例的实现机制相同,详细亦可以参考上述相关方法实施例的记载,在此不再赘述。
[0129]本实施例的正文相关的结构化数据的处理装置,通过采用上述模块实现通过根据预设的候选分块节点的类型对网页的DOM树中的节点进行分块处理,得到数个候选分块节点;该候选分块节点的类型为用于存储网页的正文的标签对应的节点类型;滤除数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点;从数个分块节点中提取网页的正文相关的结构化数据,本实施例中网页的正文相关的结构化数据中至少包括标题、正文信息和正文;并显示网页的正文相关的结构化数据。本实施例通过采用上述技术方案,能够弥补现有技术的不足,提供一种从网页中提取并显示正文相关的结构化数据的高效的技术方案。而且本实施例的技术方案,能够适合任何网页的正文相关的结构化数据的提取和显示,在有效提取正文相关的结构化数据的同时,避免提取广告块,从而实现过滤正文中部分广告的功能。再者本实施例的技术方案还能够在提取出正文相关的结构化数据之后,并显示该正文相关的结构化数据,能够为用户提供一种清爽的阅读体验,以满足移动设备用户的需求。
[0130]实施例三[0131]图5为本发明实施例三提供的正文相关的结构化数据的处理的结构示意图。图5所示实施例的正文相关的结构化数据的处理装置在上述图4所示实施例的基础上,还可以包括如下技术方案。
[0132]如图5所示,本实施例的正文相关的结构化数据的处理装置中,还包括整合模块14和/或打包模块15,图5所示实施例以包括整合模块14和打包模块15为例。
[0133]其中整合模块14可以与分块处理模块10和滤除模块11连接;整合模块14用于在分块处理模块10根据预设的候选分块节点的类型对网页的文档对象模型树中的节点进行分块处理,得到数个候选分块节点之后,在滤除模块11滤除数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之前,当所述网页的文档对象模型树中的所述候选分块节点的相邻节点为非候选分块节点时,将候选分块节点的相邻节点整合为候选分块节点的子节点。滤除模块11用于滤除整合模块14处理得到的数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点。
[0134]打包模块15可以与整合模块14连接,打包模块15用于在整合模块14处理后,当网页的DOM树中还包括有与候选分块节点不相邻的非候选分块节点时,将不相邻的非候选分块节点打包为候选分块节点。
[0135]实际引用中,当不包括整合模块14的时候,打包模块15可以分别与分块处理模块10和滤除模块11连接。此时,滤除模块11用于滤除打包模块15处理得到的数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点。
[0136]可选地,本实施例的正文相关的结构化数据的处理装置中的滤除模块11具体用于对于数个候选分块节点中的每个候选分块节点,判断候选分块节点对应的文本长度与候选分块节点的相邻节点对应的文本长度之和与候选分块节点的父节点对应的文本长度的比例是否大于等于第一预设阈值;当大于等于时将候选分块节点作为分块节点,共得到数个分块节点;否则当小于时,滤除候选分块节点。进一步可选地,本实施例的正文相关的结构化数据的处理装置中还可以包括删除模块16。该删除模块16与滤除模块11连接,删除模块16用于在滤除模块11滤除数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之后,数据提取模块13从数个分块节点中提取网页的正文相关的结构化数据之前,对于滤除模块11处理得到的数个分块节点中的每个分块节点,删除分块节点中与网页的正文相关的结构化数据无关的子节点。此时对应的数据提取模块12可以与删除模块16连接,数据提取模块12从删除模块16处理后的数个分块节点中提取正文相关的结构化数据。
[0137]进一步可选地,本实施例的正文相关的结构化数据的处理装置中的;标识模块17与滤除模块11连接,标识模块17用于在滤除模块11滤除数个候选分块节点中存储网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之后,数据提取模块13从数个分块节点中提取网页的正文相关的结构化数据之前,根据滤除模块11滤除得到的数个分块节点在网页的DOM树中的位置,标识数个分块节点的父子关系。如图5所示,当本实施例的正文相关的结构化数据的处理装置中包括删除模块16时,标识模块17可以与删除模块16连接,用于根据删除模块16删除处理后得到的数个分块节点在网页的DOM树中的位置,标识数个分块节点的父子关系。[0138]数据提取模块12具体可以与标识模块17连接,用于结合标识模块17标识的数个分块节点的父子关系,从数个分块节点中提取网页的正文相关的结构化数据。如图5所示,数据提取模块12具体可以包括标题块提取单元121、正文信息块提取单元122和正文块提取单元123。
[0139]其中标题块提取单元121与删除模块16连接,标题块提取单元121用于遍历滤删除模块16处理得到的数个分块节点,从删除模块16处理得到的数个分块节点中提取标题块;正文信息块提取单元122分别与删除模块16和标识模块17连接,正文信息块提取单元122用于结合标识模块17标识的数个分块节点的父子关系,从删除模块16处理得到的数个分块节点中提取正文信息块;正文块提取单元123分别与删除模块16和标识模块17连接,正文块提取单元123用于结合标识模块17标识的数个分块节点的父子关系,从删除模块16处理得到的数个分块节点中提取正文块。
[0140]进一步可选地,标题块提取单元121具体用于遍历删除模块16处理得到的数个分块节点,从删除模块16处理得到的数个分块节点中提取包含有Hn标签的块;并判断包含有Hn标签的块中是否包括有网页的页面标题;当包含有Hn标签的块中包括有网页的页面标题时,将包含有Hn标签的块作为标题块。
[0141]进一步可选地,正文信息块提取单元122具体还可以与标题块提取单元121连接,正文信息块提取单元122具体用于结合标识模块17标识的数个分块节点的父子关系,从删除模块16处理得到的数个分块节点中标题块提取单元121提取的标题块之后的预设距离范围内的子孙节点中获取包含有正文信息参数的正文信息块,该正文信息参数包括发表时间、来源和作者。
[0142]进一步可选地,正文块提取单元123具体还可以与标题块提取单元121和正文信息块提取单元122连接,正文块提取单元123具体用于结合标识模块17标识的数个分块节点的父子关系,从删除模块16处理得到的数个分块节点中标题块提取单元121提取的标题块和正文信息块提取单元122提取的正文信息块之后的子孙节点中获取正文块。
[0143]此时对应的,标题块提取单元121、正文信息块提取单元122和正文块提取单元123还分别与显示模块13连接,显示模块13用于显示标题块提取单元121提取的标题快、正文信息块提取单元122提取的正文信息块和正文块提取单元123和正文块。
[0144]进一步可选地,本实施例中的网页的正文相关的结构化数据中还包括二级导航块、字体选择块、翻页块、相关文章块、微薄分享块、版权声明块和回复块中的至少一种;
[0145]此时对应的数据提取模块12还包括如下至少一个单元(图5未示出):
[0146]二级导航块提取单元,用于结合标识模块17处理得到的数个分块节点的父子关系,从删除模块16处理得到的数个分块节点中标题块之前的父辈节点中获取包含有特定资符&gt且不包含句子的二级导航块;
[0147]字体选择块提取单元,用于结合标识模块17处理得到的数个分块节点的父子关系,从删除模块16处理得到的数个分块节点中位于正文信息块之后的子孙节点中获取包含有字体选择信息的字体选择块;
[0148]翻页块提取单元,用于从删除模块16处理得到的数个分块节点中提取包括有页面指示信息的翻页块,页面指示信息包括上一页、下一页和连续数字串中的至少一种;
[0149]相关文章块提取单元,用于从删除模块16处理得到的数个分块节点中提取包括有链接标题和链接URL的块,并当链接标题与网页的页面标题的相似度大于等于第二预设阈值,且链接URL与网页的URL的相似度大于等于第三预设阈值时,确定包括有链接标题和链接URL的块为相关文章块;
[0150]微薄分享块提取单元,用于从删除模块16处理得到的数个分块节点中提取包括有微薄分享特征信息的微薄分享块;
[0151]版权声明块提取单元,用于从删除模块16处理得到的数个分块节点中提取包括有版权声明特征信息的版权声明块;和
[0152]回复块提取单元,用于从删除模块16处理得到的数个分块节点中提取包括有回复特征信息的回复块。
[0153]本实施例的正文相关的结构化数据的处理装置,通过采用上述模块实现正文相关的结构化数据的处理与上述相关方法实施例的实现机制相同,详细亦可以参考上述相关方法实施例的记载,在此不再赘述。
[0154]本实施例的正文相关的结构化数据的处理装置,以包括上述所有可选技术方案为例介绍本发明的技术方案,实际应用中,上述所有可选技术方案可以采用任意可结合的方式任意结合构成本发明的一种可选实施例,在此不再一一举例、
[0155]本实施例的正文相关的结构化数据的处理装置,通过采用上述模块实现的技术方案,能够弥补现有技术的不足,提供一种从网页中提取并显示正文相关的结构化数据的高效的技术方案。而且本实施例的技术方案,能够适合任何网页的正文相关的结构化数据的提取和显示,在有效提取正文相关的结构化数据的同时,避免提取广告块,从而实现过滤正文中部分广告的功能。再者本实施例的技术方案还能够在提取出正文相关的结构化数据之后,并显示该正文相关的结构化数据,能够为用户提供一种清爽的阅读体验,以满足移动设备用户的需求。
[0156]本发明实施例还可以提供一种移动设备,在该移动设备上设置有如上述图4或者图5所示实施例的正文相关的结构化数据的处理装置。详细可以参考上述实施例的记载,在此不再赘述。
[0157]需要说明的是:上述实施例提供的正文相关的结构化数据的处理装置在数据提取时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的正文相关的结构化数据的处理装置与正文相关的结构化数据的处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0158]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0159]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0160]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种正文相关的结构化数据的处理方法,其特征在于,所述方法包括: 根据预设的候选分块节点的类型对网页的文档对象模型树中的节点进行分块处理,得到数个候选分块节点;所述候选分块节点的类型为用于存储所述网页的正文的标签对应的节点类型; 滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点; 从所述数个分块节点中提取所述网页的正文相关的结构化数据,所述网页的正文相关的结构化数据中至少包括标题、正文信息和正文; 显示所述网页的正文相关的结构化数据。
2.根据权利要求1所述的方法,其特征在于,根据预设的候选分块节点的类型对网页的文档对象模型树中的节点进行分块处理,得到数个候选分块节点之后,滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之前,所述方法还包括: 当所述网页的文档对象模型树中的所述候选分块节点的相邻节点为非候选分块节点时,将所述候选分块节点的相邻节点整合为所述候选分块节点的子节点;和/或 当所述网页的文档对象模型树中还包括有与所述候选分块节点不相邻的非候选分块节点时,将所述不相邻的非候选分块节点打包为所述候选分块节点。
3.根据权利要求1所述的方法,其特征在于,滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点,包括: 对于所述数个候选分块节点中的每个候选分块节点,判断所述候选分块节点对应的文本长度与所述候选分块节点的相邻节点对应的文本长度之和与所述候选分块节点的父节点对应的文本长度的比例是否大于等于第一预设阈值;当大于等于时将所述候选分块节点作为所述分块节点,共得到所述数个分块节点;否则当小于时,滤除所述候选分块节点。
4.根据权利要求1所述的方法,其特征在于,滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之后,从所述数个分块节点中提取所述网页的正文相关的结构化数据之前,所述方法还包括: 对于所述数个分块节点中的每个分块节点,删除所述分块节点中与所述网页的正文相关的结构化数据无关的子节点。
5.根据权利要求1-4任一所述的方法,其特征在于,滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之后,从所述数个分块节点中提取所述网页的正文相关的结构化数据之前,所述方法还包括: 根据所述数个分块节点在所述网页的文档对象模型树中的位置,标识所述数个分块节点的父子关系; 从所述数个分块节点中提取所述网页的正文相关的结构化数据包括:结合所述数个分块节点的父子关系,从所述数个分块节点中提取所述网页的正文相关的结构化数据。
6.根据权利要求5所述的方法,其特征在于,结合所述数个分块节点的父子关系,从所述数个分块节点中提取所述网页的正文相关的结构化数据,包括: 遍历所述数个分块节点,从所述数个分块节点中提取标题块; 结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文信息块;结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文块。
7.根据权利要求6所述的方法,其特征在于,遍历所述数个分块节点,从所述数个分块节点中提取标题块,包括: 遍历所述数个分块节点,从所述数个分块节点中提取包含有Hn标签的块; 判断包含有Hn标签的块中是否包括有所述网页的页面标题;当包含有Hn标签的块中包括有所述网页的页面标题时,将包含有Hn标签的块作为标题块。
8.根据权利要求5所述的方法,其特征在于,结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文信息块,包括: 结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块之后的预设距离范围内的子孙节点中获取包含有正文信息参数的正文信息块,所述正文信息参数包括发表时间、来源和作者; 结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文块,包括: 结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块和所述正文信息块之后的子孙节点中获取正文块。
9.根据权利要求5所述的方法,其特征在于,所述网页的正文相关的结构化数据中还包括二级导航块、字体选择块、翻页块、相关文章块、微薄分享块、版权声明块和回复块中的至少一种; 从所述数个分块节点中 提取所述网页的正文相关的结构化数据,还包括如下至少一种: 结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块之前的父辈节点中获取包含有特定资符&gt且不包含句子的所述二级导航块; 结合所述数个分块节点的父子关系,从所述数个分块节点中位于所述正文信息块之后的子孙节点中获取包含有字体选择信息的所述字体选择块; 从所述数个分块节点中提取包括有页面指示信息的所述翻页块,所述页面指示信息包括上一页、下一页和连续数字串中的至少一种; 从所述数个分块节点中提取包括有链接标题和链接统一资源定位符的块,并当所述链接标题与所述网页的页面标题的相似度大于等于第二预设阈值,且所述链接统一资源定位符与所述网页的统一资源定位符的相似度大于等于第三预设阈值时,确定所述包括有链接标题和链接统一资源定位符的块为所述相关文章块; 从所述数个分块节点中提取包括有微薄分享特征信息的所述微薄分享块; 从所述数个分块节点中提取包括有版权声明特征信息的所述版权声明块;和 从所述数个分块节点中提取包括有回复特征信息的所述回复块。
10.一种正文相关的结构化数据的处理装置,其特征在于,所述装置包括: 分块处理模块,用于根据预设的候选分块节点的类型对网页的文档对象模型树中的节点进行分块处理,得到数个候选分块节点;所述候选分块节点的类型为用于存储所述网页的正文的标签对应的节点类型; 滤除模块,用于滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点; 数据提取模块,用于从所述数个分块节点中提取所述网页的正文相关的结构化数据,所述网页的正文相关的结构化数据中至少包括标题、正文信息和正文; 显示模块,用于显示所述网页的正文相关的结构化数据。
11.根据权利要求10所述的装置,其特征在于,还包括: 整合模块,用于在所述分块处理模块根据预设的候选分块节点的类型对网页的文档对象模型树中的节点进行分块处理,得到数个候选分块节点之后,在所述滤除模块滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之前,当所述网页的文档对象模型树中的所述候选分块节点的相邻节点为非候选分块节点时,将所述候选分块节点的相邻节点整合为所述候选分块节点的子节点;和/或打包模块,用于当所述网页的文档对象模型树中还包括有与所述候选分块节点不相邻的非候选分块节点时,将所述不相邻的非候选分块节点打包为所述候选分块节点。
12.根据权利要求10所述的装置,其特征在于,滤除模块,具体用于对于所述数个候选分块节点中的每个候选分块节点,判断所述候选分块节点对应的文本长度与所述候选分块节点的相邻节点对应的文本长度之和与所述候选分块节点的父节点对应的文本长度的比例是否大于等于第一预设阈值;当大于等于时将所述候选分块节点作为所述分块节点,共得到所述数个分块节点;否则当小于时,滤除所述候选分块节点。
13.根据权利要求10所述的装置,其特征在于,所述装置还包括: 删除模块,用于在所述滤除模块滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之后,所述数据提取模块从所述数个分块节点中提取所述网页的正文相关的结构化数据之前,对于所述数个分块节点中的每个分块节点,删除所述分块节点中与所述网页的正文相关的结构化数据无关的子节点。
14.根据权利要求10-13任一所述的装置,其特征在于,所述装置还包括标识模块; 所述标识模块,用于在所述滤除模块滤除所述数个候选分块节点中存储所述网页的正文的概率小于预设概率阈值候选分块节点,得到数个分块节点之后,所述数据提取模块从所述数个分块节点中提取所述网页的正文相关的结构化数据之前,根据所述数个分块节点在所述网页的文档对象模型树中的位置,标识所述数个分块节点的父子关系; 所述数据提取模块,具体用于结合所述数个分块节点的父子关系,从所述数个分块节点中提取所述网页的正文相关的结构化数据。
15.根据权利要求14所述的装置,其特征在于,所述数据提取模块,包括: 标题块提取单元,用于遍历所述数个分块节点,从所述数个分块节点中提取标题块; 正文信息块提取单元,用于结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文?目息块; 正文块提取单元,用于结合所述数个分块节点的父子关系,从所述数个分块节点中提取正文块。
16.根据权利要求15所述的装置,其特征在于,所述标题块提取单元,具体用于遍历所述数个分块节点,从所述数个分块节点中提取包含有Hn标签的块;并判断包含有Hn标签的块中是否包括有所述网页的页面标题;当包含有Hn标签的块中包括有所述网页的页面标题时,将包含有Hn标签的块作为标题块。
17.根据权利要求14所述的装置,其特征在于,所述正文信息块提取单元,具体用于结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块之后的预设距离范围内的子孙节点中获取包含有正文信息参数的正文信息块,所述正文信息参数包括发表时间、来源和作者; 所述正文块提取单元,具体用于结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块和所述正文信息块之后的子孙节点中获取正文块。
18.根据权利要求14所述的装置,其特征在于,所述网页的正文相关的结构化数据中还包括二级导航块、字体选择块、翻页块、相关文章块、微薄分享块、版权声明块和回复块中的至少一种; 所述数据提取模块,还包括如下至少一个单元: 二级导航块提取单元,用于结合所述数个分块节点的父子关系,从所述数个分块节点中所述标题块之前的父辈节点中获取包含有特定资符&gt且不包含句子的所述二级导航块; 字体选择块提取单元,用于结合所述数个分块节点的父子关系,从所述数个分块节点中位于所述正文信息块之后的子孙节点中获取包含有字体选择信息的所述字体选择块; 翻页块提取单元,用于从所述数个分块节点中提取包括有页面指示信息的所述翻页块,所述页面指示信息包括上一页、下一页和连续数字串中的至少一种; 相关文章块提取单元,用于从所述数个分块节点中提取包括有链接标题和链接统一资源定位符的块,并当所述链接标题与所述网页的页面标题的相似度大于等于第二预设阈值,且所述链接统一资源定位符与所述网页的统一资源定位符的相似度大于等于第三预设阈值时,确定所述包括有链接标题和链接统一资源定位符的块为所述相关文章块; 微薄分享块提取单元,用于从所述数个分块节点中提取包括有微薄分享特征信息的所述微薄分享块; 版权声明块提取单元,用于从 所述数个分块节点中提取包括有版权声明特征信息的所述版权声明块;和 回复块提取单元,用于从所述数个分块节点中提取包括有回复特征信息的所述回复块。
【文档编号】G06F17/30GK103491116SQ201210192678
【公开日】2014年1月1日 申请日期:2012年6月12日 优先权日:2012年6月12日
【发明者】蔡兵, 徐羽, 彭默 申请人:深圳市世纪光速信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1