web页面内的公共块元素的结构化识别方法和装置与流程

文档序号:12008104阅读:153来源:国知局
web页面内的公共块元素的结构化识别方法和装置与流程
本发明涉及移动互联网技术领域,尤其涉及一种web页面内的公共块元素的结构化识别方法和装置。

背景技术:
随着移动终端的普及,例如智能手机、平板电脑等,无线转码技术日渐蓬勃发展,从资源丰富的PC页面抽取重要的数据资源是无线转码技术所要解决的主要问题。

技术实现要素:
本发明旨在至少解决上述技术问题之一。为此,本发明的第一个目的在于提出一种web页面内的公共块元素的结构化识别方法。该方法将HTML中半结构化数据转换为结构化数据,便于前端根据这些元素进行用户界面设计和交互重构,以组装成便于手机等移动终端浏览、内容丰富、展现多样化的wap页面。本发明的第二个目的在于提出一种web页面内的公共块元素的结构化识别装置。为了实现上述目的,本发明第一方面实施例的web页面内的公共块元素的结构化识别方法,包括以下步骤:检测所述web页面内的元素;将所述元素与预先定义的公共块元素进行匹配识别;对匹配成功的元素进行结构化抽取。根据本发明实施例的web页面内的公共块元素的结构化识别方法,将web页面内的元素与预先定义的公共块元素进行匹配,并且对匹配成功的元素进行结构化识别,由此将HTML中半结构化数据转换为结构化数据,便于前端根据这些元素进行用户界面设计和交互重构,以组装成便于手机等移动终端浏览、内容丰富、展现多样化的wap页面。为了实现上述目的,本发明第二方面实施例的web页面内的公共块元素的结构化识别装置,包括:检测模块,所述检测模块用于检测所述web页面内的元素;匹配识别模块,所述匹配模块用于将所述元素与预先定义的公共块元素进行匹配识别;抽取模块,所述识别模块用于对匹配成功的元素进行结构化抽取。根据本发明实施例的web页面内的公共块元素的结构化识别装置,将web页面内的元素与预先定义的公共块元素进行匹配,并且对匹配成功的元素进行结构化识别,由此将HTML中半结构化数据转换为结构化数据,便于前端根据这些元素进行用户界面设计和交互重构,以组装成便于手机等移动终端浏览、内容丰富、展现多样化的wap页面。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,图1是根据本发明一个实施例的web页面内的公共块元素的结构化识别方法的流程图;图2(a)、(b)、(c)、(d)、(e)和(f)是栏目块的示例图;图3是本发明实施例的对匹配成功的栏目块进行识别的流程图;图4(a)、(b)是翻页块的示例图;图5是本发明实施例的对匹配成功的翻页块进行识别的流程图;图6(a)、(b)是导航块的示例图;图7是本发明实施例的对匹配成功的主导航块进行识别的流程图;图8是根据本发明一个实施例的web页面内的公共块元素的结构化识别装置的结构示意图。具体实施方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。下面参考附图描述根据本发明实施例的web页面内的公共块元素的结构化识别方法和装置。一种web页面内的公共块元素的结构化识别方法,包括以下步骤:检测web页面内的元素;将元素与预先定义的公共块元素进行匹配识别;对匹配成功的元素进行结构化抽取。图1是根据本发明一个实施例的web页面内的公共块元素的结构化识别方法的流程图。如图1所示,web页面内的公共块元素的结构化识别方法包括以下步骤。S101,检测web页面内的元素。S102,将元素与预先定义的公共块元素进行匹配识别。具体地,预先定义的公共块元素可以是PC网页上具有相同的结构语义功能但与具体内容、页面类型无关的一段HTML片段。其中,预先定义的公共块元素可以根据PC网页的特点预先设置。S103,对匹配成功的元素进行结构化抽取。例如,抽取出公共块元素内的文本、链接、图片等网页资源,然后根据抽取结果按照预定义的格式组成前端易处理的结构化文本,其中,可采用现有的多种抽取方法进行抽取。根据本发明实施例的web页面内的公共块元素的结构化识别方法,将web页面内的元素与预先定义的公共块元素进行匹配,并且对匹配成功的元素进行结构化识别,由此将HTML中半结构化数据转换为结构化数据,便于前端根据这些元素进行用户界面设计和交互重构,以组装成便于手机等移动终端浏览、内容丰富、展现多样化的wap页面。在本发明的一个实施例中,预先定义的公共块元素可包括栏目块、导航块或翻页块等。下面分别描述对匹配成功的栏目块、导航块或翻页块的结构化识别过程。图2是栏目块的示例图,其中,A为对应页面的栏目块范围,B为对应页面的栏目标题,C为对应页面的栏目内容,A’为对应代码结构的栏目块节点,B’为对应代码结构的栏目标题节点,C’为对应代码结构的栏目内容节点。其中,栏目块的类型有以下三种:(1)栏目标题和栏目内容分别对应1个DOM节点,且有父节点包裹,如图2(a)、(b)所示。其中,DOM即文档对象模型(DocumentObjectModel),是一个来自W3C的成熟标准,DOM是一种在浏览器内编程的模型,同时也是XML(eXtensibleMarkupLanguage,可扩展标记语言)的主要接口。(2)栏目标题对应1个DOM节点,栏目内容对应多个DOM节点,有父节点包裹,如图2(c)、(d)所示。(3)栏目标题对应1个DOM节点,栏目标题对应1个或者DOM节点,无父节点包裹,如图2(e)、(f)所示。图3是本发明实施例的对匹配成功的栏目块进行识别的流程图。如图3所示,对匹配成功的栏目块进行识别包括以下步骤。S301,根据栏目块的标题特征识别出标题节点。其中,标题节点如图2中B和B’所示。S302,识别栏目块中的重复父节点。S303,判断识别重复父节点是否存在一个相邻节点是标题节点。S304,如果是,则将重复父节点和相邻节点识别为包含标题节点的内容块组。S305,如果否,则将重复父节点识别为缺乏标题节点的内容块。在本发明的一个实施例中,还包括以下步骤:识别栏目块中的最小重复父节点,其中对于重复父节点不包含其他的重复父节点则为最小重复父节点;以及将最小重复父节点识别为缺乏标题节点的内容块。重复上述步骤,直至页面中再无重复父节点。由此,对于栏目块,完成了栏目块的块粒度的识别,实现栏目标题和栏目内容的块内结构化。图4是翻页块的示例图,如图4(a)为序列模式的翻页块,图4(b)为2)上下页模式的翻页块。具体地,根据翻页块常见的两种形态,定义翻页块有如表1所示的组成元素:表1对于一个潜在的翻页块,可以寻找该节点下的翻页块的块内元素,具体地如表2所示。表2图5是本发明实施例的对匹配成功的翻页块进行识别的流程图。如图5所示,对匹配成功的翻页块进行识别包括以下步骤。S501,根据翻页块的锚文本和链接特征的关键特征字识别出多个翻页节点。具体地,如上表2所示为翻页块的关键特征字,根据这些关键特征字列表进行字符匹配以识别出多个翻页节点。S502,判断多个翻页节点是否存在最小公共父节点。S503,如果存在,则将多个翻页节点识别为翻页块的翻页块节点。S504,如果不存在,则多个翻页节点不为翻页块的翻页块节点。在本发明的一个实施例中,有些翻页块的翻页链接有可能是不连续的,如图4(a)所示的翻页块,首先,判断翻页块的所述多个翻页块节点的序列是否完整;如果否,则抽取多个翻页块节点的页码文本信息和翻页链接,例如,很多论坛上的翻页块是这样的:123…1052,其中仅显示页码文本信息为1、2和3的翻页链接,其他页码的翻页链接未显示,需要计算缺失页码的翻页链接;获取多个翻页块节点的共同链接特征;判断多个翻页块节点中除共同链接特征之外的特征是否为数字且多个数字组成等差数列;以及如果是,则根据多个数字获取缺失页码对应的所述翻页链接。如,页码1的翻页链接为http://lady.163.com/12/7NTKKB4200264IJ10.html,页码2的翻页链接为http://lady.163.com/12/7NTKKB4200264IJ20.html,页码3的翻页链接为http://lady.163.com/12/7NTKKB4200264IJ30.html,则获取3个翻页链接的共同特征为,http://lady.163.com/12/7NTKKB4200264IJ,除共同特征之外的都为数字,且构成等差数列,如10、20、30构成等差数列,则可以推算出页面4的翻页链接为http://lady.163.com/12/7NTKKB4200264IJ40.html,依次类推获取翻页块中所有缺失页码的翻页链接。应当理解,以上的翻页链接仅为举例说明。图6(a)、(b)是导航块的示例图。一方面对导航块进行识别可以采用基于朴素贝叶斯的机器学习方法识别。另一方面,当页面上有多个导航块时候,定义页面上靠近主体部分,样式突出的导航块为页面主导航块,如图6(b),主导航块是站长希望突出表示的导航块,具体识别过程如图7所示。图7是本发明实施例的对匹配成功的主导航块进行识别的流程图。如图7所示,对匹配成功的主导航块进行识别包括以下步骤。S701,判断背景色最深的导航块和背景色次深的导航块的差值是否大于预定阈值。S702,如果背景色最深的导航块和背景色次深的导航块的差值大于预定阈值,则将背景色最深的导航块识别为主导航块。其中,该主导航块可标识为type1。其中,例如预设阈值为50。S703,如果背景色最深的导航块和背景色次深的导航块的差值不大于预定阈值,判断是否存在平均字体最大的导航块。S704,如果存在平均字体最大的导航块,则将平均字体最大的导航块识别为主导航块。其中,该主导航块可标识为type2。S705,如果不存在平均字体最大的导航块,则判断是否存在加粗比例最大的导航块。S706,如果存在加粗比例最大的导航块,则将加粗比例最大的导航块识别为主导航块。其中,该主导航块可标识为type3。S707,如果不存在加粗比例最大的导航块,则将最靠近页面主体的导航块识别为主导航块。其中,该主导航块可标识为type4。为了实现上述实施例,本发明还提出一种web页面内的公共块元素的结构化识别装置。一种web页面内的公共块元素的结构化识别装置,包括:检测模块,检测模块用于检测web页面内的元素;匹配识别模块,匹配模块用于将元素与预先定义的公共块元素进行匹配识别;抽取模块,识别模块用于对匹配成功的元素进行结构化抽取。图8是根据本发明一个实施例的web页面内的公共块元素的结构化识别装置的结构示意图。如图8所示,web页面内的公共块元素的结构化识别装置包括:检测模块100、匹配识别模块200和抽取模块300。具体地,检测模块100用于检测web页面内的元素。匹配识别模块200将元素与预先定义的公共块元素进行匹配识别,其中,预先定义的公共块元素可以是PC网页上具有相同的结构语义功能但与具体内容、页面类型无关的一段HTML片段,预先定义的公共块元素可以根据PC网页的特点预先设置。抽取模块300用于对匹配成功的元素进行结构化抽取,例如,抽取出公共块元素内的文本、链接、图片等网页资源,然后根据抽取结果按照预定义的格式组成前端易处理的结构化文本,其中,可采用现有的多种抽取方法进行抽取根据本发明实施例的web页面内的公共块元素的结构化识别装置,将web页面内的元素与预先定义的公共块元素进行匹配,并且对匹配成功的元素进行结构化识别,由此将HTML中半结构化数据转换为结构化数据,便于前端根据这些元素进行用户界面设计和交互重构,以组装成便于手机等移动终端浏览、内容丰富、展现多样化的wap页面。在本发明的一个实施例中,预先定义的公共块元素可包括栏目块、导航块或翻页块等。下面分别描述对匹配成功的栏目块、导航块或翻页块的结构化识别过程。在本发明的一个实施例中,匹配识别模块200用于:根据栏目块的标题特征识别出标题节点;识别栏目块中的重复父节点;识别重复父节点的相邻节点是否存在一个相邻节点是标题节点;如果是,则将重复父节点和相邻节点识别为包括标题节点的内容块组;如果否,则将重复父节点识别为缺乏标题节点的内容块。在本发明的一个实施例中,匹配识别模块200进一步用于:识别栏目块中的最小重复父节点;以及将最小重复父节点识别为缺乏标题节点的内容块。以上为匹配识别模块200识别栏目块的过程,可参考对应的方法实施例理解。在本发明的一个实施例中,匹配识别模块200用于:根据翻页块的锚文本和链接特征的关键特征词识别出多个翻页节点;判断多个翻页节点是否存在最小公共父节点;以及如果存在,则将多个翻页节点识别为所述翻页块的翻页块节点。在本发明的一个实施例中,有些翻页块的翻页链接有可能是不连续的,如图4(a)所示的翻页块,匹配识别模块200还用于:判断翻页块的所述多个翻页块节点的序列是否完整;如果否,则抽取多个翻页块节点的页码文本信息和翻页链接,例如,很多论坛上的翻页块是这样的:123…1052,其中仅显示页码文本信息为1、2和3的翻页链接,其他页码的翻页链接未显示,需要计算缺失页码的翻页链接;获取多个翻页块节点的共同链接特征;判断多个翻页块节点中除共同链接特征之外的特征是否为数字且多个数字组成等差数列;以及如果是,则根据多个数字获取缺失页码对应的所述翻页链接。以上为匹配识别模块200识别翻页块的过程,可参考对应的方法实施例理解。在本发明的一个实施例中,匹配识别模块200用于:判断背景色最深的导航块和背景色次深的导航块的差值是否大于预定阈值;如果背景色最深的导航块和背景色次深的导航块的差值大于预定阈值,则将背景色最深的导航块识别为主导航块;如果背景色最深的导航块和背景色次深的导航块的差值不大于预定阈值,判断是否存在平均字体最大的导航块;如果存在平均字体最大的导航块,则将平均字体最大的导航块识别为主导航块;如果不存在平均字体最大的导航块,则判断是否存在加粗比例最大的导航块;如果存在加粗比例最大的导航块,则将所述加粗比例最大的导航块识别为主导航块:如果不存在加粗比例最大的导航块,则将最靠近页面主体的导航块识别为主导航块。以上为匹配识别模块200识别导航块的过程,可参考对应的方法实施例理解。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1