一种上下文web页面合并方法

文档序号:6426889阅读:202来源:国知局
专利名称:一种上下文web页面合并方法
技术领域
本发明涉及一种对具有上下文关系的多个web页面的合并方法,属于web页面制作技术领域。
背景技术
随着互联网的高速发展,web网络已经成为世界上最大的信息来源。web网络的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。但是,整个web网络是由无数的web页面构成的。web页面的海量性、多样性、动态性和半结构化等特性增加了对其内容进行自动处理的难度。当前,人们普遍使用手机、平板电脑等移动通信终端访问we b网络。当阅读具有上下文关系的web页面时,需要在阅读完每页内容后点击下一页链接才能看到下一页的内容。这种繁琐的操作不利于阅读,并且大大降低了获取信息的效率。为了适应移动互联网蓬勃发展的现实需求,满足用户高效便捷地阅读web页面的实际需要,使彼此之间具有关联关系的web页面实现有效合并的技术课题摆在有关技术人员面前。在此背景下,一些相应的技术解决方案也就应势而生。例如在专利号为ZL 200710160352. 3的中国发明专利中,公开了一种可将不同网页的单元信息截取、合并的方法,包括以下步骤1)客户端输入一个或多个网址,在客户端生成对应的各个显示网页内容的子页面;幻客户端将各个子页面的网页内容解析成信息单元后,用户从各个子页面选取要截取的信息单元;幻客户端再次获取各个网址的网页内容,解析成信息单元,并与用户选取的信息单元比较,筛选出用户选取的信息单元合并至新生成的客户端浏览窗口。该技术方案可以把任一网页的内容根据用户需要把一到多个内容合并到一个阅读窗口,大大提高了用户获取信息的效率。另外,在专利号为ZL 200810059(^6.8的中国发明专利中,进一步提出了一种网页区块剪取、合并的方法。该方法是先在客户端输入一个或多个网址,通过网页区块选择子系统给各个子页面的网页内容增加鼠标事件,用户通过鼠标拖拉从各个子页面选取要剪取的区块,然后由网页区块合并子系统将用户选中的区块都合并到用户的个人门户,完成页面的设置。该技术方案可以让用户在自己的个人门户就可以浏览所需的网络资源,方便地引进第三方服务,大大提高了用户的网络使用效率。但是,以上述发明专利为代表的现有技术普遍缺乏对web页面的语义分析环节, 不能完全满足对具有动态性和半结构化特性的web页面的处理要求。

发明内容
本发明所要解决的技术问题在于提供一种对具有上下文关系的多个web页面的合并方法。该合并方法通过对web页面进行深入分析,显著改善了上下文web页面的合并效果。为实现上述的发明目的,本发明采用下述的技术方案
一种上下文web页面合并方法,其特征在于对于具有上下文关系的多个web页面中的某个web网页,首先对所述web页面的内容进行分析,提取其中的上下文链接信息并进行相应的下载,根据下载的内容扩展上下文,并将扩展的上下文内容进行消重,按顺序重新合并成新的单一 web页面。其中,在对所述web页面的内容进行分析之前,首先确认所述web页面中给定的网页地址已经下载完成,并且经完整展示后生成文档对象模型树。在对所述web页面的内容进行分析之前,进一步确认所述web页面中的IFame、 Frame已经下载完成,所需要的JavaScript、CSS已经下载完成,图片参数已经获得且Ajax 已经执行完成。在对所述web页面的内容进行分析之后,基于所述文档对象模型树将所述web页面拆分成在视觉上无法进一步拆分的块元素,进而生成视觉块。在生成视觉块之后,进行提取标题块和正文块的操作,以便识别出正文区域。所述上下文链接信息通过如下步骤获得(1)遍历各个web页面中所有视觉块在文档对象模型树中对应节点的href内容, 找到与所述web页面中相似的视觉块,根据视觉块的数量进行加权;(2)对于步骤⑴中找到的相似的视觉块,根据与正文区域的距离进行加权;(3)将href内容根据与输入的web页面进行相似度匹配,相似程度越高则权重越高,将权重最高的块确定为多页链接块。在消重步骤中,消重的要素为正文内容,将正文内容相同的web页面视为同一页面。在排序步骤中,排序的要素包括web页面中的数字特征和多页特征、web页面中链接文字的页码特征。在合并步骤中,进行加入页面分割标记的操作。本发明所提供的上下文web页面合并方法创造性地引入了 web页面的语义分析技术,从而使web页面中的上下文关系更加清晰明确,页面合并的效率和质量大大提高。


下面结合附图和具体实施方式
对本发明做进一步的详细说明。图1为本发明所提供的上下文web页面合并方法的实施流程图。
具体实施例方式与现有技术相比较,本发明的一个显著特点在于在进行上下文web页面合并操作的过程中,对web页面的内容进行分析,然后提取其中的上下文链接信息并进行相应的下载,根据下载的内容自动扩展上下文,并将扩展的上下文内容进行消重,按顺序重新合并成新的单一 web页面。下面对此展开具体的说明。如图1所示,本发明处理的原始数据是一个具有上下文关系的多个web页面中的某个web网页。对于该web网页,首先要确保其已经下载完成,并且经完整展示后生成 DOM(文档对象模型)树。这其中具体包括如下内容> IFame、Frame等已经下载完成
4
IFame是指web页面中内嵌的框架,Frame是指web页面中的框架。由于待分析的部分内容在Frame里面,因此必须要等待IFame、Frame等下载完成。>所需要的JavaScript、CSS已经下载完成这是因为CSS (Cascading Style Sheets,层叠样式表)会严重影响web页面的可视化元素,JavaScript ( 一种广泛用于客户端web开发的脚本语言,常用来给web页面添加动态功能)会部分影响web页面的数据。>图片参数已经获得该要求的主要目的是分析图片的长宽等参数。> Ajax已经执行完成Ajax 全称为 Asynchronous JavaScript and XML (异步 JavaScript 禾口 XML),是一种创建交互式网页应用的网页开发工具。Ajax会影响web页面中部分内容的生成。在给定的web网页已经下载完成之后,接下来的工作是生成web页面的视觉块。块元素是指将web页面拆分成的块状结构。每一个块元素在视觉上无法进一步拆分。块元素的内部属性应该是相似的,例如都是文本、链接或者图片等。生成块元素的拆分原则为>根据DOM树中的标签名称来决定是否进行拆分例如Block类型通常进行拆分,Inline类型通常不进行拆分。如果Block类型的标签内部都是文本节点,不含有其他的Block类型,则无需拆分。>根据边框内容决定是否拆分例如内部只是列表和文字,没有其他更小的矩形框,不进行拆分;内部还存在更小的局限边框,或者是背景色反差比较大,有明确的分割条,进行进一步拆分。>根据背景色决定是否拆分例如背景色反差比较大,且面积较大,进行进一步拆分;反之不拆分。>根据标签内部是否有明确的分割条决定是否拆分例如如果一个标签内有明确的分割条,或者内部有一条细线,或者有一整条背景色比较深,或者有背景图片、图片看上去是一条线,则遇到这种标签需要继续进行拆分。>由于IFrame的特殊性,在分析的时候可能预先不知道其宽高,且不能像其他节点那样进行遍历,故需要进行拆分。生成块元素后,为了进行内容分析,需要将相似块进行合并。相似块是指标签的名称一样、类别相同,字体、字号、字重、颜色都非常相似。例如资讯的正文通常都是由许多
标签组成,如果正文的主标签内部有相关新闻列表或者评论的区域,相应的块元素中会有大量相互联系的
标签,可以根据各自的特性进行合并。在生成视觉块之后,可以进行提取标题块和正文块的操作,以便识别出正文区域。提取标题块的具体步骤为首先输入主体块(该主体块根据视觉块在整个web网页中占据的位置和面积予以确定)在DOM树中对应的根节点,然后遍历各个视觉块在DOM 树中对应的块节点,对块节点的各项内容进行分别加权,例如对可能为标题的内容的长度、 字号、字重、对齐方式、文本长度等分别进行加权,认定其中权值最大的视觉块为标题。此处的判断是统计一批(例如10万个)web页中,标题长度、字号、字重、对齐方式、文本长度等维度信息,将其结果作为权重依据。
提取正文块的具体步骤为首先输入主体块在DOM树中对应的根节点,然后遍历标题块在DOM树中对应的父节点。以标题块为基础向下扫描,直到扫描到明确的结束块或者扫描完主体块为止。这里的结束块是一些视觉块的概念集合,范围包括表示前后web页面连接特征的连接块、表示版权声明的版权块以及作者块、评论块、相关信息块等。然后,推测统计文字信息,例如个数、字体、字重、颜色、背景色等。接着,以标题为基础,向下扫描过滤掉非主体字体块。在该步骤中,首先要找到符合统计要求的主体字符,以背景与主体块背景一致的字符作为正文的开始,接着遍历标题块在DOM树中对应节点的兄弟节点,直至满足三个条件1.字符覆盖是否达到主体字符的 90%以上;2.是否有明确的分割线(明线分割、图像分割或背景色明显的分割条);3.是否是具有上下文连接特征的分页块。在以上三个条件都为是的情况下,认为找到正文的结尾处。如果还有任何一个条件不为是,则继续遍历标题块的兄弟节点,直至上述三个条件都满足为止。在找到正文结尾处之后,合并正文开始处到结尾处为正文块(也称正文区域)。在针对单个web页面的分析完成之后,接下来分析多个web页面以便提取其中的多页链接块。具体操作如下(1)遍历各个web页面中所有视觉块在DOM树中对应节点的href (hypertext reference, HTML链接源)内容,找到与输入的web页面中相似的视觉块,根据视觉块的数量进行加权;(2)对于上一步找到的相似的视觉块,根据与正文区域块的距离进行加权;在这一步骤中,首先通过web页面的还原技术模拟出页面中的视觉块在网页整体显示中的坐标和长宽(单位是像素),进而通过这些信息计算出某个视觉块与正文区域块之间的距离。(3)将href内容根据与输入的web页面进行相似度匹配,相似程度越高则权重越高,将权重最高的块确定为多页链接块。在这一步骤中,相似度匹配基于以下几个特征进行加权1. href内容指向的web网页,其非数字部分的文字内容和出现位置,及数字部分出现的位置的相似性。例如 http://a. com/news/112121212. html,与 http://a. com/ news/21212, html 相似度加权就会较高,而与 http://a. com/112121212/news. html 相似度加权就会较低2. href内容指向的web网页,本身具有一定的页码特征,例如末尾有“? page = XX” "xxx_01. html”等特征,就会有较高的加权。3.href内容本身具有文字特征,例如某些href会在页面上显示诸如“第X 页” “[1]” “3”等文字。对于上述步骤确定的多页链接块,进一步提取其中多页链接的标题和正文内容。 具体而言,多页链接块中得到的上下文页面的web网页,会作为网页萃取的下一个输入参数,从而得到其标题和正文内容。例如多页连接块中得到urll……url5等5个链接; urll……url5作为网页萃取的输入,通过web页面的萃取可以提取出标题和正文的内容信
肩、ο接下来,对于多个web页面中的其它web页面(即urll、url2、url3……),继续使用上述步骤进行相应的下载,根据下载的内容自动扩展上下文,将新出现的多页链接块记录下来,直到找不到新的多页链接块为止。这样就完成了对多个web页面的信息分析,接下来需要对分析出的众多页面内容进行合并。具体操作如下首先,对分析出的页面内容进行消重,消重的要素主要为正文内容,将正文内容相同的web页面视为同一页面。接下来,对分析出的多个web页面进行排序。排序的要素包括web页面中的数字特征和多页特征(例如较明显的XXX ? page = 1等),web页面中链接文字的页码特征,及分析多个web页面中新发现的web页面的顺序等。最后,按照上述的排序结果将各个web页面的文字内容进行连接、合并,就生成了与输入的web网页有上下文关系的所有正文内容按顺序合并的结构化信息。在连接、合并的过程中,包括加入页面分割标记等操作。上面对本发明所述的上下文web页面合并方法进行了详细的说明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说,在不背离本发明的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。
权利要求
1.一种上下文web页面合并方法,其特征在于对于具有上下文关系的多个web页面中的某个web网页,首先对所述web页面的内容进行分析,提取其中的上下文链接信息并进行相应的下载,根据下载的内容扩展上下文,并将扩展的上下文内容进行消重,按顺序重新合并成新的单一 web页面。
2.如权利要求1所述的上下文web页面合并方法,其特征在于在对所述web页面的内容进行分析之前,首先确认所述we b页面中给定的网页地址已经下载完成,并且经完整展示后生成文档对象模型树。
3.如权利要求2所述的上下文web页面合并方法,其特征在于在对所述web页面的内容进行分析之前,进一步确认所述we b页面中的IFame、Frame 已经下载完成,所需要的Jav必cript、CSS已经下载完成,图片参数已经获得且Ajax已经执行完成。
4.如权利要求2所述的上下文web页面合并方法,其特征在于在对所述web页面的内容进行分析之后,基于所述文档对象模型树将所述web页面拆分成在视觉上无法进一步拆分的块元素,进而生成视觉块。
5.如权利要求4所述的上下文web页面合并方法,其特征在于在生成视觉块之后,进行提取标题块和正文块的操作,以便识别出正文区域。
6.如权利要求4所述的上下文web页面合并方法,其特征在于所述上下文链接信息通过如下步骤获得(1)遍历各个web页面中所有视觉块在文档对象模型树中对应节点的href内容,找到与所述web页面中相似的视觉块,根据视觉块的数量进行加权;(2)对于步骤(1)中找到的相似的视觉块,根据与正文区域的距离进行加权;(3)将href内容根据与输入的web页面进行相似度匹配,相似程度越高则权重越高,将权重最高的块确定为多页链接块。
7.如权利要求1所述的上下文web页面合并方法,其特征在于在消重步骤中,消重的要素为正文内容,将正文内容相同的web页面视为同一页面。
8.如权利要求1所述的上下文web页面合并方法,其特征在于在排序步骤中,排序的要素包括web页面中的数字特征和多页特征、web页面中链接文字的页码特征。
9.如权利要求1所述的上下文web页面合并方法,其特征在于在合并步骤中,进行加入页面分割标记的操作。
全文摘要
本发明公开了一种上下文web页面合并方法。对于具有上下文关系的多个web页面中的某个web网页,首先对web页面的内容进行分析,提取其中的上下文链接信息并进行相应的下载,根据下载的内容扩展上下文,并将扩展的上下文内容进行消重,按顺序重新合并成新的单一web页面。本发明创造性地引入了web页面的语义分析技术,从而使web页面中的上下文关系更加清晰明确,页面合并的效率和质量大大提高。
文档编号G06F17/30GK102207974SQ20111017112
公开日2011年10月5日 申请日期2011年6月23日 优先权日2011年6月23日
发明者王东胜 申请人:天津海量信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1