启发式多特征规则集网页分块方法与流程

文档序号:12550749阅读:195来源:国知局
启发式多特征规则集网页分块方法与流程

本发明涉及一种页面分块方法,具体地,涉及一种启发式多特征规则集网页分块方法。



背景技术:

近年来,移动通信技术和互联网技术的发展和广泛应用,对人们的生活方式产生巨大影响。移动通信技术使人与人之间能够随时随地进行沟通,而互联网的发展使人们能迅速、快捷地获取丰富的信息资源。两种技术的结合使人们无论何时何地能通过移动终端自由地访问互联网的信息资源。目前绝大部分Web(网页)页面是为传统个人电脑而设计的,包括台式电脑和笔记本电脑,它们具有较大的屏幕和高分辨率。然而由于屏幕大小的物理局限、内存大小和无线网络带宽等因素的限制,移动终端直接访问已有的Web页面难以正常显示页面,Web页面的二维布局不适合移动终端屏幕显示。目前通常通过两种手段来解决这种问题:通过服务器进行页面转换或者使用网页缩略图。前者首先将用户访问的页面进行分页和转换,然后将分页的结果提交给移动设备;后者则是将整个Web页面生成缩略图,整个页面被分割为数目不等的区域,用户如果对特定区域感兴趣,则可以再次访问该区域的内容。通过这两个策略,基本可以完成移动终端访问互联网的内容,但是核心内容就是对页面进行语义分割。

如何对Web页面进行有效的分页,目前提出的VIPS(基于视觉信息的网页分块)算法,充分利用了页面的布局特点并从语义层次对页面进行划分,将视觉提示信息和DOM(文档对象模块)结合起来推断出可视化的内容结构。该算法以预定义的PDoC(页面预先定义的内聚度阀值,Permitted DegreeofCoherence)值作为迭代的终止条件,当各块的内聚度值大于PDoC值是迭代终止,预定义的终止条件影响了分块的效果。



技术实现要素:

针对现有技术中的缺陷,本发明的目的是提供一种启发式多特征规则集网页分块方法,其不需要事先定义PDoC值,方法简单可靠,网页分块效果好,便于服务器进行页面转换或使用网页缩略图,使移动端访问互联网的内容,并且在分块过程中获取了每个块的结构信息和内容信息,便于后续进行Web页面信息的提取和页面内容的重组。

根据本发明的一个方面,提供启发式多特征规则集网页分块方法,其特征在于,其包括以下步骤:

步骤一,调用VIPS算法将待操作的网页生成页面的块结构树;

步骤二,根据启发式多特征规则集对结构树进行裁剪;

步骤三,生成语义独立的块列表;

步骤二包括以下判断过程:

过程一,根据块间语义距离的推理规则确定当前块是否要继续分隔;

过程二,若过程一的结果为否,继续按照分割流程来判断是否继续分割;

过程三,将不需要分割的节点纳入块列表,需要分割的块对它的子节点同样进行检查;

推理规则包括:

规则一,两个节点所对应块的语义距离初始为零;

规则二,如果两个页面块的距离越远,则两个页面块的语义关系越不紧密;

规则三,如果两个页面块的背景色不同,但两个页面块相邻且两个页面块的宽度相差不超过30%且上面块的面积大于下面块的面积的一百倍,那么两个页面块间语义距离保持不变;

规则四,如果两个页面块的背景色不同且不是规则三的情况,那么两个页面块的语义关系不紧密,两个页面块间语义距离值加一;

规则五,如果两个页面块的字体大小不同且两个页面块不是上下相邻,那么两个页面块间语义距离值加一;

规则六,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积的一百倍小于下面块的面积,上面块的字体小于下面块的字体,那么两个页面块间语义距离值加一;

规则七,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积大于下面块的面积,那么两个页面块间语义距离值加一;

规则八,如果两个页面块的字体大小不同,两个页面块上下相邻且上面块的面积和下面块的面积相差不超过30%,那么两个页面块间语义距离值加一;

规则九,如果两个页面块的字体重量不同且两个页面块不是上下相邻,那么两个页面块间语义距离值加一;

规则十,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积的一百倍小于下面块的面积,上面块的字体重量小于下面块的字体重量,那么两个页面块间语义距离值加一;

规则十一,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积大于下面块的面积,那么两个页面块间语义距离值加一;

规则十二,如果两个页面块的字体重量不同,两个页面块上下相邻且上面块的面积和下面块的面积相差不超过30%,那么两个页面块间语义距离值加一;

规则十三,如果两个页面块不是兄弟块且其中一个块的父节点与另外一块为兄弟节点,那么两个页面块间语义距离等于父节点与其的块间语义距离加上父块与兄弟块间的语义距离;

分割流程包括:

流程一,若该块的内聚度为十一,则表明该块已经是叶子节点,不需要继续分割,否则进入流程二;

流程二,若该块是一个列表类型,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程三;

流程三,若该块是一个横向滚动条列表类型,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程四;

流程四,若该块的所有孩子节点的内聚度都是十一,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程五;

流程五,若该块的孩子节点是左右相邻的,则该块需要继续分割,否则进入流程六;

流程六,若该块的内聚度与其所有孩子节点的内聚度一致,表明父块内部结构的紧密程度与子块类似,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程七;

流程七,若该块有两个孩子,其中一个孩子节点的DoC值为十一,另一个孩子节点的DoC值与当前块值一致,且该孩子节点的孩子不是左右相邻的,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程八;

流程八,若上述流程中的条件都不满足,则该块需要继续分割,遍历其孩子节点,继续判断。

优选地,所述步骤三在生成语义独立的块列表的过程中获取每个块的结构信息和内容信息。

与现有技术相比,本发明具有如下的有益效果:本发明不需要事先定义PDoC值,方法简单可靠,网页分块效果好,便于服务器进行页面转换或使用网页缩略图,使移动端访问互联网的内容,并且在分块过程中获取了每个块的结构信息和内容信息,便于后续进行Web页面信息的提取和页面内容的重组。本发明方便服务器进行页面转换或是使用网页缩略图,从而完成移动终端访问互联网内容。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明的步骤流程图。

图2为本发明判断块节点是否需要分割的流程图。

图3为本发明耦合度随分割层次的变化曲线图。

图4为本发明内聚度随分割层次的变化曲线图。

图5为本发明J值随分割层次的变化曲线图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示,本发明启发式多特征规则集网页分块方法包括以下步骤:

步骤一,调用VIPS算法将待操作的网页生成页面的块结构树,将页面内聚度PDoC值设置为允许的最大值;

步骤二,根据启发式多特征规则集对结构树进行裁剪;

步骤三,生成语义独立的块列表;

步骤二包括以下判断过程:

过程一,根据块间语义距离的推理规则确定当前块是否要继续分隔;

过程二,若过程一的结果为否,继续按照分割流程来判断是否继续分割;

过程三,将不需要分割的节点纳入块列表,需要分割的块对它的子节点同样进行检查;

调用VIPS算法后,每个页面由树表示,树的每个节点对应于一个块,每个块由其结构信息、内容信息和内聚度组成,深度遍历块结构树,根据启发式多特征规则集对结构树进行裁剪,在每次迭代中,检查结构树当前层的每个块节点,确定它是否需要继续分割,如果能,则对它的子节点进行同样的检查,如果不能,则裁剪掉以该节点为父节点的子树;

推理规则包括以下规则:

规则一,两个节点所对应块的语义距离初始为零;

规则二,如果两个页面块的距离越远,则两个页面块的语义关系越不紧密,假设两个页面块间的距离为distance,故两个页面块间的语义距离增加distanc/l,其中1是规范因子,是整个页面的对角线长度;

规则三,如果两个页面块的背景色不同,但两个页面块相邻且两个页面块的宽度相差不超过30%且上面块的面积大于下面块的面积的一百倍,那么两个页面块间语义距离保持不变;

规则四,如果两个页面块的背景色不同且不是规则三的情况,那么两个页面块的语义关系不紧密,两个页面块间语义距离值加一;

规则五,如果两个页面块的字体大小不同且两个页面块不是上下相邻,那么两个页面块间语义距离值加一;

规则六,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积的一百倍小于下面块的面积,上面块的字体小于下面块的字体,那么两个页面块间语义距离值加一;

规则七,如果两个页面块的字体不同,两个页面块上下相邻,上面块的面积大于下面块的面积,那么两个页面块间语义距离值加一;

规则八,如果两个页面块的字体大小不同,两个页面块上下相邻且上面块的面积和下面块的面积相差不超过30%,那么两个页面块间语义距离值加一;

规则九,如果两个页面块的字体重量不同且两个页面块不是上下相邻,那么两个页面块间语义距离值加一;

规则十,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积的一百倍小于下面块的面积,上面块的字体重量小于下面块的字体重量,那么两个页面块间语义距离值加一;

规则十一,如果两个页面块的字体重量不同,两个页面块上下相邻,上面块的面积大于下面块的面积,那么两个页面块间语义距离值加一;

规则十二,如果两个页面块的字体重量不同,两个页面块上下相邻且上面块的面积和下面块的面积相差不超过30%,那么两个页面块间语义距离值加一;

规则十三,如果两个页面块不是兄弟块且其中一个块的父节点与另外一块为兄弟节点,那么两个页面块间语义距离等于父节点与其的块间语义距离加上父块与兄弟块间的语义距离;

分割流程包括以下流程:

流程一,若该块的内聚度为十一,则表明该块已经是叶子节点,不需要继续分割,否则进入流程二;

流程二,若该块是一个列表类型,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程三;

流程三,若该块是一个横向滚动条列表类型,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程四;

流程四,若该块的所有孩子节点的内聚度都是十一,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程五;

流程五,若该块的孩子节点是左右相邻的,则该块需要继续分割,否则进入流程六;

流程六,若该块的内聚度与其所有孩子节点的内聚度一致,表明父块内部结构的紧密程度与子块类似,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程七;

流程七,若该块有两个孩子,其中一个孩子节点的DoC值为十一,另一个孩子节点的DoC值与当前块值一致,且该孩子节点的孩子不是左右相邻的,则停止分割,以该节点为父节点的子树被裁减掉,否则进入流程八;

流程八,若上述流程中的条件都不满足,则该块需要继续分割,遍历其孩子节点,继续判断。

块间的耦合度可以根据块间语义距离来确定,耦合度的计算公式如下式(1):

公式(1)中,DoCL是块间的耦合度,SD是块间的语义距离。块间的语义距离用来衡量两个页面块之间的语义相关性,距离越大,说明两个页面块语义上越不相关。耦合度用来衡量页面块间语义的紧密关系。与块间语义距离块相反,块间语义距离越大,块间的耦合度就越小。

如图3至图4所示,当块较大的时候,由于块包含的主题较多,与其他块的语义有部分重叠,故块间的耦合度比较大,随着块的分割,每个块的语义越来越单一,与其他块的语义重叠部分较少,使得块间的耦合度不断地减少,但是如果块分割的过细,就会破坏语义的完整性,使得块间的耦合度增大,因此,随着分割层次的增加,当前叶子节点对应块之间的平均耦合度会不断地减少,直到达到最小值,然后会随着分割层次的增加不断地增大。内聚度是用来衡量块内部结构紧密性的,子块的内聚度总是大于或等于父块的内聚度,内聚度总是随着块的分割不断地增大,当块分割到一定的程度,其内聚度达到允许的最大值,因此,叶子节点对应块的平均内聚度则会随着分割层次的增加不断地增大,直到达到最大值。

根据耦合度和内聚度的变化趋势可以看出对于页面分割而言,当块与其他块的耦合度值较低,同时块的内聚度比较高的时候,页面的分割最好,因此根据内聚度高,耦合度低的原则,进行最大化下面的目标函数J,如下式(2):

公式(2)中,avg_DoCL是所有节点所对应块间的耦合度的平均值,如下式(3):

在一个有k个节点的集合块里,两两配对且不重复,则第1个节点与它配对的有k-1个块,第2个节点与它配对的有k-2个块,依次类推,则第k-1个节点与它配对的只有1个块,即第k个节点,所以一共有1+2+3+……k-1=k(k-1)/2对组合,而DoCL(i,j)代表集合块里节点i和节点j间的耦合度,∑i=1..kj≠i DoCL(i,j)表示所有配对块之间的耦合度值的总和,所以所有节点所对应块间的耦合度的平均值就是耦合度值的总和除以块间配对组合数,即公式(3)的表达。

avg_Doc是指所有节点所对应块的内聚度的平均值,如下式(4):

在一个有k个节点的集合块里,DoC(i)表示集合块里第i个节点的内聚度值,Σi=i..k DoC(i)表示所有k个节点内聚度值的总和,而集合里共有k个节点,所以所有节点所对应块的内聚度的平均值就是内聚度值的总和除以节点的个数,即公式(4)的表达。

目标函数J值的变化趋势如图5所示,对块结构树的每个节点进行检查,将分割前的J值Jbefore与分割后的J值Jafter进行比较,每次比较只考虑分割带来的局部影响,即某节点分割后对其兄弟节点的影响。假设有两个页面块集合A和B,A为某节点与其兄弟节点,B为某节点的子节点与该节点的兄弟节点,|A|表示集合A的大小,|B|表示集合B的大小,Jbefore是集合A中所有块的J值Jafter是集合B中所有块的J值,如果Jbefore≥Jafter,则该节点停止分割,以该节点为父节点的子树被裁减掉。

所述步骤三在生成语义独立的块列表的过程中获取每个块的结构信息和内容信息,这样便于后续进行Web页面信息的提取和页面内容的重组。

VIPS算法对页面进行划分,是通过预先定义的阀值PDoC控制分块的粒度。当PDoC值较大,页面块分的很细,当PDoC较小时,页面块分的很细。但对于不同的页面,采用同一PDoC值,会导致部页面块分得过细,而部分页面块分得过粗。而本发明不需要事先定义PDoC值,并且能够取得近似于或好于取最佳PDoC值的VIPS划分效果。

本发明在分块的过程中会获取每个块的结构信息:<起始点坐标,宽度,高度,字体大小,字体权重>,和内容信息:<图片数,图片大小,链接数,链接文字树,总文字,总文字长度,<Form>标签文字>,以便后续进行Web页面信息提取和页面内容重组。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1