一种基于wvp_dom树相似性的网页不变形噪音过滤方法

文档序号:9249249阅读:475来源:国知局
一种基于wvp_dom树相似性的网页不变形噪音过滤方法
【技术领域】
[0001]本发明属于网页主题提取领域,主要是一种基于WVP_DOM树相似性的网页不变形噪音过滤方法。
【背景技术】
[0002]近年来,互联网技术始终保持着快速发展的趋势,使用互联网的人群也呈现爆炸性的增长,目前互联网上已经形成了庞大的数据源并且这些数据源多以网页的形式存在。为快速准确从海量信息源中获取有用的信息,数据挖掘与web信息检索技术扮演越发重要的角色。可是网页往往不仅包含网页主题,还包含很多网页广告链接及相关推荐这类不相关的内容,即噪音信息。这些信息不仅影响用户的阅读体验,而且可能造成网页的主题偏移,使自动化应用在对网页进行分析时造成分析数据有所偏差从而降低了自动化应用处理速率及准确率。因此,研宄和实现高效、实用的web网页中广告等噪音信息过滤技术具有相当重要的意义。
[0003]目前已经存在对网页中的噪音信息进行过滤的方法,如2010年常红要在《基于标签分析的网页正文提取技术研宄》中提出的方法,该方法提出了一种基于区域分块的HTML元素删除法和内嵌式元素提取法,可提取网页正文。这种方法处理后的信息依然保持网页的格式,使网页在浏览器中显示的时候网页中的噪音信息无法显示出来,达到了网页噪音信息净化的目的。但是该方法往往存在一个问题,就是当网页噪音信息过滤时,可能改变了网页布局结构,从而导致网页变形,进而影响用户的阅读体验。图1为该论文的实验效果,上半部分为原网页,下部分为实验后效果,可以看出网页中右侧的噪音信息虽然得到过滤,但是网页中的页码发生了偏移,造成了网页变形。

【发明内容】

[0004]本发明的目的在于提供一种有效的改善网页噪音过滤后网页变形的一种基于WVP_DOM树相似性的网页不变形噪音过滤方法。
[0005]本发明的目的是这样实现的:
[0006](1)对网页进行预处理:将HTML网页文档转换成XHTML文档,排除文档中的格式及不规范错误;过滤掉网页中的脚本,注释及样式信息;将清洗后的主体内容构建成文档对象DOM树,标记出每个元素的视觉属性,属性包括垂直偏移,水平偏移,长和高信息,构建成基于视觉属性分析的文档对象WVP_DOM树;
[0007](2)利用现有方法在WVP_DOM树中识别噪音信息并标记;
[0008](3)遍历WVP_DOM树,具有相同的标签名称的相似结点为兄弟结点;
[0009](4)如果结点是噪音结点且无兄弟结点,回溯到父结点,继续查找父结点的相似结占.
[0010](5)如果结点是噪音结点且兄弟结点具有相似结构,则将结点删除,不会造成网页变形;
[0011](6)如果结点是噪音结点并且兄弟结点结构不相似并且所有兄弟结点均为噪音信息结点,则回溯到父结点,继续查找父结点的相似结点;
[0012](7)当步骤(4) (5) (6)均不满足时,若该结点标签为<td>、〈tr>标签,则认为具有相似结构,删除结点;否则该结点无相似结点,不删除该结点。
[0013]本发明的有益效果在于:
[0014]本发明提出基于WVP_DOM树相似性的网页不变形噪音过滤方法,针对传统网页去噪方法易导致网页变形的缺点做出改进,通过查找噪音信息相似结构的方式,来解决网页去噪后网页变形这一问题。从而使网页噪音信息过滤后对用户是无感的。既使噪音信息有效的过滤,又不影响用户的阅读体验。
【附图说明】
[0015]图1为传统网页去噪方法处理网页后造成网页变形。
[0016]图2为噪音信息过滤网页不变形方法流程图。
[0017]图3为查找WVP_DOM树相似结构说明图。
[0018]图4为传统方法网页变形图和本方法结果对比。
【具体实施方式】
[0019]下面结合具体实施例对本发明作更详细的描述:
[0020]本发明针对现有的网页噪音过滤方法往往导致网页结构改变,从而导致网页变形,进而影响用户阅读体验的缺点,提出了一种噪音过滤网页不变形方法,该方法首先将网页转化成一棵DOM树的变体,即WVP_DOM树,在WVP_DOM树中识别出网页的噪音信息,接着在树中查找噪音信息的相似结构,在找到相似结构的情况下,将噪音信息删除,否则回溯到其父结点。该方法可以有效的改善网页噪音过滤后网页变形这一缺点。
[0021]基于WVP_DOM树相似性的网页不变形噪音过滤方法,包括:
[0022]将网页文档转换成基于视觉属性分析的文档对象WVP_DOM,并判断对象中各结点是否是噪音结点;根据噪音结点的相似结构判断是否删除该结点。
[0023]WVP_DOM 的构建是:
[0024]首先将原本不严谨的HTML网页文档转换成XHTML文档,排除文档中的格式及不规范的问题;接着过滤掉网页中的脚本,注释及样式的信息,这些信息对噪音块判断作用不大,还会影响处理速度;最后将清洗后的主体内容构建成一棵变形的文档对象DOM树,并标记出每个元素的视觉属性,属性包括垂直偏移,水平偏移,长和高等信息,从而构建成一棵基于视觉属性分析的文档对象WVP_DOM树。
[0025]结点的相似结构是:
[0026]WVP_DOM树中,会有很多兄弟结点具有相同的标签名称,我们称这样的结点具有相似结点,两者具有相似结构,通常过滤掉这样的结点不会造成网页变形。
[0027]本发明的一种基于WVP_DOM树相似性的网页不变形噪音过滤方法具体包括以下步骤:
[0028]①WVP_DOM 树构建
[0029]②噪音信息识别
[0030]③使网页不变形的过滤噪音信息
[0031]本发明的一种基于WVP_DOM树相似性的网页不变形噪音过滤实施方法为:
[0032](I)对网页进行预处理。首先将原本不严谨的HTML网页文档转换成XHTML文档,排除文档中的格式及不规范的问题;接着过滤掉网页中的脚本,注释及样式的信息,这些信息对噪音块判断作用不大,还会影响处理速度;最后将清洗后的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1