一种中文网页主题内容的提取方法

文档序号:6656202阅读:160来源:国知局

专利名称::一种中文网页主题内容的提取方法
技术领域
:本发明属于计算机应用和信息抽取领域,特别涉及一种中文网页的主题内容提取方法。
背景技术
:随着hternet技术及其环境的不断成熟与发展,互联网已经成为人们获取信息资源不可或缺的方式。互联网海量信息的爆炸式产生,“数据丰富,知识缺乏”这一问题越来越突出当我们通过WEB浏览网页时,会发现并不是所有呈现在屏幕的信息都与主题相关,它通常包含着大量的广告、导航、版权信息以及各种交互式操作接口(如调查问卷等)。这些与主题无关的信息不仅造成了用户信息浏览的负担,还给基于网页主题内容的应用系统带来了实施和开发上的困难。因此,能够快速准确的提取网页的主题内容是一项基于TOB内容应用服务的关键技术。它不但能提高各种基于内容服务的应用系统的准确性,还能大大的提升其工作效率,同时还更直接的减轻用户信息浏览的负担。信息抽取领域的专家一直尝试着借助计算机来解决这些与主题无关的信息带来的麻烦。网页内容的抽取通常会基于模版或分块两种方法。基于模版的方法,一般来讲至少需要自顶向下的比较两棵来自相同模版的DOM(DocumentObjectModel)树,找到它们之间相同的子树并去除,把剩余的部分作为主题内容。实验证明该方法是可行有效的,但该方法的局限在于机器学习了一套网页模版并不一定能重用到其他网页集合上。除此之外,我们还应该注意到机器学习的计算代价也是相当可观的。由于人们访问网络的随机性,使得这样的方法并不能实时有效的提取网页的主题内容。基于分块的方法分支较多,比较有代表性的主要有基于纯DOM树的网页分块、基于视觉信息的网页分块(Vision-basedPageSegmentation:VIPS)以及基于特定标签的网页分块。由于DOM的最早引入是为了在浏览器中进行布局显示而不是进行WEB页面的语义描述,在未引入补充信息之前,基于纯DOM的分块方法单凭其提供的标签层次关系是不能完全胜任内容提取工作的。基于视觉信息的网页分块利用WEB页面的视觉提示如backgroundcolor>fontcolor>fontsize、bold等信息,结合DOM提供的层次结构进行页面的分块,并把它应用在了TREC2003的测评中,取得了较好的效果。但由于视觉特征的复杂性,很难有一个通用的规则集。除此之外,VIPS算法还需要保存大量的视觉信息,其处理性能随着页面的复杂程度急剧下降。由于早期互联网流行既定的几种布局,也有人根据〈table〉标签把网页分成若干个内容块。这样分块流程非常简单,但面对日益复杂的页面,处理效果往往不能令人满意。综上所述,现有的方法要么算法流程过于简单,只能针对特定标签的网页风格进行内容提取;要么算法复杂度过高(基于模版的机器学习或者复杂的视觉计算),都直接导致无法实时的处理人们随机的页面访问。
发明内容本发明就是针对上述
背景技术
中的不足之处,而提出的一种中文网页的主题内容提取方法。该方法不依赖于单个网页文档之外的信息,仅依据各个原子(不可再分)结点的内部特征信息,结合中文网页的语言描述特点,有效提取主题内容。本发明的目的是通过如下技术措施来实现的。一种中文网页主题内容的提取方法,该方法使用的硬件部分包括DOM生成部件、DOM处理部件、结点融合部件、结点特征分析部件、结点元素过滤器、过滤器临时结果分析部件,该方法包括以下步骤(1)DOM生成部件使用网页数据流的副本,生成DOM对象;(2)DOM处理部件结合页面类型信息,将步骤(1)中获得的DOM对象根据不同的页面类型执行相应的处理,计算结点的特征信息,并保存处理结果;所述特征信息包括当前结点的文字密度S(b)和链接密度θ(b);(3)对于上述步骤(2)中保存的处理结果,结点融合部件根据相邻结点间的特征信息,计算相似性,若相似条件为真,则合并相邻结点中相同的字段,保留前一个结点,舍弃后一个结点(下文称作,融合操作);(4)结点特征分析部件使用步骤(3)中融合后的结点集合,依据每相邻的三个结点的特征信息,将结点划分为“内容结点”与“噪声结点”两大类;(5)结点过滤器对步骤(4)中留下的“噪声结点”以及一些拥有特殊标签的“内容结点”进行多层过滤,每一次的过滤结果都使用过滤器临时结果分析部件进行保存;经过分析后得出最优的结点集合作为提取后的主题内容。在上述技术方案中,该方法可以根据客户的需求,利用媒体检测压缩部件返回网页包含的图片、视频等媒体信息,使用上述步骤(5)提供的结点集合,媒体检测压缩部件会检测该网页是否包含媒体信息,定位与文档相关的媒体信息,并对其进行压缩、缓存到本地。在上述技术方案中,步骤(2)中所述的DOM处理部件包括页面类型猜测模块、文档预处理模块、结点计算模块,其具体工作步骤如下(3-1)将获取的网页数据流保存一份副本,以备容错处理;(3-2)从DOM对象的〈title〉结点和<H1>结点提取标题信息;(3-3)调用文档预处理模块,过滤掉当前DOM对象所包含的注释信息,还有脚本、样式、以及Flash等交互结点;(3-4)调用页面类型猜测模块,猜测目标页面的类型,若为内容型页面,则顺序执行以下步骤;若为目录型页面,则直接执行(3-7)的步骤;(3-5)调用结点计算模块,遍历DOM对象中剩下的结点,忽略〈applet〉、〈button〉等交互结点,以及<b>、<u>等修饰结点;计算其它剩下的每个结点的文字密度δ(b)和链接密度θ(b),并保存以上的计算结果,以及结点的文字信息、DOM操作接口等;其计算公式如下权利要求1.一种中文网页主题内容的提取方法,该方法使用的硬件部分包括DOM生成部件、DOM处理部件、结点融合部件、结点特征分析部件、结点元素过滤器、过滤器临时结果分析部件,其特征在于该方法包括以下步骤(1)DOM生成部件使用网页数据流的副本,生成DOM对象;(2)DOM处理部件结合页面类型信息,将步骤(1)中获得的DOM对象根据不同的页面类型执行相应的处理,计算结点的特征信息,并保存处理结果;所述特征信息包括当前结点的文字密度S(b)和链接密度θ(b);(3)对于上述步骤(2)中保存的处理结果,结点融合部件根据相邻结点间的特征信息,计算相似性,若相似条件为真,则合并相邻结点中相同的字段,保留前一个结点,舍弃后一个结点;(4)结点特征分析部件使用步骤(3)中融合后的结点集合,依据每相邻的三个结点的特征信息,将结点划分为“内容结点”与“噪声结点”两大类;(5)结点过滤器对步骤(4)中留下的“噪声结点”以及拥有特殊标签的“内容结点”进行多层过滤,每一次的过滤结果都使用过滤器临时结果分析部件进行保存;经过分析后得出最优的结点集合作为提取后的主题内容。2.根据权利要求1所述的一种中文网页主题内容的提取方法,其特征在于该方法利用媒体检测压缩部件返回网页包含的图片、视频媒体信息,使用上述步骤(5)提供的结点集合,媒体检测压缩部件会检测该网页是否包含媒体信息,定位与文档相关的媒体信息,并对其进行压缩、缓存到本地。3.根据权利要求1所述的一种中文网页主题内容的提取方法,其特征在于步骤(2)中所述的DOM处理部件包括页面类型猜测模块、文档预处理模块、结点计算模块,其具体工作步骤如下(3-1)将获取的网页数据流保存一份副本,以备容错处理;(3-2)从DOM对象的〈title〉结点和<H1>结点提取标题信息;(3-3)调用文档预处理模块,过滤掉当前DOM对象所包含的注释信息,还有脚本、样式、以及Flash交互结点;(3-4)调用页面类型猜测模块,猜测目标页面的类型,若为内容型页面,则顺序执行以下步骤;若为目录型页面,则直接执行(3-7)的步骤;(3-5)调用结点计算模块,遍历DOM对象中剩下的结点,忽略〈applet〉、〈button〉交互结点,以及<b>、<u>修饰结点;计算其它剩下的每个结点的文字密度δ(b)和链接密度θ(b),并保存以上的计算结果,以及结点的文字信息、DOM操作接口;其计算公式如下L(b)表示当前结点的文字行数,T(b)表示当前结点的文字长度,maxLen表示屏幕一行最多所能包含的字符长度,T’(b)代表行数大于1的结点文字长度(不包含最后一行),Ta(b)表示当前结点及其子孙结点中,所有<a>结点的字符长度之和;(3-6)将(3-5)中的处理结果进行保存,以备后续部件进行操作;(3-7)若猜测页面类型为目录型,则使用(3-1)保存的网页数据流副本,重新生成DOM对象,并重新遍历对象中的<a>结点,返回目录内容。4.根据权利要求1所述的一种中文网页主题内容的提取方法,其特征在于步骤(3)中所述的结点融合部件包括原子结点相似度计算模块和结点融合模块,其具体工作步骤如下原子结点相似度计算模块遍历步骤(2)保存的处理结果中的每个结点,依据公式3计算每相邻的2个结点的δ(b)和链接密度θ(b),判断两者是否相似,若达到经验阈值ε为0.1则结点融合模块进行融合操作,最终使得相邻的每两个结点的区分度足够大;其中,α、β.为两类值的权重I(6(b)-Stb))*α+(θ(b)-θ'(b))*β|<ε(公式;3)5.根据权利要求1所述的一种中文网页主题内容的提取方法,其特征在于步骤(4)中所述的结点特征分析部件针对步骤(3)中产生的区分度足够大的结点集合,循环遍历该集合中的每个结点,并对结点前后的邻居及其本身进行如下判断(5-1)判断条件(a)是否成立,条件(a)为假,则将当前结点归为噪声结点;(5-2)条件(a)为真,则需要判断条件(b)是否成立,若条件(b)为假,则判断条件(c)是否成立,若条件(c)为假,则将当前结点归为内容结点;(5-3)若条件(c)为真,则判断条件(d)是否成立,若条件(d)为真,则将当前结点归为噪声结点,反之,将当前结点归为内容结点;(5-4)若条件(b)为真,则判断条件(e)是否成立,若条件(e)为假,则将当前归为内容结点,若条件(e)为真,则需要判断条件⑴是否成立,若条件⑴为假,则将当前结点归为内容结点,反之则需要判断条件(g)是否成立,若条件(g)成立,则将当前结点归为噪声结点,反之将其归为内容结点;其中条件(a),当前结点的链接密度是否小于经验阈值0.353333;条件(b),前一个结点的链接密度是否小于经验阈值0.555556;条件(c),当前结点的文字密度是否小于经验阈值0.555556;条件(d),下一个结点的文字密度是否小于经验阈值0.353333;条件(e),当前结点的文字密度是否小于经验阈值0.488889;条件(f),下一个结点的文字密度是否小于等于经验阈值0.555556;条件(g),前一个结点的文字密度是否小于等于经验阈值0.353333。6.根据权利要求1所述的一种中文网页主题内容的提取方法,其特征在于步骤(5)中所述的结点过滤器、过滤器临时结果分析部件,其具体工作步骤如下(6-1)使用结点过滤器A过滤掉空白、无效的噪声结点;(6-2)使用结点过滤器B对内容结点中的〈Span〉与<TD>结点进行过滤首先判断当前结点所包含的字符长度是否大于经验阈值4,若为假则过滤之,反之则保留;然后判断当前结点是否包含具有语义分割功能的标点符号,若为假则过滤之,反之则保留;操作结果由过滤器临时结果分析部件的数据统计模块进行保存;(6-3)使用结点过滤器C过滤掉网页数据中包含的不规范的<P>结点信息,将操作结果保存于过滤器临时结果分析部件;由于W3C标准建议<P>结点不应该包含其它容器结点,因此本条过滤规则的判断标准为<P>结点是一个单层结点;(6-4)使用结点过滤器C过滤掉网页数据中包含的不规范的<TD>结点信息,将操作结果保存于过滤器临时结果分析部件;由于未闭合的<TD>结点通常容易错误的包含其它容器结点,因此本条过滤规则的判断标准为<TD>结点是一个单层结点;(6-5)使用结点过滤器C过滤掉网页数据中包含的不规范的<DIV>结点信息,将操作结果保存于过滤器临时结果分析部件;由于未闭合的<DIV>结点通常容易错误的包含其它容器结点,因此本条过滤规则的判断标准为<DIV>结点是一个单层结点;(6-6)过滤器临时结果分析部件对上述操作产生的结果对象进行降序排列,首先依据该对象中的分隔符统计量进行,若该字段相等,则依据字符长度进行;遍历有序的结果集合,找出第一个满足以下条件的结果;分隔符统计量大于等于经验阈值2,并且文字密度大于经验阈值0.28;(6-7)若结果为空,则使用(3-1)保存的网页数据流保存一份副本,重新生成DOM对象,并利用DOM处理部件遍历对象中的每个结点,只针对<P>,<TD>,<PRE>,以及<DIV>结点进行对应的过滤,储存,并将该集合作为提取的网页主题内容;判断该网页内容中的文字密度,如果不为0,则执行下步操作;(6-8)使用(3-1)保存的网页数据流副本,重新生成DOM对象,并利用DOM处理部件遍历对象中的每个结点,只针对<a>结点进行过滤,存储,返回目录内容。全文摘要本发明属于计算机应用和信息抽取领域,提供一种中文网页的主题内容提取方法,该方法是将网页数据转换成DOM对象后,在对其进行融合,分类,过滤操作,最后返回提取的网页内容。本发明操作方便,适用范围广,既不依附于特定的软、硬件,也不依赖于特定的网页模版;大量实验结果表明,本方法针对不同风格的中文新闻网页,能有效的排除页面中的“噪声”信息,提取主题内容,具有较高的实用性。文档编号G06F17/30GK102156737SQ20111009073公开日2011年8月17日申请日期2011年4月12日优先权日2011年4月12日发明者刘清堂,向丹丹,吴林静,邵明博申请人:华中师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1