一种网页主题确定的方法

文档序号:6491812阅读:209来源:国知局
一种网页主题确定的方法【专利摘要】本发明公开了一种网页主题确定的方法,包括如下步骤:确定自定义主题和获取网页主题的链接;所述获取网页主题的链接包括链接上下文的提取和局部扩散提取链接;所述局部扩散提取链接包括主题型语义块中链接上下文提取、目录型和图片型语义块中链接上下文提取和网页链接提取;本发明首先给出了基于布局标签的网页HTML标签文档划分方法,接着提出了块的概念,并对划分后的语义块进行位置编号,构造出带有编号的布局标签DOM树,最后基于网页块的位置进行主题的确定和主题链接的提取;使用户能迅速获取主题信息,扩展了Web的可用性,有助于解决信息抽取等一系列问题。【专利说明】一种网页主题确定的方法【
技术领域
】[0001]本发明涉及一种网络技术,特别是一种网页主题确定的方法;【
背景技术
】[0002]随着互联网的普及,信息技术的发展,形成了大量的信息资源;网络资源的不断丰富和网络信息量的不断膨胀,人们对网络的依赖性越来越强,却也给服务对象从浩如烟海的互联网资源中快速找到自己所需的特定资源带来了不便;由于服务对象的信息需求日趋多元化和个性化,不同的服务对象之间存在着明显的个性差异,尽管各种搜索引擎发挥着极其重要的作用,但随着搜索引擎中数据的不断增长和变化,要从大量的数据中迅速的找到并获得自己所需要的信息和服务,变得越来越困难,服务对象在查询信息时往往会迷失他们的目标或者是得到一些比较偏颇的结果,因此很多服务对象在浏览搜索结果时,往往花费大量的时间和精力查看一些与自己搜索的服务无关的页面,这使得很多服务对象对搜索引擎丧失信心,从而导致服务对象的流失;[0003]从海量的信息中抽取出有用的资源,是当前迫切需要解决的问题,而Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性,信息抽取有助于解决这一问题,信息抽取技术就是在这种背景下产生的;目前国内外研究较多的是从网上抽取一些具有格式的信息,如会议论文信息,商品信息,图书信息;这些研究的主要目的是要把网页中的无结构化数据或半结构化数据变成结构化数据;信息抽取的另外一个重要方向是提取出网页中的标题和正文等主题内容,利用网页的主题内容代替原始网页不仅能够缩短用户的浏览的时间,而且可以显著提高网页自动文摘和自动分类等应用的准确性;[0004]而在信息抽取中,如何确定网页主题的方法一直是广大学者研究和探索的对象,也是信息抽取中的难题;所以如何更好、更准确、更有效地确定网页主题将是本方法解决的重点;【
发明内容】[0005]本发明针对以上问题的提出,而研制一种利于信息采集技术,更好、更准确、更有效的网页主题确定的方法;[0006]本发明的技术手段如下:[0007]一种网页主题确定的方法,其特征在于包括如下步骤:[0008]A、确定自定义主题;[0009]Al、定制将被抽取的主题:列出网页内的所有主题和每一主题块内的链接,选择某一个或多个主题并归为已定义名称的主题;[0010]A2、当进行主题信息抽取时,首先分析网页结构,再找出所有的主题块,然后根据用户定制的主题块位置,抽取该主题块的所有链接作为主题信息抽取的入口地址,最后根据已定义的主题名称将信息分类存储;[0011]B、获取网页主题的链接:通过获取链接锚文本文档和该链接的上下文文档作为链接的描述文本;[0012]B1、链接上下文的提取;[0013]链接上下文提取算法基于网页的DOM树模型,对于不同类型的语义块中链接上下文的提取采用局部扩散算法;对于目录型语义块,根据非链接文字是对链接主题的说明将目录型语义块中所有的非链接文字作为每个链接的上下文,对主题型的链接上下文的提取,采用提取关键位置的内容作为链接上下文;[0014]B2、局部扩散提取链接;基于网页布局划分DOM树,对不同类型的语义块采用其对应的上下文提取策略;[0015]B21、主题型语义块中链接上下文提取;根据中文文本的语义是用符号隔开即其中逗号和句号之间的文本表不一个相对完整的语义,所以将链接锚文本前面一句和后面一句文本作为链接的上下文;[0016]B22、目录型和图片型语义块中链接上下文提取;将链接锚标签所在的目录型语义块或图片型语义块中非链接文字作为该链接的上下文,同时将语义块的划分节点定义为聚合节点;[0017]B23、网页链接提取;根据具有相同主题的链接放置在同一个布局标签内或者在其上下文的局部内,则在分析网页时按照布局标签将网页建立成一个布局标签树,当进行标签树建立时按照网页内的块进行划分,划分后的树是一棵由各个节点为块且具有标号的块组成,然后采用后序遍历标签树方式来发现主题块以及主题相关链接,选取链接数阈值为3即具有3个主题相关链接以上的块为主题块,其中选取步骤如下:[0018](I)输入主题型网页,建立布局标签树,初始化主题块队列,其中初始化用于存放主题块序号以及该主题下的链接;[0019](2)后序遍历下一个块,若为空则转到(5);[0020](3)判断该主题块内的链接数,如果小于3,转到(2);[0021](4)将主题块的位置序号以及主题下的相关链接插入;[0022](5)结束。[0023]由于采用了上述技术方案,本发明提供的一种网页主题确定的方法,通过对网页主题的定制和确定以及对网页自定义主题链接的发现进行了深入的方法研究;首先给出了基于布局标签的网页HTML标签文档划分方法,接着提出了块的概念,并对划分后的语义块进行位置编号,构造出带有编号的布局标签DOM树,最后基于网页块的位置进行主题的确定和主题链接的提取;使用户能迅速获取主题信息,扩展了Web的可用性,有助于解决信息抽取等一系列问题。【专利附图】【附图说明】[0024]图1是本发明所述的网页布局标签树的结构示意图。【具体实施方式】[0025]本发明对网页主题信息抽取的实现进行了深入的说明;在这部分根据块标签对网页进行区域划分,并对划分后的语义块和整个网页内容进行特征权值向量提取,构造网页粗粒度划分DOM树,然后基于块类型进行抽取网页的主题信息;[0026]如图1所示的一种网页主题确定的方法,包括如下步骤:[0027]A、自定义主题的确定;将网页内的所有主题也就是所有目录区域,全部列出来供用户进行主题的自定义定制,从而实现定制后的自动化信息抽取,成为自定义主题的确定要完成的任务;该过程分为两步:[0028]Al、定制自己需要进行抽取的主题,要看到网页内的所有主题并且列出主题块内的链接,然后选择某一个或多个主题归结为已定义名称的主题,待以后的主题信息自动化抽取;[0029]A2、在主题信息抽取时,分析网页的结构,找出所有的主题块,根据用户定制的块的位置,抽取该块的所有链接,作为主题信息抽取的入口地址,根据定义的名称,将信息分类存储;[0030]通用网页爬虫的目标是尽可能多地搜集信息页面,而在这一过程中它并不太在意被搜集页面的主题;但是我们需要进行主题的自定义,就是说在爬虫进行爬行时,应该使其根据我们定制的主题进行主题相关链接的发现和爬行,由于这种区别使得基于主题的网页爬虫设计需要考虑以下关键问题:怎样使爬虫只对定制的主题区域下的链接进行爬行,从而实现自定义主题信息的抽取;[0031]B、网页主题的链接获取;[0032]爬虫是一个沿着存在于Web页面之间的超链接遍历Web的过程,大多数Web页面因为内容相关才会有联系,通常借助于HTML锚标签链接联系在一起;HTML锚标签周围的文本往往精练地描述了目标网页的内容,用于指导链接所指向的Web页面的主题内容,不仅可以提高用户浏览网页的效率,而且网页爬虫可借助这些文本信息,来指导网页爬虫的爬行;[0033]要确定主题时要根据网页结构中的特点,将网页标签进行分块提取,提取的分块中要有目录结构,下面将着重研究如何确定含有主题相关链接的块,通过获取链接锚文本文档以及链接周围的上下文文档,作为链接的描述文本;[0034]B1、链接上下文的提取;[0035]链接上下文提取算法基于网页的DOM树模型,对于不同类型的语义块中链接上下文的提取,采用局部扩散算法;对于目录型语义块,由于非链接文字较少,因此非链接文字都是对链接主题的说明,所以将目录型语义块中所有的非链接文字作为每个链接的上下文,而对于主题型的链接上下文的提取采用的是提取关键位置的内容作为链接上下文;[0036]B2、局部扩散提取链接;由于不同类型的语义块含有的文本信息量相差很大,主题语义块含有文本信息通常较多,而目录型和图片型语义块含有的文本信息量通常较少,如果对不同类型的语义块中的链接都采用相同的上下文提取算法,则可能会造成文本提取过多而出现的噪音或文本信息提取过少而使链接描述信息不够等问题,因此本方法基于网页布局划分DOM树表示,对不同类型的语义块采用不同的上下文提取策略;[0037]B21、主题型语义块中链接上下文提取;由于中文的文本语义是用符合隔开和体现的,逗号、句号等符合之间的文本往往表示一个相对完整的语义;链接锚文本前后的一句文本具有相对完整的语义,而且是对链接主题的补充说明,因此本方法将链接锚文本前后最近各一句文本作为链接的上下文;[0038]B22、目录型和图片型语义块中链接上下文提取;本步骤将链接锚标签所在的目录型语义块或图片型语义中非链接文字作为这个链接的上下文,并称这个语义块的划分节点为聚合节点;链接上下文和它对应的链接是处在同一语义块中,所以可以把聚合节点的功能看作为把一个链接和对它有用的上下文聚合在一起,在网页的粗粒度划分DOM树表示中,聚合节点对应的是分块标签节点如:〈table>、<div>等标签;[0039]B23、综合提取;根据以上B21、B22的综合,下面给出基于语义块类型的链接上下文提取算法;首先给出在构造网页布局划分的DOM表示过程中,网页链接提取算法,此算法是:具有相同主题的链接大部分都放在同一个布局标签内或者在其上下文的局部内;在分析网页时,按照布局标签将网页建立成一个布局标签树,在进行标签树建立时,是一个按照网页布局划分的过程,即按照网页内的块进行划分,划分后的树是一棵由各个节点为块而且具有标号的块组成,然后采用后序遍历标签树的方法发现主题块以及主题相关链接,本步骤选取链接数的阈值为3即具有3个主题相关链接以上的块为主题块;算法描述如下:[0040](I)输入主题型网页,建立布局标签树,初始化主题块队列,其中初始化用于存放主题块序号以及该主题下的链接;[0041](2)后序遍历下一个块,若为空则转到(5);[0042](3)判断该主题块内的链接数,如果小于3,转到(2);[0043](4)将主题块的位置序号以及主题下的相关链接插入;[0044](5)结束;[0045]根据算法,后续遍历如图1所示的这棵布局标签树T,在遍历块6、块7、块8时计算其内的链接数均不满足预设的阈值3,所以在列出主题块时不将其3个块列出,即这三个块可以不用提供给用户作为目标定制块,但是在遍历到块3时,根据块6、块7、块8传来的上下文链接数为2、1、1,得出块3内总的上下文链接数为2+1+1=4,符合阈值3;所以将块3列出提供给用户,作为目标定制块;同时将块3内的4个主题相关链接插入TopiC_qUeUe队列中;如果该主题被定制,则将块3的自定义主题名称以及块3位置序号存入规则数据库,在进行主题抽取信息时遍历标签树,根据定制信息,遍历到块序号为3的块时,自动将其块内链接指向页面的主题信息抽取出,保存到信息数据库,并且将其主题信息归为块3自定义主题的主题相关信息;[0046]通过以上算法可以获取网页P中每个链接的链接上下文的链接,设链接link在网页P中的链接上下文为LinkContext(link,p),锚文本为ArchorText(link,p),则链接link在网页P中链接描述文档为LDD[link(p)]=LinkContext(link,p)+ArchorText(link,p)作为链接link的局部描述文档。[0047]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【
技术领域
】的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。【权利要求】1.一种网页主题确定的方法,其特征在于包括如下步骤:A、确定自定义主题;Al、定制将被抽取的主题:列出网页内的所有主题和每一主题块内的链接,选择某一个或多个主题并归为已定义名称的主题;A2、当进行主题信息抽取时,首先分析网页结构,再找出所有的主题块,然后根据用户定制的主题块位置,抽取该主题块的所有链接作为主题信息抽取的入口地址,最后根据已定义的主题名称将信息分类存储;B、获取网页主题的链接:通过获取链接锚文本文档和该链接的上下文文档作为链接的描述文本;B1、链接上下文的提取;链接上下文提取算法基于网页的DOM树模型,对于不同类型的语义块中链接上下文的提取采用局部扩散算法;对于目录型语义块,根据非链接文字是对链接主题的说明将目录型语义块中所有的非链接文字作为每个链接的上下文,对主题型的链接上下文的提取,采用提取关键位置的内容作为链接上下文;B2、局部扩散提取链接;基于网页布局划分DOM树,对不同类型的语义块采用其对应的上下文提取策略;B21、主题型语义块中链接上下文提取;根据中文文本的语义是用符号隔开即其中逗号和句号之间的文本表不一个相对完整的语义,所以将链接锚文本前面一句和后面一句文本作为链接的上下文;B22、目录型和图片型语义块中链接上下文提取;将链接锚标签所在的目录型语义块或图片型语义块中非链接文字作为该链接的上下文,同时将语义块的划分节点定义为聚合节占.B23、网页链接提取;根据具有相同主题的链接放置在同一个布局标签内或者在其上下文的局部内,则在分析网页时按照布局标签将网页建立成一个布局标签树,当进行标签树建立时按照网页内的块进行划分,划分后的树是一棵由各个节点为块且具有标号的块组成,然后采用后序遍历标签树方式来发现主题块以及主题相关链接,选取链接数阈值为3即具有3个主题相关链接以上的块为主题块,其中选取步骤如下:(1)输入主题型网页,建立布局标签树,初始化主题块队列,其中初始化用于存放主题块序号以及该主题下的链接;(2)后序遍历下一个块,若为空则转到(5);(3)判断该主题块内的链接数,如果小于3,转到(2);(4)将主题块的位置序号以及主题下的相关链接插入;(5)结束。【文档编号】G06F17/30GK103838792SQ201210491396【公开日】2014年6月4日申请日期:2012年11月27日优先权日:2012年11月27日【发明者】刘立堂,李勇申请人:大连灵动科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1