一种有效网页内容的抓取方法及装置的制作方法

文档序号:6603941阅读:101来源:国知局

专利名称::一种有效网页内容的抓取方法及装置的制作方法
技术领域
:本发明涉及互联网信息处理领域,尤其涉及一种有效网页内容的抓取方法及装置。
背景技术
:目前互联网上存有目前人类所知的最大的信息库,其中绝大部分信息都是以HTML(HyperTextMark-upLanugage,超文本链接标记语言)格式网页存在。HTML被用来结构化信息——例如标题、段落和列表,能够丰富的表现文本,图片以及其他多媒体信息。结合HTML阅读工具“浏览器”人们能够很方便地查看在HTML结构中的信息。但是从信息记录方面,HTML网页包含了大量的用来结构化信息的标签,同时网页中可能包含很多无用的信息。并且,随着各种移动终端的蓬勃发展,移动终端对上网的需求越来越高,若直接通过移动终端访问HTML页面时,由于移动终端设备本身的性能限制,会使每次访问HTML的连接时间较长,速度较慢,并且由于大量无用信息的存在会导致数据传输流量较大,使用户获取网页的时间和费用都会较高,因而如何把有用信息从HTML格式网页中准确快速地抽取出来对移动终端设备来说变得非常重要。目前的文本信息抽取技术只能通过HTML标签信息对特定HTML标签内的内容进行获取,针对于目标处理网页需要事先考察网页HTML标签结构,事先定制抽取模板。而对于事先无法获知HTML结构的网页,文本信息抽取将无法进行。
发明内容为了解决上述问题,本发明主要目的是提供一种有效网页内容的抓取方法及装置,使其能够简单、方便地实现对通用HTML结构的网页进行有效信息的抽取。为了实现上述目的,本发明提供了一种有效网页内容的抓取方法,所述方法包括以下步骤步骤Sl导入超文本标示语言HTML网页;步骤S2将所述HTML网页转换成相应的文档树结构;步骤S3根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;步骤S4在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。根据本发明的一个实施例,在所述步骤S2中,所述生成相应的文档树只包括与所述有效网页内容有关的标签,将其它无关的标签删除。根据本发明的一个实施例,所述步骤S3可具体为在所述文档树结构中找出〈title〉标签;在所述〈title〉标签中查找与所述文档树中<body>标签中相同或者编辑距离相近的文本内容,若查找到,则将所述文本内容确定为标题,否则,在所述〈title〉标签中查找距离所述<body>标签最近的有效文本标签,将所述有效文本标签内的文本作为标题;其中所述有效文本标签为标签<hl>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号,其中所述预定字体号优选为5号,并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值,其中所述另一预定值优选为5个字。根据本发明的一个实施例,在步骤S3中找出〈title〉标签之后,还包括过滤处理步骤对所述〈title〉标签内的文本标签进行连字符拆分和/或停用词处理,将其中的广告词或者不是标题的其它信息过滤掉。根据本发明的另一个实施例,所述步骤S4还包括过滤步骤S41在查找文本标签过程中,将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉,然后再查找下个文本标签。其中所述与正文有关的特定字符优选包括、<br>、<div>或〈table〉等,所述预定长度优选为50个字。根据本发明的另一个实施例,所述步骤S4还包括步骤S42在查找文本标签过程中,根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文,若所述占比大于0并小于1,则直接判断该文本标签内的文本内容为正文;否则判断所述文本标签内的文本内容不是正文。根据本发明的另一个实施例,所述在步骤S3和S4之间还包括时间抽取步骤S31首先定义时间信息的正则表达式根据步骤S3中已经获得的标题标签,查找距离所述标题标签最近的符合所述时间信息正则表达式的标签,将查找到的所述标签中的内容作为时间。根据本发明的再一个实施例,在步骤S4之后包括图片抽取步骤S5将步骤S4中获得正文标签中的孩子标签进行排序,记录第一个孩子标签和最后一个孩子标签;在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签,将查找到的<img>标签中的内容作为有效内容的图片。本发明还提供一种有效网页内容的抓取装置,所述装置包括导入模块,用于导入超文本链接标示语言HTML网页;生成模块,用于将所述HTML网页生成相应的文档树结构;标题抽取模块,用于根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;文本抽取模块,用于在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符和具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。进一步地,所述标题抽取模块包括Title标签查找单元用于在所述文档树结构中找出〈title〉标签;标题确定单元,用于在所述〈title〉标签中查找与所述文档树中<body>标签中相同或者编辑距离相近的文本内容,若查找到,则将所述文本内容确定为标题,否则,在所述〈title〉标签中查找距离所述<body>标签最近的有效文本标签,将所述有效文本标签内的文本作为新闻标题。其中在所述标题确定单元中的所述有效文本标签为标签<hl>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号,并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值。进一步地,在所述Title标签查找单元和标题确定单元之间还包括过滤处理模块,用于对所述〈title〉标签内的文本标签进行连字符拆分和/或停用词处理,将其中的广告词或者不是标题的其它信息过滤掉。进一步地,所述文本抽取模块还包括过滤模块,用于在查找文本标签过程中,将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉,然后再查找下个文本标签。进一步地,所述文本抽取模块还包括占比判断单元,用于在查找文本标签过程中,根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文,若所述占比大于0并小于1,则直接判断该文本标签内的文本内容为正文;否则判断所述文本标签内的文本内容不是正文。进一步地,所述装置还包括时间抽取模块,用于先定义时间信息的正则表达式,再根据所述标题抽取模块中已经获得的标题标签,查找距离所述标题标签最近的符合所述时间信息正则表达式的标签,将查找到的所述标签中的内容作为时间。进一步地,所述装置还包括图片抽取模块,用于对所述文本抽取模块中所获得正文标签中的孩子标签进行排序,并记录第一个孩子标签和最后一个孩子标签,在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签,将查找到的<img>标签中的内容作为有效内容的图片。本发明通过上述步骤处理,能够自动的从HTML新闻网页中抽取出文章标题、文章时间、文章正文、文章图片链接等信息。能够避免目前抽取技术所需要的对于每种网页进行预先模板设置的步骤。提高了对HTML网页抽取的自动化程度。图1为本发明的一种有效网页内容的抓取方法流程示意图;图2为本发明的一种HTML文档树的示意性组织结构图;图3为本发明的一种HTML文档树中标签距离示意图;图4为根据本发明的一种实施例的抓取新闻网页的示意性流程图;图5为本发明的一种有效网页内容的抓取装置结构示意图。具体实施例方式下面将详细描述本发明的具体实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。本发明针对所要抽取的有效内容网页的整体结构入手考察各种文本实体在网页中的位置信息,特有结果信息以及标签信息,能够实现网页文本实体的自动提取功能。由于网页文件符合HTMLDOM(DocumentObjectModel)树状结构。对于一个具有有效内容的网页,比如说新闻网页,网页中有许多种类的标签,从逻辑意义上一般分为,页面功能标签,广告标签,新闻内容标签。网页信息抽取就是需要从网页中抽取出有效内容如新网内容标签。仅从HTML标签名称和标签属性上无法判断标签的功能,需要借助其他信息判断标签功能。因而本发明从标签中文本标签文本长度以及标签在整个HTML的文档DOM树(DocumentObjectModel)的位置判断标签的逻辑功能,从而实现通用的网页有效内容文本的抽取功能。本发明适用于新闻网页以及blog网页等具有有效内容网页的抽取,并可过滤掉广告或者其他无用的文本内容。如图1所示,本发明采用如下步骤进行有效内容网页抽取步骤Sl导入HTML网页;步骤S2将所述导入的HTML网页生成相应的HTMLDOM树结构;步骤S3根据所述HTMLDOM树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;步骤S4在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。下面结合附图将详细描述上述各个步骤。在步骤Sl中,首先要导入HTML网页,由于本发明是帮助移动设备处理互联网上的HTML网页信息,以使提高诸如手机之类的移动终端上网速度和快捷获取所需要信息的能力,因此,本发明需要对输入到移动终端之前的网页做一次筛选处理,过滤掉广告等无用信息,获取所需要的有效内容,比如说新闻网页。在步骤S2中,将所述导入的HTML网页生成相应的HTMLDOM树结构。由于HTML是一种格式化的语言,其中文本信息需要被放在HTML标签中,由标签提供对信息位置、显示方式等修饰。HTML格式文件中,标签由顶向下组成树状DOM结构。根据W3CDOM规范对HTML标签和文本内容有如下的规定整个文档是一个文档节点每个HTML标签是一个元素节点包含在HTML元素中的文本是文本节点每一个HTML属性是一个属性节点如图2所示,HTML的DOM结构是由文本节点和标签节点组成一个树状组织结构,在根标签下还具有<head>、<body>以及<table>等标签。其中在一对<head>标签中一般存放关于网页标题、关键字的内容,比如在如下所示的html样例图中,一对<head>标签中还具有一对〈title〉标签,在〈title〉标签中存放的内容就是有效内容的标题,如新闻网页的标题。其中在一对<body>标签下存放的是有效内容的正文或图片等。以下是一个HTML标签样例图<html><head><title>标题文本</title></head><body><aherf>超链接文本</a><hl>正文文本</hl></body></html>在生成HTMLDOM树结构时,可以针对性的构建DOM树,如,如果只是新闻网页范围内内容的抽取,只需考虑和新闻内容有关的标签,而其他跟新闻内容无关的标签都可直接舍弃掉。在生成HTMLDOM树之后,进行步骤S3来抽取有效内容的标题,也即在上述HTMLDOM树结构找出〈title〉标签,将找出的标题标签内的文本内容作为标题。具体地,在找出〈title〉标签之后,可以对〈title〉标签内的文本标签(hi或h2)进行过滤处理,因为正规的新闻网页会在〈title〉标签会存在新闻标题字符串,有些网站会用中用hi或h2子标签对新闻标题字符串进行修饰,可以对〈title〉标签中的文字进行处理以获得新闻标题。比如说进行连字符拆分和/或停用词处理将其中的广告词或者不是标题的其它信息过滤掉。例如网页http://news.xinhuanet.com/world/2010-04/26/c_1255760.html中,〈title〉标签中的字符串为“世博服务能经受住7000万人次考验吗?_国际频道_新华网”。其中“世博服务能经受住7000万人次考验吗?”为所要新闻;连字符为“_”下划线;停用词为“国际频道”和“新华网”。然后在〈title〉标签内寻找与<body>文本标签中相同或者编辑距离相近的文本内容,将其确定为标题。这里需要解释说明的是,所谓的编辑距离是两个字符串之间相似度的度量。是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。两个字符串的编辑距离越小,两个字符串越相似。如果上述在〈title〉标签内寻找匹配失败,则还可以另一种方法来获取标题,该方法为寻找距离<body>标签具有最近标签距离的有效文本标签,该有效文本标签内的文本作为新闻标题。由于在HTML网页中文本标签是文字信息最主要的载体,在网页的展示意义上看来,文本信息的最主要的表现形式包括不间断的文本段的长度和文字展示的字体大小,因此这里所述有效文本标签需要满足下述任一条件1)在非<a>超链接标签中的文本内容中,其不间断文本超过一预定值,如25个字(汉字或者外文单词);幻标签为<hl>、<h2>或者其标签内的文本内容字体大于5号,并且这些标签内嵌套的孩子文本标签中不间断文本超过另一预定值,比如5个字(汉字或者外文单词)。在计算有效文本标签与其它标签的标签距离时,要基于它们在DOM树结构中的展示位置关系来进行,而两个标签之间的位置关系可分为下述三种情况,如图3和表1所示情况1其中一个标签为孩子节点标签,另一个标签为父节点标签,孩子节点标签与其父节点标签之间的标签距离为0,如标签A和B之间的距离为0;情况2同层的两标签,其具有相同的父节点,它们的标签距离等于其在相同的父节点的孩子节点列表中顺序的差值,如标签C和D,其标签距离为-1;情况3拥有不同父节点的两标签,其之间的标签距离等于其在相同层次祖先的标签距离。比如说A和D的标签距离等于其父字节B和E之间的标签距离,而B和E之间的标签距离等于-1,因此A和D的标签距离也为-1。表权利要求1.一种有效网页内容的抓取方法,其特征在于,所述方法包括以下步骤步骤Sl导入超文本链接标示语言HTML网页;步骤S2将所述HTML网页转换成相应的文档树结构;步骤S3根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;步骤S4在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。2.根据权利要求1所述的抓取方法,其特征在于,所述步骤S2中,所述生成相应的文档树包括与所述有效网页内容有关的标签,将其它无关的标签删除。3.根据权利要求1所述的抓取方法,其特征在于,所述步骤S3具体为在所述文档树结构中找出〈title〉标签;在所述〈title〉标签中查找与所述文档树中<body>标签中文本相同或者编辑距离相近的文本内容,若查找到,则将所述文本内容确定为标题,否则,在所述〈title〉标签中查找距离所述<body>标签最近的有效文本标签,将所述有效文本标签内的文本作为标题;其中所述有效文本标签为标签<hl>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号,并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值。4.根据权利要求3所述的抓取方法,其特征在于,所述预定字体号为5号,所述另一预定值为5个字。5.根据权利要求3所述的抓取方法,其特征在于,在找出〈title〉标签之后,还包括过滤处理步骤对所述〈title〉标签内的文本标签进行连字符拆分和/或停用词处理,将其中的广告词或者不是标题的其它信息过滤掉。6.根据权利要求1所述的抓取方法,其特征在于,所述步骤S4还包括过滤步骤S41在查找文本标签过程中,将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉,然后再查找下个文本标签。7.根据权利要求1所述的抓取方法,其特征在于,步骤S4中,所述与正文有关的特定字符包括P>、<br>、<div>或〈table〉,所述预定长度为50个字。8.根据权利要求1所述的抓取方法,其特征在于,所述步骤S4还包括步骤S42在查找文本标签过程中,根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文,若所述占比大于0并小于1,则直接判断该文本标签内的文本内容为正文;否则判断所述文本标签内的文本内容不是正文。9.根据权利要求1所述的抓取方法,其特征在于,在所述步骤S3和S4之间还包括时间抽取步骤S31首先定义时间信息的正则表达式根据步骤S3中已经获得的标题标签,查找距离所述标题标签最近的符合所述时间信息的正则表达式的标签,将查找到的所述标签中的内容作为时间。10.根据权利要求1所述的抓取方法,其特征在于,在步骤S4之后包括图片抽取步骤S5将步骤S4中获得正文标签中的孩子标签进行排序,记录第一个孩子标签和最后一个孩子标签;在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签,将查找到的<img>标签中的内容作为有效内容的图片。11.一种有效网页内容的抓取装置,其特征在于,所述装置包括导入模块,用于导入超文本链接标示语言HTML网页;生成模块,用于将所述HTML网页生成相应的文档树结构;标题抽取模块,用于根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;文本抽取模块,用于在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符和具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。12.根据权利要求11所述的抓取装置,其特征在于,所述标题抽取模块包括Title标签查找单元用于在所述文档树结构中找出〈title〉标签;标题确定单元,用于在所述〈title〉标签中查找与所述文档树中<body>标签中相同或者编辑距离相近的文本内容,若查找到,则将所述文本内容确定为标题,否则,在所述〈title〉标签中查找距离所述<body>标签最近的有效文本标签,将所述有效文本标签内的文本作为新闻标题。其中在所述标题确定单元中的所述有效文本标签为标签<hl>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号,并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值。13.根据权利要求12所述的抓取装置,其特征在于,在所述Title标签查找单元和标题确定单元之间还包括过滤处理模块,用于对所述〈title〉标签内的文本标签进行连字符拆分和/或停用词处理,将其中的广告词或者不是标题的其它信息过滤掉。14.根据权利要求11所述的抓取装置,其特征在于,所述文本抽取模块还包括过滤模块,用于在查找文本标签过程中,将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉,然后再查找下个文本标签。15.根据权利要求11所述的抓取装置,其特征在于,所述文本抽取模块还包括占比判断单元,用于在查找文本标签过程中,根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文,若所述占比大于0并小于1,则直接判断该文本标签内的文本内容为正文;否则判断所述文本标签内的文本内容不是正文。16.根据权利要求11所述的抓取装置,其特征在于,所述装置还包括时间抽取模块,用于先定义时间信息的正则表达式,再根据所述标题抽取模块中已经获得的标题标签,查找距离所述标题标签最近的符合所述时间信息正则表达式的标签,将查找到的所述标签中的内容作为时间。17.根据权利要求11所述的抓取方法,其特征在于,所述装置还包括图片抽取模块,用于对所述文本抽取模块中所获得正文标签中的孩子标签进行排序,并记录第一个孩子标签和最后一个孩子标签,在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签,将查找到的<img>标签中的内容作为有效内容的图片。全文摘要本发明公开了一种有效网页内容的抓取方法及装置,所述方法包括以下步骤步骤S1导入超文本链接标示语言HTML网页;步骤S2将所述HTML网页转换成相应的文档树结构;步骤S3根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;步骤S4在所述文档树结构的标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。本发明能够简单、方便地实现对通用的HTML结构网页进行有效信息的抽取。文档编号G06F17/30GK102270206SQ20101019636公开日2011年12月7日申请日期2010年6月3日优先权日2010年6月3日发明者贾海禄申请人:北京迅捷英翔网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1