一种从网页中提取主要内容的方法及装置的制造方法

文档序号:9750902阅读:314来源:国知局
一种从网页中提取主要内容的方法及装置的制造方法
【技术领域】
[0001]本发明涉及网络技术领域,具体涉及一种从网页中提取主要内容的方法及装置。
【背景技术】
[0002]随着计算机技术的发展,丰富的互联网资源,为人们的日常信息生活带来了极大便利。相应地,也往往需要在网页上获取相关的网页内容,以便于后续处理,例如对网页内容进行分析从而获知相关网页发布的信息内容。然而,网页上各种类型以及各种结构的数据都有可能混杂在一起,这就给抓取网页上的正文信息带来了不小的麻烦。
[0003]传统的抓取方式目的性、局限性很强,仅仅是对某一特定的网页进行提取,而一旦变更了另外一个网页,则需要重新设计程序处理方式,然而开发需要一定的时间周期,因此时效也会有一定延迟。如果之前抓取过的网站进行改版,原有的抓取方案可能就不再适用,仍需要重新设计抓取方案,这些过程需要大量重复并且低效的工作。
[0004]因此,如何有效快速地提取网页中的主要内容,已成为高效率提取网页内容的主要课题。

【发明内容】

[0005]因此,本发明要解决的技术问题在于现有网页主要内容抓取方法的目的性和局限性较强,因此无法适用于各种不同类型的网页。
[0006]为此,本发明实施例提供了如下技术方案:
[0007]—种从网页中提取主要内容的方法,包括如下步骤:
[0008]去除待提取网页中的无用标签,获取内容文本;
[0009]将内容文本分割为多行;
[0010]根据连续多行字符个数确定主要内容的开始行和结束行;
[0011 ]将开始行与结束行之间的文本提取为待提取网页的主要内容。
[0012]优选地,将内容文本分割为多行的步骤包括:
[0013]将内容文本按照换行标签分割为多行;
[0014]将分割后的总行数与预设阈值比较;
[0015]当分割后的总行数小于预设阈值时,则按照段落标签来分割行。
[0016]优选地,在将内容文本分割为多行的步骤与根据连续多行字符个数确定主要内容的开始行和结束行的步骤之间,还包括:
[0017]删除内容文本中的换行标签和段落标签。
[0018]优选地,根据连续多行字符个数确定主要内容的开始行和结束行的步骤包括:
[0019]从内容文本的第一行开始统计紧邻的预设数量行的字符数;
[0020]当其字符数不小于预设值时,判断该预设数量行的第一行是开始行;
[0021 ]在开始行之后,当预设数量的行字符数小于预设值时,判断该预设数量行的最后一行为结束行。
[0022]—种从网页中提取主要内容的装置,包括:
[0023]内容文本获取单元,用于去除待提取网页中的无用标签,获取内容文本;
[0024]分割单元,用于将内容文本分割为多行;
[0025]开始行和结束行确定单元,用于根据连续多行字符个数确定主要内容的开始行和结束行;
[0026]主要内容提取单元,用于将开始行与结束行之间的文本提取为待提取网页的主要内容。
[0027]优选地,分割单元包括:
[0028]第一分割子单元,用于将内容文本按照换行标签分割为多行;
[0029]比较子单元,用于将分割后的总行数与预设阈值比较;
[0030]第二分割子单元,用于当分割后的总行数小于预设阈值时,则按照段落标签来分割行。
[0031]优选地,还包括:
[0032]删除单元,用于删除内容文本中的换行标签和段落标签。
[0033]优选地,开始行和结束行确定单元包括:
[0034]字符数统计子单元,用于从内容文本的第一行开始统计紧邻的预设数量行的字符数;
[0035]开始行确定子单元,用于当其字符数不小于预设值时,判断该预设数量行的第一行是开始行;
[0036]结束行确定子单元,用于在开始行之后,当预设数量的行字符数小于预设值时,判断该预设数量行的最后一行为结束行。
[0037]本发明技术方案,具有如下优点:
[0038]本发明提供的从网页中提取主要内容的方法及装置,打破了网页内容提取方法中对数据内容进行复杂解析的传统,用一种简单规律性的方法进行提取,即首先提取网页对应的html中的内容文本并删除无用标签,然后分行,再根据连续多行字符数来确定主要内容,极大的规避了不同网页或者网页改版带来的提取问题,提高了主要内容提取的效率。
【附图说明】
[0039]为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案,下面将对【具体实施方式】或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为本发明实施例1中一种从网页提取主要内容的方法的流程图;
[0041]图2为本发明实施例1中删除无用标签后一个内容文本的示例;
[0042]图3为本发明实施例1中内容文本的行分割完成后删除全部标签后的一个示例;
[0043]图4为本发明实施例1中一种根据连续多行字符个数确定主要内容的开始行和结束行的方法流程图;
[0044]图5为本发明实施例2中一种从网页提取主要内容的装置的原理框图。
【具体实施方式】
[0045]下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046]此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0047]实施例1
[0048]如图1所示,本实施例提供了一种从网页中提取主要内容的方法,包括如下步骤:
[0049]S1:去除待提取网页中的无用标签,获取内容文本,该无用标签不包括换行标签和段落标签;
[0050]S2:将内容文本分割为多行;
[0051]S3:根据连续多行字符个数确定主要内容的开始行和结束行;
[0052]S4:将开始行与结束行之间的文本提取为待提取网页的主要内容。
[0053]通过对现有的主流网站深入的研究和对比,并且结合网站设计的一般规律、设计思想和设计风格,发现网站的内容的展现是有迹可循的。而本实施例的方法是在这些研究之上,总结出来的适用于大部分详细页面网页提取主要内容的方法。本方法打破了网页内容提取方法中对数据内容进行复杂解析的传统,用一种简单规律性的方法进行提取,极大的规避了不同网页或者网页改版带来的提取问题,提高了主要内容提取的效率。
[0054]具体地,上述步骤SI中,待提取网页可以是根据用户输入的详细页面地址抓取的,例如可以是某一新闻网页的详细链接url,访问该页面链接url,获取对应的html并解析该html,然后抓取页面中的〈body〉部分,并使用正则表达式去掉除换行标签和段落标签外所有的SCript、Style标签及其内容后获取内容文本,例如,图2所示的内容文本。
[0055]具体地,上述步骤S2中,即将内容文本分割为多行的步骤包括:
[0056]首先,将内容文本按照换行标签分割为多行;
[0057]然后,将分割后的总行数与预设阈值比较;
[0058]最后,当分割后的总行数小于预设阈值时,则按照段落标签来分
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1