网页信息处理的方法及装置制造方法

文档序号:6488887阅读:111来源:国知局
网页信息处理的方法及装置制造方法
【专利摘要】本发明提供一种网页信息处理方法及装置,涉及互联网【技术领域】。方法包括:获取属于同一类型网站中的多个网页;分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素;存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。采用本发明的方案,可以加快网页显示速度,减小网络系统负荷,节约网络资源消耗。
【专利说明】网页信息处理的方法及装置
【技术领域】
[0001]本发明涉及互联网【技术领域】,特别是指一种网页信息处理的方法及装置。
【背景技术】
[0002]互联网的网页成千上万,每个网页含有丰富的信息,大致分为两类信息,文本信息和URL链接信息(URL,统一资料定位符,Uniform/Universal Resource Locator的缩写,是因特网上标准的资源的地址)。文本信息是网页展现给用户浏览的,而URL链接信息是用户点击跳转到其他网页的,同时也是搜索引擎采集系统发现其他网页的最重要方式之一,这些URL有些是有用的,有些则是垃圾和无意义的信息,如广告链接。
[0003]目前搜索引擎的网页采集系统并没有对这些链接信息进行区分,不仅增加了网页采集分析系统的压力,而且使大量的无意义和垃圾信息进入到搜索引擎系统。
[0004]现有方案存在以下缺点:
[0005]1.对采集下来的网页没有进行进一步细分,导致存储和索引冗余,增加了系统存储负荷。
[0006]2.对网页的链接信息并没有进行分类,采集系统需要把一个网页包含的全部URL都进行采集,不仅消耗了网络带宽资源,而且采集了大量垃圾和无意义信息,增加了系统存储负荷。

【发明内容】

[0007]本发明要解决的技术问题是提供一种网页信息处理的方法及装置,通过本方案可以加快网页显示速度,减小网络系统负荷,节约网络资源消耗。
[0008]为解决上述技术问题,本发明提供的技术方案如下:
[0009]根据本发明的一方面,提出了一种网页信息处理的方法,包括:
[0010]获取属于同一类型网站中的多个网页;
[0011]分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素;
[0012]存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。
[0013]其中,分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块的步骤包括:
[0014]分别对所述多个网页进行解析,获取多个网页结构元素;
[0015]在所述多个网页结构中,查找多个网页的相同的网页结构元素,并从中获取一个网页的所述网页结构元素作为所述第一类网页区块;
[0016]在所述多个网页结构中,查找多个网页的网页正文部分对应的网页结构元素,并分别获取各个网页的网页正文部分分别对应的网页结构元素作为所述第二类网页区块。
[0017]其中,存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块后还包括:
[0018]对所述第一类网页区块设置第一标记,并分别对各个网页的正文部分对应的第二类网页区块设置第二标记。
[0019]其中,上述方法还包括:
[0020]根据所述第一标记获得所述第一类网页区块的内容;
[0021]根据所述第二标记获得所述第二类网页区块的内容;
[0022]将所述第二类网页区块的内容和所述第一类网页区块的内容进行拼接,形成网页快照。
[0023]其中,上述方法还包括:
[0024]丢弃对所述多个网页进行分块处理时得到的除所述第一类网页区块和所述第二类网页区块以外的其他区块。
[0025]根据本发明的另一方面,还提出了一种网页信息处理的装置,包括:
[0026]获取模块,用于获取属于同一类型网站中的多个网页;
[0027]处理模块,用于分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素;
[0028]存储模块,用于存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。
[0029]其中,所述处理模块包括:
[0030]解析单元,用于分别对所述多个网页进行解析,获取多个网页结构元素;
[0031]第一查找单元,用于在所述多个网页结构中,查找多个网页的相同的网页结构元素,并从中获取一个网页的所述网页结构元素作为所述第一类网页区块;
[0032]第二查找单元,用于在所述多个网页结构中,查找多个网页的网页正文部分对应的网页结构元素,并分别获取各个网页的网页正文部分分别对应的网页结构元素作为所述第二类网页区块。
[0033]其中,上述装置还包括:
[0034]设置模块,用于对所述第一类网页区块设置第一标记,并分别对各个网页的正文部分对应的第二类网页区块设置第二标记。
[0035]其中,上述装置还包括:
[0036]拼接模块,用于通过设置模块,所述第一标记获得所述第一类网页区块的内容,根据所述第二标记获得所述第二类网页区块的内容,将所述第二类网页区块的内容和所述第一类网页区块的内容进行拼接,形成网页快照。
[0037]其中,所述处理模块还用于:丢弃对所述多个网页进行分块处理时得到的除所述第一类网页区块和所述第二类网页区块以外的其他区块。
[0038]本发明的上述方案,通过对网页进行区块划分,多个网页相同的网页结构元素,不分别进行保存,只保存其中一个网页的该相同的网页结构元素,即对多个网页相同的网页结构元素只进行一次保存,可以减小网络系统负荷。进一步地,丢弃了没有意义及垃圾的网页结构元素,从而节约网络资源消耗。进一步地,网页拼接时,根据相应的标记信息获取第一类网页区块和第二类网页区块,并将所述第一类网页区块和第二类网页区块进行拼接即可显示,加快了网页显示速度。
【专利附图】

【附图说明】
[0039]图1为本发明实施例1的网页信息处理方法的流程图;
[0040]图2为本发明实施例1的网页分块处理的流程图;
[0041]图3为本发明实施例1的网页分块处理时的DOM树分析流程图;
[0042]图4为本发明实施例1的网页分块处理的流程图;
[0043]图5为本发明实施例2的网页信息处理装置结构图。
【具体实施方式】
[0044]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对具体实施例进行详细描述。
[0045]实施例1
[0046]如图1所示,本发明的实施例提供一种网页信息处理方法,包括如下步骤:
[0047]步骤11,获取属于同一类型网站中的多个网页;
[0048]步骤12,分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素;
[0049]步骤13,存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。
[0050]本发明的上述实施例通过对网页进行区块划分,多个网页相同的网页结构元素,不分别进行保存,只保存其中一个网页的该相同的网页结构元素,即对多个网页相同的网页结构元素只进行一次保存,可以减小网络系统负荷。
[0051]本发明的上述实施例中,步骤12可以包括:
[0052]步骤121,分别对所述多个网页进行解析,获取多个网页结构元素;
[0053]步骤122,在所述多个网页结构中,查找多个网页的相同的网页结构元素,并从中获取一个网页的所述网页结构元素作为所述第一类网页区块;
[0054]步骤123,在所述多个网页结构中,查找多个网页的网页正文部分对应的网页结构元素,并分别获取各个网页的网页正文部分分别对应的网页结构元素作为所述第二类网页区块。
[0055]进一步地,步骤13后还可以包括:
[0056]步骤14,对所述第一类网页区块设置第一标记,并分别对各个网页的正文部分对应的第二类网页区块设置第二标记。
[0057]相应的,上述步骤14后还可以包括:
[0058]步骤15,根据所述第一标记获得所述第一类网页区块的内容;[0059]步骤16,根据所述第二标记获得所述第二类网页区块的内容;
[0060]步骤17,将所述第二类网页区块的内容和所述第一类网页区块的内容进行拼接,形成网页快照。
[0061]进一步地,还包括:丢弃对所述多个网页进行分块处理时得到的除所述第一类网页区块和所述第二类网页区块以外的其他区块。以减小系统负荷和节约存储资源。
[0062]如图2所示,对上述图1所示的所述方法的进一步进行详细描述:
[0063]步骤101,通过索引搜索同类型网站,获取网站中的多个网页;
[0064]步骤102,利用HTML页面在DOM树中的DIV块信息重新构建DIV块,对每个原子DIV块进行参数分析,以识别网页的各网页结构元素(如图3所示);
[0065]步骤103,对网页分块处理,分别划分出A、B、C、D、E五个网页区块(如图4所示),所述的五个网页区块是一种泛指,根据本实施例获取的网页决定划分区块的数量,并不是本发明所必需的。A、B、D经整理后为属于同一个网页并且为多个网页相同的网页结构元素。其中,网页区块A、B、D为对用户浏览网页有意义的网页结构元素,比如具有跳到其他网页功能的“上一页”、“末页”等链接信息。C为没有意义的结构元素,比如网页视频播放窗口或者垃圾信息(比如广告等信息);网页区块E为多个网页中不相同的网页正文部分分别对应的网页结构元素;
[0066]步骤104,对网页区块A、B、D定义为第一类网页区块,网页区块E定义为第二类网页区块;
[0067]步骤105,存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。如只采集第一网页中的网页区块A、B、D,并只保存一次,其它网页中的与第一网页中的网页区块A、B、D相同的网页区块不保存,优选的,其它网页中的与第一网页中的网页区块A、B、D相同的网页区块不进行采集也不保存;在进行第一网页中的网页区块A、B、D存储时,具体存储内容以关建值(Key-Value )的方式存储。如为该第一类网页区块设置第一标记,该第一标记值可以为1,即Flag = 1,并设定第一类网页区块的Big-1D,以及自身网页信息(Big-Content);为该第二类网页区块设置第二标记,该第二标记值可以为3,即Flag = 3,并设定每个第二类网页区块的Web-1D,以及各自的网页信息(Content);为除该第一类网页区块和第二类网页区块之外的其它网页区块设置第三标记,该第三标记值可以为 2,即 Flag = 2。
[0068]步骤106,删除Flag = 2为C的网页区块。
[0069]步骤107,根据用户的点击,读取Flag = I和3的网页区块,并读取这些网页区块的 Web-1D,根据 Web-1D 读取 Content,同时读取 Big-1D,根据 Big-1D,读取 Big-Content,之后将Content信息和Big-Content信息进行拼接,形成网页快照并显示。
[0070]本发明的网页信息处理方法可以节约网络资源的消耗,加快网页显示速度,进一步减小系统负荷。
[0071]实施例2
[0072]如图5所示,本发明的实施例还提供一种网页内容处理的装置,包括:
[0073]获取模块,用于获取属于同一类型网站中的多个网页;
[0074]处理模块,用于分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素;
[0075]存储模块,用于存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。
[0076]其中,所述处理模块包括:
[0077]解析单元,用于分别对所述多个网页进行解析,获取多个网页结构元素;
[0078]第一查找单元,用于在所述多个网页结构中,查找多个网页的相同的网页结构元素,并从中获取一个网页的所述网页结构元素作为所述第一类网页区块;
[0079]第二查找单元,用于在所述多个网页结构中,查找多个网页的网页正文部分对应的网页结构元素,并分别获取各个网页的网页正文部分分别对应的网页结构元素作为所述第二类网页区块。
[0080]其中,上述装置还包括:
[0081]设置模块,用于对所述第一类网页区块设置第一标记,并分别对各个网页的正文部分对应的第二类网页区块设置第二标记。
[0082]其中,上述装置还包括:
[0083]拼接模块,用于根据所述第一标记获得所述第一类网页区块的内容,根据所述第二标记获得所述第二类网页区块的内容,将所述第二类网页区块的内容和所述第一类网页区块的内容进行拼接,形成网页快照。
[0084]其中,所述处理模块还用于:丢弃对所述多个网页进行分块处理时得到的除所述第一类网页区块和所述第二类网页区块以外的其他区块。
[0085]本发明的该装置实施例同样通过对网页进行区块划分,多个网页相同的网页结构元素,不分别进行保存,只保存其中一个网页的该相同的网页结构元素,即对多个网页相同的网页结构元素只进行一次保存,可以减小网络系统负荷。
[0086]下面,对上述装置的具体实现过程进行描述:
[0087]首先用户可以通过索引搜索想查看的网站,获取模块开始采集同一类型网站中的网页,然后处理模块中的解析单元,分别对所述多个网页进行解析,获取多个网页结构元素;第一查找单元,查找多个网页的相同的网页结构元素,并从中获取一个网页的所述网页结构元素作为所述第一类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素。同时第二查找单元查找多个网页的网页正文部分对应的网页结构元素,并分别获取各个网页的网页正文部分分别对应的网页结构元素作为所述第二类网页区块;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素。查找完后,存储模块存储所述第一类网页区块和第二类网页区块。获取或者采集上述第一类网页区块和第二类网页区块时,或者存储上述第一类网页区块和第二类网页区块时或者存储之后,设置模块对所述第一类网页区块设置第一标记,并分别对各个网页的正文部分对应的第二类网页区块设置第二标记。
[0088]拼接模块从存储模块中,根据第一标记读取第一类网页区块,和根据第二标记读取第二类网页区块,将第一类区块和第二类区块信息拼接,形成网页快照。户可通过索引选择查看网页快照。
[0089]本发明实施例的装置,同样可以节约网络资源的消耗,加快网页显示速度,进一步减小系统负荷。
[0090]以上所述是本发明的优选实施方式,应当指出,对于本【技术领域】的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
【权利要求】
1.一种网页信息处理的方法,其特征在于,包括: 获取属于同一类型网站中的多个网页; 分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素; 存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。
2.根据权利要求1所述的网页信息处理的方法,其特征在于,分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块的步骤包括: 分别对所述多个网页进行解析,获取多个网页结构元素; 在所述多个网页结构中,查找多个网页的相同的网页结构元素,并从中获取一个网页的所述网页结构元素作为所述第一类网页区块; 在所述多个网页结构中,查找多个网页的网页正文部分对应的网页结构元素,并分别获取各个网页的网页正文部分分别对应的网页结构元素作为所述第二类网页区块。
3.根据权利要求1所述的网页信息处理的方法,其特征在于,存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块后还包括: 对所述第一类网页区块设置第一标记,并分别对各个网页的正文部分对应的第二类网页区块设置第二标记。
4.根据权利要求3所述的网页信息处理的方法,其特征在于,还包括: 根据所述第一标记获得所述第一`类网页区块的内容; 根据所述第二标记获得所述第二类网页区块的内容; 将所述第二类网页区块的内容和所述第一类网页区块的内容进行拼接,形成网页快照。
5.根据权利要求1一 4任一项所述的网页信息处理的方法,其特征在于,还包括: 丢弃对所述多个网页进行分块处理时得到的除所述第一类网页区块和所述第二类网页区块以外的其他区块。
6.一种网页信息处理的装置,其特征在于,包括: 获取模块,用于获取属于同一类型网站中的多个网页; 处理模块,用于分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素; 存储模块,用于存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。
7.根据权利要求6所述的网页信息处理的装置,其特征在于,所述处理模块包括: 解析单元,用于分别对所述多个网页进行解析,获取多个网页结构元素; 第一查找单元,用于在所述多个网页结构中,查找多个网页的相同的网页结构元素,并从中获取一个网页的所述网页结构元素作为所述第一类网页区块; 第二查找单元,用于在所述多个网页结构中,查找多个网页的网页正文部分对应的网页结构元素,并分别获取各个网页的网页正文部分分别对应的网页结构元素作为所述第二类网页区块。
8.根据权利要求6所述的网页信息处理的装置,其特征在于,还包括: 设置模块,用于对所述第一类网页区块设置第一标记,并分别对各个网页的正文部分对应的第二类网页区块设置第二标记。
9.根据权利要求8所述的网页信息处理的装置,其特征在于,还包括: 拼接模块,用于根据所述第一标记获得所述第一类网页区块的内容,根据所述第二标记获得所述第二类网页区块的内容,将所述第二类网页区块的内容和所述第一类网页区块的内容进行拼接,形成网页快照。
10.根据权利要求6- 9任一项所述的网页信息处理的装置,其特征在于,所述处理模块还用于: 丢弃对所述多个网页进行分块处理时得到的除所述第一类网页区块和所述第二类网页区块以外的其他区块。
【文档编号】G06F17/30GK103678378SQ201210345265
【公开日】2014年3月26日 申请日期:2012年9月17日 优先权日:2012年9月17日
【发明者】胡珉, 钱岭, 孙少陵 申请人:中国移动通信集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1