一种提取页面信息的方法及装置的制造方法

文档序号:9826310阅读:274来源:国知局
一种提取页面信息的方法及装置的制造方法
【技术领域】
[0001]本发明涉及互联网及终端技术领域,具体而言,涉及一种提取页面信息的方法及
目.0
【背景技术】
[0002]目前,网页一般是针对屏幕较大的终端设计的,网页内容丰富且结构复杂。但现在用户经常通过屏幕较小的移动终端来浏览网页,为了提高网页在移动终端上显示时的可读性,需要从网页中提取出适于在移动终端上显示的页面信息。
[0003]当前,相关技术中提供了一种基于DOM(Document Object Model,文档对象模型)树结构的提取页面信息的方法,包括:获取网页,对该网页进行词法分析,得到该网页包含的每个单词。对得到的每个单词进行语法分析,得到该网页页面包括的各个节点,通过脚本分析将得到的各个节点组成DOM树。然后通过基于DOM的数据识别算法识别该DOM树中与目标信息相关的页面信息,并显示识别出的页面信息。
[0004]在实现本发明的过程中,发明人发现相关技术中至少存在以下问题:
[0005]基于DOM树结构的提取页面信息的方法,需要对网页的所有内容进行分析,其中包含了大量与目标信息无关的单词及节点,导致提取页面信息的效率很低。

【发明内容】

[0006]有鉴于此,本发明实施例的目的在于提供一种提取页面信息的方法及装置,避免了通过DOM树提取待处理网页的所有内容,提高了提取页面信息的效率。
[0007]第一方面,本发明实施例提供了一种提取页面信息的方法,所述方法包括:
[0008]获取网页中待处理的源代码;
[0009]根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息;
[0010]根据提取的所述目标信息生成指定格式的页面信息。
[0011]结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中,所述根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息,包括:
[0012]对所述源代码进行词法分析,得到所述源代码的每个标签信息;
[0013]从所述每个标签信息中,删除与预设的过滤特征字符串相匹配的标签信息;
[0014]从未删除的标签信息中,提取符合预设的标签匹配模式的标签信息作为目标信息。
[0015]结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中,所述从所述每个标签信息中,删除与预设的过滤特征字符串相匹配的标签信息,包括:
[0016]读取所述标签信息的开标签字符串;
[0017]判断所述开标签字符串中是否包含预设的过滤特征字符串;
[0018]若所述开标签字符串中包含所述预设的过滤特征字符串,则确定所述标签信息为与所述预设的过滤特征字符串相匹配的标签信息,从所述源代码中删除所述标签信息。
[0019]结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中,所述预设的标签匹配模式为单一匹配模式;所述从未删除的标签信息中,提取符合预设的标签匹配模式的标签信息作为目标信息,包括:
[0020]根据所述单一匹配模式依次对所述未删除的标签信息进行模式匹配;
[0021]提取符合所述单一匹配模式的标签信息作为目标信息。
[0022]结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中,所述预设的标签匹配模式为组合匹配模式;所述从未删除的标签信息中,提取符合预设的标签匹配模式的标签信息作为目标信息,包括:
[0023]根据所述组合匹配模式依次对所述未删除的标签信息进行模式匹配;
[0024]提取顺序分布且其组合能够满足所述组合匹配模式的多个标签信息作为目标信息。
[0025]结合第一方面及第一方面的第一至第四种可能的实现方式中任一种方式,本发明实施例提供了上述第一方面的第五种可能的实现方式,其中,所述获取网页中待处理的源代码,包括:
[0026]根据预设的分段特征字符串将网页的源代码划分为多个代码段,分别获取每个所述代码段作为待处理的源代码;
[0027]相应地,所述根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息,包括:
[0028]根据预设的过滤特征字符串和预设的标签匹配模式分别从所述多个代码段中提取目标信息。
[0029]结合第一方面及第一方面的第一至第四种可能的实现方式中任一种方式,本发明实施例提供了上述第一方面的第六种可能的实现方式,其中,所述获取网页中待处理的源代码,包括:
[0030]根据预设的起始字符串和结束字符串,从网页的源代码中划分出至少一个代码段,分别获取划分出的每个代码段作为待处理的源代码;
[0031]相应地,所述根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息,包括:
[0032]根据预设的过滤特征字符串和预设的标签匹配模式分别从所述划分出的每个代码段中提取目标信息。
[0033]结合第一方面,本发明实施例提供了上述第一方面的第七种可能的实现方式,其中,所述根据提取的所述目标信息生成指定格式的页面信息,包括:
[0034]根据提取的所述目标信息,生成相应的页面显示代码,所述页面显示代码用于使浏览器加载以显示所述目标信息对应的页面信息。
[0035]结合第一方面,本发明实施例提供了上述第一方面的第八种可能的实现方式,其中,所述方法还包括:
[0036]获取用户对应的移动终端的信息,所述移动终端的信息至少包括以下中的一种或多种:所述移动终端的型号、显示屏参数和硬件性能参数;
[0037]根据所述移动终端的信息,设定所述过滤特征字符串和所述标签匹配模式。
[0038]结合第一方面,本发明实施例提供了上述第一方面的第九种可能的实现方式,其中,所述获取网页中待处理的源代码,包括:
[0039]接收用户的网页获取请求,将所述网页获取请求发送至相应的网站服务器;
[0040]接收所述网站服务器以流式传输方式发送的网页的源代码,将当前接收到的流式传输的源代码作为待处理的源代码。
[0041]第二方面,本发明实施例提供了一种提取页面信息的装置,所述装置包括:
[0042]获取模块,用于获取网页中待处理的源代码;
[0043]提取模块,用于根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息;
[0044]生成模块,用于根据提取的所述目标信息生成指定格式的页面信息。
[0045]结合第二方面,本发明实施例提供了上述第二方面的第一种可能的实现方式,其中,所述提取模块包括:
[0046]词法分析单元,用于对所述源代码进行词法分析,得到所述源代码的每个标签信息;
[0047]过滤单元,用于从所述每个标签信息中,删除与预设的过滤特征字符串相匹配的标签信息;
[0048]提取单元,用于从未删除的标签信息中,提取符合预设的标签匹配模式的标签信息作为目标信息。
[0049]结合第二方面的第一种可能的实现方式,本发明实施例提供了上述第二方面的第二种可能的实现方式,其中,所述过滤单元包括:
[0050]读取子单元,用于读取所述标签信息的开标签字符串;
[0051]判断子单元,用于判断所述开标签字符串中是否包含预设的过滤特征字符串;
[0052]删除子单元,用于若所述开标签字符串中包含所述预设的过滤特征字符串,则确定所述标签信息为与所述预设的过滤特征字符串相匹配的标签信息,从所述源代码中删除所述标签信息。
[0053]结合第二方面的第一种可能的实现方式,本发明实施例提供了上述第二方面的第三种可能的实现方式,其中,所述预设的标签匹配模式为单一匹配模式;所述提取单元包括:
[0054]第一模式匹配子单元,用于根据所述单一配模式依次对所述未删除的标签信息进行模式匹配;
[0055]第一提取子单元,用于提取符合所述单一匹配模式的标签信息作为目标信息。
[0056]结合第二方面的第一种可能的实现方式,本发明实施例提供了上述第二方面的第四种可能的实现方式,其中,所述预设的标签匹配模式为组合匹配模式;所述提取单元包括:
[0057]第二模式匹配子单元,用于根据所述组合匹配模式依次对所述未删除的标签信息进行模式匹配;
[0058]第二提取子单元,用于提取顺序分布且其组合能够满足所述组合匹配模式的多个标签信息作为目标信息。
[0059]结合第二方面及第二方面的第一至第四种可能的实现方式中任一种方式,本发明实施例提供了上述第二方面的第五种可能的实现方式,其中,所述获取模块,用于根据预设的分段特征字符串将网页的源代码划分为多个代码段,分别获取每个所述代码段作为待处理的源代码;
[0060]相应地,所述提取模块,用于根据预设的过滤特征字符串和预设的标签匹配模式分别从所述多个代码段中提取目标信息。
[0061]结合第二方面及第二方面的第一至第四种可能的实现方式中任一种方式,本发明实施例提供了上述第二方面的第六种可能的实现方式,其中,所述获取模块,用于根据预设的起始字符串和结束字符串,从网页的源代码中划分出至少一个代码段,分别获取划分出的每个代码段作为待处理的源代码;
[0062]相应地,所述提取模块,用于根据预设的过滤特征字符串和预设的标签匹配模式分别从所述划分出的每个代码段中提取目标信息。
[0063]结合第二方面,本发明实施例提供了上述第二方面的第七种可能的实现方式,其中,所述生成模块,用于根据提取的所述目标信息,生成相应的页面显示代码,所述页面显示代码用于使浏览器加载以显示所述目标信息对应的页面信息。
[0064]结合第二方面,本发明实施例提供了上述第二方面的第八种可能的实现方式,其中,所述装置还包括:
[0065]设定模块,用于获取用户的移动终端的信息,所述移动终端的信息至少包括以下中的一种或多种:所述移动终端的型号、显示屏参数和硬件性能参数;根据所述移动终端的信息,设定所述过滤特征字符串和所述标签匹配模式。
[0066]结合第二方面,本发明实施例提供了上述第二方面的第九种可能的实现方式,其中,所述获取模块包括:
[0067]发送单元,用于接收用户的网页获取请求,将所述网页获取请求发送至相应的网站服务器;
[0068]接收单元,用于接收所述网站服务器以流式传输方式发送的网页源代码,将当前接收到的流式传输的源代码作为待处理的源代码。
[0069]在本发明实施例提供的方法及装置中,根据预设的过滤特征字符串和预设的标签匹配模式,从源代码中提取目标信息;根据提取的目标信息生成指定格式的数据。由于根据预设的过
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1