一种提取页面信息的方法及装置的制造方法_6

文档序号:9826310阅读:来源:国知局
预设的过滤特征字符串和预设的标签匹配模式。
[0236]上述移动终端的信息还可以包括移动终端的分辨率等。由于不同型号的移动终端的屏幕尺寸大小不同,移动终端的屏幕尺寸很小时可能显示较少的页面信息就显得非常拥挤,因此根据移动终端的信息来设定预设的过滤特征字符串和预设的标签匹配模式,这样最终提取的目标信息更适合用户的移动终端,可以更合理的在用户的移动终端上显示页面信息,提高用户浏览页面的体验度。
[0237]在本发明实施例中,先对网页的源代码进行分段,然后根据预设的过滤特征字符串和预设的标签匹配模式,分别从多个代码段中同时提取目标信息;根据提取的目标信息生成指定格式的页面信息。由于先对源代码进行分段,然后根据预设的过滤特征字符串和预设的标签匹配模式分别从多个代码段中同时提取目标信息,节省了提取页面信息的时间,提高了提取页面信息的效率,且过滤掉了不适合在小屏幕的移动终端上显示的页面信息,避免了通过DOM树提取网页的所有内容,且适用于小屏幕移动终端提取及显示页面信息。
[0238]本发明实施例所提供的提取页面信息的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程。
[0239]在本申请所提供的几个实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0240]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0241]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0242]所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0243]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
【主权项】
1.一种提取页面信息的方法,其特征在于,所述方法包括: 获取网页中待处理的源代码; 根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息; 根据提取的所述目标信息生成指定格式的页面信息。2.根据权利要求1所述的方法,其特征在于,所述根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息,包括: 对所述源代码进行词法分析,得到所述源代码的每个标签信息; 从所述每个标签信息中,删除与预设的过滤特征字符串相匹配的标签信息; 从未删除的标签信息中,提取符合预设的标签匹配模式的标签信息作为目标信息。3.根据权利要求2所述的方法,其特征在于,所述从所述每个标签信息中,删除与预设的过滤特征字符串相匹配的标签信息,包括: 读取所述标签信息的开标签字符串; 判断所述开标签字符串中是否包含预设的过滤特征字符串; 若所述开标签字符串中包含所述预设的过滤特征字符串,则确定所述标签信息为与所述预设的过滤特征字符串相匹配的标签信息,从所述源代码中删除所述标签信息。4.根据权利要求2所述的方法,其特征在于,所述预设的标签匹配模式为单一匹配模式;所述从未删除的标签信息中,提取符合预设的标签匹配模式的标签信息作为目标信息,包括: 根据所述单一匹配模式依次对所述未删除的标签信息进行模式匹配; 提取符合所述单一匹配模式的标签信息作为目标信息。5.根据权利要求2所述的方法,其特征在于,所述预设的标签匹配模式为组合匹配模式;所述从未删除的标签信息中,提取符合预设的标签匹配模式的标签信息作为目标信息,包括: 根据所述组合配模式依次对所述未删除的标签信息进行模式匹配; 提取顺序分布且其组合能够满足所述组合匹配模式的多个标签信息作为目标信息。6.根据权利要求1-5任一项所述的方法,其特征在于,所述获取网页中待处理的源代码,包括: 根据预设的分段特征字符串将网页的源代码划分为多个代码段,分别获取每个所述代码段作为待处理的源代码; 相应地,所述根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息,包括: 根据预设的过滤特征字符串和预设的标签匹配模式分别从所述多个代码段中提取目标?目息O7.根据权利要求1-5任一项所述的方法,其特征在于,所述获取网页中待处理的源代码,包括: 根据预设的起始字符串和结束字符串,从网页的源代码中划分出至少一个代码段,分别获取划分出的每个代码段作为待处理的源代码; 相应地,所述根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息,包括: 根据预设的过滤特征字符串和预设的标签匹配模式分别从所述划分出的每个代码段中提取目标信息。8.根据权利要求1所述的方法,其特征在于,所述方法还包括: 获取用户的移动终端的信息,所述移动终端的信息至少包括以下中的一种或多种:所述移动终端的型号、显示屏参数和硬件性能参数; 根据所述移动终端的信息,设定所述过滤特征字符串和所述标签匹配模式。9.根据权利要求1所述的方法,其特征在于,所述获取网页中待处理的源代码,包括: 接收用户的网页获取请求,将所述网页获取请求发送至相应的网站服务器; 接收所述网站服务器以流式传输方式发送的网页源代码,将当前接收到的流式传输的源代码作为待处理的源代码。10.根据权利要求1所述的方法,其特征在于,所述根据提取的所述目标信息生成指定格式的页面信息,包括: 根据提取的所述目标信息,生成相应的页面显示代码,所述页面显示代码用于使浏览器加载以显示所述目标信息对应的页面信息。11.一种提取页面信息的装置,其特征在于,所述装置包括: 获取模块,用于获取网页中待处理的源代码; 提取模块,用于根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息; 生成模块,用于根据提取的所述目标信息生成指定格式的页面信息。12.根据权利要求11所述的装置,其特征在于,所述提取模块包括: 词法分析单元,用于对所述源代码进行词法分析,得到所述源代码的每个标签信息; 过滤单元,用于从所述每个标签信息中,删除与预设的过滤特征字符串相匹配的标签信息; 提取单元,用于从未删除的标签信息中,提取符合预设的标签匹配模式的标签信息作为目标信息。13.根据权利要求12所述的装置,其特征在于,所述过滤单元包括: 读取子单元,用于读取所述标签信息的开标签字符串; 判断子单元,用于判断所述开标签字符串中是否包含预设的过滤特征字符串; 删除子单元,用于若所述开标签字符串中包含所述预设的过滤特征字符串,则确定所述标签信息为与所述预设的过滤特征字符串相匹配的标签信息,从所述源代码中删除所述标签信息。14.根据权利要求12所述的装置,其特征在于,所述预设的标签匹配模式为单一匹配模式;所述提取单元包括: 第一模式匹配子单元,用于根据所述单一匹配模式依次对所述未删除的标签信息进行模式匹配; 第一提取子单元,用于提取符合所述单一匹配模式的标签信息作为目标信息。15.根据权利要求12所述的装置,其特征在于,所述预设的标签匹配模式为组合匹配模式;所述提取单元包括: 第二模式匹配子单元,用于根据所述组合匹配模式依次对所述未删除的标签信息进行模式匹配; 第二提取子单元,用于提取顺序分布且其组合能够满足所述组合匹配模式的多个标签信息作为目标信息。16.根据权利要求11-15任一项所述的装置,其特征在于,所述获取模块,用于根据预设的分段特征字符串将网页的源代码划分为多个代码段,分别获取每个所述代码段作为待处理的源代码; 相应地,所述提取模块,用于根据预设的过滤特征字符串和预设的标签匹配模式分别从所述多个代码段中提取目标信息。17.根据权利要求11-15任一项所述的装置,其特征在于,所述获取模块,用于根据预设的起始字符串和结束字符串,从网页的源代码中划分出至少一个代码段,分别获取划分出的每个代码段作为待处理的源代码; 相应地,所述提取模块,用于根据预设的过滤特征字符串和预设的标签匹配模式分别从所述划分出的每个代码段中提取目标信息。18.根据权利要求11所述的装置,其特征在于,所述装置还包括: 设定模块,用于获取用户的移动终端的信息,所述移动终端的信息至少包括以下中的一种或多种:所述移动终端的型号、显示屏参数和硬件性能参数;根据所述移动终端的信息,设定所述过滤特征字符串和所述标签匹配模式。19.根据权利要求11所述的装置,其特征在于,所述获取模块包括: 发送单元,用于接收用户的网页获取请求,将所述网页获取请求发送至相应的网站服务器; 接收单元,用于接收所述网站服务器以流式传输方式发送的网页源代码,将当前接收到的流式传输的源代码作为待处理的源代码。20.根据权利要求11所述的装置,其特征在于,所述生成模块,用于根据提取的所述目标信息,生成相应的页面显示代码,所述页面显示代码用于使浏览器加载以显示所述目标信息对应的页面信息。
【专利摘要】本发明提供了一种提取页面信息的方法及装置。其中,该方法包括:获取网页中待处理的源代码;根据预设的过滤特征字符串和预设的标签匹配模式,从源代码中提取目标信息;根据提取的目标信息生成指定格式的页面信息。通过本发明,根据预设的过滤特征字符串和预设的标签匹配模式来提取目标信息,避免了通过DOM树提取待处理网页的所有内容,提高了提取页面信息的效率,适用于不同类型移动终端提取及显示页面信息。
【IPC分类】G06F17/30
【公开号】CN105589913
【申请号】CN201510335008
【发明人】蔡明
【申请人】广州市动景计算机科技有限公司
【公开日】2016年5月18日
【申请日】2015年6月15日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1