一种页面快速转换方法、装置和系统的制作方法

文档序号:6565034阅读:186来源:国知局
专利名称:一种页面快速转换方法、装置和系统的制作方法
一种页面快速转换方法、装置和系统技术领域
本申请涉及网页技术领域,特别涉及一种页面快速转换方法、装置和系统。
背景技术
随着具备上网功能的移动终端的普及,多数用户已经开始使用移动终端上网, 浏览网页信息。针对这一趋势,各大网站专门优化了自己的WAP网站(WAP,Wireless Application Protocol,无线应用协议,一种实现移动电话与互联网结合的应用协议标 准),做了针对移动终端用户体验的WAP网站。
现有技术中,在当服务器接收到页面请求后,服务器需要大量本地存储在后台去 抓取网页(web)和建立模板训练分析,并使用几个固化的模板直接套取web页面的内容,从 而生成WAP页面。这使现有技术存在下述缺点和不足
(I)大量本地存储,现有技术因为要抓取网页和建立模板训练分析,因此需要大量 的本地存储。
(2)局限性,对于千变万化的各种互联网web页面,现有技术大多使用固化模板直 接套取web页面的内容,影响了普适性。
对于大多数页面,通常只是在个人电脑(PC)正常或完整显示,而在移动终端上其 显示效果并不不理想,并且现有技术的这种解决方案往往耗费大量的很多的人力和物力。发明内容
本申请所要解决的技术问题是提供一种页面快速转换方法、装置和系统,以解决 无线应用环境中耗费资源多的问题。
为了解决上述问题,本申请公开了一种页面快速转换方法,包括
请求接收步骤,接收用户端页面请求;
页面获取步骤,根据所述请求获取页面文档,并解析所述文档的DOM树结构;
标签过滤步骤,依据标签库和结构标签词典,对所述DOM树中的各级标签进行过 滤;
页面整理步骤,将过滤后的DOM树中的标签及其所包含的内容按照所对应结构写 入显示框架;
页面返回步骤,返回整理后的结果至用户端。
优选的,所述的标签过滤步骤具体包括,针对DOM树中的各级标签,执行以下步 骤
初步标签过滤步骤,对于当前层级的子标签,依据标签库对该级子标签进行过 滤;
结构型标签过滤步骤,针对过滤后所述保留的结构型标签,依据结构标签词典,对 其进行过滤。
优选的,所述初步标签过滤步骤包括标签判断步骤
对于保留的文本标签,将所述的文本标签及其内容和对应的父标签转入页面整理步骤;
对于保留的图像标签,当所述图像标签指示的图像的尺寸大小低于预定尺寸大小阈值,则将所述的图像标签及其内容和对应的父标签转入页面整理步骤;
对于保留的结构型标签,转入结构型标签过滤步骤。
优选的,所述的结构标签词典的标签词包括标签id属性和class属性包含的文本中的标签词;其中,所述的标签词根据统计频次选定。
优选的,所述的结构型标签过滤步骤具体包括
查找步骤,针对每一个结构型标签,根据其id属性和/或class属性文本中的标签词,在结构标签词典的标签词中进行匹配查找;
标签相似度计算步骤,根据匹配查找结果,按照标签规则集,计算所述结构型标签与结构型标签词典中标签词的标签相似度;
判断过滤步骤,将计算得到的标签相似度与预置的阈值进行比较,并根据比较结果,对所述结构型标签进行过滤。
优选的,所述的标签相似度根据标签文本相似度和标签语义相似度计算得到。
优选的,所述的标签文本相似度的计算方法为
权利要求
1.一种页面快速转换方法,其特征在于,包括 请求接收步骤,接收用户端页面请求; 页面获取步骤,根据所述请求获取页面文档,并解析所述文档的DOM树结构; 标签过滤步骤,依据标签库和结构标签词典,对所述DOM树中的各级标签进行过滤;页面整理步骤,将过滤后的DOM树中的标签及其所包含的内容按照所对应结构写入显示框架; 页面返回步骤,返回整理后的结果至用户端。
2.如权利要求1所述的方法,其特征在于 所述的标签过滤步骤具体包括,针对DOM树中的各级标签,执行以下步骤 初步标签过滤步骤,对于当前层级的子标签,依据标签库对该级子标签进行过滤; 结构型标签过滤步骤,针对过滤后所述保留的结构型标签,依据结构标签词典,对其进行过滤。
3.如权利要求2所述的方法,其特征在于 所述初步标签过滤步骤包括标签判断步骤 对于保留的文本标签,将所述的文本标签及其内容和对应的父标签转入页面整理步骤; 对于保留的图像标签,当所述图像标签指示的图像的尺寸大小低于预定尺寸大小阈值,则将所述的图像标签及其内容和对应的父标签转入页面整理步骤; 对于保留的结构型标签,转入结构型标签过滤步骤。
4.如权利要求1所述的方法,其特征在于 所述的结构标签词典的标签词包括标签id属性和class属性包含的文本中的标签词;其中,所述的标签词根据统计频次选定。
5.如权利要求4所述的方法,其特征在于 所述的结构型标签过滤步骤具体包括 查找步骤,针对每一个结构型标签,根据其id属性和/或class属性文本中的标签词,在结构标签词典的标签词中进行匹配查找; 标签相似度计算步骤,根据匹配查找结果,按照标签规则集,计算所述结构型标签与结构型标签词典中标签词的标签相似度; 判断过滤步骤,将计算得到的标签相似度与预置的阈值进行比较,并根据比较结果,对所述结构型标签进行过滤。
6.如权利要求5所述的方法,其特征在于 所述的标签相似度根据标签文本相似度和标签语义相似度计算得到。
7.如权利要求6所述的方法,其特征在于 所述的标签文本相似度的计算方法为
8.如权利要求5所述的方法,其特征在于 所述判断过滤步骤具体包括 当所述的标签相似度大于阈值时,对所述结构型标签进行过滤。
9.如权利要求5所述的方法,其特征在于 所述的结构标签词典包括导航过滤词典和页脚过滤词典;所述的导航过滤词典用于过滤的标签词包括导航标签词、广告标签词,所述的页脚过滤词典过滤的标签词包括页眉标签词、页脚标签词。
10.一种页面快速转换装置,其特征在于,包括 请求接收模块,用于接收用户端页面请求; 页面获取模块,用于获取页面文档,并解析所述的页面文档的DOM树结构; 标签过滤模块,用于依据标签库和结构标签词典,对所述DOM树中的各级标签进行过滤; 页面整理模块,用于将过滤后的DOM树中的标签及其所包含的内容按照所对应结构写入显示框架; 页面返回模块,用于返回整理后的结果至用户端。
全文摘要
本申请提供了一种面快速转换方法、装置和系统,涉及网页技术领域。所述方法包括接收用户端页面请求;根据所述请求获取页面文档,并解析所述文档的DOM树结构;依据标签库和结构标签词典,对所述DOM树中的各级标签进行过滤;将过滤后的DOM树中的标签及其所包含的内容按照所对应结构写入显示框架;返回整理后的结果至用户端。通过本申请页面转换的整个过程可以实时在线完成,不需要任何本地存储,并且运算速度快,可在内存中完成数据处理过程的存储缓存,不需要过多的文件IO操作和数据库操作。
文档编号G06F17/30GK102999511SQ201110270268
公开日2013年3月27日 申请日期2011年9月13日 优先权日2011年9月13日
发明者贾宇 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1