Wap页面的结构化显示方法及装置制造方法

文档序号:6489880阅读:104来源:国知局
Wap页面的结构化显示方法及装置制造方法【专利摘要】本发明公开一种WAP页面的结构化显示方法及装置,该显示方式包括:接收页面浏览请求,获取该页面浏览请求所请求的原始页面;对该原始页面进行切行,并以行为单位对原始网页进行扫描,获得WAP页面的结构化字段;将所获得的结构化字段进行组合,并对其进行显示。本发明通过获取页面浏览请求对应的原始页面后,对其进行切行,并获得WAP页面的结构化字段,然后对其进行显示。因此,相对于现有技术的模板抽取技术,本发明可以适用不同网站的WAP页面显示,而不再需要配置相应的模板,从而降低了人工对模板制作及维护的成本。【专利说明】WAP页面的结构化显示方法及装置【
技术领域
】[0001]本发明涉及网页显示领域,尤其涉及一种WAP页面的结构化显示方法及装置。【
背景技术
】[0002]相对于WWW页面,WAP页面更加简单且适合手机浏览器展现。而且,移动终端的离线阅读应用越来越受到用户的青睐,它给用户提供了收集并统一管理待阅读网页的功能。对于此类阅读应用来说,直接呈现原网页样式及内容会导致用户体验不一、杂乱无章的感觉。因此将网页结构化显示,并提供一致的阅读体验非常重要。[0003]现有的网页结构化显示主要利用模板抽取技术。由于同一网站中网页的结构,均由固定的模板所承载,因此在网页内容更新时,承载其的模板不会发生变化。因此,可以对网站配置相应的模板,当显示网页内容时,则从模板中提取需要显示的信息进行结构化后,并对其进行显示。[0004]虽然上述模板抽取技术可以实现网页结构化显示,但是其在实际的使用中仍存在以下问题:[0005](I)每个站点都必须配置相应的模板,该模板无法对多个站点实现通用,由此造成的人工制作模板的成本较高;[0006](2)当站点更新后,其配置的模板可能也会失效,因此需要人工及时地维护,由此造成的人工维护的成本较高。【
发明内容】[0007]本发明的主要目的是提供一种WAP页面的结构化显示方法,旨在降低了现有技术的WAP页面的显示中,人工对模板制作及维护的成本。[0008]本发明提供了一种WAP页面的结构化显示方法,包括:[0009]接收页面浏览请求,获取该页面浏览请求所请求的原始页面;[0010]对该原始页面进行切行,并以行为单位对原始网页进行扫描,获得WAP页面的结构化字段;[0011]将所获得的结构化字段进行组合,并对其进行显示。[0012]本发明还提供了一种WAP页面的结构化显示装置,包括:[0013]页面获取模块,用于接收页面浏览请求,获取该页面浏览请求所请求的原始页面;[0014]页面结构化模块,用于对该原始页面进行切行,并以行为单位对原始网页进行扫描,获得WAP页面的结构化字段;[0015]页面显示模块,用于将所获得的结构化字段进行组合,并对其进行显示。[0016]本发明通过获取页面浏览请求对应的原始页面后,对其进行切行,并获得WAP页面的结构化字段,然后对其进行显示。因此,相对于现有技术的模板抽取技术,本发明可以适用不同网站的WAP页面显示,而不再需要配置相应的模板,从而降低了人工对模板制作及维护的成本。【专利附图】【附图说明】[0017]图1是本发明WAP页面的结构化显示方法一实施例的流程示意图;[0018]图2是本发明WAP页面的结构化显示方法中,获取WAP页面的结构化字段的流程示意图;[0019]图3是应用现有技术的WAP页面显示方法而显示的WAP页面的示意图;[0020]图4是应用本发明WAP页面的结构化显示方法而显示的WAP页面的示意图;[0021]图5是本发明WAP页面的结构化显示装置一实施例的结构示意图;[0022]图6是本发明WAP页面的结构化显示装置中页面结构化模块的结构示意图;[0023]图7是本发明WAP页面的结构化显示装置中页面结构化模块的字段抽取单元一实施例的结构示意图;[0024]图8是本发明WAP页面的结构化显示装置中页面结构化模块的字段抽取单元另一实施例的结构示意图。[0025]本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。【具体实施方式】[0026]以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。[0027]参照图1,提出了本发明WAP页面的结构化显示方法一实施例。该WAP页面的结构化显示方法包括以下步骤:[0028]步骤S110、接收页面浏览请求,获取该页面浏览请求所请求的原始页面;[0029]本发明主要用于移动设备上的WAP页面的显示。该移动设备的后台服务器接收用户端发出的页面浏览请求,并将该页面浏览请求发送至网络服务器,以获得页面浏览请求所请求的原始页面。该原始页面为WAP页面,有用户端需要浏览的信息,也有其他的广告信息、其他网页的链接信息等等。[0030]步骤S120、对该原始页面进行切行,并以行为单位对原始网页进行扫描,获得WAP页面的结构化字段;[0031]获取到原始页面后,将对其进行切行,即以行为单位对页面进行切分。然后再对其进行逐行扫描,获得WAP页面的结构化字段。该结构化字段可以包括通用的标题、正文等字段。当然也不限定于这些字段。[0032]应当理解,在获取到原始页面后,还可以提示用户进行显示模式的选择,该显示模式可以包括普通模式、简洁模式等。如果用户的响应是普通模式,则直接将原始页面进行显示;如果用户的响应是简洁模式,则进行步骤S120、步骤S130。[0033]步骤S130、将所获得的结构化字段进行组合,并对其进行显示。[0034]获得WAP页面的结构化字段后,将其进行组合,并对其进行显示。[0035]本发明WAP页面的结构化显示方法通过获取页面浏览请求对应的原始页面后,对其进行切行,并获得WAP页面的结构化字段,然后对其进行显示。因此,相对于现有技术的模板抽取技术,本发明可以适用不同网站的WAP页面显示,而不再需要配置相应的模板,从而降低了人工对模板制作及维护的成本。[0036]进一步的,参照图2,上述步骤S120包括:[0037]步骤S121、对原始页面进行解析,获得解析树;[0038]本实施例中,通过DOM方法对原始页面进行解析,获得DOM树,该DOM树中每个节点都是由网页中的所有标记属性构成。[0039]步骤S122、查找解析树中的换行标记,并根据换行标记对原始页面以行为单位进行切分;[0040]遍历解析树的所有节点,查找获得所有节点的标记属性中表示换行功能的节点信息,并根据该节点信息以行为单位对页面内容进行切分。表示换行功能的标记属性可以包括br、p、div及table等。该对解析树所有节点的遍历可以由根节点向叶节点进行遍历,或者由叶节点向根节点进行遍历。[0041]步骤S123、以行为单位对原始页面进行扫描,获得WAP页面的标题字段、正文信息行字段及正文字段。[0042]具体地,步骤S123包括:[0043]A、查找解析树中是否存在标题属性的节点,是则获取该节点对应的字段作为WAP页面的标题字段;[0044]由于页面的标题一般位于页面内容的最前面,所以由解析树的根节点向叶节点进行遍历,直到获得节点的标记属性为标题的节点。例如DOM树节点的class/id属性含有“title”。当然也可以为其他的查找方法,例如页面的标题一般都是单独成行,且不含有其他内容;或者标题是居中设置,可以根据该标题的特性进行标题字段的查找,以获得WAP页面的标题字段。[0045]B、以标题字段所在的行为起始行对原始页面进行逐行扫描,判断当前扫描行中是否存在时间字段或来源字段,是则获取当前扫描行的字段作为WAP页面的正文信息行字段;否则继续下一行扫描;[0046]WAP页面的正文信息行字段主要是针对WAP资讯,例如资讯的发表时间或者信息来源等等,而且一般在标题行后一段距离。所以,以标题字段所在的行为起始行对原始页面进行逐行扫描,以获取WAP页面的正文信息行字段。[0047]C、以正文信息行字段所在的行为起始行对原始页面进行逐行扫描,统计正文信息行字段所在的行至所有扫描行之间的文字链接比,并将文字链接比最大的行作为正文字段的截止行,从而获取正文信息行字段所在的行与截止行之间的字段作为WAP页面的正文字段。[0048]本实施例中,主要通过确定文字密度最大的截止行而获取WAP页面的正文字段。即以正文信息行字段所在的行为起始行对原始页面进行逐行扫描,并统计该起始行与当前扫描行之间的文字链接比。由于正文后面均会携带有超链接,因此通过在逐行扫描时,统计起始行至扫描行之间的文字链接比,当文字链接比逐渐减小时,则表示已经扫描至正文后面的超链接。最后再将文字链接比最大的行作为正文字段的截止行,并获取正文信息行字段所在的行与截止行之间的字段作为WAP页面的正文字段。[0049]由于移动设备屏幕尺寸的限制,所有WAP页面中的正文可能需要分为多页进行显示,因此大多数WAP网页均存在翻页链接,例如“上一页”、“下一页”、“余下全文”等等。则步骤S123中在获取正文字段后,还包括:[0050]D、判断WAP页面的正文字段中是否存在翻页链接,是则获取该翻页链接字段。[0051]应当理解,上述获得的WAP页面的结构化字段中,不但包括其基本的字段信息,还包括其他标记,例如字体标记、文本格式标记、文本样式标记等等。由该结构化字段所显示的WAP页面仅显示标题、正文信息行字段、正文字段及翻页链接字段,从而使得WAP页面过滤了多余的广告、链接等信息,进一步提高了用户端的阅读体验。[0052]参照图3及图4,提出本发明应用于移动设备的阅读业务的WAP页面显示。页面浏览请求中URL为“http://tech.sina.cn/?sa=t84v44d21021263&vt=l”,根据该页面浏览请求获取的原始页面显示结果可参照图3所示。使用本发明的WAP页面结构化显示结果可参照图4所示。由图3及图4可知,相对于现有技术的原始页面显示,应用本发明的技术方案而实现的页面过滤了广告、其他新闻等链接信息,使得屏幕上显示的均是用户关注的信息,避免了用户阅读时不断翻动滚动条而影响阅读效果。[0053]参照图5,提出本发明WAP页面的结构化显示装置一实施例。该WAP页面的结构化显示装置包括:[0054]页面获取模块110,用于接收页面浏览请求,获取该页面浏览请求所请求的原始页面;[0055]页面结构化模块120,用于对该原始页面进行切行,并以行为单位对原始网页进行扫描,获得WAP页面的结构化字段;[0056]页面显示模块130,用于将所获得的结构化字段进行组合,并对其进行显示。[0057]本发明主要用于移动设备上的WAP页面的显示。该移动设备的页面获取模块110接收用户端发出的页面浏览请求,并将该页面浏览请求发送至网络服务器,以获得页面浏览请求所请求的原始页面。该原始页面为WAP页面,有用户端需要浏览的信息,也有其他的广告信息、其他网页的链接信息等等。获取到原始页面后,页面结构化模块120将对其进行切行,即以行为单位对页面进行切分。然后再对其进行逐行扫描,获得WAP页面的结构化字段。该结构化字段可以包括通用的标题、正文等字段。当然也不限定于这些字段。最后,页面显示模块130用于对结构化字段进行组合,并对其进行显示。[0058]本发明通过获取页面浏览请求对应的原始页面后,对其进行切行,并获得WAP页面的结构化字段,然后对其进行显示。因此,相对于现有技术的模板抽取技术,本发明可以适用不同网站的WAP页面显示,而不再需要配置相应的模板,从而降低了人工对模板制作及维护的成本。[0059]进一步的,参照图6,上述页面结构化模块120包括:[0060]切行单元121,用于对原始页面进行解析,获得解析树;查找解析树中的换行标记,并根据换行标记对原始页面以行为单位进行切分;[0061]字段抽取单元122,用于以行为单位对原始页面进行扫描,获得WAP页面的标题字段、正文信息行字段及正文字段。[0062]本实施例中,切行单元121通过D0M方法对原始页面进行解析,获得D0M树,该D0M树中每个节点都是由网页中的所有标记属性构成。然后,遍历解析树的所有节点,查找获得所有节点的标记属性中表示换行功能的节点信息,并根据该节点信息以行为单位对页面内容进行切分。表示换行功能的标记属性可以包括br、p、div及table等。[0063]进一步,参照图7,上述字段抽取单元122包括:[0064]第一抽取子单1221,用于查找解析树中是否存在标题属性的节点,是则获取该节点对应的字段作为WAP页面的标题字段;[0065]第二抽取子单元1222,用于以标题字段所在的行为起始行对原始页面进行逐行扫描,判断当前扫描行中是否存在时间字段或来源字段,是则获取当前扫描行的字段作为WAP页面的正文信息行字段;否则继续下一行扫描;[0066]第三抽取子单元1223,用于以正文信息行字段所在的行为起始行对原始页面进行逐行扫描,统计正文信息行字段所在的行至所有扫描行之间的文字链接比,并将文字链接比最大的行作为正文字段的截止行,从而获取正文信息行字段所在的行与截止行之间的字段作为WAP页面的正文字段。[0067]由于页面的标题一般位于页面内容的最前面,所以第一抽取子单元1221由解析树的根节点向叶节点进行遍历,直到获得节点的标记属性为标题的节点。例如DOM树节点的class/id属性含有“title”。当然也可以为其他的查找方法,例如页面的标题一般都是单独成行,且不含有其他内容;或者标题是居中设置,可以根据该标题的特性进行标题字段的查找,以获得WAP页面的标题字段。[0068]第二抽取子单元1222中获取的WAP页面的正文信息行字段主要是针对WAP资讯,例如资讯的发表时间或者信息来源等等,而且一般在标题行后一段距离。所以,该第二抽取子单元122以标题字段所在的行为起始行对原始页面进行逐行扫描,以获取WAP页面的正文信息行字段。[0069]本实施例中,第三抽取子单元1223主要通过确定文字密度最大的截止行而获取WAP页面的正文字段。即以正文信息行字段所在的行为起始行对原始页面进行逐行扫描,并统计该起始行与当前扫描行之间的文字链接比。由于正文后面均会携带有超链接,因此第三抽取子单元1223通过在逐行扫描时,统计起始行至扫描行之间的文字链接比,当文字链接比逐渐减小时,则表示已经扫描至正文后面的超链接。最后第三抽取子单元1223再将文字链接比最大的行作为正文字段的截止行,并获取正文信息行字段所在的行与截止行之间的字段作为WAP页面的正文字段。[0070]进一步的,参照图8,上述字段抽取单元122还包括:[0071]第四抽取子单元1224,用于判断WAP页面的正文字段中是否存在翻页链接,是则获取该翻页链接字段。[0072]由于移动设备屏幕尺寸的限制,所有WAP页面中的正文可能需要分为多页进行显示,因此大多数WAP网页均存在翻页链接,例如“上一页”、“下一页”、“余下全文”等等。即第四抽取子单元1224用于获取WAP页面的正文字段中存在的翻页链接字段。[0073]应当理解,上述页面结构化模块120获得的WAP页面的结构化字段中,不但包括其基本的字段信息,还包括其他标记,例如字体标记、文本格式标记、文本样式标记等等。由该结构化字段所显示的WAP页面仅显示标题、正文信息行字段、正文字段及翻页链接字段,从而使得WAP页面过滤了多余的广告、链接等信息,进一步提高了用户端的阅读体验。[0074]以上所述仅为本发明的优选实施例,并非因此限制其专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接运用在其他相关的【
技术领域
】,均同理包括在本发明的专利保护范围内。【权利要求】1.一种WAP页面的结构化显示方法,其特征在于,包括:接收页面浏览请求,获取该页面浏览请求所请求的原始页面;对该原始页面进行切行,并以行为单位对原始网页进行扫描,获得WAP页面的结构化字段;将所获得的结构化字段进行组合,并对其进行显示。2.根据权利要求1所述的WAP页面的结构化显示方法,其特征在于,所述对原始页面进行切行,并以行为单位对原始网页进行扫描,获得WAP页面的结构化字段包括:对原始页面进行解析,获得解析树;查找解析树中的换行标记,并根据换行标记对原始页面以行为单位进行切分;以行为单位对原始页面进行扫描,获得WAP页面的标题字段、正文信息行字段及正文字段。3.根据权利要求2所述的WAP页面的结构化显示方法,其特征在于,所述以行为单位对原始页面进行扫描,获得WAP页面的标题字段包括:查找解析树中是否存在标题属性的节点,是则获取该节点对应的字段作为WAP页面的标题字段。4.根据权利要求2所述的WAP页面的结构化显示方法,其特征在于,所述以行为单位对原始页面进行扫描,获得WAP页面的正文信息行字段包括:以标题字段所在的行为起始行对原始页面进行逐行扫描,判断当前扫描行中是否存在时间字段或来源字段,是则获取当前扫描行的字段作为WAP页面的正文信息行字段;否则继续下一行扫描。5.根据权利要求2所述的WAP页面的结构化显示方法,其特征在于,所述以行为单位对原始页面进行扫描,获得WAP页面的正文字段包括:以正文信息行字段所在的行为起始行对原始页面进行逐行扫描,统计正文信息行字段所在的行至所有扫描行之间的文字链接比,并将文字链接比最大的行作为正文字段的截止行,从而获取正文信息行字段所在的行与截止行之间的字段作为WAP页面的正文字段。6.根据权利要求2-5中任一项所述的WAP页面的结构化显示方法,其特征在于,所述以行为单位对原始页面进行扫描,获得WAP页面的标题字段、正文信息行字段及正文字段之后还包括:判断WAP页面的正文字段中是否存在翻页链接,是则获取该翻页链接字段。7.一种WAP页面的结构化显示装置,其特征在于,包括:页面获取模块,用于接收页面浏览请求,获取该页面浏览请求所请求的原始页面;页面结构化模块,用于对该原始页面进行切行,并以行为单位对原始网页进行扫描,获得WAP页面的结构化字段;页面显示模块,用于将所获得的结构化字段进行组合,并对其进行显示。8.根据权利要求7所述的WAP页面的结构化显示装置,其特征在于,所述页面结构化模块包括:切行单元,用于对原始页面进行解析,获得解析树;查找解析树中的换行标记,并根据换行标记对原始页面以行为单位进行切分;字段抽取单元,用于以行为单位对原始页面进行扫描,获得WAP页面的标题字段、正文信息行字段及正文字段。9.根据权利要求8所述的WAP页面的结构化显示装置,其特征在于,所述字段抽取单元包括:第一抽取子单元,用于查找解析树中是否存在标题属性的节点,是则获取该节点对应的字段作为WAP页面的标题字段;第二抽取子单元,用于以标题字段所在的行为起始行对原始页面进行逐行扫描,判断当前扫描行中是否存在时间字段或来源字段,是则获取当前扫描行的字段作为WAP页面的正文信息行字段;否则继续下一行扫描;第三抽取子单元,用于以正文信息行字段所在的行为起始行对原始页面进行逐行扫描,统计正文信息行字段所在的行至所有扫描行之间的文字链接比,并将文字链接比最大的行作为正文字段的截止行,从而获取正文信息行字段所在的行与截止行之间的字段作为WAP页面的正文字段。10.根据权利要求9所述的WAP页面的结构化显示装置,其特征在于,所述字段抽取单元还包括:第四抽取子单元,用于判断WAP页面的正文字段中是否存在翻页链接,是则获取该翻页链接字段。【文档编号】G06F17/30GK103729382SQ201210392560【公开日】2014年4月16日申请日期:2012年10月16日优先权日:2012年10月16日【发明者】蔡兵申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1