一种用于提供与目标页面相对应的重构页面的方法和设备的制作方法

文档序号:6486987阅读:167来源:国知局
一种用于提供与目标页面相对应的重构页面的方法和设备的制作方法
【专利摘要】本发明的目的是提供一种用于提供与目标页面相对应重构页面的方法和设备。具体地,获取待提供给移动终端的目标页面;确定目标页面的页面类型信息;根据页面类型信息,确定与目标页面相对应的页面重构要素;根据页面重构要素,通过从目标页面中提取与页面重构要素相对应的页面重构内容,生成与目标页面相对应的重构页面;将重构页面提供至所述移动终端。与现有技术相比,本发明通过根据目标页面的页面类型信息,确定与目标页面相对应的页面重构要素,进而根据重构要素,通过从目标页面中提取页面重构内容,生成与目标页面相对应的重构页面,实现了对不同类型页面的重构,提高了页面重构模板的稳定性,降低了通信流量,提升了用户的浏览访问体验。
【专利说明】一种用于提供与目标页面相对应的重构页面的方法和设备
【技术领域】
[0001]本发明涉及移动互联网【技术领域】,尤其涉及一种用于为移动终端提供与目标页面相对应的重构页面的技术。
【背景技术】
[0002]随着移动互联网的发展,通过移动终端进行网页浏览、信息访问已成为人们学习、获取信息资源的主要方式之一。
[0003]然而,每个网页显示的内容有限,网页中除了正文内容之外还掺杂了很多用户不需要的信息,如大量图片、网页导航链接、广告链接等,同时,还受到移动终端屏幕较小的限制;并且,上网浏览的费用比较昂贵,与传输数据的流量有关,影响了用户的阅读体验。现有的将互联网页面转化为适合在移动终端进行浏览的页面的过程中,通常由人工辨别网页类型,对不同类型的页面如新闻、小说、论坛、问答等单独配置符合需要的页面重构模板,而当网页的原始样式布局发生变化时,需重新为该网页重新配置页面重构模板,不仅浪费了大量人力物力,而且还影响了用户的浏览访问读体验。

【发明内容】

[0004]本发明的目的是提供一种用于提供与目标页面相对应的重构页面的方法与设备。
[0005]根据本发明的一个方面,提供了一种用于为移动终端提供与目标页面相对应的重构页面的方法,该方法包括以下步骤:
[0006]a获取待提供给移动终端的目标页面;
[0007]b确定所述目标页面的页面类型信息;
[0008]c根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素;
[0009]d根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面;
[0010]e将所述重构页面提供至所述移动终端。
[0011]根据本发明的另一方面,还提供了一种用于提供与目标页面相对应的重构页面的页面重构设备,该页面重构设备包括:
[0012]页面获取装置,用于获取待提供给移动终端的目标页面;
[0013]类型确定装置,用于确定所述目标页面的页面类型信息;
[0014]要素确定装置,用于根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素;
[0015]页面生成装置,用于根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面;
[0016]提供装置,用于将所述重构页面提供至所述移动终端。[0017]根据本发明的又一个方面,还提供了一种浏览器,包括如前述根据本发明另一个方面的用于提供与目标页面相对应的重构页面的页面重构设备。
[0018]根据本发明的再一个方面,还提供了一种浏览器插件,包括如前述根据本发明另一个方面的用于提供与目标页面相对应的重构页面的页面重构设备。
[0019]与现有技术相比,本发明通过根据目标页面的页面类型信息,确定与所述目标页面相对应的页面重构要素,进而根据所述重构要素,通过从目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面,实现了对不同类型的页面的重构,提高了页面重构模板的稳定性,降低了通信的流量,提升了用户的浏览访问体验。进一步地,本发明还可结合目标页面的页面分块,将与该页面分块相对应的重构分块提供给移动终端,从而进一步地缩短了用户网页访问的时间,减少了用户访问流量,提高了用户访问网页的效率,并提升了用户的浏览访问体验。此外,本发明还可结合移动终端的终端相关属性,生成与移动终端相对应的重构页面,从而更进一步地提升了用户的浏览访问体验。
【专利附图】

【附图说明】
[0020]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0021]图1示出根据本发明一个方面的用于提供与目标页面相对应的重构页面的设备示意图;
[0022]图2示出根据本发明一个优选实施例的用于提供与目标页面相对应的重构页面的设备示意图;
[0023]图3示出根据本发明另一个方面的用于提供与目标页面相对应的重构页面的方法流程图;
[0024]图4示出根据本发明一个优选实施例的用于提供与目标页面相对应的重构页面的方法流程图。
[0025]附图中相同或相似的附图标记代表相同或相似的部件。
【具体实施方式】
[0026]下面结合附图对本发明作进一步详细描述。
[0027]图1示出根据本发明一个方面的用于提供与目标页面相对应的重构页面的页面重构设备I。其中,页面重构设备I包括页面获取装置11、类型确定装置12、要素确定装置
13、页面生成装置14和提供装置15。具体地,页面获取装置11获取待提供给移动终端的目标页面;类型确定装置12确定所述目标页面的页面类型信息;要素确定装置13根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素;页面生成装置14根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面;提供装置15将所述重构页面提供至所述移动终端。其中,所述移动终端是任何一种可与用户通过键盘、触摸板、或手写设备等方式进行人机交互的电子产品,例如智能手机、便携式游戏机、PDA、掌上电脑PPC或平板电脑等。在此,页面重构设备I包括但不限于移动终端、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述页面重构设备I仅为举例,其他现有的或今后可能出现的网络设备或移动终端如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0028]具体地,页面获取装置11通过诸如新闻网站、小说网站、问答网站或论坛网站等第三方设备提供的应用程序接口(API),获取待提供给移动终端的目标页面;或者通过JSP、ASP等动态网页技术,获取用户通过移动终端输入的查询序列,再将该查询序列提交给搜索引擎,并接收搜索引擎所反馈的与该查询序列相对应的搜索结果,以作为待提供给移动终端的目标页面;或者通过http、https等约定通信方式,获取待提供给移动终端的目标页面。其中,所述目标页面包括但不限于以下至少任一项:1)新闻页面;2)小说页面;3)问答页面;4)论坛页面,本领域技术人员应能理解上述目标页面仅为举例,其他现有的或今后可能出现的目标页面如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0029]例如,用户在浏览器地址栏中输入网址http://news.sina.com.cn/,按Enter键,页面获取装置11通过诸如新闻网站等第三方设备提供的应用程序接口(API)获取到与该网址http://news.sina.com.cn/相对应的网页。再如,用户在移动终端的搜索栏中输入关键词“水浒小说”,点击搜索按钮,页面获取装置11通过JSP或ASP等动态网页技术,从该移动终端获取到该用户输入的查询序列,并基于该查询序列向搜索引擎提交搜索请求,通过搜索引擎提供的应用程序接口(API)获取搜索引擎根据关键词“水浒小说”匹配查询得到的与关键词“水浒小说”相匹配的一个或多个搜索结果,如“水浒传txt下载、水浒传全文阅读-《小说阅读网》”、“水浒传小说在线阅读”,作为待提供给移动终端的目标页面。
[0030]本领域技术人员应能理解上述获取待提供给移动终端的目标页面的方式仅为举例,其他现有的或今后可能出现的获取待提供给移动终端的目标页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0031]类型确定装置12通过诸如所述目标页面对应的URL的相关特征信息如URL的具体内容,或者通过建立所述目标页面采取的第三方建站工具如discuz、phpwind等,或者通过所述目标页面对应的源代码中包含的论坛页面特征,确定所述目标页面的页面类型信息。在此,所述页面类型信息包括但不限于以下至少任一项:1)新闻类型;2)小说类型;3)问答类型;4)论坛类型。在此,所述论坛页面特征包括但不限于以下至少任一项:1)论坛首页:论坛名称、版块区名称、板块标题、今日帖子数、登录、注册、搜索;2)论坛列表页:板块名称、子版块标题、主题名称、板块主题/回复数、主题分类、主题标题、作者/时间;3)论坛帖子页:帖子作者、发帖时间、帖子正文、楼层编号、翻页链接。例如,假设页面获取装置11获取到的目标页面的URL为http://news.sina.com.cn/,则类型确定装置12根据http://news.sina.com.cn/的具体内容中包含的URL相关特征信息如news来确定该目标网页的类型信息为新闻网页。再如,假设页面获取装置11获取到的目标页面为新东方留学网http://www.66xue.com/,假设该页面采用Discuz !搭建SNS+BBS互动平台,贝U类型确定装置12根据建立页面http://www.66xue.com/采用的建站工具Discuz确定该页面的页面类型信息为论坛类型。还如,假设页面获取装置11获取到的目标页面为http://bbs.sina.com.cn/,则类型确定装置12根据该目标页面的源代码中包含的论坛页面特征如论坛列表、论坛帖子等,确定该页面的页面类型信息为论坛类型。本领域技术人员应能理解上述页面类型信息或论坛页面特征仅为举例,其他现有的或今后可能出现的页面类型信息或论坛页面特征如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。[0032]优选地,类型确定装置12还可根据页面获取装置11获取的所述目标页面是否满足预定的类型判断规则,确定所述目标页面的页面类型信息;
[0033]其中,所述预定的类型判断规则包括以下至少任一项:
[0034]-当所述目标页面属于由论坛建站工具建立的页面,或所述目标页面的源代码包含论坛页面特征时,确定所述目标页面的页面类型信息为论坛页面;
[0035]-当所述目标页面所对应的URL属于页面类型数据库时,根据所述页面类型数据库确定所述目标页面的页面类型信息;
[0036]-当存在与所述目标页面所对应的URL相似的参考页面时,根据所述参考页面的页面类型信息确定所述目标页面的页面类型信息;
[0037]-当所述目标页面所对应的URL包括URL相关特征信息时,根据所述URL相关特征信息确定所述目标页面的页面类型信息;
[0038]-当所述目标页面所对应的URL与预定网页模板相匹配时,根据所述预定网页模板确定所述目标页面的页面类型信息。
[0039]例如,当所述预定的类型判断规则包括所述目标页面属于由论坛建站工具建立的页面,或所述目标页面的源代码包含论坛页面特征时,类型确定装置12确定所述目标页面的页面类型信息时,在此,所述论坛建站工具包括如discuz、phpwind等,假设页面获取装置11获取到的目标页面为新东方留学网http://www.66xue.com/,假设该页面采用Discuz !搭建SNS+BBS互动平台,则类型确定装置12根据建立页面http://www.66xue.com/采用的建站工具Discuz确定该页面的页面类型信息为论坛类型;假设页面获取装置11获取到的目标页面为http://bbs.sina.com.cn/,则类型确定装置12根据该目标页面的源代码包含的论坛页面特征如论坛列表、论坛帖子等,确定该页面的页面类型信息为论坛类型。
[0040]再如,当所述预定的类型判断规则包括所述目标页面所对应的URL属于页面类型数据库,类型确定装置12确定所述目标页面的页面类型信息时,假设页面获取装置11获取到的目标页面对应的 URL 为 http://news.163.com/12/0604/02/834D02M300014AED.html,类型确定装置12通过计算该URL的URL Pattern,得到页面http://news.163.com/12/0604/02/834D02M300014AED.html 的 URL Pattern 为 http://news\.163\.com/[0-9] +/[0-9] +/[0-9] +/[0-9a-zA-Z] +\.html,基于该 URL Pattern,在页面类型数据库如新闻库中匹配查询,得到新闻库中包含值为http://news\.163\.com/[0-9] +/[0-9] +/[0-9] +/[0-9a-zA-Z] +\.html 的数据,则类型确定装置 12 判断页面 http://news.163.com/12/0604/02/834D02M300014AED.html的页面类型信息为新闻类型。又如,当所述预定的类型判断规则包括存在与所述目标页面所对应的URL相似的参考页面,类型确定装置12确定所述目标页面的页面类型信息时,假设页面获取装置11获取到的目标页面为http://news.sina.com.cn/china/,则类型确定装置12通过根据与目标页面http://news.sina.com.cn/china/相似的参考页面如http://news.sina.com.cn/的页面类型信息如新闻类型,判断目标页面http://news.sina.com.cn/china/的页面类型信息为新闻类型。
[0041]还如,当所述目标页面所对应的URL包括URL相关特征信息,类型确定装置12确定所述目标页面的页面类型信息时,在此,所述URL相关特征信息包括但不限于以下至少任一项:1)URL具体内容,即组成URL的全部内容,如URL组成中包含的协议类型、主机名、路径及文件名等;2)URL后缀,即URL组成中结尾处的字符,如htm、html、shtml、asp、jsp、php等;3)URL深度,即URL的目录层次、页面链接之间的链接深度等;4)URL模式,即由多个已标注页面类型的页面进行聚类所得到的对应页面类型的URL模式。假设页面获取装置11获取到的目标页面的URL为http://www.tianyabook.com/,贝U类型确定装置12根据http://www.tianyabook.com/的具体内容中包含的URL相关特征信息如tianyabook来确定该目标网页的页面类型信息为小说类型,本领域技术人员应能理解上述URL相关特征信息仅为举例,其他现有的或今后可能出现的URL相关特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0042] 还如,当所述预定的类型判断规则包括所述目标页面所对应的URL与预定网页模板相匹配,类型确定装置12确定所述目标页面的页面类型信息时,假设页面获取装置11获取到的目标页面所对应的URL为http://xinzh1.baidu.com/pub ? next = % 2F,类型确定装置12根据http://xinzh1.baidu.com/pub ? next = % 2F判断其与预定网页模板问答模板相匹配,则类型确定装置12确定该目标页面的类型信息为问答类型。
[0043]本领域技术人员应能理解上述确定所述目标页面的页面类型信息的方式仅为举例,其他现有的或今后可能出现的确定所述目标页面的页面类型信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0044]本领域技术人员应能理解,类型确定装置12还可以根据上述预定的类型判断规则的任意组合,来确定所述目标页面的页面类型信息。
[0045]本领域技术人员应能理解上述预定的类型判断规则仅为举例,其他现有的或今后可能出现的预定的类型判断规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0046]要素确定装置13通过诸如所述目标页面的URL中包含的页面类型信息字段与设定的页面重构要素之间的对应关系,根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素。在此,所述页面重构要素包括诸如页面主体内容、页面重构节点、页面重构分块等页面关键信息。例如,假设类型确定装置12确定的所述目标页面如http://news.sina.com.cn/的所述页面类型信息为新闻类型,则要素确定装置13确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的不同内容的页面分块如“要闻、国内新闻频道、国际新闻频道、体育频道、财经频道”等,及该目标页面中包含的新闻标题、新闻正文、新闻来源、发布时间等页面标签如标题标签<hl>-〈h6>、文档主体标签〈body〉、段落标签
及相应的文本内容。再如,假设类型确定装置12确定的所述目标页面如http://bbs.dospy.com/的所述页面类型信息为论坛类型,则要素确定装置13确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的论坛首页中的论坛名称“塞班智能手机网”、版块分区如“诺基亚WP7讨论分区、Windows Phone 7操作系统讨论区、苹果iPhone机型分类讨论区、安卓android讨论区/热门、安卓android讨论区/摩托、塞班3(symbian3)机型分类讨论区等,及论坛列表页如子版块标题、主题分类、版块主题/回复数、作者/时间等,及论坛帖子页如帖子作者、发帖时间、帖子正文等。又如,假设类型确定装置12确定的所述目标页面如http://xinzh1.baidu.com/的所述页面类型信息为问答类型,则要素确定装置13确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的不同内容的页面分块如首页、广场/热门问答、广场/最新问题、发现浏览等。还如,假设类型确定装置12确定的所述目标页面如http://www.readnovel.com/book/73144/的所述页面类型信息为小说类型,则要素确定装置13确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的小说封面页如小说名称“作品名:红楼梦”、小说作者:曹雪芹”、内容简介、更新时间2010-04-0418:02:10等,及小说目录如“23.第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”等,及小说正文如章节标题“第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”、小说正文内容“话说贾元春自那日幸大观园回宫去后,便命将那日所有的题咏,命探春依次抄录妥协...,正是:庄晨绣夜心无矣,对月临风恨有之。”、“作品名:红楼梦”、“作者:曹雪芹”、小说章节链接如“[上一页][回目录][下一页]”等。在此,页面类型信息字段与设定的页面重构要素之间的对应关系可以表格或数据库的形式存在于页面重构设备I端,或与页面重构设备I通过网络相连接的第三方设备。
[0047]本领域技术人员应能理解上述确定与所述目标页面相对应的一个或多个页面重构要素的方式仅为举例,其他现有的或今后可能出现的确定与所述目标页面相对应的一个或多个页面重构要素方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0048]本领域技术人员应能理解上述页面类型信息与页面重构要素的对应关系仅为举例,其他现有的或今后可能出现的页面类型信息与页面重构要素的对应关系如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0049]接着,页面生成装置14根据要素确定装置13确定的所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面。具体地,页面生成装置14首先根据要素确定装置13确定的所述一个或多个页面重构要素,通过诸如解析所述目标页面的HTML,从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,例如,假设要素确定装置13确定的与目标页面http://www.readnovel.com/nove 1/73144/23.html相对应的一个或多个页面重构要素包括该目标页面的小说正文如章节标题“第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”、小说正文内容“话说贾元春自那日幸大观园回宫去后,便命将那日所有的题咏,命探春依次抄录妥协...,正是:庄晨绣夜心无矣,对月临风恨有之。”、小说章节链接如“[上一页][回目录][下一页]”等,则页面生成装置14通过诸如解析该目标页面的HTML文档,提取该页面中与上述页面重构要素相对应的页面重构内容如具体文本内容。
[0050]本领域技术人员应能理解上述从所述目标页面中提取与所述页面重构要素相对应的页面重构内容的方式仅为举例,其他现有的或今后可能出现的从所述目标页面中提取与所述页面重构要素相对应的页面重构内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0051]然后,页面生成装置14将所述页面重构内容,根据预定义的页面重构方式、或者根据所述目标页面的原始布局方式,生成与所述目标页面相对应的重构页面。接上例,页面生成装置14将提取的重构内容包括如章节标题“第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”、小说正文内容“话说贾元春自那日幸大观园回宫去后,便命将那日所有的题咏,命探春依次抄录妥协...,正是:庄晨绣夜心无矣,对月临风恨有之。”、小说章节链接“[上一页][回目录][下一页]”,按照预定义的方式如按照顺序:章节标题、小说正文、章节链接的顺序依次排列。
[0052]本领域技术人员应能理解上述生成与所述目标页面相对应的重构页面的方式仅为举例,其他现有的或今后可能出现的生成与所述目标页面相对应的重构页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0053]优选地,页面生成装置14还可根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,结合所述移动终端的终端相关属性,生成与所述移动终端相对应的重构页面。具体地,页面生成装置14首先根据要素确定装置13确定的所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,然后结合所述移动终端的终端相关属性,生成与所述移动终端相对应的重构页面。其中,所述终端相关属性包括以下至少任一项:
[0054]-所述移动终端的页面可见区域;
[0055]-所述移动终端的屏幕可用工作区域;
[0056]-所述移动终端的屏幕分辨率;
[0057]-所述移动终端的系统配置属性。
[0058]例如,当所述终端相关属性包括所述移动终端的页面可见区域,生成与所述移动终端相对应的重构页面时,假设要素确定装置13确定的与目标页面http://tech.sina.com.cn/i/m/2012-05-31/03497194247.shtml相对应的一个或多个页面重构要素包括该目标页面的新闻标题“互联网女皇DlO报告:移动互联网用户将超桌面”、发布时间“2012年05月31日03:49”、新闻来源“http://www.sina.com.cn”、新闻正文“新浪科技讯北京时间5月31日凌晨消息,娃谷知名风投机构Kleiner Perkins Caufield Byers(以下简称“KPCB”)合伙人、“互联网女皇”玛丽.米克尔(Mary Meeker)周三在DlO大会上称,...,Facebook也需要拥有健全的“战争基金”。(风箫维金)”,页面生成装置14可根据该目标页面HTML文档中的js资源得到该移动终端的页面可见区域,如,根据availWidth=parselnt (document, body, clientffidth)得到页面可见区域宽,根据 availHeight =parselnt (document, body.clientHeight)得到页面可见区域高,然后,页面生成装置14结合该availWidth和availHeight来生成与所述移动终端相对应的重构页面。再如,当所述终端相关属性包括所述移动终端的系统配置属性,如操作系统类型与版本、处理器配置等信息生成与所述移动终端相对应的重构页面时,假设所述移动终端的系统配置属性包括“双核1.2GHz”,则页面生成装置14根据该系统配置属性确定所述移动终端为高端机,生成与所述移动终端相对应的重构页面包括根据要素确定装置13确定的所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,如对于新闻类型页面,包括新闻标题、新闻正文、新闻来源、新闻发布时间;假设所述移动终端的系统配置属性包括“ IGHz高通Snapdragon处理器,采用Android 2.3操作系统”,则页面生成装置14根据该系统配置属性确定所述移动终端为低端机,生成与所述移动终端相对应的重构页面包括从所述目标页面中去除广告以外所有内容的页面信息,如对于新闻类型页面,包括新闻标题、新闻图片、新闻正文、新闻来源、新闻发布时间。
[0059]本领域技术人员应能理解上述结合所述移动终端的终端相关属性生成与所述移动终端相对应的重构页面的方式仅为举例,其他现有的或今后可能出现的结合所述移动终端的终端相关属性生成与所述移动终端相对应的重构页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0060]提供装置15随后将页面生成装置14生成的所述重构页面,通过约定的通信方式,如http或https等通信协议,提供至所述移动终端,供用户阅读浏览。
[0061]页面重构设备I的各个装置之间是持续不断工作的。具体地,页面获取装置11持续获取待提供给移动终端的目标页面;类型确定装置12持续确定所述目标页面的页面类型信息;要素确定装置13持续根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素;页面生成装置14持续根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面;提供装置15将所述重构页面提供至所述移动终端。在此,本领域技术人员应理解“持续”是指页面重构设备I的各装置分别不断进行目标页面的获取、页面类型信息的确定、页面重构要素的确定、重构页面的生成与提供,直至该页面重构设备I在较长时间内停止目标页面的获取。
[0062]优选地,要素确定装置13还可根据所述页面类型信息,通过诸如所述目标页面的URL中包含的页面类型信息字段与设定的页面重构要素及其页面重构样式之间的映射关系,根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素及其页面重构样式。在此,所述页面重构样式包括但不限于:1)页面布局;2)页面展现方式。例如,假设类型确定装置12确定的所述目标页面如http://news.sina.com.cn/的所述页面类型信息为新闻类型,则要素确定装置13确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的不同内容的页面分块如“要闻、国内新闻频道、国际新闻频道、体育频道、财经频道”等,及该目标页面中包含的新闻标题、新闻正文、新闻来源、发布时间等页面标签如标题标签<hl>-〈h6>、文档主体标签〈body〉、段落标签
及相应的文本内容,要素确定装置13确定的相应页面重构样式包括如按照要闻、国内新闻频道、国际新闻频道、体育频道、财经频道依次由上至下排列,每一频道包括新闻标题文本内容及标题链接等。再如,假设类型确定装置12确定的所述目标页面如http://bbs.dospy.com/的所述页面类型信息为论坛类型,则要素确定装置13确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的论坛首页中的论坛名称“塞班智能手机网”、版块分区如“诺基亚WP7讨论分区、Windows Phone 7操作系统讨论区、苹果iPhone机型分类讨论区、安卓android讨论区/热门、安卓android讨论区/摩托、塞班3 (symbian3)机型分类讨论区等,要素确定装置13确定的相应页面重构样式包括如按照诺基亚WP7讨论分区、WindowsPhone7操作系统讨论区、苹果iPhone机型分类讨论区、安卓android讨论区/热门、安卓android讨论区/摩托、塞班3(symbian3)机型分类讨论区依次由上至下排列,每一分区包括讨论标题文本内容及标题链接等。还如,假设类型确定装置12确定的所述目标页面如http://www.readnovel.com/novel/73144/23, html的所述页面类型信息为小说类型,则要素确定装置13确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的小说正文如章节标题“第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”、小说正文内容“话说贾元春自那日幸大观园回宫去后,便命将那日所有的题咏,命探春依次抄录妥协...,正是:庄晨绣夜心无矣,对月临风恨有之。”、小说章节链接分块如“[上一页][回目录][下一页]”等,要素确定装置13确定的相应页面重构样式包括如按照顺序:章节标题、小说正文、章节链接的顺序依次排列。在此,页面类型信息字段与设定的页面重构要素其页面重构样式之间的映射关系可以表格或数据库的形式存在于页面重构设备I端,或与页面重构设备I通过网络相连接的第三方设备。
[0063]本领域技术人员应能理解上述确定与所述目标页面相对应的一个或多个页面重构要素及其页面重构样式的方式仅为举例,其他现有的或今后可能出现的确定与所述目标页面相对应的一个或多个页面重构要素或其页面重构样式方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0064]本领域技术人员应能理解上述页面类型信息与页面重构要素及其页面重构样式的映射关系仅为举例,其他现有的或今后可能出现的页面类型信息与页面重构要素或其页面重构样式的映射关系如可适用于本发明,也应包含在本发明保护范围以内,并在此以弓I用方式包含于此。
[0065]接着,页面生成装置14首先根据所述一个或多个页面重构要素,从所述目标页面中提取与所述页面重构要素相对应的页面重构内容;然后根据所述页面重构内容,并结合所述页面重构样式,生成与所述目标页面相对应的重构页面。例如,假设页面生成装置14从所述目标页面如http://www.readnovel.com/nove 1/73144/23.html中提取的与所述页面重构要素如章节标题、小说正文、章节链接相对应的页面重构内容包括如章节标题“第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”、小说正文内容“话说贾元春自那日幸大观园回宫去后,便命将那日所有的题咏,命探春依次抄录妥协...,正是:庄晨绣夜心无矣,对月临风恨有之。”、小说章节链接“[上一页][回目录][下一页]”,并结合要素确定装置13所确定的所述页面重构样式,如按照顺序:章节标题、小说正文、章节链接的顺序依次排列。
[0066]优选地,页面重构设备I还包括分块获取装置(未示出)。具体地,分块获取装置获取所述目标页面的页面分块;页面生成装置14根据所述一个或多个页面重构要素,通过从所述页面分块中提取与所述页面重构要素相对应的页面重构内容,生成与所述页面分块相对应的重构分块;提供装置15将所述重构分块提供至所述移动终端。
[0067]具体地,分块获取装置根据页面获取装置11获取的所述目标页面,基于HTML标签分析方法、或者根据VIPS (Vision-based Page Segmentation,基于视觉的页面分段)算法,来获取所述目标页面的页面分块。例如,分块获取装置根据VIPS算法,利用网页前景颜色、背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距、元素位置等视觉特征,通过制定相应的规则把页面获取装置11获取的所述目标页面http://news.sina.com.cn/分成各个视觉信息块,如新闻主体块、新闻正文块、导航块、广告块。本领域技术人员能理解上述获取所述目标页面的页面分块的方式仅为举例,其他现有的或今后可能出现的获取所述目标页面的页面分块的方式仅如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0068]然后,页面生成装置14首先根据要素确定装置13确定的所述一个或多个页面重构要素,通过从所述页面分块中提取与所述页面重构要素相对应的页面重构内容,然后生成与所述页面分块相对应的重构分块。例如,假设要素确定装置13确定的与所述目标页面http://news.sina.com.cn/相对应的所述页面重构要素包括该目标页面的不同内容的页面频道分块如“要闻、国内新闻频道、国际新闻频道、体育频道、财经频道”等,及该目标页面中不同频道分块中包含的新闻标题、新闻正文、新闻来源、发布时间等页面标签如标题标签<hl>-〈h6>、文档主体标签〈body〉、段落标签
及相应的文本内容,接上例,则页面生成装置14首先通过诸如解析所述目标页面的HTML,从分块获取装置获取的页面分块如新闻主体块、新闻正文块、导航块、广告块中提取与要素确定装置13确定的所述重构要素相对应的页面重构内容,如页面生成装置14从新闻主体块中提取的与页面重构要素页面频道分块相对应的页面重构内容包括目标页面http://news.sina.com.cn/中要闻频道中包含的新闻如“网络媒体深化走转改活动座谈会在京召开”、“儿童节专题”等。再如,页面生成装置14从新闻主体块中提取的与页面重构要素页面频道分块相对应的页面重构内容包括目标页面http://news.sina.com.cn/中体育频道中包含的新闻如“阿杜22分雷霆大胜扳成1-2⑶P低迷马刺20连胜终止”、“欧洲杯16强名单全公布368球星一览你也能来编辑”等。
[0069]然后,页面生成装置14将从所述页面分块中提取与所述页面重构要素相对应的页面重构内容,根据预定义的页面分块重构方式、或者根据所述页面分块的原始布局方式,生成与所述页面分块相对应的重构分块。
[0070]本领域技术人员能理解上述生成与所述页面分块相对应的重构分块的方式仅为举例,其他现有的或今后可能出现的生成与所述页面分块相对应的重构分块的方式仅如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0071]提供装置15随后将页面生成装置14生成的所述重构分块,通过约定的通信方式,如http或https等通信协议,提供至所述移动终端,供用户阅读浏览。
[0072]优先地,提供装置15还可根据所述重构分块的块重要度,将页面生成装置14生成的所述重构分块,通过约定的通信方式,如http或https等通信协议,提供至所述移动终端,供用户阅读浏览。在此,所述块重要度包括但不限于以下至少任一项:1)所述重构分块的文本字符与整个〈body〉块的文本字符的比率;2)所述重构分块中没有链接的文本字符与整个页面的总文本字符的比率;3)所述重构分块的块面积与页面的整个〈body〉块的面积的比率。本领域技术人员能理解上述块重要度仅为举例,其他现有的或今后可能出现的块重要度如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0073]在一个优选实施例中(参考图1),页面重构设备I包括页面获取装置11、类型确定装置12、要素确定装置13、页面生成装置14和提供装置15。其中,要素确定装置13包括模型确定单元(未示出)和节点提取单元(未示出)。以下参考图1对该优选实施例进行描述:具体地,页面获取装置11获取待提供给移动终端的目标页面;类型确定装置12确定所述目标页面的页面类型信息;模型确定单元确定与所述页面类型信息相对应的页面公共文档对象模型;节点提取单元根据所述页面公共文档对象模型,提取所述目标页面的页面重构节点,以作为所述页面重构要素;页面生成装置14根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面;提供装置15将所述重构页面提供至所述移动终端。其中,页面获取装置11、类型确定装置12、页面生成装置14和提供装置15。与图1所示对应步骤相同或相似,故此处不再赘述,并通过引用的方式包含于此。
[0074]具体地,模型确定单元通过诸如与所述页面类型信息相对应的多个页面中具有公共节点路径的DOM树节点,然后基于该具有公共节点路径的DOM树节点,确定与所述页面类型信息相对应的页面公共文档对象模型。例如,假设与所述类型信息如小说类型相对应的多个页面如:
[0075]A:第九回林教头风雪山神庙陆虞候火烧草料场
[0076]http://www.readnovel.com/nove1/73145/12.html
[0077]B:《水浒传》第十回林教头风雪山神庙陆虞候火烧草料场
[0078]http://www.purepen.com/shz/010.htm
[0079]C:第二十八回梁山泊分金大买市宋公明全伙受招安
[0080]http://www.cuiweiju.com/fulltext/97/97926.html#5383832 具有公共节点路径的DOM树节点如Dl-Dn,则模型确定单元根据Dl-Dn生成相应DOM树如D0M-D,以作为与小说类型页面相对应的页面公共文档对象模型Common-D0M-D。
[0081]本领域技术人员能理解上述确定单元确定与所述页面类型信息相对应的页面公共文档对象模型的方式仅为举例,其他现有的或今后可能出现的确定单元确定与所述页面类型信息相对应的页面公共文档对象模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0082]接着,节点提取单元根据所述页面公共文档对象模型,提取所述目标页面的页面重构节点,以作为所述页面重构要素。例如,假设页面获取装置11获取到的所述目标页面为小说类型页面,如《水將传》第十七回花和尚单打二龙山青面兽双夺宝珠寺http://www.purepen.com/shz/017.htm,则节点提取单元根据模型确定单元确定的与页面类型信息如小说类型相对应的页面公共文档对象模型Common-DOM-D,从该页面的对应的DOM树中提取与页面公共文档对象模型Common-DOM-D节点名称和节点XPath均相同的节点,作为页面重构节点,并以此作为所述页面重构要素。
[0083]优选地,模型确定单元首先根据对应所述页面类型信息的多个参考页面中每一个所对应的文档对象模型,提取所述多个参考页面的公共节点,然后生成与所述页面类型信息相对应的所述页面公共文档对象模型。例如,假设存在对应于所述页面类型信息如新闻类型的多个参考页面如:
[0084]I:sina 新闻首页 http://news.sina.com.cn/,
[0085]II:sina 国内新闻 http://news.sina.com.cn/china/,
[0086]III:sina 国际新闻 http://news.sina.com.cn/world/,
[0087]IV:sohu 新闻首页 http:// news.sohu.com/,
[0088]模型确定单元首先根据该多个参考页面中每一个对应的HTML文档进行解析,将HTML标签转化为对应DOM树的节点,从而生成各自的DOM树,分别为D0M-1,DOM-1I,DOM-1II,DOM-1V,通过提取 DOM-1、DOM-11、DOM-1I1、DOM-1V 中节点名称和节点 XPath 均相同的节点,得到该多个参考页面的公共节点如El-En ;然后,模型确定单元根据该公共节点El-En,生成与所述页面类型信息相对应的所述页面公共文档对象模型如Common-D0M-E。
[0089]图2示出根据本发明一个优选实施例的用于提供与目标页面相对应的重构页面的页面重构设备I。其中,页面重构设备I包括页面获取装置11’、类型确定装置12’、要素确定装置13’、页面生成装置14’和提供装置15’。以下参考图2对该优选实施例进行描述:具体地,页面获取装置11’获取待提供给移动终端的目标页面;类型确定装置12’确定所述目标页面的页面类型信息;要素确定装置13’根据所述页面类型信息,在页面重构要素数据库中进行匹配查询,以获得与所述目标页面相对应的一个或多个页面重构要素;页面生成装置14’根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面;提供装置15’将所述重构页面提供至所述移动终端。其中,页面获取装置11’、类型确定装置12’、页面生成装置14’和提供装置15’与图1所示对应装置相同或相似,故此处不再赘述,并通过引用的方式包含于此。[0090]具体地,要素确定装置13’根据所述页面类型信息,在页面重构要素数据库中进行匹配查询,以获得与所述目标页面相对应的一个或多个页面重构要素。例如,假设页面获取装置11,获取的目标页面为http://xinzh1.baidu.com/pub ? next = % 2F,类型确定装置12’确定的该目标页面的所述页面信息类型为问答类型,则要素确定装置13’根据类型确定装置12’确定的问答类型,在页面重构要素数据库中进行匹配查询,以获得与所述目标页面相对应的一个或多个页面重构要素。在此,所述页面重构要素数据库可位于页面重构设备I中,也可位于与页面重构设备I通过网络相连的第三方设备中,如服务器。
[0091]优选地,页面重构设备I还包括分类获取装置16’、要素获取装置17’和数据库更新装置18’。具体地,分类获取装置16’根据多个已标注页面类型的训练页面,按页面类型进行分类,获得一个或多个页面分类,其中,所述页面分类包括至少一个所述训练页面;要素获取装置17’根据所述页面分类中包括的所述训练页面,通过预定页面要素训练规则,获得与所述页面分类所对应的页面类型相对应的一个或多个页面重构要素;数据库更新装置18’根据与所述页面分类所对应的页面类型相对应的一个或多个所述页面重构要素,建立或更新所述页面重构要素数据库。
[0092]具体地,分类获取装置16’根据多个已标注页面类型的训练页面,按页面类型进行分类,获得一个或多个页面分类,其中,所述页面分类包括至少一个所述训练页面。例如,假设存在多个已标注页面类型的训练页面如:
[0093]V:sina 体育新闻 http://sports, sina.com.cn/,新闻类型
[0094]V1:sina 财经新闻 http://finance, sina.com.cn/,新闻类型
[0095]VII:sina/读书/小说馆/世界名著/《基督山伯爵》
[0096]http://vip.book.sina.com.cn/book/index_81300.html,小说类型
[0097]VIII:sina/读书/图书连载/小说/乡土小说/《平凡的世界》
[0098]http://vip.book.sina.com.cn/book/index_86819.html,小说类型
[0099]IX:sohu/读书/图书连载/文学总管/古典小说/《隋唐演义》(全文)
[0100]http://lz.book.sohu.com/serialize-1d-13706.html,小说类型则分类获取装置16’根据该多个已标注页面类型的训练页面,按页面类型进行分类,获得一个或多个页面分类,如新闻类型页面V和VI,小说类型页面VI1、VIII和IX,其中,所述页面分类包括至少一个所述训练页面。
[0101]接着,要素获取装置17’根据分类获取装置16’获得的所述页面分类中包括的所述训练页面,通过预定页面要素训练规则,获得与所述页面分类所对应的页面类型相对应的一个或多个页面重构要素。其中,所述预定页面要素训练规则包括以下至少任一项:
[0102]-对所述页面分类中的所述训练页面进行贝叶斯估计分析,获得所述页面分类所对应的页面类型相对应的一个或多个页面重构要素;
[0103]-对所述页面分类中的所述训练页面进行最大似然估计分析,获得所述页面分类所对应的页面类型相对应的一个或多个页面重构要素。
[0104]例如,接上例,要素获取装置17’根据分类获取装置16’获得的所述页面分类中包括的所述训练页面,如新闻类型分类中包括的所述训练页面V和VI,小说类型分类中包括的所述训练页面VI1、VIII和IX,通过对所述页面分类中的所述训练页面进行贝叶斯估计分析,通过或者对所述多个页面节点训练数据进行最大似然估计分析,来获得所述页面分类所对应的页面类型相对应的一个或多个页面重构要素,如与新闻类型的所述页面分类所对应的页面类型相对应的一个或多个页面重构要素包括新闻主体块、新闻正文块及新闻标题、新闻正文等页面标签如标题标签<hl>-〈h6>、文档主体标签〈body〉、段落标签
及相应的文本内容,与小说类型的所述页面分类所对应的页面类型相对应的一个或多个页面重构要素包括小说正文、小说作者、章节目录链接等。
[0105]本领域技术人员能理解上述根据预定页面要素训练规则获得所述页面重构要素的方式仅为举例,其他现有的或今后可能出现的根据预定页面要素训练规则获得所述页面重构要素的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0106]数据库更新装置18’根据与所述页面分类所对应的页面类型相对应的一个或多个所述页面重构要素,建立或更新所述页面重构要素数据库。例如,数据库更新装置18’根据要素获取装置17’获得的与所述页面分类所对应的页面类型相对应的一个或多个所述页面重构要素,建立包含页面类型与其所对应的所述页面重构要素之间对应关系的所述页面重构要素数据库。
[0107]在另一优选实施例中,可将上述用于提供与目标页面相对应的重构页面的页面重构设备1,与现有的浏览器相结合,构成一种新的浏览器,现有的浏览器包括例如Microsoft公司的IE浏览器、Netscape公司的Netscape浏览器、Mozilla公司的Firefox浏览器、Google公司的Chrome浏览器、遨游公司的Maxthon浏览器、Opera公司的opera浏览器、360公司的360浏览器、搜狐公司的搜狗浏览器、腾讯公司的腾讯TT浏览器等。
[0108]在另一优选实施例中,可将上述用于提供与目标页面相对应的重构页面的页面重构设备1,与现有的浏览器插件相结合,构成一种新的浏览器插件,现有的浏览器插件包括如Flash插件、RealPlayer插件、MMS插件、MIDI五线谱插件、ActiveX插件等。
[0109]图3示出根据本发明另一个方面的用于提供与目标页面相对应的重构页面的方法流程图。
[0110]具体地,在步骤SI中,页面重构设备I获取待提供给移动终端的目标页面;在步骤S2中,页面重构设备I确定所述目标页面的页面类型信息;在步骤S3中,页面重构设备I根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素;在步骤S4中,页面重构设备I根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面;在步骤S5中,页面重构设备I将所述重构页面提供至所述移动终端。其中,所述移动终端是任何一种可与用户通过键盘、触摸板、或手写设备等方式进行人机交互的电子产品,例如智能手机、便携式游戏机、PDA、掌上电脑PPC或平板电脑等。在此,页面重构设备I包括但不限于移动终端、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述页面重构设备I仅为举例,其他现有的或今后可能出现的网络设备或移动终端如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0111]具体地,在步骤SI中,页面重构设备I通过诸如新闻网站、小说网站、问答网站或论坛网站等第三方设备提供的应用程序接口(API),获取待提供给移动终端的目标页面;或者通过JSP、ASP等动态网页技术,获取用户通过移动终端输入的查询序列,再将该查询序列提交给搜索引擎,并接收搜索引擎所反馈的与该查询序列相对应的搜索结果,以作为待提供给移动终端的目标页面;或者通过http、https等约定通信方式,获取待提供给移动终端的目标页面。其中,所述目标页面包括但不限于以下至少任一项:1)新闻页面;2)小说页面;3)问答页面;4)论坛页面,本领域技术人员应能理解上述目标页面仅为举例,其他现有的或今后可能出现的目标页面如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0112]例如,用户在浏览器地址栏中输入网址http://news.sina.com.cn/,按Enter键,在步骤SI中,页面重构设备I通过诸如新闻网站等第三方设备提供的应用程序接口(API)获取到与该网址http://news.sina.com.cn/相对应的网页。再如,用户在移动终端的搜索栏中输入关键词“水浒小说”,点击搜索按钮,在步骤SI中,页面重构设备I通过JSP或ASP等动态网页技术,从该移动终端获取到该用户输入的查询序列,并基于该查询序列向搜索引擎提交搜索请求,通过搜索引擎提供的应用程序接口(API)获取搜索引擎根据关键词“水浒小说”匹配查询得到的与关键词“水浒小说”相匹配的一个或多个搜索结果,如“水浒传txt下载、水浒传全文阅读-《小说阅读网》”、“水浒传小说在线阅读”,作为待提供给移动终端的目标页面。
[0113]本领域技术人员应能理解上述获取待提供给移动终端的目标页面的方式仅为举例,其他现有的或今后可能出现的获取待提供给移动终端的目标页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0114]在步骤S2中,页面重构设备I通过诸如所述目标页面对应的URL的相关特征信息如URL的具体内容,或者通过建立所述目标页面采取的第三方建站工具如discuz、phpwind等,或者通过所述目标页面对应的源代码中包含的论坛页面特征,确定所述目标页面的页面类型信息。在此,所述页面类型信息包括但不限于以下至少任一项:1)新闻类型;2)小说类型;3)问答类型;4)论坛类型。在此,所述论坛页面特征包括但不限于以下至少任一项:1)论坛首页:论坛名称、版块区名称、板块标题、今日帖子数、登录、注册、搜索;2)论坛列表页:板块名称、子版块标题、主题名称、板块主题/回复数、主题分类、主题标题、作者/时间;3)论坛帖子页:帖子作者、发帖时间、帖子正文、楼层编号、翻页链接。例如,假设在步骤SI中,页面重构设备I获取到的目标页面的URL为http://news.sina.com.cn/,则在步骤S2中,页面重构设备I根据http://news.sina.com.cn/的具体内容中包含的URL相关特征信息如news来确定该目标网页的类型信息为新闻网页。再如,假设在步骤SI中,页面重构设备I获取到的目标页面为新东方留学网http://www.66xue.com/,假设该页面采用Discuz !搭建SNS+BBS互动平台,则在步骤S2中,页面重构设备I根据建立页面http://WWW.66xue.com/采用的建站工具Discuz确定该页面的页面类型信息为论坛类型。还如,假设在步骤S I中,页面重构设备I获取到的目标页面为http://bbs.sina.com.cn/,则在步骤S2中,页面重构设备I根据该目标页面的源代码中包含的论坛页面特征如论坛列表、论坛帖子等,确定该页面的页面类型信息为论坛类型。本领域技术人员应能理解上述页面类型信息或论坛页面特征仅为举例,其他现有的或今后可能出现的页面类型信息或论坛页面特征如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0115]优选地,在步骤S2中,页面重构设备I还可根据其在步骤SI中获取的所述目标页面是否满足预定的类型判断规则,确定所述目标页面的页面类型信息;
[0116]其中,所述预定的类型判断规则包括以下至少任一项:
[0117]-当所述目标页面属于由论坛建站工具建立的页面,或所述目标页面的源代码包含论坛页面特征时,确定所述目标页面的页面类型信息为论坛页面;
[0118]-当所述目标页面所对应的URL属于页面类型数据库时,根据所述页面类型数据库确定所述目标页面的页面类型信息;
[0119]-当存在与所述目标页面所对应的URL相似的参考页面时,根据所述参考页面的页面类型信息确定所述目标页面的页面类型信息;
[0120]-当所述目标页面所对应的URL包括URL相关特征信息时,根据所述URL相关特征信息确定所述目标页面的页面类型信息;
[0121]-当所述目标页面所对应的URL与预定网页模板相匹配时,根据所述预定网页模板确定所述目标页面的页面类型 信息。
[0122]例如,当所述预定的类型判断规则包括所述目标页面属于由论坛建站工具建立的页面,或所述目标页面的源代码包含论坛页面特征时,在步骤S2中,页面重构设备I确定所述目标页面的页面类型信息时,在此,所述论坛建站工具包括如discuz、phpwind等,假设在步骤SI中,页面重构设备I获取到的目标页面为新东方留学网http://www.66xue.com/,假设该页面采用Discuz !搭建SNS+BBS互动平台,则在步骤S2中,页面重构设备I根据建立页面http://www.66xue.com/采用的建站工具Discuz确定该页面的页面类型信息为论坛类型;假设在步骤SI中,页面重构设备I获取到的目标页面为http://bbs.sina.com.cn/,则在步骤S2中,页面重构设备I根据该目标页面的源代码中包含的论坛页面特征如论坛列表、论坛帖子等,确定该页面的页面类型信息为论坛类型。
[0123]再如,当所述预定的类型判断规则包括所述目标页面所对应的URL属于页面类型数据库,在步骤S2中,页面重构设备I确定所述目标页面的页面类型信息时,假设在步骤SI中,页面重构设备I获取到的目标页面对应的URL为http://news.163.com/12/0604/02/834D02M300014AED.html,在步骤S2中,页面重构设备I通过计算该URL的 URL Pattern,得到页面 http://news.163.com/12/0604/02/834D02M300014AED.html 的URL Pattern 为 http://news'.163\.com/[0—9]+/[0—9]+/[0—9]+/[0-9a-zA_Z]+\.html,基于该URL Pattern,在页面类型数据库如新闻库中匹配查询,得到新闻库中包含值为http://news\.163\.com/[0-9]+/[0-9]+/[0-9]+/[0-9a-zA_Z]+\.html 的数据,则在步骤S2 中,页面重构设备 I 判断页面 http://news.163.com/12/0604/02/834D02M300014AED.html的页面类型信息为新闻类型。又如,当所述预定的类型判断规则包括存在与所述目标页面所对应的URL相似的参考页面,在步骤S2中,页面重构设备I确定所述目标页面的页面类型信息时,假设在步骤SI中,页面重构设备I获取到的目标页面为http://news.sina.com.cn/china/,则在步骤S2中,页面重构设备I通过根据与目标页面http://news.sina.com.cn/china/相似的参考页面如http://news.sina.com.cn/的页面类型信息如新闻类型,判断目标页面http://news.sina.com.cn/china/的页面类型信息为新闻类型。[0124]还如,当所述目标页面所对应的URL包括URL相关特征信息,在步骤S2中,页面重构设备I确定所述目标页面的页面类型信息时,在此,所述URL相关特征信息包括但不限于以下至少任一项:1)URL具体内容,即组成URL的全部内容,如URL组成中包含的协议类型、主机名、路径及文件名等;2)URL后缀,即URL组成中结尾处的字符,如htm、html、shtml、asp、jsp、php等;3) URL深度,即URL的目录层次、页面链接之间的链接深度等;4) URL模式,即由多个已标注页面类型的页面进行聚类所得到的对应页面类型的URL模式。假设在步骤SI中,页面重构设备I获取到的目标页面的URL为http://www.tianyabook.com/,贝U在步骤S2中,页面重构设备I根据http://www.tianyabook.com/的具体内容中包含的URL相关特征信息如tianyabook来确定该目标网页的页面类型信息为小说类型,本领域技术人员应能理解上述URL相关特征信息仅为举例,其他现有的或今后可能出现的URL相关特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0125]还如,当所述预定的类型判断规则包括所述目标页面所对应的URL与预定网页模板相匹配,在步骤S2中,页面重构设备I确定所述目标页面的页面类型信息时,假设在步骤SI中,页面重构设备I获取到的目标页面所对应的URL为http://xinzh1.baidu.com/pub ?next = % 2F,在步骤 S2 中,页面重构设备 I 根据 http://xinzh1.baidu.com/pub ? next=% 2F判断其与预定网页模板问答模板相匹配,则在步骤S2中,页面重构设备I确定该目标页面的类型信息为问答类型。
[0126]本领域技术人员应能理解上述确定所述目标页面的页面类型信息的方式仅为举例,其他现有的或今后可能出现的确定所述目标页面的页面类型信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0127]本领域技术人员应能理解,在步骤S2中,页面重构设备I还可以根据上述预定的类型判断规则的任意组合,来确定所述目标页面的页面类型信息。
[0128]本领域技术人员应能理解上述预定的类型判断规则仅为举例,其他现有的或今后可能出现的预定的类型判断规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0129]在步骤S3中,页面重构设备I通过诸如所述目标页面的URL中包含的页面类型信息字段与设定的页面重构要素之间的对应关系,根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素。在此,所述页面重构要素包括诸如页面主体内容、页面重构节点、页面重构分块等页面关键信息。例如,假设在步骤S2中,页面重构设备I确定的所述目标页面如http://news.sina.com.cn/的所述页面类型信息为新闻类型,贝U在步骤S3中,页面重构设备I确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的不同内容的页面分块如“要闻、国内新闻频道、国际新闻频道、体育频道、财经频道”等,及该目标页面中包含的新闻标题、新闻正文、新闻来源、发布时间等页面标签如标题标签<hl>-〈h6>、文档主体标签〈body〉、段落标签
及相应的文本内容。再如,假设在步骤S2中,页面重构设备I确定的所述目标页面如http://bbs.dospy.com/的所述页面类型信息为论坛类型,则在步骤S3中,页面重构设备I确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的论坛首页中的论坛名称“塞班智能手机网”、版块分区如“诺基亚WP7讨论分区、Windows Phone 7操作系统讨论区、苹果iPhone机型分类讨论区、安卓android讨论区/热门、安卓android讨论区/摩托、塞班3(symbian3)机型分类讨论区等,及论坛列表页如子版块标题、主题分类、版块主题/回复数、作者/时间等,及论坛帖子页如帖子作者、发帖时间、帖子正文等。又如,假设在步骤S2中,页面重构设备I确定的所述目标页面如http://xinzh1.baidu.com/的所述页面类型信息为问答类型,贝U在步骤S3中,页面重构设备I确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的不同内容的页面分块如首页、广场/热门问答、广场/最新问题、发现浏览等。还如,假设在步骤S2中,页面重构设备I确定的所述目标页面如http://www.readnovel.com/book/73144/的所述页面类型信息为小说类型,则在步骤S3中,页面重构设备I确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的小说封面页如小说名称“作品名:红楼梦”、小说作者:曹雪芹”、内容简介、更新时间2010-04-0418:02:10等,及小说目录如“23.第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”等,及小说正文如章节标题“第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”、小说正文内容“话说贾元春自那日幸大观园回宫去后,便命将那日所有的题咏,命探春依次抄录妥协...,正是:庄晨绣夜心无矣,对月临风恨有之。”、“作品名:红楼梦”、“作者:曹雪芹”、小说章节链接如“[上一页][回目录][下一页]”等。在此,页面类型信息字段与设定的页面重构要素之间的对应关系可以表格或数据库的形式存在于页面重构设备I端,或与页面重构设备I通过网络相连接的第三方设备。
[0130]本领域技术人员应能理解上述确定与所述目标页面相对应的一个或多个页面重构要素的方式仅为举例,其他现有的或今后可能出现的确定与所述目标页面相对应的一个或多个页面重构要素方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0131]本领域技术人员应能理解上述页面类型信息与页面重构要素的对应关系仅为举例,其他现有的或今后可能出现的页面类型信息与页面重构要素的对应关系如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0132]接着,在步骤S4中,页面重构设备I根据其在步骤S3中确定的所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面。具体地,在步骤S4中,页面重构设备I首先根据其在步骤S3中确定的所述一个或多个页面重构要素,通过诸如解析所述目标页面的HTML,从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,例如,假设在步骤S3中,页面重构设备 I 确定的与目标页面 http://www.readnovel.com/nove 1/73144/23.html相对应的一个或多个页面重构要素包括该目标页面的小说正文如章节标题“第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”、小说正文内容“话说贾元春自那日幸大观园回宫去后,便命将那日所有的题咏,命探春依次抄录妥协...,正是:庄晨绣夜心无矣,对月临风恨有之。”、小说章节链接如“[上一页][回目录][下一页]”等,则在步骤S4中,页面重构设备I通过诸如解析该目标页面的HTML文档,提取该页面中与上述页面重构要素相对应的页面重构内容如具体文本内容。[0133]本领域技术人员应能理解上述从所述目标页面中提取与所述页面重构要素相对应的页面重构内容的方式仅为举例,其他现有的或今后可能出现的从所述目标页面中提取与所述页面重构要素相对应的页面重构内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0134]然后,在步骤S4中,页面重构设备I将所述页面重构内容,根据预定义的页面重构方式、或者根据所述目标页面的原始布局方式,生成与所述目标页面相对应的重构页面。接上例,在步骤S4中,页面重构设备I将提取的重构内容包括如章节标题“第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”、小说正文内容“话说贾元春自那日幸大观园回宫去后,便命将那日所有的题咏,命探春依次抄录妥协...,正是:庄晨绣夜心无矣,对月临风恨有之。”、小说章节链接“[上一页][回目录][下一页]”,按照预定义的方式如按照顺序:章节标题、小说正文、章节链接的顺序依次排列。
[0135]本领域技术人员应能理解上述生成与所述目标页面相对应的重构页面的方式仅为举例,其他现有的或今后可能出现的生成与所述目标页面相对应的重构页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0136]优选地,在步骤S4中,页面重构设备I还可根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,结合所述移动终端的终端相关属性,生成与所述移动终端相对应的重构页面。具体地,在步骤S4中,页面重构设备I首先根据其在步骤S3中确定的所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,然后结合所述移动终端的终端相关属性,生成与所述移动终端相对应的重构页面。其中,所述终端相关属性包括以下至少任一项:
[0137]-所述移动终端的页面可见区域;
[0138]-所述移动终端的屏幕可用工作区域;
[0139]-所述移动终端的屏幕分辨率;
[0140]-所述移动终端的系统配置属性。
[0141]例如,当所述终端相关属性包括所述移动终端的页面可见区域,生成与所述移动终端相对应的重构页面时,假设在步骤S3中,页面重构设备I确定的与目标页面http://tech.sina.com.cn/i/m/2012-05-31/03497194247.shtml 相对应的一个或多个页面重构要素包括该目标页面的新闻标题“互联网女皇DlO报告:移动互联网用户将超桌面”、发布时间“2012年05月31日03:49”、新闻来源“http://www.sina.com.cn”、新闻正文“新浪科技讯北京时间5月31日凌晨消息,娃谷知名风投机构Kleiner Perkins Caufield Byers (以下简称“KPCB”)合伙人、“互联网女皇”玛丽.米克尔(Mary Meeker)周三在DlO大会上称,,Facebook也需要拥有健全的“战争基金”。(风箫维金)”,在步骤S4中,页面重构设备I可根据该目标页面HTML文档中的js资源得到该移动终端的页面可见区域,如,根据 availWidth = parselnt (document, body, clientffidth)得到页面可见区域宽,根据availHeight = parselnt (document, body.clientHeight)得到页面可见区域高,然后,在步骤S4中,页面重构设备I结合该availWidth和availHeight来生成与所述移动终端相对应的重构页面。再如,当所述终端相关属性包括所述移动终端的系统配置属性,如操作系统类型与版本、处理器配置等信息生成与所述移动终端相对应的重构页面时,假设所述移动终端的系统配置属性包括“双核1.2GHz”,则在步骤S4中,页面重构设备I根据该系统配置属性确定所述移动终端为高端机,生成与所述移动终端相对应的重构页面包括根据其在步骤S3中确定的所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,如对于新闻类型页面,包括新闻标题、新闻正文、新闻来源、新闻发布时间;假设所述移动终端的系统配置属性包括“ IGHz高通Snapdragon处理器,采用Android 2.3操作系统”,则在步骤S4中,页面重构设备I根据该系统配置属性确定所述移动终端为低端机,生成与所述移动终端相对应的重构页面包括从所述目标页面中去除广告以外所有内容的页面信息,如对于新闻类型页面,包括新闻标题、新闻图片、新闻正文、新闻来源、新闻发布时间。
[0142]本领域技术人员应能理解上述结合所述移动终端的终端相关属性生成与所述移动终端相对应的重构页面的方式仅为举例,其他现有的或今后可能出现的结合所述移动终端的终端相关属性生成与所述移动终端相对应的重构页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0143]在步骤S5中,页面重构设备I随后将其在步骤S4中生成的所述重构页面,通过约定的通信方式,如http或https等通信协议,提供至所述移动终端,供用户阅读浏览。
[0144]页面重构设备I的各个步骤之间是持续不断工作的。具体地,在步骤SI中,页面重构设备I持续获取待提供给移动终端的目标页面;在步骤S2中,页面重构设备I持续确定所述目标页面的页面类型信息;在步骤S3中,页面重构设备I持续根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素;在步骤S4中,页面重构设备I持续根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面;在步骤S5中,页面重构设备I将所述重构页面提供至所述移动终端。在此,本领域技术人员应理解“持续”是指页面重构设备I的各步骤分别不断进行目标页面的获取、页面类型信息的确定、页面重构要素的确定、重构页面的生成与提供,直至该页面重构设备I在较长时间内停止目标页面的获取。
[0145]优选地,在步骤S3中,页面重构设备I还可根据所述页面类型信息,通过诸如所述目标页面的URL中包含的页面类型信息字段与设定的页面重构要素及其页面重构样式之间的映射关系,根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素及其页面重构样式。在此,所述页面重构样式包括但不限于:1)页面布局;2)页面展现方式。例如,假设在步骤S2中,页面重构设备I确定的所述目标页面如http://neWS.sina.com.cn/的所述页面类型信息为新闻类型,则在步骤S3中,页面重构设备I确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的不同内容的页面分块如“要闻、国内新闻频道、国际新闻频道、体育频道、财经频道”等,及该目标页面中包含的新闻标题、新闻正文、新闻来源、发布时间等页面标签如标题标签<hl>-〈h6>、文档主体标签〈body〉、段落标签
及相应的文本内容,在步骤S3中,页面重构设备I确定的相应页面重构样式包括如按照要闻、国内新闻频道、国际新闻频道、体育频道、财经频道依次由上至下排列,每一频道包括新闻标题文本内容及标题链接等。再如,假设在步骤S2中,页面重构设备I确定的所述目标页面如http://bbs.dospy.com/的所述页面类型信息为论坛类型,则在步骤S3中,页面重构设备I确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的论坛首页中的论坛名称“塞班智能手机网”、版块分区如“诺基亚WP7讨论分区、Windows Phone 7操作系统讨论区、苹果iPhone机型分类讨论区、安卓android讨论区/热门、安卓android讨论区/摩托、塞班3(symbian3)机型分类讨论区等,要素确定装置13确定的相应页面重构样式包括如按照诺基亚WP7讨论分区、Windows Phone 7操作系统讨论区、苹果iPhone机型分类讨论区、安卓android讨论区/热门、安卓android讨论区/摩托、塞班3(symbian3)机型分类讨论区依次由上至下排列,每一分区包括讨论标题文本内容及标题链接等。还如,假设在步骤S2中,页面重构设备I确定的所述目标页面如http://www.readnovel.com/nove 1/73144/23.html的所述页面类型信息为小说类型,则在步骤S3中,页面重构设备I确定的与该目标页面相对应的一个或多个页面重构要素包括该目标页面的小说正文如章节标题“第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”、小说正文内容“话说贾元春自那日幸大观园回宫去后,便命将那日所有的题咏,命探春依次抄录妥协...,正是:庄晨绣夜心无矣,对月临风恨有之。”、小说章节链接分块如“[上一页][回目录][下一页]”等,在步骤S3中,页面重构设备I确定的相应页面重构样式包括如按照顺序:章节标题、小说正文、章节链接的顺序依次排列。在此,页面类型信息字段与设定的页面重构要素其页面重构样式之间的映射关系可以表格或数据库的形式存在于页面重构设备I端,或与页面重构设备I通过网络相连接的第三方设备。
[0146]本领域技术人员应能理解上述确定与所述目标页面相对应的一个或多个页面重构要素及其页面重构样式的方式仅为举例,其他现有的或今后可能出现的确定与所述目标页面相对应的一个或多个页面重构要素或其页面重构样式方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0147]本领域技术人员应能理解上述页面类型信息与页面重构要素及其页面重构样式的映射关系仅为举例,其他现有的或今后可能出现的页面类型信息与页面重构要素或其页面重构样式的映射关系如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0148]接着,在步骤S4中,页面重构设备I首先根据所述一个或多个页面重构要素,从所述目标页面中提取与所述页面重构要素相对应的页面重构内容;然后根据所述页面重构内容,并结合所述页面重构样式,生成与所述目标页面相对应的重构页面。例如,假设在步骤S4中,页面重构设备I从所述目标页面如http://www.readnovel.com/nove 1/73144/23.html中提取的与所述页面重构要素如章节标题、小说正文、章节链接相对应的页面重构内容包括如章节标题“第二十三回西厢记妙词通戏语牡丹亭艳曲警芳心”、小说正文内容“话说贾元春自那日幸大观园回宫去后,便命将那日所有的题咏,命探春依次抄录妥协...,正是:庄晨绣夜心无矣,对月临风恨有之。”、小说章节链接“[上一页][回目录][下一页]”,并结合在步骤S3中,页面重构设备I所确定的所述页面重构样式,如按照顺序:章节标题、小说正文、章节链接的顺序依次排列。
[0149]优选地,页面重构设备I还包括步骤S9 (未示出)。具体地,在步骤S9中,页面重构设备I获取所述目标页面的页面分块;在步骤S4中,页面重构设备I根据所述一个或多个页面重构要素,通过从所述页面分块中提取与所述页面重构要素相对应的页面重构内容,生成与所述页面分块相对应的重构分块;在步骤S5中,页面重构设备I将所述重构分块提供至所述移动终端。[0150]具体地,在步骤S9中,页面重构设备I根据其在步骤SI中获取的所述目标页面,基于HTML标签分析方法、或者根据VIPS (Vision-based Page Segmentation,基于视觉的页面分段)算法,来获取所述目标页面的页面分块。例如,在步骤S9中,页面重构设备I根据VIPS算法,利用网页前景颜色、背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距、元素位置等视觉特征,通过制定相应的规则把其在步骤SI中获取的所述目标页面http://news.sina.com.cn/分成各个视觉信息块,如新闻主体块、新闻正文块、导航块、广告块。本领域技术人员能理解上述获取所述目标页面的页面分块的方式仅为举例,其他现有的或今后可能出现的获取所述目标页面的页面分块的方式仅如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0151]然后,在步骤S4中,页面重构设备I首先根据其在步骤S3中确定的所述一个或多个页面重构要素,通过从所述页面分块中提取与所述页面重构要素相对应的页面重构内容,然后生成与所述页面分块相对应的重构分块。例如,假设在步骤S3中,页面重构设备I确定的与所述目标页面http://news.sina.com.cn/相对应的所述页面重构要素包括该目标页面的不同内容的页面频道分块如“要闻、国内新闻频道、国际新闻频道、体育频道、财经频道”等,及该目标页面中不同频道分块中包含的新闻标题、新闻正文、新闻来源、发布时间等页面标签如标题标签<hl>-〈h6>、文档主体标签〈body〉、段落标签
及相应的文本内容,接上例,则在步骤S4中,页面重构设备I首先通过诸如解析所述目标页面的HTML,从分块获取装置获取的页面分块如新闻主体块、新闻正文块、导航块、广告块中提取与在步骤S3中页面重构设备I确定的所述重构要素相对应的页面重构内容,如在步骤S4中,页面重构设备I从新闻主体块中提取的与页面重构要素页面频道分块相对应的页面重构内容包括目标页面http://news.sina.com.cn/中要闻频道中包含的新闻如“网络媒体深化走转改活动座谈会在京召开”、“儿童节专题”等。再如,在步骤S4中,页面重构设备I从新闻主体块中提取的与页面重构要素页面频道分块相对应的页面重构内容包括目标页面http://news.sina.com.cn/中体育频道中包含的新闻如“阿杜22分雷霆大胜扳成1_2⑶P低迷马刺20连胜终止”、“欧洲杯16强名单全公布368球星一览你也能来编辑”等。
[0152]然后,在步骤S4中,页面重构设备I将从所述页面分块中提取与所述页面重构要素相对应的页面重构内容,根据预定义的页面分块重构方式、或者根据所述页面分块的原始布局方式,生成与所述页面分块相对应的重构分块。
[0153]本领域技术人员能理解上述生成与所述页面分块相对应的重构分块的方式仅为举例,其他现有的或今后可能出现的生成与所述页面分块相对应的重构分块的方式仅如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0154]在步骤S5中,页面重构设备I随后将其在步骤S4中生成的所述重构分块,通过约定的通信方式,如http或https等通信协议,提供至所述移动终端,供用户阅读浏览。
[0155]优先地,在步骤S5中,页面重构设备I还可根据所述重构分块的块重要度,将其在步骤S4中生成的所述重构分块,通过约定的通信方式,如http或https等通信协议,提供至所述移动终端,供用户阅读浏览。在此,所述块重要度包括但不限于以下至少任一项:1)所述重构分块的文本字符与整个〈body〉块的文本字符的比率;2)所述重构分块中没有链接的文本字符与整个页面的总文本字符的比率;3)所述重构分块的块面积与页面的整个〈body〉块的面积的比率。本领域技术人员能理解上述块重要度仅为举例,其他现有的或今后可能出现的块重要度如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0156]在一个优选实施例中(参考图3),页面重构设备I包括步骤S1、步骤S2、步骤S3、步骤S4和步骤S5。其中,步骤S3包括步骤S31(未示出)和步骤S32(未示出)。以下参考图3对该优选实施例进行描述:具体地,在步骤SI中,页面重构设备I获取待提供给移动终端的目标页面;在步骤S2中,页面重构设备I确定所述目标页面的页面类型信息;在步骤S31中,页面重构设备I确定与所述页面类型信息相对应的页面公共文档对象模型;在步骤S32中,页面重构设备I根据所述页面公共文档对象模型,提取所述目标页面的页面重构节点,以作为所述页面重构要素;在步骤S4中,页面重构设备I根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面;在步骤S5中,页面重构设备I将所述重构页面提供至所述移动终端。其中,步骤S1、步骤S2、步骤S4和步骤S5与图3所示对应步骤相同或相似,故此处不再赘述,并通过引用的方式包含于此。
[0157]具体地,在步骤S31中,页面重构设备I通过诸如与所述页面类型信息相对应的多个页面中具有公共节点路径的DOM树节点,然后基于该具有公共节点路径的DOM树节点,确定与所述页面类型信息相对应的页面公共文档对象模型。例如,假设与所述类型信息如小说类型相对应的多个页面如:
[0158]A:第九回林教头风雪山神庙陆虞候火烧草料场
[0159]http://www.readnovel.com/nove1/73145/12.html
[0160]B:《水浒传》第十回林教头风雪山神庙陆虞候火烧草料场
[0161]http://www.purepen.com/shz/010.htm
[0162]C:第二十八回梁山泊分金大买市宋公明全伙受招安
[0163]http://www.cuiwei ju.com/ fulltext/97/97926.html#5383832 具有公共节点路径的DOM树节点如Dl-Dn,则在步骤S31中,页面重构设备I根据Dl-Dn生成相应DOM树如DOM-D,以作为与小说类型页面相对应的页面公共文档对象模型Common-D0M-D。
[0164]本领域技术人员能理解上述确定单元确定与所述页面类型信息相对应的页面公共文档对象模型的方式仅为举例,其他现有的或今后可能出现的确定单元确定与所述页面类型信息相对应的页面公共文档对象模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0165]接着,在步骤S32中,页面重构设备I根据所述页面公共文档对象模型,提取所述目标页面的页面重构节点,以作为所述页面重构要素。例如,假设在步骤Si中,页面重构设备I获取到的所述目标页面为小说类型页面,如《水浒传》第十七回花和尚单打二龙山青面兽双夺宝珠寺http://www.purepen.com/shz/017.htm,则在步骤S32中,页面重构设备I根据其在步骤S31中确定的与页面类型信息如小说类型相对应的页面公共文档对象模型Common-DOM-D,从该页面的对应的DOM树中提取与页面公共文档对象模型Common-DOM-D节点名称和节点XPath均相同的节点,作为页面重构节点,并以此作为所述页面重构要素。
[0166]优选地,在步骤S31中,页面重构设备I首先根据对应所述页面类型信息的多个参考页面中每一个所对应的文档对象模型,提取所述多个参考页面的公共节点,然后生成与所述页面类型信息相对应的所述页面公共文档对象模型。例如,假设存在对应于所述页面类型信息如新闻类型的多个参考页面如:
[0167]I ;sina 新闻首页http: //news.sina.com.cn/,
[0168]II:sina 国内新闻 http://news.sina.com.cn/china/,
[0169]III:sina 国际新闻 http://news.sina.com.cn/world/,
[0170]IV:sohu 新闻首页 http:// news.sohu.com/,
[0171]在步骤S31中,页面重构设备I首先根据该多个参考页面中每一个对应的HTML文档进行解析,将HTML标签转化为对应DOM树的节点,从而生成各自的DOM树,分别为DOM-1,DOM-1I, DOM-1II, D0M-1V,通过提取 D0M-1、DOM-1I, DOM-1II, DOM-1V 中节点名称和节点XPath均相同的节点,得到该多个参考页面的公共节点如El-En ;然后,在步骤S31中,页面重构设备I根据该公共节点El-En,生成与所述页面类型信息相对应的所述页面公共文档对象模型如Common-DOM-E。
[0172]图4示出根据本发明一个优选实施例的用于提供与目标页面相对应的重构页面的方法流程图。
[0173]具体地,在步骤SI’中,页面重构设备I获取待提供给移动终端的目标页面;在步骤S2’中,页面重构设备I确定所述目标页面的页面类型信息;在步骤S3’中,页面重构设备I根据所述页面类型信息,在页面重构要素数据库中进行匹配查询,以获得与所述目标页面相对应的一个或多个页面重构要素;在步骤S4’中,页面重构设备I根据所述一个或多个页面重构要素,通过从 所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面;在步骤S5’中,页面重构设备I将所述重构页面提供至所述移动终端。其中,步骤SI’、步骤S2’、步骤S4’和步骤S5’与图3所示对应步骤相同或相似,故此处不再赘述,并通过引用的方式包含于此。
[0174]具体地,在步骤S3’中,页面重构设备I根据所述页面类型信息,在页面重构要素数据库中进行匹配查询,以获得与所述目标页面相对应的一个或多个页面重构要素。例如,假设在步骤SI’中,页面重构设备I获取的目标页面为http://xinzh1.baidu.com/pub ?next = % 2F,在步骤S2’中,页面重构设备I确定的该目标页面的所述页面信息类型为问答类型,则在步骤S3’中,页面重构设备I根据其在步骤S2’中确定的问答类型,在页面重构要素数据库中进行匹配查询,以获得与所述目标页面相对应的一个或多个页面重构要素。在此,所述页面重构要素数据库可位于页面重构设备I中,也可位于与页面重构设备I通过网络相连的第三方设备中,如服务器。
[0175]优选地,页面重构设备I还包括步骤S6’、步骤S7’和步骤S8’。具体地,在步骤S6’中,页面重构设备I根据多个已标注页面类型的训练页面,按页面类型进行分类,获得一个或多个页面分类,其中,所述页面分类包括至少一个所述训练页面;在步骤S7’中,页面重构设备I根据所述页面分类中包括的所述训练页面,通过预定页面要素训练规则,获得与所述页面分类所对应的页面类型相对应的一个或多个页面重构要素;在步骤S8’中,页面重构设备I根据与所述页面分类所对应的页面类型相对应的一个或多个所述页面重构要素,建立或更新所述页面重构要素数据库。
[0176]具体地,在步骤S6’中,页面重构设备I根据多个已标注页面类型的训练页面,按页面类型进行分类,获得一个或多个页面分类,其中,所述页面分类包括至少一个所述训练页面。例如,假设存在多个已标注页面类型的训练页面如:[0177]V:sina 体育新闻 http://sports, sina.com.cn/,新闻类型
[0178]V1:sina 财经新闻 http://finance.sina.com.cn/,新闻类型
[0179]VI1:sina/读书/小说馆/世界名著/《基督山伯爵》
[0180]http://vip.book.sina.com.cn/book/index_81300.html,小说类型
[0181]VIII:sina/读书/图书连载/小说/乡土小说/《平凡的世界》
[0182]http://vip.book.sina.com.cn/book/index_86819.html,小说类型
[0183]IX:sohu/读书/图书连载/文学总管/古典小说/《隋唐演义》(全文)
[0184]http://lz.book.sohu.com/serialize-1d-13706.html,小说类型则在步骤 S6’中,页面重构设备I根据该多个已标注页面类型的训练页面,按页面类型进行分类,获得一个或多个页面分类,如新闻类型页面V和VI,小说类型页面VI1、VIII和IX,其中,所述页面分类包括至少一个所述训练页面。
[0185]接着,在步骤S7’中,页面重构设备I根据其在步骤S6’中获得的所述页面分类中包括的所述训练页面,通过预定页面要素训练规则,获得与所述页面分类所对应的页面类型相对应的一个或多个页面重构要素。其中,所述预定页面要素训练规则包括以下至少任一项:
[0186]-对所述页面分类中的所述训练页面进行贝叶斯估计分析,获得所述页面分类所对应的页面类型相对应的一个或多个页面重构要素;
[0187]-对所述页面分类中的所述训练页面进行最大似然估计分析,获得所述页面分类所对应的页面类型相对应的一个或多个页面重构要素。
[0188]例如,接上例,在步骤S7’中,页面重构设备I根据其在步骤S6’中获得的所述页面分类中包括的所述训练页面,如新闻类型分类中包括的所述训练页面V和VI,小说类型分类中包括的所述训练页面VI1、VIII和IX,通过对所述页面分类中的所述训练页面进行贝叶斯估计分析,通过或者对所述多个页面节点训练数据进行最大似然估计分析,来获得所述页面分类所对应的页面类型相对应的一个或多个页面重构要素,如与新闻类型的所述页面分类所对应的页面类型相对应的一个或多个页面重构要素包括新闻主体块、新闻正文块及新闻标题、新闻正文等页面标签如标题标签<hl>-〈h6>、文档主体标签〈body〉、段落标签〈P〉及相应的文本内容,与小说类型的所述页面分类所对应的页面类型相对应的一个或多个页面重构要素包括小说正文、小说作者、章节目录链接等。
[0189]本领域技术人员能理解上述根据预定页面要素训练规则获得所述页面重构要素的方式仅为举例,其他现有的或今后可能出现的根据预定页面要素训练规则获得所述页面重构要素的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0190]在步骤S8’中,页面重构设备I根据与所述页面分类所对应的页面类型相对应的一个或多个所述页面重构要素,建立或更新所述页面重构要素数据库。例如,在步骤S8’中,页面重构设备I根据其在步骤S7’中获得的与所述页面分类所对应的页面类型相对应的一个或多个所述页面重构要素,建立包含页面类型与其所对应的所述页面重构要素之间对应关系的所述页面重构要素数据库。
[0191]需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
[0192]另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
[0193]对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此夕卜,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
【权利要求】
1.一种用于为移动终端提供与目标页面相对应的重构页面的方法,其中,该方法包括以下步骤: a获取待提供给移动终端的目标页面; b确定所述目标页面的页面类型信息; c根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素;d根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面;e将所述重构页面提供至所述移动终端。
2.根据权利要求1所述的方法,其中,所述步骤c包括: -根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素及其页面重构样式; 其中,所述步骤d包括: -根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容; -根据所述页面重构内容,并结合所述页面重构样式,生成与所述目标页面相对应的重构页面。
3.根据权利要求1或2所述的方法,其中,所述步骤b包括: -根据所述目标页面是否满足预定的类型判断规则,确定所述目标页面的页面类型信息;` 其中,所述预定的类型判断规则包括以下至少任一项: -当所述目标页面属于由论坛建站工具建立的页面,或所述目标页面的源代码包含论坛页面特征时,确定所述目标页面的页面类型信息为论坛页面; -当所述目标页面所对应的URL属于页面类型数据库时,根据所述页面类型数据库确定所述目标页面的页面类型信息; -当存在与所述目标页面所对应的URL相似的参考页面时,根据所述参考页面的页面类型信息确定所述目标页面的页面类型信息; -当所述目标页面所对应的URL包括URL相关特征信息时,根据所述URL相关特征信息确定所述目标页面的页面类型信息; -当所述目标页面所对应的URL与预定网页模板相匹配时,根据所述预定网页模板确定所述目标页面的页面类型信息。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤c包括: -根据所述页面类型信息,在页面重构要素数据库中进行匹配查询,以获得与所述目标页面相对应的一个或多个页面重构要素。
5.根据权利要求4所述的方法,其中,该方法还包括: -根据多个已标注页面类型的训练页面,按页面类型进行分类,获得一个或多个页面分类,其中,所述页面分类包括至少一个所述训练页面; -根据所述页面分类中包括的所述训练页面,通过预定页面要素训练规则,获得与所述页面分类所对应的页面类型相对应的一个或多个页面重构要素; -根据与所述页面分类所对应的页面类型相对应的一个或多个所述页面重构要素,建立或更新所述页面重构要素数据库; 其中,所述预定页面要素训练规则包括以下至少任一项: -对所述页面分类中的所述训练页面进行贝叶斯估计分析,获得所述页面分类所对应的页面类型相对应的一个或多个页面重构要素; -对所述页面分类中的所述训练页面进行最大似然估计分析,获得所述页面分类所对应的页面类型相对应的一个或多个页面重构要素。
6.根据权利要求1至5中任一项所述的方法,其中,该方法还包括: -获取所述目标页面的页面分块; 其中,所述步骤d包括: -根据所述一个或多个页面重构要素,通过从所述页面分块中提取与所述页面重构要素相对应的页面重构内容,生成与所述页面分块相对应的重构分块; 其中,所述步骤e包括: -将所述重构分块提供至所述移动终端。
7.根据权利要求1至6中任一项所述的方法,其中,所述步骤c包括: X确定与所述页面类型信息相对应的页面公共文档对象模型; -根据所述页面公共文档对象模型,提取所述目标页面的页面重构节点,以作为所述页面重构要素。
8.根据权利要求7所述的方法,其中,所述步骤X包括: -根据对应所述页面类型信息的多个参考页面中每一个所对应的文档对象模型,提取所述多个参考页面的公共节点; -根据所述公共节点,生成与所述页面类型信息相对应的所述页面公共文档对象模型。
9.根据权利要求1至8中任一项所述的方法,其中,所述步骤d包括: -根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,结合所述移动终端的终端相关属性,生成与所述移动终端相对应的重构页面; 其中,所述终端相关属性包括以下至少任一项: -所述移动终端的页面可见区域; -所述移动终端的屏幕可用工作区域; -所述移动终端的屏幕分辨率; -所述移动终端的系统配置属性。
10.一种用于提供与目标页面相对应的重构页面的页面重构设备,其中,该页面重构设备包括: 页面获取装置,用于获取待提供给移动终端的目标页面; 类型确定装置,用于确定所述目标页面的页面类型信息; 要素确定装置,用于根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素; 页面生成装置,用于根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,生成与所述目标页面相对应的重构页面; 提供装置,用于将所述重构页面提供至所述移动终端。
11.根据权利要求10所述的页面重构设备,其中,所述要素确定装置用于: -根据所述页面类型信息,确定与所述目标页面相对应的一个或多个页面重构要素及其页面重构样式; 其中,所述页面生成装置用于: -根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容; -根据所述页面重构内容,并结合所述页面重构样式,生成与所述目标页面相对应的重构页面。
12.根据权利要求10或11所述的页面重构设备,其中,所述类型确定装置用于: -根据所述目标页面是否满足预定的类型判断规则,确定所述目标页面的页面类型信息; 其中,所述预定的类型判断规则包括以下至少任一项: -当所述目标页面属于由论坛建站工具建立的页面,或所述目标页面的源代码包含论坛页面特征时,确定所述目标页面的页面类型信息为论坛页面; -当所述目标页面所对应的URL属于页面类型数据库时,根据所述页面类型数据库确定所述目标页面的页面类型信息; -当存在与所述目标页面所对应的URL相似的参考页面时,根据所述参考页面的页面类型信息确定所述目标页面的页 面类型信息; -当所述目标页面所对应的URL包括URL相关特征信息时,根据所述URL相关特征信息确定所述目标页面的页面类型信息; -当所述目标页面所对应的URL与预定网页模板相匹配时,根据所述预定网页模板确定所述目标页面的页面类型信息。
13.根据权利要求10至12中任一项所述的页面重构设备,其中,所述要素确定装置用于: -根据所述页面类型信息,在页面重构要素数据库中进行匹配查询,以获得与所述目标页面相对应的一个或多个页面重构要素。
14.根据权利要求13所述的页面重构设备,其中,该页面重构设备还包括: 分类获取装置,用于根据多个已标注页面类型的训练页面,按页面类型进行分类,获得一个或多个页面分类,其中,所述页面分类包括至少一个所述训练页面; 要素获取装置,用于根据所述页面分类中包括的所述训练页面,通过预定页面要素训练规则,获得与所述页面分类所对应的页面类型相对应的一个或多个页面重构要素; 数据库更新装置,用于根据与所述页面分类所对应的页面类型相对应的一个或多个所述页面重构要素,建立或更新所述页面重构要素数据库; 其中,所述预定页面要素训练规则包括以下至少任一项: -对所述页面分类中的所述训练页面进行贝叶斯估计分析,获得所述页面分类所对应的页面类型相对应的一个或多个页面重构要素; -对所述页面分类中的所述训练页面进行最大似然估计分析,获得所述页面分类所对应的页面类型相对应的一个或多个页面重构要素。
15.根据权利要求10至14中任一项所述的页面重构设备,其中,该页面重构设备还包括: 分块获取装置,用于获取所述目标页面的页面分块; 其中,所述页面生成装置用于: -根据所述一个或多个页面重构要素,通过从所述页面分块中提取与所述页面重构要素相对应的页面重构内容,生成与所述页面分块相对应的重构分块; 其中,所述提供装置用于: -将所述重构分块提供至所述移动终端。
16.根据权利要求10至15中任一项所述的页面重构设备,其中,所述要素确定装置包括: 模型确定单元,用于确定与所述页面类型信息相对应的页面公共文档对象模型;节点提取单元,用于根据所述页面公共文档对象模型,提取所述目标页面的页面重构节点,以作为所述页面重构要素。
17.根据权利要求16所述的页面重构设备,其中,所述模型确定单元用于: -根据对应所述页面类型信息的多个参考页面中每一个所对应的文档对象模型,提取所述多个参考页面的公共节点; -根据所述公共节点,生成与所述页面类型信息相对应的所述页面公共文档对象模型。
18.根据权利要求10·至17中任一项所述的页面重构设备,其中,所述页面生成装置用于: -根据所述一个或多个页面重构要素,通过从所述目标页面中提取与所述页面重构要素相对应的页面重构内容,结合所述移动终端的终端相关属性,生成与所述移动终端相对应的重构页面; 其中,所述终端相关属性包括以下至少任一项: -所述移动终端的页面可见区域; -所述移动终端的屏幕可用工作区域; -所述移动终端的屏幕分辨率; -所述移动终端的系统配置属性。
19.一种浏览器,包括如权利要求10至18中任一项所述的用于提供与目标页面相对应的重构页面的装置。
20.一种浏览器插件,包括如权利要求10至18中任一项所述的用于提供与目标页面相对应的重构页面的装置。
【文档编号】G06F17/30GK103544178SQ201210244986
【公开日】2014年1月29日 申请日期:2012年7月13日 优先权日:2012年7月13日
【发明者】张世沂 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1