一种页面内容处理方法及装置的制作方法

文档序号:6338770阅读:154来源:国知局
专利名称:一种页面内容处理方法及装置的制作方法
技术领域
本发明涉及网页内容处理技术,尤其涉及一种为特定用户终端提供良好网页浏览 体验的页面内容处理技术。
背景技术
自上世纪九十年代以来互联网技术蓬勃发展,期间诞生的网络搜索、门户以及在 线交易等互联网应用对人们的工作生活产生了巨大的影响,经济生活中信息传递的效率急 速提升,互联网产业链的各个环节也基本发展成熟。然而随着3G等移动宽带接入技术的成 熟,以及各种新型智能移动终端的出现,用户上网的行为正在发生改变。更多用户开始使用 包括手机在内的移动终端从网络获得资讯,与人分享信息,移动互联网已经走入了大众的 生活。
在用户广泛使用移动技术接入网络的今天,互联网应用提供商们需要对自身的产 品和服务进行技术改造,以便向众多的移动上网用户提供更加良好的使用体验。因为在移 动互联网中,用户的终端设备通常以手机为主。相对于个人计算机来说,手机有着移动的优 势,然而同时却存在屏幕小、接入速率低、接入费用较高以及处理能力较低等天然瓶颈。为 此各个应用提供商都在应用本身着手去协助用户去改善这些瓶颈。比如说,为了适用手机 屏幕的浏览,一些知名的门户网站会推出面向手机用户的手机网站,相对于计算机的网站 版本多媒体内容广泛使用的特点而言,手机网站的服务端更多以文本内容为主。再比如说, 针对一些图片,应用服务提供商会有针对性地对其进行压缩方便显示,同时还能降低流量 的传输以及减轻手机终端的处理负担。然而对于提升用户的使用体验来说,互联网应用服 务提供商仍然有不少技术难题有待解决。
如前所述,目前在服务端已经能够向用户推送适应手机浏览的页面。然而对于页 面内容中经常出现的URL却鲜有有效的处理手段。很多情况下,页面内容的编辑者为了内 容表达的简洁,通常会在页面内容中插入URL以引用该URL所指向的另一个页面的内容。比 如,用户在百度知道(zhidao. baidu. com)提出一个关于国庆节放假安排的问题,回答者可 能不会直接给出答案,而是放上一个指向政府官方站点的URL,然后邀请提问者访问该URL 以获得其所需要的资讯。再比如说,某个新闻页面的编辑者为了让阅读者了解整个专题事 件的来龙去脉,可能会页面的新闻内容中引用多个过往关联事件,编辑者通常会引用多个 URL分别指向这些过往事件的新闻页面。URL的引用带来的便捷性,但是对于手机用户而 言,在浏览网页过程其可能面临URL过长的困扰。请参考图1,在部分情况下,URL的长度可 能会占据大半个手机屏幕,甚至超过整个手机屏幕。在URL过长的情况下,手机用户浏览体 验迅速下降,URL两头文本内容的衔接性受到较大影响。发明内容
本发明提供了一种页面内容处理的方法和装置,用以提升用户使用小型终端进行 页面浏览时的使用体验,本发明是通过以下技术方案实现的
本发明提供一种页面内容处理方法,其应用于互联网服务端,为小型终端提供页 面内容处理服务,所述方法包括
A、提取用户请求访问的目标页面内容;
B、判断所述目标页面内容中是否存在URL ;如果存在转步骤C,否则跳过步骤C继 续;
C、按照预定的策略对所述目标页面内容中的所述URL进行截短处理,所述预定的 策略包括
策略Cl、截取所述URL中主域名部分作为第一部分;
策略C2、截取所述URL所述主域名之后的多个字符作为第二部分;
策略C3、当所述第二部分与所述第一部分之间有字符被截去,则插入省略符号作 为第三部分将所述第一部分与所述第二部分连接以形成截短后的URL ;
D、向用户返回处理后的目标页面。
优选地,其中所述策略C2具体为截取所述URL从最后一个“/”开始的所有字符 作为所述第二部分。
优选地,其中所述策略C2具体为判断所述主域名之后的字符长度是否超过预定 阈值长度;
如果没有,则保留所述主域名之后的所有字符作为所述第二部分;
否则从所述URL末端开始向前截取一个预定长度的字符作为所述第二部分。
优选地,还包括
E、提取用户访问请求中的参数,其中所述参数至少包括用户终端参数,根据所述 用户终端参数判断用户终端属于智能型还是普通型;
其中所述判断所述主域名之后的字符长度是否超过预定阈值长度具体为判断所 述主域名之后的字符长度是否超过与终端对应的预定阈值长度;
其中所述智能型终端对应第二预定阈值长度,所述普通型终端对应第一预定阈值 长度,且所述第二预定阈值长度大于所述第一预定阈值长度。
优选地,该方法还包括
E、提取用户访问请求中的参数,其中所述参数至少包括用户终端参数;
F、对所述目标页面内容进行代码转换。
优选地,所述步骤F具体为根据用户终端参数结合所述目标页面内容对所述目 标页面内容进行代码转换。
优选地,所述步骤D之前还包括
E、提取用户访问请求中的参数,其中所述参数至少包括用户终端参数;
G、结合所述用户终端参数以及所述截短后的URL所指向的目标页面判断是否还 需要增加相应的转换地址代码,如果需要则插入所述转换地址代码,否则转步骤D。
本发明还提供一种页面内容处理装置,其应用于互联网服务端,为小型终端提供 页面内容处理服务,其特征在于,所述装置包括内容提取单元、URL识别单元、页面渲染单 元以及用户交互单元;其中,
所述内容提取单元,用于提取用户请求访问的目标页面内容;
所述URL识别单元,用于判断所述目标页面内容中是否存在URL ;如果存在则将识别到的URL提交给所述页面渲染单元进行截短处理,否则跳过所述截短处理继续;
所述页面渲染单元,用于按照预定的策略对所述目标页面内容中的所述URL进行 截短处理,所述预定的策略包括
策略Cl、截取所述URL中主域名部分作为第一部分;
策略C2、截取所述URL所述主域名之后的多个字符作为第二部分;
策略C3、当所述第二部分与所述第一部分之间有字符被截去,则插入省略符号作 为第三部分将所述第一部分与所述第二部分连接以形成截短后的URL ;
所述用户交互单元,用于向用户返回处理后的目标页面。
优选地,其中所述策略C2具体为截取所述URL从最后一个“/”开始的所有字符 作为所述第二部分。
优选地,其中所述策略C2具体为判断所述主域名之后的字符长度是否超过预定 阈值长度;
如果没有,则所述主域名之后的所有字符作为所述第二部分;
否则从所述URL末端开始向前截取一个预定长度的字符作为所述第二部分。
优选地,还包括
参数提取单元,用于提取用户访问请求中的参数,其中所述参数至少包括用户终 端参数;
所述页面渲染单元进一步用于根据用户终端参数判断用户终端属于智能型还是 普通型;
所述判断所述主域名之后的字符长度是否超过预定阈值长度具体为判断所述主 域名之后的字符长度是否超过与终端对应的预定阈值长度;
其中所述智能型终端对应第二预定阈值长度,所述普通型终端对应第一预定阈值 长度,且所述第二预定阈值长度大于所述第一预定阈值长度。
优选地,还包括代码转换单元,用于对所述目标页面进行代码转换。
优选地,还包括
参数提取单元,用于提取用户访问请求中的参数,其中所述参数至少包括用户终 端参数;
其中所述代码转换单元,用于根据用户终端参数结合所述目标页面内容对所述目 标页面进行代码转换。
优选地,还包括
参数提取单元,用于提取用户访问请求中的参数,其中所述参数至少包括用户终 端参数;
其中所述页面渲染单元进一步用于,结合所述用户终端参数以及所述截短后的 URL所指向的目标页面判断是否还需要增加相应的转换地址代码,如果需要则插入所述相 应的转换地址代码,否则转到所述用户交互单元向用户返回处理后的目标页面。
由以上技术方案可以看出,相对于现有技术而言,实施本发明后可以有效地提高 用户使用手机等小型终端浏览网页时的体验,用户浏览的内容存在URL时,不会出现URL占 据屏幕较大面积的情形,并且可以防止用户被钓鱼网站所欺骗的风险。


图1是使用手机进行网页浏览的示意图。
图2是本发明页面内容处理方法的流程图。
图3是本发明页面内容处理装置的逻辑结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。本发明着力于在服务端为小型终端提供页面内容处理服务,提升用 户在小型终端上的网页浏览体验。所谓的小型终端主要包括手机、PDA、掌上游戏终端以及 掌上阅读终端等。其典型的特点这类型的终端便于携带,然而用户在使用该类型终端时,终 端屏幕难以在可阅读字体大小的情形下完整地展示标准的Web页面内容。本发明将以最典 型的手机作为示例对如何实施本发明进行说明。本申请以软件实现作为较佳的实施方式对 本发明进行阐述,但并不排除硬件和固件的实现方式。
图2和图3示出的本发明页面内容处理方法的流程以及相对应的页面内容处理装 置的逻辑结构。请首先参考图2,本发明较佳实施方式处理流程包括以下步骤。
步骤101,从用户访问请求中提取用户参数,然后转步骤102。用户通常通过HTTP 协议向服务端发出访问请求,访问请求中会包括很多用户相关的参数。这些参数一般包括 用户请求访问的目标页面地址(通常用报文中的URL字段表示)以及用户终端参数。用户 通过HTTP协议向服务端发送请求时,其报文中自然携带有其访问的URL;而一般情况下,报 文中还包括有^er-Agent字段,该字段通常用于存放手机终端的操作系统及浏览器等软 件平台信息、制造商信息以及处理器主频、内存大小及屏幕大小等硬件平台信息。用户终端 参数在一定意义上可以对手机进行描述,比如说如果操作系统是苹果公司操作系统,通常 这样的手机是高端智能机器,再比如说,如果处理器主频操作IGHZ且屏幕大于3英寸,这样 的手机通常是中高端智能机器。
步骤102,对用户访问的目标页面进行代码转换。
在本发明中,步骤102是可选的步骤,因为在实施本发明的过程中,可能存在以下 两种情形
I.由于用户请求访问的目标页面的内容可能来自第三方。以本申请人一百度 公司提供的互联网服务为例,如果用户当前请求访问的URL比较特别,比如:http://gate. baidu. com/ ? src = http% 3A% 2F% 2Fwww. java2s. com% 2F。此时用户实际希望获得 的内容来自http //www. java2s. com。 http://www. java2s. com所指向的目标页面可能是 为个人计算机所设计的标准Web页面。对于不少手机平台而言,其是无法访问的或者访问 的体验较差。还有一种情况,用户可能访问的是百度刚刚开发的一种产品或者服务,这些产 品和服务还没有内嵌式适合手机浏览的版本页面。因此服务端为用户提供代码转换服务。 进一步来说,由于步骤101中已经获得了用户终端参数,因此可以根据用户终端参数结合 目标页面内容对所述目标页面内容进行相应的代码转换。比如根据手机的操作系统以及自 带的浏览器进行相应的代码转换,使得转换后的页面能够适合在手机屏幕上进行浏览。
II.用户请求访问的目标页面在服务端有合适的版本存在。比如用户访访问比较 成熟的百度知道这个频道(http://zhida0. baidu. com),服务端设有一个或者多个手机版本的目标页面(通常对应到多种类型的手机),因此自然不需要进行步骤102的代码转换。
在较佳实施方式中,I和II两种情况对应到不同的服务器上进行实现。比如用户 请求访问的URL中含有gate, baidu. com或者预定的其他域名的情况在A类的服务器上做 处理,这种服务器提供步骤102所述的代码转换服务。而对于其他情况则在B类的服务器 上进行处理,B类服务器则跳过步骤102的处理。这对于服务端来说仅仅是业务分配上的 设置,具体不再详述。
步骤103,提取用户请求访问的目标页面内容,转步骤104 ;
根据用户请求访问的目标页面地址(即用户请求报文的URL),可以获得相应的用 户请求访问的目标页面。然而很多时候这样的目标页面并不适合直接提供给用户。很多服 务提供商会对自身提供的页面的内容进行渲染,再将渲染后的页面提供给用户。如步骤102 中所述的那样,由于服务端内嵌多个版本的目标页面,因此进一步地,本步骤可以根据用户 终端参数载入不同版本的目标页面。
步骤104,识别并提取目标页面内容中的URL,如果目标页面内容中存在URL转步 骤105进行处理,否则转步骤106进行处理。
对于用户访问的目标页面来说,其内容通常由文本以及多媒体内容组成。对于文 本内容来说,除了普通的文本内容,其可能还包括一些引用的URL。本步骤的目标就是识别 文本内容中的URL。从识别的方法上来说,由于URL与普通的文本内容在字符组成上有较大 的差异,因此可以根据URL的字符组成特点进行识别。本发明提供一段示例性的代码进行 辅助理解。
$r = preg_match(' /( :https ? \://) (["/]+/ ) (.*)/i',$text, $ma);
if (mb_strlen($ma[2]) > $urllen) {
$ma [ 2 ] = ' ... ' .mb_substr($ma[2],_6,mb_ strlen($ma[2]), ' utf-8');
}
return$ma[l], $ma[2];
步骤105,对识别到的URL执行截短渲染。
由于目标页面文本内容中所包括的URL可能过长,导致用户使用手机进行浏览的 体验较差,因此本步骤对目标页面文本内容中较长的URL进行截短。然而为了确保用户能 够对截短后的URL的来源有大致的了解,因此截短需要按照一定的策略执行。本发明在截 短策略包括
1)截取URL中主域名部分作为第一部分;
2)截取URL主域名之后的多个字符作为第二部分;
3)当第二部分与第一部分之间有字符被截去,则插入省略符号作为第三部分将第 一部分与第二部分连接,最终形成截短后的URL。
在截短过程中截取主域名可以确保用户能够知晓该截短后的URL的来源站点,避 免用户被钓鱼网站欺骗。而截取主域名之后的多个字符可以辅助用户对该截短后的URL指 向的页面的内容进行判断。以下提供一些优选的辅助截短策略进行说明。
策略示例1 在前述截短策略的基础上,对第二部分的截取进行优化,截取URL中最后一个从“/”开始之后的字符作为第二部分,这样的策略容易理解,比如一个截短后的 URL示例:zhidao. baidu. com/. · · /123456. html。很明显一个较长的URL可以被截短为较 短的URL,而URL中对用户甄别URL有用的关键信息-域名以及文件名被保留下来了。
策略示例2 在前述截短策略的基础上,在截取第二部分的时候进一步判断主域 名之后-即从主域名之后第一个“/”开始之后的字符长度是否超过第一预定阈值长度,如 果没有,则保留主域名以及其后的所有字符。否则从URL末端开始向前截取一个预定长 度的字符作为第二部分。假设第一预定阈值长度是15,预定长度是6。此时对于http:// zhidao. baidu. com/error, html这样的URL,由于主域名之后的长度不超过15个字符,则截 短的结果是zhidao. baidu. com/error, html,此时只有http协议的标识部分被截去,URL 的中有用的信息基本得以保留。再比如http://zhidao. baidu. com/question/153956116. html ? push = being,根据策略2的方式则会被截短显示为zhidao. baidu. com/...= being。此时主域名以及部分URL参数信息得到了保留形成截短后的URL,同样可以协助用 户了解该URL。
策略示例3 由于步骤101中已经获取了用户终端参数信息,可以根据不同的用户 终端参数执行不同的截短策略。假设将所有手机归纳为两种类型一普通型与智能型。根据 步骤101获得的用户终端参数确定用户手机的类型,根据不同的手机类型执行不同的截短 策略。比如说,对于普通型手机可以调用示例2的策略;对于智能型手机调用示例1的策略。 当然对于智能型的手机也可以示例2的策略,不同的是对于智能型手机,在示例2的策略中 使用第二预定阈值长度,优选的,第二预定阈值长度大于第一预定阈值长度,比如30。以上 仅仅是简单的示例,根据目前市场上常见的手机类型,可以进一步对手机类型进行细分。比 如手机类型可以分为四种wml版(如没有操作系统的低端机)、普通版(如带操作系统的 普通智能手机)、炫彩版(如性能良好的智能手机)、高端版(如iphone和部分Android手 机)
步骤106,继续对目标页面内容进行其他渲染,然后转步骤107。对于一些常规的 渲染处理,可以参考现有技术实施。然而这些渲染处理对于本发明来说并不是必须。在这 里主要介绍一种可以配合URL截短的代码处理-插入转换地址代码。比如说在对URL进行 截短渲染后,结合用户终端参数以及截短后的URL所指向的目标页面判断是否还需要增加 相应的转换地址代码(比如插入域名前缀gate, baidu. com),如果需要则在截短后的URL 插入转换地址代码,否则转步骤107处理。对于部分高端手机而言,并不需要透过插入转换 地址代码,以触发目标页面进行步骤102的代码转换处理,就可以顺利浏览目标页面,然而 对于很多普通手机而言需要在截短后的URL插入转换地址代码,以触发目标页面进行步骤 102的代码转换处理,才能顺利浏览目标页面。如步骤102第I种情况所描述,这样可以使 得用户点击截短后的URL时,相应的请求可以被送到A类服务器做处理。而A类服务器需 要用户点击截短后的URL以及用户的用户终端参数来触发步骤102,这样流程可以返回到 步骤101,进而到步骤102执行。以下提供两个示例进行说明
示例 1
原文本代码
权利要求
1.一种页面内容处理方法,其应用于互联网服务端,为小型终端提供页面内容处理服 务,其特征在于,所述方法包括A、提取用户请求访问的目标页面内容;B、判断所述目标页面内容中是否存在URL;如果存在转步骤C,否则跳过步骤C继续;C、按照预定的策略对所述目标页面内容中的所述URL进行截短处理,所述预定的策略 包括策略Cl、截取所述URL中主域名部分作为第一部分;策略C2、截取所述URL所述主域名之后的多个字符作为第二部分;策略C3、当所述第二部分与所述第一部分之间有字符被截去,则插入省略符号作为第 三部分将所述第一部分与所述第二部分连接以形成截短后的URL ;D、向用户返回处理后的目标页面。
2.根据权利要求1所述的方法,其特征在于,其中所述策略C2具体为截取所述URL从 最后一个“/”开始的所有字符作为所述第二部分。
3.根据权利要求1所述的方法,其特征在于,其中所述策略C2具体为判断所述主域 名之后的字符长度是否超过预定阈值长度;如果没有,则保留所述主域名之后的所有字符作为所述第二部分;否则从所述URL末端开始向前截取一个预定长度的字符作为所述第二部分。
4.根据权利要求3所述的方法,其特征在于,还包括E、提取用户访问请求中的参数,其中所述参数至少包括用户终端参数,根据所述用户 终端参数判断用户终端属于智能型还是普通型;其中所述判断所述主域名之后的字符长度是否超过预定阈值长度具体为判断所述主 域名之后的字符长度是否超过与终端对应的预定阈值长度;其中所述智能型终端对应第二预定阈值长度,所述普通型终端对应第一预定阈值长 度,且所述第二预定阈值长度大于所述第一预定阈值长度。
5.根据权利要求1所述的方法,其特征在于,该方法还包括E、提取用户访问请求中的参数,其中所述参数至少包括用户终端参数;F、对所述目标页面内容进行代码转换。
6.根据权利要求5所述的方法,其特征在于,所述步骤F具体为根据所述用户终端参 数结合所述目标页面内容对所述目标页面内容进行代码转换。
7.根据权利要求1所述的方法,所述步骤D之前还包括E、提取用户访问请求中的参数,其中所述参数至少包括用户终端参数;G、结合所述用户终端参数以及所述截短后的URL所指向的目标页面判断是否还需要 增加相应的转换地址代码,如果需要则插入所述转换地址代码,否则转步骤D。
8.一种页面内容处理装置,其应用于互联网服务端,为小型终端提供页面内容处理服 务,其特征在于,所述装置包括内容提取单元、URL识别单元、页面渲染单元以及用户交互 单元;其中,所述内容提取单元,用于提取用户请求访问的目标页面内容;所述URL识别单元,用于判断所述目标页面内容中是否存在URL ;如果存在则将识别到 的URL提交给所述页面渲染单元进行截短处理,否则跳过所述截短处理继续;所述页面渲染单元,用于按照预定的策略对所述目标页面内容中的所述URL进行截短 处理,所述预定的策略包括策略Cl、截取所述URL中主域名部分作为第一部分; 策略C2、截取所述URL所述主域名之后的多个字符作为第二部分; 策略C3、当所述第二部分与所述第一部分之间有字符被截去,则插入省略符号作为第 三部分将所述第一部分与所述第二部分连接以形成截短后的URL ; 所述用户交互单元,用于向用户返回处理后的目标页面。
9 根据权利要求8所述的装置,其特征在于,其中所述策略C2具体为截取所述URL从 最后一个“/”开始的所有字符作为所述第二部分。
10.根据权利要求8所述的装置,其特征在于,其中所述策略C2具体为判断所述主域 名之后的字符长度是否超过预定阈值长度;如果没有,则保留所述主域名之后的所有字符作为所述第二部分; 否则从所述URL末端开始向前截取一个预定长度的字符作为所述第二部分。
11.根据权利要求10所述的装置,其特征在于,还包括参数提取单元,用于提取用户访问请求中的参数,其中所述参数至少包括用户终端参数;所述页面渲染单元进一步用于根据用户终端参数判断用户终端属于智能型还是普通型;所述判断所述主域名之后的字符长度是否超过预定阈值长度具体为判断所述主域名 之后的字符长度是否超过与终端对应的预定阈值长度;其中所述智能型终端对应第二预定阈值长度,所述普通型终端对应第一预定阈值长 度,且所述第二预定阈值长度大于所述第一预定阈值长度。
12.根据权利要求8所述的装置,其特征在于,还包括 代码转换单元,用于对所述目标页面进行代码转换。
13.根据权利要求12所述的装置,其特征在于,还包括参数提取单元,用于提取用户访问请求中的参数,其中所述参数至少包括用户终端参数;其中所述代码转换单元,用于根据用户终端参数结合所述目标页面内容对所述目标页 面进行代码转换。
14.根据权利要求8所述的装置,还包括参数提取单元,用于提取用户访问请求中的参数,其中所述参数至少包括用户终端参数;其中所述页面渲染单元进一步用于,结合所述用户终端参数以及所述截短后的URL所 指向的目标页面判断是否还需要增加相应的转换地址代码,如果需要则插入所述转换地址 代码,否则转到所述用户交互单元向用户返回处理后的目标页面。
全文摘要
本发明提供一种页面内容处理方法,其应用于互联网服务端,为小型终端提供页面内容处理服务,该方法包括提取用户请求访问的目标页面内容;判断所述目标页面内容中是否存在URL;如果存在则按照预定策略对所述URL进行截短处理,该预定的策略包括截取所述URL中主域名部分作为第一部分;截取所述URL所述主域名之后的多个字符作为第二部分;插入省略符号作为第三部分将所述第一部分与所述第二部分连接以形成截短后的URL。通过实施本发明可以有效地提升手机上网的浏览体验,同时能防止钓鱼网站对用户的欺骗。
文档编号G06F17/30GK102033926SQ201010589768
公开日2011年4月27日 申请日期2010年12月15日 优先权日2010年12月15日
发明者王岩, 霍景 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1