一种网页信息处理方法、装置和系统的制作方法
【技术领域】
[0001]本申请涉及信息处理技术领域,尤其涉及一种网页信息处理方法、装置和系统。
【背景技术】
[0002]目前,在用户通过浏览器访问互联网网站的页面时,浏览器作为网页浏览工具,完成页面的渲染和展示工作。
[0003]通常情况下,浏览器直接从原网站(即网页服务器)获取网页信息,并且,在渲染和展示网页时,尽可能遵从原网站的设计,不修改网页内的布局结构,即不修改网页的DOM结构,从而保留网页原有的排版效果。
[0004]在跨终端访问的情况下,为了实现不同的终端屏幕大小与同一网页的尺寸适配,浏览器会根据终端屏幕与页面尺寸之间的匹配信息,对获取的网页信息的DOM结构进行调整,从而使得调整后的排版效果能够与终端的屏幕大小相匹配。
[0005]可见,目前在对网页信息进行处理时,要么直接按照网页服务器提供的原始网页信息进行渲染和展示,要么根据终端屏幕大小与网页尺寸的适配情况对原始网页信息的DOM结构进行调整,使得调整后的排版效果能够与终端的屏幕大小相匹配,但是,网页服务器所提供的原始网页信息的DOM结构中各个页面元素之间的排版信息可能并不能真实地反映出各个网页元素的重要性,因此,用户需要耗费较多的时间从网页服务器所提供的原始网页信息中定位到有价值的信息,导致用户获取有用信息的效率较低。
【发明内容】
[0006]本发明提供了一种网页信息处理方法、装置和系统,能够提高用户获取有用信息的效率。
[0007]一种网页信息处理方法,该方法包括:
[0008]解析网页访问请求,根据解析结果获取当前请求访问的当前网页的统一资源定位符(URL)信息与前一次请求访问的前一网页统一资源定位符(ReferURL)信息的对应关系;
[0009]基于所述对应关系,根据待处理网页的URL信息和该待处理网页中各个网页元素的URL信息,确定该待处理网页内各个网页元素的访问信息;
[0010]根据待处理网页内各个网页元素的访问信息确定网页元素的重要性权重;根据所述重要性权重调整待处理网页内网页元素的排版信息。
[0011]一种网页信息处理装置,该装置包括对应关系获取模块、访问信息确定模块、重要性权重确定模块和排版信息调整模块;
[0012]所述对应关系获取模块,用于解析网页访问请求,根据解析结果获取当前请求访问的当前网页的统一资源定位符(URL)信息与前一次请求访问的前一网页统一资源定位符(ReferURL)信息的对应关系;
[0013]所述访问信息确定模块,用于基于所述对应关系,根据待处理网页的URL信息和该待处理网页中各个网页元素的URL信息,确定该待处理网页内各个网页元素的访问信息;
[0014]所述重要性权重确定模块,用于根据待处理网页内各个网页元素的访问信息确定网页元素的重要性权重;
[0015]所述排版信息调整模块,用于根据所述重要性权重调整待处理网页内网页元素的排版信息。
[0016]一种网页信息处理系统,该系统包括浏览器、代理服务器和网站服务器;
[0017]所述浏览器,用于将网页访问请求发给代理服务器,接收代理服务器返回的网页调整信息,根据所述网页调整信息输出调整后的网页内容;
[0018]所述代理服务器,用于接收所述浏览器发来的网页访问请求,根据所述网页访问请求从所述网站服务器获取原始网页信息,解析所述浏览器发来的网页访问请求,根据解析结果获取当前请求访问的当前网页的统一资源定位符(URL)信息与前一次请求访问的前一网页统一资源定位符(ReferURL)信息的对应关系,基于所述对应关系,根据待处理网页的URL信息和该待处理网页中各个网页元素的URL信息,确定该待处理网页内各个网页元素的访问信息,根据待处理网页内各个网页元素的访问信息确定网页元素的重要性权重,根据所述重要性权重向所述浏览器返回网页调整信息;
[0019]所述网站服务器,用于接收所述代理服务器发送的网页访问请求,根据所述网页访问请求返回原始网页信息。
[0020]由上述技术方案可见,本发明实施例中,通过解析网页访问请求,获取当前请求访问的当前网页的统一资源定位符(URL)信息与前一次请求访问的前一网页统一资源定位符(ReferURL)信息的对应关系,该对应关系能够反映出用户先后访问的各个网页之间的关联关系,即用户在访问了一网页以后接着会访问哪一网页,通常,用户在访问一网页以后,很可能会访问该网页中的图片、URL链接等以URL信息存在于网页DOM结构中的网页元素,而本发明实施例通过解析网页访问请求获取的所述对应关系恰恰能够反映出网页内各个网页元素的访问信息,因此,本发明实施例中,基于所述对应关系,根据待处理网页的URL信息和该待处理网页中各个网页元素的URL信息,能够确定出该待处理网页内各个网页元素的访问信息。待处理网页内各个网页元素的访问情况能够反映出网页元素的重要性、或者说网页元素所包含的信息的价值,一般地,比较重要的网页元素或者比较有价值的信息会更多地被访问,因此,本发明实施例根据待处理网页内各个网页元素的访问信息确定网页元素的重要性权重,根据所述重要性权重调整待处理网页内网页元素的排版信息,从而使得更有价值的信息、或者说更加重要的信息能够以比较显著的方式排版在网页中,例如,排在网页中比较显著的位置或者以特殊的格式显示在网页中。
[0021]可见,本发明实施例通过挖掘用户访问各个网页的先后顺序关系,根据该先后顺序关系确定出待处理网页中各个网页元素的访问信息,进而确定各个网页元素的重要性,依据所述重要性对网页元素进行重排版,能够将更有价值或者说更重要的信息以比较显著的方式排版在网页中,从而能够减少从网页中定位到有价值的信息所需要的时间,提高用户获取有用信息的效率。
【附图说明】
[0022]图1是本发明实施例提供的网页信息处理方法流程图。
[0023]图2是本发明实施例提供的网页信息处理装置结构示意图。
[0024]图3是本发明实施例提供的网页信息处理系统的组成示意图。
【具体实施方式】
[0025]图1是本发明实施例提供的网页信息处理方法流程图。
[0026]如图1所示,该流程包括:
[0027]步骤101,解析网页访问请求,根据解析结果获取当前请求访问的当前网页的统一资源定位符(URL)信息与前一次请求访问的前一网页统一资源定位符(ReferURL)信息的对应关系。
[0028]本步骤中,通过对接收的网页访问请求进行分析,可以获取用户当前访问的网页URL信息和用户前一次访问的网页RUL信息,即当前URL信息和ReferURL信息,从而能够挖掘出用户访问各个网页的先后顺序关系信息,其中,在网