一种网页页面的预读取方法、装置及智能终端设备与流程

文档序号:18923063发布日期:2019-10-19 03:45阅读:270来源:国知局
一种网页页面的预读取方法、装置及智能终端设备与流程

本发明涉及网页浏览技术领域,具体而言,涉及一种网页页面的预读取方法、装置及智能终端设备。



背景技术:

随着互联网的普及、计算机作为家庭以及工作的必备产品之一,人们使用计算机上的浏览器访问互联网日趋频繁;尤其随着例如智能手机和平板电脑的智能终端产品的迅速普及,用户使用终端浏览器访问互联网成为日常行为。在用户使用浏览器打开网页的过程中,如果当前的网络环境受限,或者终端设备的运行速度受限,就会影响网页的打开速度,造成用户等待,用户上网的体验感很差。影响网页打开速度的主要原因是下载网页内容的时间过长。

目前,一般采用对可能需要的网页进行预读取的方法来满足用户快速打开网页的需要。该方法主要是在用户浏览当前网页页面的过程中,服务器端获取用户下一步可能需要的网页,在用户未浏览这些网页之前先将这些网页的网址及其资源加载到本地缓存中;当用户访问其中某个网页时直接从本地缓存中读取相关数据来展示给用户阅览,避免了等待下载网页的过程,缩短用户进行网页访问操作后的网页响应时间。

现有的网页预读取方法常见以下两种:

第一、在用户浏览连续内容的某一个网页时预读取该网页上包含的链接到相邻网页的一个或多个关键字,例如“下一页”、“next page”等,然后依次取链接的网页内容并放入本地缓存中。

第二、从服务器端获取网页列表,然后依次读取该网页列表中各网页内容并放入本地缓存中。

由上可知,现有的第一种网页预读取方法只能适用于特定网页,即只对一个较长的内容被拆分成用超链接链起来的多个网页有效,而对于大量不存在页码顺序的其它网页,如新闻网页等,这种方法将无法预读取到用户后续可能访问的网页,因此并不能加快浏览器网页页面的显示。现有的第二种网页预读取方法则需要预读取大量的数据并载入本地缓存,严重占用缓存空间,甚至造成缓存空间不足的情况发生。

另外,人们也提出一些新的预读取方法来试图改善用户体验。

例如,提出了基于网页上的热点链接来“猜测”用户可能访问的网页的思路,然后对这些网页进行有针对性的预读取,以提高预读取的有效性。例如,2012年9月12日公开的申请号为201210074771.6的中国专利文献,名称为“一种网页预加载方法及系统”,该方法为:确定源网页内包含的热点链接,对热点链接对应的目标网页进行预加载;但是,该专利文献中公开的确定热点链接的方式还是本领域技术人员容易想到的方法,例如根据源网页A中某链接被点击的总次数来确定是否为热点链接;以用户对各个链接的点击顺序。这种方法确定热点链接的准确率偏低。例如,该申请号为201210074771.6的专利文献的第0099段中就自述了“在实际应用中,可能存在虽然用户点击了某链接,但是用户可能并不喜欢或者不是特别喜欢这个链接的情况,在这种情况下,如果单纯地通过点击次数来区分一个链接是否为热点链接,可能会使得结果不够准确”。同样,以用户对各个链接的点击顺序来确定热点链接的准确率也是偏低的。例如,还存在用户对源网页上包含的多个热点链接都感兴趣的情况,其不一定每天都是按照一定顺序点击,当某个热点链接出现热点信息时,用户也许先点击该热点链接。例如足球世界杯期间,用户会先点击世界杯比赛新闻;在世界杯期间,某款非常著名品牌召开新品发布会,用户会先点击关于该新品的热点链接。因此,即便将这两种方式组合,用该组合方式确定热点链接的准确率也将偏低。

另外,申请号为201210074771.6的专利文献并没有考虑热点链接还存在热度随着时间衰减的问题。例如,美国篮球NBA总比赛结束后的一段时间,用户关注NBA栏目的热度会显著降低。还例如,热点新闻或热点头条每天都在出现,今天的热点新闻或热点头条到明天也许热度就降低了,一星期之后也许就没人关注了。

再例如,还提出了一种基于用户的浏览习惯来“猜测”用户可能访问的网页的思路,然后对这些网页进行有针对性的预读取,以提高预读取的有效性。例如,2012年10月17日公开的申请号为201110086435.9的中国专利文献,名称为“一种网页预读取的方法、装置及一种浏览器”,该方法为:读取用户的浏览习惯信息;在用户浏览当前网页的过程中,根据所述用户的浏览习惯信息分析出将要预读取的网页链接,从服务器端预读取所述网页链接对应的网页数据并保存到本地缓存。但是,其公开的预读取方法为:将用户常常点击网页上的那部分内容的位置区域的一条或多条网页链接预读取出来,或者记录在用户点击某网页A上的关键词,当下次再打开该网页A是,将匹配关键词的前几条或大部分网页链接进行预读取。这种网页预读取方法的缺点是显而易见的,其预读取一条网页链接或者匹配关键词的前几条网页链接,则给用户预读取出网页数据的命中率很低,如果预读取多条网页链接或者匹配关键词的大部分网页链接,则需要预读取大量的数据并载入本地缓存,严重占用缓存空间,甚至造成缓存空间不足的情况发生。

因此,目前需要一种新的网页页面的预读取方法。



技术实现要素:

本发明的目的在于提供一种网页页面的预读取方法、装置及智能终端设备,以改善上述的问题。

在本发明的实施例中提供了一种网页页面的预读取方法,其特征在于,包括:

获取一个或多个用户在第一时间段内对第一多个网页页面的访问信息;

确定从第一多个网页页面中的第一网页页面点击进入第二网页页面的点击路径及其点击次数;

基于上述步骤得到的数据信息确定点击路径的第一置信度;

基于所述第一置信度将多条点击路径制成网页页面的第一预读取列表;

从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。

优选的,在获取一个或多个用户在第一时间段内对第一多个网页页面的访问信息的过程中对每个网页页面的数据进行数据清洗的预处理的步骤。

优选的,在确定从第一多个网页页面中的第一网页页面点击进入第二网页页面的点击路径及其点击次数的步骤中,先以每个网页页面被访问的时间顺序方式将获取的对第一多个网页页面的访问信息制成第一网页页面访问序列表,按一定时间间隔将所述第一网页页面访问序列表中的多个网页页面分成多个页面块,确定每个页面块中从第一网页页面点击进入第二网页页面的点击路径及其点击次数,其中用在每个页面块内的点击路径上的第一和第二网页页面之间的第一衰减系数乘以该点击路径在该页面块内发生的点击次数得到经衰减处理的点击次数,将所有页面块内的相同点击路径的经衰减处理的点击次数线性相加,得到该点击路径的最终点击次数。

优选的,计算第一衰减系数的方法为:exp(-A*(D-1)),其中A是常数,D是排序距离。

优选的,在确定点击路径的第一置信度的过程中或之前筛选掉点击路径的点击次数低于第一点击阈值的点击路径。

优选的,确定点击路径的第一置信度的方法为:

NPMI(a,b)=logx(p(a,b)/(p(a)*p(b))/-logx(p(a,b));

式中:NPMI(a,b)表示从第一网页页面a点击进入第二网页页面b的点击路径a->b的第一置信度,x为底数变量,p(a,b)表示点击路径a->b的最终点击次数/页面块的总数量,p(a)表示第一页面a所在页面块的数量/页面块的总数量,和p(b)表示第二页面b所在页面块的数量/页面块的总数量。

优选的,在制成网页页面的第一预读取列表之前,先筛选掉第一置信度低于第一置信度阈值的点击路径。

优选的,基于所述第一置信度将多条点击路径制成网页页面的第一预读取列表的步骤中,以第一置信度值大小进行有序排列的方式将多条点击路径制成网页页面的第一预读取列表。

优选的,在从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据的步骤中,当在第一预读取列表中查询到从当前浏览的网页能够点击进入多个目标网页的多条点击路径时,选择最大第一置信度的点击路径来预读取相应待浏览的目标网页数据,或者按第一置信度的降序方式预读取多个相应待浏览的目标网页数据。

优选的,当第一预读取列表中不存在从当前浏览的网页点击进入目标网页的点击路径时,不触发预读取操作。

优选的,在从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据的步骤之前,制作第二预读取列表并从第二预读取列表中查询当前浏览的网页页面的点击路径,当第二预读取列表中存在该点击路径时预读取相应待浏览的目标网页数据;当第二预读取列表中不存在该点击路径时执行从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据的步骤,该制作第二预读取列表的方法包括:

获取每个用户在涵盖了第一时间段的第二时间段内对第二多个网页页面的访问信息;

确定从第二多个网页页面中的每个页面点击进入另一个页面的点击路径及其点击次数,和分析确定每条点击路径的路径点击率以及从每个页面点击进入多个不同页面的多条点击路径的路径点击率的熵;

根据所述点击路径的点击次数和所述路径点击率的熵确定每条点击路径的第二置信度;

基于所述第二置信度将多条点击路径制成网页页面的第二预读取列表。

优选的,在获取每个用户在涵盖了第一时间段的第二时间段内对第二多个网页页面的访问信息的过程中对每个网页页面的数据进行数据清洗的步骤。

优选的,第二时间段的时长大于或等于第一时间段的时长且该第一时间段在该第二时间段之内。

优选的,当第二时间段为大于等于1天时,在确定从每个页面点击进入另一个页面的点击路径及其点击次数的步骤中,用点击路径在每1天内的点击次数乘以该点击路径在当天的相应第二衰减系数来确定经衰减处理的点击次数,将第二时间段内包含的多天内的相同点击路径的经衰减处理的点击次数线性相加,得到在第二时间段内出现该点击路径的最终点击次数。

优选的,计算第二衰减系数的方法为:exp(-A*(Day-1)),其中A是常数,Day是第二时间段内包含的天数。

优选的,在确定每条点击路径的第二置信度的过程中筛选掉点击路径的点击次数低于第二点击阈值的点击路径。

优选的,在确定每条点击路径的第二置信度的步骤中,用该点击路径的点击次数乘以该点击路径的路径点击率的熵来确定该点击路径的第二置信度。

优选的,在制成网页页面的第二预读取列表之前,先筛选掉第二置信度低于第二置信度阈值的点击路径。

优选的,基于所述第二置信度将多条点击路径制成网页页面的第二预读取列表的步骤中,以第二置信度值大小进行有序排列的方式将多条点击路径制成网页页面的第二预读取列表。

优选的,当在第二预读取列表中查询到从当前浏览的网页能够点击进入多个目标网页的多条点击路径时,选择最大第二置信度的点击路径来预读取相应待浏览的目标网页数据,或者按第二置信度的降序方式预读取多个相应待浏览的目标网页数据。

本发明实施例还提供了一种网页页面的预读取方法,其特征在于,包括:

获取每个用户在一个时间段内对多个网页页面的访问信息;

确定从多个网页页面中的每个页面点击进入另一个页面的点击路径及其点击次数,和分析确定每条点击路径的路径点击率以及从每个页面点击进入多个不同页面的多条点击路径的路径点击率的熵;

根据所述点击路径的点击次数和所述路径点击率的熵确定每条点击路径的置信度;

基于所述置信度将多条点击路径制成网页页面的预读取列表;

从预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。

本发明实施例还提供了一种网页页面预读取装置,其特征在于,包括:

第一获取模块、第一处理模块、第一确定模块、第一生成模块和第一预读取模块,其中:

所述第一获取模块用于获取一个或多个用户在第一时间段内对多个网页页面的访问信息;

所述第一处理模块用于确定从多个网页页面中的第一网页页面点击进入第二网页页面的点击路径及其点击次数;

所述第一确定模块用于基于得到的数据信息确定点击路径的第一置信度;

所述第一生成模块用于基于所述第一置信度将多条点击路径制成网页页面的预读取列表;

所述第一预读取模块用于从预读取列表中查询当前浏览的网页页面的点击路径从而预读取相应待浏览的目标网页数据。

优选的,还包括:第一预处理模块,用于对网页数据进行数据清洗。

优选的,还包括:第一筛选模块,用于筛选掉点击路径的点击次数低于第一点击阈值的点击路径。

优选的,还包括:第二筛选模块,用于筛选掉第一置信度低于第一置信度阈值的点击路径。

本发明实施例还提供了一种网页页面预读取装置,其特征在于,包括:

第二获取模块、第二分析处理模块、第二确定模块、第二生成模块和第二预读取模块,其中:

所述第二获取模块用于获取每个用户在一个时间段内对多个网页页面的访问信息;

所述第二分析处理模块用于确定从多个网页页面中的每个页面点击进入另一个页面的点击路径及其点击次数,和分析确定每条点击路径的路径点击率以及从每个页面点击进入多个不同页面的多条点击路径的路径点击率的熵;

所述第二确定模块用于根据所述点击路径的点击次数和所述路径点击率的熵确定每条点击路径的第二置信度;

所述第二生成模块用于基于所述第二置信度将多条点击路径制成网页页面的预读取列表;

所述第二预读取模块用于从预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。

优选的,还包括:第二预处理模块,用于对网页数据进行数据清洗。

优选的,还包括:第三筛选模块,用于筛选掉点击路径的点击次数低于第二点击阈值的点击路径。

优选的,还包括:第四筛选模块,用于筛选掉第二置信度低于第二置信度阈值的点击路径。

本发明实施例还提供了一种智能终端设备,其包括如上所述的网页页面预读取装置。

本发明实施例提供的网页页面的预读取方法、装置及智能终端设备,其有益效果是:利用统计点击路径的点击次数来得到点击路径的置信度,根据基于置信度制成的预读取列表提前给用户预读取出网页数据的命中概率大大提高,进而保证了预读取的高准确性和高有效性,在预读取高概率的网页数据并保存到本地缓存后,提高了用户打开网页页面的速度,提升了用户体验。

附图说明

图1是本发明的网页页面的预读取方法的流程图;

图2是本发明的网页页面的预读取方法中生成第二预读取列表的流程图;

图3是本发明的另一网页页面的预读取方法的流程图;

图4是本发明的网页页面预读取装置的结构示意图;

图5是本发明的网页页面预读取装置的一个优选实施例的结构示意图;

图6是本发明的另一网页页面预读取装置的结构示意图;

图7是本发明的另一网页页面预读取装置的一个优选实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面将结合本发明的附图和具体实施例,对本发明的技术方案进行清楚、完整地描述。

图1是本发明的网页页面的预读取方法的流程图。

如图1所示,本发明的实施例提供了一种网页页面的预读取方法,包括:

步骤S101:获取一个或多个用户在第一时间段内对第一多个网页页面的访问信息。

获取一个或多个用户在第一时间段内对第一多个网页页面的访问信息的方式可以采用读取用户的终端设备的网络访问的客户端上网记录日志的方式,也可以采用读取服务器保存的访问网页页面的上网记录日志的方式来获取。而且如果日志中没有记录每个页面的访问量,在这里还可以在获取了所有网页的信息后,统计每个网页的访问量以及时间分布情况等等。用户可以是1个,也可以是多个。一般来说,获取多个不特定用户在一个第一时间段内对多个网页页面的访问信息的方式优选采用读取服务器保存的访问网页页面的上网记录日志的方式。该日志记录的信息内容是本领域的技术人员都知道的,这里不再举例说明。同样的,记录和获取用户上网和浏览网页的方法可以采用任何公知的方法,例如2013年12月11日公开的申请号为201310364722.0的中国专利文献,名称为“一种用户操作日志信息的记录及读取方法”,又如2015年4月15日公开的申请号为201510038747.0的的中国专利文献,名称为“一种移动用户上网记录的生成方法及系统”。这里可以获取1个或多个用户在一个第一时间段内访问的所有网页页面的信息。这里所述的第一时间段可以根据实际应用情况来设定。例如,当要获取多个用户的访问情况时,该第一时间段可以设定为多个小时,例如12个小时、24个小时、30个小时、36个小时等等;当要获取1个用户的访问情况时,该第一时间段可以设定为多个小时,也可以设定为多日,例如5日、7日、10日、15日等等。

在另一个实施例中,还包括在获取一个或多个用户在第一时间段内对第一多个网页页面的访问信息的过程中对每个网页页面的数据进行预处理的步骤。所述预处理的步骤包括:数据清洗。通常,无论是客户端保存的上网记录日志还是服务器保存的上网记录日志都会记录大量的信息,其中包括非网络请求数据、不规范数据以及非主文档请求数据、不一致的无关的数据。例如,日志数据中可以包括用户IP地址、用户ID、请求访问的URL、请求方法、访问时间、传输协议、传输的字节数、错误代码、用户代理等属性。用户的一次网页浏览请求可能会让浏览器自动下载多个文件,如一些图片等,下载的所有文件构成一个网页页面视图,构成一次请求对应多个日志项的情况。

因此有必要先对日志记录的数据进行数据清洗的预处理,将无关的数据从日志记录的数据中清除掉。例如,清洗掉URL扩展名:一般信息网站中,只是网页页面正文与用户的请求有关,而网页页面上的图片类的网页页面请求(后缀名为gif,jpg等)和脚本类文件(后缀名为js,cgi,css的文件)可以被认为是与用户请求无关的,应将其删除。通常情况下,用户不会指定请求某个网页上的全部图片和脚本文件,日志中的图片和脚本文件大多是进行网页框架配置的脚本内容的网页中携带的图片信息,该图片和脚本文件在用户浏览网页页面文字内容时作为附属文件自动下载的,这些图片和脚本文件不能真实反映出用户的请求行为,在数据清洗过程中将会被删除。

通过数据清洗的技术手段,将与用户请求无关的数据清除掉,获得适合于后续的统计、分析操作的可靠的精确数据,有利于得到准确的统计和分析结果,更利于减少数据的运算量。

步骤S102:确定从第一多个网页页面中的第一网页页面点击进入第二网页页面的点击路径及其点击次数。

通常,通过例如PC浏览器或智能终端浏览器等各种浏览器在打开某网页之后,会在浏览器界面中展现出构成该网页的各种元素,例如,可能包括文字、图片、音频、视频等等内容,还可能包括链接这种常见的网页元素。访问者单击网页内的链接就可以自动跳转到链接的目标处,其通常是另一个网页。用户通过浏览器浏览的各种网页页面的各种信息都会记录在所有终端设备的网络访问的客户端上网记录日志中,例如访问的时间(包括访问开始时间和访问结束时间)、URL地址、传送的内容类型等。为了便于区分,可以将链接对应的一个网页称为下一个网页或目标网页,将网页内容中包含有该链接的网页称为当前网页或源网页,点击路径就是从当前网页(源网页)页面点击进入另一个网页(目标网页)页面的路径,通常来说,该路径的尾部是当前网页(源网页)页面,该路径的头部是用户点击出的另一个网页(目标网页)页面。因此在多个网页页面里确定从第一网页页面点击进入第二网页页面的点击路径,就是确定用户从源网页点击进入(访问)目标网页的点击路径。

当用户在第一时间段内的不同时间间隔多次从第一网页页面点击进入(访问)第二网页页面时,记录从第一网页页面点击进入(访问)第二网页页面的点击路径的点击次数。

例如,用户在12小时内的不同时间点从例如UC浏览器首页上的资讯中心网页页面(第一网页页面)点击进入体育栏网页页面(第二网页页面)的点击次数为3次,点击进入娱乐栏网页页面的点击次数为6次、点击进入财经栏网页页面的点击次数为4次,则从资讯中心网页页面到体育栏网页页面形成一条点击路径,该点击路径的点击次数为3;从资讯中心网页页面到娱乐栏网页页面形成一条点击路径,该点击路径的点击次数为6;从资讯中心网页页面到财经栏网页页面形成一条点击路径,该点击路径的点击次数为4。

在实践中,考虑到从一个网页页面(源网页)可以产生多条点击路径,即点击进入多个网页页面(目标网页),该被点击出的多个网页页面(目标网页)在访问时间上是有先后顺序的,该用户点击网页的先后顺序在一定程度上反映了用户最希望浏览网页的顺序,即反映出用户对链接网页的感兴趣程度,即先浏览最感兴趣的内容,然后再浏览一般感兴趣的内容。因此,为了进一步提高提前给用户预读取出网页数据的命中概率,在确定点击路径的点击次数时,需要将访问顺序因素考虑进去。

为此,本发明提供了另一个实施例。在该实施例中,以每个网页页面被访问的时间顺序方式将获取的对第一多个网页页面的访问信息制成第一网页页面访问序列表,例如第一网页页面在第一网页页面访问序列表中排在第1位,从该第一网页页面分别点击进入3个目标网页,则按先后点击顺序将该3个目标网页分别排在第2-4位。在第一网页页面访问序列表中相邻两个网页页面的排序距离为1,每间隔1个网页元素,排序距离加1。由此,依据访问顺序,用户的感兴趣程度在衰减,第一衰减系数的计算方法为:exp(-A*(D-1)),其中A是常数,D是排序距离。根据多次试验的经验值,A可以是log2 3。

考虑衰减因素,将一个点击路径出现的点击次数乘以该点击路径的第一衰减系数作为该点击路径的最终点击次数。由该第一衰减系数的计算公式可知,当排序距离为1时,第一衰减系数=1,此时可以认为不对点击路径的点击次数做衰减处理。

在实践中,还要考虑到设置第一时间段的时长会比较长,例如1天、3天、5天、7天等,此时用户在第1天从页面A上点击链接浏览了页面B,在第2天重复地从页面A上点击链接浏览了页面B,在第3天也是如此。如果在制成第一网页页面访问序列表中,将这3天发生3次从页面A->页面B的路径信息分别记录在第一网页页面访问序列表,则容易造成计算上的复杂性。一般的做法,可以将这3次发生的从页面A->页面B的路径信息在第一网页页面访问序列表中记录一次,但同时记录发生的次数和时间,但这样的方法在精确统计用户访问网页发生的点击路径的点击次数并且考虑衰减因素时,同样容易造成计算上的复杂性。

为此,本发明提供了另一个优选实施例。在该优选实施例中,以每个网页页面被访问的时间顺序方式将获取的对第一多个网页页面的访问信息制成第一网页页面访问序列表,按一定时间间隔将所述第一网页页面访问序列表中的多个网页页面分成多个页面块,确定每个页面块中从第一网页页面点击进入第二网页页面的点击路径及其点击次数,其中用在每个页面块内的点击路径上的第一和第二网页页面之间的第一衰减系数乘以该点击路径在该页面块内发生的点击次数得到经衰减处理的点击次数,将所有页面块内的相同点击路径的经衰减处理的点击次数线性相加,得到该点击路径的最终点击次数。

例如,取第一时间段为6个小时,将用户的访问网页页面信息按照例如每1小时的时间间隔划分成6个页面块1-6。出于描述的简单性,假设页面块1包含了[s1,s2,s3,s4,s5]有5个页面元素,这些页面元素按用户访问时间有序排列,假设点击路径为s1->s2,s1->s3,s1->s5,s2->s4,s4->s5,且相同点击路径的点击次数都是1,根据点击路径上的源网页和目标网页这两个网页页面在该页面块1内的排序距离来考虑是否对该点击路径的点击次数做衰减,其中点击路径上的源网页和目标网页这两个网页页面的排序距离为1,则表示该点击路径是用户最先访问网页发生的点击路径,也可以认为该点击路径的目标网页是用户最感兴趣的内容,且第一衰减系数为1,故不对该点击路径的点击次数做衰减;而当点击路径上的源网页和目标网页这两个网页页面的排序距离大于1时,由于在第一网页页面访问序列表中点击路径是按访问时间的先后顺序排序,这反映出用户对浏览网页的感兴趣程度,故对点击路径上的源网页和目标网页这两个网页页面的排序距离大于1的点击路径的点击次数做衰减处理。在页面块中相邻两个网页页面的排序距离为1,每间隔1个网页元素,排序距离加1。例如,s1和s2的排序距离是1,不发生衰减,而s1和s3的排序距离是2,s1和s5的排序距离是4,s2和s4的排序距离是2,则要考虑衰减因素。

第一衰减系数的计算方法为:exp(-A*(D-1)),其中A是常数,D是排序距离。根据多次试验的经验值,A可以是log2 3。

考虑衰减因素,一个点击路径在一个页面块内的点击次数为该点击路径在该页面块内发生的点击次数乘以该点击路径在该页面块内的第一衰减系数。以上述方法,计算该点击路径在所有页面块内的经衰减处理的点击次数,然后将这些经衰减处理的点击次数线性相加,可以得出该点击路径在上述确定的第一时间段(例如6个小时)内出现的最终点击次数。

步骤S103:基于上述步骤得到的数据信息确定点击路径的第一置信度。

在这里,确定第一置信度的方法可以采用公知的计算置信度的方法来实现,这里不再对一般情况下计算第一置信度的方法做过多描述。

在上述的利用第一网页页面访问序列表且将其分成N个页面块的优选方案中,本发明确定点击路径的第一置信度所采用的方法为:

NPMI(a,b)=logx(p(a,b)/(p(a)*p(b))/-logx(p(a,b)) (1)

该公式为函数表达式,式中:NPMI(a,b)表示从第一网页页面a点击进入第二网页页面b的点击路径a->b的第一置信度,x为底数变量,p(a,b)表示点击路径a->b的最终点击次数/页面块的总数量,p(a)表示第一页面a所在页面块的数量/页面块的总数量,和p(b)表示第二页面b所在页面块的数量/页面块的总数量。

例如,将第一网页页面访问序列表分成10个页面块,其中有4个页面块里都存在点击路径a->b且点击路径a->b在第一网页页面访问序列表中的最终点击次数是4,则p(a,b)=4/10=0.4,第一页面a在9个页面块里存在,则p(a)=9/10=0.9,第二页面b在7个页面块里存在,则p(b)=7/10=0.7。

通过计算点击路径的第一置信度,其用于表明用户从第一网页页面a点击进入第二网页页面b的可能性的大小,这很好地描述了两个页面之间的关联度。

另外,上述计算第一置信度的公式(1)中,对数log的底数变量x取何值对本发明不是最重要的,因为无论底数变量x取何值,得出不同点击路径的第一置信度所绘制的曲线趋势都是一样的。

在另一个实施例中,在确定点击路径的第一置信度的过程中或之前筛选掉点击路径的点击次数低于第一点击阈值的点击路径,即不计算该点击路径的第一置信度。

所述第一点击阈值可以根据实际应用情况而定。例如当设定收集用户访问网页的一个时间段为不同值时,例如12个小时、24个小时、30个小时,或者5日、7日、10日等,所述第一点击阈值可以相应地设置为不同的值。当收集访问网页的用户数不同时,所述第一点击阈值也可以相应地设置为不同的值。

步骤S104:基于所述第一置信度将多条点击路径制成网页页面的第一预读取列表。

将多条点击路径制成网页页面的第一预读取列表,该第一预读取列表中的多条点击路径可以是有序排列的。经过步骤S103之后,每条点击路径都有了一个第一置信度,可以以第一置信度的大小进行排序的方式将多条点击路径制成网页页面的第一预读取列表,即第一预读取列表中的多条点击路径可以以第一置信度的大小进行有序排列。

在另一个优选实施例中,如果统计出的点击路径数目非常多,可以先筛选掉第一置信度低的点击路径,以减少数据的运算量,还可以避免将用户不会浏览的网页数据预读取并载入本地缓存,从而节省缓存空间资源的占用。可以根据经验值来预设第一置信度阈值,筛选掉第一置信度低于第一置信度阈值的点击路径。为了减少数据的运算量,可以在制成所述第一预读取列表之前,先筛选掉第一置信度低于第一置信度阈值的点击路径。

步骤S105:从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。

当用户浏览当前网页或第一网页页面时,从第一预读取列表中查询以当前浏览的网页或第一网页页面作为源网页的点击路径。当第一预读取列表中存在从当前浏览的网页或第一网页能够点击进入多个目标网页的多条点击路径时,可以选择最大第一置信度的点击路径来预读取相应待浏览的目标网页数据并载入本地缓存;当然为了保证预读取目标网页的准确率,还可以按第一置信度的降序方式预读取多个相应待浏览的目标网页数据并载入本地缓存,例如预读取2个、3个、4个或更多目标网页。

另外,当第一预读取列表中不存在从当前浏览的网页点击出目标网页的点击路径时,即不存在预读取的网页页面,不触发预读取操作,当用户点击下一个网页页面时从网络服务器获取对应的网页信息。

如果用户不请求新的网页而直接停止浏览网页,如关闭浏览器,则释放预读取的网页数据,避免没有使用的预读取的网页数据占用大量的本地缓存资源。

本发明实施例提供的网页页面的预读取方法,其有益效果是:利用统计点击路径的点击次数来得到点击路径的置信度,根据基于置信度制成的预读取列表提前给用户预读取出网页数据的命中概率大大提高,进而保证了预读取的高准确性和高有效性,在预读取高概率的网页数据并保存到本地缓存后,提高了用户打开网页页面的速度,提升了用户体验。

为了进一步提高提前给用户预读取出网页数据的命中概率、保证预读取的高准确性和高有效性,发明人还考虑了每个用户在一个时间段内浏览网页时生成某条点击路径的频繁性的因素,为此本发明还提供了另一个优选实施例,如图2所示,图2是本发明的网页页面的预读取方法中生成第二预读取列表的流程图。

在该优选实施例中,在从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据的步骤之前,制作第二预读取列表并从第二预读取列表中查询当前浏览的网页页面的点击路径,当第二预读取列表中存在该点击路径时预读取相应待浏览的目标网页数据;当第二预读取列表中不存在该点击路径时执行从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据的步骤,该制作第二预读取列表的方法包括:

步骤S201:获取每个用户在涵盖了第一时间段的第二时间段内对第二多个网页页面的访问信息;

步骤S202:确定从第二多个网页页面中的每个页面点击进入另一个页面的点击路径及其点击次数,和分析确定每条点击路径的路径点击率以及从每个页面点击出多个不同页面的多条点击路径的路径点击率的熵;

步骤S203:根据所述点击路径的点击次数和所述路径点击率的熵确定每条点击路径的第二置信度;

步骤S204:基于所述第二置信度将多条点击路径制成网页页面的第二预读取列表。

其中,所述第二预读取列表的优先级高于第一预读取列表。

其中,涵盖了第一时间段的第二时间段的意思是:该第二时间段的时长大于或等于第一时间段的时长且该第一时间段在该第二时间段之内。

其中,获取用户访问网页页面的信息的方法以及确定从第二多个网页页面中的每个页面点击进入另一个页面的点击路径及其点击次数的方法与上面已经详细描述的相同,包括数据清洗的预处理等,这里不再赘述。

其中,点击路径的路径点击率就是在该第二时间段内从一个网页页面点击进入另一个网页页面的点击次数与从该一个网页页面点击进入了所有不同网页页面的点击次数之比。

其中,从每个页面点击进入多个页面的多条点击路径的路径点击率的熵表示路径点击率的分布情况。

下面通过举例来进行说明。假设第二时间段为7日,统计一个用户在该7日内从第一网页页面a点击进入第二网页页面b的点击路径a->b的点击次数。假设该用户在7日内从第一网页页面a点击进入了三个不同的网页页面,分别为第二网页页面b、第三网页页面c和第四网页页面d,则产生3条点击路径a->b、a->c和a->d,再假设这3条点击路径的点击次数分别相应为n、m和k,则点击路径a->b的路径点击率为n/(n+m+k),点击路径a->c的路径点击率为m/(n+m+k),点击路径a->d的路径点击率为k/(n+m+k)。

可以采用公知的熵的计算方法来计算从每个页面点击出多个不同页面的多条点击路径的路径点击率的熵。

其中,确定每条点击路径的第二置信度的方法为用该点击路径的点击次数乘以该点击路径的路径点击率的熵。

在另一个优选实施例中,正如上面讲述的,当第二时间段是多日时,优选考虑衰减因素。可以按照上面讲述的方式来进行统计点击路径的点击次数。例如分别统计一个用户在第二时间段内的每1天内访问的点击路径的点击次数,第二衰减系数的计算方法为:exp(-A*(Day-1)),其中A是常数,Day是第二时间段内包含的天数。根据多次试验的经验值,A可以是log2 3。与上面讲述的原理类似,当天之前的几日内统计的点击路径的点击次数都要考虑衰减因素。设统计当天的点击路径的点击次数时Day=1,即当天为1天,则第二衰减系数=1,此时可以认为不对点击路径的点击次数做衰减处理。而统计当天的前一天的点击路径的点击次数时Day=2,以此类推,Day=3……Day=7,第二衰减系数不为1,统计点击路径的点击次数是要考虑衰减因素。具体方法为:一个点击路径在1天内的点击次数为该点击路径在该天内发生的点击次数乘以该点击路径在该天的相应第二衰减系数。以该方法分别计算该点击路径在第二时间段内包含的多天的相应点击次数,然后将这些点击次数线性相加,可以得出该点击路径在第二时间段(例如7日)内发生的最终点击次数。

在确定点击路径的第二置信度的步骤中,将上述得到的点击路径的点击次数乘以该点击路径的路径点击率的熵,所得到的乘积值为该点击路径的第二置信度。

在另一个实施例中,在确定点击路径的第二置信度的过程中筛选掉点击路径的点击次数低于第二点击阈值的点击路径,即不计算该点击路径的第二置信度。

所述第二点击阈值可以根据实际应用情况而定。例如当设定收集用户访问网页的一个时间段为不同值时,例如30个小时,或者5日、7日、10日等,所述第二点击阈值可以相应地设置为不同的值。

基于所述第二置信度将多条点击路径制成网页页面的第二预读取列表的过程,与上面讲述的制成网页页面的第一预读取列表的过程相类似。将多条点击路径制成网页页面的第二预读取列表,该第二预读取列表中的多条点击路径可以是有序排列的。经过步骤S203之后,每条点击路径都有了一个第二置信度,可以以第二置信度的大小进行排序的方式将多条点击路径制成网页页面的第二预读取列表,即第二预读取列表中的多条点击路径可以以第二置信度的大小进行有序排列。

在另一个优选实施例中,如果统计出的点击路径数目非常多,可以先筛选掉第二置信度低的点击路径,以减少数据的运算量,还可以避免将用户不会浏览的网页数据预读取并载入本地缓存,从而节省缓存空间资源的占用。可以根据经验值来预设第二置信度阈值,筛选掉第二置信度低于第二置信度阈值的点击路径。为了减少数据的运算量,可以在制成所述第二预读取列表之前,先筛选掉第二置信度低于第二置信度阈值的点击路径。

因此设定所述第二预读取列表的优先级高于第一预读取列表,所以当用户浏览当前网页或第一网页页面时,优先从第二预读取列表中查询以当前浏览的网页或第一网页页面作为源网页的点击路径。当第二预读取列表中存在从当前浏览的网页或第一网页能够点击进入多个目标网页的多条点击路径时,可以选择最大第二置信度的点击路径来预读取相应待浏览的目标网页数据并载入本地缓存,当然为了保证预读取目标网页的准确率,可以按第二置信度的降序方式预读取多个相应待浏览的目标网页数据并载入本地缓存,例如预读取2个、3个、4个或更多目标网页。

本发明的该实施例的有益效果是:先判断用户自己的兴趣爱好,能够提高提前给用户预读取出网页数据的命中概率,进而保证了预读取的高准确性和高有效性。

另外,当第二预读取列表中不存在从当前浏览的网页点击出目标网页的点击路径时,即不存在预读取的网页页面,接着查询第一预读取列表,当第一预读取列表中存在当前浏览的网页点击出目标网页的点击路径时按上面描述的从第一预读取列表选择点击路径的方法来预读取目标网页;当第一预读取列表中也不存在从当前浏览的网页点击出目标网页的点击路径时,不触发预读取操作,当用户点击下一个网页页面时从网络服务器获取对应的网页信息。

本发明实施例提供的网页页面的预读取方法,其有益效果是:考虑了每个用户在一个时间段内浏览网页时生成某条点击路径的频繁性的因素,即先判断用户自己的兴趣爱好,从中选择预读取的目标网页;当没有发现预读取的目标网页时,再从1个或多个用户平时访问的高概率的点击路径来预读取目标网页,从两个方面来预测用户从当前浏览的网页页面准备访问的下一个网页页面(目标网页),这显然使得提前给用户预读取出网页数据的命中概率大大提高,进而保证了预读取的高准确性和高有效性,在预读取高概率的网页数据并保存到本地缓存后,提高了用户打开网页页面的速度,提升了用户体验。

综上所述,本发明提供了多个实施例,通过将各种优选实施例进行任意组合,可以保证预读取的高准确性和高有效性,提升用户体验。

另外,本发明尽管以优选实施例的方式介绍了第二种网页页面的预读取方法,但是本领域的技术人员都知道,该第二种网页页面的预读取方法也可以单独成为独立的预读取技术方案而存在。

图3是本发明的另一网页页面的预读取方法的流程图。下面结合图3简述该独立的预读取技术方案,即一种网页页面的预读取方法,其包括:

步骤S301:获取每个用户在一个时间段内对多个网页页面的访问信息;

步骤S302:确定从多个网页页面中的每个页面点击进入另一个页面的点击路径及其点击次数,和分析确定每条点击路径的路径点击率以及从每个页面点击进入多个不同页面的多条点击路径的路径点击率的熵;

步骤S303:根据所述点击路径的点击次数和所述路径点击率的熵确定每条点击路径的置信度;

步骤S304:基于所述置信度将多条点击路径制成网页页面的预读取列表;

步骤S304:从预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。

每一步骤的实现方式、优先实现方法以及各种优先实施例的组合与上述结合图1和/或2描述的网页页面的预读取方法的过程相同或类似,例如先做数据清洗的预处理、对点击路径的点击次数做时间上的衰减处理、点击次数的确定方法、点击路径的置信度的确定方法、以及各种筛选处理等等,这里不再赘述。根据用户浏览的当前网页从该预读取列表中预读取相应待浏览的目标网页数据并保存到本地缓存,与上面描述的预读取过程相同或类似,这里不再赘述。

图4是本发明的网页页面预读取装置的结构示意图。如图4所示,本发明的网页页面预读取装置包括:第一获取模块401、第一处理模块402、第一确定模块403、第一生成模块404和第一预读取模块405,其中:

所述第一获取模块401用于获取一个或多个用户在第一时间段内对多个网页页面的访问信息;

所述第一处理模块402用于确定从多个网页页面中的第一网页页面点击进入第二网页页面的点击路径及其点击次数;

所述第一确定模块403用于基于得到的数据信息确定点击路径的第一置信度;

所述第一生成模块404用于基于所述第一置信度将多条点击路径制成网页页面的预读取列表;

所述第一预读取模块405用于从预读取列表中查询当前浏览的网页页面的点击路径从而预读取相应待浏览的目标网页数据。

所述网页页面预读取装置实施例中各个模块的具体功能和交互方式可参见图1对应实施例的记载,在此不再赘述。

进一步的,所述第一获取模块包括第一预处理模块,用于对网页数据进行数据清洗。

图5是本发明的网页页面预读取装置的一个优选实施例的结构示意图。

进一步的,所述网页页面预读取装置还包括第一筛选模块406,用于筛选掉点击路径的点击次数低于第一点击阈值的点击路径。

进一步的,所述网页页面预读取装置还包括第二筛选模块407,用于筛选掉第一置信度低于第一置信度阈值的点击路径。

本发明实施例提供的网页页面预读取装置,其有益效果是:利用统计点击路径的点击次数来得到点击路径的置信度,根据基于置信度制成的预读取列表提前给用户预读取出网页数据的命中概率大大提高,进而保证了预读取的高准确性和高有效性,在预读取高概率的网页数据并保存到本地缓存后,提高了用户打开网页页面的速度,提升了用户体验。

图6是本发明的另一网页页面预读取装置的结构示意图。如图6所示,本发明的网页页面预读取装置包括:第二获取模块601、第二分析处理模块602、第二确定模块603、第二生成模块604和第二预读取模块605,其中:

第二获取模块601用于获取每个用户在一个时间段内对多个网页页面的访问信息;

第二分析处理模块602用于确定从多个网页页面中的每个页面点击出另一个页面的点击路径及其点击次数,和分析确定每条点击路径的路径点击率以及从每个页面点击进入多个不同页面的多条点击路径的路径点击率的熵;

第二确定模块603用于根据所述点击路径的点击次数和所述路径点击率的熵确定每条点击路径的第二置信度;

第二生成模块604用于基于所述第二置信度将多条点击路径制成网页页面的预读取列表;

第二预读取模块605用于从预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。

进一步的,所述网页页面预读取装置还包括第二预处理模块,用于对网页数据进行数据清洗。

图7是本发明的另一网页页面预读取装置的一个优选实施例的结构示意图。

进一步的,所述网页页面预读取装置还包括第三筛选模块606,用于筛选掉点击路径的点击次数低于第二点击阈值的点击路径。

进一步的,所述网页页面预读取装置还包括第四筛选模块607,用于筛选掉第二置信度低于第二置信度阈值的点击路径。

所述网页页面预读取装置实施例中各个模块的具体功能和交互方式可参见图2或3对应实施例的记载,在此不再赘述。

本发明实施例提供的网页页面预读取装置,其有益效果是:判断用户自己的兴趣爱好,能够提高提前给用户预读取出网页数据的命中概率,进而保证了预读取的高准确性和高有效性,在预读取高概率的网页数据并保存到本地缓存后,提高了用户打开网页页面的速度,提升了用户体验。

本发明实施例所提供的网页页面的预读取方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1