一种实现增量传输的网页模板的生成方法和装置制造方法

文档序号:6520886阅读:218来源:国知局
一种实现增量传输的网页模板的生成方法和装置制造方法
【专利摘要】本发明公开了一种实现增量传输的网页模板的生成方法和装置。该生成方法包括:获取网页的网页数据;对网页数据生成哈希值标签;查找与哈希值标签对应的网页模板;计算查找到的网页模板与网页之间的增量编码数据;根据计算得到的增量编码数据确定是否生成新的网页模板。通过本发明,解决了有技术中在实现增量传输生成网页模板时系统开销比较大的问题,达到了节约系统开销的效果。
【专利说明】一种实现增量传输的网页模板的生成方法和装置
【技术领域】
[0001]本发明涉及浏览器领域,具体而言,涉及一种实现增量传输的网页模板的生成方法和装置。
【背景技术】
[0002]对于C/S架构的手机浏览器,当用户使用浏览器浏览网页时,浏览器通过在本地缓存网页模板,服务端只需要传输网页的增量编码数据,从而达到节约网络数据传输提高浏览速度的效果。
[0003]在实际应用中,并不是所有的网页都利用缓存的网页模板,对于是否利用缓存的网页模板,往往决定于模板与网页之间的增量编码数据的大小,如果模板与网页之间的增量编码数据小,则利用缓存的网页模板,如果模板与网页之间的增量编码数据不够小,则不利用缓存的网页模板,创建新的网页模板。在现有技术中,在确定是否需要生成新的网页模板时,如果按照增量编码数据的大小进行判断,则需要计算每个网页模板对于网页的增量编码数据,如果缓存有大量网页模板,会导致系统开销比较大。
[0004]针对现有技术中在实现增量传输生成网页模板时系统开销比较大的问题,目前尚未提出有效的解决方案。

【发明内容】

[0005]本发明的主要目的在于提供一种实现增量传输的网页模板的生成方法和装置,以解决现有技术中在实现增量传输生成网页模板时系统开销比较大的问题。
[0006]为了实现上述目的,根据本发明的一个方面,提供了一种用于实现增量传输的网页模板的生成方法。该生成方法包括:获取网页的网页数据;对网页数据生成哈希值标签;查找与哈希值标签对应的网页模板;计算查找到的网页模板与网页之间的增量编码数据;根据计算得到的增量编码数据确定是否生成新的网页模板。
[0007]进一步地,对网页数据生成哈希值标签包括:根据网页数据生成哈希值,按照预设规则对哈希值进行排列,根据域名和对排列后的哈希值取前缀得到多个哈希值标签;查找与哈希值标签对应的网页模板包括:根据哈希值标签查找模板表,得到与多个哈希值标签对应的网页模板。
[0008]进一步地,根据计算得到的增量编码数据确定是否生成新的网页模板包括:比较查找到的网页模板数据和网页数据,得到网页增量编码数据;判断网页增量编码数据是否大于设定阈值;如果网页增量编码数据小于等于设定阈值,则基于增量编码数据对应的网页模板传输增量编码数据;如果网页增量编码数据大于设定阈值,则生成新的网页模板。
[0009]进一步地,根据计算得到的增量编码数据确定是否生成新的网页模板包括:比较查找到的网页模板数据和网页数据,得到网页增量编码数据;计算网页增量编码数据与网页数据的比值;判断网页的增量编码数据与网页数据的比值是否小于设定比值阈值;如果网页增量编码数据与网页数据的比值小于设定比值阈值,将网页加入到增量编码数据对应的网页模板覆盖的网页集中;如果网页增量编码数据与网页数据的比值大于等于设定比值阈值,生成新的网页模板。
[0010]进一步地,在查找与哈希值标签对应的网页模板之后,该方法还包括:判断是否存在两个哈希值标签对应相同的网页模板;如果两个哈希值标签对应相同的网页模板,则获取两个哈希值标签对应的网页,并且将两个哈希值标签对应的网页加入到相同的网页模板覆盖的网页集中。
[0011]为了实现上述目的,根据本发明的另一方面,提供了一种用于实现增量传输的网页模板的生成装置。该生成装置包括:获取单元,用于获取网页的网页数据;标签单元,用于对网页数据生成哈希值标签;查找单元,用于查找与哈希值标签对应的网页模板;计算单元,用于计算查找到的网页模板与网页之间的增量编码数据;生成单元,用于根据计算得到的增量编码数据确定是否生成新的网页模板。
[0012]进一步地,标签单元包括:第一生成模块,用于根据网页数据生成哈希值;排列模块,用于按照预设规则对哈希值进行排列;标签模块,用于根据域名和对排列后的哈希值取前缀得到多个哈希值标签,其中,查找单元用于根据哈希值标签查找模板表,得到多个哈希值标签对应的网页模板。
[0013]进一步地,生成单元包括:比较模块,用于比较查找到的网页模板数据和网页数据,得到网页增量编码数据;第一判断模块,用于判断网页增量编码数据是否大于设定阈值;第一传输模块,用于在网页增量编码数据小于等于设定阈值时,基于增量编码数据对应的网页模板传输增量编码数据;第二生成模块,用于在网页增量编码数据大于设定阈值时,生成新的网页模板。
[0014]进一步地,生成单元包括:比较模块,用于比较查找到的网页模板数据和网页数据,得到网页增量编码数据;计算模块,用于计算网页增量编码数据与网页数据的比值;第二判断模块,用于判断网页的增量编码数据与网页编码数据的比值是否小于设定比值阈值;第二传输模块,用于在网页增量编码数据与网页数据的比值小于设定比值阈值时,将网页加入到增量编码数据对应的网页模板覆盖的网页集中;第三生成模块,用于在多个增量编码数据与网页数据的比值大于等于设定比值阈值时,生成新的网页模板。
[0015]进一步地,该装置还包括:判断单元,用于判断是否存在两个哈希值标签对应相同的网页模板;合并单元,用于在两个哈希值标签对应相同的网页模板时,获取两个哈希值标签对应的网页,并且将两个哈希值标签对应的网页加入到相同的网页模板覆盖的网页集中。
[0016]通过本发明,采用网页数据的哈希值生成固定个数的哈希值标签,根据生成的哈希值标签查找网页模板,仅需要对查找到的网页模板进行增量编码数据大小的判断,无需对所有网页模板均进行计算,解决了有技术中在实现增量传输生成网页模板时系统开销比较大的问题,进而达到了节约系统开销的效果。
【专利附图】

【附图说明】
[0017]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0018]图1是根据本发明第一实施例的用于实现增量传输的网页模板生成装置的示意图;
[0019]图2是根据本发明第二实施例的用于实现增量传输的网页模板生成装置的示意图;
[0020]图3是根据本发明第三实施例的用于实现增量传输的网页模板生成装置的示意图;
[0021]图4是根据本发明第四实施例的用于实现增量传输的网页模板生成装置的示意图;
[0022]图5是根据本发明第五实施例的用于实现增量传输的网页模板生成装置的示意图;
[0023]图6是根据本发明实施例的用于实现增量传输的网页模板生成方法的流程图;
[0024]图7是根据本发明实施例的用于实现增量传输的网页模板生成方法中生成哈希值标签的流程图;
[0025]图8是根据本发明实施例的用于实现增量传输的网页模板生成方法中确定是否生成网页模板方法的流程图;
[0026]图9是根据本发明实施例的用于实现增量传输的网页模板生成方法中确定是否生成网页模板的优选方法流程图;以及
[0027]图10是根据本发明第二实施例的用于实现增量传输的网页模板生成方法的流程图。
【具体实施方式】
[0028]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0029]为了使本【技术领域】的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0030]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031]本发明实施例提供了一种用于实现增量传输的网页模板生成装置。该网页模板生成装置用于生成网页模板以实现对网页内容的增量进行传输。
[0032]图1是根据本发明第一实施例的用于实现增量传输的网页模板生成装置的示意图。如图所示,该实现增量传输的网页模板生成装置包括获取单元10、标签单元20、查找单元30、计算单元40和生成单元50。[0033]获取单元10用于获取网页的网页数据。获取单元10可以获取任意一个网页的网页数据,获取的网页数据可以包括获取网页内所有内容的数据,例如网页内新闻数据、网页内的广告数据、网页内的链接数据等。
[0034]获取网页数据可以首先获取网页地址,然后再根据获取到的网页地址从网页数据表中获取相应的网页数据。网页数据表中可以存储网页数据的字段部分和描述部分。例如,存储的字段是“网址”,对应的描述是“网页地址去除协议部分,去除锚部分,按域翻转域名部分”。例如:http://www.sina.com.cn/a/b.php?ac=b#ab,对应的描述部分应该是:cn.com.sina.www/a/b.php?ac=b。
[0035]标签单元20用于对网页数据生成哈希值标签。一个网页数据可以生成一个哈希值,生成的哈希值可以是64位的哈希值,也可以是128位的哈希值,可以根据系统需要确定生成合适位数的哈希值。例如,在64位哈希值就能满足要求的系统中,生成128位的哈希值反而会增加系统的负担,因此在哈希值的生成位数要合适。
[0036]标签单元20能够通过网页数据生成的哈希值生成多个哈希值标签,每个哈希值标签对应一个网页模板,该网页模板覆盖一个或多个网页。
[0037]查找单元30用于查找与哈希值标签对应的网页模板。网页模板可以是一个网页,一个网页可以作为另外一个网页的模板,一个网页模板对应多个哈希值标签,可以通过其中任何一个哈希值标签进行查找。网页模板可以是保存在缓存中的网页模板,查找单元30从缓存中查找与哈希值标签对应的网页模板。
[0038]计算单元40用于计算查找到的网页模板与网页之间的增量编码数据。网页模板与网页之间的增量编码数据可以是网页数据与网页模板数据之间不同的数据部分。如果查找的网页模板有多个,计算多个网页模板与网页之间的增量编码数据。
[0039]生成单元50用于根据计算得到的增量编码数据确定是否生成新的网页模板。如果计算得到的增量编码数据 大于设定的阈值,则生成新的网页模板;如果计算得到的增量编码数据小于等于设定的阈值,则直接调用缓存的网页模板。
[0040]由上述描述可以知道,能够通过哈希值标签查找对应的网页模板,并计算查找得到网页模板与网页之间的增量编码数据,确定直接调用缓存中的网页模板或者生成新的网页模板,从而减少了网页模板与网页进行比较的次数,节约了系统开销。
[0041]图2是根据本发明第二实施例的用于实现增量传输的网页模板生成装置的示意图。图2所示实施例的实现增量传输的网页模板生成装置可以作为图1所示实施例的实现增量传输的网页模板生成装置的优选实施方式。该优选实施方式的用于实现增量传输的网页模板生成装置包括获取单元10、标签单元20、查找单元30、计算单元40和生成单元50,其中,标签单元20包括第一生成模块201、排列模块202和标签模块203。
[0042]图2所示实施例中的获取单元10、查找单元30、计算单元40和生成单元50与图1所示实施例中的获取单元10、查找单元30、计算单元40和生成单元50的功能相同,在此不做赘述。
[0043]第一生成模块201用于根据网页数据生成哈希值。根据网页数据计算哈希值可以是simhash值,其中,simhash是局部敏感哈希算法中的一种。下面以生成一个64位的simhash值为例对生成哈希值的方法进行详细说明。
[0044]首先,将一个64维的整数向量V[i]初始化为O。初始化为O可以是将64维的整数向量v[i]的模设置为O。
[0045]其次,从网页的每个字节位置处切取长度为η个字节的子串,作为网页的特征集。网页的特征集中的特征的个数可以是整个网页的字节的个数。特征集中的每个特征是一个η个字节的字串。η可以取64,也可以是32,也可以是其他数值比如20。
[0046]再次,对特征集中的每个特征,使用一个字符串哈希函数产生一个64位的二进制整数,对该64位的二进制整数的每个位置1:如果值为1,则使V[i]加1,否则使V[i]减I。
[0047]最后,创建一个新的64位的整数,新创建的64位的整数是将64位整数的每个位与上一步得到的向量一一对应,也就是对这个新创建的整数的每个位置i,上步骤中的向量的V[i]不小于O时置为1,否则置为0,由此得到64位的二进制数表示的整数,这个整数作为 simhash 值。
[0048]排列模块202用于按照预设规则对哈希值进行按位随机排列。例如,可以对64位哈希值进行32次随机排列。
[0049]需要说明的是,排列的次数可以根据实际系统需要而进行确定,并不限于本发明实施例提供的次数。本发明实施例提供的排列次数仅仅是为了详细阐述本发明的实施方案,不做穷举和限定。
[0050]标签模块203用于根据域名和排列后的哈希值得到多个哈希值标签。对哈希值进行排列之后,得到排列后的哈希值,取排列后的哈希值前固定长度个位与域名一起作为哈希值标签。例如,对64位的哈希值按位做32次的随机排列之后,得到32个排列后的哈希值。可以取排列后的哈希值的前16位和网页的域名作为哈希值标签,其形式可以为“域名/排列后哈希值的前16位”。那么,对64位的哈希值按位做32次的随机排列之后,得到32个哈希值标签。
[0051]需要指出的是,这里的取排列后的哈希值的前16位也可以是取32或者8位,这里只是为了更清楚的阐述本发明的方案,并不对本发明方案做不当的限定。
[0052]查找单元40用于根据哈希值标签查找模板表,得到与多个哈希值标签对应的网页模板。与多个哈希值标签对应的网页模板可以是一个,也可以是多个。查找单元可以进行N次的查找,查找次数不超过排列的次数。例如,对哈希值进行了 32次的随机排列之后,最多进行32次的查找。
[0053]通过网页模板生成哈希值,并根据哈希值得到哈希值标签,利用哈希值标签查找网页模板可以大大减少查询网页模板的次数,增加了系统处理数据的速度,并且提高了查找网页模板的准确性。
[0054]图3是根据本发明第三实施例的用于实现增量传输的网页模板生成装置的示意图。图3所示实施例的实现增量传输的网页模板生成装置可以作为图1所示实施例的实现增量传输的网页模板生成装置的优选实施方式。该优选实施方式的用于实现增量传输的网页模板生成装置包括获取单元10、标签单元20、查找单元30、计算单元40和生成单元50,其中,生成单兀50包括:比较模块501、第一判断模块503、第一传输模块505和第二生成模块 507。
[0055]图3所示实施例的获取单元10、标签单元20、查找单元30和计算单元40与图1所示实施例的获取单元10、标签单元20、查找单元30和计算单元40功能相同,在此不做赘述。[0056]比较模块501用于比较查找到的网页模板数据和所述网页数据,得到网页增量编码数据。查找到的网页模板可以是一个网页模板,也可以是多个网页模板,在查找到的网页模板为多个模板时,可以比较多个模板中的每个模板与网页数据之间的增量编码数据。可以通过逐个比较的方式得到网页增量编码数据,也可以同时分别比较多个模板中的每个模板与网页数据之间的增量编码数据。
[0057]第一判断模块503用于判断网页增量编码数据是否大于设定阈值。如果增量编码数据较大,也就是网页与网页模板的相似度越低,在增量编码数据大于阈值的时候,查找到的网页模板就不能满足网页的要求,不能作为网页的模板,因此需要对增量编码数据与阈值进行比较。
[0058]第一传输模块505用于在网页增量编码数据小于等于设定阈值时,基于增量编码数据对应的网页模板传输增量编码数据。
[0059]如果增量编码数据小于等于设定阈值,那么网页与查找到的网页模板的相似度较高,查找到的网页模板能够满足网页的要求,则可以将查找到的网页模板存储在该网页模板覆盖的网页集中,也可以基于查找到的网页模板传输增量编码数据。
[0060]第二生成模块507用于在网页增量编码数据大于设定阈值时,生成新的网页模板。如果增量编码数据大于设定阈值,那么网页与查找到的网页模板的相似度无法达到网页的要求,那么生成新的网页模板。生成新的网页模板可以是将获取到的网页作为新的网页模板。
[0061]通过直接比较增量编码数据与设定阈值的大小,确定直接调用缓存的网页模板或者生成新的网页模板,能够更加方便和准确的判断调用或生成网页模板。
[0062]图4是根据本发明第四实施例的用于实现增量传输的网页模板生成装置的示意图。图4所示实施例的实现增量传输的网页模板生成装置可以作为图1所示实施例的实现增量传输的网页模板生成装置的优选实施方式。该优选实施方式的用于实现增量传输的网页模板生成装置包括获取单元10、标签单元20、查找单元30、计算单元40和生成单元50,其中,生成单元50包括:比较模块501、计算模块502、第二判断模块504、第二传输模块506和第三生成模块508。
[0063]图4所示实施例的获取单元10、标签单元20、查找单元30和计算单元40与图1所示实施例的获取单元10、标签单元20、查找单元30和计算单元40功能相同,在此不做赘述。
[0064]比较模块501比较查找到的网页模板数据和所述网页数据,得到网页增量编码数据。查找到的网页模板可以是一个网页模板,也可以是多个网页模板,在查找到的网页模板为多个模板时,可以比较多个模板中的每个模板与网页数据之间的增量编码数据。可以通过逐个比较的方式得到网页增量编码数据,也可以同时分别比较多个模板中的每个模板与网页数据之间的增量编码数据。
[0065]计算模块502用于计算网页增量编码数据与网页数据的比值。可以用增量编码数据比上网页数据,那么增量编码数据与网页数据的比值越小,则网页模板与网页的相似度越高,增量编码数据与网页数据的比值越大,则网页模板与网页的相似度越低。
[0066]第二判断模块504用于判断网页的增量编码数据与网页数据的比值是否小于设定比值阈值。可以通过判断网页增量编码数据与网页数据的比值是否小于设定比值阈值,确定网页与网页模板的相似度是否满足网页的需要。
[0067]第二传输模块506用于在网页增量编码数据与网页数据的比值小于设定比值阈值时,将网页加入到增量编码数据对应的网页模板覆盖的网页集中。如果增量编码数据与网页数据的比值小于设定比值阈值,那么网页与网页模板的相似度能够满足网页的要求,可以将该网页加入到增量编码数据对应的网页模板覆盖的网页集中,再次使用该网页模板时可以直接调用该网页模板,并且基于调用的网页模板对增量编码数据进行传输,无需再次生成。
[0068]第三生成模块508用于在多个增量编码数据与网页数据的比值大于设定比值阈值时,生成新的网页模板。如果增量编码数据与网页数据的比值大于等于设定比值阈值,那么网页与网页模板的相似度无法满足网页的要求,可以生成新的网页模板,也可以用网页直接作为新的网页模板。
[0069]通过增量编码数据与网页数据的比值与设定比值阈值相比较能够更加准确的判断网页与网页模板的相似度,该设定比值阈值可以适用于包含有不同数据量的网页,而不必根据不同网页的数据量设置不同的增量编码数据的阈值,提高了基于网页模板传输网页增量文件方法的适用性,并且更加方便。
[0070]图5是根据本发明第五实施例的用于实现增量传输的网页模板生成装置的示意图。图5所示实施例的实现增量传输的网页模板生成装置可以作为图1所示实施例的实现增量传输的网页模板生成装置的优选实施方式。该优选实施方式的用于实现增量传输的网页模板生成装置包括获取单元10、标签单元20、查找单元30、计算单元40、生成单元50、判断单元60和合并单元70。
[0071]图5所示实施例的获取单元10、标签单元20、查找单元30、计算单元40和生成单元50与图1所示实施例的获取单元10、标签单元20、查找单元30、计算单元40和生成单元50功能相同,在此不做赘述。
[0072]判断单元60用于判断是否存在两个哈希值标签对应相同的网页模板。一个哈希值标签可以对应一个或多个网页,如果两个哈希值标签对应的网页模板相同,则两个哈希值标签对应的网页也对应一个相同的网页模板。
[0073]合并单元70用于在两个哈希值标签对应相同的网页模板时,获取两个哈希值标签对应的网页,并且将两个哈希值标签对应的网页加入到相同的网页模板覆盖的网页集中。一个哈希值标签可以对应多个网页,多个网页可以对应多个网页模板,在网页模板表中多个网页可能存在于不同的网页模板之下。如果两个哈希值标签对应的网页模板相同,则在网页模板表中将两个哈希值标签对应的网页加入到相同的网页模板所覆盖的网页集中。
[0074]通过网页的合并以及网页模板表的更新,能够将可以利用相同网页模板的网页归属在同一网页模板所覆盖的网页集中,再次查询网页模板表的时候能够更方便的查询到需要的网页模板,并且直接调用该网页模板,避免再次生成而带来的系统开销。
[0075]本发明实施例还提供了 一种用于实现增量传输的网页模板生成方法。本发明实施例的用于实现增量传输的网页模板生成方法可以通过本发明实施例所提供的实现增量传输的网页模板生成装置来执行,本发明实施例的实现增量传输的网页模板生成装置也可以用于执行本发明实施例所提供的实现增量传输的网页模板生成方法。
[0076]以下根据附图对用于实现增量传输的网页模板生成方法进行详细阐述。需要说明的是,下述步骤以及在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0077]图6是根据本发明实施例的用于实现增量传输的网页模板生成方法的流程图。以下结合该流程图对本实施例的实现增量传输的网页模板生成方法进行说明。如图所示,该方法包括如下步骤:
[0078]步骤S101,获取网页的网页数据。获取网页的网页数据可以获取任意一个网页的网页数据,获取的网页数据可以包括获取网页内所有内容的数据,例如网页内新闻数据、网页内的广告数据、网页内的链接数据等。
[0079]获取网页数据可以首先获取网页地址,然后再根据获取到的网页地址从网页数据表中获取相应的网页数据。网页数据表中可以存储网页数据的字段部分和描述部分。例如,存储的字段是“网址”,对应的描述是“网页地址去除协议部分,去除锚部分,按域翻转域名部分”。例如:http://www.sina.com.cn/a/b.php?ac=b#ab,对应的描述部分可以是:cn.com.sina.www/a/b.php?ac=b。
[0080]步骤S102,对网页数据生成哈希值标签。一个网页数据可以生成一个哈希值,生成的哈希值可以是64位的哈希值,也可以是128位的哈希值,可以根据系统需要确定生成合适位数的哈希值。例如,在64位哈希值就能满足要求的系统中,生成128位的哈希值反而会增加系统的负担,因此这里生成是根据系统情况生成合适位数的哈希值。
[0081]通过网页数据生成的哈希值生成哈希值标签,每个哈希值标签可以对应一个网页,也可以对应多个网页。
[0082]步骤S103,查找与哈希值标签对应的网页模板。网页模板可以是一个网页,一个网页可以作为另外一个网页的模板,一个哈希值标签对应一个网页模板。网页模板可以是保存在缓存中的网页模板,查找单元30从缓存中查找与哈希值标签对应的网页模板。
[0083]步骤S104,计算查找到的网页模板与网页之间的增量编码数据。网页模板与网页之间的增量编码数据可以是网页数据与网页模板数据之间不同的数据部分。如果查找的网页模板有多个,计算多个网页模板与网页之间的增量编码数据。
[0084]步骤S105,根据计算得到的增量编码数据确定是否生成新的网页模板。如果计算得到的增量编码数据大于设定的阈值,则生成新的网页模板;如果计算得到的增量编码数据小于等于设定的阈值,则直接调用缓存的网页模板。
[0085]由上述描述可以知道,能够通过哈希值标签查找对应的网页模板,并计算查找得到网页模板与网页之间的增量编码数据,确定直接调用缓存中的网页模板或者生成新的网页模板,从而减少了网页模板与网页进行比较的次数,节约了系统开销。
[0086]图7是根据本发明实施例的用于实现增量传输的网页模板生成方法中生成哈希值标签的流程图。该方法包括如下步骤:
[0087]步骤S201,根据网页数据生成哈希值。根据网页数据计算哈希值可以是simhash值。下面以生成一个64为的simhash值为例对生成哈希值的方法进行详细说明。
[0088]首先,将一个64维的整数向量V[i]初始化为O。初始化为0可以是将64维的整数向量v[i]的模设置为O。
[0089]其次,从网页的每个字节位置处切取长度为n个字节的子串,作为网页的特征集。网页的特征集中的特征的个数可以是整个网页的字节的个数。特征集中的每个特征是一个n个字节的字串。n可以取64,也可以是32,也可以是其他数值比如20。
[0090]再次,对特征集中的每个特征,使用一个字符串哈希函数产生一个64位的二进制整数,对该64位的二进制整数的每个位置1:如果值为1,则使V[i]加1,否则使V[i]减I。
[0091]最后,创建一个新的64位的整数,新创建的64位的整数是将64位整数的每个位与上一步得到的向量一一对应,也就是对这个新创建的整数的每个位置i,上步骤中的向量V[i]不小于0时置为1,否则置为0,由此得到64位的二进制数表示的整数,这个整数作为simhash 值。
[0092]步骤S202,按照预设规则对哈希值进行按位随机排列。例如,可以对64位哈希值进行32次随机排列。
[0093]需要说明的是,这里的排列次数可以根据实际系统需要而进行确定,并不限于本发明实施例提供的次数。本发明实施例提供的排列次数仅仅是为了详细阐述本发明的实施方案,不做穷举和限定。
[0094]步骤S203,根据域名和排列后的哈希值得到多个哈希值标签。对哈希值进行排列之后,得到排列后的哈希值,取排列后的哈希值前固定长度个位与域名一起作为哈希值标签。例如,对64位的哈希值按位做32次的随机排列之后,得到32个排列后的哈希值。可以取排列后的哈希值的前16位和网页的域名作为哈希值标签,其形式可以为“域名/排列后哈希值的前16位”。那么,对64位的哈希值按位做32次的随机排列之后,得到32个哈希值标签。
[0095]需要指出的是,这里的取排列后的哈希值的前16位也可以是取32或者8位,这里只是为了更清楚的阐述本发明的方案,并不对本发明方案做不当的限定。
[0096]步骤S204,根据哈希值标签查找模板表,得到与多个哈希值标签对应的网页模板。与多个哈希值标签对应的网页模板可以是一个,也可以是多个。查找单元可以进行N次的查找,查找次数不超过排列的次数。例如,对哈希值进行了 32次的随机排列之后,最多进行32次的查找。
[0097]通过网页模板生成哈希值,并根据哈希值得到哈希值标签,利用哈希值标签查找网页模板可以大大减少查询网页模板的次数,增加了系统处理数据的速度,并且提高了查找网页模板的准确性。
[0098]图8是根据本发明实施例的用于实现增量传输的网页模板生成方法中确定是否生成网页模板方法的流程图。该方法包括如下步骤:
[0099]步骤S301,比较查找到的网页模板数据和网页数据,得到网页增量编码数据。查找到的网页模板可以是一个网页模板,也可以是多个网页模板,在查找到的网页模板为多个网页模板时,要比较多个模板中的每个模板与网页的增量编码数据。
[0100]步骤S302,判断网页增量编码文件是否大于设定阈值。如果增量编码数据较大,也就是网页与网页模板的相似度越低,在增量编码数据大于阈值的时候,查找到的网页模板就不能满足网页的要求,不能作为网页的模板,因此需要对增量编码数据与阈值进行比较。
[0101]步骤S303,如果多网页增量编码数据小于等于设定阈值,则基于增量编码数据对应的网页模板传输增量编码数据。如果增量编码数据小于等于设定阈值,那么网页与查找到的网页模板的相似度较高,查找到的网页模板能够满足网页的要求,则可以基于查找到的网页模板传输增量编码数据。
[0102]步骤S304,如果网页增量编码数据大于设定阈值,则生成新的网页模板。如果增量编码数据大于设定阈值,那么网页与查找到的网页模板的相似度无法达到网页的要求,那么生成新的网页模板。生成新的网页模板可以是将获取到的网页作为新的网页模板。
[0103]通过直接比较增量编码数据与设定阈值的大小,确定直接调用缓存的网页模板或者生成新的网页模板,能够更加方便和准确的判断调用或生成网页模板。
[0104]图9是根据本发明实施例的用于实现增量传输的网页模板生成方法中确定是否生成网页模板的优选方法流程图。该方法包括如下步骤:
[0105]步骤S401,比较查找到的网页模板数据和网页数据,得到网页增量编码数据。查找到的网页模板可以是一个网页模板,也可以是多个网页模板,在查找到的网页模板为多个网页模板时,要比较多个模板中的每个模板与网页的增量编码数据。
[0106]步骤S402,计算网页增量编码数据与网页数据的比值。可以用增量编码数据比上网页数据,那么增量编码数据与网页数据的比值越小,则网页模板与网页的相似度越高,增量编码数据与网页数据的比值越大,则网页模板与网页的相似度越低。
[0107]步骤S403,判断网页的增量编码数据与网页数据的比值是否小于设定比值阈值。可以通过判断网页增量编码数据与网页数据的比值是否小于设定比值阈值,确定网页与网页模板的相似度是否满足网页的需要。
[0108]步骤S404,如果网页增量编码数据与网页数据的比值小于设定比值阈值,则将网页加入到增量编码数据对应的网页模板覆盖的网页集中。如果增量编码数据与网页数据的比值小于设定比值阈值,那么网页与网页模板的相似度能够满足网页的要求,可以将网页加入到增量编码数据对应的网页模板覆盖的网页集中,再次需要该网页模板时可以直接调用该网页模板,并且基于该网页模板对增量编码数据进行传输。
[0109]步骤S405,如果网页增量编码数据与网页数据的比值大于等于设定比值阈值,则生成新的网页模板。如果增量编码数据与网页数据的比值大于等于设定比值阈值,那么网页与网页模板的相似度无法满足网页的要求,可以生成新的网页模板,也可以用网页直接作为新的网页模板。
[0110]通过增量编码数据与网页数据的比值与设定比值阈值相比较能够更加准确的判断网页与网页模板的相似度,该设定比值阈值可以适用于包含有不同数据量的网页,而不必根据不同网页的数据量设置不同的增量编码数据的阈值,提高了基于网页模板传输网页增量文件方法的适用性,并且更加方便。
[0111]图10是根据本发明第二实施例的用于实现增量传输的网页模板生成方法的流程图。该方法包括如下步骤:
[0112]步骤S501,获取网页的网页数据。获取网页的网页数据可以获取任意一个网页的网页数据,获取的网页数据可以包括获取网页内所有内容的数据。
[0113]步骤S502,对网页数据生成哈希值标签。一个网页数据可以生成一个哈希值,生成的哈希值可以是64位的哈希值,也可以是128位的哈希值,可以根据系统需要确定生成合适位数的哈希值。
[0114]步骤S503,查找与哈希值标签对应的网页模板。网页模板可以是一个网页,一个网页可以作为另外一个网页的模板,与哈希值标签对应的网页模板可以是一个网页模板,也可以是多个网页模板。网页模板可以是保存在缓存中的网页模板,在需要网页模板时可以从缓存中查找与哈希值标签对应的网页模板。
[0115]步骤S504,判断是否存在两个哈希值标签对应相同的网页模板。一个哈希值标签可以对应多个网页,如果两个哈希值标签对应的网页模板相同,则两个哈希值标签对应的多个网页也对应一个相同的网页模板。
[0116]步骤S505,如果两个哈希值标签对应相同的网页模板,则获取两个哈希值标签对应的多个网页,并且将两个哈希值标签对应的多个网页加入到相同的网页模板覆盖的网页集中。一个哈希值标签对应多个网页,多个网页可能对应多个网页模板,在网页模板表中归属于不同的网页模板之下。如果两个哈希值标签对应的网页模板相同,则在网页模板表中将两个哈希值标签对应的多个网页归属于相同的网页模板下。
[0117]通过将对应相同网页模板的网页加入到该网页模板覆盖的网页集中以及网页模板表的更新,能够将可以对应相同网页模板的网页归属在同一网页模板所覆盖的网页集中,再次查询网页模板表的时候能够更方便快速的查询到需要的网页模板,并且直接调用该模板。
[0118]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种实现增量传输的网页模板生成方法,其特征在于,包括: 获取网页的网页数据; 对所述网页数据生成哈希值标签; 查找与所述哈希值标签对应的网页模板; 计算查找到的网页模板与所述网页之间的增量编码数据;以及 根据计算得到的增量编码数据确定是否生成新的网页模板。
2.根据权利要求1所述的实现增量传输的网页模板生成方法,其特征在于, 对所述网页数据生成哈希值标签包括:根据所述网页数据生成哈希值,按照预设规则对所述哈希值进行排列,根据域名和对排列后的哈希值取前缀得到多个哈希值标签; 查找与所述哈希值标签对应的网页模板包括:根据所述哈希值标签查找模板表,得到与所述多个哈希值标签对应的网页模板。
3.根据权利要求1所述的实现增量传输的网页模板生成方法,其特征在于,根据计算得到的增量编码数据确定是否生成新的网页模板包括: 比较查找到的网页模板数据和所述网页数据,得到网页增量编码数据; 判断所述网页增量编码数据是否大于设定阈值; 如果所述网页增量编码数据小于等于设定阈值,则基于所述增量编码数据对应的网页模板传输增量编码数据; 如果所述网页增量编码数据大于设定阈值,则生成新的网页模板。
4.根据权利要求1所述的实现增量传输的网页模板生成方法,其特征在于,根据计算得到的增量编码数据确定是否生成新的网页模板包括: 比较查找到的网页模板数据和所述网页数据,得到网页增量编码数据; 计算所述网页增量编码数据与所述网页数据的比值; 判断所述网页的增量编码数据与所述网页数据的比值是否小于设定比值阈值; 如果所述网页增量编码数据与所述网页数据的比值小于设定比值阈值,将所述网页加入到所述增量编码数据对应的网页模板覆盖的网页集中; 如果所述网页增量编码数据与所述网页数据的比值大于等于设定比值阈值,生成新的网页模板。
5.根据权利要求1所述的实现增量传输的网页模板生成方法,其特征在于,在查找与所述哈希值标签对应的网页模板之后,所述方法还包括: 判断是否存在两个所述哈希值标签对应相同的网页模板; 如果两个所述哈希值标签对应相同的网页模板,则获取两个所述哈希值标签对应的网页,并且将两个所述哈希值标签对应的网页加入到所述相同的网页模板覆盖的网页集中。
6.一种实现增量传输的网页模板生成装置,其特征在于,包括: 获取单元,用于获取网页的网页数据; 标签单元,用于对所述网页数据生成哈希值标签; 查找单元,用于查找与所述哈希值标签对应的网页模板; 计算单元,用于计算查找到的网页模板与所述网页之间的增量编码数据;以及 生成单元,用于根据计算得到的增量编码数据确定是否生成新的网页模板。
7.根据权利要求6所述的实现增量传输的网页模板生成装置,其特征在于,所述标签单元包括: 第一生成模块,用于根据所述网页数据生成哈希值; 排列模块,用于按照预设规则对所述哈希值进行排列; 标签模块,用于根据域名和对排列后的哈希值取前缀得到多个哈希值标签, 其中,所述查找单元用于根据所述哈希值标签查找模板表,得到所述多个哈希值标签对应的网页模板。
8.根据权利要求6所述的实现增量传输的网页模板生成装置,其特征在于,所述生成单元包括: 比较模块,用于比较查找到的网页模板数据和所述网页数据,得到网页增量编码数据; 第一判断模块,用于判断所述网页增量编码数据是否大于设定阈值; 第一传输模块,用于在所述网页增量编码数据小于等于设定阈值时,基于所述增量编码数据对应的网页模板传输增量编码数据; 第二生成模块,用于在所述网页增量编码数据大于设定阈值时,生成新的网页模板。
9.根据权利要求6所述的实现增量传输的网页模板生成装置,其特征在于,所述生成单元包括: 比较模块,用于比较查找到·的网页模板数据和所述网页数据,得到网页增量编码数据; 计算模块,用于计算所述网页增量编码数据与所述网页数据的比值; 第二判断模块,用于判断所述网页的增量编码数据与网页编码数据的比值是否小于设定比值阈值; 第二传输模块,用于在所述网页增量编码数据与所述网页数据的比值小于设定比值阈值时,将所述网页加入到所述增量编码数据对应的网页模板覆盖的网页集中; 第三生成模块,用于在所述多个增量编码数据与网页数据的比值大于等于设定比值阈值时,生成新的网页模板。
10.根据权利要求6所述的实现增量传输的网页模板生成装置,其特征在于,所述装置还包括: 判断单元,用于判断是否存在两个所述哈希值标签对应相同的网页模板; 合并单元,用于在两个所述哈希值标签对应相同的网页模板时,获取两个所述哈希值标签对应的网页,并且将两个所述哈希值标签对应的网页加入到所述相同的网页模板覆盖的网页集中。
【文档编号】G06F17/30GK103593467SQ201310612919
【公开日】2014年2月19日 申请日期:2013年11月26日 优先权日:2013年11月26日
【发明者】周向根, 郑海洪, 翟光亚 申请人:优视科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1