一种避免重复下载的方法和装置与流程

文档序号:15399804发布日期:2018-09-11 17:13阅读:212来源:国知局

本申请涉及互联网领域,具体而言,涉及一种避免重复下载的方法和装置。



背景技术:

当前,从网络上下载文件所用的文件下载协议主要包括HTTP、FTP、BT和ED2k等,上述文件下载协议中,除了单文件的BT和ED2k在下载前可以有一个与文件惟一对应的哈希值外,HTTP,FTP,多文件BT都没有形成一个标准,让客户端在下载时并得到文件的惟一哈希值。在离线下载应用中,为了节约资源,离线服务器会在下载之前,通常通过将待下载文件的哈希值与数据库中预存的哈希值比较来判断待下载的文件是否是已下载过的文件,若是则直接从数据库中调取该文件,进而节约下载资源。然而,由于下载之前,待下载文件本身没有与其对应的哈希值,且文件被不同形式分发时,如文件对应不同的下载链接或被打包进不同的BT种子中,则离线服务器很容易对该文件进行重复下载。

针对相关技术中无法有效避免重复下载的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请提供了一种避免重复下载的方法和装置,以解决相关技术中无法有效避免重复下载的问题。

根据本申请的一个方面,提供了一种避免重复下载的方法。该方法包括:下载待下载文件中的预设部分数据;对预设部分数据进行哈希计算获得第一哈希值;将第一哈希值与数据库中的哈希值进行比较,其中,数据库中预存有多个哈希值以及与多个哈希值对应的文件;当数据库中存在与第一哈希值相同的第二哈希值时,获取第二哈希值对应的文件作为下载结果;当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据。

进一步地,预设部分数据为待下载文件中的多个预设位置中的预设大小的数据,对预设部分数据进行哈希计算获得第一哈希值包括:将待下载文件中的多个预设位置中的预设大小的数据以及待下载文件的大小数值进行拼接得到拼接数据;对拼接数据进行哈希计算获得第一哈希值。

进一步地,当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据之后,该方法还包括:将第一哈希值和待下载文件存入数据库中。

进一步地,在下载待下载文件中的预设部分数据之前,该方法还包括:当待下载文件的大小小于预设值时,直接下载整个待下载文件并结束下载。

根据本申请的另一方面,提供了一种避免重复下载的装置。该装置包括:第一下载单元,用于下载待下载文件中的预设部分数据;计算单元,用于对预设部分数据进行哈希计算获得第一哈希值;比较单元,用于将第一哈希值与数据库中的哈希值进行比较,其中,数据库中预存有多个哈希值以及与多个哈希值对应的文件;获取单元,用于当数据库中存在与第一哈希值相同的第二哈希值时,获取第二哈希值对应的文件作为下载结果;第二下载单元,用于当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据。

进一步地,预设部分数据为待下载文件中的多个预设位置中的预设大小的数据,计算单元包括:拼接模块,用于将待下载文件中的多个预设位置中的预设大小的数据以及待下载文件的大小数值进行拼接得到拼接数据;计算模块,用于对拼接数据进行哈希计算获得第一哈希值。

进一步地,该装置还包括:存入单元,用于在数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据之后,将第一哈希值和待下载文件存入数据库中。

进一步地,该装置还包括:第三下载单元,用于在下载待下载文件中的预设部分数据之前,当待下载文件的大小小于预设值时,直接下载整个待下载文件并结束下载。

根据本申请的另一方面,提供了一种存储介质,上述存储介质包括存储的程序,其中,程序执行上述任意一项的避免重复下载的方法。

根据本申请的另一方面,提供了一种处理器,上述处理器用于运行程序,其中,程序运行时执行上述任意一项的避免重复下载的方法。

本申请通过以下方法:下载待下载文件中的预设部分数据;对预设部分数据进行哈希计算获得第一哈希值;将第一哈希值与数据库中的哈希值进行比较,其中,数据库中预存有多个哈希值以及与多个哈希值对应的文件;当数据库中存在与第一哈希值相同的第二哈希值时,获取第二哈希值对应的文件作为下载结果;当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据,解决了相关技术中无法有效避免重复下载的问题,进而达到了有效避免重复下载的效果。由于通过下载待下载文件的部分数据来计算对应的哈希值,使得哈希值计算的速度快,使对文件是否为己下载文件的判断效率更高。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例提供的避免重复下载的方法的流程图;以及

图2是根据本申请实施例提供的避免重复下载的装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请的实施例,提供了一种避免重复下载的方法。

图1是根据本申请实施例的避免重复下载的方法的流程图。如图1所示,该方法包括以下步骤:

步骤S101,下载待下载文件中的预设部分数据。

需要说明的是,当待下载文件为大文件时,对该大文件的重复下载将造成下载资源和时间的浪费,为了避免重复下载,离线服务器需要通过将待下载文件的哈希值与数据库中预存的哈希值进行比较来确定该待下载文件是否为已下载的文件。而除了单文件的BT和ED2k在下载前可以有一个与文件惟一对应的哈希值外,待下载文件都要等到整个待下载文件整个下载完成之后才能计算,而这也就失去了避免重复下载的意义。因此,上述实施方式中,先对待下载文件中的预设部分的数据进行下载,进而根据该预设部分数据来计算与该大文件对应的哈希值。

上述实施方式由于在计算待下载文件的哈希值时只提前下载了预设部分数据,进而在节约了下载资源和时间的情况下,实现了对待下载文件的哈希值的计算。

可选的,在下载待下载文件中的预设部分数据之前,该方法还包括:当待下载文件的大小小于预设值时,直接下载整个待下载文件并结束下载。

需要说明的是,当待下载文件较小时,下载该文件所占用的时间较小,而判断该文件是否为已下载文件同样会占用一定时间,所以对小文件是否为已下载文件的判断意义不大。因此,上述实施方式中,当待下载文件的大小小于预设值时,直接下载整个文件并结束下载,避免了离线下载服务器进行不必要的操作。

例如,上述预设值为64M,则当待下载文件的大小小于64M时,则直接下载该待下载文件,并在下载完成后结束整个下载。

步骤S102,对预设部分数据进行哈希计算获得第一哈希值。

可选的,预设部分数据为待下载文件中的多个预设位置中的预设大小的数据,对预设部分数据进行哈希计算获得第一哈希值包括:将待下载文件中的多个预设位置中的预设大小的数据以及待下载文件的大小数值进行拼接得到拼接数据;对拼接数据进行哈希计算获得第一哈希值。

例如,上述多个预设位置可以为整个待下载文件中的起始位置、结尾以及13%、37%和62%这五个位置,上述预设大小的数据为上述五个位置中,任意一个位置为起点的40k大小的数据。进而,得到了5个在开始下载后最先下载的40k数据。当上述待下载文件的大小为500M,则上述待下载文件的大小数值为500。

通过上述实施方式,使得对第一哈希值的计算更为合理,减小了不同文件计算出相同哈希值的可能。例如,只下载文件的开头一段数据来计算上述第一哈希值,则当有两个文件的开头数据相同,但之后的数据不同时,会导致该两个文件计算出的第一哈希值相同,进而被系统误认为是相同文件。

需要说明的是,将待下载文件中的多个预设位置中的预设大小的数据以及待下载文件的大小数值进行拼接为,将上述数据按照其在待下载文件中的位置前后顺序进行收尾拼接,其中待下载文件的大小数值拼接在末尾。

需要说明的是,将待下载文件的大小数值也拼接到上述拼接数据中,是为了减小不同文件哈希值冲突的概率。

可选的,预设部分数据为待下载文件中从起始位置开始的预设大小的数据。例如,上述预设部分数据为起始位置开始的5M的数据,在下载开始时,首先下载待下载文件开头的5M数据,并计算该5M数据的哈希值。

步骤S103,将第一哈希值与数据库中的哈希值进行比较,其中,数据库中预存有多个哈希值以及与多个哈希值对应的文件。

需要说明的是,上述数据库中预存的哈希值为在当前待下载文件之前下载的文件对应的哈希值,且之前下载的文件对应的哈希值的计算方法与上述第一哈希值的计算方法相同。

例如,将文件中的多个预设位置中的预设大小的数据以及文件的大小数值进行拼接得到拼接数据;对拼接数据进行哈希计算获得哈希值,且在一个离线下载系统中,上述多个预设位置和预设大小的数据一直保持一致。

步骤S104,当数据库中存在与第一哈希值相同的第二哈希值时,获取第二哈希值对应的文件作为下载结果。

需要说明的是,当数据库中存在与第一哈希值相同的第二哈希值时,标明上述待下载文件已被离线下载服务器下载过,且被存储于数据库中,因此直接调用该第二哈希值对应的文件,而不需要在对上述待下载文件进行下载,节省了下载资源和时间。

步骤S105,当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据。

需要说明的是,当数据库中不存在与第一哈希值相同的哈希值时,说明离线下载服务器未下载过该待下载文件。由于在下载开始时,下载了上述待下载文件的预设部分数据,当判断离线下载服务器未下载过该待下载文件时,对该待下载文件中除上述预设部分数据以外的剩余数据进行下载。

可选的,当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据之后,该方法还包括:将第一哈希值和待下载文件存入数据库中。

本申请实施例提供的避免重复下载的方法,通过下载待下载文件中的预设部分数据;对预设部分数据进行哈希计算获得第一哈希值;将第一哈希值与数据库中的哈希值进行比较,其中,数据库中预存有多个哈希值以及与多个哈希值对应的文件;当数据库中存在与第一哈希值相同的第二哈希值时,获取第二哈希值对应的文件作为下载结果;当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据,解决了相关技术中无法有效避免重复下载的问题,进而达到了有效避免重复下载的效果。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种避免重复下载的装置,需要说明的是,本申请实施例的避免重复下载的装置可以用于执行本申请实施例所提供的用于避免重复下载的方法。以下对本申请实施例提供的避免重复下载的装置进行介绍。

图2是根据本申请实施例的避免重复下载的装置的示意图。如图2所示,该装置包括:第一下载单元10、计算单元20、比较单元30、获取单元40、第二下载单元50。

具体地,第一下载单元,用于下载待下载文件中的预设部分数据;计算单元,用于对预设部分数据进行哈希计算获得第一哈希值;比较单元,用于将第一哈希值与数据库中的哈希值进行比较,其中,数据库中预存有多个哈希值以及与多个哈希值对应的文件;获取单元,用于当数据库中存在与第一哈希值相同的第二哈希值时,获取第二哈希值对应的文件作为下载结果;第二下载单元,用于当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据。

可选的,预设部分数据为待下载文件中的多个预设位置中的预设大小的数据,计算单元包括:拼接模块,用于将待下载文件中的多个预设位置中的预设大小的数据以及待下载文件的大小数值进行拼接得到拼接数据;计算模块,用于对拼接数据进行哈希计算获得第一哈希值。

可选的,该装置还包括:存入单元,用于在数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据之后,将第一哈希值和待下载文件存入数据库中。

可选的,该装置还包括:第三下载单元,用于在下载待下载文件中的预设部分数据之前,当待下载文件的大小小于预设值时,直接下载整个待下载文件并结束下载。

本申请实施例提供的避免重复下载的装置,通过第一下载单元下载待下载文件中的预设部分数据;计算单元对预设部分数据进行哈希计算获得第一哈希值;比较单元将第一哈希值与数据库中的哈希值进行比较,其中,数据库中预存有多个哈希值以及与多个哈希值对应的文件;获取单元当数据库中存在与第一哈希值相同的第二哈希值时,获取第二哈希值对应的文件作为下载结果;第二下载单元当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据,解决了相关技术中无法有效避免重复下载的问题,进而达到了有效避免重复下载的效果。

避免重复下载的装置包括处理器和存储器,上述第一下载单元10、计算单元20、比较单元30、获取单元40、第二下载单元50等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来使有效避免重复下载。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现避免重复下载的方法。

本发明实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行避免重复下载的方法。

本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:下载待下载文件中的预设部分数据;对预设部分数据进行哈希计算获得第一哈希值;将第一哈希值与数据库中的哈希值进行比较,其中,数据库中预存有多个哈希值以及与多个哈希值对应的文件;当数据库中存在与第一哈希值相同的第二哈希值时,获取第二哈希值对应的文件作为下载结果;当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据。

预设部分数据为待下载文件中的多个预设位置中的预设大小的数据,对预设部分数据进行哈希计算获得第一哈希值包括:将待下载文件中的多个预设位置中的预设大小的数据以及待下载文件的大小数值进行拼接得到拼接数据;对拼接数据进行哈希计算获得第一哈希值。

当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据之后,该方法还包括:将第一哈希值和待下载文件存入数据库中。

在下载待下载文件中的预设部分数据之前,该方法还包括:当待下载文件的大小小于预设值时,直接下载整个待下载文件并结束下载。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:下载待下载文件中的预设部分数据;对预设部分数据进行哈希计算获得第一哈希值;将第一哈希值与数据库中的哈希值进行比较,其中,数据库中预存有多个哈希值以及与多个哈希值对应的文件;当数据库中存在与第一哈希值相同的第二哈希值时,获取第二哈希值对应的文件作为下载结果;当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据。

预设部分数据为待下载文件中的多个预设位置中的预设大小的数据,对预设部分数据进行哈希计算获得第一哈希值包括:将待下载文件中的多个预设位置中的预设大小的数据以及待下载文件的大小数值进行拼接得到拼接数据;对拼接数据进行哈希计算获得第一哈希值。

当数据库中不存在与第一哈希值相同的哈希值时,继续下载待下载文件的剩余部分数据之后,该方法还包括:将第一哈希值和待下载文件存入数据库中。

在下载待下载文件中的预设部分数据之前,该方法还包括:当待下载文件的大小小于预设值时,直接下载整个待下载文件并结束下载。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1