一种获取文件信息的方法、系统和装置的制作方法

文档序号:7662223阅读:107来源:国知局
专利名称:一种获取文件信息的方法、系统和装置的制作方法
技术领域
本发明涉及网络下载技术,特别涉及一种获取文件信息的方法、系统和装置。
背景技术
随着互联网技术的不断发展,网络带宽也在不断增加。网速的提高使得越 来越多的用户开始通过网络下载自己需要的文件。
但是用户通过互联网下载文件时,只能够根据下载页面的描述信息获知下 载文件的内容,但此类描述信息可能并不十分准确,所以用户不能够预先知道
欲下载文件的准确信息。比如用户下载一部电影,在下载网页上介绍该电影 的信息有可能与实际下载的电影的信息不同,像下载的电影比较模糊看不清 楚,电影没有字幕,但是在下载网页上却介绍该电影为清晰版,并且有中文字 幕,或者甚至所下载的文件根本不是网页所介绍的文件。
这些问题往往要在用户下载完文件后才能发现,用户遇到上述情况通常会 删除文件,再次寻找其他下载地址进行下载,这对用户时间和下载带宽造成了 浪费。
综上所述,用户在下载前无从获知欲下载文件的准确内容,如果在下载完 文件后,发现所下载文件不符合自己的要求,将对用户时间和下载带宽造成浪费。

发明内容
本发明实施例提供一种获取文件信息的方法、系统和装置,用以解决现有 技术中存在的用户无法在下载文件之前获取名大下载文件的准确信息,从而无法 保证用户下载文件的质量的问题。
本发明实施例提供的一种获取文件信息的方法包括 客户端获取未完成下载的二进制文件的文件标识;
服务器根据建立的文件标识与文件信息的对应关系,确定所述客户端获取 的所述文件标识对应的文件信息;
所述客户端将所述服务器确定的所述文件信息向用户显示。
本发明实施例提供的 一种获取文件信息的系统包括
客户端,用于获取未完成下载的二进制文件的文件标识,将服务器确定的 文件信息向用户显示;
服务器,用于根据建立的文件标识与文件信息的对应关系,确定获取的所 述文件标识对应的文件信息。
本发明实施例提供的一种一种客户端包括
获取^t块,用于获取未完成下载的二进制文件的文件标识;
显示模块,用于将服务器确定的文件信息向用户显示。
本发明实施例提供的一种服务器包括
建立^f莫块,用于建立的文件标识与文件信息的对应关系;
确定模块,用于根据所述建立模块建立的所述对应关系,确定客户端获取 的文件标识对应的文件信息。
本发明实施例客户端获取未完成下载的二进制文件的文件标识;服务器根 据建立的文件标识与文件信息的对应关系,确定所述客户端获取的所述文件标 识对应的文件信息;所述客户端将所述服务器确定的所述文件信息向用户显 示,在用户下载文件之前就能够知道该文件的质量,降低了下载后因为文件质 量不高,重新下载其他文件的情况,从而节省了用户时间以及下载带宽。


图1为本发明实施例获取文件信息的系统结构示意图; 图2A为本发明实施例客户端的结构示意图; 图2B为本发明实施例服务器的结构示意图; 图3为本发明实施例获取文件信息的方法流程示意图。
具体实施例方式
在本实施例中,根据建立的文件标识与文件信息的对应关系,确定用户下 载的二进制文件的文件标识对应的文件信息,从而能够保证让用户在下载文件 前判断下载文件的内容是否符合自己的需求。
其中,所述文件标识用于标识文件,其可为文件名,文件存放的URL(统 一资源定位符)或内容签名(ContentIdentity, CID)等。其中,内容签名CID 是根据预设的算法对二进制文件的内容数据进行计算后获得的。预设的算法可 以是对不同的二进制文件的内容数据进行处理得到不同的处理结果的任一算 法,其处理结果(即内容签名)可唯一标识二进制文件,或者,也可以是处理 结果重复率极低,在可接受范围内的算法。
所述文件信息包括^旦不限于下列信息中的 一种或几种 文件标题、内容描述、下载次数、发布日期、预览图片、视频片段等等。 下面结合说明书附图对本发明实施例作进一步详细描述。 如图1所示,本发明实施例获取文件信息的系统包括客户端IO和服务 器11。
客户端IO,与服务器ll连接,用于获取未完成下载的二进制文件的文件
标识,将服务器11确定的文件信息向用户显示。
未完成下载的二进制文件可为建立下载任务,但还没有开始下载的二进制
文件;或者已经开始下载,但还没有下载完成的二进制文件。
其中,客户端IO还可以进一步包括获取模块100和显示模块101。
获取模块100,用于获取未完成下载的二进制文件的文件标识。
其中,获取模块100还可以进一步包括查看模块1000和处理模块1001。
查看模块1000,用于查看用户是否建立下载二进制文件任务。 处理模块1001,用于在用户建立下载文件任务时,获取下载二进制文件任
务中待下载文件的文件标识。
显示模块101,用于将服务器11确定的文件信息向用户显示。
具体的,显示的位置可以根据具体需要进行设置,比如可以显示在下载
任务新建面板上;还可以显示在网页浏览器上等等。
其中,客户端IO还可以进一步包括判断^^块102。
判断模块102,用于在显示模块101将文件信息向用户显示后,查看用户 是否选择下载二进制文件,如果是,则下载该二进制文件;否则,取消下载该 二进制文件。
服务器ll,与客户端10连接,用于根据预先建立的文件标识与文件信息 的对应关系,确定客户端IO获取的文件标识对应的文件信息。
其中,服务器11还可以进一步包括建立模块IIO和确定模块120。
建立模块IIO,用于建立的文件标识与文件信息的对应关系。
确定模块120,用于根据建立模块110建立的对应关系,确定客户端10 获取的文件标识对应的文件信息。
在具体实施过程中,建立文件标识与文件信息的对应关系之前,需要分别 确定文件标识与文件信息。
其中,确定文件标识的方法有多种,比如对每个二进制文件的内容数据 进行哈希运算,得到文件内容的哈希值,该文件内容的哈希值可以唯一代表该 二进制文件内容信息。
哈希算法可以采用信息-摘要算法(Message-DigestAlgorithm, MD) 5, MD4,安全散列算法(Secure Hash Algorithm, SHA),安全散列算法(Secure Hash Standard, SHS)等算法作为公式。
其中一个计算文件内容签名的方式是选取整个二进制文件的前、中、后 各20KB (或者是文件的其他任何几个部分)数据,利用前述算法将这三个部
分合起来进行哈希计算,得到一个值,将该值做为文件标识;
另 一个计算文件内容签名的方式是把二进制文件的内容数据以 一定的长
度(比如可以为20K、 30K或者其他任何值)平均分为N个部分,利用前述算 法对其分别进行哈希计算,得到一个值,成为分块内容指紋(Block Content Identity, BCID );同样的对所有的BCID合起来进行一次哈希算法,得到的一 个值,称为全球内容指紋(Global Content Identity, GCID),以该GCID作为 该文件的内容签名。
当然,客户端10获取未完成下载的二进制文件的文件标识所采用的方法 必须与服务器11中确定文件标识的方法相同。
比如服务器11中确定文件标识采用取一个文件的头部、中间及尾部各 32k字节的数据,分别利用MD5算法计算其值,将计算所得到的三个MD5值 顺序连接,并再次用DM5算法对该连接后的数据进行计算,将该计算结果作 为文件的文件标识;则客户端10获取未完成下载的二进制文件的文件标识的 方法同样须为获取下载的二进制文件的头部、中间及尾部各32k字节的数据, 分别利用MD5算法计算其文件标识,将计算所得到的三个MD5值顺序连接, 并再次用DM5算法对该连接后的数据进行计算,将该计算结杲作为该下载文 件的文件标识。
其中,文件信息是4艮据下列一种或几种方式确定的
定期搜索网页中描述文件的相关信息,例如通过网络爬虫spider来进行搜
集;
用户通过信息发布平台发布文件信息,例如提供用户界面供用户输入文件牧自.
i 口 〗
下载软件收集文件相关信息(即用户通过下载软件下载统一资源定位器
(URL)对应的文件时,客户端下载软件搜集该URL对应文件网页中描述的 相关信息)。
通过上述方法获取的同一文件的文件信息可能有多种,可通过计算各文件
信息权重的方式确定一个最准确的文件信息。例如,获取了一个文件对应的多 种文件信息,计算各种文件信息出现的次数,将出现次数最多的文件信息确定 为描述该文件最准确的文件信息。
当然,本实施例获取文件信息的方式并不局限于上面提到的几种方式,任 何能够获取文件信息的方式都适用本实施例。
在具体实施过程中,存储文件标识与文件信息的对应关系的实体可以采用
数据库或文件或其他形式进行存储供服务器11查询,当然根据需要也可以将 文件标识与文件信息的对应关系保存到服务器11中。
如果采用数据库,则该数据库可以通过关系型数据库技术实现。比如在 服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的应用 程序接口 (Application Programming Interface, API)。 一4殳在关系型数据库中, 采用结构化查询语言(Structured Query Language, SQL )作为管理数据库内容 的接口程序。
如图2A所示,本发明实施例客户端包括获取模块200和显示模块201。
本发明实施例客户端还可以进一步包括判断模块202。
其中,获取模块200、显示模块201和判断模块202与图1中的获取模块
100、显示模块101和判断模块102功能相同,不再赘述。
如图2B所示,本发明实施例服务器包括建立模块210和确定模块220。 其中,建立模块210和确定模块220与图1中的建立模块IIO和确定模块
120功能相同,不再赘述。
如图3所示,本发明实施例获^^文件信息的方法包括下列步骤 步骤300、客户端获取未完成下载的二进制文件的文件标识。 未完成下载的二进制文件可为建立下载任务,但还没有开始下载的二进制
文件;或者已经开始下载,但还没有下载完成的二进制文件。 其中,步骤300还可以进一步包括
在用户建立下载文件任务时,客户端获取任务中待下载的二进制文件的文
件标识。
步骤301、服务器根据预先建立的文件标识与文件信息的对应关系,确定 客户端获取的文件标识对应的文件信息。
步骤302、客户端将服务器确定的文件信息向用户显示。
具体的,现实的位置可以根据具体需要进行设置,比如可以显示在下载 任务新建面板上;还可以显示在浏览器上等等。
进一步的,在步骤302之后还可以进一步包括
客户端查看用户是否选择下载二进制文件,如果是,则下载该二进制文件; 否则,取消下载该二进制文件。
在具体实施过程中,建立文件标识与文件信息的对应关系之前,需要分别 确定文件标识与文件信息。
其中,确定文件标识的方法有很多种,比如对每个二进制文件的内容数
据进行哈希运算,得到文件内容的哈希值,该文件内容的哈希值可以唯一代表
该二进制文件内容信息。
哈希算法可以采用MD5, MD4, SHA, SHS等算法作为公式。 其中一个计算文件内容签名的方式是选取整个二进制文件的前、中、后
各20KB (或者是文件的其他任何几个部分)数据,利用前述算法将这三个部
分合起来进行哈希计算,得到一个值,该值做为文件标识;
另 一个计算文件内容签名的方式是把二进制文件的内容数据以一定的长
度(比如可以为20K、 30K或者其他任何值)平均分为N个部分,利用前述算 法对其分别进行哈希计算,得到一个值,成为BCID;同样的对所有的BCID 合起来进行一次哈希算法,得到的一个值,称为GCID,以该GCID作为该文 件的内容签名。
当然,步骤300中的客户端获取未完成下载的二进制文件的文件标识所采 用的方法必须与服务器中确定文件标识的方法相同。
比如服务器中确定文件标识采用取一个文件的头部、中间及尾部各32k
字节的数据,分别利用MD5算法计算其值,将计算所得到的三个MD5值顺序 连接,并再次用DM5算法对该连接后的数据进行计算,将该计算结果作为文 件的文件标识;则客户端获取未完成下栽的二进制文件的文件标识的方法同样 须为获取下载的二进制文件的头部、中间及尾部各32k字节的数据,分别利用 MD5算法计算其文件标识,将计算所得到的三个MD5值顺序连接,并再次用 DM5算法对该连接后的数据进行计算,将该计算结果作为该下载文件的文件 标识。
其中,文件信息是^f艮据下列一种或几种方式确定的 定期搜索网页中描述文件的相关信息,例如通过网络爬虫spider来进行搜
集;
用户通过信息发布平台发布文件信息,例如提供用户界面供用户输入文件 信息;
客户端下载软件收集文件相关信息(即用户通过客户端下载软件下载统一 URL对应的文件时,客户端下载软件搜集该URL对应文件网页中描述的相关 信息)。
通过上述方法获取的同一文件的文件信息可能有多种,可通过计算各文件 信息权重的方式确定一个最准确的文件信息。例如,获取了一个文件对应的多 种文件信息,计算各种文件信息出现的次数,将出现次数最多的文件信息确定 为描述该文件最准确的文件信息。
当然,本实施例确定文件信息的方式并不局限于上面提到的几种方式,任 何能够确定文件信息的方式都适用本实施例。
在具体实施过程中,存储文件标识与文件信息的对应关系的实体可以采用
数据库或文件或其他形式进行存储中。
如果采用数据库,则该数据库可以通过关系型数据库技术实现。比如在 服务器上可以安装关系型数据库软件,并可采用关系型数据库厂商提供的API。 一般在关系型数据库中,采用SQL作为管理数据库内容的接口程序。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以 用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多 个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码 来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们 分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集 成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。应该
离本发明的精神保护范围。
从上述实施例中可以看出本发明实施例客户端获取未完成下载的二进制 文件的文件标识;服务器根据建立的文件标识与文件信息的对应关系,确定所 述客户端获取的所述文件标识对应的文件信息;所述客户端将所述服务器确定 的所述文件信息向用户显示,从而在用户下载文件之前就能够知道该文件的实 际内容,降低了下载后因为文件内容与预期不符,重新下载其他文件的情况, 从而节省了用户时间以及下载带宽,并且避免用户受到某些网站欺诈下载行为 的蒙骗(即某些网站为了个人的利益介绍A文件的信息,实际是B文件)。
显然,本领域的4支术人员可以对本发明进行各种改动和变型而不脱离本发
明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1、一种获取文件信息的方法,其特征在于,该方法包括客户端获取未完成下载的二进制文件的文件标识;服务器根据建立的文件标识与文件信息的对应关系,确定所述客户端获取的所述文件标识对应的文件信息;所述客户端将所述服务器确定的所述文件信息向用户显示。
2、 如权利要求1所述的方法,其特征在于,所述文件标识为二进制文件 的内容签名;所述内容签名是根据预设算法对二进制文件的内容数据进行计算 后获得;该预设算法为对不同的二进制文件的内容数据进行处理得到不同的处 理结果的算法。
3、 如权利要求1所述的方法,其特征在于,所述客户端将所述服务器确 定的所述文件信息向用户显示之后还包括所述客户端查看用户是否选择下载二进制文件,如果是,则下载该二进制 文件;否则,取消下载该二进制文件。
4、 如权利要求1所述的方法,其特征在于,所述客户端获取未完成下载 的二进制文件的文件标识包括在用户建立下载二进制文件任务时,获取任务中待下载的二进制文件的文 件标识。
5、 一种获取文件信息的系统,其特征在于,该系统包括客户端,用于获取未完成下载的二进制文件的文件标识,将服务器确定的 文件信息向用户显示;服务器,用于根据建立的文件标识与文件信息的对应关系,确定获取的所 述文件标识对应的文件信息。
6、 如权利要求5所述的系统,其特征在于,所述文件标识为二进制文件 的内容签名;所述内容签名是根据预设算法对二进制文件的内容数据进行计算 后获得;该预设算法为对不同的二进制文件的内容数据进行处理得到不同的处理结果的算法。
7、 如权利要求5所述的系统,其特征在于,所述客户端包括 获取模块,用于获取未完成下载的二进制文件的文件标识;显示模块,用于将所述服务器确定的文件信息向用户显示; 所述服务器包括建立模块,用于建立的文件标识与文件信息的对应关系; 确定模块,用于根据所述建立模块建立的所述对应关系,确定所述客户端 获取的所述文件标识对应的文件信息。
8、 如权利要求7所述的系统,其特征在于,所述获取 f莫块包括 查看模块,用于查看用户是否建立下载二进制文件任务;处理模块,用于在用户建立下载二进制文件任务时,获取下载任务中待下 载的二进制文件的文件标识。
9、 如权利要求7所述的系统,其特征在于,所述客户端还包括 判断^f莫块,用于在所述显示^^莫块将确定的所述文件信息向用户显示后,查看用户是否选择下载文件,如果是,则下载该二进制文件;否则,取消下载该 二进制文件。
10、 一种客户端,其特征在于,所述客户端包括 获取^t块,用于获取未完成下载的二进制文件的文件标识; 显示模块,用于将服务器确定的文件信息向用户显示。
11、 如权利要求IO所述的客户端,其特征在于,所述获取模块包括 查看模块,用于查看用户是否建立下载二进制文件任务;处理模块,用于在用户建立下载二进制文件任务时,获取任务中待下载的 二进制文件的文件标识。
12、 如权利要求IO所述的客户端,其特征在于,所述客户端还包括 判断模块,用于在所述显示模块将确定的所述文件信息向用户显示后,查看用户是否选择下载二进制文件,如果是,则下载该二进制文件;否则,取消下载该二进制文件。
13、 如权利要求IO所述的客户端,其特征在于,所述文件标识为二进制文件的内容签名;所述内容签名是根据预设算法对二进制文件的内容数据进行 计算后获得;该预设算法为对不同的二进制文件的内容数据进行处理得到不同 的处理结果的算法。
14、 一种服务器,其特征在于,所述服务器包括 建立模块,用于建立的文件标识与文件信息的对应关系;确定模块,用于根据所述建立模块建立的所述对应关系,确定客户端获取 的文件标识对应的文件信息。
15、 如权利要求14所述的服务器,其特征在于,所述文件标识为二进制 文件的内容签名;所述内容签名是根据预设算法对二进制文件的内容数据进行 计算后获得;该预设算法为对不同的二进制文件的内容数据进行处理得到不同 的处理结果的算法。
全文摘要
本发明涉及网络下载技术,特别涉及一种获取文件信息的方法、系统和装置,解决了现有技术中存在的用户无法在下载文件之前获取欲下载文件的准确信息,从而无法保证用户下载文件的质量的问题,包括客户端获取未完成下载的二进制文件的文件标识;服务器根据建立的文件标识与文件信息的对应关系,确定所述客户端获取的所述文件标识对应的文件信息;所述客户端将所述服务器确定的所述文件信息向用户显示。采用本发明在用户下载文件之前就能够知道该文件的质量,降低了下载后因为文件质量不高,重新下载其他文件的情况,从而节省了用户时间以及下载带宽。
文档编号H04L12/58GK101179525SQ20071016061
公开日2008年5月14日 申请日期2007年12月21日 优先权日2007年12月21日
发明者彬 李, 想 李, 李勇华 申请人:深圳市迅雷网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1