一种文件包分卷的识别方法及系统的制作方法

文档序号:6470071阅读:173来源:国知局

专利名称::一种文件包分卷的识别方法及系统的制作方法
技术领域
:本发明涉及电脑与互联网领域,特别是涉及一种文件包分巻的识别方法及系统。
背景技术
:网络中为了文件传输的方便,需要将一些体积过大的原始文件拆分成多个文件块,例如使用文件分块软件将文件拆分成多个文件包分巻,然后将各个文件包分巻传输至网络中其他接收端,接收端接收到文件包分巻后,文件分块软件根据各文件包分巻的标题及分巻号,判断各个文件包分巻是否属于同组文件包分巻,如果有所有的属于同组的文件包分巻,就能够将其还原为原始文件。但是,如果属于同组文件包分巻的部分文件包分巻的标题被更改,即便实际上属于同组文件包分巻,文件分块软件也无法正确识别,从而无法将文件包分巻所存储的原始文件还原;或者,如果网络上存在不属于同组但命名规则却恰好一致的文件包分巻,用户很可能将其误判为属于同组文件包分巻而获取,但获取之后同样不能将文件包分巻所存储的原始文件还原。可见,通过文件包分巻标题来识别文件包分巻的方法,其有效性与可靠性均无法得到保证。
发明内容有鉴于此,本发明实施例^是供一种文件包分巻的识别方法及系统。所述文件包分巻识别方法,包括获取多个文件包分巻中的各文件包分巻的识别信息,所述识别信息包括所述各文件包分巻的分巻号与文件列表,所述分巻号为生成文件包分巻时各文件包分巻在同组文件包分巻中的序号,所述文件列表记录了各文件包分巻所存储文件的属性信息;根据所获取的各文件包分巻识别信息识别所述多个文件包分巻是否属于同组文件包分巻。所述文件包分巻识别系统,包括信息获取单元,用于获取多个文件包分巻中的各文件包分巻的识别信息,所述识别信息包括所述各文件包分巻的分巻号与文件列表,所述分巻号为生录了各文件包分巻所存储文件的属性信息;识别单元,用于根据所述信息获取单元获取的各文件包分巻的识别信息,识别所述多个文件包分巻是否属于同组文件包分巻。与现有的通过分巻标题识别文件包分巻的方法相比,本发明实施例通过表是在文件包分巻创建的时候产生,产生后无法对其进行修改,因此通过分巻号及文件列表识别文件包分巻是否属于同组,其有效性和可靠性都得到提高。图1为本发明第一实施例文件包分巻识别方法的流程图;图2为搜索结果排序示意图;图3为搜索结果整合示意图4为本发明第二实施例文件包分巻识别方法的流程图;图5为本发明第三实施例文件包分巻识别系统结构示意图;图6为本发明第四实施例文件包分巻识别系统结构示意图;图7为本发明第五实施例文件包分巻识别系统结构示意图;图8为本发明第六实施例文件包分巻识别系统结构示意图;图9为本发明第七实施例文件包分巻识别系统结构示意图;图10为本发明第八实施例文件包分巻识别系统结构示意图;图11为本发明第九实施例文件包分巻识别系统结构示意图;图12为本发明第十实施例文件包分巻识别系统结构示意图;图13为本发明第十一实施例文件包分巻识别系统结构示意图。具体实施例方式首先对本发明实施例文件包分巻的识别方法进行说明。可实现文件分巻处理的软件有多种,比如WinRAR。在使用分巻处理软件进行分巻处理过程中产生的文件称为文件包分巻,本发明实施例通过比较各文件包分巻的分巻号及文件列表,识别多个文件包分巻是否属于同组文件包分巻。下面结合附图,对本发明实施例进行详细描述。如图1所示为本发明实施例文件包分巻的识别方法,具体步骤如下步骤IOI,获取多个文件包分巻中的各文件包分巻的识别信息,所述识别信息包括所述各文件包分巻的分巻号与文件列表,所述分巻号为生成文件包分巻时各文件包分巻在同组文件包分巻中的序号,所述文件列表记录了各文件包分巻所存储文件的属性信息。较佳地,可通过获取网络中所存储的文件包分巻的文件头信息,分析该络资源获取系统(如网络爬虫程序spider)获取文件包分巻的文件头信息。所述分巻号及所述文件列表一经生成就不能被更改。所述各文件包分巻所存储文件的属性信息包括文件名,文件大小,文件修改时间等。步骤102,根据所获取的各文件包分巻识别信息识别所述多个文件包分巻是否属于同组文件包分巻。较佳地,所述根据所获取的各文件包分巻识别信息识别所述多个文件包分巻是否属于同组文件包分巻包括比较分巻号相邻的文件包分巻的文件列表,如果分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性相同,则确定所述文件包分巻属于同组文件包分巻。各文件包分巻有后续分巻属性,该属性用于标识文件包分巻是否为同组文件包分巻中的最后一个文件包分巻。如果一个文件包分巻没有后续分巻,包分巻。则较佳地,各文件包分巻还具有后续分巻属性,该后续分巻属性为生成文件包分巻时一并生成,如果一个文件包分巻的该属性值为是,则该文件包分巻有后续分巻,如果该属性值为否,则该文件包分巻为其所属同组文件包分巻的最后一个文件包分巻;当一个文件包分巻的所述是否有后续分巻属性比较。同组文件包分巻中存储了一个或多个文件,在同组文件包分巻所存储的文件中,一个文件可能会被切分成几部分放到分巻号相邻的文件包分巻中,所以在文件包分巻的文件列表中,还包括文件在各文件包分巻中是否存储完整的信息,例如在WinRARj欠件所生成的rar分巻中,文件完整度信息定义如下1)文件完整存在于该分巻,文件完整度信息为空;2)文件有部分内容存在于该分巻之前的分巻,用符号'<-'表示;3)文件有部分内容存在于该分巻后面的分巻,用符号'->,表示;4)文件既有部分内容存在于该分巻前面的分巻,也有部分内容存在于该分巻后面的分巻,用符号'<->,表示。例如有一组rar分巻,总共有4个rar分巻,分巻号分别为1-4号,各rar分巻的文件列表的信息如表1所示<table>tableseeoriginaldocumentpage12</column></row><table>表1由表1可以看到,该组rar分巻共存储了2个文件,"Thunder.exe"及"WebThunder.exe"。在分巻1中,存储了Thunder.exe文件,'->,表示Thunder.exe在分巻1中并不完整,还有部分内容在后面的分巻里。在分巻2中,同样存储了Thunder.exe文件,'<-->'表示该文件有部分内容在前面的分巻里,同时也有部分内容在后面的分巻里。在分巻3中,有Thunder.exe和WebThunder.exe两个文件,'<-,表示Thunder.exe有部分内容在前面的分巻里,但已经没有内容在后面的分巻里。至此,我们可以知道,Thunder.exe被切分成3块,分布在分巻1、2、3中;除了Thunder.exe之外,分巻3中还有WebThunder.exe,'->,表明它有部分内容在后面的分巻。在分巻4中存储了文件WebThunder.exe,'<-,表明它有部分内容在前面的分巻。对于分布于不同分巻的同一个文件,其文件属性信息(文件名,文件大小,文件修改时间等)是相同的,例如表1中的Thunder.exe在分巻1、2、3中所记录的信息。在各文件包分巻的文件列表中,称第一个文件为firstfile,最后一个文件为lastfile,如果一个文件包分巻的文件列表中只有一个文件,则这个文件既是firstfile也是lastfile。存在以下规则假如一组分巻的分巻总数为N,当前有一个分巻n(l^i〈N),如果在该分巻n中lastfile的文件完整度信息为'->,或'<—>,,那么n+l分巻中的firstfile与n分巻中的lastfile—定是相同的文件,他们的文件属性信息必然相同。所以,如果分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性相同,则确定所述文件包分巻属于同组文件包分巻。通常情况下,分巻n中lastfile的文件完整信息度都表示为'->,或'<->,,因此,根据上述规则,我们在确定两个rar分巻是否属于同一组的时候,就可以先比较它们的分巻号,如果分巻号是相邻的,再比较前一分巻的lastfile与后一分巻的firstfile的关系,例如在表1中,就可以通过Thunder.exe确定分巻l、2、3是同一组,通过WebThunder.exe确定3、4是同一组分巻,综合以上结果,就可以确定l、2、3、4都是属于同一组。如果分巻n中lastfile的文件完整度信息恰好为'<-,或'-,,例如表2所示,此时就无法确定分巻2与分巻3是否属于同一分组,也就无法识别出一组完整的分巻。对于这种情况,就需要结合分巻的其他特征来进行判断。表2同组rar分巻具有以下基本特点1)除同组rar分巻中的最后一个分巻之外,同组其它各分巻大小都是相同的,并且最后一个分巻的大小等于或小于其它分巻的大小。2)每个rar分巻的标题有统一格式。如"三国志.partl.rar",其中"三国志"是分巻名,"parti"表明是本组分巻中的第一个分巻,"rar"是分巻格式后缀名。如果存在另一个命名规则一致的分巻"三国志.part2.rar",则认为该分巻与上述分巻属于同一组。在本发明优选实施例中,针对上述特殊的情况,即通过文件列表信息无法确定分巻是否属于同一组的情况,还需要结合分巻大小、分巻标题进行综合判断,较佳地,所述各文件包分巻的识别信息还包括所述文件包分巻的分巻大小。即结合文件包分巻的大小信息来判断是否属于同组文件包分巻。较佳地,当所述各文件包分巻的识别信息还包括所述文件包分巻的分巻大小时,所述根据所获取的文件包分巻识别信息识别所述多个文件包分巻是否属于同组文件包分巻包括当分巻号相邻的文件包分巻中,分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性相同,并且,所述分巻号相邻的文件包分巻的分巻大小相同时,则确定所述分巻号相邻的文件包分巻属于同组文件包分巻;当分巻号相邻的文件包分巻中,分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性不相同,或者,所述分巻号相邻的文件包分巻的分巻大小不相同时,则确定所述分巻号相邻的文件包分巻不属于同组文件包分巻。对于已识别出分组信息的文件包分巻,可以进一步通过建立同组文件包分巻的关联,存储同组文件包分巻的关联信息,将原本需要对所有零散文件包分巻进行的操作,能够以组的形式进行整体处理,从而为用户提供搜索、下载等服务。较佳地,所述方法进一步包括步骤103,建立属于同组的各文件包分巻之间的关联。建立各文件包分巻之间的关联可有不同的方法,可通过文件包分巻的多种属性建立关联,例如文件包分巻的名称、文件包分巻的内容签名CID(ContentIDentity)或存放地址等。CID是根据预设的算法对文件的内容数据进行计算后获得的,可唯一标识被处理的文件。所述的预设的算法可以是对不同数据内容的二进制文件处理得到不同处理结果的任一算法,其处理结果即CID。确定CID的其中一种方法可为提取文件的前面32k字节、中间32k字节、尾部32k字节数据,将所获取的三部分数据顺序连接,采用哈希算法,例如信息摘要算法(md5,message-digestalgorithm5),计算连接所得的96k字节数据的md5值,作为该文件的CID。通过计算每个rar分巻的CID,就可以唯一标识互联网上的每一个rar分巻资源。则较佳地,所述建立属于同组的各文件包分巻之间的关联包括根据预设算法计算获得属于同组的各文件包分巻的内容签名CID,所述CID用于唯一标识每一个文件包分巻;所述预设算法为对不同的二进制文件的内容数据进行处理能得到不同处理结果的算法;建立各文件包分巻的CID之间的对应关系。或者,较佳地,所述建立属于同组的各文件包分巻之间的关联包括获得一个组签名,所述组签名为所述属于同组的文件包分巻的共同标识;建立所述组签名及所述属于同组的各文件包分巻之间的关联。其中,所述组签名可以是编号、同组文件包分巻中任一文件包分巻的文件名称或文件包分巻的内容签名CID等任何可将不同的文件包分巻组区分开的标识。则较佳地,所述获得一个组签名,建立所述组签名及所述属于同组的各文件包分巻之间的关联包括根据预设算法计算获得属于同组的各文件包分巻的内容签名CID,所述CID用于唯一标识每一个文件包分巻;所述预设算法为对不同的二进制文件的内容数据进行处理能得到不同处理结果的算法;根据所述CID,获得所述文件包分巻所在组的组签名GID;建立所述组签名GID及所述属于同组的各文件包分巻CID之间的关联。可将同组文件包分巻中的第一个文件包分巻(即分巻号最小的文件包分巻)的标识作为该组的标识。还可将所述属于同组的各文件包分巻的内容签名CID连接起来组成一段值,再通过所述预设算法计算该段值,从而得到一个新的值,并将该新的值作为该组的标识。所以较佳地,所述根据所述CID,获得所述文件包分巻所在组的组签名GID的步骤包括选取属于同组文件包分巻中分巻号最小的文件包分巻的CID作为该组文件包分巻的组签名GID;或将所述属于同组的各文件包分巻的内容签名CID组合为一个CID集合,将根据所述预设算法计算所述CID集合得到的值,作为该组文件包分巻的组签名GID。通过上述方法可建立属于同组文件包分巻的关联,实现了将互联网中属于同组的文件包分巻资源进行整合。应用所建立的同组文件包分巻信息,可以进一步为用户提供搜索和下载服务,下面将分别对这两种服务的实施方案进行详细描述。提供文件包分巻搜索服务首先需要为各个分巻包的分巻相关信息与其对应内容的分巻搜索信息建立关联。所述分巻相关信息为需要在搜索结果中作为搜索结果返回的文件包分巻的信息,例如各文件包分巻的名称、对应的内容描述信息及/或统一资源定位符URL存放地址等。所述分巻搜索信息是对分巻内容的描述。用户进行搜索时输入的关键字将与所述分巻搜索信息进行匹配,匹配成功的则说明是用户需要的一个搜索结果。例如,有三个文件包分巻的分巻搜索信息分别为"三国志.partl"、"三国志,,及"三国志.part2,,,其中,已建立第一个与第三个文件包分巻属于同组文件包分巻的对应关系,当用户输入关键字"三国志"进行搜索,则该三个分巻搜索信息都将与关键字"三国志,,匹配成功,可将该三个分巻搜索信息对应的分巻相关信息作为搜索结果呈现,并可根据所建立的属于同组的各文件包分巻之间的关联,将第一个与第三个文件包分巻的分巻相关信息排序在一起返回。则较佳地,所述方法还包括步骤104,当用户通过关键字搜索文件包分巻时,从预设的分巻相关信息与分巻搜索信息的对应关系中,查找与所述关键字匹配的分巻搜索信息;步骤105,根据所建立的属于同组的各文件包分巻之间的关联,将查找到的与所述关键字匹配的分巻搜索信息中,属于同组的多个文件包分巻的分巻相关信息排序在一起作为搜索结果返回。现有的搜索技术所返回的搜索结果可能如图2中左半部分所示,满足搜索条件的属于同组的文件包分巻、不属于同组的文件包分巻及非文件包分巻文件混在一起,用户很难找到需要的内容(图2中所示的"第一组"、"第二组"其实并不会在搜索结果中出现,在此只是为了便于理解而添加的注释)。而在本发明实施例中,如图2中右半部分所示,搜索结果中属于同组的文件包分巻将排序在一起返回,如此可方便用户在网络中查找属于同组的多个文件包分巻。进一步,如果将属于同组的文件包分巻作为整体来进行显示,搜索的返回内容会明显减少,使得搜索结果更简洁,可以使用户很直观地找到同组的所有分巻。如图3所示,当用户搜索"三国志"时,可利用前述获得的同组文件包分巻的组签名,将属于同组的文件包分巻作为一整体,则搜索结果将如图3右侧虚线框中所示,仅显示属于同组文件包分巻的组签名,图3中连线表示将属于同组的文件包分巻作为整体后的搜索结果与其对应的同组的各文件包分巻。其中"2)三国志(3分巻)"是第一组分巻,包括"三国志.partl.rar"、"三国志.part2.rar"、"三国志.part3.rar,,;"4)三国志(5分巻),,是第二组分巻,包括"三国志.partl.rar"、"三国志.part2.rar"、"三国志.part3.rar"、"三国志.part4.rar"、"三国志.part5.rar"。如此的^:索结果以更简洁的形式呈现,如当用户选择"2)三国志(3分巻)"时,则可将其对应的"三国志.partl.rar"、"三国志.part2.rar"、"三国志.part3.rar"三个文件包分巻返回给用户。返回的形式可有多种,如另外提供一个窗口以显示所述三个文件包分巻,或当用户点击一个组签名时,在组签名的下方以树状目录的形式显示该组签名所对应的属于同组的文件包分巻。则较佳地,该方法还包括当用户通过关键字搜索文件包分巻时,从预设的分巻相关信息与分巻搜索信息的对应关系中,查找与所述关键字匹配的分巻搜索信息;根据所述组签名及所述属于同组的各文件包分巻的分巻相关信息之间的关联,将查找到的与所述关键字匹配的分巻搜索信息中,属于同组的多个文件包分巻的分巻相关信息对应的组签名作为搜索结果返回;当用户选择所述组签名时,将所述组签名所对应的属于同组的各文件包分巻的分巻相关信息返回给用户。提供文件包分巻下载服务因为需要获取同组的文件包分巻才能将所存储的文件还原,所以用户下载一个文件包分巻时,一般会需要下载同组的其他文件包分巻。请参照图4(图4中步骤101、102及103的内容与图1中同样编号的步骤内容相同,在此不再赘述),则较佳地,该方法还包括步骤106,当用户下载属于所述同组文件包分巻中的其中一个或多个文件包分巻时,根据所建立的属于同组的各文件包分巻之间的关联,获取并返回属于同组的其他文件包分巻的分巻相关信息;或,步骤107,当用户下载属于所述同组文件包分巻中的其中一个或多个文件包分巻时,根据所建立的属于同组的各文件包分巻之间的关联,获取属于同组的其他文件包分巻的存放地址,并建立下载任务。当从网络中获取文件包分巻时,可同时记录其对应的统一资源定位符(URL,UniformResourceLocator)地址,则还可建立每个文件包分巻的相关信息及其对应的URL地址的对应关系。例如,可建立文件包分巻的CID与对应的URL地址的对应关系。当用户在下载一个文件包分巻的时候,可以才艮据前述建立的CID与GID的对应关系进行查询,查到与CID对应的GID之后,再通过GID查到其它同组的文件包分巻的CID,然后把这些CID对应的文件包分巻的相关信息返回,提醒用户是否需要下载其它文件包分巻,如用户确认需要下载,则获取其他文件包分巻的URL地址,并建立其它文件包分巻的下载。这就使得用户不必重复去查找并下载同组其它文件包分巻,特别是文件包分巻数目很多的时候,大大方便了用户的操作。而且,有时候用户在下载时,并不知道还有其它文件包分巻,通过这种方法,可以避免用户只是下本发明实施例还提供一种文件包分巻识别系统,如图5所示,包括信息获取单元610,用于获取多个文件包分巻中的各文件包分巻的识别信息,所述识别信息包括所述各文件包分巻的分巻号与文件列表,所述分巻号表记录了各文件包分巻所存储文件的属性信息;识别单元620,用于根据所述信息获取单元获取的各文件包分巻的识别信息,识别所述多个文件包分巻是否属于同组文件包分巻。通过使用该系统,可识别多个文件包分巻是否属于同组文件包分巻。较佳地,该文件包分巻识别系统可以进一步包括建立单元630,用于建立属于同组的各文件包分巻之间的关联。如图6所示,较佳地,所述信息获取单元610可以为网络资源获取单元611,用于获取各文件包分巻的头信息,分析头信息得到文件包分巻的所述识别信息。所述网络资源获取单元611可为网络爬虫spider等用于获取网络资源的程序。较佳地,所述识别单元620可以是列表识别单元621,用于比较分巻号相邻的文件包分巻的文件列表,如果分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性相同,则确定所述分巻号相邻的文件包分巻属于同组文件包分巻;否则确定所述分巻号相邻的文件包分巻不属于同组文件包分巻。各文件包分巻中有后续分巻属性,用于标识该文件包分巻是否为同组的最后一个文件包分巻,当一个文件包分巻为同组文件包分巻中的最后一个文件包分巻(分巻号为同组中最大的)时,则无需将该最后一个文件包分巻与分巻号大于自身的文件包分巻进行比较,则较佳地,所述比较分巻号相邻的文件包分巻的文件列表,包括获取各文件包分巻的后续分巻属性,该后续分巻属性为生成文件包分巻时一并生成,如果一个文件包分巻的该属性值为是,则该文件包分巻有后续分巻,如果该属性值为否,则该文件包分巻为其所属同组文件包分巻的最后一个文件包分巻;当一个文件包分巻的所述是否有后续分巻属性为否时,则包分巻进行比较。除了通过各文件包分巻的分巻号与文件列表,还可结合文件包分巻的分巻大小来确定是否属于同组文件包分巻,则较佳地,所述各文件包分巻的相关信息还包括所述文件包分巻的分巻大小。当所述各文件包分巻的相关信息还包括所述文件包分巻的分巻大小时,寿支佳地,所述识别单元620,还可以是综合识别单元622,用于当分巻号相邻的文件包分巻中,分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性相同,并且,所述分巻号相邻的文件包分巻的分巻大小相同时,则确定所述分巻号相邻的文件包分巻属于同组文件包分巻;当分巻号相邻的文件包分巻中,分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性不相同,或者,所述分巻号相邻的文件包分巻的分巻大小不相同时,则确定所述分巻号相邻的文件包分巻不属于同组文件包分巻。所述建立单元630可通过多种方式建立属于同组文件包分巻之间的关联,参见图7所示,在一种实施例中,所述建立单元630可以包括CID计算子单元631,用于根据预设算法计算获得属于同组的各文件包分巻的内容签名CID,所述CID用于唯一标识每一个文件包分巻;所述预设算法为对不同的二进制文件的内容数据进行处理能得到不同处理结果的算法;及第一建立子单元632,用于建立各文件包分巻的CID之间的对应关系。由于不同文件包分巻的CID是唯一的,所以通过CID建立的同组文件包分巻的对应关系将十分准确。参见图8所示,较佳地,在另一种实施例中,所述建立单元630可以包括组签名获取子单元633,用于获得一个组签名,所述组签名为所述属于同组的各文件包分巻的共同标识;及第二建立子单元634,用于建立所述组签名及所述属于同组的各文件包分巻之间的关联。即将属于同组的文件包分巻通过一个组签名来建立关联。参见图9所示,当将属于同组的文件包分巻通过一个组签名来建立关联时,该组签名可根据文件包分巻的CID来获得,则较佳地,所述建立单元630还可以进一步包括CID计算子单元631,用于根据预设算法计算获得属于同组的各文件包分巻的内容签名CID,所述CID用于唯一标识每一个文件包分巻;所述预设算法为对不同的二进制文件的内容数据进行处理能得到不同处理结果的算法;所述组签名获取子单元633可以为GID生成子单元635,用于根据所述CID,获得所述文件包分巻所在组的组签名GID;所述第二建立子单元634可以为组建立子单元636,用于建立所述组签名GID及所述属于同组的各文件包分巻CID之间的关联。所述^^艮据所述CID,获得所述文件包分巻所在组的组签名GID可有不同的实施方式,参见图IO所示,较佳地,所述GID生成子单元635为GID第一子单元637,用于选取属于同组文件包分巻中分巻号最小的文件包分巻的CID作为该组文件包分巻的组签名GID;或所述GID生成子单元635为GID第二子单元638,用于将所述属于同组的各文件包分巻的内容签名CID组合为一个CID集合,将根据所述预设算法计算所述CID集合得到的值,作为该组文件包分巻的组签名GID。在建立属于同组文件包分巻的关联后,可进一步为用户提供文件包分巻的搜索和下载服务。当该系统用于提供搜索服务时,可有不同的实施方式方式一、可根据所建立的属于同组文件包分巻之间的关联,在搜索结果中属于同组的文件包分巻排序在一起作为搜索结果返回。参见图ll所示,图11中信息获取单元610、识别单元620及建立单元630的功能分别与图5中同样编号的单元功能相同,在此不再赘述。所述系统还可包括第一搜索单元641,用于当用户通过关键字搜索文件包分巻时,乂人预设的分巻相关信息与分巻搜索信息的对应关系中,查找与所述关键字匹配的分巻搜索信息;及第一返回单元642,用于根据所建立的属于同组的各文件包分巻之间的关联,将查找到的与所述关键字匹配的分巻搜索信息中,属于同组的多个文件包分巻的分巻相关信息排序在一起作为搜索结果返回。方式二、可将属于同组的文件包分巻整合在一起,用一个组签名作为搜索结果返回,以使搜索结果更简洁。参见图12所示,图12中信息获取单元610、识别单元620及建立单元630的功能分别与图5中同样编号的单元功能相同,在此不再赘述。较佳地,所述系统还可以包括第二搜索单元643,用于当用户通过关键字搜索文件包分巻时,乂人预设的分巻相关信息与分巻搜索信息的对应关系中,查找与所述关键字匹配的分巻搜索信息;第二返回单元644,用于根据所述组签名及所述属于同组的各文件包分巻的分巻相关信息之间的关联,将查找到的与所述关键字匹配的分巻搜索信息中,属于同组的多个文件包分巻的分巻相关信息对应的组签名作为^t叟索结果返回;第三返回单元645,用于当用户选择所述组签名时,将所述组签名所对应的属于同组的各文件包分巻的分巻相关信息返回给用户。当该系统用于提供下载服务时,可有不同的实施方式,参见图13所示方式一、当用户下载一个文件包分巻时,可将属于同组的其他文件包分巻的相关信息,如文件名、下载地址等,返回给用户。则所述系统还包括第一下载单元646,用于当用户下载属于所述同组文件包分巻中的其中一个或多个文件包分巻时,根据所述建立单元630所建立的属于同组的各文件包分巻之间的关联,获取并返回属于同组的其他文件包分巻的分巻相关信息。方式二、当用户下载一个文件包分巻时,可直接为用户建立属于同组的其他文件包分巻的下载任务,无需用户自己查找。则所述系统还包括第二下载单元647,用于当用户下载属于所述同组文件包分巻中的其中一个或多个文件包分巻时,根据所述建立单元630所建立的属于同组的各文件包分巻之间的关联,获取属于同组的其他文件包分巻的存放地址,并建立下载任务。综上,本发明实施例通过结合文件包分巻的分巻号及文件列表来识别多个文件包分巻是否属于同组文件包分巻,由于分巻号及文件列表是在分巻创建的时候产生,且产生后无法对其进行修改,因此通过分巻号及文件列表识别文件包分巻是否属于同组,其有效性和可靠性都得到提高。在识别属于同组的文件包分巻后,可建立其关联,并进一步提供搜索或下载服务,可使用户方便的获取同组的文件包分巻。对于系统实施例而言,由于其基本相应于方法实施例,所以描述得比库交简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。以上所述仅是本发明的具体实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。权利要求1、一种文件包分卷识别方法,其特征在于,包括获取多个文件包分卷中的各文件包分卷的识别信息,所述识别信息包括所述各文件包分卷的分卷号与文件列表,所述分卷号为生成文件包分卷时各文件包分卷在同组文件包分卷中的序号,所述文件列表记录了各文件包分卷所存储文件的属性信息;根据所获取的各文件包分卷识别信息识别所述多个文件包分卷是否属于同组文件包分卷。2、根据权利要求1所述的方法,其特征在于,所述获取多个文件包分巻的识别信息包括获取各文件包分巻的文件头信息,分析文件头信息得到文件包分巻的所述识别信息。3、根据权利要求1所述的方法,其特征在于,所述根据所获取的各文件包分巻识别信息识别所述多个文件包分巻是否属于同组文件包分巻包括比较分巻号相邻的文件包分巻的文件列表;如果分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性相同,则确定所述分巻号相邻的文件包分巻属于同组文件包分巻;否则确定所述分巻号相邻的文件包分巻不属于同组文件包分巻。4、根据权利要求3所述的方法,其特征在于,所述比较分巻号相邻的文件包分巻的文件列表,包括获取各文件包分巻的后续分巻属性,该后续分巻属性为生成文件包分巻时一并生成,如果一个文件包分巻的该属性值为是,则该文件包分巻有后续分巻,如果该属性值为否,则该文件包分巻为其所属同组文件包分巻的最后一个文件包分巻;当一个文件包分巻的所述后续分巻属性为否时,则不将该文件包分巻与分巻号大于该文件包分巻的文件包分巻进行比较。5、根据权利要求1所述的方法,其特征在于,所述各文件包分巻的识别信息还包括所述文件包分巻的分巻大小。6、根据权利要求5所述的方法,其特征在于,所述根据所获取的各文件包分巻识别信息识别所述多个文件包分巻是否属于同组文件包分巻包括当分巻号相邻的文件包分巻中,分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性相同,并且,所述分巻号相邻的文件包分巻的分巻大小相同时,则确定所述分巻号相邻的文件包分巻属于同组文件包分巻;当分巻号相邻的文件包分巻中,分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性不相同,或者,所述分巻号相邻的文件包分巻的分巻大小不相同时,则确定所述分巻号相邻的文件包分巻不属于同组文件包分巻。7、根据权利要求1至6中任一项所述的方法,其特征在于,该方法进一步包括建立属于同组的各文件包分巻之间的关联。8、根据权利要求7所述的方法,其特征在于,所述建立属于同组的各文件包分巻之间的关联包括根据预设算法计算获得属于同组的各文件包分巻的内容签名CID,所述CID用于唯一标识每一个文件包分巻;所述预设算法为对不同的二进制文件的内容数据进行处理能得到不同处理结果的算法;建立各文件包分巻的CID之间的对应关系。9、根据权利要求7所述的方法,其特征在于,所述建立属于同组文件包分巻之间的关联包括获得一个组签名,所述组签名为所述属于同组的文件包分巻的共同标识;建立所述组签名及所述属于同组的各文件包分巻之间的关联。10、根据权利要求9所述的方法,其特征在于,所述获得一个组签名,建立所述组签名及所述属于同组的各文件包分巻之间的关联包括根据预设算法计算获得属于同组的各文件包分巻的内容签名CID,所述CID用于唯一标识每一个文件包分巻;所述预设算法为对不同的二进制文件的内容数据进行处理能得到不同处理结果的算法;才艮据所述CID,获得所述文件包分巻所在组的组签名GID;建立所述组签名GID及所述属于同组的各文件包分巻CID之间的关联。11、根据权利要求IO所述的方法,其特征在于,所述根据所述CID,获得所述文件包分巻所在组的组签名GID的步骤包括选取属于同组文件包分巻中分巻号最小的文件包分巻的CID作为该组文件包分巻的组签名GID;或将所述属于同组的各文件包分巻的内容签名CID组合为一个CID集合,将根据所述预设算法计算所述CID集合得到的值,作为该组文件包分巻的组签名GID。12、根据权利要求7所述的方法,其特征在于,该方法还包括当用户通过关键字搜索文件包分巻时,从预设的分巻相关信息与分巻搜索信息的对应关系中,查找与所述关键字匹配的分巻搜索信息;根据所建立的属于同组的各文件包分巻之间的关联,将查找到的与所述关键字匹配的分巻搜索信息中,属于同组的多个文件包分巻的分巻相关信息排序在一起作为搜索结果返回。13、根据权利要求9所述的方法,其特征在于,该方法还包括当用户通过关键字搜索文件包分巻时,从预设的分巻相关信息与分巻搜索信息的对应关系中,查找与所述关键字匹配的分巻搜索信息;根据所述组签名及所述属于同组的各文件包分巻的分巻相关信息之间的关联,将查找到的与所述关键字匹配的分巻搜索信息中,属于同组的多个文件包分巻的分巻相关信息对应的组签名作为搜索结果返回;当用户选择所述组签名时,将所述组签名所对应的属于同组的各文件包分巻的分巻相关信息返回给用户。14、根据权利要求7所述的方法,其特征在于,该方法还包括当用户下载属于所述同组文件包分巻中的其中一个或多个文件包分巻时,根据所建立的属于同组的各文件包分巻之间的关联,获取并返回属于同组的其他文件包分巻的分巻相关信息;或当用户下载属于所述同组文件包分巻中的其中一个或多个文件包分巻时,根据所建立的属于同组的各文件包分巻之间的关联,获取属于同组的其他文件包分巻的存放地址,并建立下载任务。15、根据权利要求12至14中任一项所述的方法,其特征在于,所述分巻相关信息为各文件包分巻的名称、对应的内容描述信息及/或统一资源定位符URL存放地址。16、一种文件包分巻识别系统,其特征在于,包括信息获取单元,用于获取多个文件包分巻中的各文件包分巻的识别信息,录了各文件包分巻所存储文件的属性信息;识别单元,用于根据所述信息获取单元获取的各文件包分巻的识别信息,识别所述多个文件包分巻是否属于同组文件包分巻。17、根据权利要求16所述的系统,其特征在于,所述信息获取单元为网络资源获取单元,用于获取各文件包分巻的头信息,分析头信息得到文件包分巻的所述识别信息。18、根据权利要求16所述的系统,其特征在于,所述识别单元为列表识别单元,用于比较分巻号相邻的文件包分巻的文件列表,如果分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性相同,则确定所述分巻号相邻的文件包分巻属于同组文件包分巻;否则确定所述分巻号相邻的文件包分巻不属于同组文件包分巻。19、根据权利要求18所述的系统,其特征在于,所述比较分巻号相邻的文件包分巻的文件列表,包括获取各文件包分巻的后续分巻属性,该后续分巻属性为生成文件包分巻时一并生成,如果一个文件包分巻的该属性值为是,则该文件包分巻有后续分巻,如果该属性值为否,则该文件包分巻为其所属同组文件包分巻的最后一个文件包分巻;当一个文件包分巻的所述是否有后续分巻属性为否时,则不将该文件包较。20、根据权利要求16所述的系统,其特征在于,所述各文件包分巻的识别信息还包括所述文件包分巻的分巻大小。21、根据权利要求20所述的系统,其特征在于,所述识别单元为综合识别单元,用于当分巻号相邻的文件包分巻中,分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性相同,并且,所述分巻号相邻的文件包分巻的分巻大小相同时,则确定所述分巻号相邻的文件包分巻属于同组文件包分巻;当分巻号相邻的文件包分巻中,分巻号较小的文件包分巻的文件列表中最后一个文件的文件属性,与分巻号较大的文件包分巻的文件列表中第一个文件的文件属性不相同,或者,所述分巻号相邻的文件包分巻的分巻大小不相同时,则确定所述分巻号相邻的文件包分巻不属于同组文件包分巻。22、根据权利要求16至21中任一项所述的系统,其特征在于,该系统进一步包括建立单元,用于建立属于同组的各文件包分巻之间的关联。23、根据权利要求22所述的系统,其特征在于,所述建立单元包括CID计算子单元,用于根据预设算法计算获得属于同组的各文件包分巻的内容签名CID,所述CID用于唯一标识每一个文件包分巻;所述预设算法为对不同的二进制文件的内容数据进行处理能得到不同处理结果的算法;第一建立子单元,用于建立各文件包分巻的CID之间的对应关系。24、根据权利要求22所述的系统,其特征在于,所述建立单元包括组签名获取子单元,用于获得一个组签名,所述组签名为所述属于同组的文件包分巻的共同标识;第二建立子单元,用于建立所述组签名及所述属于同组的各文件包分巻之间的关联。25、根据权利要求24所述的系统,其特征在于所述建立单元还包括CID计算子单元,用于根据预^L算法计算获得属于同组的各文件包分巻的内容签名CID,所述CID用于唯一标识每一个文件包分巻;所述预设算法为对不同的二进制文件的内容数据进行处理能得到不同处理结果的算法;所述组签名获取子单元为GID生成子单元,用于才艮据所述CID,获得所述文件包分巻所在组的组签名GID;所述第二建立子单元为组建立子单元,用于建立所述组签名GID及所述属于同组的各文件包分巻CID之间的关联。26、根据权利要求25所述的系统,其特征在于所述GID生成子单元为GID第一子单元,用于选取属于同组文件包分巻中分巻号最小的文件包分巻的CID作为该组文件包分巻的组签名GID;或所述GID生成子单元为GID第二子单元,用于将所述属于同组的各文件包分巻的内容签名CID组合为一个CID集合,将根据所述预设算法计算所述CID集合得到的值,作为该组文件包分巻的组签名GID。27、根据权利要求22所述的系统,其特征在于,该系统还包括第一搜索单元,用于当用户通过关键字搜索文件包分巻时,从预设的分巻相关信息与分巻搜索信息的对应关系中,查找与所述关键字匹配的分巻搜索信息;及第一返回单元,用于根据所建立的属于同组的各文件包分巻之间的关联,将查找到的与所述关键字匹配的分巻搜索信息中,属于同组的多个文件包分巻的分巻相关信息排序在一起作为搜索结果返回。28、根据权利要求24所述的系统,其特征在于,该系统还包括第二搜索单元,用于当用户通过关键字搜索文件包分巻时,从预设的分巻相关信息与分巻搜索信息的对应关系中,查找与所述关键字匹配的分巻搜索信息;第二返回单元,用于根据所述组签名及所述属于同组的各文件包分巻的分巻相关信息之间的关联,将查找到的与所述关键字匹配的分巻搜索信息中,属于同组的多个文件包分巻的分巻相关信息对应的组签名作为搜索结果返回;第三返回单元,用于当用户选择所述组签名时,将所述组签名所对应的属于同组的各文件包分巻的分巻相关信息返回给用户。29、根据权利要求22所述的系统,其特征在于,该系统还包括第一下载单元,用于当用户下载属于所述同组文件包分巻中的其中一个或多个文件包分巻时,根据所述建立单元所建立的属于同组的各文件包分巻之间的关联,获取并返回属于同组的其他文件包分巻的分巻相关信息;或第二下载单元,用于当用户下载属于所述同组文件包分巻中的其中一个或多个文件包分巻时,根据所述建立单元所建立的属于同组的各文件包分巻之间的关联,获取属于同组的其他文件包分巻的存放地址,并建立下载任务。30、根据权利要求27至29中任一项所述的系统,其特征在于,所述分巻相关^f言息为各文件包分巻对应的描述信息^或统一资源定位符URL存放地址。全文摘要本发明实施例公开了一种文件包分卷的识别方法及系统。所述文件包分卷识别方法包括获取多个文件包分卷中的各文件包分卷的识别信息,所述识别信息包括所述各文件包分卷的分卷号与文件列表,所述分卷号为生成文件包分卷时各文件包分卷在同组文件包分卷中的序号,所述文件列表记录了各文件包分卷所存储文件的属性信息;根据所获取的各文件包分卷识别信息识别所述多个文件包分卷是否属于同组文件包分卷。文档编号G06F17/30GK101350837SQ20081021393公开日2009年1月21日申请日期2008年8月28日优先权日2008年8月28日发明者张国强,陈晓东申请人:深圳市迅雷网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1