文件的组织、检索方法

文档序号:6458775阅读:193来源:国知局
专利名称:文件的组织、检索方法
技术领域
本发明涉及通信领域,尤其涉及一种文件的组织方法, 一种文件的检索方 法, 一种文件组织模块及一种文件检索系统。
背景技术
现在电信行业,尤其是海外电信行业,用户的消费及金额相关信息都要求 在帐单上显示提供给用户,同时在帐单上可刊登或插页广告,以告之用户新的 活动、新的优惠政策,或进行其他的市场宣传。帐单在转换打印或通过工具展 现之前,是以文件的形式存储在存储模块上,这类文件称为帐单文件,帐单文件具有以下特点 AI、文件小; A2、文件数量多; A3、查找定位一个文件效率j氐; A4 、修改每一个文件的内容效率低;A5、占用的存储空间大。 ' 一方面,文件数量太多,浪费了文件系统的存储节点(存储空间); 另一方面,大量的文件进行查找定位时,效率低,在具体应用时,在业务 运营支撑系统(Business Operation Support System, BOSS )中,帐单文件由于查 找定位效率低,使得帐单文件的打印(展现)与重打印速度慢,降低了用户对 帐单业务的体验满意度。发明内容本发明实施例所要解决的技术问题在于,提供了一种文件的组织方法,一 种文件的检索方法, 一种文件组织模块及一种文件检索系统,可解决由于文件 数量太多,造成的存储空间浪费的问题以及文件定位效率低的问题。为了解决上述技术问题,本发明实施例提出了一种文件的组织方法,包括获得至少一个文件集合;将所述每一个文件集合中的所有文件合并到 一个存储节点下; 建立用于检索所述存储节点下合并的文件的索引。 本发明实施例还提供了一种文件的检索方法,包括 接收对存储节点下合并的文件集合中的文件进行读取的读取请求; 接收对存储节点下合并的文件集合中的文件进行读取的读取请求; 根据所述读取请求,获得用于检索所述存储节点下合并的文件集合中的文 件的索引以及所述文件集合;输出所述文件集合中与所述索引对应的文件。相应地,本发明实施例还提供了一种文件组织模块,该文件组织模块包括 获取子模块,获得至少一个文件集合;合并子模块,将所述每一个文件集合中的所有文件合并到一个存储节点下; 索引建立子模块,建立用于检索所述存储节点下合并的文件的索引。 相应地,本发明实施例还提供了一种文件;险索系统,包括 存储模块,该存储模块对应至少一个存储节点,存储有用于检索所述存储 节点下合并的文件集合中的文件的索引以及所述文件集合;总控模块,接收对存储节点下合并的文件集合中的文件进行读取的读取请 求,并根据该读取请求输出对应的控制信息;文件检索模块,根据所述总控模块的控制信息,从存储模块中获得用于检 索所述存储节点下合并的文件集合中的文件的索引以及所述文件集合,输出所 述索引及文件集合;输出模块,输出所述文件集合中与所述索引对应的文件。 本发明实施例通过获得至少一个文件集合,并将所述每一个文件集合中的 所有文件合并到一个存储节点下,建立用于^r索所述存储节点下合并的文件的 索引,从而解决由于文件凄t量太多,造成的存储空间浪费的问题;并在上述构 造的文件与索引存储关系的基础上,接收对存储节点下合并的文件集合中的文 件进行读取的读取请求,并根据用于检索所述存储节点下合并的文件集合中的 文件的索引,查找并输出所述读取请求对应的文件,可解决文件定位效率低的 问题,提高了用户的体验满意度。 ,


图1是本发明实施例的文件的组织方法的示意图;图2是本发明实施例建立的文件存储结构示意图; 图3是本发明实施例的文件的检索方法的示意图; 图4是本发明实施例的文件组织模块的示意图; 图5是本发明实施例的文件检索系统的示意图。
具体实施方式
本发明实施例提供了一种文件的组织方法, 一种文件的检索方法, 一种文 件组织模块及一种文件检索系统,可解决由于文件数量太多,造成的存储空间 浪费的问题以及文件定位效率低的问题。下面结合附图,对本发明实施例进行详细说明。图1是本发明实施例的文件的组织方法的示意图,该方法主要包括如下流程101, 对文件进行分类,得到至少一个文件集合,每一个文件集合与每一个 分类结果对应,即形成某一类或几类的文件集合,具体实现时,可采用"^合希(hash) 算法对文件进行分类,但不仅限于此;102, 为各类文件集合建立目录结构,该目录结构中的目录文件与每一类文 件集合相对应,具体实现时,可采用hash算法为各类文件集合建立目录结构, 但不仅限于此;103, 获得上述各类文件集合,将每一类文件集合中的所有文件合并到一个 存储节点下;104, 建立用于检索所述存储节点下合并的文件的索引,在具体实现时,索 引组织可采用B+树的形式,在下面的内容中也同样适用本说明。上述步骤建立出的文件存储结构可如图2所示,其中包括总的目录结构f(y)、 目录结构下的目录中的文件f(x)、索引(idx文件)、打包压缩节点(.tar.gz)、合 并的文件(编号从1.256900到1.659900,编号从1.348699到1.648699等)。作为一种实施方式,上述103、 104步骤之间还可以包括将合并后的每个存储节点下的文件进行打包压缩。另外,上述IOI、 102步骤可根据实际情况选择适用。作为一种实施方式,当要添加、删除或修改所述建立的文件的存储结构中 的文件时,可根据所述文件的添加、删除或修改操作,更新该文件对应的索引(idx文件),对该索? 1进行维护。作为一种实施方式,上述文件可以是帐单文件,或其他类型的文件。 实施如图1所示的本发明实施例的文件的组织方法,通过对文件进行分类、建立目录结构、在一存储节点下合并、建立索引等操作,可解决由于文件数量太多,造成的存储空间浪费的问题。图3是本发明实施例的文件的检索方法的示意图,该方法基于图1所示建 立的文件的存储结构,参照图3,该方法主要包括301,总控模块接收帐单展现处理模块的对存储节点下合并的文件集合中的 帐单文件进行读耳又的读取请求,具体实现时,该读取请求可以是帐单文件的打 印请求或重打印请求,但不仅限于此;302, 总控模块判断所述读取请求是否在已有的请求队列中,若是,则直接 将请求队列号通知文件输出模块,然后文件输出模块直接将帐单文件以文件流 的方式传给帐单展现处理模块,完成帐单展现,否则执行步骤303;需要说明的是,本发明实施例所设定的请求队列可实现最近使用的帐单文 件在请求队列中緩存,以快速调度出该帐单文件到帐单展现处理模块中进行处 理,而请求队列中长期不使用的帐单文件可定时清除,具体实现时,可设定一 时间,当超过该设定时间时清除该帐单文件以节约请求队列资源;303, 总控模块根据所述读取请求,控制文件检索模块从存储模块中获得用 于检索所述存储节点下合并的文件集合中的帐单文件的索引以及所述文件集 合,具体实现时,总控模块在进行所述控制时产生对所述文件;险索;f莫块的控制 信息中包括所述读取请求及索引键值,文件检索模块即可根据索引键值检索出 所述索引及文件集合;304, 文件检索模块将获得的所述索引及文件集合传送给文件输出模块;305, 文件输出模块读入文件检索模块传来的文件集合及索引,根据索引选 取文件集合中对应的帐单文件;306, 文件输出模块将所述帐单文件以文件流的方式传给帐单展现处理模 块,从而帐单展现处理模块可触发对所述帐单文件进行打印或重打印操作,完 成帐单展现。作为一种实施方式,当所述文件检索模块未从存储模块中获得所述索引以及文件集合时,上述本发明实施例的文件的检索方法还可以包括如下流程307, 总控模块获得文件检索模块返回的获得结果信息,该获得结果信息指 示所述文件检索模块未从所述存储模块中获得所述索引以及文件集合;308, 总控模块控制文件生成模块生成所述用户的帐单文件;309,总控模块同时控制文件组织模块进行图1所示的将所述生成的帐单文 件进行组织处理;310, 总控模块将所述生成的帐单文件对应的索引发送到文件检索模块;311, 文件生成模块将生成的所述用户的帐单文件发送到文件组织模块,文 件组织才莫块即可根据图1所示的文件的组织方法的流程对生成的帐单文件进行 处理;312,文件组织模块将处理后的帐单文件发送到存储模块进行存储。在312之后,文件检索模块即可从所述存储模块获得上述生成的帐单文件, 加总控模块在310发送的索引,文件检索模块即可执行304的对应功能,完成 帐单展现。 ,作为一种实施方式,当所述帐单文件以压缩包形式存在时,即各文件集合 被打包压缩时,上述步骤305具体为文件输出模块读入文件检索模块传来的文件集合及索引(该文件集合中的 帐单文件以压缩包形式存在)后,解压缩所述文件集合中与所述索引对应的帐 单文件,然后以所述解压缩得到的帐单文件进行306的处理,为提高效率,此 处可根据索引进行索引对应帐单文件的部分解压缩,而不需要对所述文件集合 全部进行解压缩。实施如图3所示的本发明实施例的文件的检索方法,通过接收对存储节点 下合并的文件集合中的文件进行读取的读取请求,根据用于检索所述存储节点 下合并的文件集合中的文件的索引,获得并输出所述读取请求对应的文件,可 文件定位效率低的问题;采用了总控与模块调度机制,更能实现按需的快速调 度,提高了用户的体验满意度。相应地,下面对本发明实施例的才莫块及系统进行说明。图4是本发明实施例的文件组织模块的示意图,参照该图,该文件组织模 块包括有分类子模块41、目录建立子模块42、获取子模块43、合并子模块44、索引建立子模块45,各子模块的功能如下述分类子模块41,用于对文件进行分类,得到至少一个文件集合,每一个文 件集合与每一个分类结果对应,即形成某一类或几类的文件集合;目录建立子模块42,用于为分类子模块41分类处理所得各类文件集合建立 目录结构,该目录结构中的目录文件与每一类文件集合相对应;在具体实现时,所述分类子^^块41的分类处理或目录建立子^t块42的建 立目录结构的处理采用的算法可以是hash算法;获取子模块43,用于获得所述分类子模块41分类处理所得的各类文件集合;合并子模块44,用于将获取子模块43获得的每一类文件集合中的所有文件 合并到一个存储节点下;索引建立子模块45,建立用于检索所述存储节点下合并的文件的索引,在 具体实现时,索引组织可采用B+树的形式,在下面的内容中也同样适用本说明。上述各功能单元执行对应功能,建立出的文件存储结构可仍如图2所示。作为一种实施方式,所述合并子模块44中的合并的每一类文件集合中的所 有文件可由 一打包压缩子模块进行打包压缩。另外,上述分类子模块41、目录建立子模块42可根据实际情况选择采用。作为一种实施方式,当要添加、删除或修改所述建立的文件的存储结构中 的文件时,可根据所述文件的添加、删除或修改操作,由索引维护子模块更新 该文件对应的索引(idx文件),对该索引进行维护。作为一种实施方式,上述文件可以是帐单文件,或其他类型的文件。实施如图4所示的本发明实施例的文件组织模块,通过由不同子模块对文 件进行分类、建立目录结构、在一存储节点下合并、建立索引等操作,可解决 由于文件数量太多,造成的存储空间浪费的问题。在上述本发明实施例的文件组织模块构造的文件的存储结构的基础上,本 发明实施例还提供了 一种存储模块,存储有上述构造的文件的存储结构。图5是本发明实施例的文件检索系统的示意图,参照该图,该系统主要包 括存储模块51、总控模块52、文件检索模块53、文件生成模块54、文件组织 模块55、文件输出模块56,各模块功能如下述存储模块51,该存储模块51对应至少一个存储节点,存储有用于检索所述 存储节点下合并的文件集合中的帐单文件的索引以及所述文件集合,该存储模块51中的帐单文件的存储结构可仍如图2所示,此处不再赘述;总控模块52中的接收子模块,接收帐单展现处理模块的对存储模块51中 存储节点下合并的文件集合中的帐单文件进行读取的读取请求,该读取请求可 以是对帐单文件的打印请求或重打印请求;总控模块52中的控制子模块,判断所述读取请求对应的帐单文件是否在请 求队列,若是,则输出用于控制将所述读取请求对应的帐单文件输出的第一控 制信息,该第一控制信息中携带有请求队列号,否则,输出用于控制所述文件 检索模块53从存储模块51中获得用于检索所述存储节点下合并的文件集合中 的帐单文件的索引以及所述文件集合的第二控制信息,该第二控制信息中包括 有所述读取请求及索引键值,文件检索模块53即可根据索引键值检索出所述索 引及文件集合;文件输出模块56,根据所述第一控制信息,直接将帐单文件以文件流的方 式传给帐单展现处理模块,帐单展现处理模块中可包括帐单展现处理程序;文件检索模块53,根据所述第二控制信息,从存储模块51中获得用于^f企索 所述存储节点下合并的文件集合中的帐单文件的索引以及所述文件集合,并将 获得的所述索引及文件集合传送给文件输出模块56;文件输出模块56,读入文件检索模块53传来的文件集合及索引,根据索引 选取文件集合中对应的帐单文件,并将所述帐单文件以文件流的方式传给帐单 展现处理模块,从而帐单展现处理模块触发根据所述帐单文件进行的打印或重 打印操作,完成帐单展现;总控模块52中的控制子模块,在获得文件检索模块53返回的获得结果信 息后,该获得结果信息指示所述文件检索模块53从存储模块51中未获得所述 索引以及所述文件集合,向文件生成模块54发送用于控制生成所迷用户的帐单 文件的第三控制信息;文件生成模块54,根据所述总控模块52的第三控制信息生成所述用户的帐 单文件,该文件生成模块54中可包括文件生成程序;文件组织模块55,根据所述总控模块52的第四控制信息,将所述文件生成 模块54生成的帐单文件进行组织处理后存放到所述存储模块51中,文件组织 模块55即可根据图4所示的文件组织模块的功能对生成的帐单文件进行处理, 并将处理后的帐单文件发送到存储模块51进行存储;文件检索模块53即可从所述存储模块51获得上述生成的帐单文件,加总 控模块52发送的索引,文件检索模块53即可获得用于检索所述存储节点下合 并的文件集合中的帐单文件的索引以及所述文件集合,并将获得的所述索引及 文件集合传送给文件输出模块56,从而完成帐单展现。作为一种实施方式,当所述帐单文件以压缩包形式存在时,即各文件集合 被打包压缩时,上述文件输出模块56具体包括压缩流处理模块,读入文件检索模块53传来的文件集合及索引(该文件集 合中的帐单文件以压缩包形式存在)后,解压缩所述文件集合中与所述索引对 应的帐单文件;输出模块,将所述压缩流处理模块解压缩得到的所述帐单文件以文件流的 方式传给帐单展现处理模块。作为一种实施方式,上述文件检索系统可应用于BOSS中的帐单展现子系 统中。值得说明的是,上述文件生成模块54、文件组织模块55可根据实际情况选 择采用,当不采用文件组织模块55时,可采用固定的格式组织上述帐单文件。实施如图5所示的本发明实施例的文件检索系统,通过不同模块接收对存 储节点下合并的文件集合中的文件进行读取的读取请求,根据用于检索所述存 储节点下合并的文件集合中的文件的索引,获得并输出所述读取请求对应的文 件,可文件定位效率低的问题;采用了总控与模块调度机制,更能实现按需的 快速调度,提高了用户的体验满意度。流程,是可以通过程序来指令相关的硬件来完成,所述的程序可存储于一计算 机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。 其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(RandomAccess Memory, RAM)等。以上所述是本发明的具体实施方式
,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这 些改进和润饰也视为本发明的保护范围。
权利要求
1、一种文件的组织方法,其特征在于,包括获得至少一个文件集合;将所述每一个文件集合中的所有文件合并到一个存储节点下;建立用于检索所述存储节点下合并的文件的索引。
2、 如权利要求1所述的文件的组织方法,其特征在于,该方法还包括 对文件进行分类,得到所述至少一个文件集合,所述每一个文件集合与所述每一个分类结果对应。
3、 如权利要求1所述的文件的组织方法,其特征在于,该方法还包括: 为所述至少一个文件集合建立目录结构,所述每一个目录结构中的目录文件与所述每一个文件集合对应。
4、 如权利要求2或3所述的文件的组织方法,其特征在于,该方法采用哈 希算法进行分类或建立目录结构。
5、 如权利要求1至3中任一项所迷的文件的组织方法,其特征在于,该方 法还包括打包压缩所述合并的文件。
6、 如权利要求1至3中任一项所述的文件的组织方法,其特征在于,该方 法还包括根据所述文件的添加、删除或修改操作,更新该文件对应的索引。
7、 一种文件的检索方法,其特征在于,包括 接收对存储节点下合并的文件集合中的文件进行读取的读取请求; 根据所述读取请求,获得用于检索所述存储节点下合并的文件集合中的文件的索引以及所述文件集合;输出所述文件集合中与所述索引对应的文件。
8、 如权利要求7所述的文件的检索方法,其特征在于,所述方法还包括 判断所述读取请求对应的文件是否在请求队列,若是,则将该请求队列中所述读取请求对应的文件输出。
9、 如权利要求7所述的文件的检索方法,其特征在于,所述方法还包括 当未获得所述索引以及所述文件集合时,生成所述文件,并将该生成的文件对应索引输出;将所述生成的文件进行组织处理并进行存储,获得该存储的文件。
10、 如权利要求7所述的文件的检索方法,其特征在于,当所述文件以压 缩包形式存在时,所述输出所述文件集合中与所述索引对应的文件具体包括解压缩所述文件集合中与所述索引对应的文件; 输出所述解压缩得到的文件。
11、 如权利要求7至9中任一项所述的文件的检索方法,其特征在于,所 述文件为帐单文件。
12、 一种文件组织模块,其特征在于,该文件组织模块包括 获取子模块,获得至少一个文件集合;合并子模块,将所述每一个文件集合中的所有文件合并到一个存储节点下; 索引建立子模块,建立用于检索所述存储节点下合并的文件的索引。
13、 如权利要求12所迷的文件组织模块,其特征在于,该文件组织模块还 包括分类子模块,对文件进行分类,得到所述至少一个文件集合,所述每一个 文件集合与所述每一个分类结果对应。
14、 如权利要求12所述的文件组织模块,其特征在于,该文件组织模块还包括目录建立子模块,为所述至少一个文件集合建立目录结构,所述每一个目 录结构中的目录文件与所述每一个文件集合对应。
15、 一种文件^r索系统,其特征在于,包括存储模块,该存储模块对应至少一个存储节点,存储有用于检索所述存储 节点下合并的文件集合中的文件的索引以及所述文件集合;总控模块,接收对存储节点下合并的文件集合中的文件进行读取的读取请 求,并才艮据该读取请求输出对应的控制信息;文件检索模块,根据所述总控模块的控制信息,从存储模块中获得用于检 索所述存储节点下合并的文件集合中的文件的索引以及所述文件集合,输出所 述索引及文件集合;文件输出模块,输出所述文件集合中与所述索引对应的文件。
16、 如权利要求15所述的文件检索系统,其特征在于,所述总控模块包括 接收子模块,接收所述读取请求;控制子模块,判断所述读取请求对应的文件是否在请求队列,若是,则输 出用于控制将该请求队列中所述读耳义请求对应的文件输出的第一控制信息,否 则,输出用于控制所述文件检索模块从存储模块中获得用于检索所述存储节点 下合并的文件集合中的文件的索引以及所述文件集合的第二控制信息。
17、 如权利要求15所述的文件检索系统,其特征在于,该系统还包括 文件生成模块,当所述文件检索模块未获得所述索引以及所述文件集合时,根据所述总控模块的第三控制信息生成所述文件;文件组织模块,将所述文件生成模块生成的文件进行组织处理后存储到所 述存储模块中。
18、 如权利要求15所述的文件检索系统,其特征在于,当所迷文件以压缩 包形式存在时,所述文件输出模块包括压缩流处理模块,解压缩所述文件集合中与所述索引对应的文件;和user—c@askother. com(309)进行通讯,用户B (102)与问答系统上的10. 10. 10. 1: :8080 (310)进行通讯,用户C (103)与问答系统上的80000 (311)和80001 (312)进行通讯。 在这个例子中,ask@askother. corn是问答系统上的一个公共通讯地址,用于所有电子邮件 用户的提交问题,而80000是问答系统上的一个公共通讯地址,用于所有短消息用户的提 交问题。当用户A (101)发送提问到问答系统的通讯地址ask@askother.com (307)时,因为 该地址是专门用于提交问题的,因此问答系统知道这是一个提问,因此会将此问题转交给 问题分析模块(112);当用户A(101)发送信息到问答系统的通讯地址user—b@askother. com(308) 时,査找此路由表可以知道该信息需要转发给用户B (102),因此问答系统将此信 息转发到用户B( 102);当用户A( 101 )发送信息到问答系统的通讯地址user—c@askother. com(309) 时,査找此路由表可以知道该信息需要转发给用户C (102),因此问答系统将此信 息转发到用户C (103)。由于用户B是一个互联网络浏览器用户,当用户B (102)发送信 息到问答系统的通讯地址10. 10. 10. 1: :8080 (310)时,其信息的内容包含足够的信息供问 答系统判断需要将此消息转发到与之交互的那个用户,或者这个信息是一个提问信息。因 此,在路由表中,为用户B设置的表项中并没有明确的目的用户及其地址(316)。当用户C(103)发送提问到问答系统的通讯地址80000 (311)时,因为该地址也是专门用于提交问 题的,因此问答系统知道这是一个提问,因此会将此问题转交给问题分析模块(112);当用 户C (103)发送提问到问答系统的通讯地址80001 (312)时,査找此路由表可以知道该信 息需要转发给用户A (101),因此问答系统将此信息转发到用户A (101)对应的地址 user—a@hotmail. com (318)。当交互双方不再针对对应于某一通讯地址的问题进行交互时,此通讯地址变得无效或 用作其他用途。在本实施例中,如果交互双方在一定时间内没有任何交互,则对应的路由 关系将会被删除。举例来说,如果用户C (103)和用户A (101)之间在一定时间后(比如 30分钟)没有任何交互,如果用户C (103)仍然发送信息到地址80001 (312),这些信息 将不再转发到用户A (101)的地址user—a@hotmail.com (318)。本实施例中,当相互交换的两个用户之间采用不同的通讯协议时,用户接口模块还包 含协议转换部分,以保证采用不同接入方式的用户之间也可以顺利交互。上述提问用户与 问题解答用户之间针对当前问题的交互,均通过对应的通讯地址发送到问答系统并转发到 对方。在图1所示的实施例中,用户A (101)作为一个提问用户,利用不同的通讯地址通过
全文摘要
本发明实施例公开了一种文件的组织方法,包括获得至少一个文件集合,并将所述每一个文件集合中的所有文件合并到一个存储节点下,建立用于检索所述存储节点下合并的文件的索引。本发明实施例还公开了一种文件的检索方法以及模块、系统。采用本发明实施例,可解决由于文件数量太多,造成的存储空间浪费的问题,且简单易行。
文档编号G06F17/30GK101226546SQ20081002623
公开日2008年7月23日 申请日期2008年2月1日 优先权日2008年2月1日
发明者杨文滔, 窦克刚 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1