用于对内容进行离线索引和对存储的数据进行分类的方法和系统的制作方法

文档序号:6456279阅读:158来源:国知局
专利名称:用于对内容进行离线索引和对存储的数据进行分类的方法和系统的制作方法
用于对内容进行离线索引和 对存储的数据进行分类的方法和系统
对相关申请的交叉引用需要一种克服了上面的问题,并能提供额外的好处的系统。


图3是显示了一个实施例中的系统的内容索引組件的 处理的流程图。图4是显示了一个实施例中的系统的索引搜索組件的 处理的流程图。机构的成员可以搜索创建的索引,以定位不再可用或基 于关联的属性的内容。例如,用户可以搜索与一年前取消的工程相关 的内容。如此,用户可以发现在传统的内容索引系统中不可用的额外 的机构数据。此外,通过使用辅助副本,内容索引不会影响作为内容 的原始来源的系统的可用性。如上文所讨论的,离线内容索引系统可以创建辅助副本, 如离线副本,作为由机构执行的现有的备份日程表的一部分。例如, 机构可以执行每周的备份,这些备份包含机构的数据的完整的副本。 离线内容索引系统一般不需要消耗机构内的包含源内容的计算机系 统的任何进一步的资源,因为在备份数据文件中通常有所有所需要的 数据可用。离线内容索引系统可以将备份的数据恢复到对于机构的操 作不关键的中间计算机系统,也可以对备份数据文件直接进行操作, 以标识和索引内容。离线内容索引系统也可以使用不同于传统的备份的数据的副本,如快照、主副本、辅助副本、辅助副本等等,来创建 离线副本。在某些实施例中,离线内容索引系统可以推迟进行内容 索引,直到执行了其他存储操作。例如, 一个存储操作,叫做单一实 例化,可以减少或删去由包含相同操作系统或应用程序文件的许多系 统所引起的备份数据中包含的冗余文件。通过推迟进行内容索引,直 到发生单一实例化之后,离线内容索引系统不必搜索同样多的数据, 可以更快地完成索引过程,对机构的系统的负担稍小。存储策略或其 他系统参数设置或首选项可以定义如何以及何时进行内容索引,以及 在进行内容索引之前和之后执行什么其他操作(例如,在单一实例化 之后对内容进行索引)。存储策略是存储了有关存储操作的参数的信 息的数据结构。例如,存储策略可以定义只索引某些内容,或者,内 容索引应该在深夜当系统资源充足时进行。在某些实施例中,离线内容索引系统提供了预测内容的 可用性的搜索结果。例如,可能必须查找存储在现场以外的内容,运 回,然后加载回机构的系统中,然后,才能访问。离线内容索引系统
据立即提供有关内容的有限信息的时间估计值。例如,内容索引系统 可以维护一个硬件的数据库和对机构可用的介质的库,以及这些项目 中的每一个项目的当前位置,以便可以生成估计值,用于检索硬件或 介质的库。例如,某些磁带库在指定的时间段之后可以存储现场以外,
更长的时间检索。类似地,离线内容索引系统可能估计,存储:磁带 上的数据要比通过网络检索磁存储器上的数据花费更长的时间。 图形图1以及下面的讨论提供了其中可以实现本发明的合 适的计算环境的简要的一般说明。虽然不是必需的,本发明的各个方 面在计算机可执行的指令的一般上下文,如由诸如服务器计算机、无 线设备或个人计算机之类的通用计算机执行的例程中描述。那些本领 域技术人员将认识到,可以利用其他通信、数据处理或计算机系统配 置来实施本发明,包括因特网设备、手提式设备(包括个人数字助 理(PDA))、便携式计算机、各种各样的蜂窝式或移动电话、多处理 器系统、基于微处理器的或可编程的家用电器、机顶盒、网络PC、 微型计算机、大型计算机等等。确实,水语"计算机"、"主机,,,以及"主机计算机"这里一般可互换地使用,是指上述设备和系统中的任何 一个,以及任何数据处理器。图2是显示了一个实施例中的流过系统100的数据流 的方框图。内容最初存储在数据服务器210上,数据服务器210可 以是用户计算机、数据仓库服务器,或通过网络可访问的其他信息存 储器。数据可以由备份管理器220进行访问,以进行数据的常规备 份。备份管理器220可以位于数据服务器210内,或者,也可以是 单独的组件,如图所示。例如,备份管理器220可以是专用于管理 备份或其他存储操作的服务器的一部分。备份数据存储在备份数据存 储装置230中,如连接网络的存储设备、备份服务器、磁带库或数 据仓库中。内容索引系统240从备份数据存储装置230访问数据,以执行上文所描述的功能。如图所示,因为内容索引系统240用于 处理数据的离线副本,因此,原始数据服务器210不会受到内容索 引系统240的操作的负面影响。根据前面的描述,应该了解,这里描述的离线内容索引 系统的特定实施例只是为了说明,但是,在不偏离本发明的精神和范 围的情况下,可以进4亍各种修改。例如,Web页面常常不可用,它 们的内容可能会变化,以致于可以使用离线内容索引系统,以检索对 进行历史分析有用的内容的时间点副本。作为另一个示例,虽然已经 描述了文件,但是,可以由系统索引其他内容类型,如用户设置、应 用程序数据、电子邮件,及其他数据对象。相应地,本发明不受限制, 除非如所附的权利要求所述的那样。尽管下面以 一 定的权利要求的形式呈现本发明的某些方 面的,但是,发明人预期,可以存在任意数量的权利要求形式的本发 明的各个方面。例如,尽管只列举了以计算机可读的介质实现的本发 明的一个方面,但是,其他方面同样也可以以计算机可读的介质来实 现。相应地,发明人保留在提交申请之后添加更多的权利要求的权利, 以追加本发明的其他方面的更多的权利要求的形式。
权利要求
1.一种用于在驻留在专用计算机网络内的数据管理系统中索引内容的方法,包括从所述专用计算机网络选择内容的离线副本,其中,所述内容的离线副本是内容的副本,不是内容的制作副本,其中,所述制作副本能够从所述专用计算机网络内的实时数据服务器中获得;标识所述离线副本内的至少某些内容;以及基于所述标识的内容创建或更新内容索引。
2. 根据权利要求1所述的方法,其中,选择离线副本包括检查 备份数据。
3. 根据权利要求1所述的方法,其中,选择离线副本包括检查 变化日志。
4. 根据权利要求1所述的方法,其中,选择离线副本包括检查 数据快照。
5. 根据权利要求1所述的方法,其中,更新内容索引包括响应 于接收到搜索请求,更新所述内容索引。
6. 根据权利要求1所述的方法,其中,更新内容索引包括响应 索引更新策略更新所述内容索引。
7. 根据权利要求1所述的方法,进一步包括,在更新所述内容 索引之前,删去所述选择的离线副本内的重复内容。
8. 根据权利要求1所述的方法,其中,更新内容索引包括,基 于对所述内容的增量更改逐渐地更新所述内容索引。
9. 一种包含控制计算机系统标识存档的内容的指令的计算机可 读的介质,其中通过包括下列步骤的方法来控制计算机系统标识存档 的内容接收搜索请求,其中,所述搜索请求包含用于查找目标内容的条件;搜索目标内容的内容索引以创建搜索结果,其中,所述内容索引包含标识从安装的磁盘介质或更快的介质不可用的至少一个内容项目的信息;对于标识从安装的磁盘介质或更快的介质不可用的内容项目的 搜索结果,从存档位置检索所述目标内容;以及 响应所述搜索请求提供所述搜索结果。
10. 根据权利要求9所述的计算机可读的介质,其中,搜索内 容索引包括基于用户添加的属性进行搜索。
11. 根据权利要求9所述的计算机可读的介质,其中,搜索内 容索引包括接收与所述内容相关的可用性条件,基于有关所述内容的 可用性的信息进行搜索,并生成指示访问所述内容所需的时间的搜索 结果。
12. 根据权利要求9所述的计算机可读的介质,其中,搜索内 容索引包括接收删除的内容最后可用的时间范围,基于删除所述内容 的时间进行搜索,并生成用于访问所述删除的内容的搜索结果。
13. 根据权利要求9所述的计算机可读的介质,其中,搜索内 容索引包括基于时间范围进行搜索。
14. 根据权利要求9所述的计算机可读的介质,其中,搜索内 容索引包括搜索所述内容的参考副本。
15. 根据权利要求9所述的计算机可读的介质,进一步包括, 在接收到所述搜索请求之后,基于系统中可用的内容动态地创建所述 内容索引。
16. —种用于索引和搜索内容的计算机系统,包括 被配置为选择所述内容的离线副本的离线副本组件; 被配置为基于所述选择的所述内容的离线副本来创建和更新内容索引的内容索引组件;以及被配置为基于接收到的搜索查询,标识索引的内容的索引搜索组件,其中,创建所述内容的索引时不会消耗作为所述内容的源的系统 的额外的资源。
17. 根据权利要求16所述的系统,其中,所述内容索引组件对 经过加密的内容进行解密。
18. 根据权利要求16所述的系统,其中,所述内容索引组件基 于索引策略来更新所述内容索引。
19. 根据权利要求16所述的系统,进一步包括被配置为对内容 进行分类并将分类添加到所述内容索引中的数据分类组件。
20. 根据权利要求16所述的系统,其中,所述内容索引组件基 于访问多个离线副本中的每一个副本所需的时间,从数据的多个离线 副本中选择副本用于进行索引。
21. —种用于在驻留在专用计算机网络内的数据管理系统中索 引内容的方法,包括从所述专用计算机网络选择内容的离线副本,其中,所述内容的 离线副本是内容的副本,不是内容的制作副本,并且其中,所述制作 副本能够从所述专用计算机网络内的实时数据服务器中获得;标识所述离线副本内的至少某些内容;以及通过基于所述标识的内容的属性对所述标识的内容进行分类来 更新内容索引。
22. 根据权利要求21所述的方法,其中,更新所述内容索引包 括确定所述标识的内容的保护的状态。
23. 根据权利要求21所述的方法,其中,更新所述内容索引包 括判断所述标识的内容是否是经过加密的。
24. 根据权利要求21所述的方法,其中,更新所述内容索引包 括判断所述标识的内容是否具有关联的访问控制信息。
25. 根据权利要求21所述的方法,其中,更新所述内容索引包 括确定其中存储所述标识的内容的网络的拓朴。
26. 根据权利要求21所述的方法,其中,更新所述内容索引包 括判断所述标识的内容是否包含一个或多个指定的关键字。
27. 根据权利要求21所述的方法,进一步包括,在更新所述内 容索引之前,删去所述选择的离线副本内的重复内容。
28. 根据权利要求21所述的方法,其中,更新内容索引包括, 基于对所述内容的增量更改逐渐地更新所述内容索引。
29. —种包含控制计算机系统标识存档的内容的指令的计算机 可读的介质,其中通过包括下列步骤的方法来控制计算机系统标识存 档的内容接收搜索请求,其中,所述搜索请求包含与目标内容关联的分类; 搜索目标内容的内容索引以创建搜索结果,其中,所述内容索引包含标识从安装的磁盘介质或更快的介质不可用的至少一个内容项 目的信息,其中,所述更快的介质具有比安装的磁盘介质更快的检索 时间或可^方问性;对于标识从安装的磁盘介质或更快的介质不可用的内容项目的 搜索结果,从存档位置检索有关所述目标内容的信息;以及响应所述搜索请求提供所述搜索结果。
30. 根据权利要求29所述的计算机可读的介质,其中,搜索内 容索引包括基于用户添加的属性进行搜索。
31. 根据权利要求29所述的计算机可读的介质,其中,搜索内 容索引包括接收与所述内容相关的可用性条件,基于有关所述内容的 可用性的信息进行搜索,并生成指示访问所述内容所需的时间的搜索 结果。
32. 根据权利要求29所述的计算机可读的介质,其中,搜索内 容索引包括接收删除的内容最后可用的时间范围,基于删除所述内容 的时间进行搜索,并生成用于访问所迷删除的内容的搜索结果。
33. 根据权利要求29所述的计算机可读的介质,其中,搜索内 容索引包括基于时间范围进行搜索。
34. 根据权利要求29所述的计算机可读的介质,其中,搜索内 容索引包括搜索所述内容的参考副本。
35. 根据权利要求29所述的计算机可读的介质,进一步包括, 在接收到所述搜索请求之后,基于系统中可用的内容动态地创建所述 内容索引。
36. —种用于索引和搜索内容的计算机系统,包括 被配置为选择所述内容的离线副本的离线副本组件; 被配置为将所述内容的内容索引属性存储在所述选择的离线副本内的内容索引组件;以及被配置为基于接收到的搜索查询和存储在所述索引内的属性来 标识索引的内容的索引搜索组件,其中,创建所述内容的索引时不会消耗作为所述内容的原始来源 的系统的额外的资源。
37. 根据权利要求36所述的系统,其中,所述内容索引组件对 经过加密的内容进行解密。
38. 根据权利要求36所述的系统,其中,所述内容索引组件基 于指定在其上应该索引内容的调度表的索引策略,来更新所述内容索 引。
39. 根据权利要求36所述的系统,进一步包括被配置为对内容 进行分类并将分类添加到所述内容索引中的数据分类组件。
40. 根据权利要求36所述的系统,其中,所述内容索引组件基 于访问多个离线副本中的每一个副本所需的时间,从数据的多个离线 副本中选择副本用于进行索引。
全文摘要
于创建内容的索引而不会干涉内容的源的方法和系统包括离线内容索引系统,用于从数据的离线副本创建内容的索引。系统可以将不是内容的传统索引的一部分的额外的属性或标记(如内容最后可用的时间或与内容关联的用户属性)与数据关联。用户可以搜索创建的索引,以定位不再可用或基于关联的属性的内容。
文档编号G06F17/30GK101529419SQ200780038686
公开日2009年9月9日 申请日期2007年10月17日 优先权日2006年10月17日
发明者A·普拉拉德, B·布罗克韦, D·R·阿塔尔德, D·恩戈, J·A·施瓦茨, M·S·穆勒, P·戈卡莱, R·科托姆塔拉耶尔, 安俊玄 申请人:慷孚系统公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1