确定和推荐用于文档的文档控制策略的系统和方法

文档序号:6456306阅读:213来源:国知局
专利名称:确定和推荐用于文档的文档控制策略的系统和方法
技术领域
本公开涉及识别用于给定文档的适当文档控制策略。
背景技术
文档控制策略包括文档访问策略和文档保留策略。文档安全策
略是文档访问策略的一^:例子。文档安全策略是少见则框架内的一个 实例,组织在该规则框架内建立多个必需的文档信息安全级别以获 得特定期望机密性和隐私目标。策略是关于应用于文档内容的权限 和特权、以及任何其他可能分配给或应用于文档的约束的声明。文 档安全策略通常通过DRM (数字权限管理)系统来描述和/或实现。
文档保留策略是组织关于保存数据(尤其是电子文档)的规范 化策略内的一个实例。与之相关的还有文档数据销毁策略,其是组 织关于数据(尤其是电子文档)销毁/数据过期的规范化策略内的一 个实例。文档数据销毁策略是文档保留策略的一种类型。文档保留 策略通常通过记录归档系统来实现。
当 一个文档被创建之后,用户通常手动地施行文档保留和安全 策略,或者使用DRM系统(其中常常需要对新的未知文档进行人工 干预)。另一种方法依赖信息科技工作流/内容管理系统UTW/CMS) 来帮助选择、分配和施行适当的策略。这种工作流和系统常常是高 度定制化的、专门开发来用于公司的特定业务实践,并且利用将安 全和保留策略与预定义文档类别紧密结合的分类系统。

发明内容
本说明书描述了识别用于给定文档的适当文档控制策略的相关 技术。概括地说,本说明书描述的主题的一个方面可以包含于一种方法中,该方法包括确定文档的文体分类,文体分类包括多个项 (term)以及相应分数,每个分数对应一个项,表示该项关于该文档 的置信度水平;通过将文体分类与文档控制策略本体进行比较,来 在文档控制策略本体中识别 一个相关节点;至少部分地基于至少一 个分数评估相关节点的可用性的置信度水平;如果所评估的相关节 点的可用性的置信度水平低于阈值,则在文档控制策略本体中选择 该相关节点的父节点以代表该相关节点;并且基于在文档控制策略 本体中所识别的或所选择的相关节点推荐至少 一 个文档控制策略以 管理对该文档的访问。
确定可以包括使用包括分级知识结构的文档文体本体对所述 文档进行分类,所述分级知识结构包含项和概念的词汇表、以及用 于文档文体分类的表示词汇表项和概念之间的相互关系的推理链; 所述文体分类可以包括所述推理链的子集;以及所述识别可以包4舌 检查与比所述推理链的子集的各项的最低水平高的水平相关联的 项。该方法还包括基于与所述文档控制策略本体中的 一个父节点的 子节点相关联的多个文档控制策略的组合,导出用于所述文档控制 策略本体中的所述父节点的文档控制策略;以及将导出的文档控制 策略与文档控制策略本体中的父节点相关联。
所述导出的文档控制策略可以包括导出的安全策略和导出的保 留策略,并且导出所述文档控制策略可以包括组合与所述父节点 的子节点相关联的安全策略的布尔值,以形成所述导出的安全策略; 以及组合所识别的单独情况以形成所述导出的保留策略,所述所识 别的单独情况是基于与子节点相关联的多个文档控制策略的关联变 量。导出可以包括从与所述文档控制策略本体中的子节点相关联 的多个文档控制策略中导出集合了策略组成的文档控制策略,默认 为更保守的策略组成。此外,所述导出可以包括递归地导出用于所 述文档控制策略本体中的父节点的文档控制策略,直至根节点;并 且其中所述导出和所述关联可以在部署所述文档控制策略本体之前 执行。所述推荐可以包括输出多个推荐的文档控制策略以及对应的来
自所述文档控制策略本体的推理链。所述方法还包括将来自多个
推荐的文档控制策略的最高排名的文档控制策略自动应用于所述文档。
上述方面的其他实施例包括相应的系统、装置和计算机程序产
品。例如, 一种系统可以包括用户接口设备;文档控制组件,包 括包含文档控制策略的分级知识结构,所述文档控制策略包含根据 与父节点的子节点相关联的规则的代数最大值而由所述父节点继承 的至少一个文档控制策略;以及一个或多个计算机,其可操作为与 所述用户接口设备和所述文档控制组件进行交互,以确定文档的文 体分类,将所述文体分类与所述分级知识结构进行比较以在包括所 述父节点的多个节点中识别 一 个相关节点,并且基于在所述分级知 识结构中识别的相关节点推荐至少 一 个文档控制策略,来管理对所 述文档的访问。所述一个或多个计算机可以包括一个个人计算机, 并且所述个人计算机可以包括所述用户接口设备。
所述一个或多个计算机可以包括可操作为通过数据通信网络与
所述用户接口设备进行交互的服务器,并且所述用户接口设备可操 作为客户端而与所述服务器进行交互。所述系统还可以包括用于
文档文体分类的文档文体本体,所述文档文体本体包括分级知识结 构,所述分级知识结构包含项和概念的词汇表,以及表示词汇表项 和概念之间的相互关系的推理链;应用程序接口 (API),配置为向
的访问;其中所述文档控制组件包括策略本体组件,该策略本体组 件配置为推荐所述至少一个文档控制策略,并且其包括一个接口 , 策略管理组件通过该接口访问要应用到所述文档的至少 一 个文档控 制策略。所述策略管理组件可以包括策略服务器,并且所述编程接 口可以利用XML (可扩展标记语言)和XML方案(XSD)进行数 据交换。
在本说明书中描述的主题的特定实施例可以实现为获得一个或多个下述优势。分级知识结构可以用于自动地对文档进行分类,并 且随后推荐和应用适当的文档安全和保留策略。可以基于文档文体 (例如文档类别和类型)自动地定位和推荐安全和保留策略,并且 企业可以使用这些系统和方法使保护和保留文档的过程自动化。
能的策略。关于包含文档控制策略的分级知识结构概括文体分类的
别文档控制策略的分级表示分开。这允许方法和系统容易地在真实 世界业务环境中使用,在这种环境中人类和机器代理可能难以高度 精确地确定给定文档的确切类型或类别。
不需要高强度的人类干预或完善的自动文档分类器就可以定位 有用和正确的策略。可以避免耗时且常常出错的人工过程以及人工
辅助的DRM,并且可以自动地选择适当文档控制策略并将其应用到 文档,而与生成该文档的用户的知识和能力无关。此外,在没有完 整规定安全和保留策略的业务中,可以自动地进行相关文档文体的 概括和推理以找到适当的候选策略。这对于涉及影响保障、保护和 归档业务文档的义务的政府规范(例如2002年Sarbanes-Oxley法案) 的公司来说特别有价值。
此外,系统是灵活的,因为新的安全和保留策略可以容易地增 加和施行,并且新的文档类型可以容易地增加到文档分类系统,那
容性。使用返回分级类别结构内的文档文体类别的分类器可以通过 使用更概括的父分类来实现对小错误或误分类的更大容忍度,这种 父分类具有更保守的规则但是仍然是正确的。
本发明的 一 个或多个实施例的细节在附图和下文描述中阐明。 从这些描述、附图和权利要求书中,本发明的其他特征、方面和优 势将变得明显。


图1示出了配置用于自动确定和推荐文档控制策略的示例性系统。
图2示出了用于自动确定和推荐文档控制策略的示例性工作流。 图3是示出了确定、推荐文档控制策略并将其应用到文档的示 例性过程的流程图。
图4示出了与示例性策略本体相比较的两个示例性分类器推理链。
各图中,相同参考编号和标记表示相同的元件。
具体实施例方式
图1示出了配置用于自动确定和推荐文档控制策略的示例性系 统。数据处理装置110可以包括硬件/固件、操作系统和一个或多个 应用,包括文档控制组件120。文档控制组件120可以是文档处理应 用(例如,可从加利福尼亚州圣何塞市的奥多比公司获得的Adobe Acrobat⑧软件)或工作流引擎(例如,Adobe LiveCycle Policy Server软件)的一部分。此外,文档控制组件120可以是大型文档 处理系统诸如企业工作流系统、资源管理系统(例如,企业关系管 理(ERM)系统或客户关系管理(CRM)系统)、或内容管理系统 (例如,文档库或文档归档系统)的一部分。
此处使用的"应用"意指用户认为是用于已定义目的的专用计 算机工具的计算机程序。应用可以整体地构建到数据处理装置110 的操作系统(OS)中,或者应用可以具有位于不同位置的不同组件 (例如, 一部分在OS或内核模式下, 一部分在用户模式下, 一部分 在远程服务器中)。此外,应用可以是图形用户接口应用(例如, Web浏览器),其连接到网络180上的一个或多个处理器190 (例 如, 一个或多个Web服务器),并提供计算机工具作为网络服务。
文档控制组件120包括分级知识结构122,其包括文档控制策略。 分级知识结构122可以是文档控制策略本体,具有规定包括安全访 问限制和文档保留规范的控制参数的多个策略。分级知识结构122包括根据与父节点的子节点相关联的规则的代数最大值(例如DRM 或保留规则)由父节点继承的至少一个文档控制策略。概括地说, 这涉及导出集合了策略组成(来自多个与子节点相关联的文档控制 策略)的文档控制策略(用于父节点),策略组成默认为更保守(更 概括)的策略组成。用于确定代数最大值的具体示例性过程在下文 中描述。
数据处理装置110包括一个或多个处理器130和至少一个计算 机可读介质140。数据处理装置IIO还可以包括通信接口 150以及一 个或多个用户接口设备160。用户接口设备160可以包括显示屏、简 键盘、鼠标、指示笔或其任意组合。此外,数据处理装置110(或网 络180上可访问的另一数据处理识别)自己可以被看作用户接口设 备(例如,当与作为Web服务递送的应用有关地可访问文档控制组 件120时)。
一旦正确地编程,数据处理装置110就可操作为确定文档的文 体分类,比较文体分类与分级知识结构122以识别包括父节点的多 个节点中的一个相关节点,并基于在分级知识结构122中识别的相 关节点推荐至少一个文档控制策略来管理对文档的访问(例如,用
于文档的使用和保留限制)。此外,数据处理装置IIO可以是多个 装置之一,这些装置通过网络180可通信地连接,且可操作(彼此 协作地)为执行上迷操作。因此,应当理解,文档控制组件120可 以作为基于服务器的资源提供给装置IIO,并且文档控制组件120可
不同计算系统中。
图2示出了用于自动确定和推荐文档控制策略的示例性工作流。 电子文档210(为了简洁将简称为文档)可以提供给文档分类器220。 文档210可以是包括在分类文档210时可用的项的任意信息集合。 文档210不需要对应于一个文件,文档可以存储在还包含其他文档 的文件的一部分中,存储在专用于所讨论文档的单个文件中,或存 储在多个协调文件中。文档分类器220处理文档210以确定文档210的文体分类230。 文档分类器220可以基于提供的知识结构自动地针对任意给定文档 这样做(例如,自动将文档分类在文档类型树上)。例如,文档分 类器220可以具有相关联的文档文体本体225,其包括分级知识结 构,该分级知识结构包含项和概念的词汇表以及用于文档文体分类 的表示这些词汇表项和概念之间的相互关系的推理链。文档文体本 体225可以使用公共可得的文档分类器技术或使用在2006年3月3 日提交、名称为"SYSTEM AND METHOD OF BUILDING AND USING HIERARCHICAL KNOWLEDGE STRUCTURES"的美国专利 申请U/368,130中描述的技术来构建和访问,通过引用将上述专利 申请整体包含于此。
在此使用的词"文体"用于涵盖文档类别信息(例如,题目类 別,诸如收入、Photoshop和特征)以及文档类型信息(例如,工作 流类型,诸如产品规范、产品手册、履历、发票和财务报告)。因 此,文体包括主题相关分类以及以文档体裁、形式或在企业内的角 色为特征的文档分类。
文档分类器220对于用于文档210的资源来说可以是是本地的 (例如,在同一机器上)或远程的(例如,在通过网络可访问的另 一机器上)。因此,文档分类器220可以构建在处理文档210的软 件中,或者文档分类器220可以是应请求而提供文档分类服务的服 务器应用。文档分类器220可以是多标签分类器,其提供与可用文 体有关的一组属性,并且文体分类230可以表示多个、被排名的文
档文体D
文档分类过程可以是模糊的,意即不需要确定文档的确切分类。
可以在文体分类230中提供各种可能的确切分类的分数,或者在任 何情况下,文体分类230将表示文档的至少一种概括的文体。例如, 文档分类器220可以将文档识别为有40%的置信度属于第一子文 体,而有30%的置信度属于第二子文体,但是随后该文档也属于有 70%的置信度的第 一和第二子文体的父文体。选择父文体导致使用更保守(但是仍然正确)的规则以及得到相对于使用任一较低可能性 子文体来说显著的改善。此外,候选文体的列表和相关联的分数可 以由文档分类器230根据用于确定类别或项与未知文档的相关性的
统计方法来生成,如在美国专利申请11/368,130中描述的那样。
一旦确定了文档210的文体分类230,则可以将文体分类230发 送给策略选择器240,其相对于任一文档资源或文档分类器可以是本 地的或远程的。生成的文体分类230可以包括多个项和对应的分数, 每个分数对应一个项,表示该项关于文档210的置信度水平。例如, 生成的文体分类230可以是XML (可扩展标记语言)文档,其包括 标识文档210的信息、候选文体和相关联的分数。
文体分类230可以包括文档文体本体225中的推理链的子集 235。这些推理链中的每一个可以列举文档分类器本体中从叶到根的 整个链(如图2所示)。因此,文档分类器220完成的推理可以传 送给策略选择器240,其可以决定是否以及如何使用该信息。例如, 如果特定分类器结果推理链具有在控制策略本体中到处都找不到的 叶节点(第一标签),则策略选择器将步进到源推理链的父标签, 并使用该标签来搜索策略本体;该过程可以重复,直至找到匹配或 达到推理链的开始且没有找到匹配,在这种情况下,可以应用与根 节点相关联的任何规则。此外,尽管子集235中的推理链在图2中 单独地示出,但是应当理解,这些推理链可以在一个结构中一起提 供(例如,列举多面文档分类230的单个树)。
策略选择器240可以在文档安全和保留策略服务器(诸如可从 加利福尼亚州圣何塞市的奥多比公司获得的Adobe LiveCycle Policy Server软件)中实现。策略选择器240使用通过汇编一组用于 不同文档分类的文档控制策略(例如,访问、安全和保留策略)来 构造的第二知识结构(例如,策略树)。例如,策略选择器240可 以具有包含分级知识结构的相关联的文档控制策略本体245,其中父 节点继承从分级知识结构中的子节点导出的策略。
策略选择器240可以将文体分类230与文档控制策略本体245进行比较,以识别用于文档210的相关节点。这可以涉及检查与比
推理链的子集235的各项的最低水平高的水平相关联的项。策略选 择器240可以作出推荐,即使文体分类230没有完全对文档210进 行分类,因为策略是由本体245中的父节点继承的。因此,适当的 父节点和对应的适当策略可以通过在知识结构上向上追踪推理链直 到满足规定的置信度水平(阈值)而找到。最差情况下,文档210 落到根节点下面,在这种情况下,文档210是概括的文档并且选择 根节点的策略。
由于策略选择器240可以找到两个知识结构之间的相关性,包 括在叶节点以外的级别上,因此不需要在文档分类器220所使用的 知识结构和策略选择器240所使用的知识结构之间的直接对应关系。 实际上,文档分类器220和策略选择器240所使用的分类系统可以 是由具有不同主观意识的不同人构建的不同系统。注意,企业常常 将开发多个文档分类本体,而不是仅仅一个(例如,对于每个业务 部门一个不同本体)。然而,文体分类230可以与文档控制策略本
体245进行比较,以确定用于文档210的适当文档控制策略,因为 可以向着根来追踪文档控制策略本体245中的关系链,直到找到具 有策略的适当节点。基于该比较,策略选择器240可以作出策略推 荐250,其可以是单个策略或多个策略(例如,可能应用到文档的策 略的有排名的列表)。
图3是示出确定、推荐文档控制策略并将其应用到文档的示例 性过程的流程图。为文档控制策略本体中的父节点确定310文档控 制策略。这可以作为预处理操作而进行,其中可以利用从子节点导 出的文档控制策略填充策略树的父节点,或者这可以在运行时主动 地进行。
策略本体可以由第三方提供,并且包括叶节点处的策略信息, 其可以沿分级向上传播,以便父节点处的策略至少如同父节点的子 节点处的策略一样保守。策略向本体分级上部的这种传播可以理解 为种子本体的代数DRM和保留策略汇编。增大的策略本体可以组织给定企业的所有文档文体,并关联用于本体内的每种文档文体的安 全和保留策略。
当文档文体和它们的策略被安排到这种本体结构时,可以进行 自动概括(称为推理),以确定哪些策略应当应用到所讨论的新的 未知文档。例如,策略本体的一个分支可以将财务文档作为一种文 档文体,而年度报告、季度报告和季度内更新可以都是财务文档的 子文体,并被组织在财务文档之下。与每种子文体相关联的可以是 应用到适当文档的专用策略。当策略本体被构建时,对于每种父文 档文体(例如,财务文档),最概括的可应用策略(对于此文体) 可以通过应用安全和保留策略代数自动地计算并记录,该安全和保 留策略代数考虑所有直接子文体节点的策略。
下面是示例性的策略代数,其可以用于计算用于策略本体中给 定父策略节点的最保守策略。下面的过程可以递归地执行,并且可 以应用在策略本体中的任意级别,尽管通常该过程将从根节点开始 在整个本体上执行。在此描述的策略代数被推广到应用于安全(许 可)策略和保留策略。
安全策略可以规定被表达为表示操作是否被允许的布尔值的许
可限制。例如,可限制操作可以包括(1 )打印,(2)改变文档, (3)文档组合,(4)内容复制或提取,(5)为了访问进行内容提 取,(6)注释,(7)填充表格,(8)签名以及(9)创建模板页。 用于可限制操作的布尔许可集合可以表示为一个位矢量,其中一个 这种矢量与每种文档文体相关联。为了计算对于父文体下面所有文 档文体的父许可策略,可以组合子节点的许可位矢量(例如,按位 与(bit-wise AND )),并且所得到的位矢量可以赋予给父级别。因 此,如果分类器不能求解出对策略本体中子节点之一的文档文体分 类,则识别最接近的父节点,并且父许可矢量得到应用到该文档的 最保守的许可(对于在该父节点之下的本体的部分而言)。
用于文档的保留策略一般定义为时间点、持续时间和动作。为 了规定一个策略,时间点通常是当前日期,用"C"来表示;持续时间是文档需要保留几年,用"N"来表示;而动作表示在该持续时间 结束时必须采取的选择性程序(通常是什么都不做,或者销毁文档)。
例如,文档保留策略可以使用由 Information Requirements Clearinghouse ( 1990年3月)乂〉开的Donald S.Skupsky的i仑文 "Records Retention Procedures: Your Guide to Determine How Long to Keep Your Records and How to Safely Destroy Them!" 中描述的编 码系统的至少一些部分。
针对保留策略,Donald S.Skupsky开发的Skupsky方法提供了 一 种形式规范,该规范是关于如何组织和应用信息以确定不同记录的 保留时段。Skupsky方法手动地将大量的预定义法则与大量记录相关 的已定义的多个分组相关,以确定应用到这些记录的适当保留时段。 该手动方法已经包含在诸如由克罗拉多州格林伍德村的Information Requirements Clearinghouse提供的Retention Manager專欠4牛之类的产 品中,以及诸如由加利福尼亚州桑尼维尔的Interwoven公司提供的 Records Manager软件之类的内容管理系统中。同样,Skupsky方法 可以在本说明书描述的主题的各种实现中使用。
概括地说,针对任意保留策略,可以定义三个符号来表示不同 的时间点O当前年份;丁=文档的终止时间点(到期、雇用等); 以及S =文档被废弃的时间点。 一些示例性的保留策略如下
C+3:文档在当前年份后保留3年;
T+5:合同文档在终止后保留5年;
T+10:履历文档在雇用终止后保留10年;
S:文档保留直至废弃;
P:表示C +无限期(永久保留文档)。
给定该组变量,可以找到用于同类符号组的安全(最保守的) 策略。特别地max (C+l,C+2,C+7,C+4) =C+7。概括地说,可以根 据max ( Ci),其中i= 1…M并且M =子C+Ni策略的数目,找到安 全策略。同样,可以根据max( Ti),其中i= 1…M并且M =子T+Ni 策略的数目,找到安全策略。当符号是不同种类,例如当计算max (C+2,T+4,C+3,T+5)时, 情况比较复杂。在这种情况下,可以通过确定项之间的最大策略来 使用保留策略代数简化该表达式,从而确定最保守策略。为了计算 max(C+A,T+B)(其中A和B是不同的持续时间),意味着要回 答
C+A = T+B C=T+B-A C-T+A-B=0 出现三种情况
<0 T+B是最大的 C-丁+A-B:= 0 C+A和T+B相等
>0 C+A是最大的
因此,可以从识别的单独情况形成概括的保留策略,这些单独情况 基于与源策略相关联的变量。
该策略评估方法可以推广到具有新的、特定的保留含义的其他 符号类型。该策略代数方法允许策略本体结构被预先计算计算出来, 并用于进行关于策略的概括。因此,即使当容忍不完善的文档文体 分类时也能获得正确的策略推荐。在策略汇编过程中,在上面描述 的保留代数可以用于从策略规范的叶节点直至更概括的文档文体的 递归工作,将最保守的策略分配给本体中顺序更高的节点。下面示
出了该过程的输出的例子。 示例性保留策略本体 (通过汇编种子策略本体而生成) 关键字
RP (x)=保留策略(x) O当前年份
T二在终止时间(合同、雇用等) S =直至文档废弃前P =永久
+ N=事件十N年 例子RP(C+4)=在当前年份后将文档保留4年
Adobe保留策略本体"Adobe Document Retention Policy Ontology" RP(P)
Rule(max(P,max(T+20,C+6,T+l),C+10,C+49,C+8,T+l,T+10,max(max(C+02,T+l), max([*],C+02,T+l)),S+l,max(T+20,C+05),max(T+01,C+03,T+04)))
"Finance" RP(P)
Rule(max(C十10,C+1 ,C+8,S+11 ,max(T+03 ,T+3 ,C+10),max(S+05 ,C+05 ,C+10) max(C十10,T+10),P,max(T+05 ,C+10,T+10),T+10,C+03 ,C+01 ,T+03))
"Accounts receivable" RP(C十IO) Rule(C+10)
"Billing" RP(C十IO) Rule(C+10)
"Invoices (commercial)" RP(C+10) Rule(C十lO)
"Adobe Invoice" RP(C十IO)
"Purchase orders (from customers)" RP(C十IO)
"Accounts payable" RP(C十10) Rule(C+10)
"Accts payable" RP(C十10) Rule(C十lO)
"Vouchers" RP(C+10) "Invoices" RP(C十10) Rule(C+10)
"Big Sky Invoice" RP(C+10)"Financial planning analysis" RP(C十1) Rule(C十O])
"budgets" RP(C+01)
"financial performance" RP(C+01)
"Balance sheet reports" R:P(C+0:)
"General Ledger" RP(C+10) Ru!e(C十lO)
"Corporate General Ledgers" RP(C十IO) "Operating Units" RP(C+10)
"Royalty records" RP(C+10) Ru!e(C+10)
"License files" RP('C十0) "Royalty reports" RP(CHO)
"Physical Assets" RP(C+8) Rule(C十08)
、■
"Book Inventory" RP(C+08)
"Controllership" RP(S+11) Rule(S+l 1) 、
"Accounting Structure" RP(S+11) "Financial Structure" RP(S+1.) "Cost Centers" RP(S十ll)
"Crcdit" RP(max(T+03'T+3,C+10)) Rule(max(T+03,T+3,C+10))
"Credit appHcation.s" RP(T十03) "Credit decisions" RP(T+3) Rule(T+03)
"decHned" RP(T+03)"inactive" RP(T+03) "incomplete" RP(T+03)
"Credit files" RP(C+10)
"Banking" RP(max(S+05,C+05,C+10)) Rule(max(S+05,C+05,C+10))
"Bank Account Documentation" RP(S+05) "Bank Analysis Statements" RP(C+05) "Account Reconciliations" RP(C十IO) "Daily Cash Management Activity" RP(C+05)
"Investments" RP(max(C+10,T+10)) Rule(max(C+10,T+10))
"Investment Reports" RP(C+10) "Investment Summaries" RP(C十IO) "Investment Manager Policies" RP(T十IO)
"Insurance" RP(P) Rule(max(P,T+05,T+07》
"Policies" RP(P)
"Data related to claims" RP(T+05) "Other insurance no claim" RP(T+07)
"Foreign exchange" RP(max(T+05,C+10,T+10)) Rule(max(T+05,C+10,T+10)
"Hedging reports" RP(T+05)
"Deal tickets" RP(C十IO)
"FX gains and losses" RP(T十IO)
"Debt" RP(P) Rule(max(T+08,P))
"Debt agreements" RP(T+08)"Borrowing agreements" RP(T+08) "Lease documentation" RP(T+08) "Ground leases" RP(P) "Building leases" RP(P) "Equipment leases" RP(T+08)
"Adobe Equity" RP(T十IO) Rule(T+10)
"Repurchase documentation" RP(T+10) "ISDA agreements" RP(T十IO) "Adobe Gainloss data" RP(T十IO)
"Equity (other companies)" RP(P) Rule(max(P,T+10))
"Stock certificates" RP(P) "Equity Gainloss data" RP(T十IO)
"Orders" RP(C+03)
"Earnings Releases" RP(P) Rule(max([P],P,C+05))
"Earnings Report" RP(P)
"Intra Quarter Business Update" RP(C+05')
"Conference call scripts" RP(C十Ol) "BPC documents" RP(T+03)
Sales & Marketing" RP(max(T+20,C+6,T+l)) Rule(max(T+20,C+6,T+l))
"Product Information" RP(T+20) Rule(T+20)
"Product Datasheet" RP(T+20) "Master Engineering" RP(T十20) "Technical programming records" RP(T+20)<formula>formula see original document page 24</formula>"shipping instructions" RP(C+02) "packing slips" RP(C+02)
"Facilities" RP(C+49) Rule(max(C+49,C+5))
"Environmental" RP(C+49) Rule(C+49)
"Hazardous waste controls" RP(C十49) "Hazardous waste compliance" RP(C+49) "Environmental controls" RP(C+49) "Environmental compliance" RP(C+49)
"First Aid Records" RP(C+5) Rule(C+05)
"Accident reports" RP(C+05)
.i
"Electronic Commerce" RP(C+8) Rule(C+8) "Web order streams" RP(C+8) Rule(C+08)
"Customer transaction history" RP(C+08)
"IS" RP(T+)Rule(max(T+01,max(C+02,T十01))) "Project Plans" RP(T十OI)
"Security" RP(max(C+02,T+01)) Rule(max(C+02,T+01))
"Records of Electronic Access" RP(C+02) "Incident Reports" RP(T+01)'Human Resources" RP(P)
Rule(max(T+4,T+l,T+2,薩(T+5,T+10,C+03),max(T+2,C+6),C+04,max(C+07,T 十06),C+07,C+7,C+5,C+10,P))
"Regular employee files" RP(T+4) Rule(max(T+02,T+04))
"Offer Letters" RP(T+02) "Active" RP(T+04) "Terminated" RP(T+04) "Retired" RP(T+04) "Deceased" RP(T+04)
"Temp/Agency Employment" RP(T+1) Rule(T+01)
"Personnel files" RP(T+01) "Timecards" RP(T十Ol)
"Inckpendent Contractor Files" RP(T+4) Rule(T+04)
"Resume Tracking" RP(T+2) Rule(max(T+02,T+l))
"Applicant Files (hired)" RP(T+02) "Applicant Files (not-hired)" RP(T+02) "Applicant Resume" RP(T+02) "Ads/Public Notices" RP(T+1) Rule(T+01)
"Job openings" RP(T十Ol) "Promotions" RP(T+0) "Training" RP(T十Ol)
"Vendor Form" RP(T+04)}
"Benefits" RP(max(T+5,T+10,C+03)) Rule(max(T+5,T+10,C+03))
"Benefit Plans" RP(T+5) Rule(T+05)
"Publications" RP(T+05) "Basic Plans" RP(T+05)
"Medical Disability Income Plan" RP(T十IO) "Medical Plan Exceptions" RP(C+03)

"Employee File Information" RP(max(T+2,C+6)) Rule(max(T+2,C+6))
"Performance Review Data" RP(T+2) Rule(T+02)
"Focal goals" RP(T+02) "Focal reviews" RP(T+02) "Quarterly goals" RP(T+02) "Quarterly reviews" RP(T+02) "Final reviews" RP(T+02)
"Other Employee File Information" RP(C+6) Rule(C+06)
"Performance planning" RP(C+06) "Performance counseling" RP(C+06)
"Payroll deduction authorizations" RP(C+04)
"Equity plan" RP(max(C+07,T+06)) Rule(max(C+07,T+06))
"Employee Stock Purchase Plan" RP(C+07) "Exmployee Stock Purchase Documentation" RP(C+07)"Stock Option Plans" RP(C+07)"Stock Option Agreements" RP(C+07)"Other Equitity Plans" RP(C+07)"Other Equitity Agreements" RP(C+07)"Canceled Stock Certificates" RP(T+06)
"401(k) records" RP(C+07)
"ERISA documents" RP(C+7) Rule(C+07)
"all ERISA plan documents" RP(C+07)
"agreements" RP(C+07)
"elections" RP(C+07)
"backup information" RP(C+07)
"Workers Compensation" RP(C+5) Rule(C+05)
"Reports" RP(C+05)
"Payroll information" RP(C+10) Rule(C十lO)
"Payroll records" RP(C+10;)"Wage records" RP(C十IO)"Timecards" RP(C十IO)
"EEO-1 Reports" RP(P)
"Tax" RP(T+10) Rule(T+10)
"Tax Returns" RP(丁十10) Rule(T+10)
"Supporting documentation" RP(T十IO)
"Tax Records" RP(T十IO) Rule(T+10)"W-2" RP(T十IO)"W-4" RP(T十IO)"Pay rates" RP(T十10)"Deductions" RP(T+10)"Timecards" RP(T十IO)
Support" RP(max(max(C+02,T+1 ),max([*],C+02,T+1)))Rule(max(max(C+02,T+l),max([*〗,C+02,T+l)))
Technical Support" RP(max(C+02,T+l)) Rule(max(C+02,T+l))
"Customer contact information" RP(max(C+02,T+l)) Rule(max(C+02,T+l))
"Wizard" RP(C+02)"Siebel" RP(C+02)"Vantive" RP(C+02)
"ATILA/Lotus DB" RP(T+1) Rule(T十Ol)"FAQ Answers" RP(T十Ol)
"Customer Support" RP(max([*],C+02,T+l)) Rule(max([*],C+02,T+l))
'Customer contact information" RP(C+02)
Customer registration information" RP(T+1) Rule(T十Ol)
Sales and Marketing programs" RP(T+1) Rule(T+0)
'Worldwide customer database" RP(T+01)'Customer support databases" RP(T+01)"Pricing information" RP(T十Ol)"Promotional programs" RP(T十Ol)
"Help Desk Engineering" RP(S+1) Rule(S十OI)
"Problem Management System" RP(S十Ol)
"Engineering" RP(max(T+20,C+05)) Rule(max(T+20,C+05))
"Engineering Document" RP(T+20)
"Product source control libraries" RP(T+20) Rule(T+20)
"Visual SourceSafe" RP(T+20) Rule(T+20)
"SS Source code" RP(T+20)"SS Object code" RP(T十20)
"ClearCase" RP(T十20) Rule(T+20)
"CC Source code" RP(T+20)"CC Object code" RP(T+20)
"Perforce" RP(T+20) Rule(T+20)
"PF Source code" RP(T+20)"PF Object code" RP(T+20)
"Product builds" RP(T+20)"Product Life Cycle" RP(C+05)"Purchasing" RP(max(T+01,C+03'T+04)) Rule(max(T+01,C+03,T+04))
"Legal" RP(P) Rule(max(T+20,C+04,T+8,P,T+10,T+5))
"Litigation/Claims" RP(T+20) Rule(max(T+10,T+03,T+20))
"Claims against Adobe" RP(T+10)"Claims by Adobe" RP(T+03)"Major Litigation" RP(T+20)
"Threatened claims" RP(C+04)"Part簡hips/JVs" RP(T+8) Rule(T+08)
"Joint Ventures" RP(T+08)"Partnership Agreements" RP(T+08)
"Corporate governance documents" RP(P) Rule(P)
"Minutes" RP(P)"Proxies" RP(P)
"Annual Reports" RP(P) Rule(P)
"Annual Report" RP(P)
"SEC/NASDAQ filings" RP(P)"SEC/NASDAQ correspondance" RP(P)"Stock books" RP(P)
"RFPs" RP(T十Ol)"Requisitions" RP(C+03)"Purchase Orders" RP(T+04)"Intellectual Property Registrations" RP(T+10) Rule(T+10)
"Patent" RP(T十IO)"Copyright" RP(T十IO)
"Trademark Registration" RP(T+10) Rule(T十lO)
"Official Correspondence" RP(T十IO)"Official Documentation" RP(T十IO)
"Other" RP(T+5) Rule(T+5)
"Project files" RP(T+5) Rule(T+05)
本例中种子本体包括叶节点处的DRM和保留规则。使用上述方法通过将成组节点与一个公共父节点一起考虑,来确定分配给该父节点的代数最大DRM和保留规则,在该种子本体上建立代数汇编过程。该过程递归地重复,直到达到根节点,并且在每个节点处的规则可以使用上述的功能性符号(例如,以XML形式)来表示。
在某些情况下,为父节点汇编的策略可能彼此冲突。在某些企业中,存在这样的硬性规则给定类型的文档在设定的时间量后必须销毁。这种类型的规则会与规定在当前年份加十年之前保留文档的规则冲突。在这种情况下,可以仅仅将存在两种沖突的规则的事
License agreements" RP(T+05)Contracts" RP(T+05)Competitor information" RP(T+05)'Discovery searches" RP(T+05)实记录在策略本体中,或记录在其他位置,或记录在策略本体和其他位置的组合中。例如,遇到冲突规则的事实以及相关的规则可以以符号形式记录在日志或查账索引中,以便用户可以了解遇到了沖突情况。同样,如果由于缺少信息而不能评估策略,(例如,如果策略规定在合同终止后将文档保留十年,但是合同终止日期未知),则已知信息可以记录在策略本体中(例如,"RP(T+10)")。由于记录和传播这种信息, 一旦接收到缺少的信息或解决了规则沖突,就可以完全地评估策略。注意,系统可以被设置为当可能的时候自动解决沖突规则。
重新参考图3,确定320文档的文体分类。可以使用符号或机器训练的文档分类器来自动对新的未知文档进行分类。该分类的输出可以是预定义的类别结构,其可以包括文档分类器所使用的知识结构的多个推理链。预定义的类别结构代表文体分类,因为其可以提供分类器的知识结构的分级上下文中的文档项和相应分数,这些可以辅助对策略本体的比较。实际上,文档文体分类代表文档的一组可能文体以及这些文体的相关联的置信度水平。
应当注意,这种文体分类可能是不精确的。例如,分类器可能仅仅能够确定文档的概括类型(例如,财务文档),而不能确定具体的子类型(例如,年度报告)。进一步地,分类器可能确定尚未分配有明确的安全或保留策略的文档文体。
通过将文体分类与文档控制策略本体进行比较在文档控制策略本体中识别330 —个或多个相关节点。该策略本体可以用于定位应当应用到文档的所有适当策略。当文档文体(由文档分类器计算得
与该文档文体相关联,则可以获得和应用与该匹配的文档文体相关联的一个或多个策略。
如果分类器不能作出充分精确的分类,并表明了更概括的文档文体(即,策略本体中的非叶节点),则可以获得并应用用于该更概括文档文体的综合策略。由于可以根据保守的策略约减代数将子文档文体策略综合到父文体中,可以为每个文档提供正确的策略(虽然可能是一个比非常需要的策略更保守的策略)。
此外,如果分类器识别了一种不具有直接或明确策略的文档文体,则可以使用策略本体来对该文档文体进行概括。该概括过程可以通过追踪策略本体中子文体与父文体之间的链路,并得到每个相继的父文档文体直到找到具有相关联的策略的文体而进行。通过追踪这些链路形成的父文体的列表称为推理链,并且本系统和方法可以使用这些推理链来对文档文体进行连续的概括,直到找到策略。
图4示出了与示例性策略本体430进行比较的两个示例性分类器推理链410和420。推理链410和420示意性地表示在图4中。策略本体430表示在可用于查看和浏览策略本体的基于Web浏览器的图形用户界面(GUI)中。应当理解,也可以使用相同的GUI或类似的GUI来查看和浏览由文档文体分类器使用的分类本体。
个标签可以用于(从底部开始依次)寻找策略本体430中的匹配标签。因此,使用节点412中的第一标签"技术转让"搜索策略本体430。在策略本体430的节点432中找到匹配标签"技术转让"。该过程于是可以终止,并且可以使用与节点432相关联的保留和DRM策略信息(未示出)来推荐用于该文档的策略。
在第二个例子中,文档分类器返回推理链420。使用节点422中的第一标签"GUI易用性,,来搜索策略本体430,并且没有找到任何匹配。该搜索在链中继续到节点424中的标签"用户体验",用该标签来搜索策略本体430。在节点434中找到匹配标签"用户体验,,,并且返回与节点434相关联的保留和DRM策略信息436。
在各种实现中可以以不同的方式进行在策略本体内的对文档文
体进行连续概括的推理。当获得从文档分类器本体到策略本体中某个入口点节点的匹配时,推理过程使得能够找到更保守的(且适当的)规则。从子节点向上一级到父节点的行进是一个推理(将该子节点概括为更概括的文体)。行进到下一个父节点代表另一个推理,并且在此节点处找到的策略具有在该祖父节点的所有子节点中最保守的规则。因此,最初的分类可能在某种程度上是不正确的,但是随着沿策略本体中的推理链向上移动,将找到更保守的策略,其也更有可能是正确的。
概括地说,如果最低级别的分类是不可信的,则可以提起一个
推理。例如,如果文档分类器表明文档是有30%的置信度的年度报告,则所有其他识别出的文体具有更低的置信度,而30%没有达到预定义的置信度阈值(例如50%),则该方法可以在策略本体中向上一级找到更概括的策略。在决定一个策略之前要提起的推理的数目可以是固定的(例如,仅向上一级),或者是基于所提供的文体分类中的分数的。在典型的使用情形中,分类器返回一个推理链,该链中的每个标签都用于搜索策略本体,直到找到一个匹配;如果没有任何匹配,则过程结束,使用策略本体中的根节点(如果在根级分配了策略)。
基于相关节点推荐340至少一个文档控制策略以管理对文档的访问。可以使用与候选文体(由文档分类器提供的)相关联的分数来确定所识别的各种策略的可能性。推荐 一 个或多个所识别的策略可以包括输出多个推荐的文档控制策略、相关联的分数和来自文档控制策略本体(例如,以XML文档的形式)的相应推理链。这些推荐的策略、分数和推理链随后可以由用户在选择要应用的最佳策略(或者还由另一个机器处理)的过程中查看。备选地,可以选择和推荐最佳可应用策略。在任何一种情况下,可以识别最佳可应用策略并将其用作要应用的默认策略。然后,推荐的文档控制策略可以应用350到文档。例如,可以在没有人工干预的情况下,将来自多个推荐的文档控制策略中的最高排名的文档控制策略自动应用到文档。
在本说明书中描述的主题的实施例和功能性操作可以以数字电子电路的形式、或者以包括在本说明书中公开的结构及其等效结构的计算机软件、固件或硬件的形式、或者以它们中一个或多个的组合的形式来实现。在本说明书中描述的主题的实施例可以作为一个或多个计算机程序产品,即编码在计算机可读介质上、用于由数据处理装置执行或控制数据处理装置的计算机程序指令的一个或多个模块来实现。该计算机可读介质可以是机器可读存储设备、机器可读存储衬底、存储器设备、实现机器可读传播信号的物质构成、或者它们中一个或多个的组合。术语"数据处理设备"包括用于处理数据的所有装置、设备和机器,例如包括可编程处理器、计算机或多个处理器或计算机。该装置除硬件外还可以包括创建用于所讨论的计算机程序的执行环境的代码,例如构成处理器固件、协议堆栈、数据库管理系统、操作系统或者它们中 一 个或多个的组合的代码。传播的信号是人工生成的信号,例如机器生成的电、光、电磁信号,其生成以编码要传送给适当的接收装置的信息。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言来编写,包括编译或解释语言,并且其可以以任何形式来部署,包括作为独立工作的程序或者作为适于在计算环境中使用的模块、部件、子例程或其他单元来部署。计算机程序不必对应于文件系统中的文件。程序可以存储在具有其他程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中,存储在专用于所讨论的程序的单个文件中,或者存储在多个协调文件(例如存储代码的一个或多个模块、子程序或代码部分的文件)中。计算机程序可以部署以在一个计算机上或者在位于同一地点或分布在多个地点并由通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流可以通过执行一 个或多个计算机程序的 一 个或多个可编程处理器执行,以通过操作输入数据和生成输出来执行功能。过程和逻辑流也可以由专用逻辑电路、例如
FPGA (现场可编程门阵列)或ASIC (专用集成电路)来执行,并且所述装置也可以实现为专用逻辑电3各、例如FPGA (现场可编程门阵列)或ASIC (专用集成电路)。适于执行计算机程序的处理器例如包括专用和通用微处理器、 以及任意种类的数字计算机中的任意一个或多个处理器。通常,处 理器从只读存储器或随机存取存储器或两者接收指令和数据。计算 机的基本元件是用于执行指令的处理器和用于存储指令和数据的一 个或多个存储器设备。通常,计算机还将包括用于存储数据的一个 或多个大容量存储设备,例如磁盘、磁光盘或光盘,或可操作地连 接到这些设备以从其接收数据或向其发送数据,或者兼用两种方式。 然而,计算机不需要一定具有这种设备。此外,计算机可以包含在 另一设备上,例如,移动电话、个人数字助理(PDA)、移动音频
播放器、全球定位系统(GPS)接收机,仅举几例。适于存储计算机
程序指令和数据的计算机可读介质包括所有形式的非易失性存储 器、介质和存储器设备,例如包括示例性半导体存储器设备,例如,
EPROM、 EEPROM以及闪存设备;磁盘,例如内部硬盘或可移除磁 盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以 用专用逻辑电路来补充,或结合在专用逻辑电路中。
为了提供与用户的交互,在本说明书中描述的主题的实施例可 以在如下的计算机上实现,该计算机具有显示设备例如CRT (阴极 射线管)或LCD (液晶显示器)监视器用于向用户显示信息以及具 有键盘和指针设备例如鼠标或轨迹球使用户可以向计算机提供输 入。其他类型的鼠标也可以用于提供与用户的交互,例如,提供给 用户的反馈可以是任意形式的感官反馈,例如视觉反馈、听觉反馈 或触觉反馈;并且来自用户的输入可以以任意形式接收,包括声音、
:浯音或触觉^r入。
在本说明书中描述的主题的实施例可以在如下计算系统中实 现,该计算系统包括后端组件,例如数据处理器,或者包括中间件 组件,例如应用服务器,或者包括前端组件,例如客户端计算机,
其具有图形用户接口或Web浏览器,通过它们用户可以与在本说明 书中描述的主题的实现进行交互,或者计算系统可以包括一个或多 个这种后端、中间件或前端组件的任意组合。系统的组件可以通过任意形式的介质或数字数据通信例如通信网络来互连。通信网络的
例子包括局域网(LAN)和广域网(WAN),例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此 远离并且典型地通过通信网络交互。出现客户端和服务器的关系是 由于运行在相应计算机上且彼此具有客户端-服务器关系的计算机出现。
尽管本说明书包含很多细节,但是这些不应被视为对本发明或 请求保护的范围的限制,而是对特定于本发明的具体实施例的特征 的描述。在多个单独实施例的上下文中描述的某些特征也可以在一 个实施例中以组合形式实现。相反,在一个实施例中描述的各种特 征也可以在多个实施例中单独实现或以任意适当的子组合的形式实 现。此外,尽管在上文描述为或者甚至开始请求保护时是在某种组 合中起作用的,但是来自该请求保护的组合的一个或多个特征在某 些情况下也可以排除在该组合之外,并且可以将请求保护的组合集 中为子组合或子组合的变型。
类似地,尽管以特定次序在附图中描述了操作,这不应当理解 为需要以示出的次序或以顺序的次序执行这些操作,或者需要执行 所有示出的操作才能获得期望结果。在某些情况下,多任务和并行 处理可能是有利的。此外,上述实施例中的各种系统组件的分离不 应当理解为在所有实施例中都需要这种分离,并且应当理解所描述 的程序组件和系统可以一起集成在单个软件产品中或打包到多个软 件产品中。
因此,已经描述了本发明的特定实施例。其他实施例也在后文 的权利要求书的范围内。例如,权利要求中引用的动作可以以不同 次序来执行并且仍然能取得期望的结果。此外,尽管单独的本体被 描述用于在文档分类和策略选择中使用,应当理解,这些本体可以 组合为一个单个分级知识结构,诸如混合或多面本体。
此外,其他实施例包括与各种企业系统的结合。例如,描述的 系统和技术可以与电子邮件系统 一 起使用以帮助防止知识产权泄漏,即在公司内部网内部的文档通过非授权方式的电子邮件附件通 往公司外部。在这些实施例中,可以对网络上分组中的头部进行采 样以确定文档是何时被传送的。可以对文档进行组合或分类以随后
用DRM和/或保留策略来保护,以及随后使用诸如Adobe Policy Server软件的机制来应用策略,以便即使文档离开了企业内部网, 仍可应用正确的DRM或保留策略(例如,在DRM的情况下,文档
被力口密)。
在这些思想的一个变型中,还可以自动对所有文档进行分类, 并且可以以安全的方式将分类推理链保存为文档内的元数据。诸如 电子邮件系统之类的服务随后可以检查这种分类推理链,并使用上
述的算法来找到适当的保留和DRM策略。随后在文档被粘贴到外发 的电子邮件之前,通过Adobe Policy Server软件将该策略应用到文档。
仍有更多的实施例在后面的权利要求书的范围内。
权利要求
1.一种方法,包括确定文档的文体分类,所述文体分类包括多个项和相应的分数,每个分数对应一个项,表示该项关于该文档的置信度水平;通过将所述文体分类与文档控制策略本体进行比较,在文档控制策略本体中识别相关节点;至少部分地基于至少一个所述分数评估所述相关节点的可用性的置信度水平;如果所评估的所述相关节点的可用性的置信度水平低于阈值,则在文档控制策略本体中选择所述相关节点的父节点以代表所述相关节点;以及基于在文档控制策略本体中所识别的或所选择的相关节点,推荐至少一个文档控制策略以管理对所述文档的访问。
2. 根据权利要求1所述的方法,其中所述确定包括使用包括 分级知识结构的文档文体本体对所述文档进行分类,所述分级知识 结构包含项和概念的词汇表、以及用于文档文体分类的表示词汇表 项和概念之间的相互关系的推理链,所述文体分类包括所述推理链 的子集,以及所述识别包括检查与比所述推理链的子集的各项的最 低水平高的水平相关联的项。
3. 根据权利要求1所述的方法,还包括基于与所述文档控制 策略本体中的父节点的子节点相关联的多个文档控制策略的组合,导出用于所述文档控制策略本体中的所述父节点的文档控制策略,并且将导出的文档控制策略与所述文档控制策略本体中的所述父节点相关联。
4. 根据权利要求3所述的方法,其中所述导出的文档控制策略 包括导出的安全策略和导出的保留策略,并且导出所述文档控制策 略包括组合与所述父节点的子节点相关联的安全策略的布尔值,以形成所述导出的安全策略;以及组合所识别的单独情况以形成所述导出的保留策略,所述所识 别的单独情况是基于与子节点相关联的多个文档控制策略的关联变量。
5. 根据权利要求3所述的方法,其中所述导出包括从与所述 文档控制策略本体中的子节点相关联的多个文档控制策略中导出集 合了策略组成的文档控制策略,默认为更保守的策略组成。
6. 根据权利要求3所述的方法,其中所述导出包括递归地导 出用于所述文档控制策略本体中的父节点的文档控制策略,直至根 节点,并且其中所述导出和所述关联在部署所述文档控制策略本体 之前执行。
7. 根据权利要求1所述的方法,其中所述推荐包括输出多个链。
8. 根据权利要求1所述的方法,还包括将来自多个推荐的文 档控制策略的最高排名的文档控制策略自动应用于所述文档。
9. 一种系统,包4舌 用户接口设备;文档控制组件,包括包含文档控制策略的分级知识结构,所述 文档控制策略包含根据与父节点的子节点相关联的规则的代数最大 值而由所述父节点继承的至少一个文档控制策略;以及一个或多个计算机,其可操作为与所述用户接口设备和所述文 档控制组件进行交互,以确定文档的文体分类,将所述文体分类与 所述分级知识结构进行比较,以在包括所述父节点的多个节点中识 别 一 个相关节点,并且基于在所述分级知识结构中识别的相关节点 推荐至少 一个文档控制策略来管理对所述文档的访问。
10. 根据权利要求9所述的系统,其中所述一个或多个计算机包 括可操作为通过数据通信网络与所述用户接口设备进行交互的服务 器,并且所述用户接口设备可操作为客户端与所述服务器进行交互。
11. 根据权利要求9所述的系统,其中所述一个或多个计算机包括一个个人计算机,并且所述个人计算机包括所述用户接口设备。
12. 根据权利要求9所述的系统,还包括用于文档文体分类的文档文体本体,所述文档文体本体包括分 级知识结构,所述分级知识结构包含项和概念的词汇表,以及表示 词汇表项和概念之间的相互关系的推理链;应用程序接口 (API),配置为向所述文档控制组件提供对所述 文档文体本体中的推理链的选定元素的访问;其中所述文档控制组件包括策略本体组件,所述策略本体组件 配置为推荐所述至少一个文档控制策略,并且其包括一个接口,策 略管理组件通过该接口访问要应用到所述文档的至少 一 个文档控制 策略。
13. 根据权利要求12所述的系统,其中所述策略管理组件包括 策略服务器。
14. 根据权利要求9所述的系统,所述 一 个或多个计算机还可操 作为在所述文档控制组件中,基于对与所述分级知识结构中的父节 点的子节点相关联的多个文档控制策略的组合,导出用于所述分级 知识结构中的父节点的文档控制策略;以及可操作为将所导出的文 档控制策略与所述分级知识结构中的所述父节点相关联。
15. 根据权利要求9所述的系统,所述一个或多个计算机还可操组件中的分级知识结构的推理链。
16. 根据权利要求9所述的系统,所述一个或多个计算机还可操 作为将多个所推荐的文档控制策略中的最高排名的文档控制策略自 动应用到所述文档。
17. —种计算机程序产品,编码于计算机可读介质上,可操作为 使得数据处理装置执行下述操作接收文档的文体分类,所述文体分类包括多个项和相应的分数, 每个分数对应一个项,表示该项关于所述文档的置信度水平;通过将所述文体分类与文档控制策略本体进行比较,在文档控制策略本体中识别相关节点;至少部分地基于至少一个所述分数评估所述相关节点的可用性 的置信度水平;如果所评估的所述相关节点的可用性的置信度水平低于阈值, 则在所述文档控制策略本体中选择所述相关节点的父节点代表所述 相关节点;以及基于在所述文档控制策略本体中所识别的或所选择的相关节 点,推荐至少 一个文档控制策略以管理对所述文档的访问。
18. 根据权利要求17所述的计算机程序产品,其中所述确定包 括.-使用包括分级知识结构的文档文体本体对所述文档进行分类, 所述分级知识结构包含项和概念的词汇表、以及用于文档文体分类 的表示词汇表项和概念之间的相互关系的推理链;所述文体分类包 括所述推理链的子集;以及所述识别包括检查与高于所述推理链的 子集的各项的最低水平高的水平相关联的项。
19. 根据权利要求17所述的计算机程序产品,所述操作还包括 基于与所述文档控制策略本体中的父节点的子节点相关联的多个文 档控制策略的组合,导出用于所述文档控制策略本体中的所述父节 点的文档控制策略;以及将所导出的文档控制策略与所述文档控制 策略本体中的所述父节点相关联。
20. 根据权利要求19所述的计算机程序产品,其中所述导出的 文档控制策略包括导出的安全策略和导出的保留策略,并且导出所 述文档控制策略包括组合与所述父节点的子节点相关联的安全策略的布尔值,以形 成所述导出的安全策略;以及组合所识别的单独情况以形成所述导出的保留策略,所述所识 别的单独情况基于与子节点相关联的多个文档控制策略的关联变 量。
21. 根据权利要求19所述的计算机程序产品,其中所述导出包括从与所述文档控制策略本体中的子节点相关联的多个文档控制 策略中导出集合了策略组成的文档控制策略,默认为更保守的策略组成。
22. 根据权利要求19所述的计算机程序产品,其中所述导出包 括递归地导出用于所述文档控制策略本体中的父节点的文档控制 策略,直至根节点;并且其中所述导出和所述关联在部署所述文档 控制策略本体之前执行。
23. 根据权利要求17所述的计算机程序产品,其中所述推荐包 括输出多个推荐的文档控制策略以及对应的来自所述文档控制策 略本体的推理链。
24. 根据权利要求17所述的计算机程序产品,所述操作还包括 将来自多个推荐的文档控制策略的最高排名的文档控制策略自动应 用于所述文档。
全文摘要
本说明书描述了识别用于给定文档的适当文档控制策略的相关技术。概括地说,一种方法可以包括确定文档的文体分类,该文体分类包括多个项以及表示该项关于该文档的置信度水平的相应分数;根据文体分类在文档控制策略本体中识别相关节点;至少部分地基于至少一个分数评估该相关节点的可用性的置信度水平;如果所评估的该相关节点的可用性的置信度水平低于阈值,则在文档控制策略本体中选择该相关节点的父节点以代表该相关节点;以及基于在文档控制策略本体中所识别的或所选择的相关节点,推荐至少一个文档控制策略以管理对该文档的访问。
文档编号G06F7/00GK101529373SQ200780039107
公开日2009年9月9日 申请日期2007年9月5日 优先权日2006年9月6日
发明者L·马斯因特尔, W·钱格 申请人:奥多比公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1