电子文档的自动分类系统和方法

文档序号:8487796阅读:588来源:国知局
电子文档的自动分类系统和方法
【技术领域】
[0001] 本发明涉及信息安全技术领域,特别涉及一种电子文档的自动分类系统和自动分 类方法。
【背景技术】
[0002] 随着计算机技术的发展,越来越多的企业、组织以及政府机构等依赖于计算机处 理各类事务,在这一过程中,源源不断地产生大量的电子文档。在日常工作中或是进行档案 管理时,一般需要将这些电子文档分入特定的类别。但是,在数据量呈现爆炸性增长的今 天,某些企业可能一天内就产生几TB的数据。对应着成千上万的电子文档,对其进行人工 甄别及管理无疑效率极低。因此,有必要寻求基于计算机的电子文档自动分类系统和方法。
[0003] 自然语言识别技术是语言信息处理的一个重要组成部分,其采用人工智能的理论 和技术将设定的自然语言机理用计算机程序表达处理,从而构造出能够理解和识别自然语 言的人工智能技术。在近年来,自然语言识别技术在搜索引擎技术中有所应用,也有望用于 电子文档自动分类。
[0004] 如图1所示,根据自然语言识别技术,对一个文档进行分类的系统10主要包括以 下部分:预处理单元11、文本表示单元12和分类器13。其中文本表示就是寻找一种理想化 的形式化文本表示方法,以能够真实反映文档的内容,且对属于不同类别的文档有区分能 力。
[0005] 目前一种常用的文本表示方法就是基于特征项的向量空间模型。根据这一理论, 一个文档可以看作是n(特征项的个数)维向量空间中的一个向量,或者为图示方便,也可 以看作是基于n个特征项的一条特征曲线(即将该向量的各个特征值连接而形成曲线,以 便于直观地观察所述文档)。在本发明中,将该n维向量空间称为特征空间,其维度为n。
[0006] 在传统的分类系统中,文本表不是基于一个指定的特征空间展开的,但是这种表 示方式存在一定的缺陷。在某些情况下,其不能精确区分相似度较高的文档,并且其不能支 持一个文档属于多个分类的复合分类。以下举例说明。
[0007] 参见图2,其示出了一份人民银行公文和一份公安部公文基于同一个特征空间的 特征曲线。该特征空间基于多个特征项构造,这些特征项分别进一步划分为银行、公文、公 安部等不同的特征集。其中,各个特征集分别包括一个或多个特征项,并且,各个特征集包 含的特征项的数目可能相同,也可能不同。为清楚起见,图2中的横轴仅示出上述特征集 (下同)。其中,曲线C10代表人民银行公文,曲线C11代表公安部公文。可以看到,在对两 者进行文本表示时,由于两者都包含大量的属于公文集的特征项,因此两者的特征曲线相 似度较高。这违背了文本表示应该对不同类别的文档有区分能力这一原则,使得文本表示 单元之后的分类器无法正确区分人民银行公文和公安部公文。
[0008] 如图3所示,其示出了一份普通财务文档、一份普通研发文档以及一份研发预算 文档基于同一个特征空间(该特征空间基于对应于研发、财务等特征集的特征项构造)的 特征曲线。其中,曲线C12代表研发预算文档,曲线C13代表普通财务文档,曲线C14代表 普通研发文档。可以看到,研发预算文档C12分别与普通财务文档C13和普通研发文档C14 的相似度都较低。因此,如果分类器没有预先学习研发财务这类复合类别的文档特征,那么 分类器就无法识别研发预算文档的类别,即无法将其分入研发类别或财务类别。这与期望 的其既属于研发类别、又属于财务类别的分类结果大相径庭。因此,分类器必须预先学习研 发财务这类复合类别的文档特征。但是问题在于,这类复合文档的样本稀少,甚至可能无法 预先找到。此外,很难保证所有的复合类别都能被事先完全穷举而无任何遗漏。另外,穷举 方法也缺乏未来的自适应性和扩展性。
[0009] 鉴于此,有必要寻找一种分类系统和分类方法,以至少部分地解决上述问题。

【发明内容】

[0010] 本发明的目的在于至少部分地克服上述缺陷,提供一种电子文档的自动分类系统 和自动分类方法。
[0011] 根据本发明的第一方面,本发明涉及一种电子文档的自动分类系统,其包括:
[0012] 预处理单元,所述预处理单元用于将待分类的电子文档表示为对应于所述电子文 档的词频向量;以及
[0013] 至少两个文档分类单元,所述文档分类单元用于根据所述词频向量输出所述电子 文档的类别属性,所述文档分类单元进一步包括:
[0014] 文本表示单元,所述文本表示单元用于根据所述词频向量计算所述电子文档在特 征空间中的特征向量;
[0015] 分类器,所述分类器用于根据所述电子文档的特征向量输出所述电子文档的类别 属性;
[0016] 其中,所述特征空间的数目与所述文本表示单元的数目相同,每个所述特征空间 与每个所述文本表示单元--对应。
[0017] 本发明的核心在于,通过构造多个不同的特征空间,计算同一份电子文档在不同 的特征空间中的特征向量,从而可以多角度地对该电子文档进行描述。这样,可以根据不同 分类规则对该电子文档进行判定,把这多个判定结果基于某种形式组织在一起,形成最终 的分类结果,由此有效地针对相似度较高的文档进行分类,并且使得针对一个文档进行复 合分类成为可能。使用本发明的方法对电子文档进行分类可以显著地减少用于数据安全管 理所需耗费的人工劳动。
[0018] 根据本发明的构思,上述系统可以进行进一步的改进或变形。其例如而不限于以 下情形:
[0019] 优选地,所述文档分类单元中的每个文档分类单元可以以串联的方式协同工作, 后一个文档分类单元细化前一个文档分类单元输出的类别属性,最后一个文档分类单元输 出所述电子文档属于或者疑似哪一个或者哪几个类别。
[0020] 此外,所述文档分类单元中的每个文档分类单元还可以以并联的方式协同工作, 此时所述自动分类系统还包括判决器,所述判决器设置在所述并联的文档分类单元之后, 用于根据并联的各个文档分类单元输出的类别属性判断所述电子文档属于或者疑似哪一 个或者哪几个类别。
[0021] 进一步优选地,所述至少两个文档分类单元以并联和串联混合的方式协同工作, 其中在串联连接的两级文档分类单元中,后一级文档分类单元细化前一级文档分类单元输 出的类别属性;所述自动分类系统还包括判决器,所述判决器设置在最后一级文档分类单 元之后,用于根据在先的各个文档分类单元输出的类别属性判断所述电子文档属于或者疑 似哪一个或者哪几个类别。
[0022] 进一步优选地,所述自动分类系统还包括分支选择器,所述分支选择器设置在并 联的文档分类单元之前,用于选择由哪一个或者哪些文档分类单元继续进行处理。
[0023] 优选地,所述预处理单元的数目可以为一个或多个。
[0024] 优选地,当所述预处理单元为多个时,所述预处理单元分别基于不同的条目向量 将所述待分类的电子文档表示为对应于所述电子文档的不同的词频向量。
[0025] 优选地,所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的 至少另一个特征空间所对应的条目至少有一个不同。
[0026] 优选地,其中对应的条目至少有一个不同的所述特征空间的维度相同或者不同。
[0027] 优选地,所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的 至少另一个特征空间所对应的条目相同,其中所对应的条目相同的所述特征空间所对应的 权重矩阵互不相同。
[0028] 优选地,所述特征向量中的至少一个的维度小于所述词频向量的维度。
[0029] 根据本发明的第二方面,本发明还公开了一种电子文档的自动分类方法,其包括 以下步骤:
[0030] 预处理步骤,将待分类的电子文档表示为对应于所述电子文档的词频向量;以及
[0031] 至少两个文档分类步骤,根据所述词频向量输出所述电子文档的类别属性,所述 文档分类步骤进一步包括:
[0032] 文本表示步骤,根据所述词频向量计算所述电子文档在特征空间中的特征向量;
[0033] 分类步骤,根据所述电子文档的特征向量输出所述电子文档的类别属性;
[0034] 其中,所述特征空间的数目与所述文本表示步骤的数目相同,每个所述特征空间 与每个所述文本表示步骤--对应。
[0035] 根据本发明的构思,上述方法可以进行进一步的改进或变形。其例如而不限于以 下情形:
[0036] 优选地,所述文档分类步骤中的每个文档分类步骤可以串联进行,后一个文档分 类步骤细化前一个文档分类步骤输出的类别属性,最后一个文档分类步骤输出所述电子文 档属于或者疑似哪一个或者哪几个类别。
[0037] 此外,所述文档分类步骤中的每个文档分类步骤还可以并联进行,所述自动分类 方法还包括
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1