电子文档的自动分类系统和方法

文档序号：8487796阅读：588来源：国知局

电子文档的自动分类系统和方法
【技术领域】
[0001] 本发明涉及信息安全技术领域，特别涉及一种电子文档的自动分类系统和自动分类方法。
【背景技术】
[0002] 随着计算机技术的发展，越来越多的企业、组织以及政府机构等依赖于计算机处理各类事务，在这一过程中，源源不断地产生大量的电子文档。在日常工作中或是进行档案管理时，一般需要将这些电子文档分入特定的类别。但是，在数据量呈现爆炸性增长的今天，某些企业可能一天内就产生几TB的数据。对应着成千上万的电子文档，对其进行人工甄别及管理无疑效率极低。因此，有必要寻求基于计算机的电子文档自动分类系统和方法。
[0003] 自然语言识别技术是语言信息处理的一个重要组成部分，其采用人工智能的理论和技术将设定的自然语言机理用计算机程序表达处理，从而构造出能够理解和识别自然语言的人工智能技术。在近年来，自然语言识别技术在搜索引擎技术中有所应用，也有望用于电子文档自动分类。
[0004] 如图1所示，根据自然语言识别技术，对一个文档进行分类的系统10主要包括以下部分：预处理单元11、文本表示单元12和分类器13。其中文本表示就是寻找一种理想化的形式化文本表示方法，以能够真实反映文档的内容，且对属于不同类别的文档有区分能力。
[0005] 目前一种常用的文本表示方法就是基于特征项的向量空间模型。根据这一理论，一个文档可以看作是n(特征项的个数）维向量空间中的一个向量，或者为图示方便，也可以看作是基于n个特征项的一条特征曲线（即将该向量的各个特征值连接而形成曲线，以便于直观地观察所述文档）。在本发明中，将该n维向量空间称为特征空间，其维度为n。
[0006] 在传统的分类系统中，文本表不是基于一个指定的特征空间展开的，但是这种表示方式存在一定的缺陷。在某些情况下，其不能精确区分相似度较高的文档，并且其不能支持一个文档属于多个分类的复合分类。以下举例说明。
[0007] 参见图2,其示出了一份人民银行公文和一份公安部公文基于同一个特征空间的特征曲线。该特征空间基于多个特征项构造，这些特征项分别进一步划分为银行、公文、公安部等不同的特征集。其中，各个特征集分别包括一个或多个特征项，并且，各个特征集包含的特征项的数目可能相同，也可能不同。为清楚起见，图2中的横轴仅示出上述特征集 (下同）。其中，曲线C10代表人民银行公文，曲线C11代表公安部公文。可以看到，在对两者进行文本表示时，由于两者都包含大量的属于公文集的特征项，因此两者的特征曲线相似度较高。这违背了文本表示应该对不同类别的文档有区分能力这一原则，使得文本表示单元之后的分类器无法正确区分人民银行公文和公安部公文。
[0008] 如图3所示，其示出了一份普通财务文档、一份普通研发文档以及一份研发预算文档基于同一个特征空间（该特征空间基于对应于研发、财务等特征集的特征项构造）的特征曲线。其中，曲线C12代表研发预算文档，曲线C13代表普通财务文档，曲线C14代表普通研发文档。可以看到，研发预算文档C12分别与普通财务文档C13和普通研发文档C14 的相似度都较低。因此，如果分类器没有预先学习研发财务这类复合类别的文档特征，那么分类器就无法识别研发预算文档的类别，即无法将其分入研发类别或财务类别。这与期望的其既属于研发类别、又属于财务类别的分类结果大相径庭。因此，分类器必须预先学习研发财务这类复合类别的文档特征。但是问题在于，这类复合文档的样本稀少，甚至可能无法预先找到。此外，很难保证所有的复合类别都能被事先完全穷举而无任何遗漏。另外，穷举方法也缺乏未来的自适应性和扩展性。
[0009] 鉴于此，有必要寻找一种分类系统和分类方法，以至少部分地解决上述问题。

【发明内容】

[0010] 本发明的目的在于至少部分地克服上述缺陷，提供一种电子文档的自动分类系统和自动分类方法。
[0011] 根据本发明的第一方面，本发明涉及一种电子文档的自动分类系统，其包括：
[0012] 预处理单元，所述预处理单元用于将待分类的电子文档表示为对应于所述电子文档的词频向量；以及
[0013] 至少两个文档分类单元，所述文档分类单元用于根据所述词频向量输出所述电子文档的类别属性，所述文档分类单元进一步包括：
[0014] 文本表示单元，所述文本表示单元用于根据所述词频向量计算所述电子文档在特征空间中的特征向量；
[0015] 分类器，所述分类器用于根据所述电子文档的特征向量输出所述电子文档的类别属性；
[0016] 其中，所述特征空间的数目与所述文本表示单元的数目相同，每个所述特征空间与每个所述文本表示单元--对应。
[0017] 本发明的核心在于，通过构造多个不同的特征空间，计算同一份电子文档在不同的特征空间中的特征向量，从而可以多角度地对该电子文档进行描述。这样，可以根据不同分类规则对该电子文档进行判定，把这多个判定结果基于某种形式组织在一起，形成最终的分类结果，由此有效地针对相似度较高的文档进行分类，并且使得针对一个文档进行复合分类成为可能。使用本发明的方法对电子文档进行分类可以显著地减少用于数据安全管理所需耗费的人工劳动。
[0018] 根据本发明的构思，上述系统可以进行进一步的改进或变形。其例如而不限于以下情形：
[0019] 优选地，所述文档分类单元中的每个文档分类单元可以以串联的方式协同工作，后一个文档分类单元细化前一个文档分类单元输出的类别属性，最后一个文档分类单元输出所述电子文档属于或者疑似哪一个或者哪几个类别。
[0020] 此外，所述文档分类单元中的每个文档分类单元还可以以并联的方式协同工作，此时所述自动分类系统还包括判决器，所述判决器设置在所述并联的文档分类单元之后，用于根据并联的各个文档分类单元输出的类别属性判断所述电子文档属于或者疑似哪一个或者哪几个类别。
[0021] 进一步优选地，所述至少两个文档分类单元以并联和串联混合的方式协同工作，其中在串联连接的两级文档分类单元中，后一级文档分类单元细化前一级文档分类单元输出的类别属性；所述自动分类系统还包括判决器，所述判决器设置在最后一级文档分类单元之后，用于根据在先的各个文档分类单元输出的类别属性判断所述电子文档属于或者疑似哪一个或者哪几个类别。
[0022] 进一步优选地，所述自动分类系统还包括分支选择器，所述分支选择器设置在并联的文档分类单元之前，用于选择由哪一个或者哪些文档分类单元继续进行处理。
[0023] 优选地，所述预处理单元的数目可以为一个或多个。
[0024] 优选地，当所述预处理单元为多个时，所述预处理单元分别基于不同的条目向量将所述待分类的电子文档表示为对应于所述电子文档的不同的词频向量。
[0025] 优选地，所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的至少另一个特征空间所对应的条目至少有一个不同。
[0026] 优选地，其中对应的条目至少有一个不同的所述特征空间的维度相同或者不同。
[0027] 优选地，所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的至少另一个特征空间所对应的条目相同，其中所对应的条目相同的所述特征空间所对应的权重矩阵互不相同。
[0028] 优选地，所述特征向量中的至少一个的维度小于所述词频向量的维度。
[0029] 根据本发明的第二方面，本发明还公开了一种电子文档的自动分类方法，其包括以下步骤：
[0030] 预处理步骤，将待分类的电子文档表示为对应于所述电子文档的词频向量；以及
[0031] 至少两个文档分类步骤，根据所述词频向量输出所述电子文档的类别属性，所述文档分类步骤进一步包括：
[0032] 文本表示步骤，根据所述词频向量计算所述电子文档在特征空间中的特征向量；
[0033] 分类步骤，根据所述电子文档的特征向量输出所述电子文档的类别属性；
[0034] 其中，所述特征空间的数目与所述文本表示步骤的数目相同，每个所述特征空间与每个所述文本表示步骤--对应。
[0035] 根据本发明的构思，上述方法可以进行进一步的改进或变形。其例如而不限于以下情形：
[0036] 优选地，所述文档分类步骤中的每个文档分类步骤可以串联进行，后一个文档分类步骤细化前一个文档分类步骤输出的类别属性，最后一个文档分类步骤输出所述电子文档属于或者疑似哪一个或者哪几个类别。
[0037] 此外，所述文档分类步骤中的每个文档分类步骤还可以并联进行，所述自动分类方法还包括

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董靖;
技术所有人：董靖;
我是此专利的发明人

上一篇：一种获取网络主体社交关系类型的方法及装置的制造方法
上一篇：数据查询的方法、设备及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。