电子文档的自动分类系统和方法_2

文档序号：8487796阅读：来源：国知局

判决步骤，所述判决步骤在所述并联进行的文档分类步骤之后进行，根据所述并联进行的文档分类步骤输出的类别属性判断所述电子文档属于或者疑似哪一个或者哪几个类别。
[0038] 进一步优选地，所述至少两个文档分类步骤可以并联和串联混合进行，其中在串联进行的两级文档分类步骤中，后一级文档分类步骤细化前一级文档分类步骤输出的类别属性。
[0039] 优选地，所述自动分类方法还包括判决步骤，所述判决步骤在最后一级文档分类步骤之后进行，根据在先的各个文档分类步骤输出的类别属性判断所述电子文档属于或者疑似哪一个或者哪几个类别。
[0040] 进一步优选地，所述自动分类方法还可以包括分支选择步骤，所述分支选择步骤在并联的文档分类步骤之前进行，选择由哪一个或者哪些文档分类步骤继续进行处理。
[0041] 优选地，所述预处理步骤的数目可以为一个或多个。
[0042] 优选地，当所述预处理步骤为多个时，所述预处理步骤分别基于不同的条目向量将所述待分类的电子文档表示为对应于所述电子文档的不同的词频向量。
[0043] 优选地，所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的至少另一个特征空间所对应的条目至少有一个不同。
[0044] 优选地，其中对应的条目至少有一个不同的所述特征空间的维度相同或者不同。
[0045] 优选地，所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的至少另一个特征空间所对应的条目相同，其中所对应的条目相同的所述特征空间所对应的权重矩阵互不相同。
[0046] 优选地，所述特征向量中的至少一个的维度小于所述词频向量的维度。
[0047] 通过本发明的方法和系统，可以较为有效地针对相似度较高的文档进行分类，并且使得针对一个文档进行复合分类成为可能，由此显著地减少了用于数据安全管理所需耗费的人工劳动。进一步，通过抽取条目，可以使得特征向量的维度小于词频向量的维度，从而进一步减少计算量，提高分类效率。
【附图说明】
[0048] 参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：
[0049]图1示意性地示出了根据自然语言识别技术的简单文本分类系统的工作流程图。
[0050] 图2示意性地示出了两份电子文档基于同一个特征空间的特征曲线。
[0051] 图3示意性地示出了另外三份电子文档基于同一个特征空间的特征曲线。
[0052] 图4示意性地示出了采用根据本发明的一个优选实施方式的电子文档的自动分类系统对电子文档进行分类的的工作流程图。
[0053] 图5示意性地示出了图2涉及的两份电子文档经过图4涉及的电子文档的自动分类系统的第一个文本表示单元处理后的特征曲线。
[0054] 图6示意性地示出了图2涉及的两份电子文档经过图4涉及的电子文档的自动分类系统的第二个文本表示单元处理后的特征曲线。
[0055] 图7示意性地示出了采用根据本发明的另一个优选实施方式的电子文档的自动分类系统对电子文档进行分类的的工作流程图。
[0056] 图8示意性地示出了图3涉及的三份电子文档中的两份经过图7涉及的电子文档的自动分类系统的第一个文本表示单元处理后的特征曲线。
[0057] 图9示意性地示出了图3涉及的三份电子文档中的两份经过图7涉及的电子文档的自动分类系统的第二个文本表示单元处理后的特征曲线。
[0058] 图10示意性地示出了图2涉及的两份电子文档经过图4涉及的电子文档的自动分类系统的第二个文本表示单元处理后的特征曲线，此时该文本表示单元对应的特征空间不同于图6涉及的文本表示单元所对应的特征空间。
[0059] 图11示意性地示出了采用根据本发明的又一个优选实施方式的电子文档的自动分类系统对电子文档进行分类的的工作流程图。
[0060] 图12示意性地示出了采用根据本发明的又一个优选实施方式的电子文档的自动分类系统对电子文档进行分类的的工作流程图。
【具体实施方式】
[0061] 通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。
[0062] 本发明总的涉及一种电子文档的自动分类系统和自动分类方法，其实质上是利用自然语言识别技术基于多个特征空间实现对电子文档的精确分类。
[0063] 以下，首先结合优选实施方式说明本发明利用自然语言识别技术确定电子文档类别的原理。
[0064] 对于电子文档，我们采用"条目"表示分析和理解文档时所涉及的所有的特征项，以字符"term"表示。优选地，条目term的粒度是关键字或者一个正则表达式所对应的对象。关键字例如为"身份证"、"工资"、"收购"等；正则表达式例如用于表示身份证号码、货币、日期、编码等。显然，对于不同主体，例如银行和一般企业，确定电子文档的类别时所依据的条目可以相同也可以不同。优选地，根据经验预先确定上述条目。
[0065] 优选地，在分析电子文档时预先确定m个条目，该m个无序的条目可以表示为m维条目向量，即 TERM 向量：TERM^ternii，term2，…，termj。
[0066] 当需要对一份电子文档进行分类时，首先对电子文档进行预处理。在此步骤中，对该文档进行扫描，统计每个term在该文档中出现的次数。优选地，此扫描过程支持关键词匹配以及正则表达式匹配。频率统计完成以后，该文档表示为对应于该文档的词频向量 TFsCTFi，TF2，…TF m)，其中TFi表示第i个条目ternii在该文档中出现的次数。
[0067] 随后，对电子文档进行文本表示，也就是计算该电子文档对应的特征向量a。
[0068] 如前所述，特征向量是基于特定的特征空间确定的。换句话说，在不同的特征空间中，对应于同一份电子文档的同一个词频向量可以转化为不同的特征向量a = (ai，a2，…， an)，其中n是该特征空间的维度，n彡m。
[0069] 根据本发明的构思，将基于多个（至少两个）特征空间对词频向量进行处理，以获得期望的结果。
[0070] 在本发明中，特征空间是基于"条目"和"权重矩阵"定义的，换句话说，通过选取不同的条目和/或权重矩阵，可以获得不同的特征空间。如果两个特征空间的条目和权重矩阵完全相同，则这两个特征空间相同，即其实质上是一个特征空间。由此，基于不同的特征空间，电子文档可以转化为不同的特征向量。
[0071] 具体地，一方面可以通过抽取不同的条目来构造不同的特征空间，这样形成的特征空间可能具有相同维度，也可能具有不相同的维度。无论其维度相同与否，只要其所依据的条目至少有一个不同，其就属于不同的特征空间。例如为了区分人民银行公文和公安部公文，可以在一个特征空间中去除属于公文集的那些条目（特征项），这样使得两者在该特征空间中的特征向量具有较低的相似度。在实践中，通过仅抽取部分条目的方式（使n <m)来构造不同的特征空间可以有效减小计算量，提高计算效率。这种做法可以简单地称为"降维"，即通过令特征向量的维度小于词频向量的维度来减少计算量。
[0072]另一方面，可以通过构造不同的权重矩阵来构造不同的特征空间，这样，对于仅权重矩阵不同的各个特征空间，其维度将是相同的。例如，同样为了区分人民银行公文和公安部公文，可以在一个特征空间中令属于公文集的那些条目（特征项）的权重为零，这样也可以使得两者在该特征空间中的特征向量具有较低的相似度。
[0073]显然，在一个复杂的系统中，根据实际需求，上述两个方面是可以结合使用的。后文将对此进行进一步描述。
[0074]根据本发明，计算特征向量a的一种方法可以表示为：a = f(TFXS，W)，即特征向量a是TFXS和W的函数。
[0075]其中：
[0076]a表示电子文档在某特征空间中的特征向量，其为n维向量，或者称为lXn维矩阵。
[0077]TF表示电子文档的词频向量，其为m维向量，或者称为lXm维矩阵。
[0078]S表示选取特定条目时所使用的转换矩阵，其为mXn维矩阵。如果抽取TERM向量中第i个条目作为特征空间中第j个条目，则S中的元素\=1，其中，i=1，…，m ;j=l，…， n，除被抽取的条目外其它元素均为零。
[0079]在实践中，可以根据需要合理设置S，例如可以使得某个条目或者对应于某特征集

完整全部详细技术资料下载

当前第2页1 2 3