电子文档的自动分类系统和方法_3

文档序号:8487796阅读:来源:国知局
的某些条目不被抽取,从而使得特征空间具有较少的条目(特征项)。例如在上文提到的例 子中,在对人民银行公文和公安部公文进行分类时,可以不抽取对应于"公文"的特征集所 包含的那些特征项。
[0080] W表示该特征空间的权重矩阵,其为nXn维对角矩阵,其对角线上的元素 Wi(i=l,…,m)为该特征空间所对应的各个条目在该特征空间中的权重值。
[0081] 权重矩阵W的对角线上的元素Wi的取值可以通过在样本集合中学习而确定。样本 集合内的文档可以根据经验选取,在需要的情况下去除噪声,以获得最优学习效果。当然, 也可以采取其它方式构造权重矩阵W,以根据需要在不同的特征空间中增加或者减少所关 注的条目的权重。
[0082]在计算特征向量a时,在一种优选的情况下,特征向量a与TFX S和W之间为线性 关系,其可以表示为,a=TFXSXW。这可以包括多种情形。
[0083]显然,一种最简便的做法是令特征向量a=TF,即令afTFi,i=l,…m,此时S和W均 为单位矩阵。显然,这是在一个最基本的特征空间中进行的处理,该特征向量就是词频向量 本身。该特征空间是基于TERM向量(也就是全部条目)形成的,并且对于每个term的权 重均设为1。
[0084]上面这种做法意味着对词频向量并未进行任何处理,这可能存在一些缺陷,因而 只能在特定场合使用,例如文档较为标准的场合。因为文档有长有短,直接根据条目termi 出现的次数对文档分类有可能导致无法获得期望的分类效果。此外,在确定类别时每个条 目所提供的信息量可能并不相同,一篇电子文档中某些条目出现频率高并不意味着该电子 文档一定属于某一特定类别,相反,某些条目可能只出现一次就导致该文档属于某一特定 类别。因此,当需要体现不同条目所包含的不同的信息增益时,有必要将条目termi出现的 次数TFi转换为不同于该次数TFi的特征值ai。
[0085] 当仅通过抽取不同的条目来获得不同的特征空间时,各个被抽取的条目的权重均 相同,权重矩阵W为对角线元素为1的单位矩阵,此时a=TFXS。
[0086] 当仅通过改变权重矩阵来获得不同的特征空间时,特征空间的维度与词频向量TF 的维度相同(n=m)且每个条目均按序抽取,转换矩阵S为对角线元素均为1的单位矩阵,此 时a=TFXW。这也称为TF*IDF方法。即ai=TFi?Wp
[0087] 可以采用TF'表示抽取过后的词频向量,则TF' =TFXS,它是一个n维向量,可以 表示为(TF/,TF2,,…,TF/ )。
[0088] 在一种优选的情况下,可以采用TFC方法计算特征向量a,即令
【主权项】
1. 一种电子文档的自动分类系统,其特征在于,所述自动分类系统包括: 预处理单元,所述预处理单元用于将待分类的电子文档表示为对应于所述电子文档的 词频向量;以及 至少两个文档分类单元,所述文档分类单元用于根据所述词频向量输出所述电子文档 的类别属性,所述文档分类单元进一步包括: 文本表示单元,所述文本表示单元用于根据所述词频向量计算所述电子文档在特征空 间中的特征向量; 分类器,所述分类器用于根据所述电子文档的特征向量输出所述电子文档的类别属 性; 其中,所述特征空间的数目与所述文本表示单元的数目相同,每个所述特征空间与每 个所述文本表示单元--对应。
2. 如权利要求1所述的自动分类系统,其特征在于, 所述文档分类单元中的每个文档分类单元以串联的方式协同工作,后一个文档分类单 元细化前一个文档分类单元输出的类别属性,最后一个文档分类单元输出所述电子文档属 于或者疑似哪一个或者哪几个类别; 或者,所述文档分类单元中的每个文档分类单元以并联的方式协同工作,所述自动分 类系统还包括判决器,所述判决器设置在所述并联的文档分类单元之后,用于根据并联的 各个文档分类单元输出的类别属性判断所述电子文档属于或者疑似哪一个或者哪几个类 别。
3. 如权利要求1所述的自动分类系统,其特征在于, 所述至少两个文档分类单元以并联和串联混合的方式协同工作,其中在串联连接的两 级文档分类单元中,后一级文档分类单元细化前一级文档分类单元输出的类别属性; 所述自动分类系统还包括判决器,所述判决器设置在最后一级文档分类单元之后,用 于根据在先的各个文档分类单元输出的类别属性判断所述电子文档属于或者疑似哪一个 或者哪几个类别; 优选地,所述自动分类系统还包括分支选择器,所述分支选择器设置在并联的文档分 类单元之前,用于选择由哪一个或者哪些文档分类单元继续进行处理。
4. 如权利要求1所述的自动分类系统,其特征在于,所述预处理单元的数目为一个或 多个;优选地,当所述预处理单元为多个时,所述预处理单元分别基于不同的条目向量将所 述待分类的电子文档表示为对应于所述电子文档的不同的词频向量。
5. -种电子文档的自动分类方法,其特征在于,所述自动分类方法包括以下步骤: 预处理步骤,将待分类的电子文档表示为对应于所述电子文档的词频向量;以及 至少两个文档分类步骤,根据所述词频向量输出所述电子文档的类别属性,所述文档 分类步骤进一步包括: 文本表示步骤,根据所述词频向量计算所述电子文档在特征空间中的特征向量; 分类步骤,根据所述电子文档的特征向量输出所述电子文档的类别属性; 其中,所述特征空间的数目与所述文本表示步骤的数目相同,每个所述特征空间与每 个所述文本表示步骤--对应。
6. 如权利要求5所述的自动分类方法,其特征在于, 所述文档分类步骤中的每个文档分类步骤串联进行,后一个文档分类步骤细化前一个 文档分类步骤输出的类别属性,最后一个文档分类步骤输出所述电子文档属于或者疑似哪 一个或者哪几个类别; 或者,所述文档分类步骤中的每个文档分类步骤并联进行,所述自动分类方法还包括 判决步骤,所述判决步骤在所述并联进行的文档分类步骤之后进行,根据所述并联进行的 文档分类步骤输出的类别属性判断所述电子文档属于或者疑似哪一个或者哪几个类别。
7. 如权利要求5所述的文档自动分类方法,其特征在于, 所述至少两个文档分类步骤并联和串联混合进行,其中在串联进行的两级文档分类步 骤中,后一级文档分类步骤细化前一级文档分类步骤输出的类别属性; 所述自动分类方法还包括判决步骤,所述判决步骤在最后一级文档分类步骤之后进 行,根据在先的各个文档分类步骤输出的类别属性判断所述电子文档属于或者疑似哪一个 或者哪几个类别; 优选地,所述自动分类方法还包括分支选择步骤,所述分支选择步骤在并联的文档分 类步骤之前进行,选择由哪一个或者哪些文档分类步骤继续进行处理。
8. 如权利要求5所述的文档自动分类方法,其特征在于,所述预处理步骤的数目为一 个或多个;优选地,当所述预处理步骤为多个时,所述预处理步骤分别基于不同的条目向量 将所述待分类的电子文档表示为对应于所述电子文档的不同的词频向量。
9. 如权利要求1所述的文档自动分类系统或权利要求5所述的文档自动分类方法,其 特征在于,所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的至少另 一个特征空间所对应的条目至少有一个不同;优选地,其中对应的条目至少有一个不同的 所述特征空间的维度相同或者不同。
10. 如权利要求1所述的文档自动分类系统或权利要求5所述的文档自动分类方法,其 特征在于,所述特征空间中的至少一个特征空间所对应的条目与所述特征空间中的至少另 一个特征空间所对应的条目相同,其中所对应的条目相同的所述特征空间所对应的权重矩 阵互不相同。
11. 如权利要求1所述的文档自动分类系统或权利要求5所述的文档自动分类方法,其 特征在于,所述特征向量中的至少一个的维度小于所述词频向量的维度。
【专利摘要】本发明涉及一种电子文档的自动分类系统和方法。该自动分类系统包括预处理单元和至少两个文档分类单元。其中,预处理单元用于将待分类的电子文档表示为对应于电子文档的词频向量,文档分类单元用于根据词频向量输出电子文档的类别属性。文档分类单元进一步包括文本表示单元和分类器。其中文本表示单元用于根据词频向量计算电子文档在特征空间中的特征向量,分类器用于根据电子文档的特征向量输出电子文档的类别属性。其中,所述特征空间的数目与所述文本表示单元的数目相同,每个所述特征空间与每个所述文本表示单元一一对应。采用本发明的系统和方法可以有效地针对相似度较高的文档进行分类,并且使得针对一个文档进行复合分类成为可能。
【IPC分类】G06F17-30
【公开号】CN104809131
【申请号】CN201410039197
【发明人】董靖
【申请人】董靖
【公开日】2015年7月29日
【申请日】2014年1月27日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1