文档分类、支持向量机模型生成的方法和装置的制作方法

文档序号:6398756阅读:376来源:国知局
专利名称:文档分类、支持向量机模型生成的方法和装置的制作方法
技术领域
本发明涉及计算机处理技术,尤其涉及文档分类、支持向量机模型生成的方法和
>J-U装直。
背景技术
近年来,随着互联网Internet的快速发展,使得Web (网络)上的文档资源呈现爆炸式的增长,这些文档信息数据量大,内容繁杂。与数据库中结构化的信息相比,非结构化或半结构化的web文档信息更加丰富和繁杂。为了充分有效地利用这些文档资源,是用户能够快速有效的找到需要的 信息,并且提取其中潜在的有价值的信息,则需要对这些文档进行分类。目前,对文档进行自动分类的方法通常采用基于支持向量机模型的方法进行分类;该方法包括:训练阶段和分类阶段。目前,现有技术中有多种基于支持向量机模型的文档自动分类方法,下面较为详细的介绍了一种。训练阶段得到支持向量机模型的方法为:根据训练集中划分了类别的文档,得到类别特征向量;根据类别特征向量集,可以得到支持向量机模型以及有效词语集(或称词典);为便于描述,本文中将训练集中的样本称为训练样本。其中,根据训练集中划分了类别的训练样本,得到类别特征向量的一种具体方法,流程如

图1所示,包括如下步骤:SlOl:对训练集中的每个训练样本进行分词,得到每个训练样本的词语集合,删除其中的停用词。训练集中收集了各种已经划分了类别的文档,通常,训练集采用人工分类的语料库。为了保证训练阶段得到的支持向量机模型的稳定性和收敛性,通常训练集中的文档数
量要大于一定数值。文档(训练样本)由一串连续的字序列组成,词语是文档中的基本单位;分词就是将文档中连续的字序列划分为一个个词语的过程,划分出的词语构成该文档的词语集合。S102:针对每个类别,统计该类别的训练样本的词语集合中,各词语出现的频次。例如,训练集中的训练样本共有q个类别,分别记为:C1、c2......Cq ;其中,q为大于
2的自然数;训练集中所有的训练样本的词语集合中共有n个词语,分别记为t2……tn;其中,n为大于2的自然数;针对其中第i个类别,统计出第i个类别的训练样本的词语集合中第j个词语出现的频次(次数),记为HlijtjS103:构建类别词语矩阵。根据统计出的每个类别中各词语出现的频次,得到每个类别的词语频次向量;例如,第i个类别的词语频次向量c, = {mn,mn, ,min)。构建的qXn的类别词语矩阵Q,,。
亦即类别词语矩阵Cqxn为:
权利要求
1.一种文档分类方法,其特征在于,包括: 对待分类文档进行分词后,确定该待分类文档的特征向量; 根据该待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中, 所述训练集的类别扁平化处理过程,包括:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类另IJ,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。
2.如权利要求1所述的方法,其特征在于,所述类别被分配了唯一的标识,以及所述类别的标识中包含了该类别的层级路径信息。
3.如权利要求2所述的方法,其特征在于,最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;其中,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分配的唯一的识别码。
4.如权利要求1-3任一所述的方法,其特征在于,所述支持向量机模型是根据训练集生成的具体包括: 根据所述训练集构建类别词语矩阵; 根据所述类别词语矩阵生成各类别的特征向量,根据各类别的特征向量构建所述支持向量机模型;以及 所述根据该待分类文档的特征向量以及支持向量机模型,确定该待分类文档所属类别具体包括:` 计算该待分类文档的特征向量与所述支持向量机模型中分别对应各类别的超平面之间的距离; 根据计算的距离确定该待分类文档所属类别。
5.一种支持向量机模型生成方法,其特征在于,包括: 对训练集进行类别扁平化处理:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除; 根据经过类别扁平化处理的训练集生成所述支持向量机模型。
6.如权利要求5所述的方法,其特征在于,所述类别被分配了唯一的标识,以及所述类别的标识中包含了该类别的层级路径信息。
7.如权利要求6所述的方法,其特征在于,最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;其中,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分配的唯一的识别码。
8.一种支持向量机模型生成装置,其特征在于,包括: 训练集扁平化处理模块,用于对训练集进行类别扁平化处理:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除;将经过类别扁平化处理的训练集输出; 支持向量机模型生成模块,用于接收所述训练集扁平化处理模块输出的训练集,并根据接收的训练集生成所述支持向量机模型。
9.如权利要求8所述的装置,其特征在于,所述类别被分配了唯一的标识,以及所述类别的标识中包含了该类别的层级路径信息。
10.如权利要求9所述的装置,其特征在于,最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;其中,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分 配的唯一的识别码。
全文摘要
本发明公开了一种文档分类、支持向量机模型生成的方法和装置,所述方法包括根据待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中,训练集的类别扁平化处理过程包括针对训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。由于根据类别之间的层级关系先对训练集进行类别扁平化处理,从而使得得到的支持向量机模型可适用于对多层级类别的文档进行分类,使得分类结果具有较好的精确性。
文档编号G06K9/62GK103106262SQ20131003312
公开日2013年5月15日 申请日期2013年1月28日 优先权日2013年1月28日
发明者戴明洋 申请人:新浪网技术(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1