一种文本分类方法

文档序号:6622255阅读:619来源:国知局
一种文本分类方法
【专利摘要】本发明提供一种文本分类方法,其通过利用词的概率信息和词的权重信息对分类的影响,提高了新分类器的分类性能。具体的:其采用基尼指数的纯度形式,更适合于文本分类,因为对于文本分类来说,所含的信息越多,越有利于文本的分类。其在改进后的基尼分类公式中保留了sim(cj|d),这样能充分利用训练集中词的权重信息。其采用基尼指数的纯度形式,并取δ=1/2即:这种形式充分考虑了词的概率信息对分类的影响。
【专利说明】一种文本分类方法

【技术领域】
[0001] 本发明属于信息智能检索领域,尤其涉及一种文本分类方法。

【背景技术】
[0002] 文本分类的分类方法很多,比较常见的文本分类算法有:kNN,朴素贝叶斯和SVM 分类器。
[0003] kNN是一种应用十分广泛的统计模式识别方法,也是最早应用于自动文本分类的 机器学习算法之一。kNN算法的思想非常简单:给定一个未知文本,在训练数据中找出与其 最为相似的k个训练文本,这k个训练文本即为未知文本的k个"近邻"。然后根据这k个 文本所属类别的情况来判定新文本所属的类别。可以看出:kNN是一种非参数化的方法, kNN的分类规则主要是使用相似度来分类文本文档,而相似度的计算主要是采用矢量空间 模型中词的权重矢量来计算。也就是说kNN分类器充分利用了词的权重信息对分类的影 响。因此,kNN分类器的缺点是:是一种懒散的学习算法,即它在训练步骤中只是存储了训 练文本,并没有使用它们来生成一个分类器,并且直到有新的未知文本进来时才建立分类。 这就导致计算时间长,需要大的存储开销。另外,在kNN的分类决策规则中没有充分考虑词 的概率信息对文本分类的影响。
[0004] 朴素贝叶斯分类器在自动文本分类研究中受到了广泛重视和普遍运用。朴素贝叶 斯分类器是一种特殊的贝叶斯分类器,其实质是:首先利用贝叶斯条件概率公式,计算在已 知文本文档的特征向量的条件下,该文本属于不同文本类别的条件概率(即后验概率);然 后,依据最大似然原理将该文本归为具有最大后验概率的那一类。之所以称其为朴素的,在 于其假设构成特征向量的各个特征相互独立。由其算法思想,可以知道:朴素贝叶斯分类算 法思想简单,易于实现和计算。从其分类决策规则可以看出它主要是使用词的后验概率来 分类文本文档,也就是说它充分考虑了词的概率信息对分类的影响。因此,朴素贝叶斯分类 的缺点是:独立性假设在现实中很容易被打破,在特征项之间高度相关的情况下,算法性能 很差。另外,从其分类决策规则可以看出它没有考虑词的权重信息对分类的影响。
[0005] 支持向量机模型是Vapnik等人根据统计学理论提出的一种新的通用学习方法, 它是建立在VC维理论和结构风险最小原理的基础上。于1998年由Joachims引入自动文 本分类研究领域,取得了非常理想的文本分类结果。支持向量机本质上是一个两类分类器, 其实质是寻找一个最优超平面(或最优超曲面),使得两类样本之间的距离达到最大。由支 持向量机的算法思想可以看出它更适合于两类文本分类,准确率高。但是对于多类文本分 类,它需要构建多个两类SVM分类器,这就导致了比较低的文本分类效率,另外它还需要参 数调整、核函数的选择等。
[0006] 从以上分析可知目前常用的不同分类器都存在一定的缺点。本发明设计并实 现了一种新的文本分类模型,即基于信息熵理论的文本分类模型(Improved Gini Index Calssifier,IGIC)。该模型既考虑了词的概率信息对分类的影响,同时也考虑了词的权重信 息对分类的影响。采用改进的基尼指数算法,设计了新的分类决策规则。


【发明内容】

[0007] 为解决上述技术问题,本发明提供一种文本分类方法,本发明的文本分类方法计 算简单、执行效率高,分类精度高。
[0008] 本发明的文本分类方法包括以下步骤:
[0009] 步骤1,建立用于文本分类的基准测试数据集,并将该基准测试数据集随机划分为 训练文本和测试文本:
[0010] 步骤2,将所述基准测试数据集采用向量空间模型建立文本表示模型;
[0011] 步骤3,根据所述文本表示模型建立分类决策模型:
[0012]

【权利要求】
1. 一种文本分类方法,其特征在于,包括以下步骤: 步骤1,建立用于文本分类的基准测试数据集,并将该基准测试数据集随机划分为训练 文本和测试文本: 步骤2,将所述基准测试数据集采用向量空间模型建立文本表示模型; 步骤3,根据所述文本表示模型建立分类决策模型:
其中,η是文本矢量的维数;d是待分类的测试文本;是第j类;
是类别j中训练文 本的总数;sim(Cj|d)是待分类的测试文本d与类别j中各个文本相似度之和;weight (wt) 是单词wt经加权算法算出的权值,
是单词wt经基尼指数公式后得到 的概率; 步骤4,建立决策规则,该决策规则为:如果
则决策d e Cj ; 步骤5,根据上述分类决策模型和决策规则采用IGIC分类器对所述基准测试数据集进 行训练学习,得到分类结果。
2. 如权利要求1所述的文本分类方法,其特征在于, 所述基准测试数据集为属于国际英文标准数据集的20neWS-bydate,其按照日期进行 分类,其中的60 %做为训练集,40 %做为测试集,不包括重复文本。
3. 如权利要求1所述的文本分类方法,其特征在于,还包括步骤6 : 采用指定评价指标对所述分类结果进行评价,若评价结果不符合分类要求时,调整步 骤3中的各项参数。
4. 如权利要求3所述的文本分类方法,其特征在于,评价方法为: 针对单个类的分类结果使用查全率、查准率或F-Measure进行评价; 针对多个类的分类结果利用宏平均和微平均将每个类上的评价结果综合起来进行评 价。
5. 如权利要求1所述的文本分类方法,其特征在于, 所述步骤3中采用TF-IDF算法进行权重调节,基准测试数据集为中文数据集的,维数 取2000,基准测试数据集为英文数据集的,维数取1000。
【文档编号】G06F17/30GK104142998SQ201410377112
【公开日】2014年11月12日 申请日期:2014年8月1日 优先权日:2014年8月1日
【发明者】石民勇, 王永滨, 洪志国, 尚松涛, 陈秀霞 申请人:中国传媒大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1