一种文本分类的方法

文档序号:8543771阅读:237来源:国知局
一种文本分类的方法
【技术领域】
[0001] 本发明设及云计算大数据技术,具体地说是一种实用性强的文本分类的方法。
【背景技术】
[0002] 随着网络技术的快速发展,海量的信息资源W文本的形式存在。人们迫切的希望 能从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重 要研究方向,是解决文本信息发现的常用方法。在文本分类的过程中,关键词的权重起到决 定性的作用,它能快速反映一篇文档主题内容或与文档所在领域高度相关的词语,帮助人 们在捜寻所需的信息时能够迅速地定位到相应的文档。
[0003] 目前获取关键词或特征词的方式有4种;(1)用映射或变换的方法把原始特征变 换为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识 挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,该种方法是 一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。
[0004] 针对该数学的方法,在国外1973年,Salton结合了JONESKS的思想首次提出了 TFIDF(TermRrequen巧&InverseDo州mentationRrequency)算法。此后他又多次论证了 该算法在信息检索中的有效性,并在1988年将特征词和权重运用到文献检索中,并详细阐 述了实验的情况,进而他得出TFIDF算法具有W下思想:如果某个词或短语在一篇文章中 出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分 能力,适合用来分类;一个词在一篇文档中出现的范围越广,说明它区分文档内容的属性 越低(IDF)。1999年RobedoBasils提出了改进的TFXIWFXIWF算法,该算法提高了在大 量文档出现的频率较低的特征词的权重,有利于多文档的区分,但是它没有考虑到当某一 类文档在总文档数所占比例较高时,对该类文档进行区分时,无形降低了可W区分该类文 档的特征词的权重,导致该类文档不能有效区分出来;另一方面,该算法大大提高了一些不 具有区分能力单出现次数较少的特征词权重。因此该算法适用范围具有一些局限性。2004 年,Bong化ih化W和NarayananK根据不同类别的文档数可能存在数量级的差距提出了 用CategoiTTermDescriptor(CTD)来改进TFIDF,W解决了不同类别的文档数目对TFIDF 算法的影响。
[0005] 在国内,也有很多研究学者对TFIDF算法进行研究和改进,且取得了很多显著的 成果。2006张玉芳等人为了解决特征性项在类间和类内的分布情况,对TFIDF公式进行了 修改。该算法考虑到了特征项在内间的分布情况,提高了那些在某一类文档大量出现而在 其他类文本含量较少的特征项的权重,能够较精确的区分出该类文档。但当某一类文本C 所含关键特征项t的文档数量较小时,其关键特征项t的权重会随着其他类中包含特征项 t的文档数量的增大而减小(在一定程度内,如果不含关键特征项的文本数量过大,特征词 t也就不能成为区分文本的关键词),故有一定的局限性;同时该算法只考虑到特征项在内 间的分布情况而没注意到其在类内的分布情况。
[0006] 更为具体的,现有的TFIDF算法存在W下不足:
[0007] 1)IDF没有考虑到特征词在内间的分布信息。
[000引如果某一类c_i中包含词条t的文档数为m,而其它类包含t的文档总数为k,显 然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会 小,则表示该词条t类别区分能力不强。但是实际上,m大,说明词条t在c_i类的文档 中频繁出现,就说明t词条能够很好地代表c_i类的文本特征,应该赋予较高的权重并选 作该类文本的特征词。该就是IDF没有考虑特征词在类间分布的一个方面;另一方面,虽 然包含t的文档数n较小,但是如果其均匀分布在各个类间,该样的特征词不适合用来分 类,应该赋予较小的权重,可按照传统的TFIDF算法计算其IDF值却很大。
[0009] 2)TFIDF没有考虑特征词不完全分类的情况。
[0010] 实际使用的已分类的训练文本集通常是不完全的分类。即有些类别的文档集还可 W继续划分出更细的类别。如,计算机类一般来说至少可W再细分出计算机硬件、计算机 软件两个子类。在该种不完全的分类条件下,各个子类文章所占的比重是不均衡的。可能 在某个计算机类的文本集中,软件类的占了 80%,硬件类的只有20%的比例。在该个训 练集中,属于计算机硬件类的特征词也应该作为判别计算机类文章的特征词。如果某些词 在一类文章中整体出现频率较低,但是在本类中一定数量的文章中出现较频繁,那么该些 词也应该对分类来说具有较多的信息量。该就是不完全分类的情况。
[0011] 3)TFIDF没有考虑特征词在类内的分布信息。
[0012] 同样是集中分布于某一类别的不同特征项,类内分布相对均匀的特征项的权重 应该比分布不均匀的要高。
[0013] 基于此,现提供一种基于改进的TFIDF算法的文本分类的方法,该方法结合文本 分类的实际情况,结合传统的特征词权重的计算方法,分析了传统TF-IDF算法在特征词权 重计算上的不足,即传统的TFIDF算没有考虑特征词在类内和内间的分布,导致一些区分 度不强的特征词赋予了较大的权重。针对传统的TFIDF算法的不足,结合特征词权重对文 本分类的实际影响,本发明对传统TFIDF算法公式进行了修改,剔除干扰特征性在内间的 影响,同时加入了类内离散度的概念,实现了文本分类精确度的要求。

【发明内容】

[0014] 本发明的技术任务是针对W上不足之处,提供一种实用性强、文本分类的方法。
[0015] 一种文本分类的方法,其具体实现过程为:
[0016] 首先获取网络中的文本;
[0017] 对文本进行预处理,提取特征词,对网络中的文本进行分词,然后去除停用词;
[0018] 计算出网络文本中各特征词的权重,并将文本用向量模型进行表示。
[0019] 所述特征词的选取过程为:
[0020] 构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,使每个 词语都获得一个评估值,即权值;
[0021] 然后将所有特征按权值大小排序;
[0022] 提取预定数目的最优特征作为提取结果的特征子集。
[0023] 所述特征词的权重计算通过改进的TFIDF算法完成,该改进的TFIDF的算法中加 入一个可变常量,来对选取的特征词的权重进行调整,剔除干扰特征性在内间的影响,达到 为选取的特征词赋予更加合适的权重,提高文本分类的精确度。
[0024] 所述改进的TFIDF的算法的具体内容为;
[002引 IDF= 10 即Xl0g(N/(n+k)+0.01),其中nGr+,求n+k声 0 ;
[0026] 其中,总文档文本数为N,包含特征词条t_i的文档数为n,k为任意参数,该k为 上述可变常量,对选取的特征词t_i的权重进行调整,在该公式中,当含特征词条t_i的文 档数为n逐渐增大时,特征词t_i的文档区分能力逐渐增强,当n达到某一值时,特征词t_ i的文档区分能力应随着n的增大而逐渐减少,在IDF公式中,IDF先增后减,且n趋向于1 和n趋向于N时,IDF都趋向于0。
[0027] 所述改进的TFIDF的算法中还增加一个类内离散度的新的权值来观察所选特征 词在类内的分布情况,该类内离散度CD的计算公式如下:
[002引
【主权项】
1. 一种文本分类的方法,其特征在于,其具体实现过程为, 首先获取网络中的文本; 对文本进行预处理,提取特征词,对网络中的文本进行分词,然后去除停用词; 计算出网络文本中各特征词的权重,并将文本用向量模型进行表示。
2. 根据权利要求1所述的一种文本分类的方法,其特征在于,所述特征词的选取过程 为: 构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,使每个词语 都获得一个评估值,即权值; 然后将所有特征按权值大小排序; 提取预定数目的最优特征作为提取结果的特征子集。
3. 根据权利要求1所述的一种文本分类的方法,其特征在于,所述特征词的权重计算 通过改进的TFIDF算法完成,该改进的TFIDF的算法中加入一个可变常量,来对选取的特 征词的权重进行调整,剔除干扰特征性在内间的影响,达到为选取的特征词赋予更加合适 的权重,提高文本分类的精确度。
4. 根据权利要求3所述的一种文本分类的方法,其特征在于,所述改进的TFIDF的算法 的具体内容为: IDF = IognX log (N/ (n+k) +0· 01),其中 n e N~+,求 n+k 辛 O ; 其中,总文档文本数为N,包含特征词条t_i的文档数为n,k为任意参数,该k为上述 可变常量,对选取的特征词t_i的权重进行调整,在该公式中,当含特征词条t_i的文档数 为η逐渐增大时,特征词t_i的文档区分能力逐渐增强,当η达到某一值时,特征词t_i的 文档区分能力应随着η的增大而逐渐减少,在IDF公式中,IDF先增后减,且η趋向于1和η 趋向于N时,IDF都趋向于0。
5. 根据权利要求4所述的一种文本分类的方法,其特征在于,所述改进的TFIDF的算法 中还增加一个类内离散度的新的权值来观察所选特征词在类内的分布情况,该类内离散度 CD的计算公式如下:
m为类内总的文档数,tfu表示特征词t i在第j篇中出现的次数; ??是特征词h在类内各个文档中出现的次数的平均值;当类内的离散度CD取1或接近于 1的值时,表示特征词只在少数的文档中出现,其分类能力差;当类内离散度取〇或接近于〇 的值时,表示特征词在类内文档中每篇文档的TF值相等或大致相等,其分类能力好。
【专利摘要】本发明公开了一种文本分类的方法,其具体实现过程为:首先获取网络中的文本;对文本进行预处理,提取特征词,对网络中的文本进行分词,然后去除停用词;计算出网络文本中各特征词的权重,并将文本用向量模型进行表示。该文本分类的方法与现有技术相比,具有很强的适应性,能满足大部分不同文本的分类要求,有利于文本分类,实用性强。
【IPC分类】G06F17-30
【公开号】CN104866573
【申请号】CN201510267849
【发明人】耿玉水, 杨涛, 杨振宇
【申请人】齐鲁工业大学
【公开日】2015年8月26日
【申请日】2015年5月22日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1