一种基于信息增益率的属性加权方法及文本分类方法

文档序号:8487898阅读:240来源:国知局
一种基于信息增益率的属性加权方法及文本分类方法
【技术领域】
[0001] 本发明涉及一种基于信息增益率的属性加权方法及文本分类方法,属于人工智能 数据挖掘分类技术领域。
【背景技术】
[0002] 朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题,但 是它的属性独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇 文档d,该文档被表示成单词向量的形式< Wl,w2,…,w,,多项式朴素贝叶斯(MNB),补集朴 素贝叶斯(CNB)和两者的结合模型(0VA)分别用公式1,2和3来分类文档d。
【主权项】
1. 一种基于信息增益率的属性加权方法,其特征在于包括以下步骤: (1) 对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量 形式d=〈w。w2, . . .wm>,其中&为文档d中的第i个单词,m为文档d中单词的数目; 利用以下公式计算该训练文档集D中的各个属性的信息增益率:
其中,GainRatio^Wi)表示单词力划分训练文档集D的信息增益率,Gain^Wi)表示 单词力划分训练文档集D的信息增益,Splitlnfo(D,w)表示训练文档集D关于单词力的 分裂信息; Gain(D,Wi)通过以下公式计算:
其中,|DV|是训练文档集D中单词力的取值为v的文档数目,vE彳〇,〇丨;Entropy(D) 是训练文档集D的熵,通过以下公式计算:
其中,C是类标记的集合,c是C中的一个类标记,p(c)是训练文档集D中类别为c的 概率;P(c)通过以下公式计算得到:
其中,n是训练文档集D中的文档数目,s是文档的类别的数目,(^是第j篇文档的类 标记,S(Cpc)表示一个二元函数,当它的两个参数相同时值为1否则为〇 ; Splitlnfo^Wi)通过以下公式计算得到:
(2) 通过以下公式计算各个单词的权值: 其中1表示单词w^勺权值。
2. -种依托于权利要求1所述基于信息增益率的属性加权方法的多项式朴素贝叶斯 文本分类方法,其特征在于:通过以下公式对文档d进行分类:
其中,fi表示单词wi在文档d中出现的频率,为已知量;p(wi|c)表示条件概率,通过以 下公式计算得到:
其中,G表示训练文档集D中第j篇文档中出现单词w^勺频率,n为训练文档集D中 文档的数目,G和n均为已知量。
3. -种依托于权利要求1所述基于信息增益率的属性加权方法的补集朴素贝叶斯文 本分类方法,其特征在于:通过以下公式对文档d进行分类:
其中,fi表示单词^在文档d中出现的频率,为已知量;p(U)通过以下公式计算得到:
其中,5(1,幻表示一个二元函数,当它的两个参数相同时值为1否则为0 ;p(Wi |句表示条件概率,通过以下公式计算得到:
4. 一种依托于权利要求1所述基于信息增益率的属性加权方法的多项式与补集相结 合的朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
其中,fi表示单词Wi在文档d中出现的频率,为已知量;p(c)通过以下公式计算得到:
其中,6(C^)表示一个二元函数,当它的两个参数相同时值为1否则为〇 ;p(Wi|c)表 示条件概率,通过以下公式计算得到:
其中,G表示训练文档集D中第j篇文档中出现单词w^勺频率,n为训练文档集D中 文档的数目,fM和n均为已知量;P(wi |刃表示条件概率,通过以下公式计算得到:
【专利摘要】本发明提供了一种基于信息增益率的属性加权方法,首先计算每个属性的信息增益率,然后利用信息增益率计算各个属性的权值。本发明同时提供了依托于该基于信息增益率的属性加权方法的多项式朴素贝叶斯文本分类方法、依托于该基于信息增益率的属性加权方法的补集朴素贝叶斯文本分类方法,以及依托于该基于信息增益率的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。本发明改善了原来的朴素贝叶斯文本分类器分类精度,同时维持了原来朴素贝叶斯算法的简洁性和时间复杂度。
【IPC分类】G06F17-30, G06K9-62
【公开号】CN104809233
【申请号】CN201510236644
【发明人】张伦干, 蒋良孝, 李超群
【申请人】中国地质大学(武汉)
【公开日】2015年7月29日
【申请日】2015年5月12日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1