一种基于信息增益率的属性加权方法及文本分类方法

文档序号：8487898阅读：240来源：国知局

一种基于信息增益率的属性加权方法及文本分类方法
【技术领域】
[0001] 本发明涉及一种基于信息增益率的属性加权方法及文本分类方法，属于人工智能数据挖掘分类技术领域。
【背景技术】
[0002] 朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题，但是它的属性独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇文档d，该文档被表示成单词向量的形式< Wl，w2，…，w，，多项式朴素贝叶斯（MNB)，补集朴素贝叶斯（CNB)和两者的结合模型（0VA)分别用公式1，2和3来分类文档d。
【主权项】
1. 一种基于信息增益率的属性加权方法，其特征在于包括以下步骤： (1) 对于一个已知的训练文档集D，训练文档集D中的任意一篇文档d表示为单词向量形式d=〈w。w2, . . .wm>，其中&为文档d中的第i个单词，m为文档d中单词的数目；利用以下公式计算该训练文档集D中的各个属性的信息增益率：
其中，GainRatio^Wi)表示单词力划分训练文档集D的信息增益率，Gain^Wi)表示单词力划分训练文档集D的信息增益，Splitlnfo(D,w)表示训练文档集D关于单词力的分裂信息； Gain(D,Wi)通过以下公式计算：
其中，|DV|是训练文档集D中单词力的取值为v的文档数目，vE彳〇,〇丨；Entropy(D) 是训练文档集D的熵，通过以下公式计算：
其中，C是类标记的集合，c是C中的一个类标记，p(c)是训练文档集D中类别为c的概率；P(c)通过以下公式计算得到：
其中，n是训练文档集D中的文档数目，s是文档的类别的数目，（^是第j篇文档的类标记，S(Cpc)表示一个二元函数，当它的两个参数相同时值为1否则为〇 ; Splitlnfo^Wi)通过以下公式计算得到：
(2) 通过以下公式计算各个单词的权值：其中1表示单词w^勺权值。
2. -种依托于权利要求1所述基于信息增益率的属性加权方法的多项式朴素贝叶斯文本分类方法，其特征在于：通过以下公式对文档d进行分类：
其中，fi表示单词wi在文档d中出现的频率，为已知量；p(wi|c)表示条件概率，通过以下公式计算得到：
其中，G表示训练文档集D中第j篇文档中出现单词w^勺频率，n为训练文档集D中文档的数目，G和n均为已知量。
3. -种依托于权利要求1所述基于信息增益率的属性加权方法的补集朴素贝叶斯文本分类方法，其特征在于：通过以下公式对文档d进行分类：
其中，fi表示单词^在文档d中出现的频率，为已知量；p(U)通过以下公式计算得到：
其中，5(1，幻表示一个二元函数，当它的两个参数相同时值为1否则为0 ;p(Wi |句表示条件概率，通过以下公式计算得到：
4. 一种依托于权利要求1所述基于信息增益率的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法，其特征在于：通过以下公式对文档d进行分类：
其中，fi表示单词Wi在文档d中出现的频率，为已知量；p(c)通过以下公式计算得到：
其中，6(C^)表示一个二元函数，当它的两个参数相同时值为1否则为〇 ;p(Wi|c)表示条件概率，通过以下公式计算得到：
其中，G表示训练文档集D中第j篇文档中出现单词w^勺频率，n为训练文档集D中文档的数目，fM和n均为已知量；P(wi |刃表示条件概率，通过以下公式计算得到：
【专利摘要】本发明提供了一种基于信息增益率的属性加权方法，首先计算每个属性的信息增益率，然后利用信息增益率计算各个属性的权值。本发明同时提供了依托于该基于信息增益率的属性加权方法的多项式朴素贝叶斯文本分类方法、依托于该基于信息增益率的属性加权方法的补集朴素贝叶斯文本分类方法，以及依托于该基于信息增益率的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。本发明改善了原来的朴素贝叶斯文本分类器分类精度，同时维持了原来朴素贝叶斯算法的简洁性和时间复杂度。
【IPC分类】G06F17-30, G06K9-62
【公开号】CN104809233
【申请号】CN201510236644
【发明人】张伦干, 蒋良孝, 李超群
【申请人】中国地质大学（武汉）
【公开日】2015年7月29日
【申请日】2015年5月12日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张伦干;蒋良孝;李超群;
技术所有人：中国地质大学（武汉）;
我是此专利的发明人

上一篇：浏览器书签的处理方法及终端的制作方法
上一篇：一种基于句子间情绪转移概率的句子级情绪分类方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。