一种基于类间区分度及类内高表征度的文本特征提取方法

文档序号:10534845阅读:236来源:国知局
一种基于类间区分度及类内高表征度的文本特征提取方法
【专利摘要】本发明公开了一种基于类间区分度及类内高表征度的文本特征提取方法,其中,所述文本特征提取方法包括:预处理训练集文本;改良的特征选择方法,通过计算每个特征词的类别区分度,选取更具有类别代表性的特征词,使其在各个不同的类之间具有很高的区分度,并且通过进一步结合特征词在类内的分布率和信息增益IG对在选出的高类别区分度的特征词进一步筛选。采用本发明,可以通过两次特征选择过程,选出类内具有高信息熵且分布率高的特征词,提高分类效率和准确度,并且计算简单,可以提高文本分类的速度与准确性。
【专利说明】
一种基于类间区分度及类内高表征度的文本特征提取方法
技术领域
[0001] 本发明属于文本挖掘技术领域,特别涉及一种基于类间区分度及类内高表征度的 文本特征提取方法。
【背景技术】
[0002] 在当今互联网信息资源快速增长的时代,为了能够更加快速有效的发现所需信息 及资源,文本分类技术作为有效的组织和管理文本信息的重要手段应运而生。文本分类技 术是指根据待处理文本的内容或者属性将其分到一个或者多个预定义的类别的技术。在文 本分类领域中,目前比较流行的是采用VSM向量空间对文本进行表示,为了避免在建立VSM 空间时产生的特征项的"高维灾难",因此特征性的选择算法变得尤其重要。
[0003] 文本分类中特征项选择算法包括以下比较传统的算法:DF算法(文档频率算法), 其缺点是只关注了高频词,会漏掉低频但信息熵高的词,并且选出的词不具备代表某个分 类的特性IG算法(信息增益法)由于其计算的特殊性,使其往往不能选出足够数量的特征 词CHI算法(x 2统计法),它考虑了特征词对某一个分类的影响,但是其计算量很大MI (互 信息法),其缺点是在试验环境下性能表现不稳定。
[0004] 因此,有必要设计出一种能够选出具有很强的类间区别度且在其所属类又具有高 效性,并且计算量较小的特征词选择算法。

【发明内容】

[0005] 为解决现有文本分类特征选择方法无法选出具有高类别代表度的特征词及计算 量很大的不足,本发明提供一种基于类间区分度及类内高表征度,并且计算量较小的文本 特征提取方法。所述方案包括以下步骤:
[0006] 步骤1 :获取不同类别的文本集合,作为语料训练集。
[0007] 步骤2 :对语料训练集的文本进行预处理,包括中文分词,去停用词处理;
[0008] 步骤3 :使用一种基于类间区分度及类内高表征度的文本特征提取方法对文本进 行特征选择,选出N个特征(N为预设阈值),作为上述语料训练集的文本特征集合。
[0009] -种基于类间区分度及类内高表征度的文本特征提取方法,具体为:
[0010] 首先计算每个特征词的类别区分度,选取具有高类别区分度的特征词,包括以下 步骤:
[0011] 步骤(1),确定各个特征词与各个预置类别的相关度,其计算公式如下:
[0013] 其中Rjk表示特征词t k与文本类别c $勺相关度,分子表示文本类别c j类中出现特 征词4的文档数,分母表示文本类别c ^类中包含文档的数目。
[0014] 步骤(2),计算特征词tk在文本类别C ,类上的类别区分能力的值,计算公式如下:
[0015] Diffjk= min(R .jk-Rik) (i ! = j 且 i 取 1 ~s, s 为类别总数)
[0016] 注意,这里Diffjk可以为负数。负数表示特征词tk在文本类别c ^类的分布小于特 征词tk在文本类别c i类中的分布。
[0017] 步骤(3),计算特征词tk的类别区分度,计算公式如下:
[0018] Diffk= max {Diff jk} (j 取 1 ~s)
[0019] 并且记录Diffk对应的Diff _jk的j值,即记录了特征词115表征的文本类别c。。
[0020] 步骤(4),设置预设阈值Q1,取Diffk>= Q1的特征词进行进一步的筛选。
[0021] 进一步,结合特征词在类内的分类率和信息增益IG对在选出的高类别区分度的 特征词进一步筛选,选取类内高表征度的特征词,具体包括以下步骤:
[0022] 步骤(1),对已经选出的高类别区分度的特征词,计算该特征词在其表征的类中的 分布率,假设特征词t k表征文本类别c ,类,则特征词t ,的分布率计算公式如下:
[0023] wtk=(类c」中包含的t k的词频V (类c」中包含的文档数)
[0024] 步骤(2),设置预设阈值Q2,当wtk> = Q2时,则特征词t k作为高频词,进入步骤 ⑶,设置预设阈值Q3,当wtk< = Q3时,则表示特征词t ,是低频词,进入步骤(4),进行下 一步的判断。
[0025] 步骤(3),对wtk> = Q2的特征词求IG,设置预设阈值Q4,当IG (t k) < Q4,则特征 词tk被淘汰,不被选出作为语料训练集的文本特征集合。
[0026] 步骤(4),对wtk< = Q3的特征词求IG,并设置阈值Q5,当IG (t k) > = Q5时,表示 4是个低频有效词,被选出作为语料训练集的文本特征集合。
[0027] 步骤(5),假设语料训练集的文本特征集合的维度为N,若根据前面取出的特征词 的维度小于维度N,则此时从Q3 < tk< Q2的特征词中进行选择,按照权值从高到底进行选 择。直到选满为止。
[0028] 本发明所提供的技术方案的有益效果是:
[0029] 首先通过计算每个特征词的类别区分度,选取更具有类别代表性的特征词,使其 在各个不同的类之间具有很高的区分度,并且通过进一步结合特征词在类内的分布率和信 息增益IG对在选出的高类别区分度的特征词进一步筛选,选出类内具有高信息熵且分布 率高的特征词,另外,该技术方案的计算简单,能够提供文本分类的运算速度和效率。
【附图说明】
[0030] 图1是本发明基于类间区分度及类内高表征度的文本特征提取方法流程图。
[0031] 图2是本发明选出高类间区分度的详细算法流程示意图。
[0032] 图3是本发明基于选出的高类间区分度的特征词中选出类内高表征度的详细算 法流程示意图。
【具体实施方式】
[0033] 为使本发明之目的、技术方案和优点阐述更加清晰,下面将结合附图与实际用例, 对本发明做进一步的详细描述。
[0034] 图1为本发明基于类间区分度及类内高表征度的文本特征提取方法流程图,具体 功能与实现如下:
[0035] 步骤1 :首先利用网络爬虫或人工收集从互联网上获取一定数量的多个领域中有 代表性的文章,对这些文章进行分析整理,按照类别归入语料训练集,作为文本分类系统的 训练样本集。
[0036] 步骤2 :为了从文本中抽取出能够代表该文本特征的词语,对其进行分词、去除停 用词等处理。
[0037] 步骤3 :从经过预处理的文本中选取具有高类别区分度的特征词,具体如下:
[0038] 图2是本发明选出高类间区分度的详细算法流程示意图,下面结合附图和实例对 算法进行说明,具体如下:
[0039] 假设预设类别共有3类,分别为A类,B类,C类,其中A类,B类,C类分别包含了 10篇分别属于其类别的文章。假设现在特征词1出现在属于A类的10篇文章中的5篇中, 并且也分别出现了在属于B和C类的10篇文章中的5篇中。特征词2出现在属于A类的 10篇文章中的9篇中,出现在属于B类的10篇文章中的8篇中,并且出现在属于C类的10 篇文章中的1篇中。特征词3出现在属于A类的10篇文章中的9篇中,出现在属于B类的 10篇文章中的3中,并且出现在属于C类的10篇文章中的1篇中,如下表1所示:
[0040]
[0041] 表 1
[0042] 根据如下相关度计算公式计算出每个词与各个预定分类的相关度R]k:
[0044] 其中Rjk表示特征词t k与文本类别c郝相关度,分子表示文本类别c j类中出现特 征词4的文档数,分母表示文本类别c ^类中包含文档的数目。
[0045] 计算结果如下表2所示。
[0046]
[0047] 表 2
[0048] 计算特征词tk在文本类别c j类上的类别区分能力的值,计算公式如下:
[0049] Diffjk= min(R .jk-Rik) (i ! = j 且 i 取 1 ~s,s 为类别总数)
[0050] DiffA1= min{(l/2-l/2), (1/2-1/2)} =0
[0051] 同理,DiffB1= 0, Diff C1= 0,依次类推,计算出Diff .jk如下表3所示:
[0054] 计算特征词tk的类别区分度,计算公式如下:
[0055] Diffk= max {Diff jk} (j 取 1 ~s)
[0056] 根据表3可知:
[0057] Diffl = DiffA1/DiffB1/Diffcl= 0
[0058] Diff2 = DiffA2= 1/10
[0059] Diff3 = DiffA3= 7/10
[0060] 假设预设阈值Q1为1/2,则此时特征词1,2被淘汰,特征词3被选出,并记录其分 别代表的类,即特征词3可以代表A类。
[0061] 步骤4 :结合特征词在类内的分类率和信息增益IG对在选出的高类别区分度的特 征词做进一步筛选,选取类内高表征度的特征词。
[0062] 图3是本发明基于选出的高类间区分度的特征词中选出类内高表征度的详细算 法流程示意图,下面结合附图和实例对算法进行说明,具体如下:
[0063] 假设特征词1,特征词2,特征词3都是基于步骤3选出的代表A类(A类包含10 篇文章)的特征词。假设特征词1在A类的10篇文章中一共出现了 100次,特征词2在A 类的10篇文章中一共出现了 50次,特征词3在A类的10篇文章中一共出现了 30次。
[0064] 根据公式计算出特征词巩的分布率,计算公式如下:
[0065] wtk=(类c」中包含的t k的词频V (类c」中包含的文档数)
[0066] 即 wl = 100/10 = 10
[0067] w2 = 50/10 = 5
[0068] w3 = 30/10 = 3
[0069] 假设预设阈值Q2为7,预设阈值Q3为4 :
[0070] 对于特征词1,求IG,判断是否小于预设阈值Q4,是则淘汰,否则备选。
[0071] 对于特征词2,直接作为备选。
[0072] 对于特征词3,求IG,判断是否大于等于预设阈值Q5,是则选出该特征词,否则淘 汰。
[0073] 步骤5 :基于上述方法,选出N个特征(N为预设阈值),作为上述语料训练集的文 本特征集合。
[0074] 以下以上述过程确定参数为标准,对应用实例进行说明。
[0075] 实施例1 :
[0076] 假设预设类别共有3类,分别为A类,B类,C类,其中A类,B类,C类分别包含了 10篇分别属于其类别的文章。假设现在特征词1出现在属于A类的10篇文章中的5篇中, 并且也分别出现了在属于B和C类的10篇文章中的5篇中。其余特征词在各类别中的分 布情况,如下表4所示:
[0077]
[0078]
[0079] 表 4
[0080] 根据表4,计算出每个词与各个预定分类的相关度R]k,计算结果如下表5所示:
[0081]
[0082] 表 5
[0083] 计算特征词tk在文本类别c」类上的类别区分能力的值Diff jk,计算结果如下表6 :
[0084]
[0086] 表 6
[0087] 计算特征词tk的类别区分度,根据表6可知:
[0088] Diffl = DiffA1/DiffB1/Diffcl= 0
[0089] Diff2 = Diff C2= 1/10
[0090] Diff3 = Diff A3= 7/10
[0091] Diff4 = Diff C4= 2/10
[0092] Diff5 = Diff C5= 2/10
[0093] Diff6 = Diff B6= 4/10
[0094] 假设阈值Q1为1/20,则此时特征词1被淘汰。进入下一步的特征词选择。此时特 征词2,特征词4,特征词5被作为代表C类的备选特征词进入下一步的特征词选择。
[0095] 假设特征词2在C类的10篇文章中一共出现了 9次,特征词4在C类的10篇文 章中一共出现了 40次,特征词3在A类的10篇文章中一共出现了 20次。
[0096] 根据公式计算出特征词4的分布率,即
[0097] w2 = c9/10 = 0. 9
[0098] w2 = 40/10 = 4
[0099] w3 = 20/10 = 2
[0100] 假设预设阈值Q2为3,预设阈值Q3为1 :
[0101] 对于特征词2,求IG,判断是否小于预设阈值Q4,是则淘汰,否则备选。
[0102] 对于特征词4,求IG,判断是否大于等于预设阈值Q5,是则选出该特征词,否则淘 汰。
[0103] 对于特征词5,直接作为备选。
[0104] 假设此时特征词4被选出作为代表C类的特征词。同样的方法对其他类选择代表 其类别的特征词。假设特征词3被选出代表A类,特征词6被选出代表B类。如果此时预 设VSM空间维度为3,则此时已选满作为语料库训练的文本特征集合,如果此时VSM空间维 度为4,则从备选的特征词中进行选择。
[0105] 本发明实施例所提供的技术方案,能够选择出更具类别代表性及类内更高信息量 的特征词,并且提高文本分类的速度。
[0106] 通过以上实施方式的描述,本领域的技术人员可以清楚本发明的实现方式,本发 明可以通过软件编程实现,相应的软件程序可存储于可读取的存储介质中,如光盘、硬盘、 移动存储介质等。
[0107] 以上为本发明的具体实施例,但并不用以限制本发明,对于本技术领域的普通技 术人员来说,凡在不脱离本发明原理的前提下,所做的任何修改、等同替换、改进等,均应包 含在本发明的保护发明范围之内。
【主权项】
1. 一种基于类间区分度及类内高表征度的文本特征提取方法,其特征在于,具体包括 以下步骤: 步骤1 :获取不同类别的文本集合,作为语料训练集。 步骤2 :对语料训练集的文本进行预处理,包括中文分词,去停用词处理; 步骤3 :使用基于类间区分度及类内高表征度的文本特征提取方法对文本进行特征选 择,选出N个特征(N为预设阈值),作为上述语料训练集的文本特征集合。2. 如权利要求1所述的一种基于类间区分度及类内高表征度的文本特征提取方法,其 特征在于,步骤3使用基于类间区分度及类内高表征度的文本特征提取方法对文本进行特 征选择,选出N个特征(N为预设阈值),作为上述语料训练集的文本特征集合,其特征在于, 所述方法包括: 首先计算每个特征词的类别区分度,选取具有高类别区分度的特征词。 结合特征词在类内的分类率和信息增益IG,对选出的高类别区分度的特征词进行进一 步筛选,选取类内高表征度的特征词。3. 如权利要求2所述的使用基于类间区分度及类内高效的文本特征提取方法对文本 进行特征选择,选出N个特征(N为预设阈值),作为上述语料训练集的文本特征集合,其特 征在于,计算每个特征词的类别区分度,选取具有高类别区分度的特征词。具体包括以下步 骤: 步骤(1),确定各个特征词与各个预置类别的相关度,其计算公式如下:其中Rjk表示特征词t k与文本类别c郝相关度,分子表示文本类别c漢中出现特征词 巩的文档数,分母表示文本类别c ^类中包含文档的数目。 步骤(2),计算特征词tk在文本类别c ,类上的类别区分能力的值,计算公式如下: Diff jk= min (R .jk-Rik) (i ! = j 且 i 取 1 ~s, s 为类别总数) 注意,这里DifTjk可以为负数。负数表示特征词tk在文本类别C j类的分布小于特征词 tk在文本类别c i类中的分布。 步骤(3),计算特征词tk的类别区分度,计算公式如下: Diffk= max{Diff jk} (j 取 1 ~s) 并且记录Diffk对应的Diff _jk的j值,即记录了特征词11<表征的文本类别c。。 步骤(4),设置预设阈值Ql,取Diffk> = Ql的特征词进行进一步的筛选。4. 如权利要求2所述的使用基于类间区分度及类内高表征度的文本特征提取方法对 文本进行特征选择,选出N个特征(N为预设阈值),作为上述语料训练集的文本特征集合, 其特征在于,结合特征词在类内的分类率和信息增益IG对在选出的高类别区分度的特征 词进一步筛选,选取类内高表征度的特征词。具体包括以下步骤: 步骤(1),对已经选出的高类别区分度的特征词,计算该特征词在其表征的类中的分布 率,假设特征词tk表征文本类别c ^类,则特征词、的分布率计算公式如下: Wtk=(类c j中包含的t k的词频V (类c ;中包含的文档数) 步骤(2),设置预设阈值Q2,当wtk> = Q2时,则特征词t k作为高频词,进入步骤(3), 设置预设阈值Q3,当wtk< = Q3时,则表示特征词t ,是低频词,进入步骤(4),进行下一步 的判断。 步骤(3),对wtk> = Q2的特征词求IG,设置预设阈值Q4,当IG (t k) < Q4,则特征词tk 被淘汰,不被选出作为语料训练集的文本特征集合。 步骤(4),对wtk< = Q3的特征词求IG,并设置阈值Q5,当IG(t k) > = Q5时,表示tk 是个低频有效词,被选出作为语料训练集的文本特征集合。 步骤(5),假设语料训练集的文本特征集合的维度为N,若根据前面取出的特征词的维 度小于维度N,则此时从Q3 < tk< Q2的特征词中进行选择,按照权值从高到底进行选择。 直到选满为止。
【文档编号】G06F17/30GK105893388SQ201510014438
【公开日】2016年8月24日
【申请日】2015年1月1日
【发明人】黄筱聪, 朱永强
【申请人】成都网安科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1