一种信息处理特征提取方法

文档序号:6353955阅读:253来源:国知局
专利名称:一种信息处理特征提取方法
技术领域
本发明涉及信息处理算法领域,且特别涉及一种信息处理特征提取方法。
背景技术
文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性1)特征项要能够确实标识文本内容;幻特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)0现有的特征选取的方式有4种(I)用映射或变换的方法把原始特征变换为较少的新特征;( 从原始特征中挑选出一些最具代表性的特征;C3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。词频空间特征提取方法,这类型算法通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值。然后将所有特征按权值大小排序,提取预定数目的最优特征作为提取结果的特征子集。显然,对于这类型算法,决定文本特征提取效果的主要因素是评估函数的质量。UTF-IDF 单词权重最为有效的实现方法就是TF*IDF,它是由Mlton在1988年提出的。其中TF称为词频,用于计算该词描述文档内容的能力;IDF称为反文档频率,用于计算该词区分文档的能力。TF*IDF的指导思想建立在这样一条基本假设之上在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然。所以如果特征空间坐标系取 TF词频作为测度,就可以体现同类文本的特点。另外还要考虑单词区别不同类别的能力, TF*IDF法认为一个单词出现的文本频率越小,它区别不同类别的能力就越大,所以引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度。TFIDF法是以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该词的权重,即其中,Wi表示第i个特征词的权重,TFi (t,d)表示词t在文档d中的出现频率,N表示总的文档数,DF(t)表示包含t的文档数。用TFIDF算法来计算特征词的权重值是表示当一个词在这篇文档中出现的频率越高,同时在其他文档中出现的次数越少,则表明该词对于表示这篇文档的区分能力越强,所以其权重值就应该越大。将所有词的权值排序,根据需要可以有两种选择方式(1)选择权值最大的某一固定数η个关键词;( 选择权值大于某一阈值的关键词。一些实验表示,人工选择关键词,4 7个比较合适,机选关键词10 15通常具有最好的覆盖度和专指度。TFIDF算法是建立在这样一个假设之上的对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上IDF是一种试图抑制噪音的加权,并且单纯地认为文本频数小的单词就越重要, 文本频数大的单词就越无用,显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF 法的精度并不是很高。此外,在TFIDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。2、互信息(MutualInformation)互信息衡量的是某个词和类别之间的统计独立关系,某个词t和某个类别Ci传统的互信息定义如下互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉嫡近似。互信息本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度, 如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之问关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。特征项和类别的互信息体现了特征项与类别的相关程度,是一种广泛用于建立词关联统计模型的标准。互信息与期望交叉熵的不同在于没有考虑特征出现的频率,这样导致互信息评估函数不选择高频的有用词而有可能选择稀有词作为文本的最佳特征。因为对于每一主题来讲,特征t的互信息越大,说明它与该主题的共现概率越大,因此,以互信息作为提取特征的评价时应选互信息最大的若干个特征。互信息计算的时间复杂度类似于信息增益,互信息的平均值就是信息增益。互信息的不足之处在于得分非常受词条边缘概率的影响。实验数据显示,互信息分类效果最差,其次是文档频率、CC统计,CHI统计分类效果最好。对互信息而言,提高分类精度的方法有1)可以增加特征空间的维数,以提取足够多的特征信息,这样就会带来了时间和空间上的额外开销;2)根据互信息函数的定义, 认为这些低频词携带着较为强烈的类别信息,从而对它们有不同程度的倚重.当训练语料库没有达到一定规模的时候,特征空间中必然会存在大量的出现文档频率很低(比如低于 3次)的词条,他们较低的文档频率导致了他们必然只属于少数类别.但是从抽取出来的特征词观察发现,大多数为生僻词,很少一部分确实带有较强的类别信息,多数词携带少量的类别信息,甚至是噪音词.3、期望交叉熵(ExpectedCrossEntropy)交叉嫡,也称KL距离。它反映了文本主题类的概率分布和在出现了某特定词汇的条件下文本主题类的概率分布之间的距离,词汇w的交叉嫡越大,对文本主题类分布的影响也越大。它与信息增益唯一的不同之处在于没有考虑单词未发生的情况,只计算出现在文本中的特征项。如果特征项和类别强相关,P(CiIw)就大,若P(Ci)又很小的话,则说明该特征对分类的影响大。交叉熵反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离,特征词t的交叉熵越大,对文本类别分布的影响也越大。熵的特征选择效果都要优于信息增益。4、二次信息熵(QEMI)将二次熵函数应用于互信息评估方法中,取代互信息中的aiarmon熵,就形成了基于二次熵的互信息评估函数。基于二次熵的互信息克服了互信息的随机性,是一个确定的量,因此可以作为信息的整体测度,另外它还比互信息最大化的计算复杂度要小,所以可以比较高效地用在基于分类的特征选取上。5、信息增益方法 anformationGain)信息增益方法是机器学习的常用方法,在过滤问题中用于度量已知一个特征是否出现于某主题相关文本中对于该主题预测有多少信息。通过计算信息增益可以得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征。信息增益是一种基于熵的评估方法,涉及较多的数学理论和复杂的熵理论公式,定义为某特征项为整个分类所能提供的信息量,不考虑任何特征的熵与考虑该特征后的熵的差值。他根据训练数据,计算出各个特征项的信息增益, 删除信息增益很小的项,其余的按照信息增益从大到小排序。信息增益是信息论中的一个重要概念,它表示了某一个特征项的存在与否对类别预测的影响,定义为考虑某一特征项在文本中出现前后的信息熵之差。某个特征项的信息增益值越大,贡献越大,对分类也越重要。信息增益方法的不足之处在于它考虑了特征未发生的情况。特别是在类分布和特征值分布高度不平衡的情况下,绝大多数类都是负类,绝大多数特征都不出现。此时的函数值由不出现的特征决定,因此,信息增益的效果就会大大降低。信息增益表现出的分类性能偏低。因为信息增益考虑了文本特征未发生的情况,虽然特征不出现的情况肿可能对文本类别具有贡献,但这种贡献往往小于考虑这种情况时对特征分值带来的干扰。上述几种评价函数都是试图通过概率找出特征与主题类之间的联系,信息增益的定义过于复杂,因此应用较多的是交叉嫡和互信息。其中互信息的效果要好于交又嫡,这是因为互信息是对不同的主题类分别抽取特征词,而交叉嫡跟特征在全部主题类内的分布有关,是对全部主题类来抽取特征词。这些方法,在英文特征提取方面都有各自的优势,但用于中文文本,并没有很高的效率。主要有2个方面的原因1)特征提取的计算量太大,特征提取效率太低,而特征提取的效率直接影响到整个文本分类系统的效率。2、经过特征提取后生成的特征向量维数太高,而且不能直接计算出特征向量中各个特征词的权重。

发明内容
本发明提出一种信息处理特征提取的算法,并且实现一种采用词频空间特征提取的方法。在选择特征提取算法时,对算法的时间、空间复杂度和特征提取效果进行了综合的考虑,设计并实现了一种简单易行的特征提取算法。为了实现上述目的,本发明提出一种信息处理特征提取方法,包括下列步骤建立包含所有原始特征项的特征项集合;对于每个类别,计算所有特征项和该类别的权重;对于每个类别,从大到小排序所述计算得到的特征项的权重,并提取前K个特征项;合并所有类提取到的特征项,统一特征空间。进一步的,所述权重计算步骤采用了以词频法取局部权值,以信息熵法取全局权值。进一步的,所述权重计算公式为
权利要求
1.一种信息处理特征提取方法,其特征在于,包括下列步骤 建立包含所有原始特征项的特征项集合;对于每个类别,计算所有特征项和该类别的权重;对于每个类别,从大到小排序所述计算得到的特征项的权重,并提取前K个特征项; 合并所有类提取到的特征项,统一特征空间。
2.根据权利要求1所述的信息处理特征提取方法,其特征在于,所述权重计算步骤采用了以词频法取局部权值,以信息熵法取全局权值。
3.根据权利要求1所述的信息处理特征提取方法,其特征在于,所述权重计算公式为
4.根据权利要求3所述的信息处理特征提取方法,其特征在于,为了消除由于文本长度不一致造成的词出现数量的不一致,给权重评价带来区分度的不一致,对权重~进行归一化处理,计算公式为
5.根据权利要求1所述的信息处理特征提取方法,其特征在于,K的取值采用预设初始值,其范围为1000 10000。
全文摘要
本发明提出一种信息处理特征提取方法,包括下列步骤建立包含所有原始特征项的特征项集合;对于每个类别,计算所有特征项和该类别的权重;对于每个类别,从大到小排序所述计算得到的特征项的权重,并提取前K个特征项;合并所有类提取到的特征项,统一特征空间。本发明提出的信息处理特征提取的算法,并且实现一种采用词频空间特征提取的方法。在选择特征提取算法时,对算法的时间、空间复杂度和特征提取效果进行了综合的考虑,设计并实现了一种简单易行的特征提取算法。
文档编号G06F17/30GK102567308SQ20111043107
公开日2012年7月11日 申请日期2011年12月20日 优先权日2011年12月20日
发明者赵孟德 申请人:上海电机学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1