文本处理方法和系统的制作方法

文档序号:6574236阅读:303来源:国知局
专利名称:文本处理方法和系统的制作方法
技术领域
本发明涉及智能文本信息处理技术领域,特别涉及一种文本处理方法和一种文本处理系统。
背景技术
手机短信作为一种广告宣传的方式有很大的潜力和前景,但从目前的情况看,手机短信中的垃圾短信造成了严重的扰民问题。为解决该问题,广告发布者需要采取有效的方法获得广告受众的相关信息,以定向投放有针对性、应变性的短信广告。
为获取广告受众的相关信息,需要从大量的用户短信中挖掘出用户的兴趣点。如何从大量的用户短信中快速而有效地获得用户的兴趣点,是当前所面临的问题,对短信进行文本挖掘正是用来解决这一问题的方法。而短信文本挖掘的好坏直接由短信文本特征提取的效果所决定,短信文本特征提取的可靠性和分类能力越高,短信文本挖掘的效果越好。
现有的短信文本挖掘中,与传统的文档型文本挖掘技术相同,将文本作为无结构的数据,以词条为单位进行处理,所采用的文本特征提取方法包括特征抽取和特征选择两部分。特征抽取主要完成分词、预处理去噪和特征表示;目前的特征表示方法主要有以下三种布尔模型、概率模型和向量空间模型。特征选择可以采用过滤法、映射法、粗糙集法等;其中过滤法是对特征集中的每个特征进行独立的评估,通过构造的算法对每个特征进行权值调整,然后按权值大小排序,根据权阈值或预定的特征数据,选取最佳特征子集作为特征选择结果;进行权值调整的算法包括互信息、期望交叉熵和信息增益等。
上述现有技术中,在传统文本特征提取方法中,训练文档集中的每篇文档与相对应的类别多具有较强的相关性。而对短信文本,在进行训练时,需要大量的短信文本作为训练数据集对模型进行训练,但由于训练文本数量巨大,无法人工对每条训练数据均精确分类,导致训练文本集本身中就包括大量的噪声数据,其可靠性较低,再用传统的特征提取方法依据该训练集提取短信特征,就会造成提取的特征集中包含更多的噪声特征,降低了从训练文本中提取的训练特征集的可靠性,也进一步降低了分类的准确性。
另外,由于短信文本与传统的文档型文本不同,其中常常包括一些变异和不规范的文本,称为奇异词,如QQ、SG、MM,并且常常出现很多间隔符或使用不同的分隔符,称为奇异符号,因此短信文本掺杂的干扰信息过多,导致在文本特征抽取和特征选择时,提取了大量的错误特征,或称为噪声特征,也进一步降低了从训练文本中提取的训练特征集的可靠性和分类系统的分类能力。

发明内容
本发明实施例提供了一种文本处理方法和一种文本处理系统,能够提高训练特征集的可靠性。
本发明实施例提供的一种文本处理方法,应用于文本特征提取技术中,该方法包括在对文本进行训练过程中,基于训练后的模型参数对训练文本进行分类,并删除分类错误的训练文本,使新的训练文本集中只保留分类正确的训练文本,再基于分类正确的训练文本构建新的特征集;基于所述新的训练文本集和新的特征集训练模型参数。
本发明提供的一种文本处理系统,应用于文本特征提取技术中,该系统包括训练模块、分类模块和存储模块;所述存储模块用于存储训练文本集、特征集和模型参数;所述训练模块用于获取所述存储的训练文本集和特征集,基于获取的训练文本集和特征集训练模型参数,并将训练后的模型参数存储至所述存储模块;所述分类模块用于获取所述存储模块中的模型参数和训练文本集,基于该模型参数对训练文本集中的训练文本进行分类,将分类错误的训练文本从存储模块的训练文本集中删除,基于分类正确的训练文本构建特征集,并将构建的特征集存储到所述存储模块。
本发明实施例中通过在对文本训练的过程中,训练模型参数后,基于新的模型参数进行分类去除分类错误的文本,再基于正确分类的文本训练模型参数,从而降低了噪声文本对训练特征集的影响,提高了训练特征集的可靠性,也提高了文本特征提取的准确度。


图1为本发明具体实施例中一种文本处理系统的组成示意图;图2为本发明具体实施例中另一种文本处理系统的组成示意图;图3为本发明具体实施例中又一种文本处理系统的组成示意图;图4为本发明具体实施例中短信文本的训练流程图;图5为本发明具体实施例中分词处理流程图;图6为本发明具体实施例中疑错窗口队列示意图;图7为本发明具体实施例中文本校对流程图;图8为本发明具体实施例中进行特征选择时所采用的EM算法流程图;图9为本发明具体实施例中短信文本的分类流程图。
具体实施例方式
本发明实施例中,自适应地对文本特征提取过程中提取的特征向量空间进行优化,去除噪声特征,最终得到最优的低维特征空间。
具体地,本发明实施例提供的一种文本处理方法,应用于文本特征提取技术中,该方法包括
步骤A、在文本训练过程中,基于训练后的模型参数对训练文本进行分类,并删除分类错误的训练文本,使新的训练文本集中只保留分类正确的训练文本,再基于分类正确的训练文本构建新的特征集;本步骤可以在基于训练文本集,和特征表示得到的特征集训练模型参数后执行。
步骤B、基于所述新的训练文本集和新的特征集训练模型参数。
本发明实施例在上述步骤A中基于分类正确的训练文本构建特征集之后,进一步可以包括根据特征选择算法计算所构建的特征集中每个特征的相关度分数,删除相关度分数小于预先设定的第一门限的特征,然后执行上述步骤B。则通过进一步对步骤A中删除了分类错误训练文本后构建的特征集,基于相关度分数进行特征选择,从而进一步删除了噪声特征,进一步提高了特征选择的准确性,也进一步提高了训练特征集的可靠性。上述第一门限的取值范围可以为0.4-1。
上述特征选择算法可以为监督型特征选择算法(IG)。上述步骤B中训练模型参数可以采用支撑向量机(SVM)训练算法。
上述步骤B后进一步可以包括,判断是否连续两次训练得到的模型参数的距离小于预先设定的第二门限或分类正确文档的比例大于预先设定的第三门限,如果是,则跳出本流程;否则,返回执行步骤A。即,上述步骤A和步骤B可以循环执行,直至满足这样的结束条件连续两次训练得到的模型参数的距离小于预先设定的第二门限或分类正确的文档的比例大于预先设定的第三门限。则通过对训练文本重复执行训练和特征筛选过程,得到了更加精确的训练结果。
上述所述第二门限的取值范围为0.001至0.01;上述第三门限的取值范围为0.85至0.9。
本发明具体实施例中,在对文本进行分类过程中,可以基于预先设置的兴趣特征词表,对待分类文本的特征向量集中的特征进行权重调整。
基于预先设置的兴趣特征词表对待分类文本的特征向量进行权重调整具体可以包括
C1、将待分类文本的特征向量中属于兴趣特征词表特征组成兴趣特征集M,剩余的组成非兴趣特征集C-M;C2、计算所述C-M属于各个类别的概率,和M中特征所述的类,并根据得到的概率、M中特征所属的类、M的势和C-M的势,调整所述M中特征的权重。
较佳地,步骤C2具体包括当M中的多个特征全部属于类j,且M的势远小于C-M的势,且根据计算的C-M属于各个类别的概率中,属于类j的概率与所计算的概率的最大值之差的绝对值小于预先设定的第四门限时;或者,M的势接近于C-M的势时;或者,当M中的多个特征属于多个类,且M的势远小于C-M的势,且根据计算的C-M属于各个类别的概率中,存在对应于M所属的类的概率与所计算的概率的最大值之差的绝对值小于预先设定的第四门限时;或者,M的势接近于C-M的势时;对M中权重小于M中全部特征权重均值的特征,将其权重增大为所述均值。
上述第四门限的取值范围可以为0.25至0.4。
本实施例中进一步可以包括步骤A11、在对文本进行训练和分类过程中,进行文本校对时,根据分词后文本中各个词之间是否具有连续性,定位包括非连续词的疑错窗口,并针对定位出的疑错窗口进行文本校对。
上述根据分词后文本中各个词之间是否具有连续性,定位包括非连续词的疑错窗口具体可以包括步骤A111、将分词后文本的第一个词设置为疑错窗口的开始位置,步骤A112、根据预先设定的疑错窗口初始大小n,确定从该开始位置起前n个词的词间连续性,以及第n和n+1个词的词间连续性如果全部连续,则将第n+1个词设置为疑错窗口的开始位置,然后执行步骤A113;如果所述前n个词不连续,而第n和n+1个词连续,则设置第n+1个词为该疑错窗口的结束位置,并记录该疑错窗口,将该疑错窗口的结束位置的下一个词设置为下一疑错窗口的开始位置,然后执行步骤A113;如果所述前n个词不连续,且第n和n+1个词也不连续,则继续确定后续词的词间连续性,直至确定出连续的词,然后将该连续词中前一个词的位置设置为疑错窗口的结束位置,记录该疑错窗口,将该疑错窗口的结束位置的下一个词设置为下一疑错窗口的开始位置,然后执行步骤A113;步骤A113、判断当前疑错窗口的开始位置是否为对应文本中最后一个词,如果是,则完成疑错窗口定位;否则返回执行步骤A112。
本发明实施例中,在对文本进行训练和分类过程中进行文本规范化和分词处理时,可以执行下述步骤步骤A01、读取待处理文本,去除文本中的奇异符号;步骤A02、使用分词算法对文本进行分词处理;步骤A03、基于预先设定的奇异词表,采用正规词替换文本中的奇异词。
上述文本可以是短信文本,也可以是其他的文档文本。
本发明实施例还提供了一种文本处理系统,如图1所示,该系统包括训练模块、分类模块和存储模块;其中,存储模块用于存储训练文本集、特征集和模型参数;训练模块用于获取所述存储的训练文本集和特征集,基于获取的训练文本集和特征集训练模型参数,并将训练后的模型参数存储至所述存储模块;分类模块用于获取所述存储模块中的模型参数和训练文本集,基于该模型参数对训练文本集中的训练文本进行分类,将分类错误的训练文本从存储模块的训练文本集中删除,基于分类正确的训练文本构建特征集,并将构建的特征集存储到所述存储模块。
如图2所示,本发明实施例提供的文本处理系统中进一步可以包括特征选择模块,用于获取所述存储模块中存储的特征集,采用特征选择算法计算特征集中每个特征的相关度分数,并删除所述存储的特征集中相关度分数小于预先设定的第一门限的特征。
本发明实施例提供的文本处理系统中,上述训练模块和分类模块顺序循环执行所述工作,则如图3所示,本发明实施例提供的文本处理系统中进一步还可以包括循环判断模块,用于获取所述训练模块训练前的模型参数和训练后的模型参数,计算两个模型参数的距离,并在确定出该距离小于设定的第二门限后,通知所述分类模块停止上述进行的工作,从而结束循环;或,获取分类模块的分类结果,计算分类正确文档的比例,并在确定出该比例大于预先设定的第三门限后,通知所述训练模块停止上述进行的工作,从而结束循环;在其他情况下,循环判断模块可以通知分类模块和训练模块继续进行上述循环,也可以不执行任何动作,则分类模块和训练模块顺序循环进行上述工作,从而重复训练模块参数,和重复删除训练文本集和特征集中会降低精度的噪声文本和噪声特征。
以下以对短信文本的训练流程和对短信文本的分类流程为例进一步阐述本发明具体实施例,对于其他文本的训练流程和分类流程与对短信文本的对应处理基本相同。
对短信文本的训练流程如图4所示,包括如下步骤步骤401、首先读入所有训练短信文本,并对每条训练短信文本进行规范化处理,去除奇异符号。
本步骤主要清除所有的干扰字符,即奇异符号。这里的干扰字符包括诸如标点、特殊字符等,比如*&^*,因为这些字符对于文本特征提取来说没有什么实际意义,而且还会造成对分类的干扰。所以在分词前,对短信文本进行检查,去除所有奇异符号。例如“我————好想;)回家!!!”,将所有的非法字符去掉,得到“我好想回家”。
步骤402、使用N-Gram算法对规范化处理后的每条短信文本进行分词处理。
步骤403、对分词后的每条短信文本进行奇异词规范化处理。
奇异词规范化处理对短信中的奇异词,如FQ(夫妻),gf(女朋友)等进行规范化。本实施例中采用奇异词表的方式进行奇异词规范化。如图5所示,本步骤中,在每次分词处理后,把分词过程所得词与预先存储的奇异词表中各词进行比较,判断所得词是否在奇异词表中,如果在奇异词表中,则用奇异词表中相应正规词替换短信文本中的奇异词。奇异词表可以如表1所示

表1奇异词表步骤404、对经过步骤403处理后的短信文本进行文本校对,得到校对后的每条短信的词条集。
本实施例中提出了一种预加窗的中文文本校对方法。该方法中,窗口称为疑错窗口;每个疑错窗口内包含了一或多个怀疑是错误的词。如图6所示,每个短信文本包含一个疑错窗口队列,队列中每一个疑错窗口由开始和结束位置确定。疑错窗口数据结构如下struct ErrorWindow//疑错窗口结构{interrorbegin;//疑错词串的开始位置interrorend;//疑错词串的结束位置}如图7所示,本步骤中,首先在步骤40401至步骤40414,利用词间连续性判断来定位疑错窗口,把有可能出现错误的地方局限在获得的M个疑错窗口内;然后在步骤40415至步骤40420,在获得的M个疑错窗口内进行文本定错和纠错。具体如下在步骤40401,获得文本长度,即每条短信文本所包括的词的数量,假设为N,在步骤40402,设置循环参数Lp初始值为1,即标识从第一个词开始进行疑错窗口定位,在步骤40403,判断循环参数值是否小于N,如果是,则执行步骤40404,设置疑错窗口的开始位置为当前的Lp值,即第Lp个词,然后执行步骤40405;否则跳出循环,在步骤40414得到疑错窗口队列和疑错窗口数目M。
在步骤40405,对从疑错窗口的开始位置起的3个词的词间连续性,和第3、4(3+1)个词的词间连续性进行判断,如果判断出全部连续,执行步骤40407,将Lp的值设置为当前值加3,然后返回执行步骤40403;否则如果判断出不是全部连续,则执行步骤40408。在图7所示的流程中,以设定的疑错窗口的初始大小n=3为例进行说明;当然,本发明实施例中,这里的n也可以设定为其他的值,如4、5等。
在步骤40405中,在进行连续性判断时,如果剩余词已经不足,则用空词补足,认为空词和任何词都连续。
在步骤40408,判断从疑错窗口的开始位置起的第3和第4个词是否连续,如果是,则执行步骤40409,设置疑错窗口的结束位置为第Lp+3个词,然后执行步骤40412;否则,执行步骤40410,继续对第4个词开始的词间连续性进行判断,直到搜索到连续词为止,然后在步骤40411,将所搜索到的连续词中前一个词位置设置为疑错窗口的结束位置,然后执行步骤40412。在步骤40412,把疑错窗口加入疑错窗口队列,然后在步骤40413,将Lp的值设置为疑错窗口结束位置的下一个词的位置后,返回执行步骤40403。
上述步骤40405至步骤40411中所提及的判断词间连续性的方法包括假设W={w1,w2,....,wN}是系统中预先设置的词表中所有词的集合,C={c1,c2,....,cM}是短信文本中所有汉字的集合;短信文本S=c1c2....cici+1....ck=w1w2...wjwj+1.....wN;则ci、ci+1是相邻的汉字;wj、wj+1是相邻的词;i=1...k,j=1...N;wj∈W,ci∈C;并设定阈值tw和tθ。如词wj和wj+1其中一个为英文单词,则默认词wj和wj+1连续,如词wj和wj+1都为中文单词,则用下式判断词wj和wj+1的连续性
当ZJ(wi,wi+1)为1时,词wj和wj+1连续;ZJ(wi,wi+1)为0,则词wj和wj+1不连续。这里MI(wj,wj+1)=αI(wj·ck,wj+1·c1)+(1-α)I(wj,wj+1) (2)I(wj·ck,wj+1·c1)=log2[P(wj·ck,wj+1·c1)/p(wj·ck)p(wj+1·c1)] (3)I(wj,wj+1)=log2[P(wj,wj+1)/p(wj)p(wj+1)] (4)其中p(wj·ck)为wj词的最后一个字ck在语料库中的出现频率,语料库由系统预先设定,其中可以包括某个特定领域的文本,也可以包括非特定领域的文本,如前面提及的词表或字典;p(wj+1·c1)为词wj+1的第一个汉字在语料库中出现的频率,p(wi·ck,wi+1·c1)为这两个汉字在语料库中连续出现的频率。I(wj·ck,wj+1·c1)为这两个汉字的互信息。p(wj)为wj词在语料库中的出现频率,p(wj+1·)为词wj+1在语料库中出现的频率,p(wi·,wi+1)为这两个词在语料库中连续出现的频率,I(wj·,wj+1)为这两个词的互信息。α为权值,可设为0.4-0.7。
MX2(wj,wj+1)定义如下MX2(wj,wj+1)=αX2(wj·ck,wj+1·c1)+(1-α)X2(wj,wj+1) (5)这里X2(wj·ck,wj+1·c1)为wj词的最后一个字ck与词wj+1的第一个汉字的x2统计量;X2(wj,wj+1)为wj,wj+1的x2统计量。令n12表示语料库中出现词wj但不出现词wj+1的连续词个数;n21表示不出现词wj,出现词wj+1的连续词个数;n22表示两个词都不出现的连接词个数;n11表示两个词连续出现的个数;记ni.=ni1+ni2,n.j=n1j+n2j(i=1,2;j=1,2),有n=n11+n12+n21+n22,则X2(wj,wj+1)定义为X2(wj,wj+1)=n×(n11×n22-n12×n22)2n1.×n2.×n.1×n.2---(6)]]>同样设n12表示语料库中出现wj的最后一个字ck但不出现词wj+1的第一个字的连续字个数;n21表示不出现词wj最后一个字ck,出现词wj+1的第一个字的连续字个数;n22表示两个字都不出现的连接字个数;n11表示两个字连续出现的个数;记ni.=ni1+ni2,n.j=n1j+n2j(i=1,2;j=1,2),有n=n11+n12+n21+n22,则X2(wj·ck,wj+1·c1)同样可用(6)式得到。α为权值,可设为0.4-0.7。
通过上述对步骤40401至步骤40414的描述可知,本步骤中使用变长窗口模型作为疑错窗口模型,疑错窗口最小距离为3个词。例如给定一个语句S,首先对该语句进行分词处理,得到词条集合w1w2...wjwj+1.....wφ,然后在此词条上定位疑错窗口。定位过程从第一个词开始,此时标记第一个疑错窗口的开始位置为1,然后计算随后的每相邻两个词的词间连续性,疑错窗口定位过程分为以下4种情况1.如果在这搜索的3个词中没有词间连续性小于阈值的情况,即第1至第3个词连续,同时第3个词和第4个词也连续,则更新这个疑错窗口的开始位置为第4个词的位置,并计算从该位置起再判断连续的3个词的词间连续性,以及第4个词和第5个词的词间连续性。
2.如果在这搜索的3个词中出现词间连续性小于阈值的情况,即(词1、词2)或(词2、词3)或(词1、词2、词3)不连续,而第3个词与第4个词连续,则定位该疑错窗口的结束位置为第4个词的位置,并把该窗口的开始位置与结束位置加入到疑错窗口队列中。然后把第4个词的位置作为下一个疑错窗口的开始位置,并计算下一个疑错窗口内3个词的词间连续性,以及第3个词和第4个词的连续性。
3.如果在这搜索的3个词中没有出现词间连续性小于阈值的情况,但第3个词与第4个词不连续,则继续计算后续两两词的连续性,如果后续词的连续性仍然小于阈值,则继续计算,直到词间连续性大于阈值为止。然后把该词间连续性大于阈值的两个词中前一个词的位置作为该疑错窗口的结束位置,并把该疑错窗口的开始位置与结束位置加入到疑错窗口队列中。然后把该疑错窗口的结束位置的下一个词作为下一个疑错窗口的开始位置继续搜索过程。
4.如果在这搜索得3个词中出现词间连续性小于阈值的情况,且第3个词与第4个词也不连续,则按第3种情况处理。
疑错窗口定位过程直到到达该待校对文本最后一个词为止。
如图4所示,在得到文本的疑错窗口队列后,在步骤40415至步骤40420,用Markov模型算法对每个疑错窗口中的字词进行定错和校对,其中,首先构造疑错窗口中的各词的字候选矩阵,然后利用Viterbi算法寻找最佳候选字序列,最后当搜索到的最佳字序列的概率大于阈值β(取0.6-0.8)时,将搜索到的最佳字序列与原字序列对照,不一致者作为发现的文本错误输出,并将最佳字序列中的对应字词作为第一候选词条并对错误进行改正。具体步骤描述如下步骤40415、设置窗口循环参数J的初始值为1,然后在步骤40416,判断J是否小于或等于M,如果是,则执行步骤40417;否则,完成纠错得到纠错后的词条集。
在步骤40417,构建待校对疑错窗口,即第J个疑错窗口中包括的词组S的基字序列Baseword=<c1,c2,...,cn>,这里的n为词组S中的字数。
在步骤40418,根据系统词典,构件第J个疑错窗口的基字序列的候选矩阵,包括依据预先设置的系统字典,对词组S中每个字选择5个高频同音字,构造Baseword中的每个字的候选向量Zi,然后形成S的字候选矩阵Matrix(S)=Z1Z2....Zn,Zi=<cj,1ci,2,...ci,5>,ci,j为基字ci的字候选向量Zi中ci的同音字,5为候选向量的长度,即候选同音词个数。
在步骤40419,依据下述公式(7),利用Viterbi算法寻找最佳候选字序列,对应于最佳候选字序列的评价函数为f*(wordlist)=argmaxΠλiP(cii=1n|ci-1),]]>同时保留前几个具有较高评价函数的字序列。
f(Wordlist)=Πi=1nλip(ci|ci-1)---(7)]]>公式中的λi为规则的权值调整系数,本系统中λi=1(i=1,...,n)`。
步骤40420、判断搜索到的最佳字序列Wordlist*的概率是否大于阈值β(β取0.6-0.8),如果是,在步骤40421,用最佳字序列将搜索到的最佳字序列Wordlist*与Baseword对照,不一致者作为发现的文本错误输出,并将Wordlist*中的对应字词作为第一候选词组并对错误加以改正,然后返回执行步骤40416。
通过上述步骤401至404,有效地消除了短信文本中的变异符号、变异文本、错字和错词对系统的训练和分类过程带来的影响。同时由于步骤404中的文本校对技术采用预加窗处理,最终的定错和纠错只在每个疑错窗口内进行,因此有效的缩短了待定错和纠错字段长度,减小了计算复杂度。
步骤405、对步骤404得到的词条集进行去噪预处理。
去噪处理主要完成去除稀有词、停用词工作。本实施例中的去除稀有词和停用词方法分别采用词频比较与停用词表方法。
(1)稀有词处理系统首先对步骤404所得的各个词条,在所有训练短信文本的词条集中出现的频率进行统计,并设定一个词频阈值,只要是词条频度低于这个词频阈值的词就从词条空间中删除。
(2)停用词表系统首先构造并设置停用词表,在文本校对处理后把校对后的文本中的各词条分别和设置的停用词表中词进行比较,如果该词条在停用词表中,则删除该词条。
步骤406、用向量表示方法对每个短信文本进行特征表示,得到每个短信文本的初始特征向量集。
这里一条短信文本di={t1,t2,....,tk,...,tm},tk为第文本di中第k个词条,m为短信文本di的词条总数。文本di的特征向量表示为V(di)=(Wi1,Wi2,.....,Wik,.....,Wim)其中Wik数据结构为Struct W{Nname;//特征代表的词Weight;//特征权重}Wik.Weight为第k个特征在文档di中的权重,反映特征tk决定文档di是否属于类cj的重要性。这里所述Wik.Weight=Weight(tk,di)采用TF-IDF公式进行计算。TF-IDF公式如下Weight(tk,di)=tf(tk,di)×log(N/ntk+0.01)Σtk∈di[tf(tk,di)×log(N/ntk+0.01)]2---(8)]]>其中,Weight(tk,di)为词tk在文本di中的权重;tf(tk,di)为词tk在文本di中的词频,N为文本的总数,ntk为文本集中出现tk的文本数。
步骤407、对步骤406得到的短信文本初始特征向量集进行特征选择,降低特征向量维数,得到经过特征选择的训练特征空间,即训练特征集。
特征选择过程包括分类系统中训练过程的目标是调整模型参数θ,从而使似然概率值 最大化。假设训练文本集中各文本相互独立的情况下,似然概率 可写为下式p(D|θ)=Πi=1Np(di|θ)---(9)]]>p(di|θ)=Σj=1βp(cj|θ)p(di|cj,θ)---(10)]]>其中,D={d1,d2,....,dN)为训练文本集,di是训练文本集中第i个文本;C={c1,c2,....,cβ}是类别集合,cj是第j类;t={t1,t2,....tL)是这些类的特征集合;θ={θ1,θ2,....,θc)是模型参数空间θα是第α类的模型参数。公式(10)中p(cj|θ)是类j的先验概率,p(di|cj,θ)是给定模型参数θ时,文本i在类j中的概率。进一步假设特征集中的特征也相互独立的情况下,似然函数可以重写为下式p(D|θ)=Πi=1NΣj=1βp(cj|θ)Πtl∈dip(tl|cj,θ)---(11)]]>这里p(tl|cj,θ)是在给定模型参数θ时,类j中文本di中特征tl的概率。并不是所有特征都与类有相同的相关度,所以全概率公式,p(tl|cj,θ)可以看为相关分布和不相关分布的加权和,如下式所示。
p(tl,|cj,θ)=z(tl)p(tlis relevant|cj,θ)+(1-z(tl))p(tlis irrelevant|cj,θ) (12)这里z(tl)p(tlis relevant)被定义为特征tl是相关的概率。因此似然函数(11)可以重写为式(13)p(D|θ)=Πi=1NΣj=1βp(cj|θ)Πtl∈diz(tl)p(tlisrelevant|cj,θ)+(1-z(tl))p(tlisirrelevant|cj,θ)---(13)]]>本步骤中,具体可以用EM算法通过循环以下两步来最大化似然函数值。
(1),E-step:z^(k+1)=E(z|D,θ^(k))]]>(2),M-step:θ^(k+1)=argmaxθp(D|θ,z^(k))]]>这里z={z(1),z(2),.....z(u)},u是特征个数;其中的k为循环次数。
在E-step中,在给定第k次循环后的模型参数θk的情况下,相应的计算期望的特征集 在M-step中,根据E-step中的到的新的特征空间,相应计算一个新的模型参数 这个模型参数使似然函数最大化。
具体地,E-step中,首先对上次循环得到的训练集进行重新分类,并且把错误分类结果从训练集中删除。然后根据分类后正确的训练集中的每个短信文本得到新的特征向量空间,即特征集z′,并且用监督型的特征选择算法IG计算新特征向量空间中每个特征的相关度分数。如果特征tl的相关度分数大于一预设门限T,则记z′(tl)=1,否则记为z′(tl)=0。如果z′(tl)=0,则将该特征从新特征向量空间中删除得到,并根据所得到的特征集,对训练集中每个训练短信文本进行特征标定,删除每个训练短信文本中不属于特征集的特征。最后用z′更新z得到 则在每次循环过程中,通过移除错误分类训练文档和相关度分数判断的方法,去掉了噪声训练文本和噪声训练特征,从而自适应的最优化了特征集。
上述根据所得到的特征集 对训练集中每个训练短信文本进行特征标定,删除不属于特征集中的特征时,具体可以使用Bool法对文本中的特征进行标定。标定过程描述如下设特征选择后的训练特征集为T={t1,t2,....,tk,...,tn},第i个训练文档向量为di={k1,k2,...,kj}1.l=12.如果kl∈T,则特征kl保留,否则从训练文档向量中删除kl。
3.重复比对直到l=j4.得到第i个文档的新文档向量di′。
M-step中,可以根据重构的训练短信文本集使用任意的训练算法对模型进行重新训练得到新模型参数 具体可以使用支撑向量机(SVM)训练算法对模型进行训练。
如图8所示,EM算法流程如下给定初始训练数据集D初始化z1={1,1.....1},k=1doStep1.读取特征集和训练文本集,基于读取的特征集 和训练文本集训练模型参数 Step2.用分类算法对训练文本进行重新分类,并得到正确和错误的分类结果集Step3.删除训练文本集中的错误分类结果Step4.更新Z根据正确分类结果集构建新文本特征向量z′,然后计算新特征向量集中每个特征的相关度分数αl,然后根据相关度分数更新 得到 if(αl>T)z′(tl)=1elsez′(tl)=0z^(k+1)=z′]]>k=k+1while(not IEnd())end其中,T的取值范围为0.4~1之间,具体根据实际的相关度要求确定。另外,这里的IEnd()为循环结束判断函数,定义如下。
IEnd()=1(dis(θ(k),θ(k+1))<ψormiroP>η)0otherwise---(14)]]>miroP=Σi=1βαiΣi=1βγi---(15)]]>式(14)和(15)中,η和ψ是预先设定的门限值,根据试验结果η可以取0.85~0.90之间,ψ取0.01-0.001之间。αi是第ci类中被正确分类的文档数;γi是类ci的文档总数;上述dis()为距离函数,具体可以是欧式距离函数或其他距离函数。
上述方法中特征tl的相关度分数αl采用信息增益(IG)公式计算,该公式具体描述如下αi=-Σi=1mP(ci)logP(ci)+P(tl)Σi=1mP(ci|tl)+logP(ci|tl)+]]>P(t‾l)Σi=1mP(ci|t‾l)logP(ci|t‾l)---(16)]]>其中,P(tl)为短信文本集中出现特征tl的文本数除以所有短信文本的文本数,P(ci|tl)为类型ci中出现tl的文本数除以所有短信集中出现tl的文本数。 为短信文本集中不出现特征tl的文本数除以所有短信文本的文本数。 为类型ci中不出现tl的文本数除以所有短信集中不出现tl的文本数。P(ci)为类ci的先验概率。
本步骤中所描述的自适应的基于EM(最大期望值)算法的最优化特征选择方法,自适应的对特征空间进行改变,去除噪声特征,最终得到最优的低维特征空间,同时也有效的解决了训练集含有噪声训练元素情况下的最优特征提取问题。
经过上述流程,就完成了对训练短信文本的训练,并得到了用于分类的训练特征集。
其中对短信文本的分类流程如图9所示,其中步骤901至步骤906中,对待分类短信文本的处理与图4中对训练短信文本的处理基本相同,这里不再赘述。图9所示流程中,在步骤906后执行下述步骤步骤907、把步骤906中得到的待分类文档初始特征集中的特征,和训练时产生的训练特征集进行匹配处理,从而删除掉初始特征集中不在训练特征集中的特征,形成每篇待分类短信文本的特征向量集。具体过程如下设训练特征集为T={t1,t2,....,tk,...,tn},第i个待分类文档向量为di={k1,k2,...,kj}1.首先初始化l=12.如果kl∈T,则特征kl保留,否则从文档特征集中删除kl。
3.将1值加一,然后执行步骤2,进行重复比对,直到1=j,对kj按步骤2中的方式处理后,得到第i个待分类文档的新文档向量di′,即待分类短信文本的文本特征。
步骤908、根据兴趣特征词表,对经过步骤907处理后的每个待分类短信文本的特征向量集中的文本特征进行权重调整。
由于特征提取的目的是为了最好的挖掘用户兴趣点。而针对每个兴趣点,有些词较为关键,如对手机兴趣点,词“手机”、“摩托罗拉”等词就较关键。当短信中出现这些关键词时,不失一般性,可以认为发送短信用户对相关兴趣点有一定的兴趣程度。因此本实施例在系统中预先设定兴趣特征词表,则本步骤中基于兴趣特征词表进行特征权重调整,更有效的反映了用户兴趣点。本步骤的具体处理如下假设待分类文本的特征向量集为C,其中属于兴趣特征词表中的词集为M,则不属于该兴趣特征词表的词集表示为C-M。
首先计算M中各个特征所属的类,并计算除去属于兴趣特征词表中词集M后的待分类文本属于各个类别的概率Pi(i=1,...,n),n为类数。然后根据计算得到的Pi序列来判断是否对属于词集M的特征词的权重进行调整,具体包括Pi计算公式为Pi(d|ci)=Πl∈C-Mp(tl|ci)---(17)]]>根据计算得到M中各个特征所述的类和Pi序列,可以分以下几种情况对特征权重进行调整1.当兴趣特征词集M中包含不止一个词时,M={t1,...,tm},各个特征词都属于一个类j,并且M的势远小于C-M的势时,这里的势表示集合中元素的个数,则当|Pj-Pmax|=T<Tl时,且存在属于兴趣特征词集M中的特征词的权重小于该文本特征向量集C中权重的均值时,用均值取代该特征词原有的权重。这里Tl是预设定的门限值,可取(0.25-0.4)。这里,Pj为文本属于j类的概率,Pmax=max{Pi|i=1,...,N}。
2.当兴趣特征词集M中包含不止一个词时M={t1,...,tm},各个特征词都属于一个类j,并且M的势远小于C-M的势时。则当| Pj-Pmax|=T>Tl时,则表示该待分类文本不属于类j,为了保证权重调整不会完全掩盖其它特征词在文本中所起的作用,因此对兴趣特征词表中的词的权重不作调整。
3.当兴趣特征词集M中包含不止一个词时M={t1,...,tm},各个特征词都属于一个类j,并且M的势接近于C-M的势时,则直接用该文本特征向量集权重均值,取代属于兴趣特征词集M中的,权重小于该文本特征向量集中权重均值的特征词的权重。
4.当兴趣特征词集M中包含不止一个词时M={t1,...,tm},M中特征词属于多个类{ci,...,ci+p},并且M的势远小于C-M的势时。同样首先计算|Pk-Pmax|=Tk(k=i,...,i+p),如果存在Tk<Tl(k=i,...,i+p)的k集合为{j,...,j+O},且存在k(k=j,...,j+O)类所对应的兴趣特征词集M中的特征词的权重小于该文本特征词权重均值时,用均值取代该特征词原有的权重,且对拥有最大Pk的k类所对应的所有特征词再相应增大均值的20%,以保证分类正确性。
5.当兴趣特征词集M中包含不止一个词时M={t1,...,tm},M中特征词属于多个类{ci,...,ci+p},并且M的势接近于C-M的势时。则直接用该文本特征词权重均值取代属于兴趣特征词集M中的权重小于该文本特征词权重均值的特征词的权重。
步骤909、对每篇文档的特征向量集中的文本特征进行正交化处理,使特征向量数据标准化,同时进一步压缩特征数据。
本实施例中,正交化处理使用离散余弦变换,其变换方式如下给定N维特征矢量序列x(n),n=0,1,...,N-1,其离散余弦变换定义为Xc(0)=1NΣn=0N-1x(n)---(18)]]>Xc(k)=2NΣn=0N-1x(n)cos(2n+1)kπ2N,k=1,2,...,N-1---(19)]]>其中Xc(k)为变换后标准化的第k维特征量。
步骤910、基于模型参数进行特征分类。
以下通过测试实验对本发明实施例所产生的效果进行进一步说明本测试试验中,将现有的SVMCLS系统作为对照与我们的新算法作了对比测试。实验使用6类文本数据(教育,经济,计算机,军事,环境,交通),每类数据的训练集由2000篇文档组成,测试集由500篇文本组成。各文本从论坛和网上的一些新闻中获得。测试平台为WindowsXP系统。
试验选用SVM作为分类器;本发明实施例使用IG作为基本的特征选择函数;SVMCLS系统选用了CHI和IG算法作为特征选择函数。将实验选择精度,召回率和miroF1作为评估标准。这些标准定义为下式。
Ri=αiμi,]]>pi=αiγi,]]>miroR=Σi=1mαiΣi=1mμi,]]>miroP=Σi=1mαiΣi=1mγi,]]>miroF1=2×miroR×miroPmiroR+miroP]]>这里αi是第ci类中被正确分类的文档数;γi是类ci的文档总数;μi是被系统分类到ci类的文档总数。
实验中以不同的百分比用噪声训练数据替换了原有的训练数据的方法构建了含噪训练数据集。表2,3,4分别显示了系统SVMCLS采用CHI、IG作为特征选择标准的试验结果和新系统的测试结果。其中表1是对干净训练集进行特征提取得到的测试结果,表2和表3分别是对含有20%噪声和35%噪声数据的训练集进行特征提取而得到的测试结果。

表1


表2

表3从表1到表3我们可以看出1)在干净训练集的情况下,每个特征提取算法都有较高的分类效果。
2)随着噪声训练数据的增加使用CHI和IG作为特征选择算法的SVMCLS系统分类能力随之下降。这是因为CHI和IG算法不能很好的去除掉噪声训练文本带来的噪声特征。相比之下,本发明有更好的分类效果,同时系统的性能也校对稳定。这是由于本发明实施例中自适应重复特征选择减少了噪声训练数据和噪声特征,从而得到了较精确的特征集。
综上所述,在训练数据集存在一些噪声数据的情况下,本发明实施例相比SVMCLS系统有更好特征选择能力,因此有搞好的分类效果。
以上是对本发明具体实施例的说明,在具体的实施过程中可对本发明的方法进行适当的改进,以适应具体情况的具体需要。因此可以理解,根据本发明的具体实施方式
只是起示范作用,并不用以限制本发明的保护范围。
权利要求
1.一种文本处理方法,应用于文本特征提取技术中,其特征在于,该方法包括在文本训练过程中,基于训练后的模型参数对训练文本集中的训练文本进行分类,并删除分类错误的训练文本,使新的训练文本集中只保留分类正确的训练文本,再基于分类正确的训练文本构建新的特征集;基于所述新的训练文本集和新的特征集训练模型参数。
2.根据权利要求1所述的方法,其特征在于,所述基于分类正确的训练文本构建新的特征集之后,进一步包括根据特征选择算法计算所构建的新的特征集中每个特征的相关度分数,删除相关度分数小于预先设定的第一门限的特征。
3.根据权利要求2所述的方法,其特征在于,所述特征选择算法为监督型特征选择算法IG。
4.根据权利要求1所述的方法,其特征在于,所述训练模型参数采用支撑向量机SVM训练算法。
5.根据权利要求1或2所述的方法,其特征在于,所述基于所述新的训练文本集和新的特征集训练模型参数后,进一步包括,判断是否连续两次训练得到的模型参数的距离小于预先设定的第二门限或分类正确文档的比例大于预先设定的第三门限,如果是,则跳出本流程;否则,返回执行所述基于训练后的模型参数对训练文本集中的训练文本进行分类的步骤。
6.根据权利要求1所述的方法,其特征在于,该方法进一步包括在文本分类过程中,基于预先设置的兴趣特征词表,对获得的待分类文本的特征向量集中的特征进行权重调整。
7.根据权利要求6所述的方法,其特征在于,所述基于预先设置的兴趣特征词表,对获得的待分类文本的特征向量集中的特征进行权重调整,包括将待分类文本的特征向量集中属于兴趣特征词表特征组成兴趣特征集M,剩余的特征组成非兴趣特征集C-M;计算所述C-M属于各个类别的概率和M中的特征所属的类,并根据得到的概率、M中特征所属的类、M的势和C-M的势,调整所述M中特征的权重。
8.根据权利要求7所述的方法,其特征在于,所述计算所述C-M属于各个类别的概率和M中的特征所属的类,并根据得到的概率、M中特征所属的类、M的势和C-M的势,调整所述M中特征的权重,具体包括当M中的多个特征全部属于类j,且M的势远小于C-M的势,且根据计算的C-M属于各个类别的概率中,属于类j的概率与所计算的概率的最大值之差的绝对值小于预先设定的第四门限时;或者,M的势接近于C-M的势时;或者,当M中的多个特征属于多个类,且M的势远小于C-M的势,且根据计算的C-M属于各个类别的概率中,存在对应于M所属的类的概率与所计算的概率的最大值之差的绝对值小于预先设定的第四门限时;或者,M的势接近于C-M的势时;对M中权重小于M中全部特征权重均值的特征,将其权重增大为所述均值。
9.根据权利要求1所述的方法,其特征在于,该方法进一步包括在文本训练和文本分类过程中,进行文本校对时,根据分词后文本中各个词之间是否具有连续性,定位包括非连续词的疑错窗口,并针对定位出的疑错窗口进行文本校对。
10.根据权利要求9所述的方法,其特征在于,所述根据分词后文本中各个词之间是否具有连续性,定位包括非连续词的疑错窗口包括将分词后文本的第一个词设置为疑错窗口的开始位置,根据预先设定的疑错窗口初始大小n,确定从该开始位置起前n个词的词间连续性,以及第n和n+1个词的词间连续性如果全部连续,则将第n+1个词设置为疑错窗口的开始位置,然后判断当前疑错窗口的开始位置是否为对应文本中最后一个词,如果是,则完成疑错窗口定位;否则,返回执行所述根据预先设定的疑错窗口初始大小n,确定从该开始位置起前n个词的词间连续性,以及第n和n+1个词的词间连续性的步骤;如果所述前n个词不连续,而第n和n+1个词连续,则设置第n+1个词为该疑错窗口的结束位置,并记录该疑错窗口,将该疑错窗口的结束位置的下一个词设置为下一疑错窗口的开始位置,然后判断当前疑错窗口的开始位置是否为对应文本中最后一个词,如果是,则完成疑错窗口定位;否则,返回执行所述根据预先设定的疑错窗口初始大小n,确定从该开始位置起前n个词的词间连续性,以及第n和n+1个词的词间连续性的步骤;如果所述前n个词不连续,且第n和n+1个词也不连续,则继续确定后续词的词间连续性,直至确定出连续的词,然后将该连续词中前一个词的位置设置为疑错窗口的结束位置,记录该疑错窗口,将该疑错窗口的结束位置的下一个词设置为下一疑错窗口的开始位置,然后判断当前疑错窗口的开始位置是否为对应文本中最后一个词,如果是,则完成疑错窗口定位;否则,返回执行所述根据预先设定的疑错窗口初始大小n,确定从该开始位置起前n个词的词间连续性,以及第n和n+1个词的词间连续性的步骤。
11.根据权利要求1所述的方法,其特征在于,该方法进一步包括在文本训练和文本分类过程中,进行文本规范化和分词处理时,执行下述步骤读取待处理文本,去除文本中的奇异符号;使用分词算法对文本进行分词处理;基于预先设定的奇异词表,采用正规词替换文本中的奇异词。
12.根据权利要求1至11中任一所述的方法,其特征在于,所述文本为短信文本。
13.一种文本处理系统,其特征在于,该系统包括训练模块、分类模块和存储模块;所述存储模块用于存储训练文本集、特征集和模型参数;所述训练模块用于获取所述存储的训练文本集和特征集,基于获取的训练文本集和特征集训练模型参数,并将训练后的模型参数存储至所述存储模块;所述分类模块用于获取所述存储模块中的模型参数和训练文本集,基于该模型参数对训练文本集中的训练文本进行分类,将分类错误的训练文本从存储模块的训练文本集中删除,基于分类正确的训练文本构建特征集,并将构建的特征集存储到所述存储模块。
14.根据权利要求13所述的系统,其特征在于,该系统中进一步包括特征选择模块,用于获取所述存储模块中存储的特征集,采用特征选择算法计算特征集中每个特征的相关度分数,并删除所述存储的特征集中相关度分数小于预先设定的第一门限的特征。
15.根据权利要求13或14所述的系统,其特征在于,所述训练模块和所述分类模块顺序循环执行所述工作,则所述系统中进一步包括循环判断模块,用于获取所述训练模块训练前的模型参数和训练后的模型参数,计算两个模型参数的距离,并在确定出该距离小于设定的第二门限后,通知所述分类模块停止所述工作,从而结束循环;或,获取分类模块的分类结果,计算分类正确文档的比例,并在确定出该比例大于预先设定的第三门限后,通知所述训练模块停止所述工作,从而结束循环。
全文摘要
本发明公开了一种文本处理方法,应用于文本特征提取技术中,该方法包括在文本训练过程中,基于训练后的模型参数对训练文本进行分类,并删除分类错误的训练文本,使新的训练文本集中只保留分类正确的训练文本,再基于分类正确的训练文本构建新的特征集;基于所述新的训练文本集和新的特征集训练模型参数。本发明还提供了一种文本处理系统。本发明中通过在文本训练过程中,训练模型参数后,基于新的模型参数进行分类去除分类错误的训练文本,再基于正确分类的文本训练模型参数,从而降低了噪声文本对训练特征集的影响,提高了训练特征集的可靠性,也提高了文本特征提取的准确度。
文档编号G06F17/30GK101021838SQ20071008004
公开日2007年8月22日 申请日期2007年3月2日 优先权日2007年3月2日
发明者尚明生, 林劼, 傅彦, 邵刚 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1