一种基于特征扩展的中文短文本分类方法

文档序号:6380944阅读:211来源:国知局
专利名称:一种基于特征扩展的中文短文本分类方法
技术领域
本发明涉及文本分类系统的技术领域,特别涉及一种基于特征扩展的中文短文本分类方法。
背景技术
根据统计,在电子信息数据中,大约有80%的数据是以非结构化的文本文件形式而存在着。在互联网上,不仅文本数据是最为普遍的数据存储形式,而且视频、音频及图片等数据的搜索都有与之相关联的文本数据。文本分类为处理和组织海量文本数据的关键技术,可以比较有效地解决信息杂乱的问题,方便了用户准确地定位所需的信息和分流信息。传统的文本分类系统主要采用KNN, SVM等分类方法,能在长文本分类应用中获得很好的分类效果。 随着互联网的继续发展,短文本信息开始大量出现,例如论坛的留言、新闻标题、社交网络的状态、即时消息、微博等等,这些短文本信息是大家日常交流通讯中所必不可少的信息形式,它们的共同特点是信息长度较短、表述内容丰富、组合比较灵活、内容长短不定、数据规模很大。由于短文本的特征离散且长度较短,所以传统的文本分类方法直接应用到短文本语料集上时并不能取得可与长文本语料集上相比拟的分类效果。通过丰富短文本所携带的特征量,能够有效地提高短文本分类的准确率和召回率。

发明内容
本发明要解决的技术问题为克服现有技术的不足,提供一种基于特征扩展的中文短文本分类方法,该系统通过从长文本语料库中提取信息来丰富短文本所携带的信息量,从面提高了分类的准确率和召回率。本发明解决上述技术问题的技术方案为一种基于特征扩展的中文短文本分类方法,该系统具体步骤如下步骤(I)、建立背景知识库根据长文本语料库,利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组,从而建立背景知识库。步骤(2)、扩展训练集中的短文本利用步骤(I)中生成的背景知识库作为扩展库,对于短文本中的每个原始词,从背景知识库寻找与该词相关联的所有词,然后将这些词作为扩展词对短文本进行存在性扩展。步骤(3)、建立分类模型从经过扩展的短文本训练中提取有用特征,获得特征空间,再将每个扩展后的短文本转换为该特征空间上的向量表示,最后用这些向量作为训练集来建立SVM分类模型。步骤(4)、扩展待分类的短文本根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词。步骤(5)、产生分类结果将步骤(4)扩展后的短文本转换成的特征空间上的向量,然后作为输入,利用步骤(3)获得的分类模型计算出分类结果并返回给用户。所述步骤(I)中建立背景知识库,具体如下步骤①对长文本语料库中的长文本进行切词,每个长文本只保留名词、时间词、处所词、方位词、动词、形容词、区别词、状态词和字符串,从而得到长文本语料库的特征词集;步骤②计算长文本语料库的特征词集中的各个词的类别趋向性和全局支持度,若特征词的类别趋向性不存在或全局支持度不够,则从该集合中删除,然后根据特征词的类别趋向性将特征词集划分为若干个与类别一一对应的子集合;假设D= {屯,d2,…,dn}表示长文本语料库的所有文本集合,T = It1, t2, . . , tk}表示k个构成文本的特征项(即特征词)的集合,C= (C1, C2,…,cm}表示类别的集合。定义I全局支持度项集T的全局支持度记为gsup(T),指语料库中包含项集T的·文档数与整个语料库的文档数的比值,其数学定义式为
I D丨gSlip(7) = ^f(I)式
I ^ I其中D表示语料库中所有文档的集合,Dt表示语料库中包含项集T的所有文档的
隹A
口 O定义2置信度特征项t的对于类别c的置信度记为conf (t, c),是包含特征项t且属于类别c的文档数与含特征项t的所有文档数的比值,其数学定义式为 conf (t, c) = (2 )式其中Dt表示包含特征项t的文档的集合,Dt,。表示包含特征项t且属于类别c的文档的集合。定义3类别趋向性对于特征项t,若存在类别,使得conf (t,c)不小于用户指定的阈值P (0.5^ ^ < 1),则称特征项t具有类别趋向性,且倾向类别为C,记为Trend(t)=c。步骤③在每个子集合上应用Apriori算法挖掘具有参数a的共现关系和具有参数@的类别趋同性的特征词的二元组,并以这些二元组构成背景知识库。定义4共现关系若项集T的全局支持度超过一个用户指定的阈值a (0
<a ^ 1),则称项集T内的特征项具有共现关系。定义5类别趋同性对于两个不同的特征项^和12,若存在类别C,使得Trend (t) =Trend (t2) =c,则称二者具有类别趋同性。所述步骤(2)中扩展训练集中的短文本,具体如下假设d = It1, t2,…,tj表示一个短文本,F表示背景知识库,则对该短文本扩展步骤如下步骤A、对于短文本中的每个特征词,从背景知识库F中寻找与该词相关联的所有词,然后将这些词作为短文本d对应的可用扩展词集EX=ItkLti) G F或〈ti,t> G F,其中 i = 1,k}。步骤B、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。
所述步骤(4)中扩展待分类的短文本,具体如下假设d = It1, t2,…,tk}表示一个待扩展的短文本,F表示背景知识库,V表示步骤(3)获得的特征空间,则对该短文本扩展步骤如下步骤A、从背景知识库F中去除包含不属于特征空间V中的特征词的二元组。步骤B、对于短文本中的每个特征词,从背景知识库寻找与该词相关联的所有词,将这些词作为短文本d对应的可用扩展词集EX=It I t, G F或〈\,t> G F)且\ G V,其中 i = 1,. . k}。步骤C、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。本发明与现有技术相比的优点在于 相比于传统文本分类系统,本发明可以有效地提高短文本分类的准确率和召回率。相比于同类系统,本发明中的特征扩展性能不受短文本语料库的影响且易与传统文本分类系统相结合。


图I为本发明的概要流程图示意具体实施例方式现结合

本发明的实施例。如图I所示,本发明包括五个主要步骤建立背景知识库、扩展训练集中的短文本、建立分类模型、扩展待分类的短文本和产生分类结果。步骤(I)建立背景知识库根据长文本语料库,利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组,从而建立背景知识库,具体步骤为步骤①对长文本语料库中的长文本进行切词,每个长文本只保留名词、时间词、处所词、方位词、动词、形容词、区别词、状态词和字符串,从而得到长文本语料库的特征词集;步骤②计算长文本语料库的特征词集中的各个词的类别趋向性和全局支持度,若特征词的类别趋向性不存在或全局支持度不够,则从该集合中删除,然后根据特征词的类别趋向性将特征词集划分为若干个与类别一一对应的子集合;假设D= ((I1, d2,…,dn}表示长文本语料库的所有文本集合,T = It1, t2, . . , tk}表示k个构成文本的特征项(即特征词)的集合,C= (C1, C2,…,cm}表示类别的集合。定义I全局支持度项集T的全局支持度记为gsup (T),指语料库中包含项集T的
文档数与整个语料库的文档数的比值,其数学定义式为
In Igsup(7) = 二^(1)式
丨£>|其中D表示语料库中所有文档的集合,Dt表示语料库中包含项集T的所有文档的
隹A
口 O定义2置信度特征项t的对于类别c的置信度记为conf (t, c),是包含特征项t且属于类别c的文档数与含特征项t的所有文档数的比值,其数学定义式为
conf (t,c) = (2)式
I I其中Dt表示包含特征项t的文档的集合,Dt,。表示包含特征项t且属于类别c的文档的集合。定义3类别趋向性对于特征项t,若存在类别,使得conf (t,c)不小于用户指定的阈值P (0.5^ ^ < 1),则称特征项t具有类别趋向性,且倾向类别为C,记为Trend(t)=c。步骤③在每个子集合上应用Apriori算法挖掘具有参数a的共现关系和具有参数@的类别趋同性的特征词的二元组,并以这些二元组构成背景知识库。定义4共现关系若项集T的全局支持度超过一个用户指定的阈值a (0·<a ^ 1),则称项集T内的特征项具有共现关系。定义5类别趋同性对于两个不同的特征项^和12,若存在类别C,使得Trend (t) =Trend (t2) =c,则称二者具有类别趋同性。步骤(2)扩展训练集中的短文本利用步骤(I)中生成的背景知识库作为扩展库,对于短文本中的每个原始词,从背景知识库寻找与该词相关联的所有词,然后将这些词作为扩展词对短文本进行存在性扩展,具体步骤为假设d = It1, t2,…,tj表示一个短文本,F表示背景知识库,则对该短文本扩展步骤如下步骤A、对于短文本中的每个特征词,从背景知识库F中寻找与该词相关联的所有词,然后将这些词作为短文本d对应的可用扩展词集EX=It I < t,ti> G F或〈ti,t> G F,其中 i = 1,. . k}。步骤B、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。步骤(3)建立分类模型从经过扩展的短文本训练集中提取有用特征,获得特征空间,再将每个训练集中扩展后的短文本转换为该特征空间上的向量表示,最后用这些向量作为训练集来建立SVM分类模型,具体步骤为步骤A、计算扩充后的短文本训练集中的每个特征词的信息增益值,然后选取信息增益值较大的10000个词作为特征词空间。特征词的信息增益计算式为Z_ [ "(V)Iog(3)式
cE.{Cj,Cf} ] V / V. J1GQ1 ) = HIG{tk, c) ( 4 )式
ceC式中tk表示特征词,C表示类别集合C = {Cl,C2, -,CfflI1Ci表示C中的某个类别,IC (tk, Ci)表示tk在类别Ci中信息增益值,IG (tk)表示tk的信息增益值,P (t,c)表示具有特征项t且属于类别c的文档的概率,P(t)表示特征t在全部训练文档中出现的概率,P(C)表不一个文档属于类别C的先验概率。步骤B、以词频作为文档的特征权重,将每个训练集中扩展后的短文本转换为特征空间上的向量表示形式;步骤C、将训练集对应的向量集作为输入,以SVM分类算法建立分类模型。步骤(4)扩展待分类的短文本根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词,具体步骤为假设d = It1, t2,…,tk}表示一个待扩展的短文本,F表示背景知识库,V表示步骤
(3)获得的特征空间,则对该短文本扩展步骤如下步骤A、从背景知识库F中去除包含不属于特征空间V中的特征词的二元组。步骤B、对于短文本中的每个特征词,从背景知识库寻找与该词相关联的所有词,将这些词作为短文本d对应的可用扩展词集EX=It I t, G F或〈\,t> G F)且\ G V,其中 i = 1,. . k}。步骤C、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。
步骤(5)产生分类结果将步骤(4)扩展后的短文本转换成的特征空间上的向量,然后作为输入,利用步骤(3)获得的分类模型计算出分类结果并返回给用户。本发明中的扩展过程只与当前待扩展短文本自身内容有关,与其它短文本无关,具有较好的稳定性,且易与传统文本分类系统相结合。相比于传统文本分类系统,本发明可以有效地提高短文本分类的准确率、召回率和F1-Hieasure值,如下表I所示,在表I中的所有类别短文本的分类的准确率、召回率和F1-Hieasure值都有不同程度的提高。表I本发明的分类结果
传统的文本分类系统本发明>刿_二—_=_
准确率召丨口I率 Frmeasure 准确率召回率 F「measure
0.7805560.7690180.7747440.8155670.8181250.816844
商业0.6668750.573040.6164070.6793750.584880.628596
信息技术0.6550.5956240.6239020.6615630.6248520.642684
教育0.8865270.9289220.907230.895280.9325950.913557
新闻0.4615630.4494830.4554420.4771880.4567750.466758
体育0.7868750.9480420.8599730.830.9418440.882392
旅游0.6984380.6774780.6877980.7096880.6957720.702661
女性0.8153130.7827780.7987140.8165630.7971320.80673
娱乐0.6668750.7959720.7257270.68250.8005870.736842
平均值0.7131050.7244750.7166510.7297380.7391640.732998本发明未详细阐述的部分属于本领域公知技术。以上实施例仅用以说明本发明的技术方案而非限制在具体实施方式
的范围内,对本技术领域的普通技术人员来讲,只要各种变化在权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
权利要求
1.一种基于特征扩展的中文短文本分类方法,其特征在于该方法具体步骤如下 步骤(I)、建立背景知识库根据长文本语料库,利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组,从而建立背景知识库; 步骤(2)、扩展训练集中的短文本利用步骤(I)中生成的背景知识库作为扩展库,对于短文本中的每个原始词,从背景知识库寻找与该词相关联的所有词,然后将这些词作为扩展词对短文本进行存在性扩展; 步骤(3)、建立分类模型从经过扩展的短文本训练中提取有用特征,获得特征空间,再将每个扩展后的短文本转换为该特征空间上的向量表示,最后用这些向量作为训练集来建立SVM分类模型; 步骤(4)、扩展待分类的短文本根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词; 步骤(5)、产生分类结果将步骤(4)扩展后的短文本转换成的特征空间上的向量,然后作为输入,利用步骤(3)获得的分类模型计算出分类结果并返回给用户。
2.根据权利要求I所述的一种基于特征扩展的中文短文本分类方法,其特征在于所述第(I)部分中,具体如下 步骤①、对长文本语料库中的长文本进行切词,每个长文本只保留名词、时间词、处所词、方位词、动词、形容词、区别词、状态词和字符串,从而得到长文本语料库的特征词集;步骤②、计算长文本语料库的特征词集中的各个词的类别趋向性和全局支持度,若特征词的类别趋向性不存在或全局支持度不够,则从该集合中删除,然后根据特征词的类别趋向性将特征词集划分为若干个与类别一一对应的子集合; 假设D= ((I1, d2,, dn}表示长文本语料库的所有文本集合,T= It1, t2,. .,tk}表示k个构成文本的特征项(即特征词)的集合,C= (C1, C2,…,cm}表示类别的集合; 定义I全局支持度项集T的全局支持度记为gsup (T),指语料库中包含项集T的文档数与整个语料库的文档数的比值,其数学定义式为 #叩(/)=肖^(1)式 其中D表示语料库中所有文档的集合,Dt表示语料库中包含项集T的所有文档的集合;定义2置信度特征项t的对于类别c的置信度记为conf(t,c),是包含特征项t且属于类别c的文档数与含特征项t的所有文档数的比值,其数学定义式为 conf(l:c) = ^j(2)式 其中Dt表示包含特征项t的文档的集合,Dt,。表示包含特征项t且属于类别c的文档的集合; 定义3类别趋向性对于特征项t,若存在类别,使得conf (t,c)不小于用户指定的阈值@ (0.5^ ^ ^ 1),则称特征项t具有类别趋向性,且倾向类别为C,记为Trend(t)=c ;步骤③、在每个子集合上应用Apriori算法挖掘具有参数a的共现关系和具有参数3的类别趋同性的特征词的二元组,并以这些二元组构成背景知识库; 定义4共现关系若项集T的全局支持度超过一个用户指定的阈值a,其中0< a ^ I,则称项集T内的特征项具有共现关系;定义5类别趋同性对于两个不同的特征项ti和t2,若存在类别C,使得Trend (t) =Trend (t2) =c,则称二者具有类别趋同性。
3.根据权利要求I或2所述的一种基于特征扩展的中文短文本分类方法,其特征在于所述步骤(2)中扩展训练集中的短文本,具体如下 假设d = It1, t2,…,tk}表示一个短文本,F表示背景知识库,则对该短文本扩展步骤如下 步骤A、对于短文本中的每个特征词,从背景知识库F中寻找与该词相关联的所有词,然后将这些词作为短文本d对应的可用扩展词集EX=It I <t,G F或〈ti,t> G F,其中i=1,k}; 步骤B、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,S卩如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。
4.根据权利要求3所述的一种基于特征扩展的中文短文本分类方法,其特征在于所述步骤(4)中扩展待分类的短文本,具体如下 假设d= Itpt2,…,tk}表示一个待扩展的短文本,F表示背景知识库,V表示步骤(3)获得的特征空间,则对该短文本扩展步骤如下 步骤A、从背景知识库F中去除包含不属于特征空间V中的特征词的二元组; 步骤B、对于短文本中的每个特征词,从背景知识库寻找与该词相关联的所有词,将这些词作为短文本d对应的可用扩展词集EX=It I t, G F或〈\,t> G F)且t G V,其中i = I,. . k}; 步骤C、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,S卩如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。
全文摘要
本发明提供一种基于特征扩展的中文短文本分类方法,包括步骤(1)建立背景知识库从带有类别标注的长文本语料库中挖掘满足一定约束条件的特征词的二元组来生成背景知识库;步骤(2)扩展训练集中的短文本根据背景知识库中的二元组,按照一定的扩展规则对训练集中的短文本添加扩展词;步骤(3)建立分类模型用经过扩展的短文本训练集建立SVM分类模型;步骤(4)扩展待分类的短文本根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词;步骤(5)产生分类结果利用分类模型和扩展后的短文本来产生分类结果。本发明利用长文本语料库来丰富短文本的特征,提高了短文本分类的准确率和召回率。
文档编号G06F17/30GK102955856SQ20121044699
公开日2013年3月6日 申请日期2012年11月9日 优先权日2012年11月9日
发明者欧阳元新, 罗建辉, 刘文琦, 熊璋 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1