一种文本自动分类方法

文档序号：6450485阅读：205来源：国知局

专利名称：一种文本自动分类方法
技术领域：
一种文本自动分类方法属于文本自动分类(Text Categorization，Text Classification)技术领域。
从二十世纪八十年代末九十年代初开始，国内外学者开始对TC技术进行深入研究，许多机器学习技术和统计分类方法被应用到这一领域，例如基于概率模型(Probabilistic Model)的贝叶斯分类器(Bayesian Classifier)，基于规则(Rule)的决策树/决策规则(DecisionTree/Decision Rule Classifier)分类器，基于类描述的线性分类器(Profile-Based LinearClassifier)，基于人类分类经验的K最近邻分类器(K-Nearest Neighbor)，基于最优超平面的支持向量机(Support Vector Machine，简称SVM)，通过对多个分类方法进行组合的分类器委员会(Classifier Committee)等。
在线性分类器，向量空间模型(Vector Space Model，简称VSM)被广泛用来描述文本。通过将文本描述为由各特征(例如词，字，字串等)为元素的向量，计算机可以使用向量运算来对文本进行操作，例如计算文本向量的长度，度量任意文本之间的相似程度，两篇文本合并等操作。
在VSM模型中，一项关键技术是如何度量特征的重要性，即权重。特征权重计算的好坏直接决定了分类器的分类效果。目前，被广泛使用的非二元权重(Non-Binary Weighting)计算方法主要有特征频率(Term Frequency，简称TF)，文档频率(Document Frequency，简称DF)，特征频率-逆文档频率(Term Frequency-Inverse Document Frequency，简称TF-IDF)，信息增益(Information Gain，简称IG)，互信息(Mutual Information，简称MI)，信息熵(Entropy)，Chi-分布权重(Chi-Square，简称CHI)等。这些方法中，TF和DF方法认为在文本中出现次数多，在很多文本中出现的特征很重要；IG、MI、Entropy等方法则认为特征含有的信息量越多，则越重要；CHI方法强调了特征与类型之间的结合程度，即特征的整个分类能力。它们基于的共同思想是，特征的重要性被描述得越准确，实际文本也能够被特征向量描述得越准确。这样，试图通过构造复杂的数学模型或统计量对特征权重进行度量来提高特征向量对文本的描述能力，并最终提高分类效果。大量实验表明，这种分类效果的提高是有限的。这有三方面原因，一是用VSM模型描述文本时忽略了文本中的许多信息，例如特征之间的位置关系，特征的语法信息等；二是相对于自然语言的描述能力来说，能够获得的用于学习的数据是很稀疏的，不充分的；三是基于稀疏数据上的复杂统计量会将误差进一步扩大。
二元权重(Binary Weighting)计算方法主要用于概率模型分类器和决策树分类器中，它常常作为其它复杂分类方法的比较基准。在这种方法中，对一篇文本来说，一个特征只有“出现”(1)和“不再现”(0)两种情况。它非常简单，但很粗糙，描述能力有限。因此，在前人的研究中普遍认为这种权重计算方法分类效果很差，没有人将这种权重计算方法应用于基于VSM的线性分类器中。
发明目的本发明的目的在于提供一种可以提高分类准确率的文本自动分类方法。
在文本分类中，不同主题类型之间分为两种情况。第一种情况是两种类型相距很远，即很不相似。在这两类文本中，它们使用的词/字集合完全不同，例如，军事类和财经类。要预测一篇文本属于其中哪一类，只需要检查它主要使用哪一类的特征集就可以了。这可以采用二元权重方法来实现；第二种情况是类型之间很相似，甚至使用完全相同的特征集来描述主题内容，例如，足球类、篮球类、游泳类。这时仅仅使用二元权重方法就不能将这些类型区别开来，而需要测量各个特征更趋向于描述哪一类型的文本，然后综合起来再预测文本所属的类型。在文本分类中，大部分文本属于第一种情况，最难的是第二种情况。
构造的统计量在描述统计数据的某方面统计特性时是存在误差的，只有当数据量趋于无穷大时才以概率1趋于所描述的统计特性。当数据量比较小，甚至数据稀疏时，统计量与真实值之间误差是很大的。要描述所有自然语言表示的文本，潜在的特征集会非常大，而用于机器学习的已知文本集(学习集)则相对较小。在相距较远的类型之间，由于它们使用的特征集很分散，会造成大量的稀疏数据。因此，在这种情况下得到的统计量是不可靠的，而且统计量越复杂，误差越大。在相近的类型之间，由于使用的特征相对集中，数据量能够达到一定规模。在这些类型之间得到的统计量具有较高的可靠性。
因此，我们将二元权重计算方法引入到基于VSM的线性分类器中，准确有效地对大部分相距很远的文本的自动分类。但是由于二元权重过于简单，丢失了特征的在文本中的大量信息，它对类型相似的文本分类准确率不高。针对这一固有缺陷，我们采用复杂的非二元权重对二元权重进行平滑(Smoothing)，以解决对类型相似的文本的分类。通过采用“非二元平滑的二元特征权重计算方法”，克服了基于VSM模型的线性分类器中存在的现有问题。在大规模数据上运行的结果显示，我们发明的文本自动分类方法显著地提高了分类准确率。
本发明的特征在于它是一种基于非二元平滑的二元特征权重计算的文本自动分类方法；它把二元权重计算方法引入到基于向量空间模型(Vector Space Model，VSM)的线性分类器，并结合复杂的非二元权重对二元权重进行平滑，以便一次性地对类型相似的文本进行自动分类；该分类方法在计算机内执行时依次含有以下步骤在学习阶段(1).输入学习文本集；(2).确定采用的特征单位以及线性分类器类型；(3).对学习集进行预处理；(4).特征抽取对学习集进行索引，得到原始特征集以及各学习文本的频度向量。某文本d的特征频度向量可表示为d＝(tf1，tf2，...，tfn)其中n为原始特征集包含的特征总数；tfi为第i个特征在文本d中的频度。
(5).对原始特征集采用现有的特征选择技术，如频度降维、Chi-Square权重降维，进行降维操作，得到特征集；(6).以类型为单位，合并各学习文本的频度向量，得到类型的轮廓描述(Profile)频度向量Cj＝(tf1j，tf2j，...，tfnj)其中tfij为第i个特征在类型Cj的所有学习文本中出现的频度和。
(7).根据步骤(6)的结果计算类型轮廓描述的二元权重向量，并按所确定的特征非二元权重计算方法，计算类型轮廓描述的非二元权重向量Cjb＝(w1jb，w2jb，...，wnjb)，Cjb＝(w1jb，w2jb，...，wnjb)，其中wijb为第i个特征在类型Cj中的二元权重；wijb为第i个特征在类型Cj中的非二元权重；(8).根据下式构建相应的线性分类器f=argmaxpj=1M(Cjb·db+k·Cjb&OverBar;·db&OverBar;),]]>其中M为类型总数；p为文本可能属于的类型数p＝1，为单类分类器；p＞1为多类分类器；k为可调系数，用于调整非二元权重的平滑能力；·为向量内积操作；db，db为待分类文本d的二元权重向量和非二元权重向量；(9).用一部分测试文本作为待分类文本，按照分类阶段的步骤对上一步骤得到的分类器进行测试，优化分类器的性能；(10).学习阶段结束；在分类阶段(1).输入待分类文本(集)；(2).按学习阶段相同的方法对待分类文本进行预处理；(3).根据学习阶段建立的特征集为待分类文本建立索引，得到文本频度向量，见学习阶段步骤(4)；(4).计算待分类文本的二元权重向量，并按所确定的非二元权重计算方法计算待分类文本的非二元权重向量db＝(w1b，w2b，...，wnb)，db＝(w1b，w2b，...，wnb)，其中db，db为某一待分类文本d的二元权重向量和非二元权重向量；wib，wjb为第i个特征在待分类文本d中的二元权重和非二元权重；(5).按分类器进行自动分类，见学习阶段步骤(8)，得到分类结果；(6).分类阶段结束。
所述的非二元权重计算方法是特征频度-逆文档频度(TF*IDF)权重计算方法或者TF*EXP*IG权重计算方法中的任何一种。
实验证明待分类文本的类型符合用户的判断，机器分类正确。
图2分类阶段程序流程框图。
具体实验方式本发明在一台PIII667MHz CPU，内存256M，硬盘40G的兼容计算机上，用Visual C++6.0程序语言实验。
在学习阶段，首先向机器提供经过专家分好类的大规模学习文本(学习集)，机器通过自动学习，构建分类器。程序流程图如

图1所示。
在分类阶段，对待分类文本(集)进行预处理，输入分类器进行自动分类，输出可能属于的类型(集)。程序流程图如图2所示。
下面结合附图，对本方法中提到的非二元权重计算公式进行说明TF*IDF权重公式wib＝log(tfi+1.0)×log(N/dfi)tfi为第i个特征在文本d中的频度；N为学习集中包含的文本数；dfi为学习集中含有该特征i的文本数。
TF*EXP*IG权重公式wib&OverBar;=log(tfi+1.0)×eh×σiμi×IGi]]>μi为特征频度在类型之间分布的均值；σi为特征频度在类型之间分布的方差；IGi为第i个特征在学习集中的信息增益；h为一个可调参数，根据学习集的情况确定，一般在0和1之间。在我们的系统中设为0.35。
实现如下学习文本集包含已经分好类的64533篇中文文本，属于财政税收金融价格、大气海洋水文科学、地理学、地质学、电影、数学、中国文学等55个类型。学习中采用“词”为特征单位，应用“华语词典”(由清华大学人工智能技术与系统国家重点实验室自然语言处理组研制)，采用正向最大匹配方法进行分词。分类器采用基于类质心的线性分类器(Centroid-BasedClassifier)，特征的非二元权重采用TF*IDF和TF*EXP*IG的权重计算方法。
学习阶段(1).对学习文本进行预处理；(2).特征抽取应用“华语词典”，采用正向最大匹配方法进行分词，得到49397个特征(词)，形成原始特征集；生成各学习文本的特征频度向量，形式如表1所示；(3).降维操作。可以选择Chi-Square权重降维，但这里假设选择所有特征，不降维；
(4).以类型为单位，合并各文本的特征频度向量，生成各类型的轮廓描述频度向量，形式如表1所示；(5).计算各类型的二元权重向量，形式如表2所示；(6).计算各类型的非二元权重向量(例如TF*IDF权重)，并规格化，形式如表4所示；(7).生成“基于类质心的线性分类器”，并确定参数k，p都为1；分类阶段例如，输入以下待分类文本阿拉伯非洲经济开发银行阿拉伯国家联盟同非洲非阿拉伯国家间的国际金融机构。根据1973年11月第六次阿拉伯联盟首脑会议决议于1974年9月成立，1975年开始营业。行址设在喀土穆。宗旨是促进阿拉伯国家同非洲非阿拉伯国家间的财政经济合作，鼓励阿拉伯国家向非洲非阿拉伯国家提供经济建设项目所需的资金援助。银行创建资本为2.31亿美元，由阿拉伯18个产油国自愿提供，其中沙特阿拉伯出资较多。1976年该行理事会特别会议决定该行与阿拉伯援助非洲特别基金合并。(何德旭)(1).对待分类文本进行预处理；(2).根据在学习阶段确定的特征集，对待分类文本进行索引，共包含68个特征(词)，在该文本中共出现99次。生成特征频度向量，结果如表1所示；表1待分类文本的频度向量

(3).计算待分类文本的二元权重向量，结果如表2所示；表2待分类文本的二元权重向量

(4).计算待分类文本的TF*IDF非二元权重向量，并进行Cosine规格化，结果如表3所示；表3待分类文本的TF-IDF非二元权重向量

(5).将表2，表3中待分类文本的二元权重向量和非二元权重向量输入在学习阶段生成的分类器中进行自动分类，并输出分类结果。
以“财政税收金融价格”类型为例，待分类文本中的68个特征在“财政税收金融价格”类型所包含的特征集中都出现，它们之间的二元权重内积等于68；表4列出了“财政税收金融价格”类型的非二元权重向量中68个相应元素的权重值；对表4和表5中的对应元素求内积，结果为0.071268。合计二元权重和非二元权重的内积和，则待分类文本在“财政税收金融价格”类型中的分类值为68.071268。同理可以计算其他54个类型的分类值。将这55个分类值按降序排列后，“财政税收金融价格”类型的分类值最大，因此待分类文本被分为“财政税收金融价格”类型。这一结果符合待分类文本的实际内容，机器分类正确。
表4“财政税收金融价格”类型的TF-IDF非二元权重向量中的部分元素值

为了检验我们发明的文本自动分类方法的分类效果，我们输入7141篇待分类文本，分类结果如下表所示表5不同权重计算方法在不同特征集上的分类准确率(％)。

由表5可以看出，我们发明的“基于非二元权重平滑的二元权重计算方法”在所有的特征集上都显著地提高了文本分类准确率。当特征集包含全部特征(49397个集征)时，分类准确率最高，达到95.0％，比只用TF*IDF非二元权重方法(75.1％)提高了19.9％，比只用TF*EXP*IG非二元权重方法(78.7％)提高了16.3％，比只用二元权重方法(89.7％)提高了5.3％。可以看出，二元权重计算方法只在特征集较大时才具有较好的分类效果，当特征集只包含10000个特征时，分类准确率很低，只有58.0％。而我们发明的“非二元权重平滑的二元权重计算方法”在所有特征集上都具有很高的分类准确率，而且用不同的非二元权重方法进行平滑的分类准确率大致相同。
权利要求
1.一种文本自动分类方法，其特征在于，它是一种基于非二元平滑的二元特征权重计算的文本自动分类方法；它把二元权重计算方法引入到基于向量空间模型(Vector Space Model，VSM)的线性分类器，并结合复杂的非二元权重对二元权重进行平滑，以便一次性地对所有文本进行自动分类；该分类方法在计算机内执行时依次含有以下步骤在学习阶段(1)输入学习文本集；(2)确定采用的特征单位以及线性分类器类型；(3)对学习集进行预处理；(4)特征抽取对学习集进行索引，得到原始特征集以及各学习文本的频度向量。某文本d的特征频度向量可表示为d＝(tf1，tf2，...，tfn)其中n为原始特征集包含的特征总数；tfi为第i个特征在文本d中的频度。(5)对原始特征集采用现有的特征选择技术，如频度降维、Chi-Square权重降维，进行降维操作，得到特征集；(6)以类型为单位，合并各学习文本的频度向量，得到类型的轮廓描述(Profile)频度向量Cj＝(tf1j，tf2j，...,tfnj)其中tfij为第i个特征在类型Cj的所有学习文本中出现的频度和。(7)根据步骤(6)的结果计算类型轮廓描述的二元权重向量，并按所确定的特征非二元权重计算方法，计算类型轮廓描述的非二元权重向量Cjb＝(w1jb，w2jb，...，wnjb)，Cjb＝(w1jb，w2jb，...，wnjb)，其中wijb为第i个特征在类型Cj中的二元权重；wijb为第i个特征在类型Cj中的非二元权重；(8)根据下式构建相应的线性分类器f=argmaxpj=1M(Cjb·db+k·Cjb&OverBar;·db&OverBar;),]]>其中M为类型总数；p为文本可能属于的类型数p＝1，为单类分类器；p＞1为多类分类器；k为可调系数，用于调整非二元权重的平滑能力；·为向量内积操作；db，db为待分类文本d的二元权重向量和非二元权重向量；(9)用一部分测试文本作为待分类文本，按照分类阶段的步骤对上一步骤得到的分类器进行测试，优化分类器的性能；(10)学习阶段结束；在分类阶段(1)输入待分类文本(集)；(2)按学习阶段相同的方法对待分类文本进行预处理；(3)根据学习阶段建立的特征集为待分类文本建立索引，得到文本频度向量，见学习阶段步骤(4)；(4)计算待分类文本的二元权重向量，并按所确定的非二元权重计算方法计算待分类文本的非二元权重向量db＝(w1b，w2b，...，wnb)，db＝(w1b，w2b，...，wnb)，其中db，db为某一待分类文本d的二元权重向量和非二元权重向量；wib，wib为第i个特征在待分类文本d中的二元权重和非二元权重；(5)按分类器进行自动分类，见学习阶段步骤(8)，得到分类结果；(6)分类阶段结束。
2.根据权利要求1所述的一种文本自动分类的方法，其特征在于所述的现有非二元权重计算方法是特征频度-逆文档频度(TF*IDF)权重计算方法或者TF*EXP*IG权重计算方法中的任何一种。
全文摘要
一种文本自动分类方法属于文本自动分类技术领域，其特征在于它把二元权重计算方法引入到基于向量空间模型(VSM)的线性分类器，并结合复杂的非二元权重对二元权重进行平滑，以便一次性地对所有文本进行自动分类；它在构建线性分类器时，用可调系数k来调整非二元权重的平滑能力。它的分类准确率比只用二元权重的或者只用非二元权重的都要高，它在不同数量的特征集上都具有很高的分类准确率，而且用不同的非二元权重方法进行平滑的分类准确率大致相同。
文档编号G06F17/30GK1438592SQ0312103
公开日2003年8月27日申请日期2003年3月21日优先权日2003年3月21日
发明者薛德军, 孙茂松申请人:清华大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薛德军;孙茂松
技术所有人：清华大学
我是此专利的发明人

上一篇：基于操作栈记录的恢复的Java线程迁移的方法
上一篇：自然结构数码防伪纸品及其制造与识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。