一种基于卡方统计和smo算法的文本分类方法

文档序号:6547659阅读:295来源:国知局
一种基于卡方统计和smo算法的文本分类方法
【专利摘要】本发明公开了一种基于卡方统计量和SMO算法的文本分类方法:其步骤:首先对训练文本进行分词、去除停用词、预处理操作,再以卡方统计量为标准遴选出设定数量单词作为特征词;然后,分别计算上述训练文本和测试文本的特征权重值;将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型;将训练后的分类器对测试文本的特征向量进行分类,得到每条测试文本的分类结果。该方法能够克服将所有词作为特征导致文本分类的特征多、噪声多的缺陷,并能提高文本的分类精度和效率。
【专利说明】一种基于卡方统计和SMO算法的文本分类方法
【技术领域】
[0001]本发明涉及自然语言计算机自动处理【技术领域】,特别涉及一种基于卡方统计和SMO算法的文本分类方法。
【背景技术】
[0002]近年来,随着互联网技术的飞速发展和普及,网络上的电子资源信息急剧增加,面对如此大量的数据信息,如何有效地组织和管理这些海量信息,并从中快速、准确地获得自己所需要的、真正感兴趣的信息已成为当前的一大难题。在网络信息中,大多数以文本的形式来保存,因而文本数据的挖掘具有很高的潜在价值。文本分类技术作为一种典型的文本挖掘技术,能够组织和处理大量文本信息,有助于信息检索与分析,方便用户快速、准确地定位所需要的信息。
[0003]文本分类是指计算机对文本集按照一定的分类体系或标准进行自动分类标记(中国专利文献名称为“基于修正的K近邻文本分类方法”,专利号为201010601777.5),文本自动分类研究始于20世纪50年代末,美国IBM公司的H.P.Luhn在这一领域进行了开创性的研究。20世纪60年代至80年代末,文本分类系统以知识工程的方法为主,知识工程技术即根据领域专家对给定文本集合的分类经验,人工提取出一组逻辑规则,作为计算机文本分类的依据,然后分析这些系统的技术特点和性能,即利用专家规则来进行分类;到了 90年代以后,统计方法和机器学习的方法被引入到文本自动分类中,取代了知识工程的方法,其中,机器学习算法,该方法中提取有效的特征向量,得到一个好的学习效果,因此提取有效的特征向量以及避免噪音特征的干扰是提高机器支持向量机学习效果的重要途径。卡耐基梅隆大学 Yiming Yang 1997 年于 ICML 会议上发表的《A Comparative Study on FeatureSelection in Text Categorization》报道基于向量空间模型的支持向量机方法效果最好。有效的特征向量的建立最常用的方法是TF-1DF (TF:Term Frequency, IDF:1nverseDocument Frequency)方法。传统的向量空间模型在文本分类中已经得到比较多的应用,特征向量通过向量空间模型(Vector Space Model, VSM)表示,该模型表示文本文件的代数模型,模型的向量中,每一维都相当于是一个独立的词组。如果独立的词组出现在了文档中,则该向量中的值为非零。SMO算法(Sequential minimal optimization,缩写为SM0)由Microsoft Research的John C.Platt在1998年提出。为节省存储空间和提高搜索效率,在自然语言计算机自动处理文本之前或之后,会自动过滤掉停用词,为防止停用词与安全口令发生混淆,将停用词形成一个停用词表。但是,并没有一个统一的停用词表能够适用于所有的自然语言处理工具。对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类:
一类是人类语言中包含的功能词,功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如’ the’、’ is’、’ at’、’ which’、’ on’,对于搜索引擎来说,当所要搜索的短语包含功能词,例如’ The Who’、’ The The’或’ Take The’复合名词,该复合名词中包含停用词,使用就会发生混淆。[0004]另一类词包括词汇词,比如词汇词’ want’,这些词汇应用十分广泛,对这些词的搜索引擎无法得到精确的搜索结果,难以缩小文本的搜索范围,降低词汇的搜索效率,通常会把上述诸如此类的词汇移去,提高搜索效率。
综上所述,目前机器学习方法,在的提取学习特征时,常常将所有词作为特征,其特征多,且包含很多噪音,导致文本分类的效果较差。,通常,采用的最近邻分类方法(KNN)对文本进行分类,该分类方法对特征多、含很多噪音所有分类样本分类时,所有用时间较长,分类效率不高。

【发明内容】

[0005]本发明的主要目的在于针对已有技术存在的不足,提供一种基于卡方统计和SMO算法的文本分类方法,该方法能够克服将所有词作为特征导致文本分类的特征多、噪声多的缺陷,并能提高文本的分类精度和效率。
[0006]为达到上述目的,本发明的构思如下:首先对训练文本进行分词、去除停用词、预处理操作,再以卡方统计量为标准遴选出设定数量单词作为特征词;然后,分别计算上述训练文本和测试文本的特征权重值;将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型;将训练后的分类器对测试文本的特征向量进行分类,得到每条测试文本的分类结果。
[0007]根据上述发明构思,本发明采用下述技术方案:
一种基于卡方统计和SMO算法的文本分类方法,其步骤如下:
(1),收集互联网文本,将文本分为训练文本和测试文本:从互联网收集文本,对每条文本进行类别标签,将已进行类别标签的文本为训练文本,将已进行类别标签的文本为待分类的文本,待分类的文本作为测试文本;
(2),对训练文本进行预处理,得到训练文本词汇表:对训练文本进行分词、去除停用词、过滤文本乱码,得到训练文本词汇表;
(3),计算各个单词对应的训练文本词汇表卡方统计量,得到训练文本特征词表:计算训练文本词汇表中的每个单词关于各类别的卡方统计量,取该单词在各个类别中最大的卡方统计量作为该单词的权重,然后,将各个单词按照其权重由大到小的顺序排列,选取其中一定数量的权重最大的单词,由权重最大所对应的单词构成训练文本特征词表;
(4),分别计算上述训练文本和测试文本的特征权重值:分别计算上述训练文本和测试文本中各个单词的TF-1DF特征权重值,将各个单词及各个存在于特征词表中的单词的TF-1DF特征权重值组成训练文本的特征向量和测试文本的特征向量,由各个训练文本的特征向量组成训练文本特征向量表,由各个测试文本的特征向量共同组成测试文本特征向量表;
(5),将特征向量表转换为文档向量模型:将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型,
所述的文档向量模型表示训练文本特征向量写入文件作为训练文件,
所述的文档向量模型表示测试文本特征向量写入文件作为测试文件;
(6),加载训练文件分类器,对测试文件进行分类:加载上述训练文件训练SMO分类器,再加上述载测试文件,将训练后的分类器对测试文本的特征向量进行分类,得到每条测试文本的分类结果。
[0008]上述步骤(3)所述的计算各个单词对应的训练文本词汇表卡方统计量,其计算式为:
【权利要求】
1.一种基于卡方统计量和SMO算法的文本分类方法,其特征在于, 首先对训练文本进行分词、去除停用词、预处理操作,再以卡方统计量为标准遴选出设定数量单词作为特征词;然后,分别计算上述训练文本和测试文本的特征权重值;将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型;将训练后的分类器对测试文本的特征向量进行分类,得到每条测试文本的分类结果,其具体步骤如下: (1),收集互联网文本,将文本分为训练文本和测试文本:从互联网收集文本,对每条文本进行类别标签,将已进行类别标签的文本为训练文本,将已进行类别标签的文本为待分类的文本,待分类的文本作为测试文本; (2),对训练文本进行预处理,得到训练文本词汇表:对训练文本进行分词、去除停用词、过滤文本乱码,得到训练文本词汇表; (3),计算各个单词对应的训练文本词汇表卡方统计量,得到训练文本特征词表:计算训练文本词汇表中的每个单词关于各类别的卡方统计量,取该单词在各个类别中最大的卡方统计量作为该单词的权重,然后,将各个单词按照其权重由大到小的顺序排列,选取其中一定数量的权重最大的单词,由权重最大所对应的单词构成训练文本特征词表; (4),分别计算上述训练文本和测试文本的特征权重值:分别计算上述训练文本和测试文本中各个单词的TF-1DF特征权重值,将各个单词及各个存在于特征词表中的单词的TF-1DF特征权重值组 成训练文本的特征向量和测试文本的特征向量,由各个训练文本的特征向量组成训练文本特征向量表,由各个测试文本的特征向量共同组成测试文本特征向量表; (5),将特征向量表转换为文档向量模型:将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型,所述的文档向量模型表示训练文本特征向量写入文件作为训练文件,所述的文档向量模型表示测试文本特征向量写入文件作为测试文件; (6),加载训练文件分类器,对测试文件进行分类:加载上述训练文件训练SMO分类器,再加上述载测试文件,将训练后的分类器对测试文本的特征向量进行分类,得到每条测试文本的分类结果。
2.根据权利要求1所述的一种基于卡方统计和SMO算法的文本分类方法,其特征在于,上述步骤(3)所述的计算各个单词对应的训练文本词汇表卡方统计量,其计算式为:
3.根据权利要求2所述的一种基于卡方统计和SMO算法的文本分类方法,其特征在于,上述步骤(4)所述的计算上述训练文本和测试文本的特征权重值,其计算式为:
4.根据权利要求3所述的一种基于卡方统计和SMO算法的文本分类方法,其特征在于,上述步骤(5)所述的将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型,其转换表达式为:
【文档编号】G06F17/27GK103995876SQ201410225565
【公开日】2014年8月20日 申请日期:2014年5月26日 优先权日:2014年5月26日
【发明者】武星, 裴孟齐 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1