一种针对不同学科题目文本分类的方法

文档序号:9432652阅读:416来源:国知局
一种针对不同学科题目文本分类的方法
【技术领域】
[0001] 本发明设及数据预处理技术,尤其设及一种针对不同学科题目文本分类的方法。
【背景技术】
[0002] 随着网络上文本信息的爆炸式增长,对文本的处理需求越来越迫切,同时要求的 精度和准确性也越来越高,尤其是在文档分类和信息检索等领域,经常需要对大批量的文 档进行自动分类。
[0003] 目前的文本分类方法主要包含=个环节,即文本表示、特征提取和文本分类,一般 来说不同的文本分类方法主要区别在于如何表示文本。在文本表示方面,主要有基于词典 向量和基于深度学习两种文本分类法,前者直接将文本按照分词结果表示为向量,向量的 每个位表示在文档中有无该分词或者通过某种加权方法后得到的值,而后者一般通过深度 学习方法将词表示成向量,向量中每一位没有具体的意义,但整个向量可用来描述该词与 其他词之间的联系;在特征提取方面,除了常用的词频、逆向文档频率等指标,还有信息增 益W及卡方检验等统计学方法;在文本分类方面,常用的分类法如朴素贝叶斯、k邻近、支 持向量机W及神经网络等方法都可W用于文本分类。
[0004] 目前的文本分类方法在处理特征明显、类别间相互差异较大的文本时有较高的正 确率,但在处理有一定相似度的文本时效果会降低,W常见的初、高中九口学科的题目,即 数、语、外、物、化、生、政、史、地为例,其中理科与文科之间比较容易分类,但理科或者文科 内部的各科间都有一定的相似度。在基于词典向量的方法中,选择特征词时一般都会使用 统计学习方法,在统计时一般只考虑了词的信息,而词与词之间的关联则被忽略;而基于深 度学习的方法在把词表示成向量后,虽然向量中包含了词与词之间的关联信息,但在用词 向量表示整个文本时,由于不同文本的长度变化幅度大,难W找到统一的特征输入分类器, 在一些使用深度学习的方案中将文本长度固定,运样的做法不可避免会带来信息的丢失。

【发明内容】

[0005] 为了解决现有技术中的问题,本发明提供了一种针对不同学科题目文本分类的方 法。
[0006] 本发明是运样实现的,一种针对不同学科题目文本分类的方法,所述方法包括W 下步骤:
[0007]A、使用卡方检验对每口学科进行选词组成该学科的特征词表;
[000引B、利用朴素贝叶斯模型将选好的特征词进行学科分类;
[0009] C、利用支持向量机对朴素贝叶斯模型分类中给出的前两名概率最大的结果进行 二次分类给出第一名结果。
[0010] 本发明的进一步技术方案是:所述步骤A中还包括步骤:
[0011]A1、将选出的词按照该词与学科的关联性做排序。
[0012] 本发明的进一步技术方案是:所述步骤A中还包括步骤:
[0013] A2、利用词频表对组成的特征词进行词频过滤生成新的特征词表。
[0014] 本发明的进一步技术方案是:所述卡方检验是统计样本的实际值与理论值之间的 偏离程度,根据偏离程度大小确定理论值是否正确;其中偏差程度为:E为理 论值,Xi,X2,…义;,…X。为实际值。
[0015] 本发明的进一步技术方案是:所述步骤B中计算文档d属于某个类别。的概率为:
,其中P(d|Ci) =P(Wi|Ci)P(WzICi)…P(Wj|Ci) ????("" |Ci),m 为文档d分词的个数,P(w,ICi)就代表词汇w,属于类别C1的概率。
[001引本发明的进一步技术方案是:对于P(d|Ci) =P(Wi|Ci)P(W2|Ci) ????(>;忙)…P(Wm|Ci)式中P(Ci)和P(d)在同一文档中大小值一样。
[0017] 本发明的有益效果是:通过两次分类,使得分类平均正确率得到提高,本方法实现 简单、操作简单、使用方便准确,对学科间的分类更加准确,有效的提高了邻近学科之间分 类的正确率。
【附图说明】
[0018] 图1是本发明实施例提供的针对不同学科题目文本分类的方法的流程图。 图2是卡方检验选词流程图。
【具体实施方式】
[0019] 针对现有方法的不足,本方案设计了一个新的二次分类处理方法,在选择特征词 的基础上根据不同的阶段确定有效的分类策略。为了使词典中的特征词尽可能具有代表 性,本方案使用卡方检验选词。卡方检验是统计学中一种专口用于相关分析的假设检验方 法,其模型中包含了对相关文档频率的统计,比仅统计词频要更可靠,而且卡方检验是在 每个类别中得到一系列特征词,运比使用信息增益在总体上得到的特征词更有针对性。
[0020] 在使用卡方检验得到特征词后,文档就可W表示成由运些特征词组成的向量,接 下来要考虑如何进行分类。由于卡方检验得到的词表是经过相关性排序的,利用运一点,在 每个类别的特征词表中依次对每个词赋权值,然后在分类时,根据文档分词后的匹配情况, 对每一个类别都得到一个权值之和,最后W该和值大小来判断属于哪个类别。运种方法在 对特征词赋予权值时使用了自定义的模型来进行量化,得到的量化值与每个特征词的重要 性并不一定相符。本方案使用NBM进行分类,对卡方检验选出来的特征词,经过词频统计得 到先验概率,然后在分类时根据贝叶斯公式计算文档属于每个类别的概率。相比于自定义 模型,NBM有理论基础且应用广泛,而且其中先验概率的计算考虑了词在文档中重复出现的 个数,运在一定程度上弥补了卡方检验的不足之处,即仅考虑词在不同文档中出现次数。
[0021] 在上一节中提到,在文本分类中统计学习方法一般只考虑了单个词的信息,词与 词之间的关联往往被忽略,运个问题对于卡方检验和NBM来说都是存在的,再加上NBM需 要假设文档中出现的词与词之间相互独立,而运一点在实际中难W满足。为了尽可能弥补 运些缺陷,本方案在NBM基础上,添加了SVM进行二次分类。SVM是一种寻找最优分界面的 模型,其寻找最优界面的过程隐性地包含了寻找不同词之间的最佳组合,而且SVM并不要 求输入的特征之间满足任何相关性条件。综上,将SVM用于优化分类结果,是一种合适的选 择。
[0022] 图1示出了本发明提供的一种针对不同学科题目文本分类的方法的流程图,其详 述如下:
[0023] 步骤S1,使用卡方检验对每口学科进行选词组成该学科的特征词表;使用卡方检 验对每口学科进行选词,并且对选出的词按照该词与学科的关联性做一个排序,组成该学 科的特征词表。卡方检验基本思想是统计样本的实际值与理论值之间的偏离程度,根据偏 离程度大小确定理论值是否正确。设理论值为E,实际值为Xi,X2, ???Xi,…X。,偏差程度的 计算公式为:
,具体到文本分类中
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1