用于文本分类的方法

文档序号:10725120阅读:283来源:国知局
用于文本分类的方法
【专利摘要】本发明涉及一种用于文本分类的方法,所述方法包括:获取预先标注好类别的文本集合作为训练样本,对训练样本中的文本进行预处理,得到训练用特征词集合;提取特征词,获得特征词典;由特征词典生成训练样本中各文本的特征向量,并获取训练样本的特征向量集;利用特征向量集训练SVM分类器;对待分类的文本进行预处理,得到待分类文本的特征词集;根据特征词典生成待分类文本的特征向量;将该特征向量输入经过训练的SVM分类器,得到待分类文本的类别。
【专利说明】
用于文本分类的方法
技术领域
[0001] 本发明涉及数据分类技术领域,尤其涉及一种用于文本分类的方法。
【背景技术】
[0002] 文本信息是一种广泛存在于各个领域的数据,使用分类模型对文本进行分类有着 广阔的应用市场。文本分类时,特征提取的优劣对分类准确率有着极大的影响。如果将所有 词都作为特征词会造成两方面不利影响:1.特征维度过高并且稀疏;2 .很多词普遍存在于 各个类别,区分性不强,如果这些词作为特征,将会降低分类效果。因此,需要对文本进行特 征词的选择。考虑到各个领域的特征词并不一样,因此并无通用的特征词,常用方法是通过 领域专家进行特征词挑选。采用领域专家进行挑选的方法比较耗费人力,并且提取出来的 特征词依赖于领域专家的主观意愿,不同专家会得到不同的结果,这对后续的工作将产生 不利的影响。
[0003] 随着大数据的发展,机器学习得到了越来越多的应用。本发明提供了一种文本分 类方法,其中采用了基于机器学习进行特征自动提取的方法,该方法无需领域专家参与即 可快速完成对文本特征词的提取,并用提取出来的特征词构建特征向量,用于文本的分类。

【发明内容】

[0004] 鉴于上述的分析,本发明旨在提供一种文本分类方法,用以解决现有文本分类方 法,需要领域专家参与,易受到人为主观认识的影响,导致分类准确率不高的问题。
[0005] 为了实现本发明的目的,提出了一种用于文本分类的方法,包括以下步骤:
[0006] 步骤1.获取预先标注好类别的文本集合作为训练样本,该训练样本有n+1个类别, 其中1至η为有效类、第n+1类为无效类,η>1;
[0007] 步骤2.对训练样本中的文本进行预处理,得到训练用特征词集合;对该集合中有 效类的特征词进行提取,再结合无效类的全部特征词,得到特征词典;由特征词典生成训练 样本中各文本的特征向量,并获取训练样本的特征向量集;
[0008] 步骤3.利用特征向量集训练SVM分类器;
[0009] 步骤4.获取待分类的文本,对待分类的文本进行预处理,得到待分类文本的特征 词集;根据特征词典生成待分类文本的特征向量;将该特征向量输入经过训练的SVM分类 器,得到待分类文本类别。
[0010] 其中,步骤2和步骤4中的预处理,包括分词处理,具体步骤为:使用分词工具对文 本进行分词,获得文本词集;
[0011] 其中,对中文文本采用中文分词器;对英文文本,使用空格分词,且英文分词完成 后,使用词干提取的方式归一化时态和单复数。
[0012] 预处理还可以包括停用词、同义词处理,具体为:使用预先建立的停用词表处理分 词结果,剔除停用词;使用预先建立的同义词表替换同义词。
[0013] 步骤2中的特征词提取进一步包括步骤:
[0014] S21.计算特征词的TF-IDF值;其中TF-IDF值为TF X IDF,TF表示指定类中具体词的 词频,IDF是指反文档频率,IDF = log(D/n),式中η表示词出现的文档数,D为总文档数; [0015] S22.将特征词按对应的TF-IDF值从高到低进行排序;
[0016] S23 ·提取排序后的前N个特征词,1。
[0017]上述N的确定可以采用下述步骤:根据排序结果,依次用当前词的TF-IDF值减去下 一个词的TF-IDF值,记为当前值的差值,选取差值最大的词为选取点,即差值最大的词为第 N个词。
[0018] 步骤3中根据特征词典生成待分类文本的特征向量的步骤,进一步包括:将待分类 文本的特征词集与特征词典进行比较,根据以下规则对特征向量进行重新赋值,获得待分 类文本的特征向量;所述规则为:若特征词典中的词出现在待分类文本的特征词集中,则获 取该特征词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值;若特征词典中的 词没有出现在待分类文本的特征词集中,则该特征词相应位置的特征值为0。
[0019] 本发明有益效果如下:采用提取特征词、构建特征字典、训练分类器的方式,实现 了特征词的自动提取和文本的自动分类;通过以TF-IDF值之间的差值作为特征词选取依 据,能选取合适数量的特征词,降低特征词的维度,进而加快文本分类的速度。
[0020] 本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明 书、权利要求书、以及附图中所特别指出的结构来实现和获得。
【附图说明】
[0021] 附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图 中,相同的参考符号表不相同的部件。
[0022] 图1为文本分类方法的流程示意图;
[0023]图2为特征词提取的示意图。
【具体实施方式】
[0024]下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并 与本发明的实施例一起用于阐释本发明的原理。
[0025] 本发明的一个具体实施例,公开了一种针对快递评论的文本分类的方法,具体包 括如下步骤:
[0026] 随机获取网络中有关快递评论的数据作为文本集合,由多位工作人员对文本集合 中的各个快递评论标注类别,分别标记为很快、快、慢、很慢、无效这5个类别。统计标记结果 后,根据每条快递评论标记类别的多少,确定其最终类别。再按照训练样本:测试集=10 :1 的比例随机分割标注好的文本集合,得到标注好的训练样本和测试集。其中,无效类是指那 些不属于任何所需的类别(即与快递评价无关的文本集合),也可以作为拒绝类。无效类不 参与特征词提取的过程,仅作为分类时的类别,参与分类器的训练。
[0027] S1.获取上述标注好类别的训练样本,该训练样本有5个类别,其中1至4为有效类 (很快、快、慢、很慢)、第5类为无效类。
[0028] S2.对训练样本中的文本进行预处理,预处理包括分词、停用词和同义词处理,得 到训练用特征词集合,具体包括下述步骤:
[0029] S21.使用分词工具对训练样本中的每条文本进行分词,获得训练样本的文本词 集。如果文本是中文,则采用中文分词器;如果是英文,则使用空格进行分词,且在英文分词 完成后使用词干提取的方式归一化时态和单复数。
[0030] 具体地,可以米用ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System,汉语词法分析系统)和IK Analyzer(IK分词器)等分词工具作 为中文分词器。
[0031] S22.使用预先建立的停用词表对分词结果进行处理,剔除停用词,获取训练样本 中各个类别的原始特征词集合。
[0032] 其中,对分词结果进行的处理包括去除没有实际意义的字或者词,如"的、了、不 但、而且、虽然、但是"等,以及一些生僻字和特殊符号。
[0033] S23.使用预先建立的同义词表对原始特征词集合中的同义词进行替换,使得所有 同义词均用一个词来表示,得到训练用特征词集合。
[0034] S3.对训练用特征词集合中有效类的特征词进行特征选择,再结合无效类的全部 特征词,得到特征词典。特征词提取得过多,会造成特征维度过高,不利于分类器的训练,因 此核心问题就是提取合适数量的特征词。
[0035] 特征词提取具体包括如下步骤:
[0036] S31 ·对训练用特征词集合中的所有词计算TF_IDF(Term Frequency-Inverse Document Frequency,词频-逆文本率)值。
[0037]其中,TF-IDF值为TF X IDF,TF是指词频,表示指定类中具体词的词频;IDF是指反 文档频率,IDF=log(D/n),式中η表示该词出现的文档数,D为总文档数。TF值越高,表明该 词越能代表该类的特征;而IDF即log(D/n)越低,则说明该词普遍存在于各个文档,因此区 分能力较弱。综合TF和IDF的特点,本发明使用TFXIDF作为词的区分性指标,记为TF-IDF。 TF-IDF越大,排序越靠前,说明该词的类别区分性越强。
[0038] S32.将每一有效类中的词按对应的TF-IDF值从高到低进行排序,依次用当前词的 TF-IDF值减去下一个词的TF-IDF值,记为当前值的差值,选取差值最大的词为选取点,选取 该词前面(包括该词)的所有词为该有效类别的特征词,再结合无效类的全部特征词,得到 特征词典。由于每一个有效类中,经过步骤S31已经排好序,当前词的TF-IDF值肯定大于等 于下一个词的值,故差值大于等于0。差值越大则说明两个特征词之间的分类能力差别越 大,即前一个词的分类能力明显大于后面的词。因此,利用差值作为特征词选取依据,能选 取合适数量的特征词。
[0039] S4.由特征词典生成训练样本中文本的特征向量,并获取训练样本的特征向量集, 其中特征向量的值是TF-IDF值。
[0040] S5.利用特征向量集训练SVM分类器,得到经过训练的SVM分类器。
[0041] S6.获取待分类的文本,该文本可以是来源于互联网的快递评论。
[0042] S7.对待分类的文本进行预处理,得到待分类文本的特征词集;其中,预处理包括 分词、停用词和同义词处理,具体包括下述步骤
[0043] S71.使用分词工具对待分类文本进行分词,获得待分类文本的文本词集,其中分 词方法同步骤S21;
[0044] S72.使用停用词表对分词后得到的文本词集进行处理,剔除停用词,所述停用词 表与步骤S22中使用的相同。
[0045] S73.使用同义词表对停用词处理后的文本词集中的同义词进行替换,使得所有同 义词均用一个词来表示。所述同义词表与步骤S23中使用的相同。
[0046] S8.根据特征词典生成待分类文本的特征向量。具体地:将待分类文本的特征词集 与步骤S3中的特征词典进行比较,根据以下规则对S3中的特征向量进行重新赋值,获得待 分类文本的特征向量。若特征词典中的词出现在待分类文本的特征词集中,则获取该词在 训练样本中的TF-IDF值作为特征向量中相应位置的特征值;若特征词典中的词没有出现在 待分类文本的特征词集中,则该词相应位置的特征值为〇。由此生成待分类文本的特征向 量。
[0047] S9.将待分类文本的特征向量输入经过训练的SVM分类器,得到待分类文本的类 别。
[0048]本实施例将测试集作为待分类的文本集合,经过步骤S7-S9,预测测试集中文本的 类别。分类结果与人工选定关键词方法进行比对,比较结果如下:
[0050]实验结果表明,本发明所提出的特征提取方法在分类效果上优于人工挑选关键词 的方式,并且分类速度快,实现了自动分类,无需领域专家参与,不受专家主观认识的影响。 [0051]本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计 算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所 述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
[0052]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。
【主权项】
1. 一种用于文本分类的方法,其特征在于,包括以下步骤: 步骤1.获取预先标注好类别的文本集合作为训练样本,该训练样本有n+1个类别,其中 1至η为有效类、第n+1类为无效类,η>1; 步骤2.对训练样本中的文本进行预处理,得到训练用特征词集合;对该集合中有效类 的特征词进行提取,再结合无效类的全部特征词,得到特征词典;由特征词典生成训练样本 中各文本的特征向量,并获取训练样本的特征向量集; 步骤3.利用特征向量集训练SVM分类器; 步骤4.获取待分类的文本,对待分类的文本进行预处理,得到待分类文本的特征词集; 根据特征词典生成待分类文本的特征向量;将该特征向量输入经过训练的SVM分类器,得到 待分类文本的类别。2. 根据权利要求1所述的用于文本分类的方法,其特征在于,步骤2和步骤4中的预处 理,包括分:使用分词工具对文本进行分词,获得文本词集。3. 根据权利要求2所述的用于文本分类的方法,其特征在于,对中文文本采用中文分词 器;对英文文本,使用空格分词,且英文分词完成后,使用词干提取的方式归一化时态和单 复数。4. 根据权利要求2所述的用于文本分类的方法,其特征在于,步骤2和步骤4中的预处 理,还包括停用词、同义词处理,具体为: a. 使用预先建立的停用词表处理分词结果,剔除停用词; b. 使用预先建立的同义词表替换同义词。5. 根据权利要求1所述的用于文本分类的方法,其特征在于,步骤2中有效类的特征词 提取进一步包括:521. 计算特征词的TF-1DF值;其中TF-1DF值为TF X IDF,TF表示指定类中具体词的词 频,IDF是指反文档频率,IDF = log(D/n),式中η表示词出现的文档数,D为总文档数;522. 将特征词按对应的TF-IDF值从高到低进行排序;523. 提取排序后的前Ν个特征词,1。6. 根据权利要求5所述的用于文本分类的方法,其特征在于,步骤S23中Ν的确定步骤如 下:根据排序结果,依次用当前词的TF-IDF值减去下一个词的TF-IDF值,记为当前值的差 值,选取差值最大的词为选取点,即差值最大的词为第Ν个词。7. 根据权利要求1所述的用于文本分类的方法,其特征在于,步骤3中根据特征词典生 成待分类文本的特征向量的步骤,进一步包括:将待分类文本的特征词集与特征词典进行 比较,根据以下规则对特征向量进行重新赋值,获得待分类文本的特征向量,所述规则为: 若特征词典中的词出现在待分类文本的特征词集中,则获取该特征词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值;若特征词典中的词没有出现在待分类文本的特 征词集中,则该特征词相应位置的特征值为0。
【文档编号】G06F17/30GK106095996SQ201610457431
【公开日】2016年11月9日
【申请日】2016年6月22日
【发明人】李甫
【申请人】量子云未来(北京)信息科技有限公司, 无锡量子云数字新媒体科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1