一种优化机器学习文本中词语分类的方法与流程

文档序号:12271617阅读:885来源:国知局

本发明涉及数据处理与机器学习分类领域,尤其是一种优化机器学习文本中词语分类的方法。



背景技术:

随着信息技术的快速发展,现代社会信息量呈爆炸式增长,在大数据时代的今天如何利用好海量数据、挖掘出真正有价值的信息成为一个社会关注热点。机器学习在数据挖掘中所发挥的作用越来越明显,而在对自然语言的处理与文本分类的问题上,机器学习通过采用统计学方法代替传统的规则定制方法来解决问题,通过实践证明这种做法效果不错且效率更高。在对文本分类的基础上,想要进一步对文本中各个词语、关键字进行分类,提取出所需的关键词语信息,这就对机器学习分类提出了更高的要求。



技术实现要素:

本发明解决的技术问题在于提供一种优化机器学习文本中词语分类的方法,解决当前文本分类中自定义关键词语的分类问题。

本发明解决上述技术问题的技术方案是:

所述的方法是在文本分类基础上,以正则表达式为基础的特征选择规则器过滤出自定义的与语义相关的特征,在特征选择后用户自定义训练数据中的分类类别,进而利用这些特征与类别根据朴素贝叶斯模型来进行分类训练;当完成训练后,在应用阶段时,需词语分类的文本中如果存在符合特征选择规则器的语句时,结合已经训练完成的模型完成分类。

所述的方法具体步骤为:

S1、训练集创建:根据实际需要创建符合要求的训练文本数据,结合真实环境完成训练集创建;

S2、数据预处理:当需分类的文本中涉及到中文时,需要对训练集中的文本进行分词及停用词去除等预处理;

S3、在特征选择规则器中,输入自定义的正则表达式作为过滤的条件,特征选择规则器根据正则表达式规则筛选出训练集中符合规则的文本,将文本中处于正则表达式通配符处的词语放入分词队列;

S4、根据特征选择规则器生成的特征向量模型,对照每个分词队列中词语是否满足各个特征所在的正则表达式,计算每个词语的向量的权值;

S5、根据每个词语的特征向量和训练集中用户已定义完成的分类结果,结合朴素贝叶斯分类器,计算出各个类条件概率和先验概率,继而完成对分类模型的训练;当完成模型训练后,利用预先准备的测试集对模型进行测试,测试结果与真实结果对比后形成对分类模型的性能评估,并提出可能的修改方案,对模型进行优化;

S6、使用完成训练的分类器来对实际需要词语分类的文本数据进行分类。

所述以特征选择规则器自定义的表达式中的一个通配符代表一个特征值,特征选择规则器在对输入的文本进行检查时,如果有满足表达式的语句,则将该语句提取出来并将通配符位置的词语或词语集作为需要分类的对象录入分类队列中;用户可自定义每个通配符所代表的特征值的意义。

用户在训练分类模型前对训练数据进行处理,首先自定义所需的分类项,整个文本中满足特征选择规则器的词语集大致可分为A、B、C三类,并对每个训练文本个体中将该个体最后的分类结果进行标注。

所述模型训练时,如某词语满足第一条正则规则,则该正则规则所代表的特征值记为1,否则记为0;

模型训练完成后,对测试结果进行分析;此时,特征权值综合词语位置、出现频率等因素作为考量指标进行计算。

本发明提供了一种利用正则表达精确匹配语义优化机器学习文本中词语分类的方法;可应用于机器学习范畴内文本词语的分类及其衍生功能的优化与相关应用中。

附图说明

下面附图对本发明进一步说明:

图1是本发明分类流程示意图;

具体实施方式

如图1所示,本发明在传统的机器学习文本分类方法的基础上,利用以正则表达式为基础的特征选择规则器,过滤出自定义的与语义相关的特征,在特征选择后用户自定义训练数据中的分类类别,进而利用这些特征与类别根据朴素贝叶斯模型来进行分类训练;当完成训练后,在应用阶段时,需词语分类的文本中如果存在符合特征选择规则器的语句时,结合已经训练完成的模型完成分类任务。

特征选择器基于正则表达式,在自定义的正则表达式中的一个通配符代表了一个特征值。如:“.*[xyz]+”中的“.”可以代表一个特定的特征,类似于:“满足该处正则规则的词语都是国家名称”或者“满足该处正则规则的词语都是与宗教相关”等。一个特征选择规则器可以包含一个或多个规则,这些规则组成了形成特征向量模型的基础。根据特征选择规则器选出文本中符合正则表达式的语句,这些语句中对应通配符所在的词语集合,就是将被分类的词语。当涉及到中文词语分类时,需要使用中文分词工具以及一些停用词处理流程来规范化分类队列中的词语。

根据这些词语是否满足特征选择规则器中指定的多条正则规则,建立其特征向量模型。特征向量模型中的维度数量,为正则规则中的特征数,表示为{特征1,特征2,...特征n},如某词语满足第一条正则规则,则该正则规则所代表的特征值记为1,否则记为0。由此可知任意需要分类的词语,其特征向量都可表示为类似于{1,0,0,1...}这样的形式。在获取到训练集中每个词语的特征向量后,根据朴素贝叶斯模型进行分类训练。

这里首先采用朴素贝叶斯定理假设各个特征之间相互独立,根据事先准备好的训练集,建立每个需要分类的词语的特征向量并人为定义其所属的分类类别。即用户需要在训练分类模型前对训练数据进行处理,自定义所需的分类项,如整个文本中满足特征选择规则器的词语集大致可分为A、B、C三类,则在每个训练文本中将需要分类的词语的分类结果人工标注得出。然后可以通过朴素贝叶斯模型训练得出每个特征的先验概率和后验概率,统称类条件概率,至此模型的训练完成。

在模型训练完成以后,需要对测试集中的数据进行测试。完成测试以后对测试结果进行分析,从而评估模型的性能,并尽可能在一定程度上进行模型的优化。如特征权值计算方式不再以0,1表示是否满足正则表达式,而是综合词语位置、出现频率等因素作为考量指标进行计算。

在实际分类任务中,特征选择规则器对输入的文本进行检查,如果有满足表达式的语句,则将该语句提取出来并将通配符位置的词语或词语集作为需要分类的对象录入分类队列中。当分类词语涉及到中文时,采用一般中文分词工具作为解决方案。完成分词后可根据需求,对停止词进行处理,然后将每个词语按照上述方式进行其特征向量建模,然后通过训练完毕的分类器模型完成分类工作。

按照以上描述方案的具体步骤可以如下:

S1、训练集创建:根据实际需要创建符合要求的训练文本数据,可结合真实环境完成训练集创建。训练集中的文本中,需要分类的词语都有人为分类后的结果。需要注意的是在创建训练集的时候,要针对某一种或者几种正则表达式规则进行创建,这些规则将会在特征选择规则器中被引用,用来生成对应的特征项。

S2、数据预处理:当需分类的文本中涉及到中文时,需要对训练集中的文本进行分词及停用词去除等预处理。中文分词可以利用当前常用的中文分词工具SCWS或者Jcseg等。停用词的处理比较简单,可以利用常规的停用词表作为依据,将文本中对应的词语去除。这里要注意的是,当特征选择规则器中的正则规则用到了某些停用词时,则不会去除该停用词。

S3、在特征选择规则器中,输入自定义的正则表达式作为过滤的条件,特征选择规则器会根据正则表达式规则筛选出训练集中符合规则的文本,将文本中处于正则表达式通配符处的词语放入分词队列。

S4、根据特征选择规则器生成的特征向量模型,对照每个分词队列中词语是否满足各个特征所在的正则表达式,计算每个词语的向量的权值。具体方法为:当词语所在文本满足特征选择规则器中正则表达式1时,该表达式对应的特征向量的权值设为1,否则设为0。从而得到每个词语的特征向量表示为类似于{1,0,0,1...}这样的形式。

S5、根据每个词语的特征向量和训练集中用户已定义完成的分类结果,结合朴素贝叶斯分类器,计算出各个类条件概率和先验概率,继而完成对分类模型的训练。当完成模型训练后,要利用预先准备的测试集对模型进行测试,测试结果与真实结果对比后形成对分类模型的性能评估,并提出可能的修改方案,对模型进行优化。

S6、使用完成训练的分类器来对实际需要词语分类的文本数据进行分类。这里需要注意的是,进行分类的文本必须要是能满足特征选择规则器中规则的,并且要分类的类别也与特征选择规则器中自定义类别一致,否则需要重新定义正则规则和分类项、重新训练模型,才能完成新的分类任务。

以上描述的实施案例只是本发明的一个实例而非全部,基于本发明中的实例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其他实例,都属于本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1