一种文本分类校正方法及装置的制造方法

文档序号：9200374阅读：340来源：国知局

一种文本分类校正方法及装置的制造方法
【技术领域】
[0001] 本发明涉及文本挖掘技术领域，尤其涉及一种文本分类校正方法及装置。
【背景技术】
[0002] 文本分类是对文本按照一定的分类体系或标准进行分类，将文本划分到预先给定的类别中。目前，在进行文本分类时，需要确定各种类别的特点，选取一定数量的文本作为训练样本，通过对训练样本进行训练构建分类模型，采用训练好的分类模型对待分类文本进行分类。
[0003] 在通过对训练样本进行训练并构建分类模型时，需要大量的训练样本集，并且要求训练样本集相对待分类文本具有较好的代表性，即训练样本集足够准确，然而，在文本分类的实际需求中，制作准确的样本集非常困难，造成很多情况下文本分类仍然依赖于人工进行分类，使得对待分类文本分类出现错误，因此，为了提高文本分类的准确性，需要对分类结果进行校正，到目前为止，还没有对文本分类结果进行校正的方案。

【发明内容】

[0004] 本发明实施例提供一种文本分类校正方法及装置，用以解决现有技术中存在的文本分类不准确的问题。
[0005] 本发明实施例提供一种文本分类校正方法，包括：
[0006] 获取各文本类别包括的文本，组成文本集合；
[0007] 对所述文本集合中的文本进行特征词提取处理，得到所述文本集合包括的特征词语；
[0008] 针对所述文本集合包括的每一个特征词语，根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重，该权重与该比值正相关；
[0009] 针对所述文本集合中各类别包括的每一个文本，将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值；
[0010] 从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本；
[0011] 从所述待校正文本在除其所属类别以外的其他类别中，将所述待校正文本的分类校正值最大的类别，确定为所述待校正文本的新的类别。
[0012] 采用上述实施例提供的方法，由于通过各类别的每个文本包括的特征词语与各特征词语在该文本中对应的权值的乘积和确定的该文本的分类校正值，能够表征该文本与该文本所在类别的相关程度，因此可以通过分类校正值识别已经分类文本中的错误分类文本，对分类错误的文本进行校正，从而重新划分到相关程度最大的类别中，进而能够提高文本分类的准确性。
[0013] 进一步的，对所述文本集合中的文本进行特征词提取处理，得到所述文本集合包括的特征词语,具体包括：
[0014] 对所述文本集合中的文本进行分词，将分词后得到的所有词语作为所述文本集合包括的特征词语。
[0015] 进一步的，对所述文本集合中的文本进行特征词提取处理，得到所述文本集合包括的特征词语,具体包括：
[0016] 对所述文本集合中的文本进行分词；
[0017] 从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语，作为所述文本集合包括的特征词语。
[0018] 在从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前，还包括：
[0019] 将分词后得到的词语与预设停用词表中的停用词进行匹配；
[0020] 在分词后得到的词语中，删除匹配成功对应的词语，得到剩余的词语集；
[0021] 从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语，具体包括：
[0022] 从剩余的词语集中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。
[0023] 进一步的,上述方法,还包括：
[0024] 当有未分类的文本需要分类时，确定待分类文本在各类别中的分类校正值；
[0025] 将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。
[0026] 这样，通过确定待分类文本在各类别中的分类校正值，还可以实现对未分类的文本进行分类。
[0027] 本发明实施例还提供了一种文本分类校正装置，包括：
[0028] 获取单元，用于获取各文本类别包括的文本，组成文本集合；
[0029] 处理单元，用于对所述文本集合中的文本进行特征词提取处理，得到所述文本集合包括的特征词语；
[0030] 第一确定单元，用于针对所述文本集合包括的每一个特征词语，根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重，该权重与该比值正相关；
[0031] 第二确定单元，用于针对所述文本集合中各类别包括的每一个文本，将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值；
[0032] 选择单元，用于从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本；
[0033] 第三确定单元，用于从所述待校正文本在除其所属类别以外的其他类别中，将所述待校正文本的分类校正值最大的类别，确定为所述待校正文本的新的类别。
[0034] 采用上述实施例提供的装置，由于通过各类别的每个文本包括的特征词语与各特征词语在该文本中对应的权值的乘积和确定的该文本的分类校正值，能够表征该文本与该文本所在类别的相关程度，因此可以通过分类校正值识别已经分类文本中的错误分类文本，对分类错误的文本进行校正，从而重新划分到相关程度最大的类别中，进而能够提高文本分类的准确性。
[0035] 进一步的，所述处理单元，具体用于对所述文本集合中的文本进行分词，将分词后得到的所有词语作为所述文本集合包括的特征词语。
[0036] 进一步的，所述处理单元，具体用于对所述文本集合中的文本进行分词；从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语，作为所述文本集合包括的特征词语。
[0037] 进一步的，所述处理单元，还用于在从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前，将分词后得到的词语与预设停用词表中的停用词进行匹配；在分词后得到的词语中，删除匹配成功对应的词语，得到剩余的词语集；从剩余的词语集中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。
[0038] 进一步的，上述装置，还包括：
[0039] 第四确定单元，用于当有未分类的文本需要分类时，确定待分类文本在各类别中的分类校正值；
[0040] 划分单元，用于将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。
[0041] 这样，通过确定待分类文本在各类别中的分类校正值，还可以实现对未分类的文本进行分类。
[0042] 本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
【附图说明】
[0043] 附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：
[0044] 图1为本发明实施例提供的文本分类校正方法的流程图；
[0045] 图2为本发明实施例1提供的文本分类校正方法的流程图；
[0046] 图3为本发明实施例2提供的文本分类校正装置的结构示意图。
【具体实施方式】
[0047] 为了给出提高文本分类的准确性的实现方案，本发明实施例提供了一种文本分类校正方法及装置，以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。
[0048] 本发明实施例提供一种文本分类校正方法，如图1所示，包括：
[0049] 步骤101、获取各文本类别包括的文本，组成文本集合。
[0050] 步骤102、对该文本集合中的文本进行特

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：夏文菁;王志卿;
技术所有人：中国移动通信集团上海有限公司;
我是此专利的发明人

上一篇：页面资源管理方法及装置的制造方法
上一篇：一种用户分类方法、装置及服务器的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。