一种文本分类校正方法及装置的制造方法_2

文档序号：9200374阅读：来源：国知局

征词提取处理，得到该文本集合包括的特征词语。
[0051] 步骤103、针对该文本集合包括的每一个特征词语，根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重，该权重与该比值正相关。
[0052] 步骤104、针对该文本集合中各类别包括的每一个文本，将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值。
[0053] 步骤105、从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本。
[0054] 步骤106、从该待校正文本在除其所属类别以外的其他类别中，将该待校正文本的分类校正值最大的类别，确定为该待校正文本的新的类别。
[0055] 本发明实施例提供的上述方法中，获取的各文本类别包括的文本为已经预先进行过分类的各文本类别包括的文本，这些文本可以为投诉文本。在文本集合中确定出待校正文本，即在已预先分类的各文本类别包括的文本中，确定预先分类中的分类错误的文本。
[0056] 下面结合附图，用具体实施例对本发明提供的方法及装置进行详细描述。
[0057] 实施例1 :
[0058] 图2为本发明实施例提供的文本分类校正方法的流程图，具体包括如下处理步骤：
[0059] 步骤201、获取各文本类别包括的文本，组成文本集合。
[0060] 本步骤中，各文本类别为已经预先进行分类的各文本类别，每一类别中包括的文本可以为多个文本，且各文本类别包括的文本数量可以不同。
[0061] 步骤202、对文本集合中的文本进行分词。
[0062] 步骤203、将分词后得到的词语与预设停用词表中的停用词进行匹配。
[0063] 其中，预设停用词表中保存的词语可以为预先设置的语气词、助词、副词等和已公布的停用词，例如：可以将助词"的"，语气词"呢"、"啊"等保存在预设停用词表中。
[0064] 步骤204、在分词后得到的词语中，删除匹配成功对应的词语，得到剩余的词语集。
[0065] 步骤205、统计文本集合中每一个词语的出现次数。
[0066] 上述步骤203-204与步骤205之间没有严格的先后顺序。
[0067] 步骤206、从剩余的词语集中，选择词语在文本集合中的出现次数在预设次数范围内对应的词语，作为该文本集合包括的特征词语。
[0068] 本步骤中，预设次数范围可以根据实际经验和需要进行灵活设置，例如，可以将词语在文本集合中的出现次数η最大的四分之三作为该预设次数范围的上限值a，如果文本集合中，词语"的"出现次数为1200次，为文本集合中出现次数最大的词语，那么，可以将 900作为该预设次数范围的上限值a，出现次数不小于900的词语可以作为高频词删除；可以将该预设次数范围的下限值b设为3,出现次数不大于3的词语可以作为低频次删除；将满足a〈n〈b的词语作为该文本集合包括的特征词语。
[0069] 上述步骤202-步骤206是对该文本集合中的文本进行特征词提取处理的过程，在对该文本集合中的文本进行特征词提取处理时，还可以采用如下方式：对文本集合中的文本进行分词，将分词后得到的所有词语作为该文本集合包括的特征词语。
[0070] 步骤207、针对该文本集合包括的每一个特征词语，根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重，该权重与该比值正相关。
[0071] 本步骤中，针对该文本集合包括的每一个特征词语Wp可以根据该特征词语在类别Ci包括的文本中出现的次数IIi (Wj)和该文本集合中包含该特征词语Wj的类别数量N (Wj) 的比值Iii (Wj) /N (Wj)，确定该特征词语在该类别Ci中的权重aij，并且aij与Ii i (Wj) /N (Wj)正相关，例如，可以确定=ItihWjv^。如果特征词语Wj不在类别C i中。
[0072] 步骤208、针对该文本集合中各类别包括的每一个文本，将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值。
[0073] 步骤209、从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本。
[0074] 其中，预设校正阈值可以根据实际经验和需要进行灵活设置，例如，可以将类别Ci中的每一个文本的分类校正值按从小到大进行排序，可以取排在预设百分比位置对应的分类校正值作为类别Ci的预设校正阈值，例如，可以取2. 5%位置对应的分类校正值为该类别 Ci的预设校正阈值。
[0075] 步骤210、针对每一个待校正文本，确定该待校正文本在除其所属类别以外的其他类别中的分类校正值。
[0076] 本步骤中，可以采用上述步骤208相同的方式确定待校正文本在除其所属类别以外的其他类别中的分类校正值，在此不再进行详细描述。
[0077] 步骤211、从该待校正文本在除其所属类别以外的其他类别中，将该待校正文本的分类校正值最大的类别，确定为该待校正文本的新的类别。
[0078] 进一步的，针对预先进行过分类的文本之外的待分类文本，还可以采用如下步骤 212-213对待分类文本进行分类：
[0079] 步骤212、确定该待分类文本在各类别中的分类校正值。
[0080] 本步骤中，可以采用上述步骤208相同的方式确定该待分类文本在各类别中的分类校正值，在此不再进行详细描述。
[0081] 步骤213、将该待分类文本划分到该待分类文本的分类校正值最大的类别中。
[0082] 通过本发明上述实施例1提供的方法，由于通过各类别的每个文本包括的特征词语与各特征词语在该文本中对应的权值的乘积和确定的该文本的分类校正值，能够表征该文本与该文本所在类别的相关程度，因此可以通过分类校正值识别已经分类文本中的错误分类文本，对分类错误的文本进行校正，从而重新划分到相关程度最大的类别中，进而能够提高分类文本的准确性。
[0083] 实施例2 :
[0084] 基于同一发明构思，根据本发明上述实施例提供的文本分类校正方法，相应地，本发明另一实施例还提供了一种文本分类校正装置，其结构示意图如图3所示，具体包括：
[0085] 获取单元301，用于获取各文本类别包括的文本，组成文本集合；
[0086] 处理单元302,用于对所述文本集合中的文本进行特征词提取处理，得到所述文本集合包括的特征词语；
[0087] 第一确定单元303,用于针对所述文本集合包括的每一个特征词语，根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重，该权重与该比值正相关；
[0088] 第二确定单元304,用于针对所述文本集合中各类别包括的每一个文本，将该文本包括的各特征词语与各特征词语在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值；
[0089] 选择单元305,用于从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本；
[0090] 第三确定单元306,用于从所述待校正文本在除其所属类别以外的其他类别中，将所述待校正文本的分类校正值最大的类别，确定为所述待校正文本的新的类别。
[0091] 进一步的，处理单元302,具体用于对所述文本集合中的文本进行分词，将分词后得到的所有词语作为所述文本集合包括的特征词语。
[0092] 进一步的，处理单元302,具体用于对所述文本集合中的文本进行分词；从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语，作为所述文本集合包括的特征词语。
[0093] 进一步的，处理单元302,还用于在从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前，将分词后得到的词语与预设停用词表中的停用词进行匹配；在分词后得到的词语中，删除匹配成功对应的词语，得到剩余的词语集；从剩余的词语集中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。
[0094] 进一步的，上述装置，还

完整全部详细技术资料下载

当前第2页1 2 3