语料分类方法、装置及终端与流程

文档序号:12124728阅读:来源:国知局

技术特征:

1.一种语料分类方法,其特征在于,包括:

对训练语料和待分类语料进行分词;

在所述训练语料分词后的结果中提取各个类别的特征词;

根据所述各个类别的特征词和所述训练语料训练分类器,以确定所述分类器中的概率阈值;

利用训练完成后的所述分类器对所述待分类语料进行分类,以得到分类结果。

2.根据权利要求1所述的语料分类方法,其特征在于,所述利用训练完成后的所述分类器对所述待分类语料进行分类包括:

根据所述各个类别的特征词计算所述待分类语料被划分为所述各个类别的概率;

根据所述概率和所述概率阈值将所述待分类语料划分为所述各个类别或所述各个类别之外的其他类别,以作为所述分类结果。

3.根据权利要求2所述的语料分类方法,其特征在于,所述根据所述概率和所述概率阈值将所述待分类语料划分为所述各个类别以及所述各个类别之外的其他类别包括:

如果所述待分类语料被划分为所述各个类别的概率的最大值达到所述概率阈值,则将所述待分类语料划分为所述概率的最大值对应的类别;

如果所述待分类语料被划分为所述各个类别的概率的最大值未达到所述概率阈值,则将所述待分类语料划分为所述其他类别。

4.根据权利要求1所述的语料分类方法,其特征在于,所述在所述训练语料分词后的结果中提取各个类别的特征词之后且在训练分类器之前还包括:

对所述特征词进行过滤,以使得所述各个类别之间的特征词不重复。

5.根据权利要求1所述的语料分类方法,其特征在于,利用朴素贝叶斯分类算法构建所述分类器。

6.根据权利要求1所述的语料分类方法,其特征在于,还包括:

对所述分类结果进行审核,得到分类准确率;

当所述分类准确率小于设定阈值时,重新训练所述分类器,得到新的分类器,直至采用所述新的分类器得到的所述分类准确率大于或等于设定阈值;

后续采用所述新的分类器进行分类。

7.根据权利要求1所述的语料分类方法,其特征在于,还包括:

在进行所述分词之前,对所述待分类语料进行预处理。

8.根据权利要求7所述的语料分类方法,其特征在于,所述对所述待分类语料进行预处理包括:

将所述待分类语料转换为文本格式,得到文本数据;

对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、

敏感词和停用词。

9.根据权利要求7所述的语料分类方法,其特征在于,所述对所述待分类语料进行预处理之后且在进行分词之前还包括:

对所述待分类语料和所述训练语料进行新词发现处理,并将发现的新词加入分词词典;所述对待分类语料和所述训练语料进行分词包括采用所述分词词典进行分词。

10.根据权利要求1所述的语料分类方法,其特征在于,所述在所述训练语料分词后的结果中提取各个类别的特征词之前还包括:

基于预设同义词库对所述训练语料和所述待分类语料进行同义词的替换处理。

11.根据权利要求1至10任一项所述的语料分类方法,其特征在于,采用以下方式提取各个类别的特征词:

信息增益、卡方检验或/和信息熵。

12.根据权利要求1至10任一项所述的语料分类方法,其特征在于,所述待分类语料为问答日志中的用户问题日志数据。

13.一种语料分类装置,其特征在于,包括:

分词单元,适于对训练语料和待分类语料进行分词;

特征词提取单元,适于在所述训练语料分词后的结果中提取各个类别的特征词;

概率阈值确定单元,适于根据所述各个类别的特征词和所述训练语料训练分类器,以确定所述分类器中的概率阈值;

分类单元,适于利用训练完成后的所述分类器对所述待分类语料进行分类,以得到分类结果。

14.根据权利要求13所述的语料分类装置,其特征在于,所述分类单元包括:

概率计算子单元,适于根据所述各个类别的特征词计算所述待分类语料被划分为所述各个类别的概率;

划分子单元,适于根据所述概率和所述概率阈值将所述待分类语料划分为所述各个类别或所述各个类别之外的其他类别,以作为所述分类结果。

15.根据权利要求14所述的语料分类装置,其特征在于,所述划分子单元在所述待分类语料被划分为所述各个类别的概率的最大值达到所述概率阈值时,将所述待分类语料划分为所述概率的最大值对应的类别;

或,在所述待分类语料被划分为所述各个类别的概率的最大值未达到所述概率阈值时,将所述待分类语料划分为所述其他类别。

16.根据权利要求13所述的语料分类装置,其特征在于,还包括:

过滤单元,适于对所述特征词进行过滤,以使得所述各个类别之间的特征词不重复。

17.根据权利要求13所述的语料分类装置,其特征在于,所述概率阈值确定单元利用朴素贝叶斯分类算法构建所述分类器。

18.根据权利要求13所述的语料分类装置,其特征在于,还包括:

审核单元,适于对所述分类结果进行审核,得到分类准确率;

调整单元,适于在所述分类准确率小于设定阈值时,重新训练所述分类器,得到新的分类器,直至采用所述新的分类器得到的所述分类准确率大于或等于设定阈值;所述分类单元后续采用所述新的分类器进行分类。

19.根据权利要求13所述的语料分类装置,其特征在于,还包括:

预处理单元,适于对所述待分类语料进行预处理。

20.根据权利要求19所述的语料分类装置,其特征在于,所述预处理单元包括:

转换子单元,适于将所述待分类语料转换为文本格式,得到文本数据;

过滤子单元,适于对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词。

21.根据权利要求19所述的语料分类装置,其特征在于,还包括:

新词发现单元,适于对所述待分类语料和所述训练语料进行新词发现处理,并将发现的新词加入分词词典;所述分词单元采用所述分词词典进行分词。

22.根据权利要求19所述的语料分类装置,其特征在于,还包括:

同义词替换单元,适于基于预设同义词库对所述训练语料和所述待分类语料进行同义词的替换处理。

23.根据权利要求13至22任一项所述的语料分类装置,其特征在于,所述特征词提取单元采用以下方式提取各个类别的特征词:

信息增益、卡方检验或/和信息熵。

24.根据权利要求13至22任一项所述的语料分类装置,其特征在于,所述待分类语料为问答日志中的用户问题日志数据。

25.一种终端,其特征在于,包括如权利要求13至24任一项所述的语料分类装置。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1