一种信息分类方法及装置与流程

文档序号:12468814阅读:来源:国知局

技术特征:

1.一种信息分类方法,其特征在于,包括:

获取多个样例特征标签,并获取每个样例特征标签与待分类的主题类别之间的关系;

对多个待分类句子进行分词处理,得到待处理词语集合;

对待处理词语进行同类词替换处理,得到更新后词语集合;

根据所述更新后词语集合中各待分类句子包含的第一词语组合出现的频次,生成待分类特征标签;

计算所述待分类特征标签与多个所述样例特征标签的最大语义相似度,当所述最大语义相似度大于或等于预设的相似度阈值时,则最大语义相似度对应的样例特征标签作为所述待分类特征标签的目标特征标签;

将所述待分类特征标签对应的待分类句子标注为所述目标特征标签对应的主题类别。

2.根据权利要求1所述的信息分类方法,其特征在于,所述第一词语组合的生成过程,包括:将所述更新后词语集合中每个待分类句子对应的全部词语的组合作为一个第一词语组合。

3.根据权利要求1所述的信息分类方法,其特征在于,所述同类词替换处理包括将待处理词语替换为与其同义或同类的目标词语。

4.根据权利要求1所述的信息分类方法,其特征在于,同类词替换处理前,还包括:将所述样例特征标签中与所述待处理词语同类或同义的词作为目标词语。

5.根据权利要求1所述的信息分类方法,其特征在于,生成待分类特征标签的过程,包括:若所述更新后词语集合中有第一词语组合出现的频次大于或等于预设的频次阈值,则将该第一词语组合作为待分类特征标签。

6.根据权利要求1所述的信息分类方法,其特征在于,若所述更新后词语集合中有第一词语组合出现的频次小于或等于预设第一频次阈值,则针对该第一词语组合对应的每个待分类句子生成各自的所述待分类特征标签。

7.根据权利要求1所述的信息分类方法,其特征在于,计算所述待分类特征标签与多个所述样例特征标签的最大语义相似度,包括:

将所述待分类特征标签对应的第一词语组合与所述样例特征标签对应的第二词语组合进行匹配,得到匹配词语;

根据所述待分类特征标签与匹配词语的预设语义权重值加和,分别生成所述待分类特征标签与各样例特征标签的语义相似度值;

将所述待分类特征标签与各样例特征标签的语义相似度值中的最大值作为得到最大语义相似度。

8.根据权利要求7所述的信息分类方法,其特征在于,生成与各样例特征标签的语义相似度值之前,还包括:将业务名词和/或商品名词的语义权重值设置为大于或等于所述预设的相似度阈值。

9.根据权利要求1所述的信息分类方法,其特征在于,还包括,若所述最大语义相似度小于或等于所述预设的相似度阈值,则将所述待分类特征标签对应的待分类句子标注为缺省主题类别。

10.根据权利要求1所述的信息分类方法,其特征在于,所述生成待分类特征标签之前,还包括:

去除所述更新后词语集合中对所述待分类句子的语义的影响值小于或等于预设影响值的词语,以生成所述待分类句子对应的所述第一词语组合。

11.根据权利要求1所述的信息分类方法,其特征在于,所述多个待分类句子包括:交互系统的交互日志中的问题语句和/或答案语句。

12.根据权利要求1所述的信息分类方法,其特征在于,所述样例特征标签通过如下方式生成:

对所述主题类别的语料中各个样例语句进行分词处理,得到主题词语集合;

对所述主题词语集合进行同类词替换处理,得到更新后的主题词语集合;

根据所述更新后的主题词语集合中所述各个样例语句包含的第二词语组合出现的频次,生成所述主题类别对应的至少一个所述样例特征标签。

13.根据权利要求12所述的信息分类方法,其特征在于,根据所述更新后的主题词语集合中所述各个样例语句包含的第二词语组合出现的频次,生成所述主题类别对应的至少一个所述样例特征标签,包括:

若所述主题词语集合中有第二词语组合出现的频次大于或等于预设的第二频次阈值,则将该第二词语组合作为所述样例特征标签。

14.根据权利要求12所述的信息分类方法,其特征在于,生成所述主题类别对应的样例特征标签之前,还包括:

去除更新后的主题词语集合中对所述各个样例语句的语义的影响值小于或等于预设影响值的词语,以生成所述各个样例语句对应的第二词语组合。

15.根据权利要求10或14所述的信息分类方法,其特征在于,所述语义的影响值小于或等于预设影响值的词语包括以下至少一种:连接词以及助词。

16.根据权利要求12所述的信息分类方法,其特征在于,所述对所述主题词语集合进行同类词替换处理,得到更新后的主题词语集合,包括:

对基于同类词库确定所述主题词语集合中的同类的多个词语;

将所述同类或同义的多个词语统一替换为目标词语,得到更新后的主题词语集合;

其中,对所述待处理词语集合进行替换处理与对所述主题词语集合进行同类词替换处理基于相同的同类词库,且所述待处理词语集合与所述主题词语集合中的同类或同义词替换为相同的目标词语。

17.根据权利要求1至14和16中任一项所述的信息分类方法,其特征在于,采用反向最大匹配法或viterbi算法进行所述分词处理。

18.一种信息分类装置,其特征在于,包括:

样例特征标签获取模块,适于获取多个样例特征标签,并获取每个样例特征标签与待分类的主题类别之间的关系;

分词处理模块,适于对多个待分类句子进行分词处理,得到待处理词语集合;

替换处理模块,适于对待处理词语进行同类词替换处理,得到更新后词语集合;

待分类特征标签生成模块,适于根据所述更新后词语集合中各待分类句子包含的第一词语组合出现的频次,生成待分类特征标签;

目标特征标签确定模块,适于计算所述待分类特征标签与多个所述样例特征标签的最大语义相似度,当所述最大语义相似度大于或等于预设的相似度阈值时,则最大语义相似度对应的样例特征标签作为所述待分类特征标签的目标特征标签;

主题类别确定模块,适于将所述待分类特征标签对应的待分类句子标注为所述目标特征标签对应的主题类别。

19.根据权利要求18所述的信息分类装置,其特征在于,待分类特征标签生成模块适于将所述更新后词语集合中每个待分类句子对应的全部词语的组合作为一个第一词语组合。

20.根据权利要求18所述的信息分类装置,其特征在于,所述替换处理模块适于将待处理词语替换为与其同义或同类的目标词语。

21.根据权利要求18所述的信息分类装置,其特征在于,还包括:目标词语确定模块,适于在所述替换处理模块进行所述替换处理前,将将所述样例特征标签中与所述待处理词语同类或同义的词作为目标词语。

22.根据权利要求18所述的信息分类装置,其特征在于,所述待分类特征标签生成模块,适于若所述更新后词语集合中有第一词语组合出现的频次大于或等于预设的频次阈值,则将该第一词语组合作为待分类特征标签。

23.根据权利要求18所述的信息分类装置,其特征在于所述待分类特征标签生成模块,适于若所述更新后词语集合中有第一词语组合出现的频次小于或等于预设第一频次阈值,则针对该第一词语组合对应的每个待分类句子生成各自的待分类特征标签。

24.根据权利要求18所述的信息分类装置,其特征在于,所述目标特征标签确定模块,包括:

匹配词语确定单元,适于将所述待分类特征标签对应的第一词语组合与所述样例特征标签对应的第二词语组合进行匹配,得到匹配词语;

语义相似度计算单元,适于根据所述待分类特征标签与匹配词语的预设语义权重值加和,分别生成所述待分类特征标签与各样例特征标签的语义相似度值;

最大语义相似度确定单元,适于将所述待分类特征标签与各样例特征标签的语义相似度值中的最大值作为得到最大语义相似度。

25.根据权利要求24所述的信息分类装置,其特征在于,所述目标特征标签确定模块还包括权重设置单元,用于生成与各样例特征标签的语义相似度之前,将业务名词和/或商品名词的语义权重值设置为大于或等于所述预设的相似度阈值。

26.根据权利要求18所述的信息分类装置,其特征在于,还包括:缺省主题类别模块,适于若所述最大语义相似度小于或等于所述预设的相似度阈值,则将所述待分类特征标签对应的待分类句子标注为缺省主题类别。

27.根据权利要求18所述的信息分类装置,其特征在于,还包括:第一词语去除模块,适于去除所述更新后词语集合中对所述待分类句子的语义的影响值小于或等于预设影响值的词语,以生成所述待分类句子对应的所述第一词语组合。

28.根据权利要求18所述的信息分类装置,其特征在于,所述多个待分类句子包括:交互系统的交互日志中的问题语句和/或答案语句。

29.根据权利要求18所述的信息分类装置,其特征在于,所述样例特征标签获取模块包括:

主题词语集合生成单元,适于对所述主题类别的语料中各个样例语句进行分词处理,得到主题词语集合;

主题词语集合更新单元,适于对所述主题词语集合进行同类词替换处理,得到更新后的主题词语集合;

样例特征标签生成单元,适于根据所述更新后的主题词语集合中所述各个样例语句包含的第二词语组合出现的频次,生成所述主题类别对应的至少一个所述样例特征标签。

30.根据权利要求29所述的信息分类装置,其特征在于,样例特征标签生成单元适于若所述主题词语集合中有第二词语组合出现的频次大于或等于预设的第二频次阈值,则将该第二词语组合作为所述样例特征标签。

31.根据权利要求29所述的信息分类装置,其特征在于,还包括:第二词语去除单元,适于在样例特征标签生成单元生成所述主题类别对应的样例特征标签之前,去除更新后的主题词语集合中对所述各个样例语句的语义的影响值小于或等于预设影响值的词语,以生成所述各个样例语句对应的第二词语组合。

32.根据权利要求27或31所述的信息分类装置,其特征在于,所述语义的影响值小于或等于预设影响值的词语包括以下至少一种:连接词以及助词。

33.根据权利要求29所述的信息分类装置,其特征在于,主题词语集合更新单元,包括:

同义或同类词语确定子单元,适于对基于同类词库确定所述主题词语集合中的同类或同义的多个词语;

目标词语替换子单元,适于将所述同类或同义的多个词语统一替换为目标词语,得到更新后的主题词语集合;

其中,对所述待处理词语集合进行替换处理与对所述主题词语集合进行同类词替换处理基于相同的同类词库,且所述待处理词语集合与所述主题词语集合中的同类或同义词替换为相同的目标词语。

34.根据权利要求18至31和33任一项所述的信息分类装置,其特征在于,采用反向最大匹配法或viterbi算法进行所述分词处理。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1