对字符串进行分类的方法和装置与流程

文档序号:11829998阅读:来源:国知局

技术特征:

1.一种对字符串进行分类的方法,其特征在于,所述方法包括:

获取待分类字符串;

从所述待分类字符串中提取多个分类特征;

对每个所述分类特征分别进行归一化处理,得到多个归一化分类特征;

通过离线训练得到的分类模型,根据多个所述归一化分类特征,对所述待分类字符串进行分类,得到所述待分类字符串的分类结果。

2.如权利要求1所述的方法,其特征在于,获取待分类字符串之前,还包括:

从测试集中的每个字符串中提取多个所述分类特征,并进行归一化处理,得到所述测试集中的每个字符串的多个所述归一化分类特征;

通过所述测试集中的每个字符串的多个所述归一化分类特征,以及所述测试集中的每个字符串的分类结果,对所述待定参数设定为所述训练值的所述分类模型进行测试,得到测试结果;

将所述测试结果的准确率与预设准确率阈值进行比较;

如果所述测试结果的准确率大于所述预设准确率阈值,则确定将所述待定参数设定为所述训练值的所述分类模型作为离线训练得到的所述分类模型,然后执行所述获取待分类字符串的步骤。

3.如权利要求2所述的方法,其特征在于,从测试集中的每个字符串中提取多个所述分类特征之前,还包括:

采集预设的所述分类模型的样本集,将所述样本集分为训练集和测试集;其中,所述样本集中包括预设个字符串,以及所述预设个字符串中每个字符串的分类结果;

从所述训练集中的每个字符串中提取多个所述分类特征,并进行归一化处理,得到所述训练集中的每个字符串的多个所述归一化分类特征;

通过所述训练集中的每个字符串的多个所述归一化分类特征,以及所述训练集中的每个字符串的分类结果,对预设的所述分类模型中的待定参数进 行训练,得到所述待定参数的训练值。

4.如权利要求3所述的方法,其特征在于,将所述测试结果的准确率与预设准确率阈值进行比较之后,还包括:

如果所述测试结果的准确率小于等于所述预设准确率阈值,则确定所述待定参数设定为所述训练值的所述分类模型不能作为离线训练得到的所述分类模型,然后执行所述采集预设的所述分类模型的样本集的步骤。

5.如权利要求1所述的方法,其特征在于,所述待分类字符串的分类结果包括:

所述待分类字符串为随机字符串,或所述待分类字符串为正常字符串。

6.如权利要求1所述的方法,其特征在于,所述分类模型包括:

支持向量机SVM分类模型、决策树分类模型、贝叶斯分类模型或K近邻法分类模型。

7.如权利要求1-6任一权利要求所述的方法,其特征在于,所述分类特征包括:

最长相邻元音距、字符串信息熵、或字符串长度;其中,所述最长相邻元音距表示任一字符串的所有的相邻元音字符之间的间隔距离中最长者。

8.一种对字符串进行分类的装置,其特征在于,所述装置包括:

获取模块,用于获取待分类字符串;

第一提取模块,用于从所述待分类字符串中提取多个分类特征;

归一化模块,用于对每个所述分类特征分别进行归一化处理,得到多个归一化分类特征;

分类模块,用于通过离线训练得到的分类模型,根据多个所述归一化分类特征,对所述待分类字符串进行分类,得到所述待分类字符串的分类结果。

9.如权利要求8所述的装置,其特征在于,所述装置还包括:

采集模块,用于采集预设的所述分类模型的样本集,将所述样本集分为训练集和测试集;其中,所述样本集中包括预设个字符串,以及所述预设个字符串中每个字符串的分类结果;

第二提取模块,用于从所述训练集中的每个字符串中提取多个所述分类特征,并进行归一化处理,得到所述训练集中的每个字符串的多个所述归一化分类特征;

训练模块,用于通过所述训练集中的每个字符串的多个所述归一化分类特征,以及所述训练集中的每个字符串的分类结果,对预设的所述分类模型中的待定参数进行训练,得到所述待定参数的训练值;

第三提取模块,用于从所述测试集中的每个字符串中提取多个所述分类特征,并进行归一化处理,得到所述测试集中的每个字符串的多个所述归一化分类特征;

测试模块,用于通过所述测试集中的每个字符串的多个所述归一化分类特征,以及所述测试集中的每个字符串的分类结果,对所述待定参数设定为所述训练值的所述分类模型进行测试,得到测试结果;

比较模块,用于将所述测试结果的准确率与预设准确率阈值进行比较;

第一确定模块,用于如果所述测试结果的准确率大于所述预设准确率阈值,则确定将所述待定参数设定为所述训练值的所述分类模型作为离线训练得到的所述分类模型,然后通知所述获取模块执行所述获取待分类字符串的步骤。

10.如权利要求9所述的装置,其特征在于,所述装置还包括:

第二确定模块,用于如果所述测试结果的准确率小于等于所述预设准确率阈值,则确定所述待定参数设定为所述训练值的所述分类模型不能作为离线训练得到的所述分类模型,然后通知所述采集模块执行所述采集预设的所述分类模型的样本集的步骤。

11.如权利要求8所述的装置,其特征在于,所述待分类字符串的分类结果包括:

所述待分类字符串为随机字符串,或所述待分类字符串为正常字符串。

12.如权利要求8所述的装置,其特征在于,所述分类模型包括:

支持向量机SVM分类模型、决策树分类模型、贝叶斯分类模型或K近邻法分类模型。

13.如权利要求8-12任一权利要求所述的装置,其特征在于,所述分类特征包括:

最长相邻元音距、字符串信息熵、或字符串长度;其中,所述最长相邻元音距表示任一字符串的所有的相邻元音字符之间的间隔距离中最长者。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1