对字符串进行分类的方法和装置与流程

文档序号:11829998阅读:185来源:国知局
对字符串进行分类的方法和装置与流程

本发明涉及计算机通信技术领域,具体涉及一种对字符串进行分类的方法和装置。



背景技术:

随着计算机通信技术的发展,一方面计算机、平板电脑、手机等终端设备已逐渐成为人们必不可少的生活、工作工具,另一方面能提供网络、计算等后台服务的服务设备也越来越多,而对终端设备和服务设备等计算设备的运行能力的要求也越来越高。在很多场景(如注册机恶意注册大量无效账号、攻击机恶意伪造大量无效域名请求等)中,计算设备会收到大量的随机字符串(如“aaaxbhzqegs-2”,“4s7pTDAOV-L#”,“!oC|w4&s”等),这些随机字符串没有任何意义,但是计算设备刚收到时并不知道,会将这些随机字符串当作正常、有意义的字符串(如“alibaba-inc”,“helloworld”等)进行处理,从而影响计算设备的正常运行。

为了避免影响计算设备的正常运行,可以对计算设备收到的字符串进行分类,分出哪些字符串是随机字符串、哪些字符串是正常字符串,以便计算设备可以对不同的字符串进行不同的处理。目前,对字符串进行分类的方法是:人工根据字符串本身的语义及上下文来对字符串进行分类。

现有对字符串进行分类的方法,依靠人工实现,效率很低。



技术实现要素:

为了解决现有的技术问题,本发明提供了一种对字符串进行分类的方法和装置,通过离线训练得到的分类模型,根据多个归一化分类特征,对待分类字符串进行分类,得到待分类字符串的分类结果,不需要依靠人工,即可 自动实现,效率很高。

为了解决上述问题,本发明公开了一种对字符串进行分类的方法,所述方法包括:

获取待分类字符串;

从所述待分类字符串中提取多个分类特征;

对每个所述分类特征分别进行归一化处理,得到多个归一化分类特征;

通过离线训练得到的分类模型,根据多个所述归一化分类特征,对所述待分类字符串进行分类,得到所述待分类字符串的分类结果。

进一步地,获取待分类字符串之前,还包括:

从所述测试集中的每个字符串中提取多个所述分类特征,并进行归一化处理,得到所述测试集中的每个字符串的多个所述归一化分类特征;

通过所述测试集中的每个字符串的多个所述归一化分类特征,以及所述测试集中的每个字符串的分类结果,对所述待定参数设定为所述训练值的所述分类模型进行测试,得到测试结果;

将所述测试结果的准确率与预设准确率阈值进行比较;

如果所述测试结果的准确率大于所述预设准确率阈值,则确定将所述待定参数设定为所述训练值的所述分类模型作为离线训练得到的所述分类模型,然后执行所述获取待分类字符串的步骤。

进一步地,从所述测试集中的每个字符串中提取多个所述分类特征之前,还包括:

采集预设的所述分类模型的样本集,将所述样本集分为训练集和测试集;其中,所述样本集中包括预设个字符串,以及所述预设个字符串中每个字符串的分类结果;

从所述训练集中的每个字符串中提取多个所述分类特征,并进行归一化处理,得到所述训练集中的每个字符串的多个所述归一化分类特征;

通过所述训练集中的每个字符串的多个所述归一化分类特征,以及所述训练集中的每个字符串的分类结果,对预设的所述分类模型中的待定参数进 行训练,得到所述待定参数的训练值。

进一步地,将所述测试结果的准确率与预设准确率阈值进行比较之后,还包括:

如果所述测试结果的准确率小于等于所述预设准确率阈值,则确定所述待定参数设定为所述训练值的所述分类模型不能作为离线训练得到的所述分类模型,然后执行所述采集预设的所述分类模型的样本集的步骤。

进一步地,所述待分类字符串的分类结果包括:

所述待分类字符串为随机字符串,或所述待分类字符串为正常字符串。

进一步地,所述分类模型包括:

支持向量机SVM分类模型、决策树分类模型、贝叶斯分类模型或K近邻法分类模型。

进一步地,所述分类特征包括:

最长相邻元音距、字符串信息熵、或字符串长度;其中,所述最长相邻元音距表示任一字符串的所有的相邻元音字符之间的间隔距离中最长者。

为了解决上述问题,本发明还公开了一种对字符串进行分类的装置,所述装置包括:

获取模块,用于获取待分类字符串;

第一提取模块,用于从所述待分类字符串中提取多个分类特征;

归一化模块,用于对每个所述分类特征分别进行归一化处理,得到多个归一化分类特征;

分类模块,用于通过离线训练得到的分类模型,根据多个所述归一化分类特征,对所述待分类字符串进行分类,得到所述待分类字符串的分类结果。

进一步地,所述装置还包括:

采集模块,用于采集预设的所述分类模型的样本集,将所述样本集分为训练集和测试集;其中,所述样本集中包括预设个字符串,以及所述预设个字符串中每个字符串的分类结果;

第二提取模块,用于从所述训练集中的每个字符串中提取多个所述分类 特征,并进行归一化处理,得到所述训练集中的每个字符串的多个所述归一化分类特征;

训练模块,用于通过所述训练集中的每个字符串的多个所述归一化分类特征,以及所述训练集中的每个字符串的分类结果,对预设的所述分类模型中的待定参数进行训练,得到所述待定参数的训练值;

第三提取模块,用于从所述测试集中的每个字符串中提取多个所述分类特征,并进行归一化处理,得到所述测试集中的每个字符串的多个所述归一化分类特征;

测试模块,用于通过所述测试集中的每个字符串的多个所述归一化分类特征,以及所述测试集中的每个字符串的分类结果,对所述待定参数设定为所述训练值的所述分类模型进行测试,得到测试结果;

比较模块,用于将所述测试结果的准确率与预设准确率阈值进行比较;

第一确定模块,用于如果所述测试结果的准确率大于所述预设准确率阈值,则确定将所述待定参数设定为所述训练值的所述分类模型作为离线训练得到的所述分类模型,然后通知所述获取模块执行所述获取待分类字符串的步骤。

进一步地,所述装置还包括:

第二确定模块,用于如果所述测试结果的准确率小于等于所述预设准确率阈值,则确定所述待定参数设定为所述训练值的所述分类模型不能作为离线训练得到的所述分类模型,然后通知所述采集模块执行所述采集预设的所述分类模型的样本集的步骤。

进一步地,所述待分类字符串的分类结果包括:

所述待分类字符串为随机字符串,或所述待分类字符串为正常字符串。

进一步地,所述分类模型包括:

支持向量机SVM分类模型、决策树分类模型、贝叶斯分类模型或K近邻法分类模型。

进一步地,所述分类特征包括:

最长相邻元音距、字符串信息熵、或字符串长度;其中,所述最长相邻元音距表示任一字符串的所有的相邻元音字符之间的间隔距离中最长者。

与现有技术相比,本发明可以获得包括以下技术效果:

1)通过离线训练得到的分类模型,根据多个归一化分类特征,对待分类字符串进行分类,得到待分类字符串的分类结果,不需要依靠人工,即可自动实现,效率很高。

2)通过测试集对训练得到的分类模型进行测试,可以提高分类模型的精确性。

3)分类特征包括最长相邻元音距、字符串信息熵、或字符串长度可以很好地体现字符串的特征,提高分类结果的准确性。

当然,实施本发明的任一产品必不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明实施例的第一种对字符串进行分类的方法流程图;

图2是本发明实施例的第二种对字符串进行分类的方法流程图;

图3是本发明实施例的第一种对字符串进行分类的装置结构示意图;

图4是本发明实施例的第二种对字符串进行分类的装置结构示意图;

图5是本发明实施例的第三种对字符串进行分类的装置结构示意图。

具体实施方式

以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

实施例描述

下面以一实施例对本发明方法的实现作进一步说明。如图1所示,为本发明实施例的一种对字符串进行分类的方法流程图,该方法包括:

S101:获取待分类字符串。

具体地,可以获取输入计算设备的任何字符串,将获取的字符串作为待分类字符串对其进行分类。

S102:从待分类字符串中提取多个分类特征。

具体地,分类特征包括:最长相邻元音距、字符串信息熵、或字符串长度。

具体地,最长相邻元音距表示任一字符串的所有的相邻元音字符之间的间隔距离中最长者,并且本实施例中将“-”、字符串结尾也当作元音字符对待,并且并不限于此,实际应用中可以根据实际需要将其他一些特殊符号当作元音字符对待。例如:字符串“alibaba-inc”的相邻元音字符分别是:ai、ia、aa、a-、-i、i字符串结尾,“alibaba-inc”的相邻元音字符之间的间隔距离依次是:1个字符长度、1个字符长度、1个字符长度、0个字符长度、0个字符长度、2个字符长度,从而字符串“alibaba-inc”的最长相邻元音距是2个字符长度。

需要说明的是,元音带动声带震动、发出声音,相邻元音距表征了字符串中各音节的长度、体现了发音的节奏。一般正常字符串(有意义的单词或短语等)的音节比较短,节奏比较均匀,以方便发出声音,其最长相邻元音距偏短,如“alibaba-inc”的所有的相邻元音距为[1,1,1,0,0,2],最长相邻元音距为2;而无意义的随机字符串不受发音相关的限制,因而其音节比较长,没有节奏,另外其元音出现的概率(<5/26)远小于非元音出现的概率,非元音连续多次出现的概率较大,使得其最长相邻元音距偏长,如“aaaxbhzqegs-2”的所有的相邻元音距为[0,0,5,2,1],最长相邻元音距为 5。

具体地,字符串信息熵H表征字符串的随机程度,其计算公式为:

<mrow> <mi>H</mi> <mo>=</mo> <mo>-</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>log</mi> <mn>2</mn> </msub> <msub> <mi>p</mi> <mi>i</mi> </msub> <mi>i</mi> </mrow>

其中,N表示字符串中的字符的个数,pi表示第i个字符在字符串中出现的概率。

需要说明的是,正常字符串(有意义的单词或短语等),其字符排列遵从书写规范,不能任意排列,随机化程度不高,字符串信息熵偏低,如“alibaba-inc”的字符串信息熵为2.44;而无意义的随机字符串的字符排列则没有限制,随机化程度比较高,字符串信息熵偏高,如“aaaxbhzqegs-2”的信息熵为3.19。

S103:对每个分类特征分别进行归一化处理,得到多个归一化分类特征。

具体地,本实施例中归一化处理可以采用Z-score归一化法,其计算公式为:

<mrow> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>j</mi> </msub> </mrow> <msub> <mi>&delta;</mi> <mi>j</mi> </msub> </mfrac> </mrow>

其中,Xj表示第j个归一化分类特征,xj表示第j个分类特征,μj表示第j个分类特征的样本均值,δj表示第j个分类特征的样本标准差,可以在通过采集的字符串的样本集离线训练分类模型的过程中,对样本集进行统计计算得到μj、δj

需要说明的是,并不限于采用Z-score归一化法,还可以采用其他任何可行的方法,对此不做具体限定。

S104:通过离线训练得到的分类模型,根据多个归一化分类特征,对待分类字符串进行分类,得到待分类字符串的分类结果。

具体地,离线训练得到的分类模型可以是SVM(Support Vector Machine支持向量机)分类模型、决策树分类模型、贝叶斯分类模型或K近邻法(K-NN)分类模型。其中,各个分类模型的具体介绍详见S105。

具体地,在对待分类字符串进行分类时,需要使用离线训练得到的分类模型,因此需要离线获取分类模型,在本发明的一优选实施例中,参见图2,在获取待分类字符串之前,还包括:

S105:采集预设的分类模型的样本集,将样本集分为训练集和测试集;其中,样本集中包括预设个字符串,以及预设个字符串中每个字符串的分类结果。

具体地,可以随机选择大量(如100万等)的随机字符串、大量(如30万等)的正常字符串作为预设的分类模型的样本集。将样本集按一定的比例(如6:4等)随机划分为训练集和测试集,其中,训练集用于训练预设的分类模型,测试集用于对训练得到的分类模型进行测试。

需要说明的是,由于采集样本集时,是将已知的随机字符串和正常字符串作为样本集,所以样本集中的每个字符串的分类结果是已知的,为了便于后续使用,可以将分类为随机字符串的字符串用0表示其类型,将分类为正常字符串的字符串用1表示其类型。并且,并不限于通过0和1来区分二种类型,还可以通过其他任何可行的方式进行区分,对此不做具体限定。

具体地,分类模型可以采用SVM分类模型、贝叶斯分类模型、决策树分类模型、或K近邻法(K-NN)分类模型等。

其中,SVM分类模型的公式表示如下:

其中,y表示由多个归一化分类特征组成的归一化特征向量,wT表示系数向量,b表示截距,wT和b是待定参数。

并且在进行训练时,可以假设字符串的分类为正常字符串时,对应值为1;字符串的分类为随机字符串时,对应值为0。从而对应D(y),假设如果D(y)的结果大于0,则判定该结果对应的字符串为正样例(为正常字符串);如果D(y)的结果小于等于0,则判定该结果对应的字符串为负样例(为随机字符串)。实际应用时,可以假设为其他情况,只要保证前后结果一致即可,对此不做具体限定。

其中,贝叶斯分类模型的公式表示如下:

<mrow> <mi>c</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi> </mi> <mi>max</mi> </mrow> <mi>k</mi> </munder> <mi>p</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>|</mo> <mi>k</mi> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>|</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>m</mi> </msub> <mo>|</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi> </mi> <mi>max</mi> </mrow> <mi>k</mi> </munder> <mi>p</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <munderover> <mi>&Pi;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>|</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow>

其中,k有二种取值(例如:取值可以为0、1),对应字符串的二种分类情况(随机字符串、正常字符串),y表示归一化分类特征,yj表示第j个归一化分类特征,j∈[1,m],当Yjk满足N(μjkjk)条件时, <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>|</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msqrt> <mn>2</mn> <mi>&pi;</mi> </msqrt> <msub> <mi>&sigma;</mi> <mi>jk</mi> </msub> </mrow> </mfrac> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>jk</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msubsup> <mi>&sigma;</mi> <mi>jk</mi> <mn>2</mn> </msubsup> </mrow> </mfrac> </mrow> </msup> <mo>.</mo> </mrow>

并且行训练时,可以假设字符串的分类为正常字符串时,对应值为1;字符串的分类为随机字符串时,对应值为0。从而对应c(y),假设如果c(y)的结果大于0,则判定该结果对应的字符串为正样例(为正常字符串);如果c(y)的结果小于等于0,则判定该结果对应的字符串为负样例(为随机字符串)。实际应用时,可以假设为其他情况,只要保证前后结果一致即可,对此不做具体限定。

其中,决策树分类模型可以采用ID3、C4.5、CART等算法来建立模型,当采用C4.5算法建立模型时,将归一化的最长相邻元音距、归一化的字符串信息熵和归一化的字符串长度作为待选分裂属性,分类结果(正常字符和随机字符)作为决策结果,以最大化信息增益率作为分裂准则来分裂训练集,按步构造出决策树分类模型。

实际应用中,可以结合实际应用情况,建立任一种分类模型,对K近邻法分类模型等不再进行举例介绍。

S106:从训练集中的每个字符串中提取多个分类特征,并进行归一化处理,得到训练集中的每个字符串的多个归一化分类特征。

具体地,进行归一化处理的步骤与S103类似,此处不再一一赘述。

S107:通过训练集中的每个字符串的多个归一化分类特征,以及训练集中的每个字符串的分类结果,对预设的分类模型中的待定参数进行训练,得到待定参数的训练值。

S108:从测试集中的每个字符串中提取多个分类特征,并进行归一化处理,得到测试集中的每个字符串的多个归一化分类特征。

具体地,进行归一化处理的步骤与S103类似,此处不再一一赘述。

S109:通过测试集中的每个字符串的多个归一化分类特征,以及测试集中的每个字符串的分类结果,对待定参数设定为训练值的分类模型进行测试,得到测试结果。

S110:将测试结果的准确率与预设准确率阈值进行比较,如果测试结果的准确率大于预设准确率阈值,则执行S111;如果测试结果的准确率小于等于预设准确率阈值,则执行S112。

其中,预设准确率阈值可以根据实际应用状况进行设置,如可以设置为50%、70%等,对此不做具体限定。

S111:确定将待定参数设定为训练值的分类模型作为离线训练得到的分类模型,然后执行S101获取待分类字符串的步骤。

即可以进行在线分类操作。

需要说明的是,实际应用中,S111确定将待定参数设定为训练值的分类模型作为离线训练得到的分类模型,即得到了进行在线分类操作时可以使用的分类模型,但是何时进行在线分类操作,即何时执行S101-S104,则可以根据实际应用情况设定,不一定是在S111后马上就执行S101-S104。S112:确定待定参数设定为训练值的分类模型不能作为离线训练得到的分类模型,然后执行S105采集分类模型的样本集的步骤。

即重新进行离线训练。

并且,需要说明的是,由于实际应用情况不断发生变化,当确定将待定参数设定为训练值的分类模型作为离线训练得到的分类模型后,可以每隔一预设的时间间隔重新采集新的样本集,重新训练得到新的分类模型,对原有的分类模型进行更新,以保证分类结果的准确性。

另外,需要说明的是,分类模型离线训练过程最好使用分布式大数据处理系统(如ODPS、hadoop等),以保证对大规模样本的处理和建模能在可接受的时间内有效完成。

本实施例所述的对字符串进行分类的方法,通过离线训练得到的分类模型,根据多个归一化分类特征,对待分类字符串进行分类,得到待分类字符串的分类结果,不需要依靠人工,即可自动实现,效率很高。通过测试集对 训练得到的分类模型进行测试,可以提高分类模型的精确性。分类特征包括最长相邻元音距、字符串信息熵、或字符串长度可以很好地体现字符串的特征,提高分类结果的准确性。

如图3所示,是本发明实施例的一种对字符串进行分类的装置结构图,该装置包括:

获取模块201,用于获取待分类字符串;

第一提取模块202,用于从待分类字符串中提取多个分类特征;

归一化模块203,用于对每个分类特征分别进行归一化处理,得到多个归一化分类特征;

分类模块204,用于通过离线训练得到的分类模型,根据多个归一化分类特征,对待分类字符串进行分类,得到待分类字符串的分类结果。

进一步地,参见图4,该装置还包括:

采集模块205,用于采集预设的分类模型的样本集,将样本集分为训练集和测试集;其中,样本集中包括预设个字符串,以及预设个字符串中每个字符串的分类结果;

第二提取模块206,用于从训练集中的每个字符串中提取多个分类特征,并进行归一化处理,得到训练集中的每个字符串的多个归一化分类特征;

训练模块207,用于通过训练集中的每个字符串的多个归一化分类特征,以及训练集中的每个字符串的分类结果,对预设的分类模型中的待定参数进行训练,得到待定参数的训练值;

第三提取模块208,用于从测试集中的每个字符串中提取多个分类特征,并进行归一化处理,得到测试集中的每个字符串的多个归一化分类特征;

测试模块209,用于通过测试集中的每个字符串的多个归一化分类特征,以及测试集中的每个字符串的分类结果,对待定参数设定为训练值的分类模型进行测试,得到测试结果;

比较模块210,用于将测试结果的准确率与预设准确率阈值进行比较;

第一确定模块211,用于如果测试结果的准确率大于预设准确率阈值,则确定将待定参数设定为训练值的分类模型作为离线训练得到的分类模型,然后通知获取模块201执行获取待分类字符串的步骤。

进一步地,参见图5,该装置还包括:

第二确定模块212,用于如果测试结果的准确率小于等于预设准确率阈值,则确定待定参数设定为训练值的分类模型不能作为离线训练得到的分类模型,然后通知采集模块205执行采集预设的分类模型的样本集的步骤。

进一步地,待分类字符串的分类结果包括:

待分类字符串为随机字符串,或待分类字符串为正常字符串。

进一步地,分类模型包括:

支持向量机SVM分类模型、决策树分类模型、贝叶斯分类模型或K近邻法分类模型。

进一步地,分类特征包括:

最长相邻元音距、字符串信息熵、或字符串长度;其中,最长相邻元音距表示任一字符串的所有的相邻元音字符之间的间隔距离中最长者。

本实施例所述的对字符串进行分类的装置,通过离线训练得到的分类模型,根据多个归一化分类特征,对待分类字符串进行分类,得到待分类字符串的分类结果,不需要依靠人工,即可自动实现,效率很高。通过测试集对训练得到的分类模型进行测试,可以提高分类模型的精确性。分类特征包括最长相邻元音距、字符串信息熵、或字符串长度可以很好地体现字符串的特征,提高分类结果的准确性。

所述装置与前述的方法流程描述对应,不足之处参考上述方法流程的叙述,不再一一赘述。

上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改 动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1