错别字检测方法、装置及计算机可读存储介质、终端设备与流程

文档序号:15999238发布日期:2018-11-20 19:14阅读:136来源:国知局

本发明涉及文本处理技术领域,尤其涉及一种错别字检测方法、装置及计算机可读存储介质、终端设备。



背景技术:

文本是记载信息的重要载体,随着信息处理技术和互联网技术的高速发展,传统的文本工作已逐渐被计算机等电子设备所取代,文本的生成方式也相应的由人工书写变成了人工编辑,而人工编辑在实际操作时可能会出现操作失误的情况,导致人工编辑的文本中出现错别字,从而影响文本质量,因此,对错别字的检测具有十分重要的意义。

现有技术提供的错别字检测方法大都在接收到用户输入的文字后,对用户输入的文字进行一定的处理,然后计算得到处理之后的文字的概率并与预设的概率阈值进行比较,最后根据比较结果确定用户输入的文字是否为错别字,当计算得到文字的概率小于预设的概率阈值时,判定用户输入的文字为错别字,当计算得到文字的概率不小于预设的概率阈值时,判定用户输入的文字为正确字;由此可见,现有技术提供的技术方案在计算得到文字的概率之后往往只根据一个概率阈值来判断文字的正确性,判断方式较为简单,且没有考虑到文字所处的语句语境,因此,错别字的检测结果可能与实际情况不符,检测准确率低。



技术实现要素:

本发明实施例所要解决的技术问题在于,提供一种错别字检测方法、装置及计算机可读存储介质、终端设备,能够提高错别字检测的准确率。

为了解决上述技术问题,本发明实施例提供了一种错别字检测方法,包括:

接收待检测语句;

根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率;

当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;

当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;

根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;

分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;

根据每个所述语句概率,判断所述待检测文字是否为错别字。

与现有技术相比,本发明实施例提供了一种错别字检测方法,当待检测文字的文字概率满足一定的条件时,获得待检测文字对应的替换文字的文字概率,当待检测文字的文字概率在所有替换文字的文字概率中满足一定的条件时,根据待检测文字的混淆集中的混淆文字对应获得混淆语句,并根据待检测语句的语句概率和混淆语句的语句概率判断待检测文字是否为错别字,可以解决现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,能够提高错别字检测的准确率。

进一步地,所述当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率,具体包括:

当判定所述待检测文字的文字概率p满足0.00001≤p≤0.1时,获得所述待检测文字对应的K个所述替换文字;

根据所述待检测语句中的每个文字,分别获得每个所述替换文字的文字概率。

进一步地,在所述当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率之后,所述当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集之前,还包括:

将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列,获得所述待检测文字的排列次序k;

则当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集,具体包括:

当判定k≥K1时,获得与所述待检测文字相对应的所述混淆集;其中,K1=(K+1)*20%。

进一步地,所述根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句,具体包括:

根据所述待检测语句中的每个文字,获得每个所述混淆文字的文字概率;

将每个所述混淆文字按照所述文字概率从大到小的顺序排列,将排列于前N位的混淆文字作为目标混淆文字;

将所述待检测语句中的所述待检测文字依次替换为各个所述目标混淆文字,获得对应的N个所述混淆语句。

进一步地,所述分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率,具体包括:

分别获得所述待检测语句中的每个文字的文字概率和每个所述混淆语句中的每个文字的文字概率;

根据预设的语句概率计算模型分别计算获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;其中,PA为当前计算语句A的语句概率,B为当前计算语句A中的文字的总个数,Pai为当前计算语句A中的第i个文字的文字概率。

进一步地,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括:

将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;

当n<N1时,判定所述待检测文字为正确字;其中,N1=(N+1)*7%;

当n≥N1时,判定所述待检测文字为错别字。

进一步地,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括:

将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;

当n=1时,判定所述待检测文字为正确字;

当n≠1时,判定所述待检测文字为错别字。

本发明实施例还提供了一种错别字检测装置,包括:

语句接收模块,用于接收待检测语句;

待检测文字概率获取模块,用于根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率;

替换文字概率获取模块,用于当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;

混淆集获取模块,用于当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;

混淆语句获取模块,用于根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;

语句概率获取模块,用于分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;以及,

文字判断模块,用于根据每个所述语句概率,判断所述待检测文字是否为错别字。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的错别字检测方法。

本发明实施例还提供了一种终端设备,包括至少一个存储器以及至少一个处理器;其中,

所述存储器包括存储的至少一个计算机程序;

所述处理器用于执行所述计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的错别字检测方法。

与现有技术相比,本发明实施例提供了一种错别字检测方法、装置及计算机可读存储介质、终端设备,当待检测文字的文字概率满足一定的条件时,获得待检测文字对应的替换文字的文字概率,当待检测文字的文字概率在所有替换文字的文字概率中满足一定的条件时,根据待检测文字的混淆集中的混淆文字对应获得混淆语句,并根据待检测语句的语句概率和混淆语句的语句概率判断待检测文字是否为错别字,可以解决现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,能够提高错别字检测的准确率。

附图说明

图1是本发明提供的错别字检测方法的一个优选实施例的流程图;

图2是本发明提供的错别字检测方法的步骤S13的一个优选实施例的具体流程图;

图3是本发明提供的错别字检测方法的步骤S15的一个优选实施例的具体流程图;

图4是本发明提供的错别字检测方法的步骤S16的一个优选实施例的具体流程图;

图5是本发明提供的错别字检测方法的步骤S17的一个优选实施例的具体流程图;

图6是本发明提供的错别字检测方法的步骤S17的另一个优选实施例的具体流程图;

图7是本发明提供的错别字检测装置的一个优选实施例的结构框图;

图8是本发明提供的终端设备的一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供了一种错别字检测方法。

参见图1所示,是本发明提供的错别字检测方法的一个优选实施例的流程图,包括步骤S11至步骤S17:

步骤S11、接收待检测语句;

步骤S12、根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率;

步骤S13、当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;

步骤S14、当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;

步骤S15、根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;

步骤S16、分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;

步骤S17、根据每个所述语句概率,判断所述待检测文字是否为错别字。

在本实施例中,当需要判断待检测文字是否为错别字时,首先获取该待检测文字所在的语句,即待检测语句;然后根据上述待检测语句中的每个文字获得上述待检测文字的文字概率,并判断上述待检测文字的文字概率是否满足预先设置的第一条件;当上述待检测文字的文字概率满足预先设置的第一条件时,获得上述待检测文字对应的替换文字的文字概率,并根据替换文字的文字概率判断上述待检测文字的文字概率是否满足预先设置的第二条件;当上述待检测文字的文字概率满足预先设置的第二条件时,获得上述待检测文字对应的混淆集,并根据混淆集中的混淆文字分别获得上述待检测语句对应的混淆语句;最后计算上述待检测语句的语句概率和每个混淆语句的语句概率,从而根据所有的语句概率判断上述待检测文字是否为错别字。

需要说明的是,替换文字为预先设置的字典集合中除了待检测文字之外的任意一个文字;混淆文字为预先设置的字典集合中与待检测文字的拼音相同的文字,混淆集为由所有的混淆文字组成的集合。

需要进一步说明的是,待检测文字的文字概率通过采用Bi-LSTM(Bi-directional Long Short Term Memory,双向长短期记忆)模型并调用softmax算法计算获得,且该双向长短期记忆模型为经过深度学习框架编码(如tensorflow)训练后的双向长短期记忆模型。

具体的,上述Bi-LSTM模型的最后一层与一个softmax层连接,将待检测语句输入该Bi-LSTM模型,经过softmax层调用softmax算法进行计算,即可根据待检测语句中的每个文字计算获得待检测文字的文字概率。

本发明实施例所提供的一种错别字检测方法,在计算文字概率时结合了文字所处的语句语境,并采用了一种文字概率判断、替换文字判断以及混淆集判断相结合的策略来代替简单的单一概率阈值判断的策略进行错别字检测,使得错别字判断策略更为灵活和有效,从而大大提高了错别字检测的准确率。

另外,采用经过训练的Bi-LSTM模型计算待检测文字的文字概率时,是根据待检测文字所在的待检测语句中的每个文字的信息进行计算,既能利用待检测文字的前向信息,又能利用待检测文字的后向信息,从而使得计算得到的待检测文字的文字概率更加精确。

参见图2所示,是本发明提供的错别字检测方法的步骤S13的一个优选实施例的具体流程图,所述当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率,具体包括步骤S1301至步骤S1302:

步骤S1301、当判定所述待检测文字的文字概率p满足0.00001≤p≤0.1时,获得所述待检测文字对应的K个所述替换文字;

步骤S1302、根据所述待检测语句中的每个文字,分别获得每个所述替换文字的文字概率。

在本实施例中,预先设置的第一条件为0.00001≤p≤0.1,当待检测文字的文字概率p满足0.00001≤p≤0.1时,才根据待检测语句中的每个文字分别计算获得每个替换文字的文字概率。

具体的,在计算替换文字的文字概率时,需要将待检测语句中的待检测文字依次替换为各个替换文字,从而获得对应的替换语句,再分别将每个替换语句输入经过训练的Bi-LSTM模型,经过softmax层调用softmax算法即可分别根据每个替换语句中的每个文字对应计算获得每个替换文字的文字概率。

另外,当待检测文字的文字概率p满足p>0.1时,判定待检测文字为正确字;当待检测文字的文字概率p满足p<0.00001时,判定待检测文字为错别字。

以待检测语句“中化人民”为例,其中,“化”字为待检测文字,假设预先设置的字典集合中共有7000个文字(包括待检测文字),根据上述方法计算获得“化”字对应的文字概率并进行判断,如果“化”字对应的文字概率大于0.1,则认为“化”字为正确字;如果“化”字对应的文字概率小于0.00001,则认为“化”字为错别字;如果“化”字对应的文字概率在0.00001至0.1之间,则认为“化”字很有可能为错别字,需要根据7000个文字的文字概率进行进一步的判断和处理。

在另一个优选实施例中,在所述当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率之后,所述当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集之前,还包括:

将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列,获得所述待检测文字的排列次序k;

则当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集,具体包括:

当判定k≥K1时,获得与所述待检测文字相对应的所述混淆集;其中,K1=(K+1)*20%。

在本实施例中,预先设置的第二条件为当待检测文字的文字概率满足k≥K1时,才根据待检测文字获得对应的混淆集,因此,在判断待检测文字的文字概率是否满足预先设置的第二条件之前,需要确定相应的k和K1的值。

具体的,将待检测文字的文字概率和K个替换文字的文字概率按照从大到小的顺序排列,从而获得待检测文字的排列次序,并记为k,K1则根据公式K1=(K+1)*20%计算获得。

当k<K1时,说明待检测文字的文字概率排列于所有的文字概率的前20%,因此判定待检测文字为正确字;当k≥K1时,说明待检测文字的文字概率排列于所有的文字概率的后80%,待检测文字很有可能为错别字,因此根据待检测文字获得对应的混淆集并进行进一步的判断和处理。

需要说明的是,在根据公式计算K1时,如果计算得到的结果为小数,则取与计算结果最接近且大于计算结果的整数作为K1的值。

以待检测语句“中化人民”为例,其中,“化”字为待检测文字,根据上述方法分别计算获得7000个文字的文字概率,并将这7000个文字的文字概率按照从大到小的顺序排列,如果“化”字对应的文字概率在7000个文字的文字概率的前20%,则认为“化”字为正确字;如果“化”字对应的文字概率在7000个文字的文字概率的后80%,则认为“化”字很有可能为错别字,需要使用混淆集判断策略进行相应的处理。

参见图3所示,是本发明提供的错别字检测方法的步骤S15的一个优选实施例的具体流程图,所述根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句,具体包括步骤S1501至步骤S1503:

步骤S1501、根据所述待检测语句中的每个文字,获得每个所述混淆文字的文字概率;

步骤S1502、将每个所述混淆文字按照所述文字概率从大到小的顺序排列,将排列于前N位的混淆文字作为目标混淆文字;

步骤S1503、将所述待检测语句中的所述待检测文字依次替换为各个所述目标混淆文字,获得对应的N个所述混淆语句。

在本实施例中,首先根据待检测语句中的每个文字计算获得每个混淆文字的文字概率,将所有的混淆文字的文字概率按照从大到小的顺序排列,从而获得所有的混淆文字按照文字概率的排列次序,并选择文字概率最大的N个混淆文字作为目标混淆文字;随后将待检测语句中的待检测文字依次替换为各个目标混淆文字,从而获得对应的N个混淆语句。

具体的,在计算混淆文字的文字概率时,需要将待检测语句中的待检测文字依次替换为各个混淆文字,从而获得对应的混淆语句,再分别将每个混淆语句输入经过训练的Bi-LSTM模型,经过softmax层调用softmax算法即可分别根据每个混淆语句中的每个文字对应计算获得每个混淆文字的文字概率。

以待检测语句“中化人民”为例,其中,“化”字为待检测文字,假设预先设置的字典集合中与“化”字的拼音相同的文字共有15个,根据上述方法分别计算获得15个混淆文字的文字概率,并将这15个混淆文字的文字概率按照从大到小的顺序排列,选择文字概率排列位于前3位的混淆文字作为目标混淆文字,用这3个目标混淆文字分别替换待检测语句“中化人民”中的“化”字,从而得到对应的3个混淆语句。

参见图4所示,是本发明提供的错别字检测方法的步骤S16的一个优选实施例的具体流程图,所述分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率,具体包括步骤S1601至步骤S1602:

步骤S1601、分别获得所述待检测语句中的每个文字的文字概率和每个所述混淆语句中的每个文字的文字概率;

步骤S1602、根据预设的语句概率计算模型分别计算获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;其中,PA为当前计算语句A的语句概率,B为当前计算语句A中的文字的总个数,Pai为当前计算语句A中的第i个文字的文字概率。

具体的,在计算任一语句A的语句概率时,首先要将语句A输入经过训练的Bi-LSTM模型,经过softmax层调用softmax算法分别计算获得语句A中的B个文字的文字概率Pai,然后根据预先设置的语句概率计算公式进行计算,从而获得语句A的语句概率。

以语句“中化人民”为例,根据上述方法计算获得的四个文字的文字概率分别为Pa1=P中=p1、Pa2=P化=p2、Pa3=P人=p3、和Pa4=P民=p4,则语句“中化人民”的语句概率为P中化人民=log p1+log p2+log p3+log p4。

本发明实施例所提供的一种错别字检测方法,将语句中的所有文字的文字概率的对数和作为该语句的语句概率,可以减小计算量,并且可以避免数字过小产生截断。

参见图5所示,是本发明提供的错别字检测方法的步骤S17的一个优选实施例的具体流程图,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括步骤S1711至步骤S1713:

步骤S1711、将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;

步骤S1712、当n<N1时,判定所述待检测文字为正确字;其中,N1=(N+1)*7%;

步骤S1713、当n≥N1时,判定所述待检测文字为错别字。

本实施例为根据语句概率判断待检测文字是否为错别字的一种方法,具体的,将待检测语句的语句概率和N个替换语句的语句概率按照从大到小的顺序排列,从而获得待检测语句的排列次序,并记为n;根据公式N1=(N+1)*7%计算得到N1的值,当n<N1时,说明待检测语句的语句概率排列于所有的语句概率的前7%,因此判定待检测文字为正确字;当n≥N1时,说明待检测语句的语句概率排列于所有的语句概率后93%,因此判定待检测文字为错别字。

需要说明的是,在根据公式计算N1时,如果计算得到的结果为小数,则取与计算结果最接近且大于计算结果的整数作为N1的值。

以待检测语句“中化人民”为例,其中,“化”字为待检测文字,假设混淆语句有3个,将待检测语句“中化人民”和3个混淆语句共4个语句的语句概率按照从大到小的顺序排列,如果待检测语句“中化人民”对应的语句概率在4个语句的语句概率的前7%,则认为“化”字为正确字;如果待检测语句“中化人民”对应的语句概率在4个语句的语句概率的后93%,则认为“化”字为错别字。

参见图6所示,是本发明提供的错别字检测方法的步骤S17的另一个优选实施例的具体流程图,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括步骤S1721至步骤S1723:

步骤S1721、将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;

步骤S1722、当n=1时,判定所述待检测文字为正确字;

步骤S1723、当n≠1时,判定所述待检测文字为错别字。

本实施例为根据语句概率判断待检测文字是否为错别字的另一种方法,具体的,将待检测语句的语句概率和N个替换语句的语句概率按照从大到小的顺序排列,从而获得待检测语句的排列次序,并记为n;当n=1时,说明待检测语句的语句概率在所有的语句概率中最大,因此判定待检测文字为正确字;当n≠1时,说明待检测语句的语句概率在所有的语句概率中不是最大,因此判定待检测文字为错别字。

以待检测语句“中化人民”为例,其中,“化”字为待检测文字,假设混淆语句有3个,将待检测语句“中化人民”和3个混淆语句共4个语句的语句概率按照从大到小的顺序排列,如果待检测语句“中化人民”对应的语句概率在4个语句的语句概率中最大,则认为“化”字为正确字;如果待检测语句“中化人民”对应的语句概率在4个语句的语句概率中不是最大,则认为“化”字为错别字。

本发明实施例还提供了一种错别字检测装置,能够实现上述任一实施例中的错别字检测方法的所有流程,装置中的各个模块和单元的作用以及实现的技术效果分别与上述实施例中的错别字检测方法的的作用以及实现的技术效果对应相同,这里不再赘述。

参见图7所示,是本发明提供的错别字检测装置的一个优选实施例的结构框图,包括:

语句接收模块11,用于接收待检测语句;

待检测文字概率获取模块12,用于根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率;

替换文字概率获取模块13,用于当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;

混淆集获取模块14,用于当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;

混淆语句获取模块15,用于根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;

语句概率获取模块16,用于分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;以及,

文字判断模块17,用于根据每个所述语句概率,判断所述待检测文字是否为错别字。

优选地,所述替换文字概率获取模块13具体包括:

替换文字获取单元,用于当判定所述待检测文字的文字概率p满足0.00001≤p≤0.1时,获得所述待检测文字对应的K个所述替换文字;以及,

替换文字概率获取单元,用于根据所述待检测语句中的每个文字,分别获得每个所述替换文字的文字概率。

优选地,所述错别字检测装置还包括:

文字概率排序模块,用于将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列,获得所述待检测文字的排列次序k;

则所述混淆集获取模块14具体包括:

混淆集获取单元,用于当判定k≥K1时,获得与所述待检测文字相对应的所述混淆集;其中,K1=(K+1)*20%。

优选地,所述混淆语句获取模块15具体包括:

混淆文字概率获取单元,用于根据所述待检测语句中的每个文字,获得每个所述混淆文字的文字概率;

目标混淆文字获取单元,用于将每个所述混淆文字按照所述文字概率从大到小的顺序排列,将排列于前N位的混淆文字作为目标混淆文字;以及,

混淆语句获取单元,用于将所述待检测语句中的所述待检测文字依次替换为各个所述目标混淆文字,获得对应的N个所述混淆语句。

优选地,所述语句概率获取模块16具体包括:

文字概率获取单元,用于分别获得所述待检测语句中的每个文字的文字概率和每个所述混淆语句中的每个文字的文字概率;以及,

语句概率获取单元,用于根据预设的语句概率计算模型分别计算获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;其中,PA为当前计算语句A的语句概率,B为当前计算语句A中的文字的总个数,Pai为当前计算语句A中的第i个文字的文字概率。

优选地,所述文字判断模块17具体包括:

语句概率排序单元,用于将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;

第一文字判断单元,用于当n<N1时,判定所述待检测文字为正确字;其中,N1=(N+1)*7%;以及,

第二文字判断单元,用于当n≥N1时,判定所述待检测文字为错别字。

优选地,所述文字判断模块17具体包括:

语句概率排序单元,用于将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;

第三文字判断单元,用于当n=1时,判定所述待检测文字为正确字;以及,

第四文字判断单元,用于当n≠1时,判定所述待检测文字为错别字。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的错别字检测方法。

本发明实施例还提供了一种终端设备。

参见图8所示,是本发明提供的终端设备的一个优选实施例的结构框图,包括至少一个存储器10以及至少一个处理器20;其中,

所述存储器10包括存储的至少一个计算机程序;

所述处理器20用于执行所述计算机程序,所述处理器20在执行所述计算机程序时实现上述任一实施例所述的错别字检测方法。

需要说明的是,图8仅以该终端设备中的一个存储器和一个处理器相连接为例进行说明,在一些具体的实施例中,该终端设备中还可以包括多个存储器和/或多个处理器,其具体的数目及连接方式可根据实际情况需要进行设置和适应性调整。

综上,本发明实施例所提供的一种错别字检测方法、装置及计算机可读存储介质、终端设备,首先根据待检测文字的文字概率判断待检测文字是否为错别字,当待检测文字的文字概率满足一定的条件时,获得待检测文字对应的替换文字的文字概率,根据待检测文字的文字概率在所有替换文字的文字概率中的排列次序判断待检测文字是否为错别字,当待检测文字的文字概率在所有替换文字的文字概率中满足一定的条件时,根据待检测文字的混淆集中的混淆文字对应获得混淆语句,并根据待检测语句的语句概率和混淆语句的语句概率判断待检测文字是否为错别字,不仅在计算文字概率时结合了文字所处的语句语境,而且采用了一种文字概率判断、替换文字判断以及混淆集判断相结合的策略来代替简单的单一概率阈值判断的策略进行错别字检测,使得错别字判断策略更为灵活和有效,从而大大提高了错别字检测的准确率。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1