错别字检测方法、装置及计算机可读存储介质、终端设备与流程

文档序号:16247698发布日期:2018-12-11 23:44阅读:182来源:国知局
错别字检测方法、装置及计算机可读存储介质、终端设备与流程

本发明涉及文本处理技术领域,尤其涉及一种错别字检测方法、装置及计算机可读存储介质、终端设备。

背景技术

文本是记载信息的重要载体,随着信息处理技术和互联网技术的高速发展,传统的文本工作已逐渐被计算机等电子设备所取代,文本的生成方式也相应的由人工书写变成了人工编辑,而人工编辑在实际操作时可能会出现操作失误的情况,导致人工编辑的文本中出现错别字,从而影响文本质量,因此,对错别字的检测具有十分重要的意义。

现有技术提供的错别字检测方法大都在接收到用户输入的文字后,对用户输入的文字进行一定的处理,然后计算得到处理之后的文字的概率并与预设的概率阈值进行比较,最后根据比较结果确定用户输入的文字是否为错别字,当计算得到文字的概率小于预设的概率阈值时,判定用户输入的文字为错别字,当计算得到文字的概率不小于预设的概率阈值时,判定用户输入的文字为正确字;由此可见,现有技术提供的技术方案在计算得到文字的概率之后往往只根据一个概率阈值来判断文字的正确性,判断方式较为简单,且没有考虑到文字所处的语句语境,因此,错别字的检测结果可能与实际情况不符,检测准确率低。



技术实现要素:

本发明实施例所要解决的技术问题在于,提供一种错别字检测方法、装置及计算机可读存储介质、终端设备,能够提高错别字检测的准确率。

为了解决上述技术问题,本发明实施例提供了一种错别字检测方法,包括:

接收待检测语句;

根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率和所述待检测文字的k个替换文字的文字概率;其中,k≥1;

将所述待检测文字和每个所述替换文字按照文字概率从大到小的顺序排列,获得文字序列;

根据所述文字序列,获得第一阈值k1、第二阈值k2和所述待检测文字的排列次序k;其中,所述第一阈值k1满足使得所述文字序列中的前k1个文字的文字概率符合预设的第一条件;所述第二阈值k2满足使得所述文字序列中的前k2个文字的文字概率符合预设的第二条件;

根据所述第一阈值k1、所述第二阈值k2和所述排列次序k,判断所述待检测文字是否为错别字。

与现有技术相比,本发明实施例提供了一种错别字检测方法,根据待检测语句中的每个文字获得待检测文字的文字概率和待检测文字的替换文字的文字概率,并将待检测文字和替换文字按照文字概率进行排序,根据排序后的文字序列获得满足一定条件的第一阈值和第二阈值以及待检测文字的排列次序,根据第一阈值、第二阈值和待检测文字的排列次序判断待检测文字是否为错别字,可以解决现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,能够提高错别字检测的准确率。

进一步地,所述所述第一阈值k1满足使得所述文字序列中的前k1个文字的文字概率符合预设的第一条件,具体包括:

所述第一阈值k1满足使得所述文字序列中的前k1-1个文字的文字概率之和小于预设的第一概率阈值,且所述文字序列中的前k1个文字的文字概率之和大于所述第一概率阈值。

进一步地,所述第一概率阈值为0.95。

进一步地,所述所述第二阈值k2满足使得所述文字序列中的前k2个文字的文字概率符合预设的第二条件,具体包括:

所述第二阈值k2满足使得所述文字序列中的前k2-1个文字的文字概率之和小于预设的第二概率阈值,且所述文字序列中的前k2个文字的文字概率之和大于所述第二概率阈值。

进一步地,所述第二概率阈值为0.99。

进一步地,所述根据所述第一阈值k1、所述第二阈值k2和所述排列次序k,判断所述待检测文字是否为错别字,具体包括:

当判定k1≤k≤k2时,获得所述待检测文字的混淆集;其中,所述混淆集中包含m个混淆文字,m≥1;

根据所述待检测语句和每个所述混淆文字,判断所述待检测文字是否为错别字。

进一步地,所述方法还包括:

当k<k1时,判定所述待检测文字为正确字;

当k>k2时,判定所述待检测文字为错别字。

本发明实施例还提供了一种错别字检测装置,包括:

语句接收模块,用于接收待检测语句;

文字概率获取模块,用于根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率和所述待检测文字的k个替换文字的文字概率;其中,k≥1;

文字序列获取模块,用于将所述待检测文字和每个所述替换文字按照文字概率从大到小的顺序排列,获得文字序列;

比较阈值获取模块,用于根据所述文字序列,获得第一阈值k1、第二阈值k2和所述待检测文字的排列次序k;其中,所述第一阈值k1满足使得所述文字序列中的前k1个文字的文字概率符合预设的第一条件;所述第二阈值k2满足使得所述文字序列中的前k2个文字的文字概率符合预设的第二条件;以及,

文字判断模块,用于根据所述第一阈值k1、所述第二阈值k2和所述排列次序k,判断所述待检测文字是否为错别字。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的错别字检测方法。

本发明实施例还提供了一种终端设备,包括至少一个存储器以及至少一个处理器;其中,

所述存储器包括存储的至少一个计算机程序;

所述处理器用于执行所述计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的错别字检测方法。

与现有技术相比,本发明实施例提供了一种错别字检测方法、装置及计算机可读存储介质、终端设备,根据待检测语句中的每个文字获得待检测文字的文字概率和待检测文字的替换文字的文字概率,并将待检测文字和替换文字按照文字概率进行排序,根据排序后的文字序列获得满足一定条件的第一阈值和第二阈值以及待检测文字的排列次序,根据第一阈值、第二阈值和待检测文字的排列次序判断待检测文字是否为错别字,可以解决现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,能够提高错别字检测的准确率。

附图说明

图1是本发明提供的错别字检测方法的一个优选实施例的流程图;

图2是本发明提供的错别字检测方法的步骤s15的一个优选实施例的具体流程图;

图3是本发明提供的错别字检测装置的一个优选实施例的结构框图;

图4是本发明提供的终端设备的一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供了一种错别字检测方法。

参见图1所示,是本发明提供的错别字检测方法的一个优选实施例的流程图,包括步骤s11至步骤s15:

步骤s11、接收待检测语句;

步骤s12、根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率和所述待检测文字的k个替换文字的文字概率;其中,k≥1;

步骤s13、将所述待检测文字和每个所述替换文字按照文字概率从大到小的顺序排列,获得文字序列;

步骤s14、根据所述文字序列,获得第一阈值k1、第二阈值k2和所述待检测文字的排列次序k;其中,所述第一阈值k1满足使得所述文字序列中的前k1个文字的文字概率符合预设的第一条件;所述第二阈值k2满足使得所述文字序列中的前k2个文字的文字概率符合预设的第二条件;

步骤s15、根据所述第一阈值k1、所述第二阈值k2和所述排列次序k,判断所述待检测文字是否为错别字。

在本实施例中,当需要判断待检测文字是否为错别字时,首先获取该待检测文字所在的语句,即待检测语句;然后根据该待检测语句中的每个文字,分别计算获得上述待检测文字的文字概率和上述待检测文字的k个替换文字的文字概率;其中,替换文字为预先设置的字典集合中除了待检测文字之外的任意一个文字;将上述待检测文字和k个替换文字按照计算获得的文字概率从大到小的顺序排列,从而获得排序后的文字序列;最后根据排序后的文字序列,分别获得满足预先设置的第一条件的第一阈值k1、满足预先设置的第二条件的第二阈值k2和上述待检测文字在排序后的文字序列中的排列次序k,从而根据获得的第一阈值k1、第二阈值k2和上述待检测文字的排列次序k判断上述待检测文字是否为错别字。

需要说明的是,待检测文字的文字概率和替换文字的文字概率通过采用bi-lstm(bi-directionallongshorttermmemory,双向长短期记忆)模型并调用softmax算法计算获得,且该双向长短期记忆模型为经过深度学习框架编码(如tensorflow)训练后的双向长短期记忆模型。

具体的,上述bi-lstm模型的最后一层与一个softmax层连接,将待检测语句输入该bi-lstm模型,经过softmax层调用softmax算法进行计算,即可根据待检测语句中的每个文字计算获得待检测文字的文字概率;在计算替换文字的文字概率时,需要将待检测语句中的待检测文字依次替换为各个替换文字,从而获得对应的替换语句,再分别将每个替换语句输入经过训练的bi-lstm模型,经过softmax层调用softmax算法即可分别根据每个替换语句中的每个文字对应计算获得每个替换文字的文字概率。

本发明实施例所提供的一种错别字检测方法,根据待检测语句中的每个文字分别获得待检测文字的文字概率和待检测文字的替换文字的文字概率,并根据按照文字概率排序后的文字序列获得满足一定条件的第一阈值和第二阈值以及待检测文字的排列次序,从而根据第一阈值、第二阈值和待检测文字的排列次序判断待检测文字是否为错别字,在计算文字概率时结合了文字所处的语句语境,并采用了一种文字概率排序判断的策略来进行错别字检测,解决了现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,从而提高了错别字检测的准确率。

另外,采用经过训练的bi-lstm模型计算待检测文字的文字概率和替换文字的文字概率时,是根据待检测文字和替换文字所在的语句中的每个文字的信息进行计算,既能利用文字的前向信息,又能利用文字的后向信息,从而使得计算得到的文字概率更加精确。

在另一个优选实施例中,所述所述第一阈值k1满足使得所述文字序列中的前k1个文字的文字概率符合预设的第一条件,具体包括:

所述第一阈值k1满足使得所述文字序列中的前k1-1个文字的文字概率之和小于预设的第一概率阈值,且所述文字序列中的前k1个文字的文字概率之和大于所述第一概率阈值。

本实施例为根据排序后的文字序列获得第一阈值k1的一种方法,具体的,对排序后的文字序列进行遍历,当检测到排列于该文字序列中的第k1位的文字满足前k1-1个文字的文字概率之和小于预先设置的第一概率阈值且前k1个文字的文字概率之和大于该第一概率阈值时,将此时的k1值作为上述第一阈值k1。

在又一个优选实施例中,所述第一概率阈值为0.95。

需要说明的是,本实施例中的0.95为第一概率阈值的一个优选值,即当排序后的文字序列中的前k1-1个文字的文字概率之和小于0.95且前k1个文字的文字概率之和大于0.95时,此时的k1为满足预先设置的第一条件的第一阈值k1。

在又一个优选实施例中,所述所述第二阈值k2满足使得所述文字序列中的前k2个文字的文字概率符合预设的第二条件,具体包括:

所述第二阈值k2满足使得所述文字序列中的前k2-1个文字的文字概率之和小于预设的第二概率阈值,且所述文字序列中的前k2个文字的文字概率之和大于所述第二概率阈值。

本实施例为根据排序后的文字序列获得第二阈值k2的一种方法,具体的,对排序后的文字序列进行遍历,当检测到排列于该文字序列中的第k2位的文字满足前k2-1个文字的文字概率之和小于预先设置的第二概率阈值且前k2个文字的文字概率之和大于该第二概率阈值时,将此时的k2值作为上述第二阈值k2。

在又一个优选实施例中,所述第二概率阈值为0.99。

需要说明的是,本实施例中的0.99为第二概率阈值的一个优选值,即当排序后的文字序列中的前k2-1个文字的文字概率之和小于0.99且前k2个文字的文字概率之和大于0.99时,此时的k2为满足预先设置的第二条件的第二阈值k2。

参见图2所示,是本发明提供的错别字检测方法的步骤s15的一个优选实施例的具体流程图,所述根据所述第一阈值k1、所述第二阈值k2和所述排列次序k,判断所述待检测文字是否为错别字,具体包括步骤s1501至步骤s1502:

步骤s1501、当判定k1≤k≤k2时,获得所述待检测文字的混淆集;其中,所述混淆集中包含m个混淆文字,m≥1;

步骤s1502、根据所述待检测语句和每个所述混淆文字,判断所述待检测文字是否为错别字。

在本实施例中,当根据第一阈值k1、第二阈值k2和待检测文字的排列次序k判断待检测文字是否为错别字时,首先需要比较第一阈值k1、第二阈值k2和待检测文字的排列次序k的大小,当满足k1≤k≤k2时,获得待检测文字的混淆集,从而根据待检测语句和混淆集中的m个混淆文字进一步判断待检测文字是否为错别字。

需要说明的是,混淆文字为预先设置的字典集合中与待检测文字的拼音相同的文字,混淆集为由所有的混淆文字组成的集合。

具体的,首先根据待检测语句中的每个文字计算获得每个混淆文字的文字概率,将所有的混淆文字的文字概率按照从大到小的顺序排列,从而获得所有的混淆文字按照文字概率的排列次序,并选择文字概率最大的n个混淆文字作为目标混淆文字(n可根据实际需要进行选取);随后将待检测语句中的待检测文字依次替换为各个目标混淆文字,从而获得对应的n个目标混淆语句,并分别获得待检测语句中的每个文字的文字概率和n个目标混淆语句中的每个文字的文字概率,从而获得待检测语句的语句概率和n个目标混淆语句的语句概率;最后根据待检测语句的语句概率和n个目标混淆语句的语句概率进一步判断待检测文字是否为错别字。

其中,在计算混淆文字的文字概率时,需要将待检测语句中的待检测文字依次替换为各个混淆文字,从而获得对应的混淆语句,再分别将每个混淆语句输入经过训练的bi-lstm模型,经过softmax层调用softmax算法即可分别根据每个替换语句中的每个文字对应计算获得每个混淆文字的文字概率。

在计算任一语句a的语句概率时,首先要将语句a输入经过训练的bi-lstm模型,经过softmax层调用softmax算法分别计算获得语句a中的b个文字的文字概率pai,然后根据预先设置的语句概率计算公式进行计算,从而获得语句a的语句概率。

需要说明的是,将语句中的所有文字的文字概率的对数和作为该语句的语句概率,可以减小计算量,并且可以避免数字过小产生截断。

以待检测语句“中化人民”为例,其中,“化”字为待检测文字,假设预先设置的字典集合中共有7000个文字(包括待检测文字“化”),分别计算获得7000个文字的文字概率,并将这7000个文字按照文字概率从大到小的顺序排列,从而获得对应的文字序列。

根据文字序列分别获得第一阈值k1、第二阈值k2和“化”字的排列次序k,比较第一阈值k1、第二阈值k2和“化”字的排列次序k的大小,假设第一阈值k1为10,第二阈值k2为100,“化”字的排列次序k为50,满足k1≤k≤k2,则获得“化”字的混淆集,假设预先设置的字典集合中与“化”字的拼音相同的文字共有15个,分别计算获得15个混淆文字的文字概率,并将这15个混淆文字按照文字概率从大到小的顺序排列,选择文字概率排列位于前5位的混淆文字作为目标混淆文字,用这5个目标混淆文字依次替换待检测语句“中化人民”中的“化”字,从而得到对应的5个目标混淆语句。

分别计算获得待检测语句“中化人民”中的每个文字的文字概率和5个目标混淆语句中的每个文字的文字概率,从而获得待检测语句“中化人民”的语句概率和5个目标混淆语句的语句概率,例如,待检测语句“中化人民”中的四个文字的文字概率分别为pa1=p中=p1、pa2=p化=p2、pa3=p人=p3、和pa4=p民=p4,则待检测语句“中化人民”的语句概率为p中化人民=logp1+logp2+logp3+logp4,最后根据待检测语句“中化人民”的语句概率和5个目标混淆语句的语句概率进行进一步的处理。

根据待检测语句的语句概率和n个目标混淆语句的语句概率进一步判断待检测文字是否为错别字的一种方法具体为:

将待检测语句和n个目标替换语句按照语句概率从大到小的顺序排列,从而获得待检测语句的排列次序,并记为n;根据公式n1=(n+1)*7%计算得到n1的值,当n<n1时,说明待检测语句的语句概率排列于所有的语句概率的前7%,因此判定待检测文字为正确字;当n≥n1时,说明待检测语句的语句概率排列于所有的语句概率后93%,因此判定待检测文字为错别字。

需要说明的是,在根据公式计算n1时,如果计算得到的结果为小数,则取与计算结果最接近且大于计算结果的整数作为n1的值。

例如,将待检测语句“中化人民”和5个目标混淆语句共6个语句的语句概率按照从大到小的顺序排列,如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率的前7%,则认为“化”字为正确字;如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率的后93%,则认为“化”字为错别字。

根据待检测语句的语句概率和n个目标混淆语句的语句概率进一步判断待检测文字是否为错别字的另一种方法具体为:

将待检测语句和n个目标替换语句按照语句概率从大到小的顺序排列,从而获得待检测语句的排列次序,并记为n;当n=1时,说明待检测语句的语句概率在所有的语句概率中最大,因此判定待检测文字为正确字;当n≠1时,说明待检测语句的语句概率在所有的语句概率中不是最大,因此判定待检测文字为错别字。

例如,将待检测语句“中化人民”和5个目标混淆语句共6个语句的语句概率按照从大到小的顺序排列,如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率中最大,则认为“化”字为正确字;如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率中不是最大,则认为“化”字为错别字。

本发明实施例所提供的一种错别字检测方法,在第一阈值、第二阈值和待检测文字的排列次序满足一定的条件时,获得待检测文字的混淆集,并根据待检测文字的混淆集中的混淆文字对应获得目标混淆语句,根据待检测语句的语句概率和目标混淆语句的语句概率判断待检测文字是否为错别字,在计算文字概率时结合了文字所处的语句语境,并采用了一种混淆集判断的策略来进一步判断待检测文字是否为错别字,从而进一步提高了错别字检测的准确率。

在又一个优选实施例中,所述方法还包括:

当k<k1时,判定所述待检测文字为正确字;

当k>k2时,判定所述待检测文字为错别字。

本实施例为根据第一阈值k1、第二阈值k2和待检测文字的排列次序k判断待检测文字是否为错别字的另外两种情况,同理,首先比较第一阈值k1、第二阈值k2和待检测文字的排列次序k的大小,若满足k<k1,则判定待检测文字为正确字;若满足k>k2,则判定待检测文字为错别字。

本发明实施例还提供了一种错别字检测装置,能够实现上述任一实施例中的错别字检测方法的所有流程,装置中的各个模块和单元的作用以及实现的技术效果分别与上述实施例中的错别字检测方法的的作用以及实现的技术效果对应相同,这里不再赘述。

参见图3所示,是本发明提供的错别字检测装置的一个优选实施例的结构框图,包括:

语句接收模块11,用于接收待检测语句;

文字概率获取模块12,用于根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率和所述待检测文字的k个替换文字的文字概率;其中,k≥1;

文字序列获取模块13,用于将所述待检测文字和每个所述替换文字按照文字概率从大到小的顺序排列,获得文字序列;

比较阈值获取模块14,用于根据所述文字序列,获得第一阈值k1、第二阈值k2和所述待检测文字的排列次序k;其中,所述第一阈值k1满足使得所述文字序列中的前k1个文字的文字概率符合预设的第一条件;所述第二阈值k2满足使得所述文字序列中的前k2个文字的文字概率符合预设的第二条件;以及,

文字判断模块15,用于根据所述第一阈值k1、所述第二阈值k2和所述排列次序k,判断所述待检测文字是否为错别字。

优选地,所述所述第一阈值k1满足使得所述文字序列中的前k1个文字的文字概率符合预设的第一条件,具体包括:

所述第一阈值k1满足使得所述文字序列中的前k1-1个文字的文字概率之和小于预设的第一概率阈值,且所述文字序列中的前k1个文字的文字概率之和大于所述第一概率阈值。

优选地,所述第一概率阈值为0.95。

优选地,所述所述第二阈值k2满足使得所述文字序列中的前k2个文字的文字概率符合预设的第二条件,具体包括:

所述第二阈值k2满足使得所述文字序列中的前k2-1个文字的文字概率之和小于预设的第二概率阈值,且所述文字序列中的前k2个文字的文字概率之和大于所述第二概率阈值。

优选地,所述第二概率阈值为0.99。

优选地,所述文字判断模块15具体包括:

混淆集获取单元,用于当判定k1≤k≤k2时,获得所述待检测文字的混淆集;其中,所述混淆集中包含m个混淆文字,m≥1;以及,

文字判断模单元,用于根据所述待检测语句和每个所述混淆文字,判断所述待检测文字是否为错别字。

优选地,所述装置还包括:

第一文字判断模块,用于当k<k1时,判定所述待检测文字为正确字;以及,

第二文字判断模块,用于当k>k2时,判定所述待检测文字为错别字。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的错别字检测方法。

本发明实施例还提供了一种终端设备。

参见图4所示,是本发明提供的终端设备的一个优选实施例的结构框图,包括至少一个存储器10以及至少一个处理器20;其中,

所述存储器10包括存储的至少一个计算机程序;

所述处理器20用于执行所述计算机程序,所述处理器20在执行所述计算机程序时实现上述任一实施例所述的错别字检测方法。

需要说明的是,图4仅以该终端设备中的一个存储器和一个处理器相连接为例进行说明,在一些具体的实施例中,该终端设备中还可以包括多个存储器和/或多个处理器,其具体的数目及连接方式可根据实际情况需要进行设置和适应性调整。

综上,本发明实施例所提供的一种错别字检测方法、装置及计算机可读存储介质、终端设备,根据待检测语句中的每个文字分别获得待检测文字的文字概率和待检测文字的替换文字的文字概率,并根据按照文字概率排序后的文字序列获得满足一定条件的第一阈值和第二阈值以及待检测文字的排列次序,从而根据第一阈值、第二阈值和待检测文字的排列次序判断待检测文字是否为错别字,并且在第一阈值、第二阈值和待检测文字的排列次序满足一定的条件时,获得待检测文字的混淆集,根据待检测语句和混淆集中的混淆文字判断待检测文字是否为错别字,不仅在计算文字概率时结合了文字所处的语句语境,而且采用了一种文字概率排序判断和混淆集判断相结合的策略来代替简单的单一概率阈值判断的策略进行错别字检测,使得错别字判断策略更为灵活和有效,从而大大提高了错别字检测的准确率。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1