错别字检测方法、装置及计算机可读存储介质、终端设备与流程

文档序号:15999238发布日期:2018-11-20 19:14阅读:来源:国知局

技术特征:

1.一种错别字检测方法,其特征在于,包括:

接收待检测语句;

根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率;

当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;

当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;

根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;

分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;

根据每个所述语句概率,判断所述待检测文字是否为错别字。

2.如权利要求1所述的错别字检测方法,其特征在于,所述当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率,具体包括:

当判定所述待检测文字的文字概率p满足0.00001≤p≤0.1时,获得所述待检测文字对应的K个所述替换文字;

根据所述待检测语句中的每个文字,分别获得每个所述替换文字的文字概率。

3.如权利要求1所述的错别字检测方法,其特征在于,在所述当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率之后,所述当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集之前,还包括:

将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列,获得所述待检测文字的排列次序k;

则当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集,具体包括:

当判定k≥K1时,获得与所述待检测文字相对应的所述混淆集;其中,K1=(K+1)*20%。

4.如权利要求1所述的错别字检测方法,其特征在于,所述根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句,具体包括:

根据所述待检测语句中的每个文字,获得每个所述混淆文字的文字概率;

将每个所述混淆文字按照所述文字概率从大到小的顺序排列,将排列于前N位的混淆文字作为目标混淆文字;

将所述待检测语句中的所述待检测文字依次替换为各个所述目标混淆文字,获得对应的N个所述混淆语句。

5.如权利要求1所述的错别字检测方法,其特征在于,所述分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率,具体包括:

分别获得所述待检测语句中的每个文字的文字概率和每个所述混淆语句中的每个文字的文字概率;

根据预设的语句概率计算模型分别计算获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;其中,PA为当前计算语句A的语句概率,B为当前计算语句A中的文字的总个数,Pai为当前计算语句A中的第i个文字的文字概率。

6.如权利要求1所述的错别字检测方法,其特征在于,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括:

将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;

当n<N1时,判定所述待检测文字为正确字;其中,N1=(N+1)*7%;

当n≥N1时,判定所述待检测文字为错别字。

7.如权利要求1所述的错别字检测方法,其特征在于,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括:

将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;

当n=1时,判定所述待检测文字为正确字;

当n≠1时,判定所述待检测文字为错别字。

8.一种错别字检测装置,其特征在于,包括:

语句接收模块,用于接收待检测语句;

待检测文字概率获取模块,用于根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率;

替换文字概率获取模块,用于当判定所述待检测文字的文字概率满足第一预设条件时,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;

混淆集获取模块,用于当根据每个所述替换文字的文字概率判定所述待检测文字的文字概率满足第二预设条件时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;

混淆语句获取模块,用于根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;

语句概率获取模块,用于分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;以及,

文字判断模块,用于根据每个所述语句概率,判断所述待检测文字是否为错别字。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至7中任一项所述的错别字检测方法。

10.一种终端设备,其特征在于,包括至少一个存储器以及至少一个处理器;其中,

所述存储器包括存储的至少一个计算机程序;

所述处理器用于执行所述计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1至7中任一项所述的错别字检测方法。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1