文本纠错方法、装置及通信设备与流程

文档序号:25423697发布日期:2021-06-11 21:36阅读:80来源:国知局
文本纠错方法、装置及通信设备与流程
本申请属于文本纠错
技术领域
,尤其涉及文本纠错方法、装置、通信设备及计算机可读存储介质。
背景技术
:文本纠错长期以来是自然语言处理的一大技术难题,通常文本纠错在很多人机会话系统都会涉及,以提升对话系统的体验。文本纠错可通过先检错再纠错的方式实现。例如采用传统的n-gram,贝叶斯等方法都能实现句子的检错,纠错的模块通常采用计算编辑距离来找错误和纠正错误。其中,n-gram是一种基于统计的语言模型,常常用来做句子相似度比较,句子合理性判断。即在现有的文本纠错方法中,通常通过n-gram对待纠错文本进行相似度比较和距离合理性判断后,得出待纠错文本中存在错误的具体位置,再采用计算编辑距离实现错误的纠正。但现有的文本纠错方法仍存在纠错准确率较低的问题。技术实现要素:本申请实施例提供了文本纠错方法,可以解决现有的文本存在的纠错准确率较低问题。第一方面,本申请实施例提供了一种文本纠错方法,包括:对待纠错文本进行分词,得到对应的词语;根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,所述最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与所述词语的字数相等,所述预设的概率分布表用于存储字、分布概率与词长的对应关系,所述分布概率为所述字组成的不同词长的词语在文本出现的概率;根据目标字在所述待纠错文本中的位置确定待预测字,所述目标字为各个词语出现的每个字中,所在的词语的词长与所述最高词长不相等的字;所述待预测字为所述待纠错文本中将要预测的字,所述待预测字的数量大于或等于所述目标字的数量;根据所述待预测字对所述待纠错文本进行纠错,得到校正文本。第二方面,本申请实施例提供了一种文本纠错装置,包括:分词单元,用于对待纠错文本进行分词,得到对应的词语;最高词长确定单元,用于根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,所述最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与所述词语的字数相等,所述预设的概率分布表用于存储字、分布概率与词长的对应关系,所述分布概率为所述字组成的不同词长的词语在文本出现的概率;待预测字确定单元,用于根据目标字在所述待纠错文本中的位置确定待预测字,所述目标字为各个词语出现的每个字中,所在的词语的词长与所述最高词长不相等的字;所述待预测字为所述待纠错文本中将要预测的字,所述待预测字的数量大于或等于所述目标字的数量;校正文本确定单元,用于根据所述待预测字对所述待纠错文本进行纠错,得到校正文本。第三方面,本申请实施例提供了一种通信设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法。第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在通信设备上运行时,使得通信设备执行上述第一方面中任一项所述的方法。本申请实施例与现有技术相比存在的有益效果是:在本申请实施例中,对待纠错文本进行分词,得到对应的词语后,再根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,最后根据目标字在该待纠错文本中的位置确定待预测字,并根据该待预测字对该待纠错文本进行纠错,得到校正文本。由于目标字为各个词语出现的每个字中,所在的词语的词长与该最高词长不相等的字,而目标字在待纠错文本中的词长与最高词长不同时,该目标字出现错误的概率较高,因此,根据目标字在待纠错文本中的位置确定的待预测字出现错误的概率也较高,也即,本申请实施例提供的文本纠错方法通过统计分词的方式进行检错,能够较快以及较准确地检测出待纠错文本中可能存在错误的字,从而提高了纠错的准确率。可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1是本申请一实施例提供的第一种文本纠错方法的流程图;图2是本申请一实施例提供的第二种文本纠错方法的流程图;图3是本申请一实施例提供的第三种文本纠错方法的流程图;图4是本申请一实施例提供的对“[mask]国是世界文明股国。”进行预测得到的预测结果示意图;图5是本申请另一实施例提供的对“钟[mask]是世界文明股国。”进行预测得到的预测结果示意图;图6是本申请一实施例提供的对“钟国是世界文明[mask]国。”进行预测得到的预测结果示意图;图7是本申请另一实施例提供的第四种文本纠错方法的流程图;图8是本申请实施例提供的一种混淆集中的第一字和第二字的对应关系的示意图;图9是本申请实施例提供的一种文本纠错装置的结构示意图;图10是本申请实施例提供的通信设备的结构示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。现有的文本纠错方法中,在检错过程中直接给出待纠错文本中一个具体的需要纠错的位置,最后再对该具体的需要纠错的位置上的字进行纠错。但由于检错过程直接给出一个具体的位置,因此,其泛化性较差,进而导致纠错的准确率较低。为了解决上述技术问题,本申请实施例提供了一种文本纠错方法,在该文本纠错方法中,通过统计分词的方式对待纠错文本进行检错,提高了检测的效率,且其比直接给出一个具体的需要纠错的位置的纠错方法更具泛化性,从而提高了纠错的准确率。下面结合具体附图对本申请实施例的文本纠错方法进行描述。图1示出了本申请实施例提供的第一种文本纠错方法的流程图,该文本纠错方法可应用于通信设备中,如应用在机器人中,详述如下:步骤s11,对待纠错文本进行分词,得到对应的词语。其中,待纠错文本为中文文本。本实施例中,可采用预设的分词器对待纠错文本进行分词,该预设的分词器可为结巴(jieba)分词器。在一些实施例中,预设的分词器也可以为训练后的分词器,具体训练过程如下:1)首先获取大量的中文文本,这些中文文本可以是人民日报语料、网页端新闻语料、书籍、微博发帖等文本。2)再将所获得的中文文本进行分词,确定分词得到的各个词语中每个字对应的频次,进而确定包含各个中文文本的每个字的概率分布表。如将中文文本“中国是世界文明古国。”进行分词并去掉标点符号后,得到的结果为【“中国”,“是”,“世界”,“文明”,“古国”】。其中,“中”字与“中国”分在一起,则该中文文本记“中”在2个字(双字)的频度为1;“国”字与“中国”及“古国”分在一起,则该中文文本记“国”在2个字的频度为2。对所有的语料文本分别进行单字、双字、仨字等分词后再进行对应的频度统计,可得到中文文本中各个字在单字、双字、仨字等的频度。假设统计得到的“国”字和“是”字在单字、双字、仨字等的概率分布表如表1所示,其中单字、双字、仨字分别表示分词后当前字处在多长的一个词中,例如,“仨字”表示当前字所在的词语的词长为3。总频次即将各字的频次相加后的总和,其中单字分布概率(简称单字率)为单字出现的频次除以总频次,双字分布概率(简称双字率)和仨字分布概率(简称仨字率)等与得到单字率的方法类似。表1:分词后“国”字和“是”字的概率分布表:当然,表1可以只包含字、分布概率和对应的词长,其余可不包括,比如,可以不包括“总频次”。3)训练分词器:将1)中收集的中文文本使用jieba分词器进行分词,分词的结果转写成bies的格式,该bies格式如表2所示:表2:分词对应的bies标记法输入一九九九年是迈向充满希望的新世纪输出biiiesbebebessbe其中,b表示分词后得到的词语的开头,i是词语的中间,e是词语的结尾,s是单字词。将所得的使用bies标识的词语进行人工校验,即通过人工进一步校验词语是否通过bies正确标识,再将人工校验后的数据进行分词器的训练,待训练的分词器可选择bilstm+条件随机场(conditionalrandomfield,crf)模型。其中,前向的长短期记忆网络(longshort-termmemory,lstm)lstm与后向的lstm结合成bilstm。步骤s12,根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,该最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与该词语的字数相等,该预设的概率分布表用于存储字、分布概率与词长的对应关系,该分布概率为该字组成的不同词长的词语在文本出现的概率。步骤s13,根据目标字在该待纠错文本中的位置确定待预测字,该目标字为各个词语出现的每个字中,所在的词语的词长与该最高词长不相等的字;该待预测字为该待纠错文本中将要预测的字,该待预测字的数量大于或等于该目标字的数量。当待纠错文本的词语中的字所对应的词长不等于该字对应的最高词长时,表明该字极可能存在错误,因此,根据该字在待纠错文本中的位置确定的待预测字更准确。例如,假设待纠错文本为“钟国是世界文明股国。”,对该待纠错文本进行分词后得到的结果为【“钟”,“国”,“是”,“世界”,“文明”,“股”,“国”】。假设根据预设的概率分布表确定出分词后的结果中“国”字对应的最高词长为“2”,即其“国”字的双字率高于单字率、仨字率等分布概率,则该“国”字为“目标字”,再将该目标字、该目标字的前面和/或后面的字确定为待预测字,只需保证待预测字的数量大于或等于目标字的数量即可。在一些实施例中,该步骤s13包括:根据目标字在该待纠错文本中的位置以及该目标字对应的最高词长确定待预测字。本实施例中,由于待预测字与目标字对应的最高词长有关,因此,当最高词长不同时,其对应的待预测字也不同,而在实际的中文文本中,当一个字出现错误时,由该字所组成的词语出现的概率也较大,因此,通过设置待预测字与目标字对应的最高词长有关能够提高检测出错误的字的检测概率。在一些实施例中,待预测字的数量=2*最高词长-1,例如,假设目标字对应最高词长为2,则待预测字的数量=2*2-1=3。此时,可以将目标字、目标字前面的一个字以及该目标字后面的一个字确定为待预测字。若待纠错文本为“钟国是世界文明股国。”,则将“国”字、该“国”字前后各一个字mask掉,共mask掉三个字,即得到3个待检测字。其它的各分词的结果都按照上述的标准一一比对,得到大概率分错词的位置,并按照字长进行mask操作。其中分词后字长为1的也需要进行mask处理,本实施例中的“是”即为这种情况,即需要对“是”本身进行mask处理,但因为“国”字的原因需要将“是”字进行mask,所以这两种情况的mask状态一致,合并为一种状态表达。对待纠错文本进行mask后,得到的mask状态表如表3所示。表3:步骤s14,根据该待预测字对该待纠错文本进行纠错,得到校正文本。本实施例中,可通过对该待预测字进行纠错得到待纠错文本对应的校正文本。也可根据该待预测字得到预测文本后,再从预测文本中得到校正文本。在本申请实施例中,对待纠错文本进行分词,得到对应的词语后,再根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,最后根据目标字在该待纠错文本中的位置确定待预测字,并根据该待预测字对该待纠错文本进行纠错,得到校正文本。由于目标字为各个词语出现的每个字中,所在的词语的词长与该最高词长不相等的字,而目标字在待纠错文本中的词长与最高词长不同时,该目标字出现错误的概率较高,因此,根据目标字在待纠错文本中的位置确定的待预测字出现错误的概率也较高,也即,本申请实施例提供的文本纠错方法通过统计分词的方式进行检错,能够较快以及较准确地检测出待纠错文本中可能存在错误的字,从而提高了纠错的准确率。图2示出了本申请实施例提供的第二种文本纠错方法的流程图,在本实施例中,主要对步骤s14进一步细化,步骤s21~步骤s23与上述步骤s11~步骤s13相同,此处不再赘述:步骤s21,对待纠错文本进行分词,得到对应的词语。步骤s22,根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,该最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与该词语的字数相等,该预设的概率分布表用于存储字、分布概率与词长的对应关系,该分布概率为该字组成的不同词长的词语在文本出现的概率。步骤s23,根据目标字在该待纠错文本中的位置确定待预测字,该目标字为各个词语出现的每个字中,所在的词语的词长与该最高词长不相等的字;该待预测字为该待纠错文本中将要预测的字,该待预测字的数量大于或等于该目标字的数量。步骤s24,对该待预测字进行预测,得到对应的预测字。本实施例中,若待预测字的个数大于1,则需要分别对待纠错文本中的各个待预测字进行预测,得到对应的预测字。具体地,可采用bert(bidirectionalencoderrepresentationsfromtransformers)模型对待预测字进行预测。步骤s25,根据该预测字和该待纠错文本中除该待预测字之外的字确定预测文本,以及,根据该待预测字和该待纠错文本中除该待预测字之外的字确定预测文本。其中,上述的预测字可以为一个或多个字,例如,可根据一个预测字、该预测字对应的所有待预测字以及待纠错文本中除该待预测字之外的字确定预测文本,也可根据多个预测字,该多个预测字对应的所有待预测字以及待纠错文本中除该待预测字之外的字确定预测文本。例如,根据表3可知,待预测字为“钟”、“国”、“是”、“明”、“股”、“国”,假设“钟”对应的预测字为“中”和“我”,“股”对应的预测字为“古”和“大”,则当待预测字为“钟”时,待纠错文本中除该“钟”之外的字为“国是世界文明股国”,则根据一个预测字、该预测字对应的所有待预测字以及待纠错文本中除该待预测字之外的字确定预测文本具体为:根据“钟”、“中”、“我”和“国是世界文明股国”确定预测文本-----“中国是世界文明股国”、“我国是世界文明股国”和“钟国是世界文明股国”。步骤s26,根据该预测文本确定校正文本。本实施例中,当得到一个或多个预测文本后,再从该一个或多个预测文本中确定待纠错文本对应的校正文本。在一些实施例中,通过对预测文本是否为语句进行概率预测来确定校正文本,此时,上述步骤s26包括:a1、对该预测文本是否为语句进行概率预测,得到不同预测文本所对应的概率值。a2、将最高的概率值所对应的预测文本确定为校正文本。例如,通过对大量的中文文本进行统计分析后,得出不同字、词语之间的关系,比如,得出词语的后面(或前面)跟着的不同的字、词语时所对应的概率,再结合得出的不同字、词语之间的关系对预测文本是否为正常语句进行概率预测,得到该预测文本为一个正确语句的概率值,最后再选出概率值最高的预测文本作为校正文本。由于还对预测文本是否为语句进行概率预测,且校正文本为概率值最高的预测文本,而正确的校正文本为一条语句,因此,通过上述处理,进一步提高了纠错的准确率。在本申请实施例中,由于预测文本是根据预测字以及待纠错文本中除待预测字之外的字确定预测文本,或者,根据待预测字以及待纠错文本中除待预测字之外的字确定预测文本,也即,预测文本不单单根据预测字确定,因此,增加了预测文本的可能性,从而有利于提高确定出的校正文本的准确性。图3示出了本申请实施例提供的第三种文本纠错方法的流程图,在本实施例中,主要对步骤s24和步骤s25进一步细化,步骤s31~步骤s33与步骤s21~步骤s23相同,步骤s36和步骤s26相同,此处不再赘述。步骤s31,对待纠错文本进行分词,得到对应的词语。步骤s32,根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,该最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与该词语的字数相等,该预设的概率分布表用于存储字、分布概率与词长的对应关系,该分布概率为该字组成的不同词长的词语在文本出现的概率。步骤s33,根据目标字在该待纠错文本中的位置确定待预测字,该目标字为各个词语出现的每个字中,所在的词语的词长与该最高词长不相等的字;该待预测字为该待纠错文本中将要预测的字,该待预测字的数量大于或等于该目标字的数量。步骤s34,对该待预测字进行预测,得到对应的预测字和预测概率,该预测概率用于指示该待预测字为该预测字的概率。例如,对表3中的第一种mask状态,“[mask]国是世界文明股国。”进行bert预测时,得到mask位置处是“中”字的预测概率为65.3%,为“我”的预测概率是32.3%,为“德”的预测概率是0.5%,为“美”的预测概率是0.5%,为“祖”的预测概率是0.5%。该bert预测可直接调用开源的huggingface的tranformers包得到。其中,huggingface是一家总部位于纽约的聊天机器人初创服务商,tranformers包含多个功能模块,比如包含bert模型。由于输出的结果还包括预测概率,即带有统计概率信息,因此对后续确定纠错位置更有优势。该步骤s35,若得到的该预测字的数量大于预设的字数量,则根据该大于概率阈值的预测概率所对应的预测字和该待纠错文本中除该待预测字之外的字确定预测文本,以及,根据该待预测字和该待纠错文本中除该待预测字之外的字确定预测文本。其中,概率阈值可设置为动态值,比如,与当前预测字对应的预测概率有关----当各个预测字对应的预测概率均较小(比如,各个预测概率的均值小于某个数值,则判定预测概率均较小)时,设置的概率阈值也较小,当各个预测字对应的预测概率均较大时,设置的概率阈值也较大。当然,该概率阈值也可以设置为一个固定值。继续以对“[mask]国是世界文明古国。”进行bert预测得到的预测结果(预测字)为例,由于预测出的结果比较多(有5个),为了提高处理速度,则可以只选择预测概率超过10%的结果进行词对的保存,保存形式可以为{‘钟’:[(‘中’,0.653),(‘我’,0.323)]},这样,预测字只剩下“中”和“我”,后续根据“钟”对应的预测字确定预测文本时,只根据“中”和“我”进行确定即可,从而在提高得到预测文本的速度的基础上也能保证预测文本的有效性。步骤s36,根据该预测文本确定校正文本。本申请实施例中,当判断出预测字的数量大于预设的字数量后,只根据大于概率阈值的预测概率所对应的预测字以及待纠错文本中除待预测字之外的字确定预测文本,以及,根据该待预测字和该待纠错文本中除该待预测字之外的字确定预测文本,也即,若预测概率小于或等于概率阈值的预测字将不再用于确定预测文本,因此减少了预测概率低的预测字所生成的预测文本的数量,从而有利于后续快速、准确地确定出校正文本。为了更具体地显示通过bert模型进行预测后得到的预测结果,下面以一具体例子进行说明。假设采用bert模型对表3中的mask状态进行预测,得到以下结果:当mask在“钟”的位置,即对“[mask]国是世界文明股国。”进行预测时,得到如图4所示的预测结果,在图4中,“cls”表示文本开始,“sep”表示文本结束,右边的数字表示“钟”的位置分别为“中”、“我”、“德”、“美”、“祖”时的预测概率,每个文本上面的线条与预测概率对应,当预测概率越大,其对应的线条长度越长,通过这样表示,便于用户直观确定预测概率的大小。当mask分别在“国”、“股”的位置,即分别对“钟[mask]是世界文明股国。”、“钟国是世界文明[mask]国。”进行预测时,得到如图5、图6所示的预测结果。图7示出了本申请实施例提供的第四种文本纠错方法的流程图,在本实施例中,主要对步骤s25进一步细化,步骤s71~步骤s74与步骤s21~步骤s24相同,步骤s76和步骤s26相同,此处不再赘述。步骤s71,对待纠错文本进行分词,得到对应的词语。步骤s72,根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,该最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与该词语的字数相等,该预设的概率分布表用于存储字、分布概率与词长的对应关系,该分布概率为该字组成的不同词长的词语在文本出现的概率。步骤s73,根据目标字在该待纠错文本中的位置确定待预测字,该目标字为各个词语出现的每个字中,所在的词语的词长与该最高词长不相等的字;该待预测字为该待纠错文本中将要预测的字,该待预测字的数量大于或等于该目标字的数量。步骤s74,对该待预测字进行预测,得到对应的预测字。步骤s75,若预设的混淆集存在该待预测字与该预测字的对应关系,则根据存在该对应关系的预测字和该待纠错文本中除该待预测字之外的字确定预测文本,以及,根据该待预测字和该待纠错文本中除该待预测字之外的字确定预测文本,该预设的混淆集用于存储第一字与第二字的对应关系,该第二字的拼音与该第一字的拼音存在预设关系,该预设关系包括拼音相同的关系,和/或,该第二字的字形与该第一字的字形存在相似的关系。在本实施例中,第二字的个数通常有多个,即一个第一字与多个第二字对应,例如,假设预设的混淆集中的第一字和第二字的拼音相同,且第一字为“中”,则其对应关系可如图8所示,当然,图8仅列出几个拼音完全与第一字“中”的拼音相同的第二字,在实际情况中,还可以将拼音相同,但音调不同的字也作为与第一字的拼音相同的第二字。在另一些实施例中,也可将具有相似拼音的字作为与第一字对应的第二字,即第一字的拼音和第二字的拼音存在拼音相似的关系,这里相似的拼音包括平舌音与翘舌音,前鼻音和后鼻音等。本实施例中,判断预设的混淆集是否存在待预测字与预测字的对应关系,并根据存在对应关系的预测字和待纠错文本中除该待预测字之外的字确定预测文本,以及,根据待预测字和待纠错文本中除待预测字之外的字确定预测文本。而预设的混淆集用于存储第一字与第二字的对应关系,且第二字的拼音与第一字的拼音存在预设关系,该预设关系包括拼音相同的关系,和/或,第二字的字形与第一字的字形存在相似的关系,也即,在生成预测文本的过程中考虑到了同音字和相似字的情况,因此,使得生成的预测文本更解决与正确的文本。例如,假设得到“钟”的预测字分别为“中”和“我”,且预设的混淆集中存在“钟”和“中”的对应关系,则后续根据预测字“中”生成预测文本,而丢弃预测字“我”。步骤s76,根据该预测文本确定校正文本。在一些实施例中,若该预设的混淆集不存在该待预测字与该预测字的对应关系,则将该待纠错文本作为该校正文本。本实施例中,若该预设的混淆集不存在该待预测字与该预测字的对应关系,则表明待纠错文本无需纠错,此时,直接将待纠错文本作为校正文本即可。在一些实施例中,可以将本申请实施例提供的第三种文本纠错方法和第四种文本纠错方法相结合,即在对待预测字进行预测,得到对应的预测字和预测概率后,若预测字的数量大于预设的字数量,则保留大于概率阈值的预测概率所对应的预测字,之后判断预设的混淆集是否存在待预测字与保留的预测字的对应关系,若存在,则根据存在对应关系的预测字和待纠错文本中除该待预测字之外的字确定预测文本,以及,根据该待预测字和该待纠错文本中除该待预测字之外的字确定预测文本。通过将两种方法进行结合,能够进一步提高纠错的准确率。应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。对应于上文实施例所述的种文本纠错方法,图9示出了本申请实施例提供的种文本纠错装置的结构框图,该种文本纠错装置可应用于通信设备中,为了便于说明,仅示出了与本申请实施例相关的部分。参照图9,该种文本纠错装置9包括:分词单元91、最高词长确定单元92、待预测字确定单元93、校正文本确定单元94。其中:分词单元91,用于对待纠错文本进行分词,得到对应的词语。本实施例中,可采用预设的分词器对待纠错文本进行分词,该待纠错文本为中文文本。最高词长确定单元92,用于根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,该最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与该词语的字数相等,该预设的概率分布表用于存储字、分布概率与词长的对应关系,该分布概率为该字组成的不同词长的词语在文本出现的概率。待预测字确定单元93,用于根据目标字在该待纠错文本中的位置确定待预测字,该目标字为各个词语出现的每个字中,所在的词语的词长与该最高词长不相等的字;该待预测字为该待纠错文本中将要预测的字,该待预测字的数量大于或等于该目标字的数量。校正文本确定单元94,用于根据该待预测字对该待纠错文本进行纠错,得到校正文本。本申请实施例中,由于目标字为各个词语出现的每个字中,所在的词语的词长与该最高词长不相等的字,而目标字在待纠错文本中的词长与最高词长不同时,该目标字出现错误的概率较高,因此,根据目标字在待纠错文本中的位置确定的待预测字出现错误的概率也较高,也即,本申请实施例提供的文本纠错装置通过统计分词的方式进行检错,能够较快以及较准确地检测出待纠错文本中可能存在错误的字,从而提高了纠错的准确率。在一些实施例中,该校正文本确定单元94,包括:预测字确定模块,用于对该待预测字进行预测,得到对应的预测字;预测文本确定模块,用于根据该预测字和该待纠错文本中除该待预测字之外的字确定预测文本,以及,根据该待预测字和该待纠错文本中除该待预测字之外的字确定预测文本;预测文本处理模块,用于根据该预测文本确定校正文本。在一些实施例中,该预测字确定模块,用于对该待预测字进行预测,得到对应的预测字和预测概率,该预测概率用于指示该待预测字为该预测字的概率。对应地,该预测文本确定模块,具体用于:若得到的该预测字的数量大于预设的字数量,则根据该大于概率阈值的预测概率所对应的预测字和该待纠错文本中除该待预测字之外的字确定预测文本,以及,根据该待预测字和该待纠错文本中除该待预测字之外的字确定预测文本。其中,概率阈值可设置为动态值,比如,与当前预测字对应的预测概率有关----当各个预测字对应的预测概率均较小(比如,各个预测概率的均值小于某个数值,则判定预测概率均较小)时,设置的概率阈值也较小,当各个预测字对应的预测概率均较大时,设置的概率阈值也较大。当然,该概率阈值也可以设置为一个固定值。在一些实施例中,该预测文本确定模块,具体用于:若预设的混淆集存在该待预测字与该预测字的对应关系,则根据存在该对应关系的预测字和该待纠错文本中除该待预测字之外的字确定预测文本,以及,根据该待预测字和该待纠错文本中除该待预测字之外的字确定预测文本,该预设的混淆集用于存储第一字与第二字的对应关系,该第二字的拼音与该第一字的拼音存在预设关系,该预设关系包括拼音相同的关系,和/或,该第二字的字形与该第一字的字形存在相似的关系。在另一些实施例中,也可将具有相似拼音的字作为与第一字对应的第二字,即第一字的拼音和第二字的拼音存在拼音相似的关系,这里相似的拼音包括平舌音与翘舌音,前鼻音和后鼻音等。在一些实施例中,纠错单元,用于若该预设的混淆集不存在该待预测字与该预测字的对应关系,则将该待纠错文本作为该校正文本。在一些实施例中,待预测字确定单元93具体用于:根据目标字在该待纠错文本中的位置以及该目标字对应的最高词长确定待预测字。在一些实施例中,待预测字的数量=2*最高词长-1。在一些实施例中,上述校正文本确定单元94,包括:概率值确定模块,用于对该预测文本是否为语句进行概率预测,得到不同预测文本所对应的概率值;校正文本确定模块,用于将最高的概率值所对应的预测文本确定为校正文本。在一些实施例中,将预测概率与混淆集相结合,此时,该预测文本确定模块具体用于:若得到的该预测字的数量大于预设的字数量,则保留大于概率阈值的预测概率所对应的预测字,之后判断预设的混淆集是否存在待预测字与保留的预测字的对应关系,若存在,则根据存在对应关系的预测字和待纠错文本中除该待预测字之外的字确定预测文本,以及,根据该待预测字和该待纠错文本中除该待预测字之外的字确定预测文本。需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。图10为本申请一实施例提供的通信设备的结构示意图。如图10所示,该实施例的通信设备10包括:至少一个处理器100(图10中仅示出一个处理器)、存储器101以及存储在该存储器101中并可在该至少一个处理器100上运行的计算机程序102,该处理器100执行该计算机程序102时实现上述任意各个方法实施例中的步骤:对待纠错文本进行分词,得到对应的词语;根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,上述最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与上述词语的字数相等,上述预设的概率分布表用于存储字、分布概率与词长的对应关系,上述分布概率为上述字组成的不同词长的词语在文本出现的概率;根据目标字在上述待纠错文本中的位置确定待预测字,上述目标字为各个词语出现的每个字中,所在的词语的词长与上述最高词长不相等的字;上述待预测字为上述待纠错文本中将要预测的字,上述待预测字的数量大于或等于上述目标字的数量;根据上述待预测字对上述待纠错文本进行纠错,得到校正文本。可选地,上述根据上述待预测字对上述待纠错文本进行纠错,得到校正文本,包括:对上述待预测字进行预测,得到对应的预测字;根据上述预测字和上述待纠错文本中除上述待预测字之外的字确定预测文本,以及,根据上述待预测字和上述待纠错文本中除上述待预测字之外的字确定预测文本;根据上述预测文本确定校正文本。可选地,上述对上述待预测字进行预测之后,还得到:预测概率,上述预测概率用于指示上述待预测字为上述预测字的概率;上述根据上述预测字和上述待纠错文本中除上述待预测字之外的字确定预测文本,以及,根据上述待预测字和上述待纠错文本中除上述待预测字之外的字确定预测文本,包括:若得到的上述预测字的数量大于预设的字数量,则根据上述大于概率阈值的预测概率所对应的预测字和上述待纠错文本中除上述待预测字之外的字确定预测文本,以及,根据上述待预测字和上述待纠错文本中除上述待预测字之外的字确定预测文本。可选地,上述根据上述预测字和上述待纠错文本中除上述待预测字之外的字确定预测文本,以及,根据上述待预测字和上述待纠错文本中除上述待预测字之外的字确定预测文本,包括:若预设的混淆集存在上述待预测字与上述预测字的对应关系,则根据存在上述对应关系的预测字和上述待纠错文本中除上述待预测字之外的字确定预测文本,以及,根据上述待预测字和上述待纠错文本中除上述待预测字之外的字确定预测文本,上述预设的混淆集用于存储第一字与第二字的对应关系,上述第二字的拼音与上述第一字的拼音存在预设关系,上述预设关系包括拼音相同的关系,和/或,上述第二字的字形与上述第一字的字形存在相似的关系。可选地,若上述预设的混淆集不存在上述待预测字与上述预测字的对应关系,则将上述待纠错文本作为上述校正文本。可选地,上述根据目标字在上述待纠错文本中的位置确定待预测字,包括:根据目标字在上述待纠错文本中的位置以及上述目标字对应的最高词长确定待预测字。可选地,上述根据上述预测文本确定校正文本,包括:对上述预测文本是否为语句进行概率预测,得到不同预测文本所对应的概率值;将最高的概率值所对应的预测文本确定为校正文本。该通信设备10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该通信设备可包括,但不仅限于,处理器100、存储器101。本领域技术人员可以理解,图10仅仅是通信设备10的举例,并不构成对通信设备10的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。所称处理器100可以是中央处理单元(centralprocessingunit,cpu),该处理器100还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器101在一些实施例中可以是该通信设备10的内部存储单元,例如通信设备10的硬盘或内存。该存储器101在另一些实施例中也可以是该通信设备10的外部存储设备,例如该通信设备10上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,该存储器101还可以既包括该通信设备10的内部存储单元也包括外部存储设备。该存储器101用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等,例如该计算机程序的程序代码等。该存储器101还可以用于暂时地存储已经输出或者将要输出的数据。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将该装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本申请实施例还提供了一种网络设备,该网络设备包括:至少一个处理器、存储器以及存储在该存储器中并可在该至少一个处理器上运行的计算机程序,该处理器执行该计算机程序时实现上述任意各个方法实施例中的步骤。本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,该计算机程序包括计算机程序代码,该计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。该计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/通信设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,该模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。以上该实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1