一种文本修正方法及装置与流程

文档序号:12470049阅读:228来源:国知局
一种文本修正方法及装置与流程
本发明涉及信息处理领域,尤其涉及一种文本修正方法及装置。
背景技术
:传统上人们都是通过打字的方式输入文本,随着技术的发展,又出现了很多新的文本输入(或者说是文本生成)的方式,例如通过语音识别技术将语音转换为文本,通过OCR技术将图片中的文字转换成文本,等等。然而无论传统的打字输入方式还是新的文本输入方式,都面临一个问题,即各种新词(如网络词汇)的不断涌现,给输入系统或识别系统原有的词典库造成了不小的冲击,因各种新词而产生的大量同音词、同义词、形近词等严重影响了输入正确率,导致所输入的文本经常会现一些错误词。例如,用户通过语音输入一个网络词语“酱紫”(意为“这样子”),在转换成文本时可能会被错误地识别成“绛紫”、“降紫”或“降子”等。当检查发现有错误词时,在现有技术中,通常的处理手段是用户将光标移动到错误词所在位置,重新输入正确词,将错误词替换掉,或者通过软件对某个错误词进行通篇的自动查找及替换,从而完成文本修正。然而发明人在实现本发明的过程中发现,现有技术中的这些文本修正方式因为需要用户一一指出有哪些是错误词,所以效率很低。以上文所提到的“酱紫”一词为例,当用户发现其被错误的识别为“绛紫”时,则需要进行一次通篇查找及替换,当用户又发现其被错误的识别为“绛紫”时,也需要进行一次通篇查找及替换,当用户又发现其被错误的识别为“降子”时,还需要进行一次通篇查找及替换,换句话说,用户可能至少需要进行三次通篇查找及替换,才能对“酱紫”一词的各种错误词进行改正。同时,因为需要人工识别出错误词,所以现有技术的准确率也较低,例如全文中可能还存在“酱紫”的其他错误词,但用户在检查过程中未发现,导致出现了遗漏。技术实现要素:本发明提供一种文本修正方法及装置,以提高文本修正的效率和准确率。根据本发明实施例的第一方面,提供一种文本修正方法,所述方法包括:获取待修正的文本数据;获取正确词,所述正确词用于替换所述文本数据中与所述正确词对应的错误词;根据所述正确词找到并替换所述文本数据中的所述错误词。可选的,根据所述正确词找到并替换所述文本数据中的所述错误词,包括:对所述文本数据进行分词,以将所述文本数据切分为多个分词词语;将所述正确词与每个分词词语组成词对;提取每个词对中正确词与分词词语的相似度,所述相似度包括字形相似度、语义相似度及声学相似度;根据每个词对的相似度及预设的判定模型,获取每个词对为目标词对的概率,所述目标词对为词对中的分词词语是与所述正确词对应的错误词的词对;根据各词对的所述概率及预设算法,确定目标词对;使用所述正确词在所述文本数据中替换所述目标词对中的分词词语。可选的,对所述文本数据进行分词之后,将所述正确词与每个分词词语组成词对之前,所述方法还包括:将分词后得到的相邻的两个单字组合成一个分词词语。可选的,提取每个词对中正确词与分词词语的字形相似度,包括:如果当前词对中的正确词与分词词语的字数相同,则将正确词与分词词语的每个单字均转换为四角编码,将正确词与分词词语中各个相应单字的四角编码相同编码数与四角编码总编码数的比值的平均值作为字形相似度;如果当前词对中的正确词与分词词语的字数不相同,则将使用动态规划算法获得的正确词与分词词语的最小编辑距离作为字形相似度。可选的,提取每个词对中正确词与分词词语的语义相似度,包括:对当前词对中的正确词与分词词语分别进行向量化以得到词向量;将正确词与分词词语的词向量之间的距离作为语义相似度。可选的,提取每个词对中正确词与分词词语的声学相似度,包括:确定当前词对中的正确词与分词词语在拼音字符转换距离表中的最小编辑距离路径;根据所述最小编辑距离路径上各个拼音字符的拼音字符转换距离获取正确词与分词词语的拼音字符转换距离;根据所述正确词与分词词语的拼音字符转换距离获取正确词与分词词语的声学距离并将所述声学距离作为声学相似度。可选的,根据各词对的所述概率及预设算法,确定目标词对,包括:判断各词对的所述概率与预设阈值的大小关系;将所述概率大于所述预设阈值的词对确定为目标词对。可选的,根据各词对的所述概率及预设算法,确定目标词对,包括:根据各词对的所述概率对所述词对进行从大到小的排序;将排在前列的预设数量的词对确定为目标词对。可选的,根据各词对的所述概率及预设算法,确定目标词对,包括:在预设词表中分别使用当前词对中的正确词及分词词语进行查找,其中所述预设词表中存储有正确词与错误词的正确对应关系;如果使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语相同,并且,使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词相同,则确定当前词对是一个目标词对;如果使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语不同,并且,使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词也不同,则确定当前词对不是一个目标词对;如果仅出现使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语相同的情况,或者,仅出现使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词相同的情况,则询问用户,并根据用户的指示确定当前词对是否为一个目标词对。根据本发明实施例的第二方面,提供一种文本修正装置,所述装置包括:文本获取模块,用于获取待修正的文本数据;正确词获取模块,用于获取正确词,所述正确词用于替换所述文本数据中与所述正确词对应的错误词;替换模块,用于根据所述正确词找到并替换所述文本数据中的所述错误词。可选的,所述替换模块包括:分词子模块,用于对所述文本数据进行分词,以将所述文本数据切分为多个分词词语;词对生成子模块,用于将所述正确词与每个分词词语组成词对;相似度提取子模块,用于提取每个词对中正确词与分词词语的相似度,所述相似度包括字形相似度、语义相似度及声学相似度;概率获取子模块,用于根据每个词对的相似度及预设的判定模型,获取每个词对为目标词对的概率,所述目标词对为词对中的分词词语是与所述正确词对应的错误词的词对;目标词对确定子模块,用于根据各词对的所述概率及预设算法,确定目标词对;替换子模块,用于使用所述正确词在所述文本数据中替换所述目标词对中的分词词语。可选的,所述替换模块还包括:单字组合子模块,用于将分词后得到的相邻的两个单字组合成一个分词词语。可选的,所述相似度提取子模块在提取每个词对中正确词与分词词语的字形相似度时,用于:如果当前词对中的正确词与分词词语的字数相同,则将正确词与分词词语的每个单字均转换为四角编码,将正确词与分词词语中各个相应单字的四角编码相同编码数与四角编码总编码数的比值的平均值作为字形相似度;如果当前词对中的正确词与分词词语的字数不相同,则将使用动态规划算法获得的正确词与分词词语的最小编辑距离作为字形相似度。可选的,所述相似度提取子模块在提取每个词对中正确词与分词词语的语义相似度时,用于:对当前词对中的正确词与分词词语分别进行向量化以得到词向量;将正确词与分词词语的词向量之间的距离作为语义相似度。可选的,所述相似度提取子模块在提取每个词对中正确词与分词词语的声学相似度时,用于:确定当前词对中的正确词与分词词语在拼音字符转换距离表中的最小编辑距离路径;根据所述最小编辑距离路径上各个拼音字符的拼音字符转换距离获取正确词与分词词语的拼音字符转换距离;根据所述正确词与分词词语的拼音字符转换距离获取正确词与分词词语的声学距离并将所述声学距离作为声学相似度。可选的,所述概率获取子模块用于:判断各词对的所述概率与预设阈值的大小关系;将所述概率大于所述预设阈值的词对确定为目标词对。可选的,所述概率获取子模块用于:根据各词对的所述概率对所述词对进行从大到小的排序;将排在前列的预设数量的词对确定为目标词对。可选的,所述概率获取子模块用于:在预设词表中分别使用当前词对中的正确词及分词词语进行查找,其中所述预设词表中存储有正确词与错误词的正确对应关系;如果使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语相同,并且,使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词相同,则确定当前词对是一个目标词对;如果使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语不同,并且,使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词也不同,则确定当前词对不是一个目标词对;如果仅出现使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语相同的情况,或者,仅出现使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词相同的情况,则询问用户,并根据用户的指示确定当前词对是否为一个目标词对。本发明的实施例提供的技术方案可以包括以下有益效果:在本发明中,当发现文本中出现文字错误时,用户无需给出任何错误词,只需输入正确词即可,系统即自动按照正确词去查找各个对应的错误词。例如,当用户发现文本中出现了将“酱紫”一词错误的写为“绛紫”及“降子”等时,只需要输入正确词即输入“酱紫”,无需指出对应的错误词是“绛紫”还是“降子”,更无需指出各个错误词的位置,系统即可自动按照正确词去寻找与之相对应的各个错误词,并自动使用正确词替换掉所确定的错误词,从而完成了文本修正。因为用户只需要给出正确词即可,无需一一指出有哪些错误词,大大提高了修正效率,且还可以避免因为用户人工查找而可能导致的错误词的遗漏,提高了修正的准确率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。图1是根据本发明一示例性实施例示出的一种文本修正方法的流程图;图2是根据本发明一示例性实施例示出的一种文本修正方法的流程图;图3是根据本发明一示例性实施例示出的一种文本修正方法的流程图;图4是根据本发明一示例性实施例示出的一种文本修正方法的流程图;图5是根据本发明一示例性实施例示出的最小编辑距离路径的示意图;图6是根据本发明一示例性实施例示出的一种文本修正方法的流程图;图7是根据本发明一示例性实施例示出的一种文本修正方法的流程图;图8是根据本发明一示例性实施例示出的一种文本修正方法的流程图;图9是根据本发明一示例性实施例示出的一种文本修正装置的示意图;图10是根据本发明一示例性实施例示出的一种文本修正装置的示意图;图11是根据本发明一示例性实施例示出的一种文本修正装置的示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。图1是根据本发明一示例性实施例示出的一种文本修正方法的流程图。该方法可用于手机等移动终端以及个人电脑、服务器等设备。参见图1所示,该方法可以包括:步骤S101,获取待修正的文本数据。所述待修正的文本数据可以根据用户的需求而确定,对于待修正的文本数据的来源本实施例并不进行限制,例如可以是用户手工输入的文本,也可以是语音识别得到的文本数据,或者,是OCR(OpticalCharacterRecognition,光学字符识别)识别得到的文本数据,等等。步骤S102,获取正确词,所述正确词用于替换所述文本数据中与所述正确词对应的错误词。在本实施例中,当发现存在文本错误时,用户只需要输入正确词即可,无需指出对应的错误词有哪些以及各在什么位置。步骤S103,根据所述正确词找到并替换所述文本数据中的所述错误词。对于具体如何根据所述正确词找到并替换所述文本数据中的所述错误词,本实施例并不进行限制,下面通过图2进行举例说明:参见图2所示,在本实施例或本发明其他某些实施例中,根据所述正确词找到并替换所述文本数据中的所述错误词,即所述步骤S103,可以包括:步骤S201,对所述文本数据进行分词,以将所述文本数据切分为多个分词词语。所使用的分词方法例如可以为基于条件随机场的分词方法,对此本实施例并不进行限制。举例来讲,待修正的文本数据为“我想去没过”,得到的分词结果为“我想去没过”,其中“没过”为错误词,需要修正为“美国”。此外,为了防止分词时漏掉一些词,在本实施例中还可以将分词后得到的相邻的两个单字组合成一个分词词语,也即依次将前一个单字与后一个单字组合成分词词语。例如上面分词结果中包含多个连续单字即“我”、“想”、“去”,将所述单字组合后,得到的分词词语为“我想”及“想去”。步骤S202,将所述正确词与每个分词词语组成词对。例如上例中的正确词“美国”可以和得到的多个分词词语组成以下多个词对:“美国-我”、“美国-想”、“美国-去”、“美国-没过”、“美国-我想”、“美国-想去”。步骤S203,提取每个词对中正确词与分词词语的相似度,所述相似度包括字形相似度、语义相似度及声学相似度。对于具体如何提取这三种相似度,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计,可以在此处使用的这些设计都没有背离本发明的精神和保护范围。步骤S204,根据每个词对的相似度及预设的判定模型,获取每个词对为目标词对的概率,所述目标词对为词对中的分词词语是与所述正确词对应的错误词的词对。所述判定模型可以通过预先构建得到。例如,可以预先收集大量文本数据,人工找到文本数据中存在的错误词并给出错误词对应的正确词,将所述正确词与文本数据中分词后的分词词语组成词对后就可以人工标注每个词对是否为目标词对,即是否是真正的“正确词-错误词”词对。在具体标注时,可以使用0和1作为标注特征,如果当前词对为真正的“正确词-错误词”词对,则标注为1,否则标注为0。然后,提取每个词对中两个词的相似度,即字形相似度、语义相似度、声学相似度。最后将所述相似度及标注特征作为训练数据,训练得到该判定模型。具体训练时,将每个词对的相似度作为模型的输入,将每个词对的标注特征作为模型的输出,对模型参数进行更新,参数更新结束后,得到判定模型。在使用该判定模型时,可以将每个词对中两个词的相似度作为判定模型的输入,然后输出每个词对为真正的“正确词-错误词”词对的概率。步骤S205,根据各词对的所述概率及预设算法,确定目标词对。获得了各词对为目标词对的概率后,就可以根据预设算法筛选出哪些是真正的目标词对。对于预设算法的具体内容本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计,可以在此处使用的这些设计都没有背离本发明的精神和保护范围步骤S206,使用所述正确词在所述文本数据中替换所述目标词对中的分词词语。例如正确词是“美国”,目标词对是“美国-没过”,那么即可在文本数据全文中使用“美国”去替换“没过”,从而完成了修正。在本实施例中,当发现文本中出现文字错误时,用户无需给出任何错误词,只需输入正确词即可,系统即自动按照正确词去查找各个对应的错误词。例如,当用户发现文本中出现了将“酱紫”一词错误的写为“绛紫”及“降子”等时,只需要输入正确词即输入“酱紫”,无需指出对应的错误词是“绛紫”还是“降子”,更无需指出各个错误词的位置,系统即可自动按照正确词去寻找与之相对应的各个错误词,并自动使用正确词替换掉所确定的错误词,从而完成了文本修正。因为用户只需要给出正确词即可,无需一一指出有哪些错误词,大大提高了修正效率,且还可以避免因为用户人工查找而可能导致的错误词的遗漏,提高了修正的准确率。下面对如何提取每个词对中正确词与分词词语的相似度,也即步骤S203,进一步进行举例说明。在本实施例或本发明其他某些实施例中,提取每个词对中正确词与分词词语的字形相似度,具体可以包括:如果当前词对中的正确词与分词词语的字数相同,则将正确词与分词词语的每个单字均转换为四角编码,将正确词与分词词语中各个相应单字的四角编码相同编码数与四角编码总编码数的比值的平均值作为字形相似度。具体计算方法如式(1)所示:T=1n(Σi=1i=nliLi)---(1)]]>其中,T表示词对中两个词的字形相似度,n为词对中每个词的字数,li表示两个词中第i个字的四角编码相同编码数,Li表示两个词中第i个字的四角编码总编码数(通常为4)。举例来讲,对于词对“向去-想去”的字形相似度计算过程如下:“向”的四角编码为2722“想”的四角编码为4633第1个字即“向”和“想”的四角编码总编码数均为4,但没有相同的编码,而对于第2个字“去”和“去”,这样根据公式(1)可算得该词对的字形相似度为0.5。如果当前词对中的正确词与分词词语的字数不相同,则可以将使用动态规划算法获得的正确词与分词词语的最小编辑距离作为字形相似度。具体实现时可以使用现有技术,此处不再赘述。参见图3所示,在本实施例或本发明其他某些实施例中,提取每个词对中正确词与分词词语的语义相似度,具体可以包括:步骤S301,对当前词对中的正确词与分词词语分别进行向量化以得到词向量。步骤S302,将正确词与分词词语的词向量之间的距离作为语义相似度。作为示例,具体的向量化方法可以使用Word2Vec等方法对词对中每个词进行向量化。得到词对中每个词的词向量后,两个词向量的距离可以为余弦距离、欧式距离等,具体计算方法与现有技术相同,在此不再详述。参见图4所示,在本实施例或本发明其他某些实施例中,提取每个词对中正确词与分词词语的声学相似度,具体可以包括:步骤S401,确定当前词对中的正确词与分词词语在拼音字符转换距离表中的最小编辑距离路径。步骤S402,根据所述最小编辑距离路径上各个拼音字符的拼音字符转换距离获取正确词与分词词语的拼音字符转换距离。步骤S403,根据所述正确词与分词词语的拼音字符转换距离获取正确词与分词词语的声学距离并将所述声学距离作为声学相似度。所述声学相似度指两个词在发音上的相似度,使用两个词的声学距离表示,两个词的声学距离越近,则声学相似度越高。可以通过两个词的拼音字符转换距离来计算,即根据拼音字符转换距离表(或者说是拼音字符转换混淆矩阵)中两个拼音字符的转换距离来计算。表1为部分拼音字符转换混淆矩阵,其中,第一行和第一列为相互转换的拼音字符,两字符相交处为转换距离。表1aaianangaobcchdeeienenga‐0.670.650.720.611110.60.8930.880.927ai0.67‐0.70.950.92811110.9140.7630.8660.928an0.6540.699‐0.60.93811110.9540.9440.670.832ang0.7160.950.6‐0.79311110.9720.9710.8770.737根据两个词的拼音字符转换距离计算两个词的声学距离,具体计算方法可以如式(2)所示:Dacou(a1,a2)=11+Dedit(a1,a2)---(2)]]>其中,Dacou(a1,a2)为两个词的声学距离,Dedit(a1,a2)为两个词的拼音字符转换距离。Dedit(a1,a2)可以根据动态规划方法,查找两个词在拼音字符转换距离表中的最小编辑距离路径,将该路径上各个拼音字符的拼音字符转换距离融合后即可得到两个词的拼音字符转换距离Dedit(a1,a2),具体融合方法例如可以取平均、简单累加或加权累加等。举例来讲,“报案”和“备菜”两个词的拼音字符转换距离计算方法如下:1)将每个词转换成拼音报案->baoan备菜->beicai2)根据拼音字符转换混淆矩阵(也即拼音字符转换距离表),查表得到每个拼音字符的拼音字符转换距离如表2所示:表2baoanb011ei10.9760.944c111ai10.9280.6993)利用动态规划方法,计算两个词的拼音字符转换距离具体计算时,可以利用动态规划方法查找拼音字符转换距离表,找到最小编辑距离路径,将该路径上的值融合后即可得到两个词的拼音字符转换距离,如图5所示,阴影区域即为最小编辑距离路径,将最小编辑距离路径上的拼音字符转换距离直接进行简单累加即可得到两个词的拼音字符转换距离,即0+0+0.976+1+0.699=2.675。此外,对于步骤S205,即根据各词对的所述概率及预设算法,确定目标词对,可以有多种方式实现,下面通过图6~图8进行举例说明:参见图6所示,在本实施例或本发明其他某些实施例中,根据各词对的所述概率及预设算法,确定目标词对,可以包括:步骤S601,判断各词对的所述概率与预设阈值的大小关系。步骤S602,将所述概率大于所述预设阈值的词对确定为目标词对。又或者参见图7所示,在本实施例或本发明其他某些实施例中,根据各词对的所述概率及预设算法,确定目标词对,可以包括:步骤S701,根据各词对的所述概率对所述词对进行从大到小的排序。步骤S702,将排在前列的预设数量的词对确定为目标词对。又或者参见图8所示,在本实施例或本发明其他某些实施例中,根据各词对的所述概率及预设算法,确定目标词对,可以包括:步骤S801,在预设词表中分别使用当前词对中的正确词及分词词语进行查找,其中所述预设词表中存储有正确词与错误词的正确对应关系。所述预设词表中保存容易出错的正确词及其对应的错误词,如“美国-没过”、“美国-每过”等。所述词表可由领域专家根据经验预先构建得到。步骤S802,如果使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语相同,并且,使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词相同,则确定当前词对是一个目标词对。步骤S803,如果使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语不同,并且,使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词也不同,则确定当前词对不是一个目标词对。步骤S804,如果仅出现使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语相同的情况,或者,仅出现使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词相同的情况,则询问用户,并根据用户的指示确定当前词对是否为一个目标词对。此时如果用户确认了,则确定当前词对是一个目标词对,如果用户未确认,则确定当前词对不是一个目标词对。需要说明的是,对于图6~图8这三种方式,还可以进行两两组合或三个一起组合来使用,对于组合关系及组合时的顺序本实施例并不进行限制。例如,可以先筛选出概率大于阈值的词对,然后在此基础上进行概率大小的排序,选取排在前列的预设数量的词对确定为目标词对;又例如,可以先进行概率大小的排序,选取排在前列的预设数量的词对,然后在此基础上再利用所述预设词表进行筛选;再例如,可以先筛选出概率大于阈值的词对,然后在此基础上再利用所述预设词表进行二次筛选;等等。下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。图9是根据本发明一示例性实施例示出的一种文本修正装置的示意图。该装置可用于手机等移动终端以及个人电脑、服务器等设备。参见图9所示,该装置可以包括:文本获取模块901,用于获取待修正的文本数据;正确词获取模块902,用于获取正确词,所述正确词用于替换所述文本数据中与所述正确词对应的错误词;替换模块903,用于根据所述正确词找到并替换所述文本数据中的所述错误词。参见图10所示,在本实施例或本发明其他某些实施例中,所述替换模块可以包括:分词子模块1001,用于对所述文本数据进行分词,以将所述文本数据切分为多个分词词语;词对生成子模块1002,用于将所述正确词与每个分词词语组成词对;相似度提取子模块1003,用于提取每个词对中正确词与分词词语的相似度,所述相似度包括字形相似度、语义相似度及声学相似度;概率获取子模块1004,用于根据每个词对的相似度及预设的判定模型,获取每个词对为目标词对的概率,所述目标词对为词对中的分词词语是与所述正确词对应的错误词的词对;目标词对确定子模块1005,用于根据各词对的所述概率及预设算法,确定目标词对;替换子模块1006,用于使用所述正确词在所述文本数据中替换所述目标词对中的分词词语。参见图11所示,在本实施例或本发明其他某些实施例中,所述替换模块还可以包括:单字组合子模块1101,用于将分词后得到的相邻的两个单字组合成一个分词词语。在本实施例或本发明其他某些实施例中,所述相似度提取子模块在提取每个词对中正确词与分词词语的字形相似度时,具体可以用于:如果当前词对中的正确词与分词词语的字数相同,则将正确词与分词词语的每个单字均转换为四角编码,将正确词与分词词语中各个相应单字的四角编码相同编码数与四角编码总编码数的比值的平均值作为字形相似度;如果当前词对中的正确词与分词词语的字数不相同,则将使用动态规划算法获得的正确词与分词词语的最小编辑距离作为字形相似度。在本实施例或本发明其他某些实施例中,所述相似度提取子模块在提取每个词对中正确词与分词词语的语义相似度时,具体可以用于:对当前词对中的正确词与分词词语分别进行向量化以得到词向量;将正确词与分词词语的词向量之间的距离作为语义相似度。在本实施例或本发明其他某些实施例中,所述相似度提取子模块在提取每个词对中正确词与分词词语的声学相似度时,具体可以用于:确定当前词对中的正确词与分词词语在拼音字符转换距离表中的最小编辑距离路径;根据所述最小编辑距离路径上各个拼音字符的拼音字符转换距离获取正确词与分词词语的拼音字符转换距离;根据所述正确词与分词词语的拼音字符转换距离获取正确词与分词词语的声学距离并将所述声学距离作为声学相似度。在本实施例或本发明其他某些实施例中,所述概率获取子模块具体可以用于:判断各词对的所述概率与预设阈值的大小关系;将所述概率大于所述预设阈值的词对确定为目标词对。在本实施例或本发明其他某些实施例中,所述概率获取子模块具体可以用于:根据各词对的所述概率对所述词对进行从大到小的排序;将排在前列的预设数量的词对确定为目标词对。在本实施例或本发明其他某些实施例中,所述概率获取子模块具体可以用于:在预设词表中分别使用当前词对中的正确词及分词词语进行查找,其中所述预设词表中存储有正确词与错误词的正确对应关系;如果使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语相同,并且,使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词相同,则确定当前词对是一个目标词对;如果使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语不同,并且,使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词也不同,则确定当前词对不是一个目标词对;如果仅出现使用当前词对中的正确词在所述预设词表中查找到的错误词与当前词对中的分词词语相同的情况,或者,仅出现使用当前词对中的分词词语作为错误词在所述预设词表中查找到的正确词与当前词对中的正确词相同的情况,则询问用户,并根据用户的指示确定当前词对是否为一个目标词对。在本实施例中,当发现文本中出现文字错误时,用户无需给出任何错误词,只需输入正确词即可,系统即自动按照正确词去查找各个对应的错误词。例如,当用户发现文本中出现了将“酱紫”一词错误的写为“绛紫”及“降子”等时,只需要输入正确词即输入“酱紫”,无需指出对应的错误词是“绛紫”还是“降子”,更无需指出各个错误词的位置,系统即可自动按照正确词去寻找与之相对应的各个错误词,并自动使用正确词替换掉所确定的错误词,从而完成了文本修正。因为用户只需要给出正确词即可,无需一一指出有哪些错误词,大大提高了修正效率,且还可以避免因为用户人工查找而可能导致的错误词的遗漏,提高了修正的准确率。关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本
技术领域
中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1