汉字纠错方法、装置、设备、存储介质及产品与流程

文档序号:26904771发布日期:2021-10-09 13:48阅读:84来源:国知局
汉字纠错方法、装置、设备、存储介质及产品与流程

1.本发明涉及自然语言处理领域,尤其涉及一种汉字纠错方法、装置、设备、存储介质及产品。


背景技术:

2.随着深度学习的飞速发展,神经网络被广泛使用,神经网络(neural networks,nn)是由大量的、简单的处理单元广泛地互相连接而形成的复杂网络系统,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。
3.目前,神经网络模型已经应用于中文字词纠错中,这些模型通常分为两类,一阶段纠错模型和两阶段纠错模型,一阶段纠错模型通过纠错器解码实现中文字词的纠错。二阶段纠错模型分为检错和纠错,首先检测待纠错句子的错误位置,然后利用纠错模块对其进行修改。
4.然而,针对一些特定场景例如审校场景,使用神经网络进行纠错可能会存在误修改的情况,因为审校场景中的文本与神经网络的训练样本之间存在差异,因此导致神经网络会出现字词修改错误的情况。


技术实现要素:

5.本发明提供一种汉字纠错方法、装置、设备、存储介质及产品,用以解决现有神经网络模型在进行中文字词纠错时存在字词修改错误的问题。
6.第一方面,本发明提供一种汉字纠错方法,包括:
7.获取待纠错的初始语句;
8.将所述初始语句输入至神经网络中,获得包括目标语句的纠错结果;
9.确定目标语句中的目标汉字是否满足预设汉字修正条件;
10.若是,则对目标语句中满足预设汉字修正条件的目标汉字进行修正,获得修正语句,并根据修正语句更新纠错结果。
11.第二方面,本发明提供一种汉字纠错装置,包括:
12.获取单元,用于获取待纠错的初始语句;
13.计算单元,用于将所述初始语句输入至神经网络中,获得包括目标语句的纠错结果;
14.确定单元,用于确定目标语句中的目标汉字是否满足预设汉字修正条件;
15.修正单元,用于若是,则对目标语句中满足预设汉字修正条件的目标汉字进行修正,获得修正语句;
16.更新单元,用于根据修正语句更新纠错结果。
17.第三方面,本发明提供一种电子设备,包括:至少一个处理器和存储器;
18.所述存储器存储计算机执行指令;
19.所述存储器存储计算机执行指令;
20.所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面所述的方法。
21.第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
22.第五方面,本发明提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法。
23.本发明提供的一种汉字纠错方法、装置、设备、存储介质及产品,通过获取待纠错的初始语句,进一步将所述初始语句输入至神经网络中,获得包括目标语句的纠错结果,从而确定目标语句中的目标汉字是否满足预设汉字修正条件,若目标语句中的目标汉字是否满足预设汉字修正条件,则对目标语句中满足预设汉字修正条件的目标汉字进行修正,获得修正语句,并根据修正语句更新纠错结果手段。实现对神经网络模型输出的语句中满足预设修正条件的汉字进行修正,得到修正后的语句,有效减少了语句中错别字出现的情况。
附图说明
24.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
25.图1是本发明提供的汉字纠错方法的网络架构示意图;
26.图2是本发明实施例一提供的汉字纠错方法的流程示意图;
27.图3是本发明实施例二提供的汉字纠错方法的流程示意图;
28.图4是本发明实施例三提供的汉字纠错方法的流程示意图;
29.图5是本发明实施例四提供的汉字纠错方法的流程示意图;
30.图6是本发明实施例六提供的汉字纠错方法的流程示意图;
31.图7是本发明一实施例提供的汉字纠错装置的结构示意图;
32.图8是用来实现本发明实施例的汉字纠错方法的电子设备的第一框图;
33.图9是用来实现本发明实施例的汉字纠错方法的电子设备的第二框图。
34.通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和汉字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
35.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
36.为了清楚理解本技术的技术方案,首先对现有技术的方案进行详细介绍。
37.现有技术中,随着深度学习技术和神经网络模型技术的发展,越来越多的模型应用于中文字词纠错中,例如预训练语言这些模型,该模型总体分为两大类,即一阶段纠错模
型和两阶段纠错模型。其中,一阶段纠错模型直接通过纠错器解码实现中文字词的纠错。其中,两阶段纠错模型将中文字词拆分为检错和纠错两步,首先检测待纠错句子的错误位置,采用纠错模块对错误部分进行改正。对于封闭的数据集,一阶段纠错模型纠错准确率较高。对于文本内容较多且错误较少的情况下,二阶段纠错模型可以节约计算时间。
38.而针对一些特定场景例如审校场景下,现有的纠错模型不论是一阶段纠错模型还是二阶段纠错模型等神经网络模型,都存在过度修改的情况,造成这种情况的原因是因为神经网络的训练样本与审校场景的文本之间存在差异,审校场景例如图书出版的文本内容通常内容较多且错别字密度稀疏,错别字并不是集中的而是较为分散的,而训练样本的错别字密度较为集中,训练样本与真实文本相差较大,这是由于上述原因使得现有的神经网络模型在对中文字词进行纠错时出现过度修改即误修改的问题,通常会将正确的文字修改为错误的文字,使得经过纠错得到的中文字词出现了修改错误的情况。
39.所以针对现有技术中的神经网络模型在进行中文字词纠错时存在字词修改错误的问题,发明人在研究中发现,对神经网络模型纠错得到的语句进行再次修改,将神经网络输出的语句中错误的字词进行修正。具体地,获取待纠错的初始语句,进一步将初始语句输入至神经网络中,获得包括目标语句的纠错结果,从而确定目标语句中的目标汉字是否满足预设汉字修正条件,若满足预设汉字修正条件,则对目标语句中满足预设汉字修正条件的目标汉字进行修正,获得修正语句,并根据修正语句更新纠错结果。对神经网络模型输出的语句中满足预设修正条件的汉字进行修正,得到修正后的语句,有效减少了语句中错别字出现的情况。
40.所以发明人基于上述的创造性发现,提出了本发明实施例的技术方案。下面对本发明实施例提供的汉字纠错方法的网络架构及应用场景进行介绍。
41.如图1所示,本发明实施例提供的汉字纠错方法对应的网络架构中包括:电子设备1及服务器2。电子设备1与服务器2进行通信连接。电子设备1中预先安装有汉字纠错方法对应的客户端。用户在客户端的操作界面的点击语句纠错按键,由此触发语句纠错指令,电子设备1接收到语句纠错指令,电子设备1根据语句纠错指令获取服务器2的待纠错的初始语句,电子设备1将初始语句输入至神经网络中,获得包括目标语句的纠错结果,从而确定目标语句中的目标汉字是否满足预设汉字修正条件,若满足预设汉字修正条件,则电子设备1对目标语句中满足预设汉字修正条件的目标汉字进行修正,获得修正语句,并根据修正语句更新纠错结果。对神经网络模型输出的语句中满足预设修正条件的汉字进行修正,得到修正后的语句,有效减少了语句中错别字出现的情况。
42.实施例一
43.图2是本发明实施例一提供的汉字纠错方法的流程示意图,如图2所示,本实施例提供的汉字纠错方法的执行主体为汉字纠错装置,该汉字纠错装置位于电子设备中,则本实施例提供的汉字纠错方法包括以下步骤:
44.步骤101,获取待纠错的初始语句。
45.本实施例中,接收语句纠错指令,根据语句纠错指令直接获取待纠错的初始语句。或者根据语句纠错指令获取纠错指令对应的文本内容,根据文本内容确定初始语句,具体地,将文本内容进行拆分得到多个语句,将拆分得到的语句确定为初始语句,例如,拆分方式可以根据本文中的标点符号对文本内容进行拆分得到多个语句。需要说明的是,拆分方
式并不限于上述方式,还可以是其他适合的拆分方式。或者不进行拆分直接将文本中的全部内容确定为初始语句。
46.步骤102,将初始语句输入至神经网络中,获得包括目标语句的纠错结果。
47.本实施例中,神经网络为预先经过训练、优化得到的优化的神经网络,神经网络模型可以是预训练语言模型bert,将初始语句输入至神经网络中,具体地,将初始语句输出至预训练语言模型中,输出包括目标语句的纠错结果,其中,纠错结果中还包括目标语句对应的目标语句概率序列,目标语句概率序列又包括目标语句中各目标汉字对应的目标汉字概率值。
48.其中,bert代表来自transformer的双向编码器表示(bidirectional encoder representations from transformers)。bert旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此,只需要一个额外的输出层,就可以对预训练的bert表示进行微调,从而为广泛的任务创建最先进的模型,而无需对特定于任务进行大量模型结构的修改。
49.步骤103,确定目标语句中的目标汉字是否满足预设汉字修正条件。
50.本实施例中,确定目标语句中的各目标汉字是否满足预设汉字修正条件,若目标语句中的目标汉字满足预设汉字修正条件,说明神经网络输出的该目标汉字是错误的,对原本正确的汉字进行了修改,此时需要对该目标汉字进行修正。
51.需要说明的是,还存在一种可能性,若目标语句中的全部目标汉字均不满足预设汉字修正条件,说明神经网络输出的全部目标汉字是正确的,则不需要对目标汉字进行修正,将包括目标语句的纠错结果作为最终结果,进一步输出包括目标语句的纠错结果。
52.步骤104,若是,则对目标语句中满足预设汉字修正条件的目标汉字进行修正,获得修正语句,并根据修正语句更新纠错结果。
53.本实施例中,若目标语句中的目标汉字满足预设汉字修正条件,说明神经网络输出的该目标汉字是错误的,则需要对目标语句中的该目标汉字进行修正,对目标语句中满足预设汉字修正条件的全部目标汉字进行修正,进一步得到修正语句,将纠错结果中的目标语句替换为修正语句,以对纠错结果进行更新。
54.本实施例中,对神经网络输出的语句中满足预设修正条件的汉字进行修正,得到修正后的语句,有效减少了语句中错别字出现的情况。
55.实施例二
56.图3是本发明实施例二提供的汉字纠错方法的流程示意图,如图3所示,在本发明实施例一提供的汉字纠错方法的基础上,对步骤103进行了进一步的细化,包括以下步骤:
57.步骤1031,将目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字进行比较。
58.本实施例中,纠错结果还包括目标语句对应的目标汉字概率序列,目标汉字概率序列中包括目标语句中各目标汉字对应的目标汉字概率值。目标语句与初始语句对应,即目标语句中的各目标汉字在初始语句中都有其对应的初始汉字。例如,“当遇到逆竟时,我们必须勇敢面对”,这句话为初始语句,初始语句中每个汉字即为初始汉字,将这句话输入到神经网络模型中,获得目标语句,该目标语句为“当遇到逆境时,我们必须勇敢面对”,目标语句中每个汉字即为目标汉字。将目标语句中的目标汉字与该目标汉字对应的初始语句中的初始汉字进行比较。
59.步骤1032,若目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字不一致,则根据不一致的目标汉字对应的目标汉字概率值以及对应的预设汉字概率值确定目标语句中不一致的目标汉字是否满足预设汉字修正条件。
60.本实施例中,若目标语句中目标汉字与该目标汉字对应的初始语句中的初始汉字不一致,例如,初始语句“当遇到逆竟时,我们必须勇敢面对”,目标语句“当遇到逆境时,我们必须勇敢面对”,其中,与初始汉字“竟”对应的目标汉字为“境”,说明初始汉字输入到神经网络模型中,输出的是经过纠正的汉字,所以初始汉字与目标汉字不一样,进一步获取不一致的目标汉字对应的目标汉字概率值以及该目标汉字对应的预设汉字概率值,例如,获取“境”对应的概率值以及对应的预设概率值。将不一致的目标汉字对应的目标汉字概率值与对应的预设汉字概率值进行比较,根据比较结果确定目标语句中不一致的目标汉字是否满足预设汉字修正条件。
61.其中,预设汉字概率值为预选设置的,可根据实际情况对汉字概率值进行调整。
62.实施例三
63.图4是本发明实施例三提供的汉字纠错方法的流程示意图,如图4所示,在本发明实施例二提供的汉字纠错方法的基础上,对步骤1033进行了进一步细化,具体包括以下步骤:
64.步骤1033a,将不一致的目标汉字对应的目标汉字概率值与对应的预设汉字概率进行比较。
65.本实施例中,将不一致的目标汉字对应的目标汉字概率值与对应的预设汉字概率进行比较,根据不一致的目标汉字对应的目标汉字概率值与对应的预设汉字概率之间的大小关系,进一步确定目标语句中不一致的目标汉字是否满足预设汉字修正条件。
66.步骤1033b,若不一致的目标汉字对应的目标汉字概率值小于对应的预设汉字概率值,则确定目标语句中不一致的目标汉字满足预设汉字修正条件。
67.本实施例中,若不一致的目标汉字对应的目标汉字概率值小于对应的预设汉字概率值,概率值越小,存在错误的可能性就越高,确定神经网络输出的目标语句中不一致的目标汉字满足预设汉字修正条件。
68.步骤1033c,若不一致的目标汉字对应的目标汉字概率值大于或等于对应的预设汉字概率值,则确定目标语句中不一致的目标汉字不满足预设汉字修正条件。
69.本实施例中,若不一致的目标汉字对应的目标汉字概率值大于或等于对应的预设汉字概率值,概率值越大,说明神经网络对初始汉字纠错得到的目标汉字是正确的,确定神经网络输出的目标语句中不一致的目标汉字不满足预设汉字修正条件。
70.实施例四
71.图5是本发明实施例四提供的汉字纠错方法的流程示意图,如图5所示,在本发明实施例一提供的汉字纠错方法的基础上,对步骤103进行了进一步细化,包括以下步骤:
72.步骤103a,将目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字进行比较。
73.本实施例中,纠错结果还包括目标语句对应的目标汉字概率序列,目标汉字概率序列中包括目标语句中各目标汉字对应的目标汉字概率值。目标语句与初始语句对应,即目标语句中的各目标汉字在初始语句中都有其对应的初始汉字。将目标语句中的目标汉字
与该目标汉字对应的初始语句中的初始汉字进行比较。
74.步骤103b,若目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字不一致,则获取不一致的目标汉字对应的预设字词集合。
75.本实施例中,若目标语句中目标汉字与该目标汉字对应的初始语句中的初始汉字不一致,说明初始汉字输入到神经网络模型中,输出的是经过纠正的汉字,所以初始汉字与目标汉字不一样,进一步获取不一致的目标汉字对应的预设字词集合。
76.步骤103c,根据预设字词集合确定目标语句中不一致的目标汉字是否满足预设汉字修正条件。
77.本实施例中,将目标语句中的不一致的目标汉字与该目标汉字对应的预设字词集合进行比对,根据比对结果确定目标语句中不一致的目标汉字是否满足预设汉字修正条件。
78.其中,预设字词集合包括预设汉字集合以及预设词组集合,例如,预先将“的”和“地”建立关联,神经网络模型极易对相似、相近的汉字或词语出现过度修改,因此预选将此类汉字或词语进行关联,并加入对应的预设汉字集合或预设词组集合,预设汉字结合以及预设词组结合可根据实际需要进行添加或删减。
79.实施例五
80.在本发明实施例四提供的汉字纠错方法的基础上,对步骤103c进行了进一步细化,包括以下步骤:
81.步骤103c1,若不一致的目标汉字与该目标汉字对应的初始汉字属于预设字词集合,则确定目标语句中不一致的目标汉字满足预设汉字修正条件。
82.本实施例中,将目标语句中的不一致的目标汉字与该目标汉字对应的预设字词集合进行比对,若不一致的汉字与该目标汉字对应初始汉字均属于该目标汉字对应的预设字词集合,说明初始汉字和目标汉字预先建立了关联,通常建立关联的汉字是神经网络模型中易出现误修改的汉字,此时确定目标语句中不一致的目标汉字满足预设汉字修正条件。
83.步骤103c2,若不一致的目标汉字与该目标汉字对应的初始汉字不属于预设字词集合,则确定目标语句中不一致的目标汉字不满足预设汉字修正条件。
84.本实施例中,若不一致的汉字与该目标汉字对应初始汉字并不属于该目标汉字对应的预设字词集合,此时确定目标语句中不一致的目标汉字不满足预设汉字修正条件,不满足修正条件的目标汉字默认为正确的汉字。
85.实施例六
86.图6是本发明实施例六提供的汉字纠错方法的流程示意图,如图6所示,在本发明实施例一提供的汉字纠错方法的基础上,对步骤103进行了进一步细化,包括以下步骤:
87.步骤a103,将目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字进行比较。
88.本实施例中,纠错结果还包括目标语句对应的目标汉字概率序列,目标汉字概率序列中包括目标语句中各目标汉字对应的目标汉字概率值。目标语句与初始语句对应,实际上,目标语句中的各目标汉字在初始语句中都有其对应的初始汉字。将目标语句中的目标汉字与该目标汉字对应的初始语句中的初始汉字进行比较。
89.步骤b103,若目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字不
一致,则获取不一致的目标汉字对应的目标汉字概率值、对应的预设汉字概率值以及对应的预设字词集合。
90.本实施例中,若目标语句中目标汉字与该目标汉字对应的初始语句中的初始汉字不一致,说明初始汉字输入到神经网络模型中,输出的是经过纠正的汉字,所以初始汉字与目标汉字不一样,进一步获取不一致的目标汉字对应的目标汉字概率值、该目标汉字对应的预设汉字概率值以及该目标汉字对应的预设字词集合。
91.步骤c103,根据不一致的目标汉字对应的目标汉字概率值、对应的预设汉字概率值以及对应的预设字词集合确定目标语句中不一致的目标汉字是否满足预设汉字修正条件。
92.本实施例中,将不一致的目标汉字对应的目标汉字概率值与对应的预设汉字概率值进行比较得到对应的比较结果,并将目标语句中的不一致的目标汉字与该目标汉字对应的预设字词集合进行比对得到对应的比对结果,根据比对结果和比较结果确定目标语句中不一致的目标汉字是否满足预设汉字修正条件。
93.实施例七
94.在本发明实施例六提供的汉字纠错方法的基础上,对步骤c103进行了进一步细化,包括以下步骤:
95.步骤c1031,若不一致的目标汉字对应的目标汉字概率值小于对应的预设汉字概率值且该目标汉字与该目标汉字对应的初始汉字属于对应的预设字词集合,则确定目标语句中不一致的目标汉字满足预设汉字修正条件。
96.本实施例中,若不一致的目标汉字对应的目标汉字概率值小于对应的预设汉字概率值并且该目标汉字与该目标汉字对应的初始汉字属于对应的预设字词集合,同时满足以上两种条件,确定目标语句中不一致的目标汉字满足预设汉字修正条件,进一步对该满足条件的目标汉字进行修改。
97.步骤c1032,若不一致的目标汉字对应的目标汉字概率值大于或等于对应的预设汉字概率值且该目标汉字与该目标汉字对应的初始汉字属于对应的预设字词集合,则确定目标语句中不一致的目标汉字满足预设汉字修正条件。
98.本实施例中,若一致的目标汉字对应的目标汉字概率值大于或等于对应的预设汉字概率值并且该目标汉字与该目标汉字对应的初始汉字属于对应的预设字词集合,只满足其中一种条件,确定目标语句中不一致的目标汉字满足预设汉字修正条件,此时对该目标汉字进行修改。
99.步骤c1033,若不一致的目标汉字对应的目标汉字概率值小于对应的预设汉字概率值且该目标汉字与该目标汉字对应的初始汉字不属于对应的预设字词集合,则确定目标语句中不一致的目标汉字不满足预设汉字修正条件。
100.本实施例中,若不一致的目标汉字对应的目标汉字概率值小于对应的预设汉字概率值并且该目标汉字与该目标汉字对应的初始汉字不属于对应的预设字词集合,此时也只满足一种条件,确定目标语句中不一致的目标汉字满足预设汉字修正条件,此时对该目标汉字进行修改。
101.步骤c1034,若不一致的目标汉字对应的目标汉字概率值大于或等于对应的预设汉字概率值且该目标汉字与该目标汉字对应的初始汉字不属于对应的预设字词集合,则确
定目标语句中不一致的目标汉字不满足预设汉字修正条件。
102.本实施例中,若不一致的目标汉字对应的目标汉字概率值大于或等于对应的预设汉字概率值并且该目标汉字与该目标汉字对应的初始汉字不属于对应的预设字词集合,此时两种条件都不满足,确定目标语句中不一致的目标汉字不满足预设汉字修正条件。两种条件都不满足时,目标语句中不一致的目标汉字不需要进行修改。
103.需要说明的是,在同时满足上述两种条件时,相当于对目标文字进行了过滤,对满足条件的目标文字进行修改,相比只满足一种条件,同时满足两种条件的纠错效果更好,可根据实际情况选择上述过滤条件。
104.实施例八
105.在本发明实施例一提供的汉字纠错方法的基础上,对步骤104进行了进一步细化,包括以下步骤:
106.对步骤1041,将目标语句中满足预设汉字修正条件的目标汉字修改为与该目标汉字对应的初始汉字。
107.本实施例中,满足预设条件有三种情况,其中一种情况为:若不一致的目标汉字对应的目标汉字概率值小于对应的预设汉字概率值,则确定目标语句中不一致的目标汉字满足预设汉字修正条件,此时将该目标汉字修改为与该目标汉字对应的初始语句中的初始汉字,实际上,就是将目标汉字改回输入神经网络模型的初始汉字。另一种情况为:若不一致的目标汉字与该目标汉字对应的初始汉字属于预设字词集合,则确定目标语句中不一致的目标汉字满足预设汉字修正条件,此时将该目标汉字修改为与该目标汉字对应的初始语句中的初始汉字。还有一种情况为:若不一致的目标汉字对应的目标汉字概率值小于对应的预设汉字概率值且该目标汉字与该目标汉字对应的初始汉字属于对应的预设字词集合,则确定目标语句中不一致的目标汉字满足预设汉字修正条件,此时将该目标汉字修改为与该目标汉字对应的初始语句中的初始汉字。
108.本实施例中,对神经网络输出的语句中满足预设修正条件的汉字进行修正,得到修正后的语句,有效减少了语句中错别字出现的情况。
109.图7是本发明一实施例提汉字纠错装置的结构示意图,如图7所示,本实施例提供的汉字纠错装置200包括获取单元201,计算单元202,确定单元203,修正单元204,更新单元205。
110.其中,获取单元201,用于获取待纠错的初始语句。计算单元202,用于将初始语句输入至神经网络中,获得包括目标语句的纠错结果。确定单元203,用于确定目标语句中的目标汉字是否满足预设汉字修正条件。修正单元204,用于若是,则对目标语句中满足预设汉字修正条件的目标汉字进行修正,获得修正语句。更新单元205,用于根据修正语句更新纠错结果。
111.可选地,确定单元,还用于将目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字进行比较;若目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字不一致,则获取不一致的目标汉字对应的目标汉字概率值以及对应的预设汉字概率值;根据不一致的目标汉字对应的目标汉字概率值以及对应的预设汉字概率值确定目标语句中不一致的目标汉字是否满足预设汉字修正条件。
112.可选地,确定单元,还用于将不一致的目标汉字对应的目标汉字概率值与对应的
预设汉字概率进行比较;若不一致的目标汉字对应的目标汉字概率值小于对应的预设汉字概率值,则确定目标语句中不一致的目标汉字满足预设汉字修正条件;若不一致的目标汉字对应的目标汉字概率值大于或等于对应的预设汉字概率值,则确定目标语句中不一致的目标汉字不满足预设汉字修正条件。
113.可选地,确定单元,还用于将目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字进行比较;若目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字不一致,则获取不一致的目标汉字对应的预设字词集合;根据预设字词集合确定目标语句中不一致的目标汉字是否满足预设汉字修正条件。
114.可选地,确定单元,还用于若不一致的目标汉字与该目标汉字对应的初始汉字属于预设字词集合,则确定目标语句中不一致的目标汉字满足预设汉字修正条件;若不一致的目标汉字与该目标汉字对应的初始汉字不属于预设字词集合,则确定目标语句中不一致的目标汉字不满足预设汉字修正条件。
115.可选地,确定单元,还用于将目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字进行比较;若目标语句中的目标汉字与目标汉字对应的初始语句中的初始汉字不一致,则获取不一致的目标汉字对应的目标汉字概率值、对应的预设汉字概率值以及对应的预设字词集合;根据不一致的目标汉字对应的目标汉字概率值、对应的预设汉字概率值以及对应的预设字词集合确定目标语句中不一致的目标汉字是否满足预设汉字修正条件。
116.可选地,确定单元,还用于若不一致的目标汉字对应的目标汉字概率值小于对应的预设汉字概率值且该目标汉字与该目标汉字对应的初始汉字属于对应的预设字词集合,则确定目标语句中不一致的目标汉字满足预设汉字修正条件;若不一致的目标汉字对应的目标汉字概率值大于或等于对应的预设汉字概率值且该目标汉字与该目标汉字对应的初始汉字属于对应的预设字词集合,则确定目标语句中不一致的目标汉字不满足预设汉字修正条件;若不一致的目标汉字对应的目标汉字概率值小于对应的预设汉字概率值且该目标汉字与该目标汉字对应的初始汉字不属于对应的预设字词集合,则确定目标语句中不一致的目标汉字不满足预设汉字修正条件;若不一致的目标汉字对应的目标汉字概率值大于或等于对应的预设汉字概率值且该目标汉字与该目标汉字对应的初始汉字不属于对应的预设字词集合,则确定目标语句中不一致的目标汉字不满足预设汉字修正条件。
117.可选地,修正单元,还用于将目标语句中满足预设汉字修正条件的目标汉字修改为与该目标汉字对应的初始汉字。
118.图8是用来实现本发明实施例的汉字纠错方法的电子设备的第一框图,如图8所示,该电子设备300包括:存储器301,处理器302。
119.存储器301存储计算机执行指令;
120.处理器执行302存储器存储的计算机执行指令,使得处理器执行上述任意一个实施例提供的方法。
121.图9是用来实现本发明实施例的汉字纠错方法的电子设备的第二框图,如图9所示,该电子设备可以是计算机,数字广播终端,消息收发设备,平板设备,个人数字助理,服务器,服务器集群等。
122.电子设备400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件
406,输入/输出(i/o)接口408,传感器组件410,以及通信组件412。
123.处理组件402通常控制电子设备400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个通信组件414来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。
124.存储器404被配置为存储各种类型的数据以支持在电子设备400的操作。这些数据的示例包括用于在电子设备400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
125.电源组件406为电子设备400的各种组件提供电力。电源组件406可以包括电源管理系统,一个或多个电源,及其他与为电子设备400生成、管理和分配电力相关联的组件。
126.i/o接口408为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
127.传感器组件410包括一个或多个传感器,用于为电子设备400提供各个方面的状态评估。例如,传感器组件410可以检测到电子设备400的打开/关闭状态,组件的相对定位,例如组件为电子设备400的显示器和小键盘,传感器组件410还可以检测电子设备400或电子设备400一个组件的位置改变,用户与电子设备400接触的存在或不存在,电子设备400方位或加速/减速和电子设备400的温度变化。传感器组件410可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件410还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件410还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
128.通信组件412被配置为便于电子设备400和其他设备之间有线或无线方式的通信。电子设备400可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件412经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件412还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
129.在示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
130.在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器404,上述指令可由电子设备400的通信组件414执行以完成上述方法。例如,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd

rom、磁带、软盘和光数据存储设备等。
131.在示例性实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行上述任意一个实施例中的方法。
132.在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行上述任意一个实施例中的方法。
133.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
134.应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1