文本处理方法、文本处理设备及计算机可读存储介质与流程

文档序号:29446232发布日期:2022-03-30 11:03阅读:73来源:国知局
文本处理方法、文本处理设备及计算机可读存储介质与流程

1.本说明书实施例涉及自然语言处理技术领域,尤其涉及一种文本处理方法、文本处理设备及计算机可读存储介质。


背景技术:

2.在写作过程中,错别字是较为常见的错误,需要对文本进行纠错和纠正。目前,文本纠正方案主要包括:人工纠正方案和基于神经网络模型的纠正方案。
3.但是,对于人工纠正方案,需要掌握一定语言技能的人员进行人工纠正,速度较慢,且人为因素容易影响纠正结果。而目前基于神经网络模型的纠正方案,需要花费时间对神经网络模型进行训练,且由于只单一训练了神经网络模型如何确认错误文字与正确文字之间的对应关系,面对复杂多变的错误情况,完成训练的神经网络模型难以适应,导致误检率较高。
4.因此,现有的文本纠正方案都存在效率低和准确性低的问题。


技术实现要素:

5.有鉴于此,本说明书实施例提供一种文本处理方法、文本处理设备及计算机可读存储介质,能够自动进行文本纠正,并提高文本纠正的处理效率和准确性。
6.本发明实施例提供了一种文本处理方法,包括:
7.对输入的初始文本进行检查,确定错误文字以及所述错误文字的上下文段落;
8.基于所述错误文字及所述错误文字的上下文段落,确定融合特征数据;
9.基于所述错误文字,确定纠正候选集,所述纠正候选集包括:多个纠正候选文字;
10.基于所述融合特征数据,分别确定所述纠正候选集中各纠正候选文字与所述上下文段落之间的匹配度;
11.基于所述纠正候选集中各纠正候选文字的匹配度,确定所述错误文字的纠正结果。
12.可选地,所述基于所述错误文字及所述错误文字的上下文段落,确定融合特征数据,包括:
13.提取所述错误文字的语义信息,得到错误特征数据,以及提取所述上下文段落的语义信息,得到段落特征数据;
14.融合所述错误特征数据和所述段落特征数据,得到所述融合特征数据。
15.可选地,所述提取所述错误文字的语义信息,得到错误特征数据,以及提取所述上下文段落的语义信息,得到段落特征数据,包括:
16.将所述错误文字输入第一神经网络模型,得到所述错误文字对应的错误特征向量,以作为所述错误特征数据;
17.将所述上下文段落输入第二神经网络模型,得到所述上下文段落中各文字对应的文字特征向量,以作为所述段落特征数据。
18.可选地,所述第一神经网络模型包括:具有递归结构的神经网络、具有卷积结构的神经网络、具有循环结构的神经网络、具有注意力机制的神经网络中的至少一种。
19.可选地,所述第二神经网络模型包括:具有递归结构的神经网络、具有卷积结构的神经网络、具有循环结构的神经网络、具有注意力机制的神经网络中的至少一种。
20.可选地,所述融合所述错误特征数据和所述段落特征数据,得到所述融合特征数据,包括:
21.将所述错误特征向量和所述上下文段落中各文字对应的文字特征向量进行逻辑运算,得到融合特征向量,以作为所述融合特征数据。
22.可选地,所述基于所述融合特征数据,分别确定所述纠正候选集中各纠正候选文字与所述上下文段落之间的匹配度,包括:
23.分别获取各所述纠正候选文字的候选特征向量;
24.分别将各所述候选特征向量与所述融合特征数据进行逻辑运算,得到相应纠正候选文字与所述上下文段落之间的匹配度。
25.可选地,所述基于所述错误文字,确定纠正候选集,包括以下至少一种:
26.基于预设的候选形状文字库,获取与所述错误文字形状相似的形状候选文字,以作为所述纠正候选文字;
27.基于预设的标准发音文字库,确定所述错误文字的发音序列,并从所述标准发音文字库中获取与所述错误文字发音相似的发音标准文字,以作为所述纠正候选文字。
28.可选地,所述基于所述错误文字,确定纠正候选集,还包括:
29.对所述形状相似的形状候选文字和所述发音相似的发音标准文字进行去重处理,得到所述纠正候选集。
30.可选地,所述对输入的初始文本进行检查,确定错误文字以及所述错误文字的上下文段落,包括:
31.基于预设的检查文字库,对所述初始文本中的文字进行识别,并将未识别到的文字作为错误文字;
32.基于所述初始文本和所述错误文字,确定所述错误文字的上下文段落。
33.可选地,所述基于所述纠正候选集中各纠正候选文字的匹配度,确定所述初始文本的纠正结果,包括以下至少一种:
34.基于所述纠正候选集中各纠正候选文字的匹配度,获取最高匹配度相应的纠正候选文字,作为所述错误文字的纠正结果;
35.基于所述纠正候选集中各纠正候选文字的匹配度,确定最高匹配度相应的纠正候选文字,并将所述最高匹配度相应的纠正候选文字代替所述初始文本中的错误文字,得到纠正文本,以及,将所述纠正文本作为所述错误文字的纠正结果。
36.本发明实施例还提供了一种文本处理设备,包括:
37.检查单元,适于对输入的初始文本进行检查,确定错误文字以及所述错误文字的上下文段落;
38.数据获取单元,适于基于所述错误文字及所述错误文字的上下文段落,确定融合特征数据;
39.纠正候选集获取单元,适于基于所述错误文字,确定纠正候选集,所述纠正候选集
包括:多个纠正候选文字;
40.匹配度获取单元,适于基于所述融合特征数据,分别确定所述纠正候选集中各纠正候选文字与所述上下文段落之间的匹配度;
41.纠正结果获取单元,适于基于所述纠正候选集中各纠正候选文字的匹配度,确定所述错误文字的纠正结果。
42.本发明实施例还提供了一种文本处理设备,包括存储器和处理器;其中,所述存储器适于存储一条或多条计算机指令,所述处理器运行所述计算机指令时执行以上任一项实施例所述文本处理方法的步骤。
43.本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行以上任一实施例所述文本处理方法的步骤。
44.采用本说明书实施例提供的文本处理方法,通过输入的初始文本中检查到的错误文字以及所述错误文字的上下文段落确定的融合特征数据,具有更强的表征能力和更加丰富的有用信息;而通过错误文字确定纠正候选集,可以有效减少数据量,从而提高文本纠正的处理效率,且根据不同的错误文字,可以动态调整纠正候选集,从而提高纠正候选集的灵活性;基于所述融合特征数据确定各纠正候选文字与所述上下文段落之间的匹配度,可以提高匹配度的参考价值;通过获得的匹配度确定所述初始文本的纠正结果,可以对存在相同错误文字的不同初始文本进行不同的纠正处理,从而提高文本纠正的准确性。综上可知,本说明书实施例提供的文本处理方法,能够自动进行文本纠正,并提高文本纠正的处理效率和准确性。
45.进一步地,可以提取所述错误文字的语义信息,得到错误特征数据,以及提取所述上下文段落的语义信息,得到段落特征数据,然后,融合所述错误特征数据和所述段落特征数据,可以得到所述融合特征数据。由此,所述融合特征数据包含了错误文字本身的特征信息、上下文段落本身的特征信息和错误文字在初始文本中的语境信息,具有更强的表征能力和更加丰富的有用信息。
46.进一步地,可以将所述错误文字输入第一神经网络模型,得到所述错误文字对应的错误特征向量,以作为所述错误特征数据;以及,将所述上下文段落输入第二神经网络模型,得到所述上下文段落中各文字对应的文字特征向量,以作为所述段落特征数据。由此,可以提高数据的精度和准确性。
附图说明
47.为了更清楚地说明本说明书实施例的技术方案,下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1为本说明书实施例提供的一种文本处理方法的流程图。
49.图2为本说明书实施例提供的一种文本处理设备的结构框图。
50.图3为本说明书实施例提供的另一种文本处理设备的结构框图。
具体实施方式
51.如背景技术所述,目前无论是人工纠正方案和基于神经网络模型的纠正方案,都存在效率低和准确性低的问题。
52.针对上述问题,本说明书提供一种文本处理方案,通过输入的初始文本中检查到的错误文字以及所述错误文字的上下文段落,确定融合特征数据,而通过错误文字,确定纠正候选集;然后,基于所述融合特征数据确定各纠正候选文字与所述上下文段落之间的匹配度,进而通过获得的匹配度确定所述初始文本的纠正结果。由此,能够自动进行文本纠正,并提高文本纠正的效率和准确性。
53.为使本领域技术人员更加清楚地了解及实施本说明书的构思、实现方案及优点,以下参照附图,通过具体实施例进行示意性说明。
54.参照图1,为本说明书实施例提供的一种文本处理方法的流程图,在本说明书实施例中,文本处理方法可以包括以下步骤:
55.s11,对输入的初始文本进行检查,确定错误文字以及所述错误文字的上下文段落。
56.其中,所述初始文本的具体数据形式可以是由计算机可识别字符组成的序列,也可以是手写文字经过图像采集技术得到的文字图像。本说明书对初始文本的具体数据形式不做具体限制。
57.并且,根据实际应用的语言场景,初始文本可以是由笔画类文字组成的文本,如中文文本、韩文文本、日文文本等;也可以是由字母拼写得到的单词组成的文本,如英文文本、德文文本、法文文本等。简而言之,初始文本可以为不同语言种类的文本。本说明书对初始文本对应的语言种类不做具体限制。
58.在具体实施中,对于由计算机可识别字符组成的初始文本,所述计算机可识别字符可以采用现有的任何字符集编码格式,例如ascii编码、gb2312编码格式、big5编码格式、gb18030编码格式等;也可以采用自定义的字符集编码格式。
59.并且,对于由计算机可识别字符组成的初始文本,其来源可以包括:人工编辑的文本库、公共网络上可获取的文本资源、通过图片识别技术从图片中得到的文本、通过语音识别技术从音频中得到的文本等。本说明书实施例对此不做具体限制。
60.s12,基于所述错误文字及所述错误文字的上下文段落,确定融合特征数据。
61.在具体实施中,所述错误文字的上下文段落本身具有一定的有用信息,且可以反映所述错误文字在初始文本中的语境,因此,基于所述错误文字及所述错误文字的上下文段落确定的融合特征数据可以表征更多的有用信息。
62.s13,基于所述错误文字,确定纠正候选集,所述纠正候选集包括:多个纠正候选文字。
63.在具体实施中,可以从预设的候选文字库中筛选出与所述错误文字相似的文字,作为所述纠正候选文字,得到所述纠正候选集。其中,所述候选文字库可以包括相应语言种类的文字。
64.基于此,不同的错误文字,可能从候选文字库中筛选出不同纠正候选文字,从而可以动态调整纠正候选集。
65.s14,基于所述融合特征数据,分别确定所述纠正候选集中各纠正候选文字与所述
上下文段落之间的匹配度。
66.在具体实施中,通过所述融合特征数据,可以结合错误文字、上下文段落、以及错误文字在初始文本中的语境等多个维度,确定各纠正候选文字与所述上下文段落之间的匹配度。
67.基于此,若不同初始文本中存在相同的错误文字,由于这些相同的错误文字对应的上下文段落不同,会使得这些相同的错误文字在对应初始文本中的语境可能不同,即使所述纠正候选集中的纠正候选文字相同,各纠正候选文字与对应上下文段落之间的匹配度也不一定相同。
68.例如,对于错误文字“schol”,其纠正候选文字包括:“scold”,“schools”,“scull”,“scholar”,“scowl”,“school”,其纠正候选集为:[“scold”,“schools”,“scull”,“scholar”,“scowl”,“school”]。对于不同的初始文本,在一些情况下,错误文字“schol”的纠正候选集中各纠正候选文字对应的匹配度可以为:x1,x2,x3,x4,x5,x6;在另一些情况下,错误文字“schol”的纠正候选集中各纠正候选文字对应的匹配度可以为:y1,y2,y3,y4,y5,y6。其中,xi与yi均表示数值,且xi与yi表征的数值不一定相同,i为整数且取值范围为[1,6]。
[0069]
由此,基于所述融合特征数据确定的匹配度会根据上下文段落和错误文字在初始文本中的语境进行变化,因此具有更高的参考价值。
[0070]
s15,基于所述纠正候选集中各纠正候选文字的匹配度,确定所述初始文本的纠正结果。
[0071]
在具体实施中,可以通过预设的选取条件,从所述纠正候选集中筛选出符合选取条件的纠正候选文字。并且,在得到符合选取条件的纠正候选文字后,可以将该纠正候选文字作为所述初始文本的纠正结果,也可以基于该纠正候选文字,对初始文本进行纠正处理,得到所述初始文本的纠正结果。
[0072]
例如,所述选取条件可以为:最高匹配度相应的纠正候选文字。由此,基于所述纠正候选集中各纠正候选文字的匹配度,可以获取最高匹配度相应的纠正候选文字。在获取最高匹配度相应的纠正候选文字后,可以将该纠正候选文字作为所述错误文字的纠正结果;也可以并将所述最高匹配度相应的纠正候选文字代替所述初始文本中的错误文字,得到纠正文本,以及,将所述纠正文本作为所述错误文字的纠正结果。
[0073]
在具体实施中,若相同的错误文字出现与不同的初始文本中,由于基于所述融合特征数据确定的匹配度也会发生相应变化,确保不同初始文本可以得到相应正确的纠正结果。
[0074]
采用上述方案,通过输入的初始文本中检查到的错误文字以及所述错误文字的上下文段落确定的融合特征数据具有更强的表征能力和更加丰富的有用信息;而通过错误文字确定的纠正候选集具有更少的数据量和更高的灵活性,可以提高文本纠正的处理效率;通过所述融合特征数据确定的匹配度具有更高的参考价值,进而可以对存在相同错误文字的不同初始文本进行相应变化的纠正处理,从而提高文本纠正的准确性。
[0075]
综上,本说明书实施例提供的文本处理方法能够自动进行文本纠正,并提高文本纠正的效率和准确性。
[0076]
在具体实施中,本说明书实施例提供的文本处理方法可应用于任意存在文本纠正
需求的专业领域,相应地,所述初始文本可以为任意存在文本纠正需求的领域所相关的文本。
[0077]
例如,本说明书实施例提供的文本处理方法可应用于教育专业领域、新闻专业领域、金融专业领域等;相应地,对于教育专业领域,所述初始文本可以为作文、论文等文本;对于新闻专业领域,所述初始文本可以为文案稿件、投稿稿件等文本;对于金融专业领域,所述初始文本可以为调研报告、分析报告等文本。
[0078]
在具体实施中,可以通过特征提取算法提取所述错误文字的语义信息,和上下文段落的语义信息,且可以通过数据进行融合处理获取所述错误文字在初始文本中的语境信息。其中,特征提取算法和融合处理的具体步骤可根据应用场景和需求设定。
[0079]
并且,数据融合处理和特征提取的执行顺序可根据具体情况设定,本说明书对融合特征数据的具体获取过程不做具体限制。
[0080]
例如,可以提取所述错误文字语义信息,得到错误特征数据,以及提取所述上下文段落的语义信息,得到段落特征数据,再基于所述错误特征数据和所述段落特征数据进行数据融合处理,得到所述融合特征数据。
[0081]
又例如,可以先对所述错误文字和所述错误文字的上下文段落进行数据融合处理,再提取融合得到的数据的语义信息,得到所述融合特征数据。
[0082]
由此,所述融合特征数据包含了错误文字本身的特征信息、上下文段落本身的特征信息和错误文字在初始文本中的语境信息,具有更强的表征能力和更加丰富的有用信息。
[0083]
在具体实施中,为了提高数据的精度和准确性,可以采用经过训练的神经网络模型进行特征提取。
[0084]
根据具体应用情况,神经网络模型的特征提取对象可以是:所述错误文字、所述上下文段落、或者所述错误文字和所述错误文字的上下文段落融合得到的数据。并且,上述三种特征提取对象可以采用相同、相似或不同的神经网络模型进行特征提取。
[0085]
具体地,可以将所述错误文字输入第一神经网络模型,从而进行特征提取,得到所述错误文字对应的错误特征向量,以作为所述错误特征数据;以及,可以将所述上下文段落输入第二神经网络模型,从而进行特征提取,得到所述上下文段落中各文字对应的文字特征向量,以作为所述段落特征数据;还有,可以将所述错误文字和所述错误文字的上下文段落融合得到的数据输入第三神经网络模型,从而进行特征提取,得到融合特征向量,以作为所述融合特征数据。
[0086]
其中,第一神经网络模型、第二神经网络模型和第三神经网络模型可以采用相同、相似或不同类型的神经网络,以及三者可以采用相同、相似或不同的架构。
[0087]
在具体实施中,所述第一神经网络模型可以包括一种或多种完成训练的神经网络。例如,所述第一神经网络模型可以包括:具有递归结构的神经网络、具有卷积结构的神经网络、具有循环结构的神经网络、具有注意力机制的神经网络中的至少一种。
[0088]
类似地,所述第二神经网络模型可以包括一种或多种完成训练的神经网络。例如,所述第二神经网络模型可以包括:具有递归结构的神经网络、具有卷积结构的神经网络、具有循环结构的神经网络、具有注意力机制的神经网络中的至少一种。
[0089]
所述第三神经网络模型可以包括一种或多种完成训练的神经网络。例如,所述第
三神经网络模型可以包括:具有递归结构的神经网络、具有卷积结构的神经网络、具有循环结构的神经网络、具有注意力机制的神经网络中的至少一种。
[0090]
进一步地,所述具有递归结构的神经网络可以包括:递归神经网络(recursive neural network,rnn)、长短期记忆神经网络(long short term memory networks,lstm)等。所述具有卷积结构的神经网络可以包括:卷积神经网络(convolutional neural network,cnn)、膨胀卷积神经网络(dilated convolution neural network,dcnn)等。所述具有循环结构的神经网络可以包括:循环神经网络(recurrent neural network,rnn)、门控循环单元(gated recurrent unit,gru)等。所述具有注意力机制的神经网络可以包括:具有自注意力机制(self-attention)的转换器(transformer)、代表transformers的双向编码器(bidirectional encoder representations from transformers,bert)等。
[0091]
可以理解的是,所述第一神经网络模型、所述第二神经网络模型和第三神经网络模型分别具体采用的神经网络类型和多个神经网络之间的连接关系可以根据具体应用场景进行选择和设置。本说明书实施例对此不做具体限制。
[0092]
在具体实施中,具有注意力机制的神经网络可以通过注意力机制获取上下文段落中不同位置的文字之间的直接依赖关系,从而能够获取上下文段落中多种距离的依赖信息,使得输出的各文字对应的文字特征向量具有更强的表征能力和更丰富的有用信息。
[0093]
并且,具有注意力机制的神经网络可以缩短上下文段落中位置间隔较长的文字之间的直接依赖关系,从而在增强各文字对应的文字特征向量的表征能力的情况下,降低文字对应的文字特征向量的数据量。
[0094]
在具体实施中,若采用第一神经网络模型获得所述错误文字对应的错误特征向量,以及采用第二神经网络模型获得所述上下文段落中各文字对应的文字特征向量,则可以将所述错误特征向量和所述上下文段落中各文字对应的文字特征向量进行逻辑运算,得到融合特征向量,以作为所述融合特征数据。
[0095]
其中,根据具体应用场景和需求,所述逻辑运算可以包括向量之间的加法、减法、乘法、转置中至少一种或者多种组合,本说明书实施例对此不作具体限制。
[0096]
在具体实施中,若采用第一神经网络模型获得所述错误文字对应的错误特征向量,以及采用第二神经网络模型获得所述上下文段落中各文字对应的文字特征向量,为了便于数据运算,可在获取匹配度之前,对各纠正候选文字设置相应的候选特征向量。
[0097]
基于此,所述基于所述融合特征数据,分别确定所述纠正候选集中各纠正候选文字与所述上下文段落之间的匹配度,具体可以包括:分别获取各所述纠正候选文字的候选特征向量;以及,分别将各所述候选特征向量与所述融合特征数据进行逻辑运算,得到相应纠正候选文字与所述上下文段落之间的匹配度。
[0098]
其中,各纠正候选文字的候选特征向量可以经过预设的神经网络模型或者编码算法获得,且预设的神经网络模型或者编码算法的参数可根据纠正结果进行调整,使得候选特征向量能够更加准确地表征相应纠正候选文字。
[0099]
此外,各纠正候选文字的候选特征向量的获取时机可根据具体需求设定,可以是在获取匹配度之前的任意时机,如初始文本进行检查之前、确定融合特征数据之前等,本说明书对此不作具体限制。
[0100]
在具体实施中,可以根据文字形状和/或文字发音确定纠正候选集。具体地,所述
基于所述错误文字,确定纠正候选集,可以包括以下至少一种:
[0101]
(1)基于预设的候选形状文字库,获取与所述错误文字形状相似的形状候选文字,以作为所述纠正候选文字。
[0102]
其中,所述候选形状文字库可理解为用于定义文字正确形状的文字库,具体包括:多个相关语言种类的候选文字。
[0103]
具体地,在获取与所述错误文字形状相似的文字时,可以对所述错误文字进行形状解析,并与所述形状候选文字库中各形状候选文字进行形状比较,从而得到所述错误文字与各形状候选文字的第一形状相似度,基于预设的第一形状相似条件,将符合第一形状相似条件的形状候选文字判定为与所述错误文字形状相似的文字,从而作为所述纠正候选文字。
[0104]
其中,根据具体情境,预设的第一形状相似条件可以是:形状相似度属于预设的形状相似度范围、形状相似度大于预设的形状相似度阈值、或者形状相似度小于预设的形状相似度阈值。本说明书对此不作具体限制。
[0105]
(2)基于预设的标准发音文字库,确定所述错误文字的发音序列,并从预设的候选发音文字库中获取与所述错误文字发音相似的候选文字,以作为所述纠正候选文字。
[0106]
其中,所述标准发音文字库可理解为用于定义文字正确发音的文字库,具体可以包括:多个相关语言种类的发音标准文字,以及各发音标准文字相应的发音序列。
[0107]
具体地,在确定所述错误文字的发音序列时,可以对所述错误文字进行形状解析,并与所述标准发音文字库中的各发音标准文字进行形状比较,从而得到所述错误文字与各所述发音标准文字的第二形状相似度,并将第二形状相似度最高的发音标准文字判定为与所述错误文字形状相似的文字,从而将所述符合形状相似条件的发音标准文字相应的发音序列作为所述错误文字的发音序列。
[0108]
然后,基于所述错误文字的发音序列与所述标准发音文字库中各发音标准文字进行发音比较,从而得到所述错误文字与各发音标准文字的发音相似度,基于预设的发音相似条件,将符合发音相似条件的发音标准文字判定为与所述错误文字发音相似的文字,从而作为所述纠正候选文字。
[0109]
其中,根据具体情境,预设的发音相似条件可以是:发音相似度属于发音相似度范围、发音相似度大于预设的发音相似度阈值、或者发音相似度小于预设的发音相似度阈值。本说明书对此不作具体限制。
[0110]
由此,可以根据具体情况,从文字形状和文字发音中至少一个维度获取纠正候选文字,提高了纠正候选文字的来源丰富性和灵活性。
[0111]
在具体实施中,可以通过编辑距离算法、余弦距离算法等方式计算形状相似度或发音相似度。由此,所述第一形状相似条件可以是:形状相似度小于预设的形状相似度阈值;而所述发音相似条件可以是:发音相似度小于预设的发音相似度阈值。
[0112]
在具体实施中,若分别从文字形状和文字发音方面获取纠正候选文字,可能会存在重复的纠正候选文字,为了减轻数据量,可以对所述形状相似的形状候选文字和所述发音相似的发音标准文字进行去重处理,从而得到去重化的纠正候选集。
[0113]
在具体实施中,初始文本的检查方式可根据实际情况进行设定。
[0114]
例如,可以基于预设的检查文字库,对所述初始文本中的文字进行识别,并将未识
别到的文字作为错误文字;其中,所述检查文字库可理解为用于定义文字正确使用规则的文字库,其具体可以包括相应语言种类的文字、专有名词、缩略词、简化词、网络用词等。
[0115]
此外,在实际应用时,所述检查文字库与所述候选文字库可以为存储于同一存储区域的文字库,也可以为存储于不同区域的文字库,本说明书对此不做具体限制。
[0116]
又例如,可以使用相应语言种类的检查工具对初始文本进行自动检查,得到的错误文字。
[0117]
还例如,可以使用相应语言种类训练得到的检查模型,对初始文本进行自动检查,得到的错误文字
[0118]
在具体实施中,在确定所述初始文本中存在错误文字后,可以基于所述初始文本和所述错误文字,获取所述错误文字周围的文字,从而得到所述错误文字的上下文段落。
[0119]
其中,所述错误文字周围所要获取的文字数量可根据具体情况进行设定。例如,可以是所述错误文字之前的一个或多个文字,以及,可以是所述错误文字之后的一个或多个文字。本说明书实施例对所述错误文字周围所要获取的文字数量不做具体限制。
[0120]
为使本领域技术人员更好地理解和实现本发明实施例,以下通过具体的应用场景详细说明如何进行文本纠正。
[0121]
在本发明一实施例中,在一应用服务界面中输入初始文本a=[a1…ai-1 a
i a
i+1
…am
],其中,i和m均为正整数,且i不大于m。
[0122]
对输入的初始文本a进行检查,确定错误文字为:ai;而错误文字ai的上下文段落为a’=[a
i-1-p
…ai-1 a
i+1
…ai+1+q
],其中,p和q均为非负整数,且p不大于i-2,q不大于m-i-1。
[0123]
将错误文字ai输入第一神经网络模型,得到错误特征向量vai;将错误文字ai的上下文段落a’输入第二神经网络模型,分别得到与上下文段落a’中各文字a
i-1-p
…ai-1 a
i+1
…ai+1+q
对应的文字特征向量:va
i-1-p

va
i-1 va
i+1

va i+1+q

[0124]
将所述错误特征向量vai和所述上下文段落中各文字对应的文字特征向量va
i-1-p

va
i-1 va
i+1

va
i+1+q
进行逻辑运算,得到融合特征向量vc。
[0125]
基于所述错误文字ai,确定纠正候选集b=[b1…bj
…bn
],其中,j和n均为正整数,且j不大于n。
[0126]
基于所述融合特征向量vc,分别确定所述纠正候选集b中各纠正候选文字b1…bj
…bn
与所述上下文段落a’之间的匹配度为:c1…cj
…cn
。其中,匹配度可以为:纠正候选文字对应的文字特征向量与融合特征向量vc的转置向量v
tc
之间的乘积。
[0127]
基于所述纠正候选集b中各纠正候选文字b1…bj
…bn
的匹配度c1…cj
…cn
,获取最高匹配度相应的纠正候选文字,作为所述错误文字的纠正结果并输出。
[0128]
可以理解的是,上述示例仅为示意说明,在本说明书中,提供了多种实施方案,各实施方案可在不冲突的情况下相互结合、交叉引用,从而延伸出多种可能的实施方案,这些均可认为是本说明书实施例披露、公开的实施例方案。
[0129]
本说明书还提供了与上述文本处理方法对应的文本处理设备,以下参照附图,通过具体实施例进行详细介绍。需要知道的是,下文描述的文本处理设备可以认为是为实现本说明书提供的文本处理方法所需设置的功能模块;下文描述的文本处理设备的内容,可与上文描述的文本处理方法的内容相互对应参照。
[0130]
在具体实施中,如图2所示,为本说明书实施例提供的一种文本处理设备的结构框
图。在图2中,所述文本处理设备m1可以包括:
[0131]
检查单元m11,适于对输入的初始文本进行检查,确定错误文字以及所述错误文字的上下文段落;
[0132]
数据获取单元m12,适于基于所述错误文字及所述错误文字的上下文段落,确定融合特征数据;
[0133]
纠正候选集获取单元m13,适于基于所述错误文字,确定纠正候选集,所述纠正候选集包括:多个纠正候选文字;
[0134]
匹配度获取单元m14,适于基于所述融合特征数据,分别确定所述纠正候选集中各纠正候选文字与所述上下文段落之间的匹配度;
[0135]
纠正结果获取单元m15,适于基于所述纠正候选集中各纠正候选文字的匹配度,确定所述错误文字的纠正结果。
[0136]
采用上述方案,通过输入的初始文本中检查到的错误文字以及所述错误文字的上下文段落确定的融合特征数据具有更强的表征能力和更加丰富的有用信息;而通过错误文字确定的纠正候选集具有更少的数据量和更高的灵活性,可以提高文本纠正的处理效率;通过所述融合特征数据确定的匹配度具有更高的参考价值,进而可以对存在相同错误文字的不同初始文本进行相应变化的纠正处理,从而提高文本纠正的准确性。
[0137]
综上,本说明书实施例提供的文本处理设备能够自动进行文本纠正,并提高文本纠正的效率和准确性。
[0138]
在具体实施中,可以通过特征提取算法提取所述错误文字的语义信息和上下文段落的语义信息,且可以通过数据进行融合处理获取所述错误文字在初始文本中的语境信息。其中,特征提取算法和融合处理的具体步骤可根据应用场景和需求设定。
[0139]
并且,数据融合处理和特征提取的执行顺序可根据具体情况设定,本说明书对融合特征数据的具体获取过程不做具体限制。
[0140]
例如,继续参照图2,所述数据获取单元m12适于分别提取所述错误文字的错误特征数据和所述上下文段落的段落特征数据;融合所述错误特征数据和所述段落特征数据,得到所述融合特征数据。
[0141]
在具体实施中,为了提高特征提取的精度和准确性,可以采用经过训练的神经网络模型进行特征提取。根据具体应用情况,神经网络模型的特征提取对象可以是:所述错误文字、所述上下文段落、或者所述错误文字和所述错误文字的上下文段落融合得到的数据。并且,上述三种特征提取对象可以采用相同、相似或不同的神经网络模型进行特征提取。
[0142]
例如,继续参考图2,所述数据获取单元m12适于将所述错误文字输入第一神经网络模型,得到所述错误文字对应的错误特征向量,以作为所述错误特征数据;将所述上下文段落输入第二神经网络模型,得到所述上下文段落中各文字对应的文字特征向量,以作为所述段落特征数据。
[0143]
其中,所述第一神经网络模型包括:具有递归结构的神经网络、具有卷积结构的神经网络、具有循环结构的神经网络、具有注意力机制的神经网络中的至少一种。所述第二神经网络模型包括:具有递归结构的神经网络、具有卷积结构的神经网络、具有循环结构的神经网络、具有注意力机制的神经网络中的至少一种。
[0144]
在具体实施中,若采用第一神经网络模型获得所述错误文字对应的错误特征向
量,以及采用第二神经网络模型获得所述上下文段落中各文字对应的文字特征向量,则所述数据获取单元适于将所述错误特征向量和所述上下文段落中各文字对应的文字特征向量进行逻辑运算,得到融合特征向量,以作为所述融合特征数据。其中,根据具体应用场景和需求,所述逻辑运算可以包括向量之间的加法、减法、乘法、转置中至少一种或者多种组合,本说明书实施例对此不作具体限制。
[0145]
在具体实施中,若采用第一神经网络模型获得所述错误文字对应的错误特征向量,以及采用第二神经网络模型获得所述上下文段落中各文字对应的文字特征向量,为了便于数据运算,可在获取匹配度之前,对各纠正候选文字设置相应的候选特征向量。
[0146]
基于此,所述匹配度获取单元适于分别获取各所述纠正候选文字的候选特征向量;并分别将各所述候选特征向量与所述融合特征数据进行逻辑运算,得到相应纠正候选文字与所述上下文段落之间的匹配度
[0147]
其中,各纠正候选文字的候选特征向量可以经过预设的神经网络模型或者编码算法获得,且预设的神经网络模型或者编码算法的参数可根据纠正结果进行调整,使得候选特征向量能够更加准确地表征相应纠正候选文字。
[0148]
在具体实施中,可以根据文字形状和/或文字发音确定纠正候选集。具体地,参照图2,所述纠正候选集获取单元适于基于预设的候选形状文字库,获取与所述错误文字形状相似的形状候选文字,以作为所述纠正候选文字;和/或,基于预设的标准发音文字库,确定所述错误文字的发音序列,并从所述标准发音文字库中获取与所述错误文字发音相似的发音标准文字,以作为所述纠正候选文字。
[0149]
在具体实施中,若分别从文字形状和文字发音方面获取纠正候选文字,可能会存在重复的纠正候选文字,为了减轻数据量,因此,所述纠正候选集获取单元还适于对所述形状相似的形状候选文字和所述发音相似的发音标准文字进行去重处理,得到所述纠正候选集。
[0150]
在具体实施中,可以通过预设的选取条件,从所述纠正候选集中筛选出符合选取条件的纠正候选文字。并且,在得到符合选取条件的纠正候选文字后,可以根据具体情况设定所述初始文本的纠正结果。
[0151]
例如,参照图2,所述纠正结果获取单元m15适于基于所述纠正候选集中各纠正候选文字的匹配度,获取最高匹配度相应的纠正候选文字,作为所述错误文字的纠正结果;或者,基于所述纠正候选集中各纠正候选文字的匹配度,确定最高匹配度相应的纠正候选文字,并将所述最高匹配度相应的纠正候选文字代替所述初始文本中的错误文字,得到纠正文本,以及,将所述纠正文本作为所述错误文字的纠正结果。
[0152]
在具体实施中,初始文本的检查方式可根据实际情况进行设定。例如,参照图2,所述检查单元m11适于基于预设的检查文字库,对所述初始文本中的文字进行识别,并将未识别到的文字作为错误文字;
[0153]
基于所述初始文本和所述错误文字,确定所述错误文字的上下文段落。
[0154]
在具体实施中,如图3所示,为本说明书实施例提供的另一种文本处理设备的结构框图。在图3中,文本处理设备m2可以包括存储器m21和处理器m22,存储器m21和处理器m22之间可以通过通信总线m23进行通信;所述存储器m21上存储有能在所述处理器m22上运行的计算机指令,所述处理器m22运行所述计算机指令时,可以执行以上任一实施例所述的文
本处理方法的步骤,具体可参照上述相关内容,在此不再赘述。
[0155]
在具体实施中,所述处理器可以包括中央处理器(central processing unit,cpu),图形处理器(graphics processing unit,gpu)、现场可编程逻辑门阵列(field programmable gate array,fpga)等。所述存储器可以包括随机存取存储器(random access memory,ram)、只读存储器(read-only memory,rom)、非易失性存储器(non-volatile memory,nvm)等。
[0156]
在具体实施中,计算机指令可以包括通过使用任何合适的高级、低级、面向对象的、可视化的、编译的和/或解释的编程语言来实现的任何合适类型的代码,例如,源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。
[0157]
在具体实施中,如图3所示,所述文本处理设备m2还可以包括显示接口m24及通过显示接口m24接入的显示器m25。显示接口m24可以通过通信总线m23与存储器m21和处理器m22进行通信。所述显示器m25可以显示处理器m22执行本说明书实施例提供的文本处理方法所得到的纠正结果。
[0158]
本发明还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行本发明上述任一实施例所述的文本处理方法的步骤,具体可参照上述相关内容,在此不再赘述。
[0159]
其中,所述计算机可读存储介质可以包括任何合适类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质和/或存储单元。例如,存储器、可移除的或不可移除的介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、光盘只读存储器(cd-rom)、可刻录光盘(cd-r)、可重写光盘(cd-rw)、光盘、磁介质、磁光介质、可移动存储卡或磁盘、各种类型的数字通用光盘(dvd)、磁带、盒式磁带等。
[0160]
并且,计算机指令可以包括通过使用任何合适的高级、低级、面向对象的、可视化的、编译的和/或解释的编程语言来实现的任何合适类型的代码,例如,源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。
[0161]
可以理解的是,在本说明书的描述中,除非另有明确的规定和限定,本说明书中术语可根据不同的应用场景进行理解。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含的包括一个或者更多个该特征。而且,术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
[0162]
虽然本说明书实施例披露如上,但本说明书实施例并非限定于此。任何本领域技术人员,在不脱离本说明书实施例的精神和范围内,均可作各种更动与修改,因此本说明书实施例的保护范围应当以权利要求所限定的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1