文本纠错方法、装置、介质及设备与流程

文档序号:26626582发布日期:2021-09-14 21:43阅读:92来源:国知局
文本纠错方法、装置、介质及设备与流程

1.本技术涉及人工智能技术领域,具体涉及文本纠错方法、装置、介质及设备。


背景技术:

2.人工智能(ai,artificial intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理、机器学习、深度学习等几大方向。随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
3.在对文本的纠错方式中,基于语言预测模型根据上下文对特定位置的文字进行预测,如果预测出来的字与该位置原本的字不一样,则直接认为原始文本发生错误,进而用预测出来的字对该文字进行替换纠错。但模型的预测表现不尽如人意,直接用预测的文本替换初始的文本,纠错的准确率较低,容易出现将正确的文本纠错成错误的文本。


技术实现要素:

4.为了提高文本纠错的准确率,本技术提供了文本纠错方法、装置、介质及设备。所述技术方案如下:
5.第一方面,本技术提供了一种文本纠错方法,所述方法包括:
6.获取待纠错文本,基于语言模型对所述待纠错文本进行预测,得到所述待纠错文本中目标文本的文本预测值;
7.根据形近字列表确定所述文本预测值的一个或多个形近字,所述形近字列表是预先通过对文本库语料进行处理得到的;
8.根据所述文本预测值和所述文本预测值的一个或多个形近字,对所述待纠错文本中所述目标文本进行纠错。
9.第二方面,本技术提供了一种文本纠错装置,所述装置包括:
10.预测模块,用于获取待纠错文本,基于语言模型对所述待纠错文本进行预测,得到所述待纠错文本中目标文本的文本预测值;
11.形近字确定模块,用于根据形近字列表确定所述文本预测值的一个或多个形近字,所述形近字列表是预先通过对文本库语料进行处理得到的;
12.纠错模块,用于根据所述文本预测值和所述文本预测值的一个或多个形近字,对所述待纠错文本中所述目标文本进行纠错。
13.第三方面,本技术提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的一种文本纠错方法。
14.第四方面,本技术提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述处理器加载并执行以实现如第一方面所述的一种文本纠错方法。
15.本技术提供的文本纠错方法、装置、设备及存储介质,具有如下技术效果:
16.(1)本技术提供的方案考虑到形近字这一因素,基于词频分析和差异量化建立形近字列表,提升在检错纠错过程中的可靠性;
17.(2)本技术提供的方案通过语言模型对文本进行预测,并结合形近字列表进行对文本的纠错,提高对文本纠错的准确率。
18.本技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
19.为了更清楚地说明本技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
20.图1是本技术实施例提供的一种文本纠错方法的实施环境示意图;
21.图2是本技术实施例提供的一种文本纠错方法的流程示意图;
22.图3是本技术实施例提供的一种得到所述待纠错文本中目标文本的文本预测值的流程示意图;
23.图4是本技术实施例提供的一种得到形近字列表的流程示意图;
24.图5是本技术实施例提供的一种对短文本进行检错纠错的流程示意图;
25.图6是本技术实施例提供的一种根据所述错误词汇候选集合对所述短文本进行检错纠错的流程示意图;
26.图7是本技术实施例提供的一种根据所述文本预测值和所述文本预测值的一个或多个形近字完成对所述待纠错文本中所述目标文本的纠错的流程示意图;
27.图8是本技术实施例提供的另一种文本纠错方法的流程示意图;
28.图9是本技术实施例提供的一种文本纠错装置的示意图;
29.图10是本技术实施例提供的用于实现一种文本纠错方法的设备的硬件结构示意图。
具体实施方式
30.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。
31.本技术实施例提供的方案涉及人工智能的深度学习(deep learning,,dl)、自然语言处理(nature language processing,nlp)等技术。
32.深度学习(deep learing,dl)是机器学习(machine learning,ml)领域中一个主要的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
33.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
34.本技术实施例提供的方案可部署在云端,其中还涉及云技术等。
35.云技术(cloud technology):是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术,也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称,可以组成资源池,按需所用,灵活便利。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站,伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,因此云技术需要以云计算作为支撑。云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池平台,简称云平台,一般称为基础设施即服务(iaas,infrastructure as a service),在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(可为虚拟化机器,包含操作系统)、存储设备和网络设备。
36.为了提高文本纠错的准确率,本技术实施例提供了一种文本纠错方法、装置、介质及设备。下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
37.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
38.为了便于理解本技术实施例所述的技术方案及其产生的技术效果,本技术实施例对于涉及到的相关专业名词进行解释:
39.ocr:optical character recognition,光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是ocr最重要的课题。
40.编辑距离:是指针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。
41.bert模型:bidirectional encoder representations from transformer,bert 模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的表达。
42.请参阅图1,其为本技术实施例提供的一种文本纠错方法的实施环境示意图,如图1所示,该实施环境可以至少包括客户端01和服务器02。
43.具体的,所述客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、监控设备及语音交互设备等类型的设备,也可以包括运行于设备中的软体,例如一些服务商提供给用户的网页页面,也可以为该些服务商提供给用户的应用。具体的,所述客户端01可以用于获取用户输入或上传的文本,以及显示服务器02纠正后的文本。
44.具体的,所述服务器02可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、 cdn(content delivery network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。所述服务器02可以包括有网络通信单元、处理器和存储器等等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。具体的,所述服务器02可以用于文本进行纠错,以及所述服务器02可以通过网络连接数据库以获取文本库中的语料生成形近字列表,以及训练语言模型并将其用于文本的预测。
45.本技术实施例还可以结合云技术实现,云技术(cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术,也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。云技术需要以云计算作为支撑。云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。具体地,所述服务器02和数据
库位于云端,所述服务器02可以是实体机器,也可以是虚拟化机器。
46.以下介绍本技术提供的一种文本纠错方法。图2是本技术实施例提供的一种文本纠错方法的流程图,本技术提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。请参照图2,本技术实施例提供的一种文本纠错方法可以包括如下步骤:
47.s201:获取待纠错文本,基于语言模型对所述待纠错文本进行预测,得到所述待纠错文本中目标文本的文本预测值。
48.在本技术的实施例中,所述待纠错文本可以为直接输入的需要检错纠错的文本,也可以为通过光学字符识别(optical character recognition,ocr)或语音识别等方式得到的文本。
49.在本技术的实施例中,如图3所示,所述获取待纠错文本,基于语言模型对所述待纠错文本进行预测,得到所述待纠错文本中目标文本的文本预测值,可以包括以下步骤:
50.s301:通过所述文本库语料对机器学习模型进行训练得到语言模型。
51.可以理解的是,深度学习技术对多粒度自然语言单位的分布式表示也即嵌入表示(embedding)使其在自然语言处理领域取得了极大的成功。基于深度学习技术构建深度神经网络模型作为机器学习模型,并通过文本库中的长文本语料进行模型的训练,得到语言模型。此外,还可以语料的语种、应用领域或场景、语言风格等因素,训练并测试多个语言模型,以针对性地对待纠错文本进行预测。
52.在一种可行的实施方式中,考虑到随着网络的加深以及数据集的不断扩大,完全重新训练一个模型所需要的成本也在不断地增加,则可以在开源的预训练好的语言模型上进行权重的微调(fine

tuning),将其作为后续应用的语言模型。示例性地,在bert(bidirectional encoder representations from transformer)模型的基础上,使用特定领域的长文本语料进行微调,获得的模型作为本技术中使用的语音模型。可以理解的是,bert模型在预训练时采用了遮蔽语言模型 (masked language model,mlm)和下句一句预测(next sentence prediction)。 bert模型的成功还有一个很大的原因来自于模型的体量以及训练的数据量。因而在大数据方面bert模型更具优势。bert模型的主要输入是文本中各个字/ 词的原始词向量,该向量既可以随机初始化,也可以利用word2vector等算法进行预训练以作为初始值;输出是文本中各个字/词融合了全文语义信息后的向量表示。
53.s303:确定所述待纠错文本中的目标文本以及所述目标文本的上文或下文。
54.在本技术的实施例中,所采用的语言模型可以根据目标文本的上下文进行预测。如基于对bert模型进行微调后得到的语言模型,能够通过文本的上文和下文对特定位置的文本进行预测,即为一种双向预测方式。在其他一些可使用的语言模型中,可采用单向预测,如仅根据上文预测特定位置的文本或仅根据下文预测特定位置的文本。
55.具体地,遍历所述待纠错文本中各个位置的目标文本,并按照预设步长选取目标文本的上文或下文。如在一个中文长句中,对长句中每一个汉字,将每一个汉字的前两个汉字或后两个汉字作为一组语言模型的输入,此时步长为2,对于长句中首尾处前后汉字不足
两个的文本,可采用添加缺省值的方式补足上文或下文。
56.s305:基于所述语言模型,根据所述目标文本的上文或下文进行预测,得到所述待纠错文本中所述目标文本的文本预测值。
57.具体地,在得到所述文本预测值的同时,还会给出对于所述文本预测值的置信度,置信度表征文本预测值的可信程度,可以将置信度作为纠错过程中的判断依据。如文本预测值的置信度低于预设阈值,则不采用该文本预测值去进行检错或纠错,可以直接认为目标文本没有出错,或者更换其他方式对目标文本进行检错纠错。如还可以在目标文本和对应的文本预测值是否异同的结果上,再根据置信度进行判断,此处不再赘述。
58.s203:根据形近字列表确定所述文本预测值的一个或多个形近字,所述形近字列表是预先通过对文本库语料进行处理得到的。
59.在本技术实施例中,在使用语言模型的同时,还考虑了形近字这一因素,通过生成形近字列表,提升检错纠错的可靠度和准确率。所述形近字列表中包含一组或多组形近字对。
60.在本技术实施例中,在根据形近字列表确定所述文本预测值的一个或多个形近字之前,所述方法还可以包括:
61.通过对文本库语料进行词频分析和差异量化,得到所述形近字列表。
62.在本技术实施例中,可以通过对语料在文本库中出现的次数进行统计,按照预设的频数阈值将语料分为高频语料和低频语料,且视高频语料为准确可信的标准语料。进而通过衡量高频语料和低频语料之间差异程度,构建高频语料与低频语料的语料对,所述差异程度也即文本的相似度,可以用文本的字面距离表征。例如可以通过计算编辑距离(莱文斯坦距离)、jaro距离、simhash(一种局部敏感哈希)等确定两文本之间的字面距离。在一个语料对中,导致差异的文本即可构成一组形近字对,循环高频语料即可得到由一组或多组形近字对构成的形近字列表。
63.具体地,如图4所示,通过对文本库语料进行词频分析和差异量化,得到形近字列表,可以包括以下步骤:
64.s401:获取文本库中的短文本语料。
65.在本技术实施例中,语料是文本库的语言材料,是文本库的基本单元。语料可以为单词、汉字、词汇、成语、短语、短句、长句、诗篇、文章等。根据语料中最小单元文本的个数可将语料分为短文本与长文本,如将不多于5个汉字的语料作为短文本语料,将不少于10个汉字的语料作为长文本语料,则“由此可见”、“我不知道”之类为短文本语料,而“在xx新闻发布会上新闻发言人再次回应了xxx的问题”则为长文本语料。
66.示例性地,从中文文本库中挑选长度为3至5个汉字的文本作为本技术实施例中使用的短文本语料。此外,还可以将长文本基于分隔符或预设长度的移动选框等切分成短文本。长文本由于包含了更多的文本、更多的语义内容,频数差异相对短文本不够明显,因可以优选地使用短文本语料作为原始数据。此外,还可以根据语料的语言风格、应用领域等对短文本语料进行筛选。
67.s403:对所述短文本语料进行词频统计和排序,得到第一词汇集合和第二词汇集合。
68.在一种可行的实施方式中,对所述短文本语料进行统计,分析在所述短文本语料
中每个词汇出现的次数即词频,并基于词频这一指标对所述短文本语料中的所有短文本进行排序,得到短文本从高频到低频的排序列表。
69.在一种可行的实施方式中,得到短文本从高频到低频的排序列表后,根据预设的词频阈值划分短文本,可以将短文本分为至少两类,不低于预设的词频阈值的短文本归入第一词汇集合,低于预设的词频阈值的短文本归入第二词汇集合。如可以将所有短文本的词频求和并求其平均值,将该平均值的2倍作为词频阈值,词频高于该词频阈值的短文本则为高频词,词频低于该词频阈值的则为低频词。在一些必要的应用场景中,可以经过少量的人工审核,确定最终的高频词汇和低频词汇,得到第一词汇集合和第二词汇集合。
70.进一步地,在对短文本语料进行词频统计和排序时,先将短文本语料根据文本长度、语种、应用领域等属性进行分类,得到各个细分类目下的第一词汇集合和第二词汇集合。
71.s405:对于所述第一词汇集合中的第一目标词汇,从所述第二词汇集合中获取与所述第一目标词汇的差异程度满足预设条件的第二目标词汇。
72.在本技术实施例中,对于某一高频词汇,在低频词汇集合中确定该高频词汇的易错词汇,根据分析词汇的差异程度来判断发生错误的概率。
73.在一种可行的实施方式中,从所述第二词汇集合中获取与所述第一目标词汇的差异程度满足预设条件的第二目标词汇,可以包括以下步骤:
74.s4051:计算得到所述第二词汇集合中各第二词汇与所述第一目标词汇的编辑距离。
75.可以理解的是,编辑距离是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。示例性地,对于第一词汇集合中的一个高频词汇abc, a、b、c可以指代一个中文字符,第二词汇集合中的一个低频词汇abe,将 abe改为abc仅需要一次处理即e变为b,则abc与abe之间的编辑距离为 1。在英文文本中,除了改动一个字母,还可以是增删一个字母,此处不再赘述。
76.s4053:将编辑距离满足预设条件的第二词汇确定为第二目标词汇。
77.在一种可行的实施方式中,预设条件为距离条件,将所述各第二词汇对应的编辑距离与预设编辑距离阈值进行比较,根据比较结果对所述各第二词汇进行筛选,确定第二目标词汇。示例性地,对于中文文本,预设编辑距离阈值为2,将编辑距离不多于2的第二词汇作为所述第一目标词汇的第二目标词汇,也即第一目标词汇变动为第二目标词汇仅需变动1个或2个汉字。
78.在另一种可行的实施方式中,预设条件除了距离条件还可以包括数量条件。根据距离条件对第二词汇进行第一轮筛选,根据数量条件对筛选后的第二词汇再进行第二轮筛选或补充。示例性地,编辑距离不多于2的第二词汇有10个,其中编辑距离为1的有4个,编辑距离为2的有6个。若预设的数量阈值为3,则优先在4个编辑距离为1的第二词汇挑选出3个,若预设的数量阈值为5,则除了选择4个编辑距离为1的第二词汇作为第二目标词汇,还需在6个编辑距离为2的第二词汇中选择一个作为第二目标词汇,可以随机挑选或者基于词汇频率等指标进行挑选,本发明对此不作具体限定。此外,若编辑距离不多于2 的第二词汇不足3个,可以将预设编辑距离阈值按一定比例放大,重新确定第二目标词汇。
79.在另一种可行的实施方式中,预设条件除了距离条件还可以包括其他筛选条件,如语言类型条件、文本类型条件或应用领域条件等。根据其他筛选条件对第二词汇集合中的词汇进行筛选,得到关键第二词汇集合,进而在关键第二词汇集合中确定第二目标词汇。示例性地,先根据应用领域是否为生活用语将第二词汇进行第一轮筛选,在第一轮筛选后的第二词汇中再将所述各第二词汇对应的编辑距离与预设编辑距离阈值进行比较,根据比较结果对所述各第二词汇进行筛选,确定第二目标词汇。
80.s407:根据所述第一目标词汇和所述第二目标词汇确定差异文本,根据所述差异文本生成至少一组形近字对。
81.在本技术实施例中,对于二者差异程度满足预设条件的第一目标词汇和第二目标词汇,导致二者差异的文本可以被视为一组形近字对,一组形近字对中包含一个标准文本和一个混淆文本。如对于第一目标词汇abc和第二目标词汇 abe,,其中a、b、c和e均为汉字,可以确定导致差异的差异文本为c和e,那么c和e构成一组形近字对,其中c为标准文本,e为c的错误文本或称 c的混淆文本。在英文文本中,差异文本的最小粒度可以为一个字母,而最后生成的一组形近字对可以为标准单词与混淆单词。
82.s409:遍历所述第一词汇集合中的所有词汇,确定所述第一词汇集合中所有词汇的形近字对,得到形近字列表。
83.在本技术实施例中,通过循环高频词列表也即第一词汇集合,可以得到一系列的形近字对,最终构成一个形近字列表。在一种可行的实施方式中,对一系列的形近字对进行去重整合,或者在去重前,对同一个标准文本的多个形近字对设置相应的权重以便后续的检错判断。
84.在一些可行的实施方式中,针对待纠错文本中的长文本和短文本,还可以采用不同的检错纠错方式。对于字数过少的短文本,模型预测输入的上下文信息较少,预测效果不佳,因此可以使用基于形近字列表得到的错误词汇候选集合直接对短文本进行纠错。具体地,如图5所示,可以包括以下步骤:
85.s402:根据所述形近字列表生成错误词汇候选集合。
86.在本技术实施例中,所述错误词汇候选集合中的词汇可以看做是第一词汇集合中各高频词汇的混淆词汇,通过将高频词汇中各文本的形近字进行组合得到混淆词汇,作为短文本纠错的依据。
87.具体地,所述根据形近字列表生成错误词汇候选集合可以包括以下步骤:
88.s4021:对于所述第一词汇集合中的第一目标词汇,从所述形近字列表中获取所述第一目标词汇中各文本的全部形近字对。
89.可以理解的是,对于一个给定的高频词汇(也即第一词汇),高频词汇中的每个文本都可能存在各自的形近字。示例性地,对于给定高频词汇bci,b的形近字为e,c的形近字为g,i的形近字为l和j。
90.s4023:将所述全部形近字对进行组合,得到所述第一目标词汇的混淆词汇。
91.在本技术实施例中,当第一目标词汇中各个位置上的文本都存在形近字时,形近字的组合都可以被视为是第一目标词汇的混淆词汇。需要注意的是,在将形近字组合的过程中,还需根据第一目标词汇中各个文本的位置顺序,将各个文本的形近字进行组合。如上所述,对于给定高频词汇bci,将各个文本的形近字进行叉乘组合,可以得到所有可能的错
误词汇,包括:bcl、bcj、bgi、eci、 egi、bgl、bgj、ecl、ecj、egl和egj,则这11个词汇即为给定高频词汇bci的混淆词汇。
92.s4025:遍历所述第一词汇集合中的所有词汇,确定所述第一词汇集合中的所有词汇的混淆词汇,生成错误词汇候选集合,所述错误词汇候选集合中的词汇对包括标准词汇和对应的混淆词汇。
93.在本技术的一个实施例中,在所述错误词汇候选集合中,词汇对可以为一个标准词汇和该标准词汇的至少一个混淆词汇,或者可以为一个混淆词汇与其对应的标准词汇。在一种可行的实施方式中,一个混淆词汇也可能对应有多个标准词汇也即高频词汇,此时可以通过计算各高频词汇发生错误变成该混淆词汇的概率等方式为各高频词汇设定权值。
94.s404:获取所述待纠错文本中的短文本,根据所述错误词汇候选集合对所述短文本进行检错纠错。
95.在本技术实施例中,考虑到模型预测时需要上文或下文,而对于待纠错的短文本,其上文或下文信息量不够,模型预测的效果不佳,因此可以对待纠错文本的短文本采取其他优选的纠错方式,通过确认短文本是否错误候选词汇集合中的混淆词汇,若是,则将短文本修改为混淆词汇对应的标准词汇。
96.在一种可行的实施方式中,具体地,如图6所示,所述获取所述待纠错文本中的短文本,根据所述错误词汇候选集合对所述短文本进行检错纠错,可以包括以下步骤:
97.s4041:获取所述待纠错文本中的短文本。
98.在本技术实施例中,所述短文本可以通过分隔符如标点符号等从所述待纠错文本中确定。
99.s4043:对于所述短文本中词频低于预设词频阈值的目标短文本,判断所述短文本是否为所述错误词汇候选集合中的混淆词汇。
100.具体地,首先可以根据短文本从高频到低频的排序列表和词频阈值判断所述短文本是否为低频词汇,若为高频词汇则不执行检错步骤,若为低频词汇,可以通过字符匹配等方式判断所述短文本是否为所述错误词汇候选集合中的混淆词汇。
101.s4045:若所述目标短文本为所述错误词汇候选集合中的混淆词汇,则根据所述错误词汇候选集合将所述目标短文本纠正为所述混淆词汇对应的标准词汇。
102.在本技术的一个实施例中,在所述错误词汇候选集合中,词汇对可以为一个标准词汇和该标准词汇的至少一个混淆词汇,或者可以为一个混淆词汇与其对应的标准词汇。根据所述错误词汇候选集合中的对应关系,将所述短文本纠正为对应的标准词汇。
103.s4047:若所述目标短文本不为所述错误词汇候选集合中的混淆词汇,则不对所述目标短文本进行纠错。
104.以步骤s4023中所述为例,对于短文本egl和egj,能在错误词汇候选集合中查找到,且其对应的标准词汇为高频词汇bci,则将第一短文本egl和egj 纠正为bci,即可完成对短文本的智能纠错。
105.s205:根据所述文本预测值和所述文本预测值的一个或多个形近字,对所述待纠错文本中所述目标文本进行纠错。
106.在本技术实施例中,判断目标文本是否为文本预测值的形近字,在模型预测的基础上结合形近字,提升对目标文本纠错的准确保障。
107.在一种可行的实施方式中,具体地,如图7所示,所述根据所述文本预测值和所述文本预测值的一个或多个形近字,对所述待纠错文本中所述目标文本进行纠错,可以包括以下步骤:
108.s501:根据所述文本预测值的一个或多个形近字,判断所述目标文本是否为所述文本预测值的形近字。
109.在本技术实施例中,除了参考语言模型的文本预测值,还考虑了形近字这一因素,二者结合,提升对文本纠错的准确率和可靠性。
110.s503:若所述目标文本为所述文本预测值的形近字,则将所述目标文本纠正为所述文本预测值。
111.在本技术的实施例中,目标文本为文本预测值的形近字,也即目标文本与文本预测值不同的情况下,考虑目标文本是否是文本预测值的形近字对目标文本进行检错,如果目标文本为所述文本预测值的形近字,在一定程度上也使得文本预测值的可信程度增加,将目标文本改为文本预测值的准确率得到提升。进一步地,还可以根据所述文本预测值的置信度判断是否需要进行纠错。当目标文本为文本预测值的形近字且文本预测值的置信度高于预设的置信度阈值,则可以认为目标文本发生了错误,需要将目标文本替换为文本预测值。若文本预测值的置信度低于预设的置信度阈值,即使所述目标文本为所述文本预测值的形近字也不执行纠错。
112.s505:若所述目标文本不是所述文本预测值的形近字,则不对所述目标文本执行纠错。
113.在本技术的实施例中,当目标文本不是文本预测值的形近字,则可以认为目标文本没有发生错误,不需要进行修改。可以理解的是,目标文本可以为文本预测值,此时目标文本一定不是文本预测值的形近字,则无需纠错。目标文本也可以与文本预测值不同,此时目标文本也不是文本预测值的形近字,也无需纠错,可以减少在模型预测效果不佳的情况下将正确的目标文本改为错误的文本预测值的情况。
114.在一种可行的实施方式中,,根据文本中的上文bc(b和c可以指代一个文本字符),语言模型预测出后一个位置的文本应为i,且i的置信度为0.8大于预设的阈值0.7。i的形近字包括l和j。如果待纠错文本中该位置的目标文本为l,则可以认为l为错误的文本,用预测出来的高置信度的文本i替换l 完成纠错;如果待纠错文本中该位置的目标文本为k,既不是文本预测值i,也不是i的形近字l和j,即使i的置信度大于预设的阈值,也不对其进行修改。
115.如图8所示,本技术实施例提供的一种文本纠错方法,还可以用于对待纠错文本中的短文本和长文本采用不同的纠错方式。通过对文本语料的词频分析建立高频词汇与低频词汇之间的形近字列表,将形近字列表进行组合得到错误词汇候选集合,进而对短文本进行智能纠错;对于长文本,在通过语言模型预测文本的基础上,结合形近字列表判断是否存在错误,进而对长文本进行纠错,通过本技术提供的方法可以进一步提高文本纠错的准确率,以更精准地识别用户意图,为后续应用服务。
116.本技术实施例还提供了一种文本纠错装置900,如图9所示,所述装置可以包括:
117.预测模块910,用于获取待纠错文本,基于语言模型对所述待纠错文本进行预测,得到所述待纠错文本中目标位置的文本预测值。
118.形近字确定模块920,用于根据形近字列表确定所述文本预测值的一个或多个形近字,所述形近字列表是预先通过对文本库语料进行处理得到的。
119.纠错模块930,用于根据所述文本预测值和所述文本预测值的一个或多个形近字,对所述待纠错文本中所述目标文本进行纠错。
120.在本技术的一种实施例中,所述装置还可以包括:
121.形近字列表生成模块,用于通过对文本库语料进行词频分析和差异量化,得到所述形近字列表。
122.在一种可行的实施方式中,所述形近字列表生成模块可以包括:
123.语料获取单元,用于获取文本库中的短文本语料;
124.词频分析单元,用于对所述短文本语料进行词频统计和排序,得到第一词汇集合和第二词汇集合;
125.词汇选取单元,用于对于所述第一词汇集合中的第一目标词汇,从所述第二词汇集合中获取与所述第一目标词汇的差异程度满足预设条件的第二目标词汇;
126.形近字组对单元,用于根据所述第一目标词汇和所述第二目标词汇确定差异文本,根据所述差异文本生成至少一组形近字对;
127.形近字列表单元,用于遍历所述第一词汇集合中的所有词汇,确定所述第一词汇集合中所有词汇的形近字对,得到形近字列表。
128.在本技术的一种实施例中,所述词汇选取单元还可以包括:
129.计算子单元,用于计算得到所述第二词汇集合中各第二词汇与所述第一目标词汇的编辑距离;
130.筛选子单元,用于将编辑距离满足预设条件的第二词汇确定为第二目标词汇。
131.在本技术的一种实施例中,所述预测模块910可以包括:
132.模型训练单元,用于通过所述文本库语料对机器学习模型进行训练得到语言模型;
133.文本确定单元,用于确定所述待纠错文本中的目标文本以及所述目标文本的上文或下文;
134.模型预测单元,用于基于所述语言模型,根据所述目标文本的上文或下文进行预测,得到所述待纠错文本中所述目标文本的文本预测值。
135.在本技术的一种实施例中,所述文本纠错装置900还可以包括:
136.错误词汇模块,用于根据所述形近字列表生成错误词汇候选集合;
137.短文本纠错模块,用于获取所述待纠错文本中的短文本,根据所述错误词汇候选集合对所述短文本进行检错纠错。
138.需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
139.本技术实施例提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理
器加载并执行以实现如上述方法实施例所提供的一种文本纠错方法。
140.图10示出了一种用于实现本技术实施例所提供的一种文本纠错方法的设备的硬件结构示意图,所述设备可以参与构成或包含本技术实施例所提供的装置或系统。如图10所示,设备10可以包括一个或多个(图中采用1002a、1002b,
……
, 1002n来示出)处理器1002(处理器1002可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外,还可以包括:显示器、输入/输出接口 (i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图 10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备 10还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
141.应当注意到的是上述一个或多个处理器1002和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
142.存储器1004可用于存储应用软件的软件程序以及模块,如本技术实施例中所述的方法对应的程序指令/数据存储装置,处理器1002通过运行存储在存储器 1004内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种文本纠错方法。存储器1004可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1004可进一步包括相对于处理器1002远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
143.传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置1006 包括一个网络适配器(networkinterfacecontroller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置1006可以为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。
144.显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。
145.本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可设置于服务器之中以保存用于实现方法实施例中一种文本纠错方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的一种文本纠错方法。
146.可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
147.本技术实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备
的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施方式中提供的一种文本纠错方法。
148.由上述本技术提供的文本纠错方法、装置、介质及设备的实施例可见,
149.(1)本技术提供的方案考虑到形近字这一因素,基于词频分析和差异量化建立形近字列表,提升在检错纠错过程中的可靠性;
150.(2)本技术提供的方案通过语言模型对文本进行预测,并结合形近字列表进行对文本的纠错,提高对文本纠错的准确率。
151.需要说明的是:上述本技术实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
152.本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
153.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
154.以上所述仅为本技术的较佳实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1