数据处理方法、装置、计算机设备和存储介质与流程

文档序号:22967358发布日期:2020-11-19 21:41阅读:102来源:国知局
数据处理方法、装置、计算机设备和存储介质与流程

本申请涉及医学数据检测技术领域,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。



背景技术:

随着医疗信息系统在医疗行业的普及应用,医疗机构大部分都采用医疗信息系统进行医学数据的存储与编写,例如,检测报告或诊断报告,而医学数据中医学文本数据占有很大的比例,如何对错误的医学文本数据进行校核是非常重要的环节。

目前,对错误的医学文本数据进行校核的方式包括很多种,主要包括:采用具有检测错误文本功能的检测模型检测出错误的文本,然后人工修改错误的文本,得到纠正后的医学文本数据。

然而,上述校核方法存在校核不准确的问题。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够有效提高纠错准确性的数据处理方法、装置、计算机设备和存储介质。

一种数据处理方法,所述方法包括:

对待处理文本进行错误检测,得到错误文本的类型和位置;

根据错误文本类型和纠错策略之间的对应关系,确定与所述错误文本的类型对应的目标纠错策略;

根据所述目标纠错策略和所述错误文本的位置,对所述错误文本进行纠错处理。

在其中一个实施例中,所述错误文本的类型包括错字类型、缺失类型、无序类型中的至少一种,则所述根据所述目标纠错策略和所述错误文本的位置,对所述错误文本进行纠错处理,包括:

根据所述目标纠错策略和所述错误文本的位置,确定与所述错误文本对应的至少一个候选文本;

根据所述至少一个候选文本,对所述错误文本进行纠错处理。

在其中一个实施例中,若所述错误文本的类型包括错字类型,则所述根据所述目标纠错策略和所述错误文本的位置,确定与所述错误文本对应的至少一个候选文本,包括:

根据所述错字类型的文本的位置在所述待处理文本中提取出所述错字类型的文本;

从预设的第一数据库中选取出与所述错字类型的文本同音,和/或,与所述错字类型的文本之间的相似度小于预设相似度阈值的文本作为所述候选文本。

在其中一个实施例中,若所述错误文本的类型包括缺失类型,则所述根据所述目标纠错策略和所述错误文本的位置,确定与所述错误文本对应的至少一个候选文本,包括:

根据所述缺失类型的文本的位置在所述待处理文本中提取出与所述缺失类型的文本相邻的文本;

从预设的第二数据库中选取出与所述相邻的文本匹配的文本作为所述候选文本。

在其中一个实施例中,若所述错误文本的类型包括无序类型,则所述根据所述目标纠错策略和所述错误文本的位置,确定与所述错误文本对应的至少一个候选文本,包括:

根据所述无序类型的文本的位置在所述待处理文本中提取出所述无序类型的文本;

从预设的第三数据库中选取出与所述无序类型的文本包含相同字的文本作为所述候选文本。

在其中一个实施例中,所述根据所述至少一个候选文本,对所述错误文本进行纠错处理,包括:

将至少一个所述候选文本依次添加到所述待处理文本中对应位置上,对添加后的待处理文本的通顺程度进行打分;

按照分数从高到低的顺序对多个打分后的待处理文本进行排序,并将分数最高的待处理文本确定为纠正后的文本。

在其中一个实施例中,所述错误文本的类型包括冗余类型,则所述根据所述目标纠错策略和所述错误文本的位置,对所述错误文本进行纠错处理,包括:

根据所述目标纠错策略和所述错误文本的位置,确定是否删除所述冗余类型的文本;

若确定删除,则删除所述待处理文本中的错误文本;

若确定不删除,则不执行删除操作。

在其中一个实施例中,所述根据所述目标纠错策略和所述错误文本的位置,确定是否删除所述冗余类型的文本,包括:

根据所述冗余类型的文本的位置在所述待处理文本中提取出包含所述冗余类型的文本的文本;

检测包含所述冗余类型的文本的文本是否通顺,若不通顺,则确定删除所述冗余类型的文本,若通顺,则确定不删除所述冗余类型的文本。

一种数据处理装置,所述装置包括:

检测模块,用于对待处理文本进行错误检测,得到错误文本的类型和位置;

确定模块,用于根据错误文本类型和纠错策略之间的对应关系,确定与所述错误文本的类型对应的目标纠错策略;

纠错模块,用于根据所述目标纠错策略和所述错误文本的位置,对所述错误文本进行纠错处理。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

对待处理文本进行错误检测,得到错误文本的类型和位置;

根据错误文本类型和纠错策略之间的对应关系,确定与所述错误文本的类型对应的目标纠错策略;

根据所述目标纠错策略和所述错误文本的位置,对所述错误文本进行纠错处理。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

对待处理文本进行错误检测,得到错误文本的类型和位置;

根据错误文本类型和纠错策略之间的对应关系,确定与所述错误文本的类型对应的目标纠错策略;

根据所述目标纠错策略和所述错误文本的位置,对所述错误文本进行纠错处理。

上述数据处理方法、装置、计算机设备和存储介质,通过对待处理文本进行错误检测,得到错误文本的类型和位置,并根据错误文本类型和纠错策略之间的对应关系,确定与错误文本的类型对应的目标纠错策略,进一步的根据目标纠错策略和错误文本的位置,对错误文本进行纠错处理。在上述纠错的数据处理方法中,由于每种类型的错误文本对应各自的目标纠错策略,实现了针对每种错误文本类型的纠错操作,相比于传统的无论任何类型的错误文本均采用大数据库获取用于纠错的文本导致的数据处理量大和纠错精度差的问题,本申请所述的纠错方法极大的提高了纠错的准确性,以及提高了数据处理速度。

附图说明

图1为一个实施例中计算机设备的内部结构示意图;

图2为一个实施例中数据处理方法的流程示意图;

图2a为一个实施例提供的训练方法的示意图;

图3为图2实施例s103的一种实现方式的流程示意图;

图4为图3实施例s201的一种实现方式的流程示意图;

图5为图3实施例s201的一种实现方式的流程示意图;

图6为图3实施例s201的一种实现方式的流程示意图;

图7为图3实施例s202的一种实现方式的流程示意图;

图8为图2实施例s103的一种实现方式的流程示意图;

图9为图8实施例s701的一种实现方式的流程示意图;

图10为一个实施例中数据处理方法的流程示意图;

图11为一个实施例提供的纠错系统的结构示意图;

图12为一个实施例中数据处理装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的数据处理方法,可以应用于如图1所示的计算机设备中。该计算机设备可以是服务器,也可以是终端,其内部结构示意图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。

在一个实施例中,如图2所示,提供了一种数据处理方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:

s101,对待处理文本进行错误检测,得到错误文本的类型和位置。

其中,待处理文本为存在错误的文本,且等待检错和纠错的文本。计算机设备可以在医院信息系统(hospitalinformationsystem,his)、放射信息管理系统(radiologyinformationsystem,ris)、电子病历系统、语音识别结果文本系统、问答系统等与医疗相关的系统中获取待处理文本,当然,计算机设备也可以从其它领域系统中获取待处理文本。错误文本的类型包括错字类型、缺失类型、无序类型和冗余类型。错误文本的位置表示错误的文本在待处理文本中所处的位置。文本可以是字、词、语句中的至少一种。

具体地,计算机设备在得到待处理文本时,可以将该待处理文本输入至已训练好的错误检测模型进行错误检测,得到该待处理文本中包含的错误文本的类型和错误文本在待处理文本中所处的位置。其中的错误检测模型可以采用神经网络模型或机器学习模型,例如,bilstm-crf模型因其具有很好的检错功能得到广泛应用,本实施例对检测模型的选用不做限定。

示例性的,本实施例还提供了一种训练上述bilstm-crf模型的方法,该方法包括:采用预设的序列标注方法对待处理文本中的错误文本进行错误类型和位置的标注,得到标注文本,再将标注文本作为训练样本输入至初始的bilstm-crf模型中进行训练,得到训练后的bilstm-crf模型,使训练后的bilstm-crf模型可以根据输入的待处理文本输出其中错误文本的位置和类型,以便上述使用。需要说明的是,上述序列标注方法可以采用任何类型的标注方法,例如,bio序列标注方式或bioes序列标注方式。

例如,图2a所示的示意图,其中待处理文本为“这种材料表示吸烟引起了人们多么大的损害但是文章中的妻子是还有意识的,她还有活的意义”,将该待处理文本输入至bio序列标注模型进行标注,得到标注后的待处理文本为“这/o种/o材/o料/o表/b-s示/i-s吸/o烟/o引/o起/o了/o人/b-r们/i-r多/o么/o大/o的/o损/o害/o但/o是/o文/o章/o中/o的/o妻/o子/o是/b-w还/i-w有/o意/o识/o的/o,她/o还/o有/o活/b-w的/i-w意/o义/o”,其中,r表示冗余类型的文本,m表示缺失类型的文本,s表示错误类型的文本,w表示无序类型的文本,b表示错误文本的开始,i表示错误文本的内部,o表示错误文本的外部,关于采用什么符号进行标注可以由计算机设备预先设置,此处不做限定。计算机设备得到标注后的待处理文本后,将该标注后的待处理文本作为训练样本文本输入至待训练的bilstm-crf模型进行训练。

s102,根据错误文本类型和纠错策略之间的对应关系,确定与错误文本的类型对应的目标纠错策略。

其中,纠错策略表示对错误的文本进行纠错时采用的方法。错误文本类型和纠错策略之间的对应关系可以预先被存储在数据库中以便之后查看使用。

具体地,计算机设备基于前述步骤得到错误文本的类型时,可以进一步的根据错误文本的类型,根据错误文本类型和纠错策略之间的对应关系,确定与该错误文本的类型对应的目标纠错策略,以便之后根据该目标纠错策略指示的纠错方法对相应类型的错误文本进行纠错处理。例如,若错误文本的类型为错字类型,则对应的目标纠错策略包括拼音比较纠错策略和/或相似度比较纠错策略;若错误文本的类型为缺失类型或无序类型,则对应的目标纠错策略包括匹配度比较纠错策略;若错误文本的类型为冗余类型,则对应的目标纠错策略包括删除纠错策略。

s103,根据目标纠错策略和错误文本的位置,对错误文本进行纠错处理。

具体地,在计算机设备确定了与错误文本的类型对应的目标纠错策略后,即可按照该目标纠错策略指示的纠错方法,根据错误文本的位置在待处理文本中找到该错误文本,或者找到与该错误文本相关的文本,然后再针对该错误文本,或者与该错误文本相关的文本执行添加、或删除、或修正等不同的纠错操作,从而得到纠正后的文本。

本公开实施例所述的数据处理方法中,通过对待处理文本进行错误检测,得到错误文本的类型和位置,并根据错误文本类型和纠错策略之间的对应关系,确定与错误文本的类型对应的目标纠错策略,进一步的根据目标纠错策略和错误文本的位置,对错误文本进行纠错处理。在上述纠错的数据处理方法中,由于每种类型的错误文本对应各自的目标纠错策略,实现了针对每种错误文本类型的纠错操作,相比于传统的无论任何类型的错误文本均采用大数据库获取用于纠错的文本导致的数据处理量大和纠错精度差的问题,本申请所述的纠错方法极大的提高了纠错的准确性,以及提高了数据处理速度。

在一个实施例中,当错误文本的类型包括错字类型、缺失类型、无序类型中的至少一种时,提供了上述s103的一种实现方式,如图3所述,上述s103“根据目标纠错策略和错误文本的位置,对错误文本进行纠错处理”,包括:

s201,根据目标纠错策略和错误文本的位置,确定与错误文本对应的至少一个候选文本。

具体地,当错误文本的类型包括错字类型时,计算机设备可以通过比较错误文本与多个预设文本的拼音,确定与错误文本对应的至少一个候选文本,可选地,计算机设备也可以通过比较错误文本与多个预设文本之间的相似度,确定与错误文本对应的至少一个候选文本。当错误文本的类型包括缺失类型或无序类型时,计算机设备可以通过比较错误文本与多个预设文本的匹配度,确定与错误文本对应的至少一个候选文本。

s202,根据至少一个候选文本,对错误文本进行纠错处理。

当计算机设备基于上述步骤得到至少一个候选文本后,即可在该多个候选文本中任意选择一个候选文本对错误文本进行纠错,可选地,也可以按照预设规则,在该多个候选文本中选择一个候选文本对错误文本进行纠错,纠错的时候可以具体使用选出的候选文本替代错误文本,或者将选出的候选文本添加到待处理文本的相应位置上。上述预设规则可以由计算机设备预先根据应用需求确定。

上述纠错的数据处理方法,实现了对错字类型、缺失类型、无序类型的错误文本进行纠错,且每种类型的错误文本对应不同的目标纠错策略,使在纠错过程中计算机设备可以根据具体类型的错误文本执行对应的纠错操作,极大的提高了纠错精度。

可选地,时当上述错误文本的类型包括错字类型时,如图4所示,上述s201“根据目标纠错策略和错误文本的位置,确定与错误文本对应的至少一个候选文本”,包括:

s301,根据错字类型的文本的位置在待处理文本中提取出错字类型的文本。

当计算机设备检测出的错误文本的类型为错字类型时,即可根据该错字类型的文本的位置在待处理文本中找到该错字类型的文本,并将该错字类型的文本提取出来,以便之后使用该错字类型的文本进行检索。

s302,从预设的第一数据库中选取出与错字类型的文本同音,和/或,与错字类型的文本之间的相似度小于预设相似度阈值的文本作为候选文本。

其中,第一数据库可以包括任一类型的数据库。预设相似度阈值可以由计算机设备预先根据纠错精度确定。具体地,当计算机设备得到错字类型的文本时,可以进一步的将该错字类型的文本作为目标文本在第一数据库中检索与该目标文本同音的文本,可选地,计算机设备也可以在第一数据库中检索与该目标文本谐音相同的文本,然后将检索到的文本作为候选文本;可选地,计算机设备也可以计算该目标文本与第一数据库中各文本之间的相似度,再将相似度大于预设相似度阈值的文本作为候选文本。可选的,计算机设备还可以计算该目标文本与第一数据库中各文本之间的编辑距离,再将编辑距离小于预设编辑距离阈值的文本作为候选文本,其中的预设编辑距离阈值可以由计算机设备预先根据纠错精度确定。

上述确定候选文本的方法,通过比较错误文本的拼音,或错误文本与第一数据库中的各文本的相似度即可确定出与错字类型的文本对应的候选文本,该方法简单实用,使之后基于候选文本进行纠错处理时可以提高纠错速度。

可选地,当上述错误文本的类型包括缺失类型时,如图5所示,上述s201“根据目标纠错策略和错误文本的位置,确定与错误文本对应的至少一个候选文本”,包括:

s401,根据缺失类型的文本的位置在待处理文本中提取出与缺失类型的文本相邻的文本。

当计算机设备检测出的错误文本的类型为缺失类型时,即可根据该缺失类型的文本的位置在待处理文本中找到与该缺失类型的文本相邻的文本,并将该相邻的文本提取出来,以便之后使用该相邻的文本进行检索。

s402,从预设的第二数据库中选取出与所述相邻的文本匹配的文本作为候选文本。

其中,第二数据库可以包括医学领域专用的数据库,例如,医学知识图谱数据库。本实施例中的第二数据库与前述实施例中的第一数据库不相同。

具体地,当计算机设备得到与缺失类型的文本相邻的文本时,可以进一步的将该相邻的文本作为目标文本在第二数据库中检索与该目标文本匹配的文本,然后将检索到的文本作为候选文本。例如,待处理文本为“医院放科工作流程”,则检测出的缺失类型的文本为“放科”,则与该缺失类型的文本匹配的文本为“放射科”。上述确定候选文本的方法,通过比较错误文本与第一数据库中的各文本的匹配度即可确定出与缺失类型的错误文本对应的候选文本,该方法简单实用,使之后基于候选文本进行纠错处理时可以提高纠错速度。

可选地,当上述错误文本的类型包括无序类型时,如图6所示,上述s201“根据目标纠错策略和错误文本的位置,确定与错误文本对应的至少一个候选文本”,包括:

s501,根据无序类型的文本的位置在待处理文本中提取出无序类型的文本。

当计算机设备检测出的错误文本的类型为无序类型时,即可根据该无序类型的文本的位置在待处理文本中找到该无序类型的文本,并将该无序类型的文本提取出来,以便之后使用该无序类型的文本进行检索。

s502,从预设的第三数据库中选取出与无序类型的文本包含相同字的文本作为候选文本。

其中,第三数据库可以包括医学领域专用的数据库,例如,医学知识图谱数据库。本实施例中的第三数据库与前述实施例中的第二数据库可以相同,也可以不相同。

具体地,当计算机设备得到无序类型的文本时,可以进一步的将该无序类型的文本作为目标文本在第三数据库中检索与该目标文本包含相同字的文本,然后将检索到的文本作为候选文本。例如,待处理文本为“医院放科射工作流程”,则检测出的无序类型的文本为“放科射”,则与该无序类型的文本包含相同字的文本为“放射科”。上述确定候选文本的方法,通过在第三数据库中搜索与错误文本包含相同字的各文本即可确定出与无序类型的错误文本对应的候选文本,该方法简单实用,使之后基于候选文本进行纠错处理时可以提高纠错速度。

基于上述图4至图6实施例所述的确定候选文本的方法,对应的,本申请还提供了上述s202的一种实现方式,如图7所示,所述方式包括:

s601,将至少一个候选文本依次添加到待处理文本中对应位置上,对添加后的待处理文本的通顺程度进行打分。

当计算机设备基于前述图4至图6任一实施例所述的方法得到多个候选文本时,可以进一步的将这多个候选文本依次添加到待处理文本中对应位置上,得到多个添加后的待处理文本。然后计算机设备可以将多个添加后的待处理文本依次输入至已训练好的语言模型进行通顺程度的打分,分数高的表示添加后的待处理文本很通顺,分数低的表示添加后的待处理文本不通顺。

需要说明的是,上述语言模型用于分析添加后的待处理文本的通顺程度,并根据通顺程度的高低对添加后的待处理文本进行打分。在实际应用中,在训练上述语言模型时,可以在医学专业的数据库中获取训练样本数据,再将该训练样本数据输入至预设的预训练语言模型进行训练,得到训练后的语言模型。其中的预训练语言模型可以采用现有的bert预训练语言模型,也可以采用其它类型的预训练语言模型,此处不做限定。

s602,按照分数从高到低的顺序对多个打分后的待处理文本进行排序,并将分数最高的待处理文本确定为纠正后的文本。

当计算机设备对多个添加后的待处理文本进行打分后,可以进一步的按照分数从高到低的顺序对多个打分后的待处理文本进行排序,然后从中选择出分数最高的待处理文本作为纠正后的文本;可选地,计算机设备也可以先从多个打分后的待处理文本中选择出分数大于预设分数阈值的待处理文本,若该大于预设分数阈值的待处理文本的数量大于一个时,则可以进一步的再从这选择出的多个待处理文本中选择出任意一个待处理文本,或者按照预设规则选择出一个待处理文本,最后将通过上述方法选择出的待处理文本作为纠正后的文本。

上述实施例所述的方法中,采用已训练好的语言模型对添加后的待处理文本进行通顺程度的打分,相比于仅是对错误的文本进行打分而造成分数不准确的方法,本实施例所述的方法由于结合了错误文本的上下文信息来进行打分,提高了根据分数选择出对应的候选文本进行纠错的准确性。

在一个实施例中,当错误文本的类型包括冗余类型时,提供了上述s103的一种实现方式,如图8所述,上述s103“根据目标纠错策略和错误文本的位置,对错误文本进行纠错处理”,包括:

s701,根据目标纠错策略和错误文本的位置,确定是否删除冗余类型的文本,若确定删除,则执行步骤s702,若确定不删除,则执行步骤s703。

具体地,当错误文本的类型包括冗余类型时,计算机设备可以将冗余类型的文本输入至已训练好的语言模型中进行检测,检测该冗余类型的文本是否通顺,可选地,计算机设备也可以在待处理文本中提取包含该冗余类型的文本的文本,然后将提取出的文本输入至已训练好的语言模型中进行检测,检测该提取出的文本是否通顺,若通顺则说明该冗余类型的文本实际上在待处理文本中不是冗余的文本,若不通顺则说明该冗余类型的文本实际上在待处理文本中是冗余的文本。

需要说明的是,上述语言模型用于分析冗余类型的文本或包含冗余类型的文本的文本是否通顺,并输出包含通顺或不通顺的分析结果。在实际应用中,在训练上述语言模型时,可以在医学专业的数据库中获取训练样本数据,再将该训练样本数据输入至预设的预训练语言模型进行训练,得到训练后的语言模型。其中的预训练语言模型可以采用现有的bert预训练语言模型,也可以采用其它类型的预训练语言模型,此处不做限定。

s702,删除待处理文本中的错误文本。

本实施例涉及的是计算机设备确定删除冗余类型的文本的应用场景,在此场景中,计算机设备直接执行删除待处理文本中的冗余文本的操作。

s703,不执行删除操作。

本实施例涉及的是计算机设备确定不删除冗余类型的文本的应用场景,在此场景中,计算机设备不执行删除操作。

进一步地,如图9所示,上述s701“根据目标纠错策略和错误文本的位置,确定是否删除冗余类型的文本”,包括:

s801,根据冗余类型的文本的位置在待处理文本中提取出包含冗余类型的文本的文本。

当计算机设备检测出的错误文本的类型为冗余类型时,即可根据该冗余类型的文本的位置在待处理文本中找到该冗余类型的文本,并将包含该冗余类型的文本的文本提取出来,以便之后使用该包含冗余类型的文本的文本进行检索。例如,若待处理文本为“医疗放放射科工作流程”,其中冗余类型的文本为“放放”,然后提取出的包含该冗余类型的文本的文本可以是“放放射科”,也可以是“医疗放放射科”,至于包含冗余类型的文本的文本的长度可以由计算机设备预先确定,此处不做限定。

s802,检测包含冗余类型的文本的文本是否通顺,若不通顺,则执行步骤s803,若通顺,则执行步骤s804。

s803,确定删除冗余类型的文本。

s804,确定不删除冗余类型的文本。

当计算机设备得到包含冗余类型的文本的文本时,可以将该文本输入至已训练好的语言模型中进行检测,检测该提取出的文本是否通顺,若不通顺,则确定删除冗余类型的文本,若通顺,则确定不删除冗余类型的文本。

上述实施例所述的方法中,采用已训练好的语言模型对包含冗余类型的文本的文本进行分析,判断该文本是否通顺,相比于仅是对冗余类型的文本进行分析而造成判断不准确的方法,本实施例所述的方法由于结合了冗余类型的文本的上下文信息来进行判断是否需要被删除,提高了对冗余类型的文本进行纠错的准确性。

综合上述所有实施例,本申请还提供了一种数据处理方法,如图10所示,该数据处理方法包括:

s901,对待处理文本进行错误检测,得到错误文本的类型和位置。

s903,判断错误文本的类型。当错误文本的类型包括错字类型时,执行步骤s904-s905、s910-s911;当错误文本的类型包括缺失类型时,执行步骤s906-s907、s910-s911;当错误文本的类型包括无序类型时,执行步骤s908-s909、s910-s911;当错误文本的类型包括冗余类型时,执行步骤s912-s915。

s904,根据错字类型的文本的位置在待处理文本中提取出错字类型的文本。

s905,从预设的第一数据库中选取出与错字类型的文本同音,和/或,与错字类型的文本之间的相似度小于预设相似度阈值的文本作为候选文本。

s906,根据缺失类型的文本的位置在待处理文本中提取出与缺失类型的文本相邻的文本。

s907,从预设的第二数据库中选取出与所述相邻的文本匹配的文本作为候选文本。

s908,根据无序类型的文本的位置在待处理文本中提取出无序类型的文本。

s909,从预设的第三数据库中选取出与无序类型的文本包含相同字的文本作为候选文本。

s910,将至少一个候选文本依次添加到待处理文本中对应位置上,对添加后的待处理文本的通顺程度进行打分。

s911,按照分数从高到低的顺序对多个打分后的待处理文本进行排序,并将分数最高的待处理文本确定为纠正后的文本。

s912,根据冗余类型的文本的位置在待处理文本中提取出包含冗余类型的文本的文本。

s913,检测包含冗余类型的文本的文本是否通顺,若不通顺,则执行步骤s914,若通顺,则执行步骤s915。

s914,确定删除冗余类型的文本,删除待处理文本中的错误文本。

s915,确定不删除冗余类型的文本,不执行删除操作。

在另一个实施例中,检测出待处理文本的同一位置包含多个类型的错误,可以按照设定好的顺序依次进行以上处理策略。

上述实施例所述方法的每一个步骤在前述实施例中已进行说明,详细内容请参见前述说明,此处不赘述。

综合上述所有实施例,本申请还提供了一种纠错系统,如图11所示,该纠错系统包括:错误检测模型、筛选召回模型、纠错处理模型。错误检测模型的输出端与筛选召回模型的输入端连接,筛选召回模型的输出端与纠错处理模型的输入端连接。其中,错误检测模型用于对输入的文本进行错误文本的检测,输出错误文本的类型和位置;当错误文本的类型包括错字类型、缺失类型、无序类型中的至少一种时,筛选召回模型用于根据错误检测模型输出的错误文本的类型选择与该类型对应的纠错处理策略,然后根据选择出的纠错处理策略和错误文本的位置,在预设的数据库中确定与错误文本对应的多个候选文本,然后纠错处理模型对多个候选文本进行通顺程度的打分,并根据分数最高的候选文本对待处理文本进行纠错;当错误文本的类型包括冗余类型时,筛选召回模型用于检测冗余类型的文本,或者包括冗余类型的文本的文本是否通顺,以确定是否需要删除该冗余类型的文本,然后纠错处理模型在筛选召回模型判定冗余类型的文本(包括冗余类型的文本的文本)是通顺的情况下,不执行删除操作;在筛选召回模型判定冗余类型的文本(包括冗余类型的文本的文本)不通顺的情况下,在待处理文本中删除冗余类型的文本。前述数据处理方法应用于上述纠错系统,用于对文本进行纠错处理,关于该纠错系统中包含的各模型或各部件的功能和实现方法请参见前述实施例说明,此处不赘述说明。

应该理解的是,虽然图2-10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图12所示,提供了一种数据处理装置,包括:

检测模块11,用于对待处理文本进行错误检测,得到错误文本的类型和位置;

确定模块12,用于根据错误文本类型和纠错策略之间的对应关系,确定与所述错误文本的类型对应的目标纠错策略;

纠错模块13,用于根据所述目标纠错策略和所述错误文本的位置,对所述错误文本进行纠错处理。

关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

对待处理文本进行错误检测,得到错误文本的类型和位置;

根据错误文本类型和纠错策略之间的对应关系,确定与所述错误文本的类型对应的目标纠错策略;

根据所述目标纠错策略和所述错误文本的位置,对所述错误文本进行纠错处理。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

对待处理文本进行错误检测,得到错误文本的类型和位置;

根据错误文本类型和纠错策略之间的对应关系,确定与所述错误文本的类型对应的目标纠错策略;

根据所述目标纠错策略和所述错误文本的位置,对所述错误文本进行纠错处理。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccessmemory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1