文本校对方法、装置、计算机可读存储介质及电子设备与流程

文档序号:20189505发布日期:2020-03-27 19:30阅读:163来源:国知局
文本校对方法、装置、计算机可读存储介质及电子设备与流程

本公开涉及计算机技术领域,具体地,涉及一种文本校对方法、装置、计算机可读存储介质及电子设备。



背景技术:

在文本处理中,录入、编辑和排版都已有相当成熟的计算机应用系统,但文本校对这一中间环节尚停留主要依靠人工处理阶段,并成为新闻、出版、办公室文印等领域制约整个行业发展,影响工作效率的瓶颈。人工进行文本校对,不但费时费力,而且难以保证校正的准确率。

基于上述问题,现阶段主要采用n-gram模型对文本中存在的错误进行检测并给出纠错建议,但该方法仅考虑了前后词的搭配问题,文本校正的准确率较低。



技术实现要素:

为了克服相关技术中存在的问题,本公开提供一种文本校对方法、装置、计算机可读存储介质及电子设备。

为了实现上述目的,根据本公开实施例的第一方面,提供一种文本校对方法,所述方法包括:

确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;

针对每个所述错误词,分别确定所述错误词与所述错误词的前词在预设语料库中的第一共现频次、所述错误词与所述错误词的后词在所述预设语料库中的第二共现频次;

针对所述错误词对应的每个所述纠错词,获取所述错误词与所述纠错词的语义特征;

至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。

可选地,所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:

至少将所述第一共现频次、所述第二共现频次以及所述语义特征输入至预设的xgboost模型中,以判定所述纠错词是否正确。

可选地,所述方法还包括:

将所述错误词和所述纠错词中属于单字的词标记为1,并将所述错误词和所述纠错词中属于多字的词标记为0;

所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:

根据所述错误词的标记、所述纠错词的标记、所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。

可选地,所述获取所述错误词与所述纠错词的语义特征,包括:

将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;

通过bert模型,分别获取所述初始句子对应的第一向量a=(a1,a2,…,am)、所述纠错句子对应的第二向量b=(b1,b2,…,bn),其中,m、n分别为所述初始句子中所包含的字符数、所述纠错句子中所包含的字符数,ai为用于表征所述初始句子中第i个字符出现在所述初始句子中的合理性的第一得分,i=1,2,…,m,bj为用于表征所述纠错句子中第j个字符出现在所述纠错句子中的合理性的第二得分,j=1,2,…,n;

将所述第二向量中各第二得分的平均值与所述第一向量中各第一得分的平均值的第一差值确定为所述错误词与所述纠错词的语义特征。

可选地,所述获取所述错误词与所述纠错词的语义特征,包括:

将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;

通过bert模型,分别获取所述初始句子对应的第一向量a=(a1,a2,…,am)、所述纠错句子对应的第二向量b=(b1,b2,…,bn),其中,m、n分别为所述初始句子中所包含的字符数、所述纠错句子中所包含的字符数,ai为用于表征所述初始句子中第i个字符出现在所述初始句子中的合理性的第一得分,i=1,2,…,m,bj为用于表征所述纠错句子中第j个字符出现在所述纠错句子中的合理性的第二得分,j=1,2,…,n;

依次通过多个预设变换函数中的每个所述预设变换函数,分别对所述第一向量、所述第二向量进行变换,得到所述第一向量对应的多个第三向量以及所述第二向量对应的多个第四向量;

针对每个所述预设变换函数变换得到的第三向量、第四向量,分别计算所述第三向量中各第三得分的平均值与第四向量中各第四得分的平均值的第二差值;

将多个所述第二差值确定为所述错误词与所述纠错词的语义特征。

可选地,所述方法还包括:

将多个所述第二差值中的最大值标记为1,并将多个所述第二差值中、除所述最大值外的第二差值标记为0;

所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:

根据所述第二差值的标记、所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。

可选地,在所述确定待校对文本中各句子的纠错信息的步骤之前,所述方法还包括:

对所述待校对文本进行预处理,得到新的待校对文本;

所述确定待校对文本中各句子的纠错信息,包括:

确定所述新的待校对文本中各句子的纠错信息。

根据本公开实施例的第二方面,提供一种文本校对装置,所述装置包括:

第一确定模块,用于确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;

第二确定模块,用于针对所述第一确定模块确定出的每个所述错误词,分别确定所述错误词与所述错误词的前词在预设语料库中的第一共现频次、所述错误词与所述错误词的后词在所述预设语料库中的第二共现频次;

获取模块,用于针对所述第一确定模块确定出的所述错误词对应的每个所述纠错词,获取所述纠错词在相应句子中的语义特征;

判定模块,用于至少根据所述第二确定模块确定出的所述第一共现频次、所述第二共现频次以及所述获取模块获取到的所述语义特征,判定所述纠错词是否正确。

根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。

根据本公开实施例的第四方面,提供一种电子设备,包括:

存储器,其上存储有计算机程序;

处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面提供的所述方法的步骤。

在上述技术方案中,首先确定待校对文本中各句子中存在的错误词和各错误词对应的至少一个纠错词;然后,可以针对每个错误词,分别确定该错误词与其前词、后词的第一共现频次、第二共现频次,同时,针对该错误词对应的每个纠错词,获取相应的语义特征;最后,至少根据上述第一共现频次、上述第二共现频次以及上述语义特征,对纠错词的正确性进行判定。在得到错误词和相应的纠错词后,进一步对纠错词的正确性进行判定,从而可以提升文本校对的准确率。并且,在对纠错词的正确性进行判定时,不但考虑到了前后词的搭配问题,而且结合了词的上下文语义特征,由此,可以保证纠错词的正确性判定的精度,从而进一步提升了文本校对的准确率。此外,上述文本校对方法使得校对工作智能化、自动化,减轻了人工校对的压力,提升了工作效率,降低了人工成本。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1根据一示例性实施例示出的一种文本校对方法的流程图。

图2a是根据一示例性实施例示出的一种获取语义特征的方法的流程图。

图2b是根据另一示例性实施例示出的一种获取语义特征的方法的流程图。

图3根据另一示例性实施例示出的一种文本校对方法的流程图。

图4根据另一示例性实施例示出的一种文本校对方法的流程图。

图5根据另一示例性实施例示出的一种文本校对方法的流程图。

图6根据一示例性实施例示出的一种文本校对装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

图8是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

图1根据一示例性实施例示出的一种文本校对方法的流程图。如图1所示,上述方法可以包括以下步骤101~步骤104。

在步骤101中,确定待校对文本中各句子的纠错信息,其中,该纠错信息包括错误词和错误词对应的至少一个纠错词。

在本公开中,上述纠错信息可以包括0个、1个、或者多个错误词,并且,每个错误词可以对应1个或多个纠错词(即,纠错建议)。例如,句子“今天气天真好。”的纠错信息为:错误词“气天”以及其对应的纠错词“天气”。

并且,在本公开中,可以通过多种方式来确定待校对文本中各句子的纠错信息。在一种实施方式中,可以通过n-gram模型来获取上述纠错信息。具体来说,可以通过以下步骤来实现:(1)在获取到待校对文本后,可以先对其进行分词处理和词性标注等操作;(2)采用n-gram模型以庞大的语料库做基础,进行错误词的定位操作,检测到可能出错的位置;(3)将可能出错的位置再通过词性的n-gram方法进行进一步检测,如果检测为不合理,则判定为错误,定义为错误词;(4)对错误词进行纠错处理,并给出相应的纠错词。由此,可以获取到待校对文本中各句子的纠错信息。

在另一种实施方式中,可以通过反向差错校对的方式(即,字符匹配的方式)来获取上述纠错信息。具体来说,在获取到待校对文本后,可以先对其进行分词处理;之后,针对每个分词,将其分别与预设词库中的各词进行匹配,得到多个匹配度,若该多个匹配度中的最大值小于预设匹配度阈值,则将该分词确定为错误词,并将上述预设词库中、多个匹配度中排名靠前的一个或多个匹配度对应的词确定为该错误词对应的纠错词,其中,各匹配度按照从大到小排序。由此,可以获取到待校对文本中各句子的纠错信息。

另外,上述预设词库可以为由词构成的数据库,该预设词库可以基于庞大的预料库生成,也可以是现有的词库,对此,在本公开中不作具体限定。并且,上述预设匹配度阈值可以是用户设定的值,也可以是默认的经验值,在本公开中也不作具体限定。

在又一种实施方式中,可以通过n-gram模型、反向差错校对的方式分别来获取上述纠错信息,之后,将二者获取到的纠错信息进行去重合并,并将去重合并后的纠错信息作为上述待校对文本中各句子的纠错信息。这样,可以提升错误词检测的全面性,从而提升文本校对的准确率。

在步骤102中,针对每个错误词,分别确定该错误词与该错误词的前词在预设语料库中的第一共现频次、该错误词与所述错误词的后词在预设语料库中的第二共现频次。

在本公开中,上述预设语料库可以为由文本语句构成的数据库。进一步的,为了使按照本申请实施例技术方案确定出的第一共现频次、第二共现频次更切合上述待校对文本,本申请实施例优选由上述待校对文本所属领域的文本语句组成上述的预设语料库。需要说明的是,本申请实施例对预设语料库的生成方式不作限定。

上述错误词的前词可以为在该错误词所属初始句子中位于该错误词前、且紧邻该错误词的词,上述错误词的后词可以为在该错误词所属初始句子中位于该错误词后、且紧邻该错误词的词。例如,句子“今天气天真好。”的纠错信息为:错误词“气天”以及其对应的纠错词“天气”,其中,“今天”即为错误词“气天”的前词、“真”即为错误词“气天”的后词。

并且,可以通过多种方式来确定上述第一共现频次、第二共现频次。在一种实施方式中,可以通过数学统计的方法来确定。具体来说,可以针对每个错误词,分别统计该错误词与其前词在上述预设语料库中出现的次数(即,第一共现频次)、该错误词与其后词在上述预设语料库中出现的次数(即,第二共现频次)。

在另一种实施方式中,可以通过n-gram模型来确定上述第一共现频次、第二共现频次。由于通过n-gram模型来确定第一共现频次、第二共现频次的具体方式属于本领域技术人员公知的,在本公开中不再详述。

在步骤103中,针对错误词对应的每个纠错词,获取该错误词与纠错词的语义特征。

在本公开中,在通过上述步骤101获取到纠错信息后,可以针对该纠错信息中的每个错误词对应的每个纠错词,分别获取相应的语义特征。具体来说,可以通过多种方式来获取上述语义特征。在一种实施方式中,可以通过图2a中所示的步骤1031~步骤1033来实现。

在步骤1031中,将错误词所属的初始句子中的错误词替换为纠错词,得到纠错句子。

示例地,上述句子“今天气天真好。”的纠错信息为:错误词“气天”以及其对应的纠错词“天气”,其中,错误词“气天”所属的初始句子为:“今天气天真好。”。这样,将该初始句子中的错误词“气天”替换为纠错词“天气”,可以得到纠错句子“今天天气真好。”。

在步骤1032中,通过bert模型,分别获取初始句子对应的第一向量、纠错句子对应的第二向量。

在本公开中,第一向量a=(a1,a2,…,am),第二向量b=(b1,b2,…,bn),其中,m、n分别为初始句子中所包含的字符数(包含标点符号)、纠错句子中所包含的字符数(包含标点符号),ai为用于表征初始句子中第i个字符出现在该初始句子中的合理性的第一得分,i=1,2,…,m,bj为用于表征纠错句子中第j个字符出现在该纠错句子中的合理性的第二得分,j=1,2,…,n。另外,需要说明的是,上述错误词包含的字符数与其对应的纠错词包含的字符数可以相同,也可以不同,同样地,m、n可以相等,也可以不相等。

bert(bidirectionalencoderrepresentationfromtransformers,即transformer的双向编码表示)是一种预训练语言表示的方法,是可以免费下载和使用的模型。其中,可以使用该模型从待校对文本中各句子中提取高质量的语言特征。在本公开中,可以通过该bert模型来分别获取上述初始句子对应的第一向量a=(a1,a2,…,am)、纠错句子对应的第二向量b=(b1,b2,…,bn)。

在步骤1033中,将第二向量中各第二得分的平均值与第一向量中各第一得分的平均值的第一差值确定为错误词与纠错词的语义特征。

在本公开中,上述第一差值的大小可以反映相应的纠错词的好坏,其中,当第一差值大于0时,表明相应的纠错词相对较好,若第一差值小于或等于0,则表明相应的纠错词相对较差。

在通过上述步骤1032获取到错误词所属的初始句子对应的第一向量a=(a1,a2,…,am)、相应的纠错句子对应的第二向量b=(b1,b2,…,bn)后,可以分别计算第一向量a=(a1,a2,…,am)中各第一得分ai的平均值(即,)、第二向量b=(b1,b2,…,bn)中各第二得分bj的平均值(即,);之后,将第二向量b=(b1,b2,…,bn)中各第二得分bj的平均值与第一向量a=(a1,a2,…,am)中各第一得分ai的平均值的第一差值(即,)确定为错误词与纠错词的语义特征。

在另一种实施方式中,可以通过图2b所示的步骤1031、步骤1032、步骤1034、步骤1035、步骤1036来实现。

在步骤1031中,将错误词所属的初始句子中的错误词替换为纠错词,得到纠错句子。

在步骤1032中,通过bert模型,分别获取初始句子对应的第一向量、纠错句子对应的第二向量。

在步骤1034中,依次通过多个预设变换函数中的每个预设变换函数,分别对第一向量、第二向量进行变换,得到第一向量对应的多个第三向量以及第二向量对应的多个第四向量。

在本公开中,上述预设变换函数可以用于对第一向量、第二向量进行变换,以得到对应的第三向量、第四向量。并且,上述多个预设变换函数可以是用户预先设定的,也可以是默认的(例如,上述多个预设变换函数中的第i个预设变换函数为y(x)=x+ci,x为第一向量或第二向量,y(x)为第一向量对应的第三向量、或第二向量对应的第四向量,ci为第i个预设变换函数对应的常数向量,并且,各预设变换函数对应的常数向量ci不同),在本公开中不作具体限定。

在通过上述步骤1032获取到各错误词所属的初始句子的第一向量和相应的纠错句子对应的第二向量后,可以针对每个第一向量,利用多个预设变换函数,分别对其进行变换,从而得到多个第三向量;同时,可以针对每个第二向量,利用上述多个预设变换函数,分别对其进行变换,从而得到多个第四向量。

在步骤1035中,针对每个预设变换函数变换得到的第三向量、第四向量,分别计算该第三向量中各第三得分的平均值与该第四向量中各第四得分的平均值的第二差值。

在本公开中,在通过上述步骤1034获取到错误词所属的初始句子对应的多个第三向量、相应的纠错句子对应的多个第四向量后,可以针对每个预设变换函数变换得到的第三向量、第四向量,分别计算该第三向量中各第三得分的平均值与该第四向量中各第四得分的平均值的第二差值。由此,可以得多个第二差值。

另外,需要说明的是,上述预设变换函数的个数可以是用户设定的,也可以是默认的(例如,6个),在本公开中不作具体限定。

在步骤1036中,将多个第二差值确定为错误词与纠错词的语义特征。

在通过上述步骤1035获取到多个第二差值后,可以将该多个第二差值确定为错误词与纠错词的语义特征。

返回图1,在步骤104中,至少根据第一共现频次、第二共现频次以及语义特征,判定纠错词是否正确。

在本公开中,针对每个错误词,在通过上述步骤102获取到该错误词与其前词在预设语料库中的第一共现频次、该错误词与其后词在预设语料库中的第二共现频次,以及通过上述步骤103获取到相应的语义特征后,可以将它们输入至预设的xgboost(extremegradientboosting,极端梯度提升)模型中,以判定上述错误词对应的纠错词是否正确。其中,该xgboost模型为二分类模型,该模型的输出可以为0或1,0可以用于表征纠错词错误,1可以用于表征纠错词正确。

另外,在本公开中,可以基于人工校对后的文本进行xgboost模型的构建。首先,按照上述步骤102同样的方式,针对人工校对得到的每个样本错误词,获取该样本错误词与其前词在预设语料库中的第三共现频次、该样本错误词与其后词在预设语料库中的第四共现频次;同时,通过上述步骤103同样的方式获取相应的参考语义特征;之后,至少将上述第三共现频次、第四共现频次以及参考语义特征作为训练样本,输入到初始xgboost模型中进行训练,从而得到上述预设的xgboost模型。其中,xgboost模型具体构建方式属于本领域技术人员公知的,所以在本公开中不再进行详细描述。

此外,还可以对上述xgboost模型进行优化,例如,可以根据训练和测试效果,通过修改模型参数对模型进行优化。

在一种实施方式中,可以根据第一共现频次、第二共现频次以及语义特征,判定纠错词是否正确。具体来说,可以将第一共现频次、第二共现频次以及语义特征输入到至上述预设的xgboost模型中,以根据该预设的xgboost模型的输出,来判定上述错误词对应的纠错词是否正确。即,当预设的xgboost模型的输出为0时,表明上述错误词对应的纠错词错误;而当预设的xgboost模型的输出为1时,表明上述错误词对应的纠错词正确。

在另一种实施方式中,为了进一步提升文本校对的准确率,在判定纠错词是否正确时,除了根据第一共现频次、第二共现频次以及语义特征外,还可以考虑上述错误词、纠错词包含的字符数目信息。具体来说,如图3所示,上述方法还可以包括以下步骤105。

在步骤105中,将错误词和纠错词中属于单字的词标记为1,并将错误词和纠错词中属于多字的词标记为0。

在通过上述步骤101获取到纠错信息后,可以分别判定各错误词或纠错词是否为单字,若为单字,则将其标记为1,否则标记为0。这样,可以根据错误词的标记、纠错词的标记、上述第一共现频次、上述第二共现频次以及上述语义特征,共同判定纠错词是否正确。具体来说,可以将错误词的标记、纠错词的标记、第一共现频次、第二共现频次以及语义特征输入到至上述预设的xgboost模型中,以根据该预设的xgboost模型的输出,来判定上述错误词对应的纠错词是否正确。

另外,需要说明的是,上述步骤105可以在上述步骤102或步骤103之前执行,也可以在上述步骤102或步骤103之后执行,还可以与上述步骤102或步骤103同时执行,在本公开中不作具体限定。

在又一种实施方式中,为了进一步提升文本校对的准确率,在判定纠错词是否正确时,除了根据第一共现频次、第二共现频次以及语义特征外,还可以考虑上述第二差值信息。具体来说,如图4所示,上述方法还可以包括以下步骤106。

在步骤106中,将多个第二差值中的最大值标记为1,并将多个第二差值中、除该最大值外的第二差值标记为0。

在通过上述步骤103(即,步骤1035)获取到多个第二差值后,可以将该多个第二差值中的最大值标记为1,并将多个第二差值中、除上述最大值外的第二差值标记为0。这样,可以根据各第二差值的标记、上述第一共现频次、上述第二共现频次以及上述语义特征,共同判定纠错词是否正确。具体来说,可以将各第二差值的标记、第一共现频次、第二共现频次以及语义特征输入到至上述预设的xgboost模型中,以根据该预设的xgboost模型的输出,来判定上述错误词对应的纠错词是否正确。

另外,需要说明的是,上述步骤103,可以在上述步骤102之前执行,也可以在上述步骤102之后执行,还可以与上述步骤102同时执行,在本公开中不作具体限定。

在上述技术方案中,首先确定待校对文本中各句子中存在的错误词和各错误词对应的至少一个纠错词;然后,可以针对每个错误词,分别确定该错误词与其前词、后词的第一共现频次、第二共现频次,同时,针对该错误词对应的每个纠错词,获取相应的语义特征;最后,至少根据上述第一共现频次、上述第二共现频次以及上述语义特征,对纠错词的正确性进行判定。在得到错误词和相应的纠错词后,进一步对纠错词的正确性进行判定,从而可以提升文本校对的准确率。并且,在对纠错词的正确性进行判定时,不但考虑到了前后词的搭配问题,而且结合了词的上下文语义特征,由此,可以保证纠错词的正确性判定的精度,从而进一步提升了文本校对的准确率。此外,上述文本校对方法使得校对工作智能化、自动化,减轻了人工校对的压力,提升了工作效率,降低了人工成本。

此外,为了进一步提升文本校对的准确率,在根据待校对文本获得纠错信息前,可以先对其进行预处理。具体来说,如图5所示,在上述步骤101之前,上述方法还可以包括以下步骤107。

在步骤107中,对待校对文本进行预处理,得到新的待校对文本。

在本公开中,该预处理可以包括非法字符(例如,空格、空行等)的滤除。在对待校对文本进行预处理后,可以得到新的待校对文本,之后,可以基于该新的待校对文本获取纠错信息,即,执行上述步骤101。

图6是根据一示例性实施例示出的一种文本校对装置的框图。参照图6,该装置600可以包括:第一确定模块601,用于确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;第二确定模块602,用于针对所述第一确定模块601确定出的每个所述错误词,分别确定所述错误词与所述错误词的前词在预设语料库中的第一共现频次、所述错误词与所述错误词的后词在所述预设语料库中的第二共现频次;获取模块603,用于针对所述第一确定模块601确定出的所述错误词对应的每个所述纠错词,获取所述纠错词在相应句子中的语义特征;判定模块,用于至少根据所述第二确定模块602确定出的所述第一共现频次、所述第二共现频次以及所述获取模块603获取到的所述语义特征,判定所述纠错词是否正确。

可选地,所述判定模块604用于至少将所述第一共现频次、所述第二共现频次以及所述语义特征输入至预设的xgboost模型中,以判定所述纠错词是否正确。

可选地,所述装置600还可以包括:第一标记模块,用于将所述错误词和所述纠错词中属于单字的词标记为1,并将所述错误词和所述纠错词中属于多字的词标记为0;

所述判定模块604用于:根据所述第一标记模块得到的所述错误词的标记、所述纠错词的标记、所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。

可选地,所述获取模块603包括:替换子模块,用于将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;向量获取子模块,用于通过bert模型,分别获取所述初始句子对应的第一向量a=(a1,a2,…,am)、所述纠错句子对应的第二向量b=(b1,b2,…,bn),其中,m、n分别为所述初始句子中所包含的字符数、所述纠错句子中所包含的字符数,ai为用于表征所述初始句子中第i个字符出现在所述初始句子中的合理性的第一得分,i=1,2,…,m,bj为用于表征所述纠错句子中第j个字符出现在所述纠错句子中的合理性的第二得分,j=1,2,…,n;第一确定子模块,用于将所述第二向量中各第二得分的平均值与所述第一向量中各第一得分的平均值的第一差值确定为所述错误词与所述纠错词的语义特征。

可选地,所述获取模块603包括:替换子模块,用于将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;向量获取子模块,用于通过bert模型,分别获取所述初始句子对应的第一向量a=(a1,a2,…,am)、所述纠错句子对应的第二向量b=(b1,b2,…,bn),其中,m、n分别为所述初始句子中所包含的字符数、所述纠错句子中所包含的字符数,ai为用于表征所述初始句子中第i个字符出现在所述初始句子中的合理性的第一得分,i=1,2,…,m,bj为用于表征所述纠错句子中第j个字符出现在所述纠错句子中的合理性的第二得分,j=1,2,…,n;变换子模块,用于依次通过多个预设变换函数中的每个所述预设变换函数,分别对所述第一向量、所述第二向量进行变换,得到所述第一向量对应的多个第三向量以及所述第二向量对应的多个第四向量;计算子模块,用于针对每个所述预设变换函数变换得到的第三向量、第四向量,分别计算所述第三向量中各第三得分的平均值与第四向量中各第四得分的平均值的第二差值;第二确定子模块,用于将多个所述第二差值确定为所述错误词与所述纠错词的语义特征。

可选地,所述装置600还可以包括:第二标记模块,用于将所述计算子模块得到的多个所述第二差值中的最大值标记为1,并将多个所述第二差值中、除所述最大值外的第二差值标记为0;

所述判定模块604用于:根据所述第二标记模块得到的所述第二差值的标记、所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。

可选地,所述装置600还可以包括:预处理模块,用于在所述第一确定模块确定待校对文本中各句子的纠错信息之前,对所述待校对文本进行预处理,得到新的待校对文本;

所述第一确定模块,用于确定所述新的待校对文本中各句子的纠错信息。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开提供的上述文本校对方法的步骤。

图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(i/o)接口704,以及通信组件705中的一者或多者。

其中,处理器701用于控制该电子设备700的整体操作,以完成上述的文本校对方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(staticrandomaccessmemory,简称sram),电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,简称eeprom),可擦除可编程只读存储器(erasableprogrammableread-onlymemory,简称eprom),可编程只读存储器(programmableread-onlymemory,简称prom),只读存储器(read-onlymemory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(nearfieldcommunication,简称nfc),2g、3g、4g、nb-iot、emtc、或其他5g等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:wi-fi模块,蓝牙模块,nfc模块等等。

在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(applicationspecificintegratedcircuit,简称asic)、数字信号处理器(digitalsignalprocessor,简称dsp)、数字信号处理设备(digitalsignalprocessingdevice,简称dspd)、可编程逻辑器件(programmablelogicdevice,简称pld)、现场可编程门阵列(fieldprogrammablegatearray,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的文本校对方法。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的文本校对方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的文本校对方法。

图8是根据一示例性实施例示出的一种电子设备800的框图。例如,电子设备800可以被提供为一服务器。参照图8,电子设备800包括处理器822,其数量可以为一个或多个,以及存储器832,用于存储可由处理器822执行的计算机程序。存储器832中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器822可以被配置为执行该计算机程序,以执行上述的文本校对方法。

另外,电子设备800还可以包括电源组件826和通信组件850,该电源组件826可以被配置为执行电子设备800的电源管理,该通信组件850可以被配置为实现电子设备800的通信,例如,有线或无线通信。此外,该电子设备800还可以包括输入/输出(i/o)接口858。电子设备800可以操作基于存储在存储器832的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm等等。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的文本校对方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器832,上述程序指令可由电子设备800的处理器822执行以完成上述的文本校对方法。

在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的文本校对方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1