一种文本纠错方法、装置及终端与流程

文档序号:12063647阅读:179来源:国知局
一种文本纠错方法、装置及终端与流程

本发明涉及信息处理技术领域,尤其涉及一种文本纠错方法、装置及终端。



背景技术:

在信息技术快速发展的当代,文本在各个技术领域的应用越来越广泛,例如在信息查询领域、智能问答领域等。通常需要获取用户的请求信息,并利用与请求信息对应的文本信息进行信息检索。当文本中包含错误时,会降低信息检索的准确率,故需要利用文本纠错技术对文本进行纠错,以提升后续信息处理的准确性。

但是,现有的文本纠错技术准确率有待提升。



技术实现要素:

本发明解决的技术问题是提升文本纠错的准确率。

为解决上述技术问题,本发明实施例提供一种文本纠错方法,包括:利用窗口对待纠错文本的词语进行至少一次选取,选取加入所述窗口内的词语形成词组;通过移动所述窗口重新进行选取,直至利用所述窗口顺序遍历所述待纠错文本;每次选取所述词组后,对所述窗口内的词组进行纠错。

可选的,所述利用窗口对待纠错文本中的词语进行至少一次选取包括:从所述窗口的起始位置开始,依次从所述待纠错文本中选取待加入所述窗口的词语,以作为当前词语;比较所述当前词语与所述窗口内已有的词组的长度之和与所述窗口的长度;当所述当前词语与所述窗口内的词组的长度之和小于等于所述窗口的长度时,将所述当前词语更新至所述词组中,以完成单次选取。

可选的,通过移动所述窗口重新进行选取,直至利用所述窗口顺序遍历所述待纠错文本包括:根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口。

可选的,根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口包括:判断所述当前词语的类别是否为预设的第一类别;若所述当前词语的类别为所述预设的第一类别,则比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

可选的,根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口还包括:若所述当前词语为非第一类别,判断预设的纠错模式;若所述纠错模式为精确纠错模式,则判断所述当前词语的长度;当所述当前词语的长度为1时,比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度,当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

可选的,所述文本纠错方法还包括:若所述纠错模式为非精确纠错模式,则比较所述当前词语及所述窗口内的词组的长度之和与所述窗口的长度,当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

可选的,当所述当前词语的长度大于1时,所述文本纠错方法还包括:判断所述当前词语和/或所述窗口内已有的词组中是否包含第一类别的词语;若包含第一类别的词语,则所述比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度,当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口;若不包含第一类别的词语,则移动所述窗口。

可选的,所述预设的第一类别为拼音。

可选的,根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口包括:判断所述当前词语的类别是否为预设的第二类别;若所述当前词语的类别为非所述第二类别,则比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度,当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

可选的,所述文本纠错方法还包括:若所述当前词语的类别为预设的第二类别,则移动所述窗口。

可选的,所述第二类别为符号。

可选的,对所述窗口内的词组进行纠错包括:对所述词组包含的词语进行词语纠错,以得到所述词语纠错的结果列表;对所述窗口内的词组和所述结果列表进行拼音转换,以得到对应所述窗口内的词组拼音字符串和所述窗口内的词组与所述结果列表结合后的拼音字符串;计算对应所述窗口内的词组的拼音字符串和各个所述窗口内的词组与所述结果列表结合后的拼音字符串之间的相似度,保留相似度数值大于阈值的所述词语纠错的结果;对所述相似度数值大于阈值的所述词语纠错的结果进行筛选和/或排序。

可选的,对所述词组包含的词语进行词语纠错包括:将所述窗口内的词组作为一个词语进行所述词语纠错。

可选的,对所述相似度数值大于阈值的所述词语纠错的结果进行筛选包括:当预设的模式为精确纠错模式时,依据所述词组包含的词语的长度和词语纠错的结果的长度对所述词语纠错的结果进行筛选。

可选的,对所述相似度数值大于阈值的所述词语纠错的结果进行排序包括:按照所述待纠错文本的顺序进行所述排序。

可选的,移动所述窗口包括:在所述待纠错文本中,将所述窗口向后移动一个词语,并清空所述窗口内已有的词组。

本发明实施例还提供一种文本纠错装置,包括:窗口选取单元,适于利用窗口对待纠错文本的词语进行至少一次选取,选取加入所述窗口内的词语形成词组;窗口移动单元,适于通过移动所述窗口重新进行选取,直至利用所述窗口顺序遍历所述待纠错文本;纠错单元,适于在每次选取所述词组后,对所述窗口内的词组进行纠错。

可选的,所述窗口选取单元包括:当前词语选取单元,适于从所述窗口的起始位置开始,依次从所述待纠错文本中选取待加入所述窗口的词语,以作为当前词语;第一长度比较单元,适于比较所述当前词语与所述窗口内已有的词组的长度之和与所述窗口的长度;词组生成单元,适于在所述当前词语与所述窗口内的词组的长度之和小于等于所述窗口的长度时,将所述当前词语更新至所述词组中,以完成单次选取。

可选的,所述窗口移动单元适于根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口。

可选的,所述窗口移动单元包括:第一类别判断单元,适于判断所述当前词语的类别是否为预设的第一类别;第二长度比较单元,适于当所述当前词语的类别为所述预设的第一类别时,比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;第一移动单元,适于当第二长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

可选的,所述窗口移动单元还包括:纠错模式判断单元,适于当所述当前词语为非第一类别时,判断预设的纠错模式;长度判断单元,适于当所述纠错模式为精确纠错模式时,判断所述当前词语的长度;第三长度比较单元,适于所述当前词语的长度为1时,比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;第二移动单元,适于所述当所述第三长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

可选的,所述窗口移动单元还包括:第四长度比较单元,适于当所述纠错模式为非精确纠错模式,则比较所述当前词语及所述窗口内的词组的长度之和与所述窗口的长度;第三移动单元,适于当所述第四长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

可选的,所述窗口移动单元还包括:包含词语判断单元,适于当所述当前词语的长度大于1时,判断所述当前词语和/或所述窗口内已有的词组中是否包含第一类别的词语;第五长度比较单元,适于当包含第一类别的词语时,所述比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;第四移动单元,适于当所述第五长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口;第五移动单元,适于当所述包含词语判断单元确定包含词语判断单元确定所述当前词语和/或所述窗口内已有的词组中不包含第一类别的词语时,移动所述窗口。

可选的,所述预设的第一类别为拼音。

可选的,所述窗口移动单元包括:第二类别判断单元,适于判断所述当前词语的类别是否为预设的第二类别;第六长度比较单元,适于当所述当前词语的类别为非所述第二类别时,比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;第六移动单元,当所述第六长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

可选的,所述窗口移动单元还包括:第七移动单元,适于当所述第二类别判断单元确定所述当前词语的类别为预设的第二类别时,移动所述窗口。

可选的,所述第二类别为符号。

可选的,所述纠错单元包括:词语纠错单元,适于对所述词组包含的词语进行词语纠错,以得到所述词语纠错的结果列表;拼音转换单元,适于对所述窗口内的词组和所述结果列表进行拼音转换,以得到对应所述窗口内的词组拼音字符串和所述窗口内的词组与所述结果列表结合后的拼音字符串;纠错结果生成单元,适于计算对应所述窗口内的词组的拼音字符串和各个所述窗口内的词组与所述结果列表结合后的拼音字符串之间的相似度,保留相似度数值大于阈值的所述词语纠错的结果;筛选排序单元,适于对所述相似度数值大于阈值的所述词语纠错的结果进行筛选和/或排序。

可选的,所述词语纠错单元还适于:将所述窗口内的词组作为一个词语进行所述词语纠错。

可选的,所述筛选排序单元适于在预设的模式为精确纠错模式时,依据所述词组包含的词语的长度和词语纠错的结果的长度对所述词语纠错的结果进行筛选。

可选的,所述筛选排序单元适于按照所述待纠错文本的顺序进行所述排序。

可选的,所述窗口移动单元适于在所述待纠错文本中,将所述窗口向后移动一个词语,并清空所述窗口内已有的词组。

本发明实施例还提供一种终端,配置有所述的文本纠错装置。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

本发明实施例利用窗口对待纠错文本进行至少一次选取,选取加入窗口的词语形成词组;移动窗口进行重新选取,直至利用所述窗口顺序遍历所述待纠错文本;每次选取所述词组后,对所述窗口内的词组进行纠错。通过利用窗口顺序遍历文本并选取词组,可以结合待纠错文本中词语的顺序进行纠错,从而可以充分利用文本中包含的信息,进一步可以更加准确的对文本进行纠错,提升文本纠错的准确性。

附图说明

图1是本发明实施例一种文本纠错方法的流程图;

图2是本发明实施例一种文本纠错方法中选取操作的具体实现的流程图;

图3是本发明实施例一种文本纠错方法中是否移动窗口的一种判断过程的流程图;

图4是本发明实施例一种文本纠错方法中是否移动窗口的另一种判断过程的流程图;

图5是图4中步骤S46的一种具体实现的流程图;

图6是图4中步骤S46的另一种具体实现的流程图;

图7是本发明实施例一种文本纠错方法中纠错操作的具体实现的流程图;

图8是本发明实施例中另一种文本纠错方法的流程图;

图9是本发明实施例中一种文本纠错装置的结构示意图;

图10是图9中一种窗口选取单元91的具体实现方式的结构示意图;

图11是图9中一种窗口移动单元92的具体实现的结构示意图。

具体实施方式

如前所述,现有的文本纠错技术准确率有待提升。经发明人研究发现,现有的纠错技术中,有的可以对文本进行语法纠错,有的可以对文本进行拼写纠错,但通常拼写纠错针对文本中的单个词语进行,纠错结果的准确性会受到对文本进行分词的准确性的影响,而当文本中出现错误时,通常不能正确的对文本进行分词,故文本纠错的准确性较低。

在本发明实施例中,通过利用窗口对待纠错文本进行选取,选取加入所述窗口内的词语形成词组,并对窗口内的词组进行纠错,可以充分考虑待纠错文本中词语的前后关联性,即便分词时出现错误,也可以通过窗口对词语进行重新组合并进行纠错。

故本发明实施例中的文本纠错方法可以结合待纠错文本中词语的顺序进行纠错,从而可以充分利用文本中包含的信息,进一步可以更加准确的对文本进行纠错,并提升文本纠错的准确性。

为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种文本纠错方法的流程图,具体可以包括如下步骤:

步骤S11,利用窗口对待纠错文本的词语进行至少一次选取,选取加入所述窗口内的词语形成词组;

步骤S12,通过移动所述窗口重新进行选取,直至利用所述窗口顺序遍历所述待纠错文本;

步骤S13,每次选取所述词组后,对所述窗口内的词组进行纠错。

本领域技术人员可以理解的是,窗口是为选取词组而定义的概念,窗口具有起始位置和结束位置,起始位置和结束位置之间的长度为窗口的长度。进一步而言,窗口移动时,起始位置和结束位置一同移动,但是窗口的长度保持不变。

待纠错文本的词语可以是对待纠错文本进行分词后得到的词语,这里所指的词语可以包括拼音、符号等,不局限于文字词语。

步骤S11中利用窗口对待纠错文本的词语进行至少一次选取,具体而言,可以是在窗口的位置确定的情况下(例如初始确定的窗口位置,或者窗口移动之后确定的位置),利用窗口对待纠错文本进行一次或多次选取。

在窗口位置确定不变的情况下,完成对待纠错文本的一次或多次选取后,移动窗口以重新确定窗口的位置,再次进行一次或多次的选取。

例如,待纠错文本为“领导人|zhi|出|,|恐|布|主义|是|世界|各国|人民|面|林|的|共同|威胁|。”其中“|”代表进行分词的位置,利用窗口对待纠错文本的词语进行至少一次选取可以包括:

窗口的起始位置在下划线字体位置时,可以利用窗口形成词组“领导人”,或利用窗口形成词组“领导人”和“领导人zhi”,或利用窗口形成词组“领导人”“领导人zhi”以及“领导人zhi出”。

可以看出,在窗口位置确定不变的情况下,形成的词组可以是不同的,具体可以根据需要进行设定。具体可以通过设定不同的判断条件实现,详细过程在下文中进行说明。

完成窗口在某个确定位置的选取后,可以移动窗口进行重新选取。移动窗口可以是以分词得到的词语为单位进行移动,例如可以每次向后移动一个词语的位置,重新确定窗口位置并利用窗口对待纠错文本的词语再次进行选取,直至遍历待纠错文本。

本领域技术人员可以理解的是,每次移动窗口后,可以清空所述窗口内的词组。也即,每次移动窗口后,窗口内已有的词组的长度为0。

例如在上例中,可以移动窗口,使得窗口以“zhi”作为起始位置,以“布”作为结束位置。移动窗口的具体判断条件在下文进行详细说明。

步骤S13中对窗口内的词组进行纠错可以是利用对照词库与窗口内的词组进行比对,以进行纠错,或者也可以利用其它所有可以实施的技术手段进行,在此不作限定。

可以理解的是,对窗口内的词组进行纠错,可以是在每次形成新的词组后进行,也可以是在窗口顺序编译所述待纠错文本后,统一进行,具体可以根据需要确定,以平衡资源占用和效率。

图2是本发明实施例一种文本纠错方法中选取操作的具体实现的流程图,以下结合图2进一步说明。选取操作可以通过如下步骤实现:

步骤S21,从所述窗口的起始位置开始,依次从所述待纠错文本中选取待加入所述窗口的词语,以作为当前词语;

步骤S22,比较所述当前词语与所述窗口内已有的词组的长度之和与所述窗口的长度;

步骤S23,当所述当前词语与所述窗口内的词组的长度之和小于等于所述窗口的长度时,将所述当前词语更新至所述词组中,以完成单次选取。

窗口的起始位置可以是待纠错文本中的任意词语的位置。在第一次利用窗口对待纠错文本的词语进行选取时,窗口的起始位置通常可以设置在待纠错文本的起始词语的位置。

窗口的长度可以是根据需要预设的长度,例如可以以字为单位进行设定。

在窗口位置确定时,可以在待纠错文本中确定多个词语为当前词语,这些词语既可以是窗口位置内的词语,也可以是与窗口结束位置词语相邻的词语,直至经判断,不需添加作为当前词语的词语至窗口时,移动窗口。

窗口内的已有词组可以是在之前步骤中经过判断符合加入条件时,添加的当前词组以待纠错文本“领导人|zhi|出|,|恐|布|主义|是|世界|各国|人民|面|林|的|共同|威胁|。”为例,窗口位置为下划线字体所在的位置,窗口长度为4。

可以首先以“领导人”为当前词语,若经判断,将“领导人”加入窗口并形成词组;可以再以“zhi”为当前词语进行判断,若经判断,将“领导人”加入窗口并形成词组“领导人zhi”;此时,可以以“出”为当前词语,此时经判断,窗口内已有的词组的长度为4,当前词语与所述窗口内的词组的长度之和大宇窗口长度,则移动窗口。

可以看出,在本发明的具体实施中,分词后作为一个词的拼音的长度可以记为1。

本领域技术人员可以理解的是,也可以在所述当前词语与所述窗口内的词组的长度之和小于所述窗口的长度时完成单次选取,否则移动窗口。如此,当前词语则只为窗口内的词语。例如在上述例子中,则无法形成词组“领导人zhi”,在当前词语为“zhi”时,决定移动窗口。

由上述非限定性的例子可以看出,在本发明的具体实施中,可以通过根据当前词语进行判断决定互斥性的形成新的词组或移动窗口。

在一个具体实现中,判断是否将当前词语更新至所述词组的条件还可以包括述当前词语的类别。词语类别的划分可以根据需要设定,例如可以分为拼音、标点、文字词语。

具体地,可以根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口。

继续以待纠错文本“领导人|zhi|出|,|恐|布|主义|是|世界|各国|人民|面|林|的|共同|威胁|。”为例,对本发明实施例进行进一步说明:

假设窗口的起始位置在下划线处,窗口长度为6,则可以依次将“领导人”、“zhi”、“出”“,”“作为当前词语。

当前词语为“领导人”时,窗口内已有词组数量为0,则通过,当前词语与所述窗口内的词组的长度之和3小于等于所述窗口的长度6,则可以将“领导人”加入窗口,形成词组。

在将“领导人”加入窗口后,可以将“zhi”作为当前词语,经判断当前词语与所述窗口内的词组的长度之和4小于等于所述窗口的长度6,则可以将“领导人zhi”形成词组。

同理,若仅考虑当前词语与所述窗口内的词组的长度之和小于等于所述窗口的长度,还可以形成词组“领导人zhi出”“领导人zhi出,”。

但如前所述,判断是否将当前词语更新至所述词组的条件还可以包括述当前词语的类别,例如,可以判断当前词语是否为第二预设类别,第二预设类别可以是符号。在这种情况下,当前词语为“,”时,可以不选取“领导人zhi出,”作为所述词组。

在一个非限定性的例子中,当前词语为第二预设类别时,可以移动所述窗口,例如当前词语为“,”时,可以移动所处窗口。

由此也可以看出,选取加入所述窗口内的词语形成词组与移动窗口可以是互斥的:当满足选取加入所述窗口内的词语形成词组的条件时,则不移动窗口,反之,则移动窗口;换言之,当满足移动窗口的条件时,则不选取加入所述窗口内的词语形成词组,反之,则选取加入所述窗口内的词语形成词组。

移动所述窗口时,可以以窗口当前所在位置为基准,向后滑动一个词的位置,例如,当前词语为“,”时,可以移动所处窗口至“zhi”起始的位置。

图3是本发明实施例一种文本纠错方法中是否移动窗口的一种判断过程的流程图。如图3所示,是否移动窗口的判断过程可以包括如下步骤:

步骤S31,在所述待纠错文本中确定所述当前词语。确定所述当前词语可以是确定步骤S21中的当前词语,其具体方式可以参见步骤S21,在此不再赘述。

步骤S32,判断所述当前词语的类别是否为预设的第二类别。在具体实施中,第二类别可以是表示语义中断的类别,例如第二类别可以为标点符号。

步骤S33,若所述当前词语的类别为非所述第二类别,则比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度,当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

在具体实施中,还可以包括步骤S34,若所述当前词语的类别为预设的第二类别,则移动所述窗口。

当前词语为第二类别的词语时,说明此处语义出现中断,并且该当前词语通常无具体语义,即便继续加入该当前词语也不能对文本纠错有实际贡献,故当前词语为第二类别的词语时,可以移动所述窗口。如此,可以减少进行纠错的词组的数量,但并不会影响纠错的准确性,进一步可以提升对待纠错文本进行纠错的效率。

继续以待纠错文本“领导人|zhi|出|,|恐|布|主义|是|世界|各国|人民|面|林|的|共同|威胁|。”为例,对当经步骤S32判断,当前词语为非所述第二类别时进行说明:

假设窗口长度为4,窗口当前位置为下划线位置,已加入所述窗口内的词语包括“恐布主义”,当前词语为“是”,此时当前词语及所述窗口内已有的词组的长度之和5大于所述窗口的长度4,则移动所述窗口。

图4是本发明实施例中是否移动窗口的另一种判断过程的流程图,以下结合图4对本发明实施例进行一步说明:

在步骤S41中,在所述待纠错文本中确定所述当前词语。步骤S41的具体实现可以参见图3中步骤S31,在此不再赘述。

在步骤S42中,判断所述当前词语的类别是否为预设的第一类别。若当前词语的类别为预设的第一类别则执行步骤S43,否则,执行步骤S46。

在步骤S43中,判断所述当前词语及所述窗口内已有的词组的长度之和是否大于所述窗口的长度。若是,则执行步骤S44,否则,执行步骤S45。

在步骤S44中,移动所述窗口。

在步骤S45中,将所述当前词语更新至所述词组中,以完成单次选取。步骤S45的具体实施可以参见图2中步骤S23,在此不再赘述。

在步骤S46中,根据预设的纠错模式及所述当前词语的长度确定当前词语更新至所述词组中或移动所述窗口。

在具体实施中,步骤S41及步骤S42均可以在图2中步骤S22前完成,步骤S43可以是在步骤S22中的比较所述当前词语与所述窗口内已有的词组的长度之和与所述窗口的长度完成。

第一类别可以根据需要或者经验值进行预设,第一类别可以设置为出现错误概率较大的类别,例如可以设置为拼音;也可以根据经验数据库进行设置,设置为经验数据库中的字或词。

由于第一类别可以设置为出现错误概率较大的类别,故当前词语为第一类别的词语时,在当前词语与所述窗口内的词组的长度之和小于等于所述窗口的长度时,将当前词语更新至所述词组中,以进行纠错,可以提升纠错的准确性。

另外,通过对当前词语进行是否为第一类别的词语的区分,在当前词语为非第一类别词语时,发生错误的概率较低,即便不将当前词语更新至所述词组,对准确性的影响也较小。此时根据预设的纠错模式和当前词语的长度决定当前词语更新至所述词组中或移动所述窗口,可以满足用户在更高的准确性和更高的效率之间均衡的选择需求。

图5是图4中步骤S46的一种具体实现的流程图,以下结合图5进行进一步说明。

在步骤S51中,确定所述当前词语为非第一类别。

在步骤S52中,判断预设的纠错模式是否为精确纠错模式,若是,则执行步骤S53,否则,执行步骤S54。

预设的纠错模式为精确纠错模式时,用户更重视纠错方法的效率,预设的模式为非精确纠错模式时,用户更重视纠错的准确性。

在步骤S53中,判断词语长度是否为1,若是,则执行步骤S54,否则,可以执行步骤S55。

在步骤S54中,判断所述当前词语及所述窗口内已有的词组的长度之和是否大于所述窗口的长度。若是,可以则执行步骤S55,否则,可以执行步骤S56。

在步骤S55中,移动所述窗口。

在步骤S56中,将所述当前词语更新至所述词组中,以完成单次选取。

从上述执行流程可以看出,若所述当前词语为非第一类别,判断预设的纠错模式;若所述纠错模式为精确纠错模式,则判断所述当前词语的长度;当所述当前词语的长度为1时,比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度,当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

另外,若所述纠错模式为非精确纠错模式,则比较所述当前词语及所述窗口内的词组的长度之和与所述窗口的长度,当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,可以移动所述窗口。

由于在当词语长度为1时,说明当前词语只由一个字组成,此时,发生错误的概率大于当前词语长度不为1时的长度。这是因为若当前词语为1,说明在对待纠错文本进行分词时,未成功将当前词语的字和其它字进行组合,故出现错误的概率较大。

故若用户预设的纠错模式为精确纠错模式时,可以对当前词语长度进行区分,以在保证准确性的同时提升效率。

具体地,当前词语的长度为1时,可以在当所述当前词语及所述窗口内已有的词组的长度之和小于等于所述窗口的长度时,将当前词语更新至所述词组中,以对包含当前词语的词组进行纠错,进而可以提升纠错的准确性;并且在当前词语长度不为1时,移动窗口,以减少需要进行纠错的词组的数量,进而提升对待纠错文本纠错的效率。

图6是图4中步骤S46的另一中具体实现的流程图,示出了当前词语长度大于1时的另一种具体实施方式:

在步骤S61中,确定当前词语长度大于1。

在步骤S62中,判断所述当前词语和/或所述窗口内已有的词组中是否包含第一类别的词语。若是,则可以执行步骤S63,若否则可以执行步骤S65。

步骤S63,判断所述当前词语及所述窗口内已有的词组的长度之和是否大于所述窗口的长度,若是,则可以执行步骤S64,否则可以执行步骤S65。

步骤S64,移动所述窗口。

步骤S65,将所述当前词语更新至所述词组中,以完成单次选取。

由于出现预设的第一类别的词语时,出现错误的概率较大,故虽然当前词语的长度大于1,但当前词语和/或所述窗口内已有的词组中是否包含第一类别的词语时,还需要在当所述当前词语及所述窗口内已有的词组的长度之和小于等于所述窗口的长度时,根据当前词语形成词组,以进行纠错,进而保证纠错方法的准确性。

例如,在待纠错文本“领导人|zhi|出|,|恐|布|主义|是|世|jie|各国|人民|面|林|的|共同|威胁|。”中,若窗口所在的位置为下划线位置,窗口长度为4,此时,若已形成词组“世jie”,当前词语为“各国”时,虽然当前词语的长度不为1,且是精确纠错模式,但由于已有词组“世jie”中含有拼音,则也将“世jie各国”作为词组进行纠错。

如此,可以提供更多的前后文信息,得到正确结果的概率提升,可以进一步提升本发明实施例中的文本纠错方法的准确性。

图7是本发明实施例一种文本纠错方法中纠错操作的具体实现的流程图,可以包括如下步骤:

步骤S71,对所述词组包含的词语进行词语纠错,以得到所述词语纠错的结果列表;

步骤S72,对所述窗口内的词组和所述结果列表进行拼音转换,以得到对应所述窗口内的词组拼音字符串和所述窗口内的词组与所述结果列表结合后的拼音字符串;

步骤S73,计算对应所述窗口内的词组的拼音字符串和各个所述窗口内的词组与所述结果列表结合后的拼音字符串之间的相似度,保留相似度数值大于阈值的所述词语纠错的结果;

步骤S74,对所述相似度数值大于阈值的所述词语纠错的结果进行筛选和/或排序。

在具体实施中,可以将所述窗口内的词组视为一个词语,并进行词语纠错。

对所述相似度数值大于阈值的所述词语纠错的结果进行筛选和/或排序可以是当预设的模式为精确纠错模式时,依据所述词组包含的词语的长度和词语纠错的结果的长度对所述词语纠错的结果进行筛选。例如,可以去除长度与原词语长度不同的纠错后的词语。

对所述相似度数值大于阈值的所述词语纠错的结果进行排序包括:按照所述待纠错文本的顺序进行所述排序,以使得纠错后的文本与原文的语义是相同的,不会出现词语的位置变化。

对应每个词语的纠错显示方式,可以按照相似度数值从大到小进行排序。

可以理解的是,对所述窗口内的词组进行纠错的具体实现可以是多样的,任何可以实现对词组纠错的方法均可以采用,图7仅给出其中一种具体实现。

在本发明的具体实施中,可以按照需求,以不同的顺序对前文所述的各个判断条件进行选取和组合,以下参照图8对本发明实施例中的一种文本纠错方法进行说明。

在步骤S81中,构建词语纠错器。这里可以选用词语纠错器依赖的词库、并确定词语纠错的具体方式。

在步骤S82中,设置所述窗口的长度。

在步骤S83中,对待纠错文本进行分词。可以采用现有的各种分词方式。

在步骤S84中,判断当前词语是否为符号。若是,则执行步骤S85,若否则执行步骤S810。

由于符号一般代表语义的中断,例如逗号、句号、分号、问号等,并且判断出现错误的概率较小,故最先判断当前词语是否为符号,可以较大限度的减少计算量。

在步骤S85中,移动所述窗口。具体可以是将窗口的起始位置向后移动一个词语的位置,并清空所述窗口内已有的词组。

在步骤S86中,判断是否到达待纠错文本的末尾。若是,则执行步骤S87,否则,执行步骤S84。

在步骤S87中,判断纠错模式是否为精确纠错模式,若是,则执行步骤S88,若否,则执行步骤S89。

在步骤S88中,对所述词语纠错的结果进行筛选。

在步骤S89中,按待纠错文本的顺序输出纠错提示。

在步骤S810中,判断所述当前词语是否为拼音,若是,则执行步骤S811,否则,执行步骤S815。

在步骤S811中,将所述当前词语更新至所述词组中,以完成单次选取。

在步骤S812中,判断所述当前词语及所述窗口内的词组的长度之和是否小于等于所述窗口的长度。若是,则执行步骤S813,否则,执行步骤S85。

在步骤S813中,将所述当前词语添加至所述词组中,以完成单次选取。

在步骤S814中,对所述窗口内的词组进行纠错,并保存纠错列表。

在步骤S815中,判断所述纠错模式是否为精确纠错模式,若是,则执行步骤S816,否则,执行步骤S811。

在步骤S816中,判断当前词语长度是否大于1,若是,则执行步骤S817,否则,执行步骤S811。

在步骤S817中,判断所述窗口内已有的词组中是否包含拼音,若是则执行步骤S811,否则执行步骤S85。

步骤S84至步骤S817是对前文实施例中的各步骤的一种具体组合方式,故其具体实现在此不再赘述。

本发明实施例还提供一种文本纠错装置,其结构示意图参见图9,可以包括:

窗口选取单元91,适于利用窗口对待纠错文本的词语进行至少一次选取,选取加入所述窗口内的词语形成词组;

窗口移动单元92,适于通过移动所述窗口重新进行选取,直至利用所述窗口顺序遍历所述待纠错文本;

纠错单元93,适于在每次选取所述词组后,对所述窗口内的词组进行纠错。

图10是图9中一种窗口选取单元91的具体实现方式的结构示意图,窗口选取单元91可以包括:

当前词语选取单元101,适于从所述窗口的起始位置开始,依次从所述待纠错文本中选取待加入所述窗口的词语,以作为当前词语;

第一长度比较单元102,适于比较所述当前词语与所述窗口内已有的词组的长度之和与所述窗口的长度;

词组生成单元103,适于在所述当前词语与所述窗口内的词组的长度之和小于等于所述窗口的长度时,将所述当前词语更新至所述词组中,以完成单次选取。

在具体实施中,所述窗口移动单元92(参见图9)适于根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口。

图11是图9中一种窗口移动单元92的具体实现的结构示意图,窗口移动单元92可以包括:

纠错模式判断单元111,适于当所述当前词语为非第一类别时,判断预设的纠错模式;

第一类别判断单元112,适于判断所述当前词语的类别是否为预设的第一类别;

第二长度比较单元113,适于当所述当前词语的类别为所述预设的第一类别时,比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;

第一移动单元114,适于当第二长度比较单元113确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

在具体实施中,所述窗口移动单元92还可以包括:

第四长度比较单元,适于当所述纠错模式为非精确纠错模式,则比较所述当前词语及所述窗口内的词组的长度之和与所述窗口的长度;

第三移动单元,适于当所述第四长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

继续参见图9,在一具体实现中,所述窗口移动单元92还可以包括:

包含词语判断单元,适于当所述当前词语的长度大于1时,判断所述当前词语和/或所述窗口内已有的词组中是否包含第一类别的词语;

第五长度比较单元,适于当包含第一类别的词语时,所述比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;

第四移动单元,适于当所述第五长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口;

第五移动单元,适于当所述包含词语判断单元确定包含词语判断单元确定所述当前词语和/或所述窗口内已有的词组中不包含第一类别的词语时,移动所述窗口。

在具体实施中,所述预设的第一类别可以是拼音。第一类别可以根据需要或者经验值进行预设,第一类别可以设置为出现错误概率较大的类别,例如可以设置为拼音;也可以根据经验数据库进行设置,设置为经验数据库中的字或词。

在具体实施中,所述窗口移动单元92可以包括:

第二类别判断单元,适于判断所述当前词语的类别是否为预设的第二类别;

第六长度比较单元,适于当所述当前词语的类别为非所述第二类别时,比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;

第六移动单元,当所述第六长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

在具体实施中,,所述窗口移动单元92还包括:第七移动单元,适于当所述第二类别判断单元确定所述当前词语的类别为预设的第二类别时,移动所述窗口。

根据权利要求25或26所述的文本纠错装置,其特征在于,所述第二类别可以是符号。

在具体实施中,所述纠错单元93可以包括:

词语纠错单元,适于对所述词组包含的词语进行词语纠错,以得到所述词语纠错的结果列表;

拼音转换单元,适于对所述窗口内的词组和所述结果列表进行拼音转换,以得到对应所述窗口内的词组拼音字符串和所述窗口内的词组与所述结果列表结合后的拼音字符串;

纠错结果生成单元,适于计算对应所述窗口内的词组的拼音字符串和各个所述窗口内的词组与所述结果列表结合后的拼音字符串之间的相似度,保留相似度数值大于阈值的所述词语纠错的结果;

筛选排序单元,适于对所述相似度数值大于阈值的所述词语纠错的结果进行筛选和/或排序。

在具体实施中,所述词语纠错单元还适于:将所述窗口内的词组作为一个词语进行所述词语纠错。

在具体实施中,所述筛选排序单元适于在预设的模式为精确纠错模式时,依据所述词组包含的词语的长度和词语纠错的结果的长度对所述词语纠错的结果进行筛选。

在具体实施中,所述筛选排序单元可以按照所述待纠错文本的顺序进行所述排序。

在具体实施中,所述窗口移动单元适于在所述待纠错文本中,将所述窗口向后移动一个词语,并清空所述窗口内已有的词组。

本发明实施例中的文本纠错装置所涉及的各个名词解释、工作原理以及对应的有益效果可以参见文本纠错方法,在此不再赘述。

本发明实施例中的文本纠错装置可以利用通用处理器或者各种解说性逻辑板块、模块、和电路实现,通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。

本发明实施例还提供一种终端,配置有上述文本纠错装置。该终端可以同时配备有显示装置、扬声装置等输出装置,也可以配置有键盘、语音识别等输入装置,以配合文本纠错装置进行输入或输出。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1