一种文本数据中错误字符的检测方法、装置和设备与流程

文档序号:14940836发布日期:2018-07-13 20:43阅读:214来源:国知局

本发明涉及文本识别技术领域,具体涉及一种文本数据中错误字符的检测方法、装置和设备。



背景技术:

当今社会的信息化水平日新月异,我们的每次社会行为基本上都会转化为数据,并保存在数据库中。除了由计算机自动生成的日志数据、行为数据等数据之外,目前还有大量数据无法自动生成,仍需人工来录入到系统中,文本数据就是其中的典型代表。将文字录入到计算机中,是大部分人的生活和工作中都会涉及的行为,比如:维修人员会在每次服务之后填写维修检测日志;财务人员要记录每笔开支的去向和内容等。

这类无法自动生成的数据为文本处理带来了一些挑战和问题。工作者在进行录入时,难免会出现纰漏,输入错误的字符,这些错别字常常是正确字符的同音字或形似字。其中,形似字是错别字的主要来源之一;计算机的字符库中有很多形状相似的字,它们的含义是完全相同的,但表示它们的编码却完全不同,例如:阿拉伯数字和英文字母有半角和全角两种形式;除了含义相同编码不同的字符对之外,还有一些含义不同形状相似的字符对,例如:字符库中有很多与阿拉伯数字“1”相似的其他字符,其中包括汉字“丨”和英文字母“i”。输入者在录入信息时,很可能会在没有明确规范时,自行选择半角或全角中某一种形式,或者误输入形状相似的字符。多份来源不同的文本数据汇集在一起之后,难免会出现多处错别字或格式不一致的情况。

除了输入者的误输入之外,地区和文化的差异也会造成字符格式上的不统一;比如日本人惯用全角的数字和英文字母,而中国人惯用半角的数字和英文字母,这二者记录的文本数据聚合起来之后,就会出现半角字符和全角字符混杂在一起,大量的格式不统一而造成的文档混乱的情况。

因此,错别字带来的歧义对文本数据的整理和统计造成了极大的困难。现有技术中,通常需要人工对大量日志或文本数据进行检查,来统一格式或纠正歧义字;但这样枯燥的工作是对人力资源的极大浪费,且效率较低。



技术实现要素:

针对现有技术中存在的上述缺陷,本发明提供一种文本数据中错误字符的检测方法、装置和设备。

本发明的一方面提供一种文本数据中错误字符的检测方法,包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。

其中,所述确认待检测文本数据中的相似字符为错误字符的步骤后还包括:获取错误字符所属的相似字符集合中各字符在待检测文本数据中的出现次数,并将错误字符改正为出现次数最多的字符。

其中,所述根据预先创建的易错字符库,获取包含目标字符的相似字符集合的步骤前还包括:获取字符集,对字符集中各字符对应的图像数据进行尺寸归一化处理;并根据各字符对应的图像数据,获取各字符之间的形状相似度;根据字符之间的形状相似度,对字符进行聚类,获取相似字符集合;其中,所述相似字符集合中的任意两个字符之间的相似度大于预设相似度,所述易错字符库包含至少一个相似字符集合。

其中,所述获取各字符之间的形状相似度的步骤具体包括:采用多个相似度计算方法分别计算各字符之间的相似度;根据预先对各相似度计算方法分配的权重值,以及通过各相似度计算方法得到的相似度,获取各字符之间的形状相似度。

其中,所述多个相似度计算方法包括逐像素比较法、投影区块比较法和宽高比匹配法。

其中,所述对字符集中各字符对应的图像数据进行尺寸归一化处理的步骤前还包括:记录各字符对应的图像数据的元信息,所述元信息包括图像数据的宽高比;相应地,采用宽高比匹配法计算各字符之间的相似度的步骤具体包括:对各字符图像数据对应的元信息中记录的宽高比进行比较,获取宽高比匹配法对应的相似度。

其中,所述获取待检测文本数据中频繁出现的目标字符的步骤具体包括:对各字符的出现次数进行从大到小的排序,将排序中处于前预设比例的字符作为目标字符,和/或将出现次数大于预设次数的字符作为目标字符。

本发明的另一方面提供一种文本数据中错误字符的检测装置,包括:统计模块,用于对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;获取模块,用于根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;确认模块,用于若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。

本发明的又一方面提供一种文本数据中错误字符的检测设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行本发明上述方面提供的文本数据中错误字符的检测方法,例如包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。

本发明的又一方面提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本发明上述方面提供的文本数据中错误字符的检测方法,例如包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。

本发明提供的文本数据中错误字符的检测方法、装置和设备,通过获取文本中频繁出现的目标字符,并判断文本中出现的与目标字符形状相似的字符是否为错误字符,充分考虑了人工录入数据中产生的形状相似的错误字符,有效检测了文本数据中的错误字符,取代人工纠错,降低人工成本,提高了错误字符检测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本数据中错误字符的检测方法的流程示意图;

图2为本发明实施例提供的文本数据中错误字符的检测方法的字符尺寸归一化处理前后示意图;

图3为本发明实施例提供的文本数据中错误字符的检测装置的结构示意图;

图4为本发明实施例提供的文本数据中错误字符的检测设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的文本数据中错误字符的检测方法的流程示意图,如图1所示,包括:步骤101,对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;步骤102,根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;步骤103,若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。

在步骤101中,首先统计待检测文本数据中所有字符出现的字频,字频即为某一字符在待检测文本数据中出现的频率或次数;根据出现次数,可以得到目标字符;目标字符是在待检测文本中出现次数较多的字符;可替换地,目标字符同样可以为用户自定义的出错次数较多的字符。

选择频繁出现的字符作为目标字符是由于,若某些字符在文档中出现的频繁不算高,就无法通过出现次数统计来得出“文档中出现的与该字符形状相近的字符是输入者的失误”的结论;而出现次数较为频繁的字符,它们被录入的可能性更高,因此那些与它们相似的字符也更有可能是录入人员误操作而输入的;而由于失误而输入的错误字符基本不可能是频繁字。

在步骤102中,根据步骤101中获取的目标字符,在易错字符库中进行查询,得到相似字符集合;该相似字符集合中包括多个字符,每个字符都与目标字符的形状上具有很强的相似性;因此,用户在进行文本数据录入时,有可能将相似字符作为目标字符录入到待检测文本数据中。

在步骤103中,根据步骤102中获取的相似字符集合,在待检测文本数据中查找集合中包括的与目标字符形状相似的相似字符(例如采用每个字的哈希值来查找);如果某一个相似字符出现在待检测文本中,且在待检测文档中出现的次数小于预设阈值(例如整个文本数据字符总数的0.1%),则认为文本中出现的该相似字符为错误字符或歧义字符。

本发明实施例提供的文本数据中错误字符的检测方法,通过获取文本中频繁出现的目标字符,并判断文本中出现的与目标字符形状相似的字符是否为错误字符,充分考虑了人工录入数据中产生的形状相似的错误字符,有效检测了文本数据中的错误字符,取代人工纠错,降低人工成本,提高了错误字符检测效率。

在上述任一实施例的基础上,所述确认待检测文本数据中的相似字符为错误字符的步骤后还包括:获取错误字符所属的相似字符集合中各字符在待检测文本数据中的出现次数,并将错误字符改正为出现次数最多的字符。

具体地,在确认待检测文本数据中存在错误字符后,认为该错误字符为人工录入的与目标字符形状相似的字符;因此,可以根据相似字符集合统计与该错误字符形状相似的字符(即属于同一个相似字符集合的其他字符)在待检测文本数据中的出现次数,并认为该错误字符应当为出现次数最多的相似字符。

在上述任一实施例的基础上,所述根据预先创建的易错字符库,获取包含目标字符的相似字符集合的步骤前还包括:获取字符集,对字符集中各字符对应的图像数据进行尺寸归一化处理;并根据各字符对应的图像数据,获取各字符之间的形状相似度;根据字符之间的形状相似度,对字符进行聚类,获取相似字符集合;其中,所述相似字符集合中的任意两个字符之间的相似度大于预设相似度,所述易错字符库包含至少一个相似字符集合。

其中,字符集包括多个字符,常用的中文字符集有unicode、big5和gb2312;其中,unicode中包括了同一汉字的多种字形,如,汉字“户”字,就包括了“户”、“戸”两种字形,为后续进行相似字聚类提供了条件。

具体地,在进行文本检测前,需要首先创建易错字符库;首先选择字符集,然后为了方便字符相似度的计算,首先要将字符的图像数据的大小统一;如图2所示,例如,对于字符集中的每一个字符的图像数据,都将其宽高比统一为1比1,并拉伸或压缩为100*100像素的图片;可以将图片看作是一个100*100的正方形边框,将文字紧密地嵌套在其中,即为尺寸归一化处理。

然后根据图像数据获取两两字符之间的形状相似度,并根据字符之间的相似度,对字符进行聚类;可以认为,当两个字符的相似度在预设相似度(例如90%)以上时,可以认为这两个字符属于同一类,即划分至同一相似字符集合。因此,对数字、字母以及常用的汉字进行聚类,找到与它们相似度在90%以上的字符,将这些字符归为一类,从而得到最终的易错字符库。

在上述任一实施例的基础上,所述获取各字符之间的形状相似度的步骤具体包括:采用多个相似度计算方法分别计算各字符之间的相似度;根据预先对各相似度计算方法分配的权重值,以及通过各相似度计算方法得到的相似度,获取各字符之间的形状相似度。

具体地,在进行形状相似度的计算时,采用多种计算方法,并为每一种方法分配相应地权重值;各方法的权重值与计算结果的乘积之和即为最终的两两字符之间的形状相似度。通过多种相似度计算方法,使得最终的形状相似度能考虑各类因素,能够较为准确的反映字符之间相似的程度。

在上述任一实施例的基础上,所述多个相似度计算方法包括逐像素比较法、投影区块比较法和宽高比匹配法。

具体地,本发明实施例具体采用了逐像素比较法、投影区块比较法和宽高比匹配法相结合,给这三种方法分别分配一个权重,综合相加得到最终的相似度;逐像素比较法的基本思想是,将归一化后的两个字符对应图像数据的每一个像素进行比对,将相似的像素数除以总像素数,得到最终的相似度;投影区块比较法的基本思想是,计算归一化后的字符对应的图像数据的每行以及每列的黑色像素总数,以此匹配两个字符该信息的相似度。

在上述任一实施例的基础上,所述对字符集中各字符对应的图像数据进行尺寸归一化处理的步骤前还包括:记录各字符对应的图像数据的元信息,所述元信息包括图像数据的宽高比;相应地,采用宽高比匹配法计算各字符之间的相似度的步骤具体包括:对各字符图像数据对应的元信息中记录的宽高比进行比较,获取宽高比匹配法对应的相似度。

具体地,由于图像数据的尺寸归一化无法区分部分字符,例如大写英文字母z和小写英文字母z在归一化之后形状完全相同,无法分辨;因此,所以在进行归一化之前,需要先记录字符原始图像数据的元信息,如字符原始的宽高比,原始位图等信息。而在宽高比匹配法的相似度计算中,对两个字符的元信息中记录的宽高比进行比较,能够弥补归一化过程中造成的字符信息缺失。

在上述任一实施例的基础上,所述获取待检测文本数据中频繁出现的目标字符的步骤具体包括:对各字符的出现次数进行从大到小的排序,将排序中处于前预设比例的字符作为目标字符,和/或将出现次数大于预设次数的字符作为目标字符。

具体地,在统计完所有字符的出现次数后,按照次数的大小进行从大到小的排序,将排序的前比例(例如5%)的字符作为目标字符;或者,次数大于一定值,例如500次,作为目标字符。

本发明实施例提供的文本数据中错误字符的检测方法,具有以下有益效果:

一次建库,多次复用;只需要对字符集进行一次扫描,建立易错字符库;之后就可以利用易错字符库对大量文档进行纠正,降低了每次进行文本数据纠错的成本,并且通过本方法建立出的易错字符库与文档的具体内容是完全独立的,基本可以用于任意文档的歧义字纠正,通用性很强,应用范围广;

在某些需要对大量文本数据进行校对的场合,可以自动纠正绝大部分的错别字,可以部分完成很多需要人工才能进行的文本数据纠正工作;在某些文本数据错误较为典型的情况下,甚至可以完全取代人工,使用本发明提到的方法可以大幅降低人力成本;

经过本方法处理后的文本数据,格式统一,错字率极低;相比于原数据,歧义纠正后的数据为后续进行统计分析带来了极大的便捷,节省了数据清洗的时间,并且提高了数据挖掘结果的准确性;

适用性很强,既可用于通用的文本数据纠错,也可用于个性化的文本数据纠错需求;本方法中提到的易错字库、频繁字以及错字阈值,都可以根据使用者的个性化需求进行修改,直到达到令使用者满意的效果。

图3为本发明实施例提供的文本数据中错误字符的检测装置的结构示意图,如图3所示,包括:统计模块301,用于对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;获取模块302,用于根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;确认模块303,用于若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。

其中,统计模块301首先统计待检测文本数据中所有字符出现的字频,字频即为某一字符在待检测文本数据中出现的频率或次数;统计模块301根据出现次数,可以得到目标字符;目标字符是在待检测文本中出现次数较多的字符;可替换地,目标字符同样可以为用户自定义的出错次数较多的字符。

其中,获取模块302根据统计模块301中获取的目标字符,在易错字符库中进行查询,得到相似字符集合;该相似字符集合中包括多个字符,每个字符都与目标字符的形状上具有很强的相似性;因此,用户在进行文本数据录入时,有可能将相似字符作为目标字符录入到待检测文本数据中。

其中,确认模块303根据获取模块302中获取的相似字符集合,在待检测文本数据中查找集合中包括的与目标字符形状相似的相似字符(例如采用每个字的哈希值来查找);如果某一个相似字符出现在待检测文本中,且在待检测文档中出现的次数小于预设阈值(例如整个文本数据字符总数的0.1%),则确认模块303确认文本中出现的该相似字符为错误字符或歧义字符。

本发明实施例提供的文本数据中错误字符的检测装置,通过获取文本中频繁出现的目标字符,并判断文本中出现的与目标字符形状相似的字符是否为错误字符,充分考虑了人工录入数据中产生的形状相似的错误字符,有效检测了文本数据中的错误字符,取代人工纠错,降低人工成本,提高了错误字符检测效率。

在上述任一实施例的基础上,所述装置还包括:改正模块,用于获取错误字符所属的相似字符集合中各字符在待检测文本数据中的出现次数,并将错误字符改正为出现次数最多的字符。

在上述任一实施例的基础上,所述装置还包括:归一化处理模块,用于获取字符集,对字符集中各字符对应的图像数据进行尺寸归一化处理;并根据各字符对应的图像数据,获取各字符之间的形状相似度;聚类模块,用于根据字符之间的形状相似度,对字符进行聚类,获取相似字符集合;其中,所述相似字符集合中的任意两个字符之间的相似度大于预设相似度,所述易错字符库包含至少一个相似字符集合。

在上述任一实施例的基础上,所述归一化处理模块具体包括:计算单元,用于采用多个相似度计算方法分别计算各字符之间的相似度;获取单元,用于根据预先对各相似度计算方法分配的权重值,以及通过各相似度计算方法得到的相似度,获取各字符之间的形状相似度。

在上述任一实施例的基础上,所述多个相似度计算方法包括逐像素比较法、投影区块比较法和宽高比匹配法。

在上述任一实施例的基础上,所述装置还包括:记录单元,用于记录各字符对应的图像数据的元信息,所述元信息包括图像数据的宽高比;相应地,计算单元具体用于:对各字符图像数据对应的元信息中记录的宽高比进行比较,获取宽高比匹配法对应的相似度。

在上述任一实施例的基础上,所述统计模块301具体用于:对各字符的出现次数进行从大到小的排序,将排序中处于前预设比例的字符作为目标字符,和/或将出现次数大于预设次数的字符作为目标字符。

图4为本发明实施例提供的文本数据中错误字符的检测设备的结构示意图,如图4所示,该设备包括:至少一个处理器401;以及与所述处理器401通信连接的至少一个存储器402,其中:所述存储器402存储有可被所述处理器401执行的程序指令,所述处理器401调用所述程序指令能够执行上述各实施例所提供的文本数据中错误字符的检测方法,例如包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。

本发明实施例还提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行对应实施例所提供的文本数据中错误字符的检测方法,例如包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。

以上所描述的文本数据中错误字符的检测设备等实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1