用于确定文字形近度的方法和设备与流程

文档序号:12721427阅读:255来源:国知局
用于确定文字形近度的方法和设备与流程

本发明总体说来涉及计算机信息处理,更具体地说,涉及一种基于计算机信息处理来确定文字形近度的方法和设备。



背景技术:

在诸如中文、日文、韩文等语言中,存在大量字形上近似的文字,这些形近字的存在很容易导致文字使用上的错误。

过去较多地依靠人力来查找错误使用的形近字,但由于形近字本身容易混淆,导致不仅需要耗费大量的人力,而且难免错漏的情况。

随着计算机技术的发展,越来越多地采用自动识别的方式来查找形近字。通常,在文字基于字形被编码(例如,按照编码规则被转换为由1-5位字符(例如,字母或数字等)组成的码字)的情况下,可基于码字之间的编辑距离来确定文字之间的形近程度,这里,作为示例,编辑距离可基于码字之间字符的增加、删减或改换来计算。例如,公开号为CN103399907A的中国专利申请《一种基于编辑距离计算中文字符串相似度的方法及装置》公开了一种基于编辑距离计算中文字符串相似度的方法,其采用四角号码编码将字符串中的汉字转换成四角编码,从而基于编辑距离计算汉字的相似度。

上述文字编码对编码规则的依赖极强,然而,这些编码规则无法有效地刻画部首与部首之间的相似度。以汉字为例,五笔码、仓颉码、四角码等均基于汉字的部首和/或笔画等组件,但是编码结果之间的编辑距离常常无法体现出汉字之间的相似程度,例如,“宇”字的五笔编码为“PGFJ”,“盱”字的五笔编码为“HGFJ”,两者之间的编辑距离仅仅为1,但这两个字在视觉上并不相似。又例如,“操”字的四角编码为56094,“燥”字的四角编码为96894,两个码字之间仅有2个相同字符,编辑距离较大,然而这两个字的相似度实则极高。此外,对于笔画数特别少的文字,例如,“二”和“三”、“干”和“于”,也难以通过码字之间的编辑距离来判断近似性。

可以看出,基于码字之间的编辑距离来判断文字近似性时必然受到编码规则的限制,也就是说,编码时损失掉的那部分文字特点信息导致难以有效地衡量文字的形近程度。



技术实现要素:

本发明的示例性实施例旨在克服现有技术中难以准确识别形近文字的缺陷。

根据本发明的示例性实施例,提供一种用于确定文字形近度的方法,包括:(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。

可选地,在所述方法中,在步骤(A)中,按照点阵字体将第一文字和第二文字分别进行图片格式转换。

可选地,在所述方法中,在步骤(B)中,以单个像素为单位来确定第一图片与第二图片之间的像素匹配情况。

可选地,在所述方法中,步骤(B)包括:(b1)对第一图片和第二图片的像素分别进行二值化处理;以及(b2)确定经过二值化处理之后的第一图片与第二图片之间的像素匹配情况。

可选地,在所述方法中,步骤(B)包括:(b3)对第一图片和第二图片分别进行至少一种几何变换;以及(b4)确定几何变换之前的第一图片以及经过每种几何变换后的第一图片分别与几何变换之前的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况;并且,步骤(C)包括:(c1)分别基于每个确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度;以及(c2)将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。

可选地,在所述方法中,所述至少一种几何变换包括平移变换、缩放变换、删行变换和删列变换之中的至少一种。

可选地,在所述方法中,在步骤(B)中,通过考虑非空白像素之间的匹配情况来确定第一图片与第二图片之间的像素匹配情况。

可选地,所述方法还包括步骤(D)和步骤(E),其中,所述方法在步骤(A)之前,执行步骤(D):确定待比较的第一文字和第二文字的笔画数量,其中,如果在步骤(D)中确定第一文字和第二文字之中的至少一个的笔画数量小于预设阈值,则所述方法执行步骤(A)、步骤(B)和步骤(C);否则,所述方法执行步骤(E):基于第一文字与第二文字的编辑距离来确定第一文字与第二文字之间的形近度。

可选地,在所述方法中,所述方法针对多个第一文字和多个第二文字分别确定每个第一文字与每个第二文字之间的形近度,并且,所述方法还包括:(F)针对每个第一文字,选择与所述每个第一文字形近度较高的至少一个第二文字作为所述每个第一文字的形近字,并建立由所述多个第一文字及其形近字组成的形近字库。

根据本发明的另一示例性实施例,提供一种执行文字校对的方法,包括:确定待校对文字;从基于本发明示例性实施例建立的形近字库中搜索所述待校对文字的形近字;以及输出搜索到的所述待校对文字的形近字。

根据本发明的另一示例性实施例,提供一种用于确定文字形近度的设备,包括:转换装置,用于将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;匹配确定装置,用于确定第一图片与第二图片之间的像素匹配情况;以及形近度确定装置,用于基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。

可选地,在所述设备中,转换装置按照点阵字体将第一文字和第二文字分别进行图片格式转换。

可选地,在所述设备中,匹配确定装置以单个像素为单位来确定第一图片与第二图片之间的像素匹配情况。

可选地,在所述设备中,匹配确定装置包括:二值化处理单元,用于对第一图片和第二图片的像素分别进行二值化处理;以及匹配单元,用于确定经过二值化处理之后的第一图片与第二图片之间的像素匹配情况。

可选地,在所述设备中,匹配确定装置包括:变换单元,用于对第一图片和第二图片分别进行至少一种几何变换;以及匹配单元,用于确定几何变换之前的第一图片以及经过每种几何变换后的第一图片分别与几何变换之前的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况;并且,形近度确定装置包括:候选形近度确定单元,用于分别基于每个确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度;以及最高形近度确定单元,用于将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。

可选地,在所述设备中,所述至少一种几何变换包括平移变换、缩放变换、删行变换和删列变换之中的至少一种。

可选地,在所述设备中,匹配确定装置通过考虑非空白像素之间的匹配情况来确定第一图片与第二图片之间的像素匹配情况。

可选地,所述设备还包括:笔画确定装置,用于确定待比较的第一文字和第二文字的笔画数量;其中,如果笔画确定装置确定第一文字和第二文字之中的至少一个的笔画数量小于预设阈值,则转换装置执行图片格式转换,匹配确定装置确定像素匹配情况,并且形近度确定装置基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度;否则,形近度确定装置基于第一文字与第二文字的编辑距离来确定第一文字与第二文字之间的形近度。

可选地,所述设备针对多个第一文字和多个第二文字分别确定每个第一文字与每个第二文字之间的形近度,并且,所述设备还包括:字库建立装置,用于针对每个第一文字,选择与所述每个第一文字形近度较高的至少一个第二文字作为所述每个第一文字的形近字,并建立由所述多个第一文字及其形近字组成的形近字库。

根据本发明的另一示例性实施例,提供一种执行文字校对的设备,包括:文字确定装置,用于确定待校对文字;形近字搜索装置,用于从由根据本发明示例性实施例的设备建立的形近字库中搜索所述待校对文字的形近字;以及形近字输出装置,用于输出搜索到的所述待校对文字的形近字。

根据本发明的另一示例性实施例,提供一种用于确定文字形近度的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下步骤的计算机程序:(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。

可选地,在所述计算机可读介质中,在步骤(A)中,按照点阵字体将第一文字和第二文字分别进行图片格式转换。

可选地,在所述计算机可读介质中,在步骤(B)中,以单个像素为单位来确定第一图片与第二图片之间的像素匹配情况。

可选地,在所述计算机可读介质中,步骤(B)包括:(b1)对第一图片和第二图片的像素分别进行二值化处理;以及(b2)确定经过二值化处理之后的第一图片与第二图片之间的像素匹配情况。

可选地,在所述计算机可读介质中,步骤(B)包括:(b3)对第一图片和第二图片分别进行至少一种几何变换;以及(b4)确定几何变换之前的第一图片以及经过每种几何变换后的第一图片分别与几何变换之前的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况;并且,步骤(C)包括:(c1)分别基于每个确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度;以及(c2)将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。

可选地,在所述计算机可读介质中,所述至少一种几何变换包括平移变换、缩放变换、删行变换和删列变换之中的至少一种。

可选地,在所述计算机可读介质中,在步骤(B)中,通过考虑非空白像素之间的匹配情况来确定第一图片与第二图片之间的像素匹配情况。

可选地,在所述计算机可读介质中,所述计算机程序还执行步骤(D)和步骤(E),其中,所述计算机程序在步骤(A)之前,执行步骤(D):确定待比较的第一文字和第二文字的笔画数量,其中,如果在步骤(D)中确定第一文字和第二文字之中的至少一个的笔画数量小于预设阈值,则所述计算机程序执行步骤(A)、步骤(B)和步骤(C);否则,所述计算机程序执行步骤(E):基于第一文字与第二文字的编辑距离来确定第一文字与第二文字之间的形近度。

可选地,在所述计算机可读介质中,所述计算机程序针对多个第一文字和多个第二文字分别确定每个第一文字与每个第二文字之间的形近度,并且,所述计算机程序还执行:(F)针对每个第一文字,选择与所述每个第一文字形近度较高的至少一个第二文字作为所述每个第一文字的形近字,并建立由所述多个第一文字及其形近字组成的形近字库。

根据本发明的另一示例性实施例,提供一种执行文字校对的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下步骤的计算机程序:确定待校对文字;从由根据本发明示例性实施例的计算机可读介质建立的形近字库中搜索所述待校对文字的形近字;以及输出搜索到的所述待校对文字的形近字。

根据本发明的另一示例性实施例,提供一种用于确定文字形近度的计算装置,包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。

可选地,在所述计算装置中,在步骤(A)中,按照点阵字体将第一文字和第二文字分别进行图片格式转换。

可选地,在所述计算装置中,在步骤(B)中,以单个像素为单位来确定第一图片与第二图片之间的像素匹配情况。

可选地,在所述计算装置中,步骤(B)包括:(b1)对第一图片和第二图片的像素分别进行二值化处理;以及(b2)确定经过二值化处理之后的第一图片与第二图片之间的像素匹配情况。

可选地,在所述计算装置中,步骤(B)包括:(b3)对第一图片和第二图片分别进行至少一种几何变换;以及(b4)确定几何变换之前的第一图片以及经过每种几何变换后的第一图片分别与几何变换之前的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况;并且,步骤(C)包括:(c1)分别基于每个确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度;以及(c2)将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。

可选地,在所述计算装置中,所述至少一种几何变换包括平移变换、缩放变换、删行变换和删列变换之中的至少一种。

可选地,在所述计算装置中,在步骤(B)中,通过考虑非空白像素之间的匹配情况来确定第一图片与第二图片之间的像素匹配情况。

可选地,在所述计算装置中,所述计算机可执行指令集合还执行步骤(D)和步骤(E),其中,所述计算机可执行指令集合在步骤(A)之前,执行步骤(D):确定待比较的第一文字和第二文字的笔画数量,其中,如果在步骤(D)中确定第一文字和第二文字之中的至少一个的笔画数量小于预设阈值,则所述计算机可执行指令集合执行步骤(A)、步骤(B)和步骤(C);否则,所述计算机可执行指令集合执行步骤(E):基于第一文字与第二文字的编辑距离来确定第一文字与第二文字之间的形近度。

可选地,在所述计算装置中,所述计算机可执行指令集合针对多个第一文字和多个第二文字分别确定每个第一文字与每个第二文字之间的形近度,并且,所述计算机可执行指令集合还执行:(F)针对每个第一文字,选择与所述每个第一文字形近度较高的至少一个第二文字作为所述每个第一文字的形近字,并建立由所述多个第一文字及其形近字组成的形近字库。

根据本发明的另一示例性实施例,提供一种执行文字校对的计算装置,包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:确定待校对文字;从由根据本发明示例性实施例的计算装置建立的形近字库中搜索所述待校对文字的形近字;以及输出搜索到的所述待校对文字的形近字。

在根据本发明示例性实施例的用于确定文字形近度的方法和设备中,可基于文字转换为图片格式之后的像素匹配程度来判断文字的形近程度,从而不再受限于任何编码规则而成为一种通用的形近字确定方式。

附图说明

从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:

图1示出根据本发明示例性实施例的用于确定文字形近度的设备的框图;

图2示出根据本发明示例性实施例的用于确定文字形近度的设备中的匹配确定装置的框图;

图3示出根据本发明另一示例性实施例的用于确定文字形近度的设备中的匹配确定装置的框图;

图4示出根据本发明示例性实施例的用于确定文字形近度的设备中的形近字确定装置的框图;

图5示出根据本发明另一示例性实施例的用于确定文字形近度的设备的框图;

图6示出根据本发明另一示例性实施例的用于确定文字形近度的设备的框图;

图7示出根据本发明示例性实施例的用于确定文字形近度的方法的流程图;

图8示出根据本发明另一示例性实施例的用于确定文字形近度的方法的流程图;

图9示出根据本发明另一示例性实施例的用于确定文字形近度的方法的流程图;

图10示出根据本发明另一示例性实施例的用于确定文字形近度的方法的流程图;

图11示出根据本发明另一示例性实施例的用于确定文字形近度的方法的流程图;

图12示出根据本发明另一示例性实施例的用于确定文字形近度的方法的流程图;

图13示出根据本发明示例性实施例的执行文字校对的设备的框图;以及

图14示出根据本发明示例性实施例的执行文字校对的方法的流程图。

具体实施方式

为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。

在本发明的示例性实施例中,通过将不同文字分别转换为图片格式,并进而基于图片像素的匹配情况来确定文字之间的形近度。这里所述的文字不限于汉字,还可以是诸如日文、韩文等任何不同字之间在形状上可能具有近似性的文字。

图1示出根据本发明示例性实施例的用于确定文字形近度的设备的框图。具体说来,图1所示的系统可全部通过计算机程序以软件方式来实现,也可由专门的硬件装置来实现,还可通过软硬件结合的方式来实现。相应地,组成图1所示的设备的各个装置可以是仅依靠计算机程序来实现相应功能的虚拟模块,也可以是依靠硬件结构来实现所述功能的通用或专用器件,还可以是运行有相应计算机程序的硬件装置等。

如图1所示,转换装置100用于将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片。

具体说来,第一文字和第二文字用于指示将进行字形比较的任意两个文字,作为示例,这两个文字可来源于同一种语言,也可考虑到应用场景而来源于不同语言。

这里,第一文字和第二文字均可表示为预定文字编码规则下的字符串。转换装置100可分别读取与第一文字相应的字符串和与第二文字相应的字符串,进而将所述字符串分别转换为图片格式的第一图片和第二图片。这里,所述图片格式可以是位图格式,也可以是其他能够获取各像素数值的格式。转换装置100可按照默认的图片格式参数来执行图片格式转换,也可设置和/或调整相关参数,例如,转换后的图片分辨率等。这里,转换装置100可按照相同的参数对第一文字和第二文字执行图片格式转换,使得转换后的第一图片和第二图片可具有相同的规格。

作为示例,在转换后的第一图片和第二图片中,黑色部分可对应于文字的笔画,而白色部分可对应于非笔画的空白区域。作为示例,为了进一步确保后续像素匹配的效果,转换装置100在执行图片格式转换时,可设置图片格式的文字所对应的字体。例如,转换装置100可按照点阵字体将第一文字和第二文字分别进行图片格式转换。这里,应注意,转换装置100也可按照其他非点阵字体来执行图片格式转换,例如,宋体等相对较接近点阵形式的字体或其他任意字体。

匹配确定装置200用于确定第一图片与第二图片之间的像素匹配情况。如上所述,在经过图片格式转换之后,图片中的黑色部分可对应于文字的笔画,而图片中的白色部分可对应于非笔画的空白区域。相应地,对于组成图片的每一个像素而言,其可能全部被黑色的笔画占据,也可能全部被白色的非笔画占据。此外,像素还可能部分地被笔画占据,也就是说,在单个像素中既存在笔画部分也存在非笔画部分。在这种情况下,每个像素点的取值可以是表示该像素点整体的黑白程度的亮度值,作为示例,每个像素点的取值可以是经过二值化的0值或1值,也可以是表示实际灰度的亮度值(例如,0到255之间的值)。

这里,作为示例,匹配确定装置200可以以单个像素为单位来确定第一图片与第二图片之间的像素匹配情况。也就是说,匹配确定装置200可逐个确定第一图片和第二图片中对应像素点之间的匹配情况。这里,匹配确定装置200可确定全部对应像素点之间的匹配情况,可选地,匹配确定装置200也可仅针对图片中的一部分像素来确定匹配情况,例如,匹配确定装置200可通过考虑非空白像素之间的匹配情况来确定第一图片与第二图片之间的像素匹配情况,也就是说,对于第一图片和第二图片中的空白对应像素(这里,如果某特定坐标位置上的一对像素在第一图片和第二图片中均不涉及任何笔画,则它们构成一对空白对应像素),匹配确定装置200可不必确定它们之间的匹配情况。

在确定对应像素的匹配情况时,如果两个图片中对应像素点的取值相同或近似,则可认为这两个对应像素之间彼此匹配;如果两个图片中对应像素点的取值存在明显差异,则可认为这两个对应像素之间不匹配。相应地,匹配确定装置200可记录相关对应像素点的匹配结果,例如,记录彼此匹配的像素点个数。此外,作为示例,匹配确定装置200还可记录其他匹配结果信息,例如,匹配像素点的位置等。

应注意,除了以单个像素为单位进行比对之外,还可以基于由多个像素组成的矩阵或块为单位来比较第一图片与第二图片之间的像素匹配情况,这里,同一矩阵或块中的像素可具有统一的匹配结果。

此外,为了进一步提高执行匹配时的运算效率,可在执行具体匹配运算之前对图片的像素进行二值化处理,相应地,图2示出根据本发明示例性实施例的用于确定文字形近度的设备中的匹配确定装置200的框图。

如图2所示,二值化处理单元210用于对第一图片和第二图片的像素分别进行二值化处理。通过二值化处理,单个像素的取值可以是0或1这两者之中的一个值。这里,可预先设置关于像素亮度值的阈值(该阈值可以是全局阈值,也可以是局部阈值),对于像素值高于相应阈值的像素(即,非笔画区域相对较多的像素),可将这种像素的取值设置为1或0之中的一个值,而对于低于相应阈值的像素(即,笔画区域相对较多的像素),可将它们的取值设置为1或0之中的另一个值。这里,所述阈值可以是像素的亮度值范围的中间值,也可以是不同于中间值的其他值。例如,假设像素的亮度值范围为[0,255],其中,0对应最低亮度,而255对应最高亮度,相应地,最低亮度的像素可全部被笔画占据,而最高亮度的像素中不存在任何笔画区域;在这种情况下,可将阈值设置为最高亮度值的50%(即,127),相应地,如果像素的亮度值高于127,则将所述像素分类为具有较高亮度的白像素,否则,则将所述像素分类为具有较低亮度的黑像素。此外,根据本发明的示例性实施例,为了更好的匹配效果,还可将阈值设置为最高亮度的75%(即,191),这样,只有像素的亮度值高于191才被分类为白像素,否则将被分类为黑像素。

匹配单元220用于确定经过二值化处理之后的第一图片与第二图片之间的像素匹配情况。这里,匹配单元220可按照上述方式来确定并记录像素之间的匹配情况。作为示例,匹配单元220可针对二值化处理之后的所有对应像素来确定像素匹配情况,或者,匹配单元220也可仅针对二值化处理之后的对应黑像素(即,对应的一对像素中至少有一个像素为黑像素)来确定像素匹配情况。

参照回图1,形近度确定装置300用于基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。具体说来,在匹配确定装置200确定了第一图片与第二图片之间的像素匹配情况之后,可将相关的匹配信息(例如,匹配像素对的个数、位置或匹配程度等)提供给形近度确定装置300。相应地,形近度确定装置300可通过考虑彼此匹配的像素的整体占比来确定第一文字与第二文字之间的形近度。这里,形近度确定装置300可定性或定量地确定第一文字与第二文字之间的形近度。具体说来,如果彼此匹配的像素的整体占比较高,则确定第一文字与第二文字之间的形近度较高(或可相应地计算出第一文字与第二文字之间的形近度数值),或者确定第一文字与第二文字为形近字;如果彼此匹配的像素的整体占比较低,则确定第一文字与第二文字之间的形近度较低(或可相应地计算出第一文字与第二文字之间的形近度数值),或者确定第一文字与第二文字为非形近字。

作为示例,形近度确定装置300可通过计算彼此匹配的对应像素点的个数与全部相关对应像素点的个数之间的比值来确定第一图片与第二图片之间的形近度数值。例如,对于二值化的第一图片与第二图片,形近度确定装置300可计算两幅图片之间匹配的对应黑像素的个数与两幅图片之中黑像素的总数之间的比值,并基于该比值来确定两幅图片之间的形近度数值。

虽然匹配确定装置200和形近度确定装置300被显示为分离的装置,然而,这只是在逻辑功能上对两者进行区分,并非限制二者之间的关系,可以看出,上述两个装置之间存在互相协作,可被实施在统一的处理装置中。

根据本发明的示例性实施例,为了进一步提高确定形近度时的准确性,可对第一图片和第二图片进行各种变换,并针对多种变换分别计算形近度。

图3示出根据本发明另一示例性实施例的用于确定文字形近度的设备中的匹配确定装置200的框图。

如图3所示,变换单元230用于对第一图片和第二图片分别进行至少一种几何变换。这里,变换单元230可对每幅图片的整体或局部执行诸如平移、缩放、旋转等几何变换,从而产生经过变型后的多幅图片。作为示例,所述至少一种几何变换可包括平移变换、缩放变换、删行变换和删列变换之中的至少一种。

相应地,匹配单元220用于确定几何变换之前的第一图片以及经过每种几何变换后的第一图片分别与几何变换之前的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况。这里,图3中所示的匹配单元220可按照与图2所示的匹配单元220类似的方式进行操作,只是针对的对象除了原始的第一图片和第二图片之外,还包括经过几何变换后的第一图片和第二图片。

可以看出,图3所示的匹配确定装置200可提供多种像素匹配情况。相应地,图4示出根据本发明示例性实施例的用于确定文字形近度的设备中的形近字确定装置300的框图。

如图4所示,候选形近度确定单元310用于分别基于每个由图3所示的匹配确定装置200所确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度。这里,针对由图3所示的匹配确定装置200所输出的每种像素匹配情况,候选形近度确定装置310可相应地确定出与所述每种像素匹配情况相应的候选形近度。也就是说,针对任意一对原始或经过变换的第一图片和第二图片,候选形近度确定装置310可确定一个相应的候选形近度,由此可总共获得多个候选形近度。

相应地,最高形近度确定单元320用于将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。这里,最高形近度确定单元320可通过将由候选形近度确定装置310确定的候选形近度进行排序来获得其中的最高形近度,并将该最高形近度作为第一图片与第二图片之间的最终形近度。

应理解,上述示例仅用于解释本发明的示例性实施例,而非用于进行任何意义上的限制。事实上,本领域技术人员可根据本公开的内容,对上述示例进行任何变型或改进,这些变型或改进仍旧落入本发明的保护范围。例如,图2和图3所示的匹配确定装置200可合并为一体,以包括图2所示的二值化处理单元210以及图3所示的变换单元230和匹配单元220。也就是说,为了确定第一图片与第二图片之间的像素匹配情况,可先对第一图片和第二图片进行二值化处理,并对二值化处理后的第一图片和第二图片分别进行一种或多种几何变换,进而确定原始第一图片和每种变换后的第一图片与原始第二图片和每种变换后的第二图片两两之间的像素匹配情况。

如上所述,在根据本发明示例性实施例的用于确定文字形近度的设备中,可基于图片格式来判断不同文字之间的形近程度,从而不再受限于文字本身的编码规则。

然而,本发明的示例性实施例并不排斥传统的基于文字编码之间的编辑距离来确定文字形近度的方式,而是可将基于图片格式的文字比对与任何其他方式相互结合。

图5示出根据本发明另一示例性实施例的用于确定文字形近度的设备的框图。如图5所示,所述用于确定文字形近度的设备可包括转换装置100、匹配确定装置200、形近字确定装置300和笔画确定装置400。

可以看出,与图1所示的设备相比,在图5中,可结合图片比对方式与编辑距离比对方式这两者来确定文字之间的形近度。作为示例,当待比对的第一文字和第二文字中存在笔画数量较少的文字时,可采用图片比对方式,而当第一文字和第二文字均为笔画数量较多的文字时,可采用编辑距离比对方式。

具体说来,笔画确定装置400用于确定待比较的第一文字和第二文字的笔画数量。这里,作为示例,笔画确定装置400可通过查询关于文字笔画数的表来分别确定第一文字的笔画数量和第二文字的笔画数量。

这里,如果笔画确定装置400确定第一文字和第二文字之中的至少一个的笔画数量小于预设阈值,则转换装置100可执行图片格式转换,匹配确定装置200可确定像素匹配情况,并且形近度确定装置300可基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度;否则,形近度确定装置300可基于第一文字与第二文字的编辑距离来确定第一文字与第二文字之间的形近度。这里,形近度确定装置300可根据第一文字与第二文字的文字编码来确定两者之间的编辑距离,其中,根据本发明的示例性实施例,文字编码可采用任何适当的编码方式,作为优选方式,形近度确定装置300可确定仓颉码的第一文字与第二文字的编辑距离,并基于所述编辑距离来确定第一文字与第二文字之间的形近度。

也就是说,只要第一文字或第二文字的笔画数量小于预设阈值,即,待比较的文字中存在笔画较少的文字,则转换装置100、匹配确定装置200和形近度确定装置300即可按照参照图1到图4所描述的方式来进行操作,这里将不再赘述。另一方面,如果第一文字和第二文字均为笔画数量较多的文字,则形近度确定装置300可获取第一文字的编码与第二文字的编码之间的编辑距离,并基于该编辑距离来确定第一文字与第二文字之间的形近度,这里,编辑距离越大,文字之间的形近度越低。此外,形近度确定装置300还可将基于编辑距离确定的文字形近度与基于像素匹配情况确定的文字形近度统一在同样的数值范围下,例如,均以百分数来表示文字形近度,并且,同样的数值可指示等同的相似程度,例如,基于编辑距离确定的80%形近度与基于像素匹配情况确定的80%形近度可被视为同样的字形近似程度。

图6示出根据本发明另一示例性实施例的用于确定文字形近度的设备的框图。如图6所示,所述用于确定文字形近度的设备可包括转换装置100、匹配确定装置200、形近字确定装置300和字库建立装置500。可选地,图6所示的设备还可包括笔画确定装置(未示出)。

可以看出,与图1所示的设备相比,在图6中,还进一步包括用于构建形近字库的装置。具体说来,在转换装置100、匹配确定装置200和形近字确定装置300(或连同笔画确定装置)针对多个第一文字和多个第二文字分别确定每个第一文字与每个第二文字之间的形近度的基础上,字库建立装置500用于针对每个第一文字,选择与所述每个第一文字形近度较高的至少一个第二文字作为所述每个第一文字的形近字,并建立由所述多个第一文字及其形近字组成的形近字库。

作为示例,由字库建立装置500建立的形近字库可具有映射表的形式,其中,每个文字与其形近字之间形成映射关系。相应地,可通过搜索所述形近字库来方便地确定某个文字与另一文字是否是形近字,或者,可方便地查找到某个文字的形近字有哪些。基于上述搜索结果,可进一步执行诸如错别字校对等操作。

以下将结合图7到图12来描述根据本发明示例性实施例的用于确定文字形近度的方法,这些方法或其中的某些步骤可由图1到图6所示的设备或装置来实施,也可完全通过计算机程序以软件方式来实现。

图7示出根据本发明示例性实施例的用于确定文字形近度的方法的流程图。

参照图7,在步骤S100中,将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片。这里,可读取按照特定编码方式进行编码后的第一文字和第二文字,将读取的第一文字和第二文字分别从编码格式转换为图片格式,可选地,在执行格式转换时,可指定图片文字的字体,例如,点阵字体或宋体等。

接下来,在步骤S200中,确定第一图片与第二图片之间的像素匹配情况。举例说来,假设第一图片和第二图片均为100×100的像素点阵,则共有100×100个像素对,其中,将针对每一对具有相同坐标位置的像素来确定其匹配情况。在步骤S200中,可确定全部像素对是否匹配或其匹配程度,也可仅确定两幅图片中的笔画所在像素对(即,非空白像素对)是否匹配或其匹配程度。这里,匹配是指两个像素之间具有相同或相似的亮度,表明这两个像素同时作为笔画像素或非笔画像素的概率较高。

接下来,在步骤S300中,基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。如上所述,在确定了所有相关像素之间的匹配情况之后,可进一步确定匹配像素的占比情况,并根据匹配像素的占比情况来确定第一文字与第二文字的形近度。

可以看出,在上述实施例中,由于文字被转换为图片格式从而保留了所有的笔画、结构等特征信息,在此基础上可更加全面地确定文字之间的形近性,而避免了文字编码带来的信息损失。

应注意,本发明的示例性实施例可采用任何具体的实施方式,以下示例仅用于说明这些具体实施方式,而绝非用于限制本发明的保护范围。

图8示出根据本发明另一示例性实施例的用于确定文字形近度的方法的流程图。

参照图8,在步骤S100中,将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片。

接下来,在步骤S210中,对第一图片和第二图片的像素分别进行二值化处理。通过二值化处理,每一图片可由笔画所在的黑像素和没有笔画的白像素组成。这里,可默认或调整二值化处理中的划分阈值,以便得到更有效的匹配结果。

在步骤S220中,确定经过二值化处理之后的第一图片与第二图片之间的像素匹配情况。这里,作为示例,可仅针对黑像素来确定第一图片与第二图片之间的像素匹配情况,具体说来,针对第一图片和第二图片之中的任一图片的每一黑像素,可确定第一图片和第二图片之中的另一图片的对应像素是否为黑像素,如果所述另一图片的对应像素也是黑像素,则确定上述两个像素为彼此匹配的黑像素。相应地,可统计第一图片与第二图片之间彼此匹配的黑像素的总数。应注意,以上确定像素匹配情况的方式仅作为示例,本领域技术人员也可针对全部像素、两幅图片中的白像素、或特定图片(例如,仅第一图片或仅第二图片)中的黑像素或白像素来确定其是否与对应像素构成匹配像素。

接下来,在步骤S300中,基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。具体说来,基于在步骤S200中确定的关于匹配情况的信息,可进一步计算匹配像素在总像素中的占比,从而确定文字的形近度。

例如,假设关于匹配情况的信息指明了第一图片和第二图片之间彼此匹配的黑像素的总数,作为示例,可按照以下算式来计算第一文字与第二文字之间的形近度:

形近度=2×(彼此匹配的黑像素的总数)/(第一图片的黑像素个数+第二图片的黑像素个数)。

上述示例可更加有效地判断出笔画极少的文字之间的形近关系。例如,假设第一文字为“丁”字而第二文字为“人”字,如果在确定匹配关系时考虑包括白像素的所有像素而不是仅考虑黑像素,则由于“丁”与“人”这两个字的笔画本身就过少(即,第一图片和第二图片中笔画占据的黑像素数量极少),而占据图片大部分的多数白像素彼此匹配,所以计算出来的结果会错误地指示“丁”字与“人”字形近度极高。

图9示出根据本发明另一示例性实施例的用于确定文字形近度的方法的流程图。

参照图9,在步骤S100中,将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片。

接下来,在步骤S230中,对第一图片和第二图片分别进行至少一种几何变换。这里,可分别针对第一图片和第二图片进行诸如平移变换、缩放变换、删行变换和删列变换等一种或多种变换,作为示例,可针对第一图片和第二图片执行同样种类的几何变换。根据本发明的示例性实施例,可针对整个图片或局部图片来执行上述几何变换。

当对第一图片或第二图片执行平移变换时,可将所述图片的整体或一部分沿预定方向(例如,可沿向上、向下、向左、向右、左上、左下、右上、右下等方向)平行移动。

此外,当对第一图片或第二图片执行缩放变换时,可按照预定比例对所述图片的整体或一部分进行放大/缩小拉伸,考虑到文字在图片中的布局,作为示例,可按照[0.8,1.2]之间的比例对图片进行放大/缩小。

此外,当对第一图片或第二图片执行删行或删列变换时,可将某些笔画像素极少的行或列进行删除,这里,可将删除的行或列的数量控制在一定范围之内,使得通过这种变换,有助于识别出诸如“钊”字与“钉”字之间的匹配。

接下来,在步骤S220中,确定几何变换之前的第一图片以及经过每种几何变换后的第一图片分别与几何变换之前的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况。这里,可按照以上所述的方式,确定每一对第一图片与第二图片之间的像素匹配情况。

具体说来,假设第一图片经过了m(m为正整数)种几何变换之后,得到了m个变换之后的第一图片,而第二图片经过了n(n为正整数)种几何变换之后,得到了n个变换之后的第一图片,这里,m种几何变换与n种几何变换在数量或种类上可以相同也可以不同;相应地,在步骤S220中,可分别确认原始第一图片和m个变换第一图片之中的每一个与原始第二图片和n个变换第二图片之中的每一个之间的像素匹配情况,相应地,可一共获取(m+1)×(n+1)个确定的像素匹配情况。

在步骤S310中,分别基于每个确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度。这里,可按照以上描述的方式来基于像素匹配情况确定文字之间的形近度,只是由于在步骤S220中确定了多个像素匹配情况,因此,针对每一个像素匹配情况,可获取相应的候选形近度,从而在步骤S310中,可总共获取(m+1)×(n+1)个候选形近度。

接下来,在步骤S320中,将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。也就是说,可对在步骤S310中获取的(m+1)×(n+1)个候选形近度进行排序,并选取其中的最大值作为第一图片与第二图片之间的最终形近度。

如上所述,本发明的示例性实施例并不在于限制本发明的保护范围,不同实施例之间的某些步骤可以互相结合,以形成新的具体实施方式。例如,图10示出根据本发明另一示例性实施例的用于确定文字形近度的方法的流程图。下面将简要介绍一下图10所示的示例性实施例,关于相关步骤的执行细节这里将不再赘述。

参照图10,在步骤S100中,将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片。

在步骤S210中,对第一图片和第二图片的像素分别进行二值化处理。

在步骤S230中,对经过二值化处理的第一图片和第二图片分别进行至少一种几何变换。

接下来,在步骤S220中,确定原始第一图片、经过二值化处理的第一图片以及经过每种几何变换后的第一图片分别与原始第二图片、经过二值化处理的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况。

在步骤S310中,分别基于每个确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度。

接着,在步骤S320中,将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。

图11示出根据本发明另一示例性实施例的用于确定文字形近度的方法的流程图。在图11所示的示例性实施例中,基于图片比对来确定文字形近度的方式与基于编辑距离来确定文字形近度的方式互相结合。

如图11所示,在步骤S400中,确定待比较的第一文字和第二文字的笔画数量。这里,可分别确定第一文字的笔画数量和第二文字两者的笔画数量,也可仅确定第一文字或第二文字的笔画数量。

在步骤S410中,确定在步骤S400确定的第一文字或第二文字的笔画数量是否小于预设阈值。这里,所述预设阈值可以是默认的笔画数量,也可以是能够人为设定并进行调整的笔画数量。

如果在步骤S410中确定在步骤S400确定的第一文字或第二文字的笔画数量小于预设阈值,则所述方法执行步骤S100到S300以执行诸如图7到图10所示的形近字确定步骤。否则,所述方法执行步骤S330,在步骤S330中,基于第一文字与第二文字的编辑距离来确定第一文字与第二文字之间的形近度。

根据本发明的示例性实施例,可有效地确定文字之间的形近度,在此基础上,可进一步建立关于形近字的字库。

具体说来,图12示出根据本发明另一示例性实施例的用于确定文字形近度的方法的流程图。通过执行图12所示的方法,能够建立由多个第一文字以及与各个第一文字形近的第二文字组成的形近字库。下面将简要介绍一下图12所示的示例性实施例,关于相关步骤的执行细节这里将不再赘述。

如图12所示,在步骤S100中,将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片。这里,为了获取特定第一文字的形近字,可首先对该第一文字以及将与其进行比对的特定第二文字进行图片格式转换。

接下来,在步骤S200中,确定上述第一图片与第二图片之间的像素匹配情况。然后,在步骤S300中,基于确定的像素匹配情况来确定上述第一文字与第二文字之间的形近度。

然后,在步骤S340中,确定是否还存在将与所述特定第一文字进行比对的其他第二文字。如果在步骤S340中确定还存在这样的第二文字,则执行步骤S110,对下一个将进行比对的第二文字进行图片格式转换。然后,所述方法重新执行步骤S200和后续步骤以进一步确定所述特定第一文字与所述下一个第二文字之间的形近度。

如果在步骤S340中确定已经到了与所述特定第一文字进行比对的最后一个第二文字,则所述方法进行步骤S500,在步骤S500中,针对所述特定第一文字,在确定过形近度的所有第二文字中选择与所述特定第一文字形近度较高的至少一个第二文字作为所述特定第一文字的形近字,并将所述特定第一文字及其确定的形近字存入形近字库中。

接下来,在步骤S510中,确定是否还存在需要确定形近字的其他第一文字。如果在步骤S510中确定还存在这样的第一文字,则执行步骤S520,在步骤S520中,获取下一个第一文字以及将与其进行比对的第二文字。然后,所述方法针对上述第一文字和第二文字重新执行步骤S100及其后续步骤。

上述图7到图12所示的方法仅仅作为示例,其中的某些步骤并不一定按照所示出的时序执行,而完全可以按照相反的顺序或同时执行,另外,不同附图也可以互相结合以产生新的示例性实施例,例如,图12中的某些步骤可替换为图8到图11中所示的某些步骤。也就是说,本领域技术人员可采用任何适当的方式对上述方法实施例进行变型和改进。

通过上述方式,可建立便于查询调用的形近字数据库,从而无需每次都针对文字进行计算,节省了时间、硬件等计算资源。以下将参照图13和图14来描述根据本发明示例性实施例的用于执行文字校对的设备和方法。

具体说来,图13示出根据本发明示例性实施例的执行文字校对的设备的框图。如图13所示,所述设备包括文字确定装置1000、形近字搜索装置2000和形近字输出装置3000。图14示出根据本发明示例性实施例的执行文字校对的方法的流程图,为了描述方便,以下假设图14的方法由图13的设备来执行,然而应注意,图14的方法也可由其他设备或完全通过计算机程序来实施。

具体说来,在步骤S1000中,由文字确定装置1000确定待校对文字。这里,文字确定装置100可确定作为校对目标的文字,作为示例,所述文字可以是关键字、重要字、易错字、敏感字等需要进行校对的各种文字。

接下来,在步骤S2000中,由形近字搜索装置2000从基于本发明的示例性实施例建立的形近字库中搜索所述待校对文字的形近字。如上所述,在形近字库中,可包括各个文字及与其形似的一个或多个形近字。这些形近字是通过将文字进行图片格式转换之后,基于图片之间的像素匹配情况而建立映射关系的。相应地,形近字搜索装置2000可在形近字库中搜索与待校对文字相应的一个或多个形近字。

然后,在步骤S3000中,由形近字输出装置3000输出搜索到的所述待校对文字的形近字。这里,作为示例,形近字输出装置3000可将待校对文字连同其形近字一并提供给用户或自动校对装置(未示出),使得可在后续利用或处理这组形近字。例如,用户可在输出形近字的提示下更容易地确定待校对文字是否为错别字,或进一步确定是否有必要将待校对文字替换成形近字之一。或者,所述自动校对装置可根据待校对文字的上下文来自动确定是否有必要将待校对文字替换为它的形近字之一,可选地,自动校对装置可将替换提示或替换结果显示给用户,以便用户最终确认是否执行替换。

应理解,上述示例仅用于解释本发明的示例性实施例,而非用于限制本发明的范围。这里,在形近字输出装置3000输出待校对文字的形近字的基础上,可进行任何适当的进一步处理或决策,实现诸如错别字校对、不规范简写替换等操作。

以上参照图1到图12描述了根据本发明示例性实施例的用于确定文字形近度的设备和方法。应理解,上述用于确定文字形近度的方法可通过记录在计算可读介质上的程序来实现,相应地,根据本发明的示例性实施例,可提供一种用于确定文字形近度的计算机可读介质,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。

上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1到图14进行了描述,这里为了避免重复将不再进行赘述。

相应地,上述用于确定文字形近度的设备也可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中的各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。

另一方面,图1到图6所示的各个装置以及未示出的相关装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

这里,本发明的示例性实施例还可以实现为用于确定文字形近度的计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行上述用于确定文字形近度的方法。

具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。

在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

上述关于用于确定文字形近度的的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。

此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

上述关于用于确定文字形近度的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

具体说来,如上所述,根据本发明示例性实施例的用于确定文字形近度的计算装置可包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。

应注意,以上已经结合图1到图12描述了根据本发明示例性实施例的用于确定文字形近度的各处理细节,这里将不再赘述计算装置执行各步骤时的处理细节。

以上已经描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,并且本发明也不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1