一种文字识别方法及装置的制造方法_4

文档序号:9226006阅读:来源:国知局
行中仍然清晰无误。
[0138]进一步的,在图4所示的步骤S402中,在针对每个外接矩形,根据该外接矩形中各像素点的像素值对该外接矩形进行切分时,可确定该外接矩形中经过二值化处理后的每列像素点的垂直投影,并确定每列像素点的垂直投影中的最小垂直投影,确定该最小垂直投影所在的一列像素点到该外接矩形的左边界或右边界的距离,确定该距离与该外接矩形的宽度的比值,当该最小垂直投影小于预设的第二阈值、且该比值落入预设的比值范围内时,以该最小垂直投影所在的一列像素点为切分线,切分该外接矩形。其中,一列像素点的垂直投影即为该列像素点的像素值之和。
[0139]具体的,由于本申请实施例中在对文字行进行二值化处理时,作为前景的笔画的像素点的像素值被置为了前景像素值255 (纯白色),而作为背景的像素点的像素值被置为了 O (纯黑色),因此,对应一列像素点来说,如果该列像素点的垂直投影很小,则该列像素点很可能是字与字之间或者一个字的不同偏旁部首之间的间隙。但是,如果以该列像素点切分该外接矩形,得到的某个切分后的矩形的宽度过宽或过窄,则说明该外接矩形实际上不应该被切分,因此,对应一个外接矩形来说,只有当该外接矩形中垂直投影最小的一列像素点的垂直投影(即,最小垂直投影)小于第二阈值,且以该列像素点为切分线进行切分后,得到的切分后的矩形的宽度与原来该外接矩形的宽度的比值落入预设的比值范围(如1/2?1/3)内时,才以该列像素点为切分线对该外接矩形进行切分。
[0140]另外,在切分过程中,对某个外接矩形切分后,还要根据上述两个条件判断得到的切分后的两个外接矩形是否可以继续切分,如果可以则继续切分,否则不再切分,直到所有的外接矩形都不可再切分为止,再将每个切分后的外接矩形均作为一个待合并区块,执行后续的步骤。
[0141]进一步的,在图4所示的步骤S405中,由于在选择了起点区块之后,如果针对位于起点区块之后的每个待识别区块,都将该起点区块到该待识别区块的所有区块合并成待定文字区块并识别,会导致识别文字的效率较低,因此,本申请实施例中为了提高识别文字的效率,在通过步骤S405进行试探性的识别以确定置信度之前,还可以确定得到的每两个相邻的待识别区块之间的间隙,根据每两个相邻的待识别区块之间的间隙,确定实际间隙估计值,根据得到的每个待识别区块的高度,确定实际高度估计值,根据实际间隙估计值和实际高度估计值,确定起点区块对应的最大合并位置,该最大合并位置位于起点区块之后。其中,从起点区块到该最大合并位置之间的每两个相邻的区块之间的间隙与该实际间隙估计值的差值的绝对值不大于预设的第四阈值,并且,针对位于起点区块到该最大合并位置之间的每个待识别区块,将从该起点区块开始到该待识别区块为止的所有区块合并后得到的区块的宽高比落入预设的文字区块的宽高比范围内。
[0142]则步骤S405中在进行试探性的识别时,具体可以针对位于起点区块到该最大合并位置之间的每个待识别区块,确定从起点区块开始,到该待识别区块为止的所有区块,将确定的所有区块合并为一个待定文字区块,并识别该待定文字区块中的文字,确定识别的置信度。也即,通过减少试探性识别的次数来达到提高识别文字的效率的目的。
[0143]仍以文字行中包含的文字为“绿叶村I日”为例进行说明。
[0144]在得到了“绿”、“口”、“十”、“村”、“1”、“日”这6个待识别区块后,可根据这6个待识别区块中每两个相邻待识别区块之间的间隙,确定实际间隙估计值。具体的,可将这6个待识别区块中每两个相邻待识别区块之间的间隙的平均值作为实际间隙估计值,也可按从小到大或从大到小的顺序将每两个相邻待识别区块之间的间隙进行排序,并将排序后位于中间的间隙作为实际间隙估计值。
[0145]类似的,可根据这6个待识别区块的高度,确定实际高度估计值。具体的,可将这6个待识别区块的高度的平均值作为实际高度估计值,也可按从小到大或从大到小的顺序将每个待识别区块的高度进行排序,并将排序后位于中间的高度作为实际高度估计值。
[0146]假设选择“绿”的待识别区块作为起点区块,则可根据以下两个条件确定“绿”的待识别区块对应的最大合并位置:
[0147]第一个条件:从“绿”的待识别区块到最大合并位置之间的每两个相邻的区块之间的间隙与上述实际间隙估计值的差值的绝对值不大于预设的第四阈值(也即,从“绿”的待识别区块到最大合并位置之间的每两个相邻的区块之间的间隙与上述确定的实际间隙估计值的差距不大);
[0148]第二个条件:针对位于“绿”到最大合并位置之间的每个待识别区块,将从“绿”开始到该待识别区块为止的所有区块合并后得到的区块的宽高比落入预设的文字区块的宽高比范围内。
[0149]假设根据上述两个条件确定的“绿”对应的最大合并位置为“ 口 ”和“十”之间(也即,“绿”和“口”之间的间隙与实际间隙估计值的差值的绝对值不大于预设的第四阈值,且将“绿”和“ 口”合并后得到的区块的宽高比在预设的文字区块的宽高比范围内,但将“绿”、“口”、“十”合并后得到的区块的宽高比就会超出预设的宽高比范围),则步骤S405中,只需将“绿”本身进行识别并确定置信度,再将“绿”和“ 口”合并识别并确定置信度即可,无需再将“绿”到位于“ 口 ”之后的待识别区块之间的所有待识别区块都试探识别一遍(也即,无需再将“绿”、“口 ”、“十”合并识别,也无需将“绿”、“口”、“十”、“村”合并识别,以此类推),可有效提闻文字识别的效率。
[0150]以上为本申请实施例提供的文字识别方法,基于同样的思路,本申请实施例还提供了一种文字识别的装置,如图7所示。
[0151]图7为本申请实施例提供的文字识别装置结构示意图,具体包括:
[0152]外接矩形确定模块701,确定文字行中由各笔画构成的连通域,确定各连通域的外接矩形;
[0153]切分模块702,针对每个外接矩形,根据该外接矩形中各像素点的像素值对该外接矩形进行切分,得到待合并区块;
[0154]合并模块703,根据各待合并区块的重叠区域以及预设的文字区块的宽高比范围,对满足指定条件的待合并区块进行合并,得到待识别区块;
[0155]置信度确定模块704,按照各待识别区块从前到后的顺序,依次选择待识别区块作为起点区块;针对位于所述起点区块之后的每个待识别区块,确定从所述起点区块开始,到该待识别区块为止的所有区块,将确定的所有区块合并为一个待定文字区块,并识别该待定文字区块中的文字,确定识别的置信度;
[0156]识别确定模块705,将识别的置信度最高的文字确定为所述起点区块所在的实际文字区块中的文字。
[0157]所述装置还包括:
[0158]二值化处理模块706,用于在所述外接矩形确定模块701确定文字行中由各笔画构成的连通域之前,提取文字行,对所述文字行进行二值化处理。
[0159]所述二值化处理模块706具体用于,针对所述文字行中的每个待处理像素点,确定该待处理像素点的像素值减预设的全局阈值的差值;当所述差值的绝对值大于预设的第一阈值、且所述差值小于O时,将该待处理像素点的像素值设置为预设的前景像素值;当所述差值的绝对值大于预设的第一阈值、且所述差值大于O时,将该待处理像素点的像素值设置为预设的背景像素值;当所述差值的绝对值不大于预设的第一阈值时,确定该待处理像素点周围指定范围内所有像素点的像素值,在确定的所述所有像素点的像素值中确定最大像素值和最小像素值,并确定所述最大像素值和所述最小像素值的平均值,当该待处理像素点的像素值减所述平均值的差值小于O时,将该待处理像素点的像素值设置为预设的前景像素值,当该待处理像素点的像素值减所述平均值的差值大于O时,将该待处理像素点的像素值设置为预设的背景像素值。
[0160]所述切分模块702具体用于,确定该外接矩形中经过二值化处理后的每列像素点的垂直投影,并确定所述每列像素点的垂直投影中的最小垂直投影;确定所述最小垂直投影所在的一列像素点到该外接矩形的左边界或右边界的距离;确定所述距离与所述外接矩形的宽度的比值;当所述最小垂直投影小于预设的第二阈值、且所述比值落入预设的比值范围内时,以所述最小垂直投影所在的一列像素点为切分线,切分该外接矩形。
[0161]所述合并模块703具体用于,针对相邻的两个待合并区块,确定左侧待合并区块的右边界的横坐标为第一横坐标,确定右侧待合并区块的左边界的横坐标为第二横坐标;当所述第一横坐标大于第二横坐标、且第一横坐标减第二横坐标的差值大于预设的第三阈值、且将所述两个待合并区块合并后得到的区块的宽高比落入预设的文字区块的宽高比范围内时,确定所述两个待合并区块满足指定条件,对所述两个待合并区块进行合并。
[0162]所述装置还包括:
[0163]统计模块707,用于在所述置信度确定模块704针对位于所述起点区块之后的每个待识别区块,确定从所述起点区块开始,到该待识别区块为止的所有区块之前,确定得到的每两个相邻的待识别区块之间的间隙,根据每两个相邻的待识别区块之间的间隙,确定实际间隙估计值,根据得到的每个待识别区块的高度,确定实际高度估计值,根据所述实际间隙估计值和实际高度估计值,确定所述起点区块对应的最大合并位置,所述最大合并位置位于所述起点区块之后;其中,从所述起点区块到所述最大合并位置之间的每两个相邻的区块之间的间隙与所述实际间隙估计值的差值的绝对值不大于预设的第四阈值,并且,针对位于所述起点区块到所述最大合并位置之间的每个待识别区块,将从所述起点区块开始到该待识别区块为止的所有区块合并后得到的区块的宽高比落入所述宽高比范围内;
[0164]所述置信度确定模块704具体用于,针对位于所述起点区块到所述最大合并位置之间的每个待识别区块,确定从所述起点区块开始,到该待识别区块为止的所有区块。
[0165]本申请实施例提供一种文字识别方法及装置,该方法确定文字行中由各笔画构成的连通域的外接矩形,根据各外接矩形中像素点的像素值,对各外接矩形进行切分得到待合并区块,再根据各待合并区块的重叠区域和预设的宽高比范围,对各待合并区块进行合并,得到待识别区块,从中选择起点区块,针对位于起点区块后的每个待识别区块,将从起点区块到该待识别区块的所有区块合并为一个待定文字区块,并识别该待定文字区块中的文字,确定识别的置信度,最后将置信度最高的文字确定为该起点区块所在的实际文字区块中的文字。通过上述方法,可避免将左右、左中右结构的汉字误识别成多个不同汉字的情况,在汉字与其他文字混排的场景中,也可有效提高文字识别的精度。
[0166]在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0167]内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
[0168]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1