一种文字识别方法及装置的制造方法_5

文档序号：9226006阅读：来源：国知局

以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
[0169]还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0170]本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0171]以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。
【主权项】
1.一种文字识别方法，其特征在于，包括: 确定文字行中由各笔画构成的连通域，确定各连通域的外接矩形；针对每个外接矩形，根据该外接矩形中各像素点的像素值对该外接矩形进行切分，得到待合并区块；根据各待合并区块的重叠区域以及预设的文字区块的宽高比范围，对满足指定条件的待合并区块进行合并，得到待识别区块；按照各待识别区块从前到后的顺序，依次选择待识别区块作为起点区块；针对位于所述起点区块之后的每个待识别区块，确定从所述起点区块开始，到该待识别区块为止的所有区块，将确定的所有区块合并为一个待定文字区块，并识别该待定文字区块中的文字，确定识别的置信度；将识别的置信度最高的文字确定为所述起点区块所在的实际文字区块中的文字。2.如权利要求1所述的方法，其特征在于，确定文字行中由各笔画构成的连通域之前，所述方法还包括: 提取文字行；对所述文字行进行二值化处理。3.如权利要求2所述的方法，其特征在于，对所述文字行进行二值化处理，具体包括: 针对所述文字行中的每个待处理像素点，确定该待处理像素点的像素值减预设的全局阈值的差值；当所述差值的绝对值大于预设的第一阈值、且所述差值小于O时，将该待处理像素点的像素值设置为预设的前景像素值；当所述差值的绝对值大于预设的第一阈值、且所述差值大于O时，将该待处理像素点的像素值设置为预设的背景像素值；当所述差值的绝对值不大于预设的第一阈值时，确定该待处理像素点周围指定范围内所有像素点的像素值，在确定的所述所有像素点的像素值中确定最大像素值和最小像素值，并确定所述最大像素值和所述最小像素值的平均值，当该待处理像素点的像素值减所述平均值的差值小于O时，将该待处理像素点的像素值设置为预设的前景像素值，当该待处理像素点的像素值减所述平均值的差值大于O时，将该待处理像素点的像素值设置为预设的背景像素值。4.如权利要求2所述的方法，其特征在于，根据该外接矩形中各像素点的像素值对该外接矩形进行切分，具体包括: 确定该外接矩形中经过二值化处理后的每列像素点的垂直投影，并确定所述每列像素点的垂直投影中的最小垂直投影；确定所述最小垂直投影所在的一列像素点到该外接矩形的左边界或右边界的距离；确定所述距离与所述外接矩形的宽度的比值；当所述最小垂直投影小于预设的第二阈值、且所述比值落入预设的比值范围内时，以所述最小垂直投影所在的一列像素点为切分线，切分该外接矩形。5.如权利要求1所述的方法，其特征在于，根据各待合并区块的重叠区域以及预设的文字区块的宽高比范围，对满足指定条件的待合并区块进行合并，具体包括: 针对相邻的两个待合并区块，确定左侧待合并区块的右边界的横坐标为第一横坐标，确定右侧待合并区块的左边界的横坐标为第二横坐标；当所述第一横坐标大于第二横坐标、且第一横坐标减第二横坐标的差值大于预设的第三阈值、且将所述两个待合并区块合并后得到的区块的宽高比落入预设的文字区块的宽高比范围内时，确定所述两个待合并区块满足指定条件，对所述两个待合并区块进行合并。6.如权利要求1所述的方法，其特征在于，针对位于所述起点区块之后的每个待识别区块，确定从所述起点区块开始，到该待识别区块为止的所有区块之前，所述方法还包括: 确定得到的每两个相邻的待识别区块之间的间隙；根据每两个相邻的待识别区块之间的间隙，确定实际间隙估计值；根据得到的每个待识别区块的高度，确定实际高度估计值；根据所述实际间隙估计值和实际高度估计值，确定所述起点区块对应的最大合并位置，所述最大合并位置位于所述起点区块之后；其中，从所述起点区块到所述最大合并位置之间的每两个相邻的区块之间的间隙与所述实际间隙估计值的差值的绝对值不大于预设的第四阈值，并且，针对位于所述起点区块到所述最大合并位置之间的每个待识别区块，将从所述起点区块开始到该待识别区块为止的所有区块合并后得到的区块的宽高比落入所述宽高比范围内；针对位于所述起点区块之后的每个待识别区块，确定从所述起点区块开始，到该待识别区块为止的所有区块，具体包括: 针对位于所述起点区块到所述最大合并位置之间的每个待识别区块，确定从所述起点区块开始，到该待识别区块为止的所有区块。7.一种文字识别装置，其特征在于，包括: 外接矩形确定模块，确定文字行中由各笔画构成的连通域，确定各连通域的外接矩形；切分模块，针对每个外接矩形，根据该外接矩形中各像素点的像素值对该外接矩形进行切分，得到待合并区块；合并模块，根据各待合并区块的重叠区域以及预设的文字区块的宽高比范围，对满足指定条件的待合并区块进行合并，得到待识别区块；置信度确定模块，按照各待识别区块从前到后的顺序，依次选择待识别区块作为起点区块；针对位于所述起点区块之后的每个待识别区块，确定从所述起点区块开始，到该待识别区块为止的所有区块，将确定的所有区块合并为一个待定文字区块，并识别该待定文字区块中的文字，确定识别的置信度；识别确定模块，将识别的置信度最高的文字确定为所述起点区块所在的实际文字区块中的文字。8.如权利要求7所述的装置，其特征在于，所述装置还包括: 二值化处理模块，用于在所述外接矩形确定模块确定文字行中由各笔画构成的连通域之前，提取文字行，对所述文字行进行二值化处理。9.如权利要求8所述的装置，其特征在于，所述二值化处理模块具体用于，针对所述文字行中的每个待处理像素点，确定该待处理像素点的像素值减预设的全局阈值的差值；当所述差值的绝对值大于预设的第一阈值、且所述差值小于O时，将该待处理像素点的像素值设置为预设的前景像素值；当所述差值的绝对值大于预设的第一阈值、且所述差值大于O时，将该待处理像素点的像素值设置为预设的背景像素值；当所述差值的绝对值不大于预设的第一阈值时，确定该待处理像素点周围指定范围内所有像素点的像素值，在确定的所述所有像素点的像素值中确定最大像素值和最小像素值，并确定所述最大像素值和所述最小像素值的平均值，当该待处理像素点的像素值减所述平均值的差值小于O时，将该待处理像素点的像素值设置为预设的前景像素值，当该待处理像素点的像素值减所述平均值的差值大于O时，将该待处理像素点的像素值设置为预设的背景像素值。10.如权利要求8所述的装置，其特征在于，所述切分模块具体用于，确定该外接矩形中经过二值化处理后的每列像素点的垂直投影，并确定所述每列像素点的垂直投影中的最小垂直投影；确定所述最小垂直投影所在的一列像素点到该外接矩形的左边界或右边界的距离；确定所述距离与所述外接矩形的宽度的比值；当所述最小垂直投影小于预设的第二阈值、且所述比值落入预设的比值范围内时，以所述最小垂直投影所在的一列像素点为切分线，切分该外接矩形。11.如权利要求7所述的装置，其特征在于，所述合并模块具体用于，针对相邻的两个待合并区块，确定左侧待合并区块的右边界的横坐标为第一横坐标，确定右侧待合并区块的左边界的横坐标为第二横坐标；当所述第一横坐标大于第二横坐标、且第一横坐标减第二横坐标的差值大于预设的第三阈值、且将所述两个待合并区块合并后得到的区块的宽高比落入预设的文字区块的宽高比范围内时，确定所述两个待合并区块满足指定条件，对所述两个待合并区块进行合并。12.如权利要求7所述的装置，其特征在于，所述装置还包括: 统计模块，用于在所述置信度确定模块针对位于所述起点区块之后的每个待识别区块，确定从所述起点区块开始，到该待识别区块为止的所有区块之前，确定得到的每两个相邻的待识别区块之间的间隙，根据每两个相邻的待识别区块之间的间隙，确定实际间隙估计值，根据得到的每个待识别区块的高度，确定实际高度估计值，根据所述实际间隙估计值和实际高度估计值，确定所述起点区块对应的最大合并位置，所述最大合并位置位于所述起点区块之后；其中，从所述起点区块到所述最大合并位置之间的每两个相邻的区块之间的间隙与所述实际间隙估计值的差值的绝对值不大于预设的第四阈值，并且，针对位于所述起点区块到所述最大合并位置之间的每个待识别区块，将从所述起点区块开始到该待识别区块为止的所有区块合并后得到的区块的宽高比落入所述宽高比范围内；所述置信度确定模块具体用于，针对位于所述起点区块到所述最大合并位置之间的每个待识别区块，确定从所述起点区块开始，到该待识别区块为止的所有区块。
【专利摘要】本申请公开了一种文字识别方法及装置，用以解决现有技术中文字识别的精度较低的问题。确定文字行中由各笔画构成的连通域的外接矩形，对各外接矩形进行切分得到待合并区块，再根据各待合并区块的重叠区域和预设的宽高比范围，对各待合并区块进行合并得到待识别区块，从中选择起点区块，针对位于起点区块后的每个待识别区块，将从起点区块到该待识别区块的所有区块合并为一个待定文字区块，并识别该待定文字区块中的文字，确定识别的置信度，将置信度最高的文字确定为该起点区块所在的实际文字区块中的文字。通过上述方法，可避免将左右、左中右结构的汉字误识别成多个不同汉字的情况，在汉字与其他文字混排的场景中，也可有效提高文字识别的精度。
【IPC分类】G06K9/20, G06K9/00
【公开号】CN104951741
【申请号】CN201410127438
【发明人】张宇, 杜志军
【申请人】阿里巴巴集团控股有限公司
【公开日】2015年9月30日
【申请日】2014年3月31日

完整全部详细技术资料下载

当前第5页1 2 3 4 5