在图像中识别字符的方法

文档序号：6383312阅读：384来源：国知局

专利名称：在图像中识别字符的方法
技术领域：
本发明基本上涉及图像处理领域，更具体地来说，涉及一种在图像中识别字符的方法。
背景技术：
在如今的计算机应用中，经常需要将视频或者静态图片中的字符信息提取出来，这就在技术实现上提出了更高的要求。现有技术提供了一种视频字幕提取的方法，包括以下步骤(I)对视频字幕区域进行基于连通区统计的字幕颜色判断，确认字幕颜色是深色还是浅色，同时反转浅色字幕的灰度图片为深色字幕图片；(2)对步骤(I)获得的灰度图片进行基于局部窗口分析的灰度图片二值化；(3)进行OCR软件识别，提取字幕文本结果。上述现有技术使用了字幕文字颜色判断和局部阈值的方法，能取得较好的二值化效果，然而，该技术无法应对在现实中通常会遇到的字符粘连等问题。

发明内容
针对现有技术无法应对字符粘连问题的缺陷，本发明提供了一种在图像中识别字符的方法。通过本发明所描述的技术方案，解决了如何应对在识别字符的过程中的字符粘连的技术问题。本发明提供了一种在图像中识别字符的方法，其特征在于，包括步骤SI :对由所述图像得到的二值化图像进行纵向投影；步骤S2 :根据所述纵向投影的投影值和第一预设阈值对所述图像进行初次切分，得到字符宽度；以及步骤S3 :根据所述字符宽度对所述图像进行再次切分。优选地，所述方法还包括步骤S4 :根据所述再次切分的切点处的投影值和第二预设阈值，判断出所述切点处的区域是否是字符区域。优选地，所述步骤S4进一步包括如果所述再次切分的切点处的投影值的总和高于所述第二预设阈值，则判断出所述切点处的区域不是字符区域。优选地，所述步骤S4进一步包括如果所述再次切分的切点处的投影值的总和低于所述第二预设阈值，则判断出所述切点处的区域为字符区域。优选地，所述步骤SI进一步包括步骤Sll :将所述图像转换为灰度图像；步骤S12 :对所述灰度图像进行二值化处理，得到二值化图像；以及步骤S13 :对所述二值化图像进行纵向投影。优选地，所述步骤S2进一步包括将投影值小于或者等于所述第一预设阈值的位置作为字符之间的间隔位置，将投影值大于所述第一预设阈值的位置作为字符位置，将出现频率最高的所述字符位置的宽度作为所述字符宽度。优选地，所述步骤S2进一步包括将投影值小于或者等于所述第一预设阈值的位置作为字符之间的间隔位置，将投影值大于所述第一预设阈值的位置作为字符位置，将宽度最短的所述字符位置的宽度作为所述字符宽度。优选地，所述步骤S3进一步包括以所述字符宽度作为相邻切点之间的距离对所述图像中的所述字符位置进行再次切分。优选地，所述第一预定阈值为O值。通过本发明所描述的在图像中识别字符的方法，能够更好更准确地在图像中识别出字符，识别质量更高，并且识别过程易于实现，节省系统资源。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中图I是根据本发明的在图像中识别字符方法的第一实施例的流程图；图2是根据本发明的在图像中识别字符方法的实例的示意图；图3是根据本发明的在图像中识别字符方法的第二实施例的流程图。
具体实施例方式以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。图I是根据本发明的在图像中识别字符方法的第一实施例的流程图。在图I中步骤SlOO :对由图像得到的二值化图像进行纵向投影。其中，该步骤SlOO可以包括以下步骤首先，将所述图像转换为灰度图像；然后，对所述灰度图像进行二值化处理，得到二值化图像；最后，对所得到的二值化图像进行纵向投影。步骤S102 :根据纵向投影的投影值和第一预设阈值对图像进行初次切分，得到字符宽度。其中，该步骤S102可以通过两种具体方式来实现。第一种方式和第二种方式都要先通过将在步骤SlOO中得到的投影值与第一预设阈值相比较来获得间隔位置和字符位置。具体来说，可以将投影值小于或者等于第一预设阈值的位置作为字符之间的间隔位置，将投影值大于第一预设阈值的位置作为字符位置。由于字符粘连等原因，使得所得到的多个不同的间隔位置的宽度和多个不同的字符位置的宽度，因此，需要在这些间隔宽度和字符宽度之间寻找到正常情况(例如，无粘连等等)下的标准字符的宽度。其中，本发明使用了两种具体方式来获得字符宽度。在第一种方式中，鉴于字符粘连等情况往往是较小概率事件，因此，将出现频率最高的字符位置的宽度作为(标准的)字符宽度。在第二种方式中，鉴于字符粘连时的字符位置的宽度比正常情况下的字符宽度要大(字符粘连时的字符位置是多个字符组成的)，因此，将宽度最短的字符宽度的宽度作为字符宽度。在一个优选实施例中，该第一预定阈值为O值，这只是一个实例，还可以选取其他值作为预定阈值来进行初次切分。通过步骤S102可以获得字符宽度，即在没有粘连情况下的一个字符的宽度。在获得了字符宽度之后，利用该字符宽度进行步骤S104，即根据字符宽度对图像进行再次切分。在一个实施例中，以字符宽度作为相邻切点之间的距离对图像中的字符位置进行再次切分。这样，使得曾经粘连在一起的字符可以被切分开，从而使得图像中的字符被更好地识别。上述步骤可以通过一个实例进行示出，图2是根据本发明的在图像中识别字符方法的该实例的示意图。在图2中，距离D2即字符宽度，也就是一个标准字符的宽度，距离Dl和D3均是粘连字符的总宽度。通过初次切分可以获得D2的宽度，然后利用宽度D2对Dl和D3处的粘连字符进行再次切分，从而可以将粘连字符切分开，进而识别出各个字符。通过本实施例中所描绘的在图像中识别字符方法，通过本发明所描述的在图像中识别字符的方法，能够通过两次切分将图像中相粘连字符切分开，从而更好更准确地在图像中识别出字符，识别质量更高，并且识别过程易于实现，节省系统资源。以下将示出另一个实施例，在该实施例中，利用两次切分的另一种结果，还可以判断出所切分的部分是否是字符区域。图3是根据本发明的在图像中识别字符方法的第二实施例的流程图。在图3中，步骤S300与步骤SlOO相同，步骤S302与步骤S102相同，步骤S304与步骤S104相同，在此不再赘述。相比于第一实施例，本实施例增加了步骤S306。其中，在步骤S306中，根据再次切分的切点处的投影值和第二预设阈值，判断出再次切分的切点处的区域是否是字符区域。在字符识别的过程中，有时候一串字符之间可能还夹杂着一些非字符区域。这时候，就要根据再次切分的结果对于该区域是否是字符区域进行判断。在本实施例中，判断的主要方式是通过再次切分的切点处的投影值总和与预定阈值相比较，由于一般字符粘连的粘连部分都很小，因此，如果根据标准字符宽度进行再次切分所得到的切点处的投影值加起来的总和过大，就说明该部分并非是由多个标准字符组成的，也就是说该部分并非字符区域。具体的判断方式为如果再次切分的切点处的投影值的总和高于第二预设阈值，则判断出所述切点处的区域不是字符区域；如果再次切分的切点处的投影值的总和低于第二预设阈值，则判断出所述切点处的区域为字符区域。通过本实施例的判断方式，可以将非字符区域与粘连字符相区分，从而更好地在图像中识别字符，识别质量更高，并且识别过程易于实现，节省系统资源。以上所描述的内容仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种在图像中识别字符的方法，其特征在于，包括步骤SI :对由所述图像得到的二值化图像进行纵向投影；步骤S2 :根据所述纵向投影的投影值和第一预设阈值对所述图像进行初次切分，得到字符宽度；以及步骤S3 :根据所述字符宽度对所述图像进行再次切分。
2.根据权利要求I中所述的在图像中识别字符的方法，其特征在于，所述方法还包括:步骤S4 :根据所述再次切分的切点处的投影值和第二预设阈值，判断出所述切点处的区域是否是字符区域。
3.根据权利要求2中所述的在图像中识别字符的方法，其特征在于，所述步骤S4进一步包括如果所述再次切分的切点处的投影值的总和高于所述第二预设阈值，则判断出所述切点处的区域不是字符区域。
4.根据权利要求2中所述的在图像中识别字符的方法，其特征在于，所述步骤S4进一步包括如果所述再次切分的切点处的投影值的总和低于所述第二预设阈值，则判断出所述切点处的区域为字符区域。
5.根据权利要求I中所述的在图像中识别字符的方法，其特征在于，所述步骤SI进一步包括步骤Sll :将所述图像转换为灰度图像；步骤S12 :对所述灰度图像进行二值化处理，得到二值化图像；以及步骤S13 :对所述二值化图像进行纵向投影。
6.根据权利要求I中所述的在图像中识别字符的方法，其特征在于，所述步骤S2进一步包括将投影值小于或者等于所述第一预设阈值的位置作为字符之间的间隔位置，将投影值大于所述第一预设阈值的位置作为字符位置，将出现频率最高的所述字符位置的宽度作为所述字符宽度。
7.根据权利要求I中所述的在图像中识别字符的方法，其特征在于，所述步骤S2进一步包括将投影值小于或者等于所述第一预设阈值的位置作为字符之间的间隔位置，将投影值大于所述第一预设阈值的位置作为字符位置，将宽度最短的所述字符位置的宽度作为所述字符宽度。
8.根据权利要求I中所述的在图像中识别字符的方法，其特征在于，所述步骤S3进一步包括以所述字符宽度作为相邻切点之间的距离对所述图像中的所述字符位置进行再次切分。
9.根据权利要求I中所述的在图像中识别字符的方法，其特征在于，所述第一预定阈值为O值。
全文摘要
本发明提供了一种在图像中识别字符的方法，其特征在于，包括步骤S1对由图像得到的二值化图像进行纵向投影；步骤S2根据纵向投影的投影值和第一预设阈值对图像进行初次切分，得到字符宽度；以及步骤S3根据字符宽度对图像进行再次切分。通过本发明所描述的在图像中识别字符的方法，能够更好更准确地在图像中识别出字符，识别质量更高，并且识别过程易于实现，节省系统资源。
文档编号G06K9/54GK102982331SQ20121051815
公开日2013年3月20日申请日期2012年12月5日优先权日2012年12月5日
发明者刘立申请人:曙光信息产业(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘立
技术所有人：曙光信息产业（北京）有限公司
我是此专利的发明人

上一篇：在图像中识别字符区域的方法
上一篇：图像平移更新显示方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。