本发明涉及计算机视觉,具体为一种自然场景下弯曲文本识别的方法。
背景技术:
1、文本识别是计算机视觉研究领域的分支之一。文本识别的目标是将图像或自然场景中的文本转换为可编辑和可搜索的文本形式。它可以应用于各种领域,如自动化办公、数字化档案管理、图书馆信息管理、车牌识别、票据处理、自动驾驶、智能手机应用等。
2、现有技术中,通过文本识别,可以大大加快信息处理速度。其中自然场景中的文字的检测和识别对我们理解世界很有帮助,它应用在图像搜索、即时翻译、机器人导航、工业自动化等领域。
3、但是,为了识别出自然场景下的文本,我们需将文本从复杂的图片场景中独立出来,剔除场景的干扰。然后针对不同的文本进行调整。尤其是弯曲文本,需要进行弯曲文本的矫正以及拉平,然后再对水平文字进行识别。
技术实现思路
1、本发明的目的在于提供一种自然场景下弯曲文本识别的方法,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:一种自然场景下弯曲文本识别的方法,所述方法包括以下步骤:
3、用开源的ocr-sam网络模型将自然场景下的文本分割出来;
4、判断分割出来的文本是否是弯曲文本;
5、计算弯曲文本的质心和几何中心的坐标,计算两个坐标和垂直直线的夹角,顺时针旋转后,进行极坐标转化;
6、将拉直后的文本用trocr模型直接进行文本识别。
7、优选的,还包括计算分割出来的文字的面积,再计算分割出来的图像的最小旋转矩形的面积,最小旋转矩形是能够完全包围该文字的最小面积矩形,用两者相除的值,如果小于一定的值,说明整个矩形中还有很多空余的面积,判断分割出来的文字是弯曲的文字。
8、优选的,图像的质心的公式为:
9、
10、对于更实际的离散且有限点集的情形下,前面二维的形式转化为如下形式:
11、
12、上述公式2中的被除数就是图像的高斯面积,具体计算的方法是将分割出来的图像转灰度图,再进行二值化处理,图像变成由0和1组成,将图像每个像素点相加就是图像的高斯面积,获取二值图像中非零像素的坐标,并分别计算x和y方向上的坐标和,就是上述公式2中的除数。
13、优选的,几何中心坐标的计算时,先计算分割出来的图像的最小外接圆,然后圆心坐标就是图像的几何中心坐标,将两个坐标相减后求:
14、
15、其中geo代表几何中心,gra代表质心,求出角度后将图像顺时针旋转角度,将图像矫正后就将坐标转化为极坐标,拉直。
16、与现有技术相比,本发明的有益效果是:
17、本发明提出的自然场景下弯曲文本识别的方法,通过分割出自然场景下的文本,再判断其中弯曲的部分,将这部分的文本矫正拉直后再进行识别,实现了自然场景下弯曲文本识别。
1.一种自然场景下弯曲文本识别的方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种自然场景下弯曲文本识别的方法,其特征在于:还包括计算分割出来的文字的面积,再计算分割出来的图像的最小旋转矩形的面积,最小旋转矩形是能够完全包围该文字的最小面积矩形,用两者相除的值,如果小于一定的值,说明整个矩形中还有很多空余的面积,判断分割出来的文字是弯曲的文字。
3.根据权利要求1所述的一种自然场景下弯曲文本识别的方法,其特征在于:图像的质心的公式为:
4.根据权利要求1所述的一种自然场景下弯曲文本识别的方法,其特征在于:几何中心坐标的计算时,先计算分割出来的图像的最小外接圆,然后圆心坐标就是图像的几何中心坐标,将两个坐标相减后求: