一种基于线性结构提取的自然场景文本检测方法

文档序号:8259552阅读:404来源:国知局
一种基于线性结构提取的自然场景文本检测方法
【技术领域】
[0001] 本发明属于模式识别技术领域,涉及一种基于线性结构提取的自然场景文本检测 方法。
【背景技术】
[0002] 随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用,自然场景文本 图像得到广泛的关注。这些图像通常提供了大量有用信息,其中,文本信息显得尤为重要。 这是因为文本信息易于识别和理解,并能广泛应用于相关系统和设备,如盲人视觉辅助系 统、旅行翻译系统、信息检索系统、机器人视觉导航等。因此,从自然场景图像中提取文本是 计算机视觉领域中的重要课题。为了识别自然场景图像中的文本,专家设计了许多OCR字 符识别系统,这些系统对文档中的文本通常有较好的检测效果,对于场景图像中的文本检 测效果较差。这是因为场景图像文本的通常变化多样,并且图像背景也相对复杂,很难直接 通过OCR软件识别。ICDAR2003数据库是第一个文本检测的公共数据库,它将文本检测和识 别问题划分为几个子任务:1)文本定位;2)字符识别;3)单词识别;4)文本阅读。从中可 以看出,文本定位是理解场景图像文本的首要步骤。
[0003] 目前的场景文本检测方法可以分为两类:基于滑动窗口和基于连通域的方法。基 于滑动窗口的检测方法又可称为基于区域的检测方法。该方法首先获得原始图像不同尺寸 的变换图,然后用滑动窗口扫描这些变换图像。对通过滑动窗口得到的子区域,提取其纹理 特征,例如:小波变换、梯度方向直方图等。将这些特征输入训练好的分类器,对候选文本区 域分类,得到最终检测结果。该方法主要利用纹理信息检测文本,由于场景图像文本的多样 性和图像背景的复杂性,该方法仅仅利用纹理特征检测文本,效果不佳。除此之外,该方法 通过对原始图像变换得到的多尺寸图像进行操作,得到文本区域,使得该方法检测速度较 慢。基于连通域的文本检测方法,主要是将图像中的文本字符视为连通区域,通过提取这些 连通区域定位文本。该方法通常包含三个主要步骤:提取连通区域,构建文本字符串,验证 字符串。其中,提取连通区域主要利用同一字符串中的文本字符,在颜色、笔画宽度等方面 具有相似性,通过提取特征相似的像素点,组成连通区域。字符串通常包含多个文本字符, 因此,可以通过提取连通区域的几何和空间位置特征,组成文本字符串。得到的文本字符串 中通常包含一些错误检测的非文本字符,因此,通过文本验证提高文本检测的正确率。基于 连通区域的方法,计算时间短,检测效果较好。
[0004] 由于场景文本的多样性和背景的复杂性,从自然场景图像中提取文本是具有挑战 性的课题。针对目前检测结果较好的基于连通区域的方法,如何从复杂背景图像中提取不 同颜色、大小、样式的字符连通区域是影响检测结果的关键步骤。

【发明内容】

[0005] 本发明提供了一种基于线性结构提取的自然场景文本检测方法,为了克服上述现 有技术中存在的问题,本方法将场景图像中的文本看作是不同形状的线性结构的组合,通 过提取这些线性结构,定位场景文本区域。
[0006] -种基于线性结构提取的自然场景文本检测方法,该方法包括以下步骤:
[0007] 步骤1 :获取待进行文本检测的原始图像的R、G、B色彩通道图像;
[0008] 步骤2 :分别计算步骤1中获得的R、G、B色彩通道图像中每个像素点的Hessian 矩阵,并计算对应Hessian矩阵的两个特征值A JP X 2,其中,| X2|彡| ;
[0009] 步骤3 :基于每个像素点的Hessian矩阵,提取色彩通道图像中的线性结构;
[0010] 利用高斯核函数按照以下公式依次对R、G、B色彩通道图像中每个像素点的 Hessian矩阵进行卷积滤波操作,获得每个色彩通道图像中每个像素点的较亮滤波结果 和较暗滤波结果,从而得到每个色彩通道图像的较亮滤波图像和较暗滤波图像 ,并从中提取出文本字符所在区域对应的线性结构;
【主权项】
1. 一种基于线性结构提取的自然场景文本检测方法,其特征在于,该方法包括以下步 骤: 步骤1 :获取待进行文本检测的原始图像的R、G、B色彩通道图像; 步骤2 :分别计算步骤1中获得的R、G、B色彩通道图像中每个像素点的Hessian矩阵, 并计算对应Hessian矩阵的两个特征值^和X2,其中,|入2|彡| ; 步骤3 :基于每个像素点的Hessian矩阵,提取色彩通道图像中的线性结构; 利用高斯核函数按照以下公式依次对R、G、B色彩通道图像中每个像素点的Hessian矩 阵进行卷积滤波操作,获得每个色彩通道图像中每个像素点的较亮滤波结果和较暗滤波结 果,从而得到每个色彩通道图像的较亮滤波图像和较暗滤波图像ffx勿,并从中提 取出文本字符所在区域对应的线性结构;
其中,S表示高斯核函数中的尺度,SG[1,4];对于每个像素点的Hessian矩阵变 换,RB表示特征值比率,RB=入/入2,S表示特征值模长,51 =(术+A::)。5; c表示每个色 彩通道中所有像素点中模长的最大值的二分之一,c=max(S)/2, 0是常量,0e[0,1]; 步骤4 :对线性结构进行定位; 对每个色彩通道图像的较亮滤波图像和较暗滤波图像,按照设定的二值 化阈值进行二值化操作,将灰度大于二值化阈值的像素点置为1,灰度小于二值化阈值的像 素点置为〇,提取文本像素点的位置,对线性结构进行定位,获得每个色彩通道图像对应的 两幅线性结构定位图; 步骤5 :将三个色彩通道图像对应的两幅线性结构定位图分别对应合并,得到两幅线 性结构定位合并图; 步骤6 :提取线性结构定位合并图中的连通域,将连通域合并,获得文本字符串; 从两幅线性结构定位合并图中分别提取连通区域,计算每个连通区域的几何和空间位 置特征,利用相邻连通区域的高度、笔画宽度、垂直重复率和水平距离在设定范围内的连通 区域进行合并,获得文本字符串及其所在图像中的位置; 所述连通区域的几何特征包括连通区域的高度、笔画宽度,空间位置特征包括连通域 之间的垂直重复率、水平距离。
2. 根据权利要求1所述的一种基于线性结构提取的自然场景文本检测方法,其特征在 于,所述步骤3中高斯核函数的尺度S依次取值为1、2、3及4,从四个尺度中选取响应最大 的滤波结果,从而得到每个色彩通道图像的较亮滤波增强图像和较暗滤波增强图像。
3. 根据权利要求1所述的一种基于线性结构提取的自然场景文本检测方法,其特征在 于,所述步骤6中连通域的合并过程,具体如下: 步骤6. 1 :对待进行字符合并的图像进行连通域搜索,获取每个连通域的最大外接矩 形的高度h,并根据所述最大外接矩形几何中心水平坐标位置,按照从左到右、从上到下的 顺序,依次采用标签标记连通域; 每个连通域的标签即为对应连通域的最大外接矩形几何中心水平坐标,最大外接矩形 几何中心水平坐标以图像的左上角为原点; 步骤6. 2 :利用现有的连通域笔画宽度计算方法,计算步骤6.
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1