场景文本检测系统和方法与流程

文档序号：12513083阅读：来源：国知局

技术特征：

1.一种场景文本检测系统，其包括：

最大稳定极值区域(MSER)检测器，其被配置成从图像中生成文本成分集合，其中生成的文本成分排序成MSER树形结构；

卷积神经网络(CNN)分类器，其被配置成将成分置信分数分配到所述文本成分集合中的每个文本成分；

选择器，其被配置成从所述文本成分集合中选择具有分配的成分置信分数中的较高成分置信分数的文本成分；以及

构造器，其被配置成使用选择的文本成分来构造最终文本。

2.根据权利要求1所述的场景文本检测系统，其中所述CNN分类器使用预定训练集进行训练，以分配所述置信分数。

3.根据权利要求1所述的场景文本检测系统，其中所述CNN分类器包括至少一个卷积层、至少一个平均池化层、和支持向量机(SVM)分类器，以及

其中，所述每个卷积层之后是平均池化层和多个滤波器。

4.根据权利要求3所述的场景文本检测系统，其中所述至少一个卷积层包括两个卷积层。

5.根据权利要求4所述的场景文本检测系统，其中所述两个卷积层的第一卷积层的滤波器被配置成通过使用非监督K均值来根据从所述预定训练集中提取的图像块集合进行学习以生成响应，并且所述两个卷积层的第二卷积层的滤波器被配置成通过反向传播从所述SVM分类器中生成的SVM分类误差来基于生成的所述响应进行学习以获取所述文本成分的所述成分置信分数。

6.根据权利要求1所述的场景文本检测系统，其中所述选择器还包括：

标定装置，其被配置成基于所述分配的成分置信分数和所述MSER树形结构，从所述选择的文本成分中标定出错误连接的文本成分；以及

分割装置，其被配置成将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分。

7.根据权利要求6所述的场景文本检测系统，其中所述分割装置还包括：

调整尺寸单元，其被配置成将所标定出的错误连接的文本成分调整到预定尺寸；

扫描仪，其被配置成扫描调整尺寸后的文本成分，以通过滑动窗口来获取成分置信分数的一维阵列；以及

识别单元，其被配置成基于所述一维阵列来识别所述错误连接的文本成分的峰位置，以将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分。

8.根据权利要求6所述的场景文本检测系统，其中用于标定错误连接的文本成分的条件包括：

所述文本成分的宽度/高度的纵横比大于2；

所述文本成分具有正置信分数；以及

所述文本成分在所述MSER树形结构的端节点，或者具有比所述MSER树形结构中的所有子辈节点大的置信分数。

9.根据权利要求1所述的场景文本检测系统，其中所述构造器还包括：

配对单元，其被配置成将所述选择的文本成分中的具有类似几何和启发性质的两个文本成分配对；以及

合并单元，其被配置成按顺序将具有相同成分和类似方向的配对合并，以构造所述最终文本。

10.一种场景文本检测方法，其包括：

从图像中生成文本成分集合，其中生成的文本成分排序成树形结构；

将成分置信分数分配到所述文本成分集合中的每个文本成分；

从所述文本成分集合中选择具有分配的成分置信分数中的较高成分置信分数的文本成分；以及使用选取的文本成分来构造最终文本。

11.根据权利要求10所述的场景文本检测方法，其中从图像中生成文本成分集合包括：

通过使用最大稳定极值区域(MSER)检测器从所述图像中生成所述文本成分集合。

12.根据权利要求10所述的场景文本检测方法，其中将成分置信分数分配到每个文本成分还包括：

由经过训练的卷积神经网络(CNN)分类器将成分置信分数分配到所述文本成分集合中的每个文本成分。

13.根据权利要求12所述的场景文本检测方法，其还包括：

使用预定训练集来训练所述卷积神经网络分类器，以分配所述成分置信分数。

14.根据权利要求12所述的场景文本检测方法，其中所述卷积神经网络分类器包括至少一个卷积层、至少一个平均池化层、和支持向量机(SVM)分类器，并且其中所述每个卷积层之后是平均池化层并且具有多个滤波器。

15.根据权利要求14所述的场景文本检测方法，其中所述至少一个卷积层包括两个卷积层，并且使用预定训练集来训练所述卷积神经网络分类器以分配所述成分置信分数还包括：

从所述预定训练集中提取图像块集合；

由所述两个卷积层的第一卷积层的滤波器通过使用非监督K均值来根据所述图像块集合进行学习以生成响应；以及

由所述两个卷积层的第二卷积层的滤波器通过反向传播从所述SVM分类器中生成的SVM分类误差来根据生成的所述响应来进行学习以获取所述文本成分的所述成分置信分数。

16.根据权利要求10所述的场景文本检测方法，其中从所述文本成分集合中选择具有所述分配的成分置信分数中的较高成分置信分数的文本成分以构造最终文本还包括：

基于所述分配的成分置信分数和所述MSER树形结构来标定出所述选择的文本成分中的错误连接的文本成分；以及

将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分。

17.根据权利要求16所述的场景文本检测方法，其中将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分还包括：

将标定的错误连接的文本成分调整到预定尺寸；和

扫描调整尺寸后的文本成分，以通过滑动窗口来获取成分置信分数的一维阵列；以及

基于所述一维阵列来识别所述错误连接的文本成分的峰位置，以便基于所述峰位置将所述错误连接的文本成分分割成具有较高置信分数的文本成分。

18.根据权利要求16所述的场景文本检测方法，其中用于标定出错误连接的文本成分的条件包括：

所述文本成分的宽度/高度的纵横比大于2；

所述文本成分具有正置信分数；以及

所述文本成分在所述MSER树形结构的端节点，或者具有比所述MSER树形结构中的所有子辈节点大的置信分数。

19.根据权利要求10所述的场景文本检测方法，其中使用所述选择的文本成分来构造最终文本还包括：

将所述选择的文本成分的具有类似几何和启发性质的两个文本成分配对；以及

按顺序将具有相同成分和类似方向的文本配对合并，以构造所述最终文本。

完整全部详细技术资料下载

当前第2页1 2 3