一种基于卷积神经网络的工业字符识别方法与流程

文档序号：11143293阅读：来源：国知局

技术特征：

1.一种基于卷积神经网络的工业字符识别方法，其特征在于：所述方法包括：

建立字符数据集，所述字符数据集包括混合场景字符数据集和单一场景字符数据集；

对所述字符数据集进行数据增强及预处理，其中，所述数据增强包括对字符图像进行一系列的变换和加干扰操作来进一步扩大数据集；

建立CNN集成模型的核心思想是训练具有准确性和多样性的个体学习器，其中，个体学习器采用卷积神经网络，所述CNN集成模型共包含三个CNN结构：Net-1、Net-2、Net-3，Net-1包含3个由卷积层和下采样层重复堆叠的特征提取阶段和2个全连接层，采用Softmax层作为特征分类器，采用了多级特征融合的方式，将每一个特征提取层或特定某几个特征提取层的输出进行融合，共同输入全连接层，这样得到的集成特征向量传入分类器作为最终的特征提取结果；Net-2也同样包含3个特征提取阶段，同样采用了多级特征融合，在Net-2中所有的卷积层都采用3×3的卷积核；Net-3的结构与Net-2较为相似，但没有将多级特征共同输入全链接层；

在建立了三个网络结构作为个体学习器后，对CNN集成模型进行训练，训练步骤如下：(1)从原始数据集中随机采样，产生三个随机样本空间，确保这些采样空间与所涉及的原始数据集有微小差异；(2)轮流训练三个网络模型。采用上一步得到的三个样本空间分别训练Net-1，Net-2，Net-3，这样就得到了三个有差异的分类器；(3)一轮训练结束，返回步骤(1)继续执行随机采样操作及训练操作，直到达到预设的迭代次数或三个结构的误差分别收敛到一定值。然后保存权重，得到三个个体分类器；

其中，训练分为两步完成，第一步为离线训练，获取离线训练模型，第二步为在线训练，将离线训练模型用作初始化，进行特定生产线字符数据集的训练，获取在线训练模型；以及

对目标图形进行预处理、字符定位和单个字符图像分割；

将分割好的字符图像送入已训练好的在线训练模型中，得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值；

采用投票的方式进行最终决策，得到测试数据的类别结果。

2.根据权利要求1所述的方法，其特征在于：所述数据预处理具体为：第一步，将全部图像归一化为32X32的灰度图像；第二步，计算得到训练集中所有图像的均值，并对数据集中的所有图像进行按位置减去对应像素位置的均值的处理，计算公式如下：

$<mrow> <msup> <mi>I</mi> <mo>′</mo> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <mrow> <mo>(</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>I</mi> <mo>(</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>$

其中，I为字符灰度图像，n为训练集全部图像数量。

3.根据权利要求1所述的方法，其特征在于：对目标图形进行预处理、字符定位和单个字符图像分割具体为：

(1)实时获取工业零件表面的字符图像，调整好相机镜头光圈、焦距，在零件或工业产品上方安放光源，拍摄图片，实时获取待检测产品表面图像；

(2)对于获取的图像首先采用直方图均衡化进行对比度和灰度色调的调整，使图像更加清晰；然后利用Ostu二值化和形态学处理等操作凸显字符区域，进行字符定位；

(3)将上述二值化后的字符区域按照竖直方向投影分割成单个字符。

4.根据权利要求1所述的方法，其特征在于：从原始数据集中随机采样，产生三个随机样本空间具体为：给定一个包含m个样本的基础数据集D，对其进行采样产生数据集D'：每次随机从D中挑选一个样本，将其拷贝放入D'，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行m次后，就得到了包含m个样本的数据集D'。

5.根据权利要求1所述的方法，其特征在于：将分割好的字符图像送入已训练好的在线训练模型中，得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值具体为：假设训练得到的分类器为T_i(x),i＝1,2,...,n，通过输入字符图像数据x即可得到对应的类别标签；对于个体分类器T_i(x)假设输入x通过由随机样本空间训练得到的分类器，能够获得输入对应的最可能类别的概率值P_i(x)，那么R(x)就是输入x对应的最终类别标签：

完整全部详细技术资料下载

当前第2页1 2 3