基于深度哈希网络的铸件缺陷图像检测方法与流程

文档序号:16253524发布日期:2018-12-12 00:14阅读:275来源:国知局
基于深度哈希网络的铸件缺陷图像检测方法与流程

本发明属于材料铸件缺陷图像检测领域,具体涉及一种基于深度哈希网络的无损检测方法。

背景技术

在现代工业领域中,无损检测技术发展迅速。无损检测方法有很多,根据美国国家宇航局调研分析,可以分为6大类约70余种。目前,材料缺陷检测技术在航空航天,建筑,交通,制造等行业有着广泛的应用,不仅保持了这些行业的正常运行,而且提供了产品质量和安全保证。因此,一系列的材料无损检测设备与技术被应用到实际的生产生活当中,例如超声波检测、红外检测、电子涡流检测、磁粉检测、渗透检测等。但是,这些现有技术存在诸如检测准确性不高、自动化程度较差、对人为因素有严重依赖以及需要复杂的技术操作等问题。近年来,机器学习一直是人工智能领域炙手可热的研究对象,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。受到机器学习的启发,我们的目标是使用机器来高效快速地识别材料铸件是否存在缺陷,而真实材料能够被转变成包含所有材料表征的图像。因此,这项工作变为一个图像分类问题。最近的研究表明,深度卷积神经网络(cnn)能够显著提高图像分类,目标检测以及许多其他视觉任务的性能,展现了深度cnn网络对于丰富图像表现的学习能力。在这些任务中,深度cnn能够被看作是一个专门针对某个任务设计的目标函数的特征提取器。由于深度cnn捕捉图像潜在特征的能力非常强,krizhevsky在图像分类中使用了来自网络第7层的特征向量,并在imagenet数据集上表现出了出色的性能。然而,由于来自cnn的特征向量是高维的,并且直接在欧几里得空间中比较两个4096维的特征向量是效率比较低的,高维数据所需的大量计算给机器运行速度和存储空间带来了巨大挑战。目前,由于二进制哈希码能够在保证精确度的基础上很好地解决计算速度和存储效率,二进制哈希理论引起了研究人员的广泛关注。这种方法旨在将高维图像表示映射到汉明空间中的简洁二进制码,同时保持一些相似性(例如基于标签的语义相似性)。现有的哈希理论可以分为有监督哈希和无监督哈希,它们的区别在于是否使用了监督信息,比如每个数据的标签信息。大多数哈希方法遵循的标准程序是首先提取诸如广义搜索树(gist)和尺度不变特征变换(sift)之类的特征作为图像表示向量,然后分离投影和量化步骤来将这些特征向量转换成为二进制编码,但是这些程序的学习能力不足以适应复杂的图像特征,因为手工特征会导致固有的图像信息丢失。理想情况下,在哈希码学习过程中,一张图像要被期望能够有效地保存图像特征信息。考虑到深度cnn的自主学习能力和哈希理论的优越性,我们将二者结合构造深度哈希网络应用在材料缺陷无损检测当中。



技术实现要素:

本发明的目的是提供一种基于深度哈希网络的铸件图像检测方法,能够提高材料无损检测精度以及机器运行速度,达到实现自动化与智能化的目的。

本发明是这样实现的,包括下列步骤:

a、在imagenet上预训练一个卷积神经网络;

b、输入图像,并对输入图像进行预处理;

c、图像(已预处理)开始进入深度哈希网络的第一个卷积层,并将第一个卷积层的输出结果进行max-pooling运算;

d、上一层的输出结果进入第二个卷积层,并将第二个卷积层的输出结果进行max-pooling运算;

e、上一层的输出结果进入第三个卷积层,进行卷积运算,将第三层的输出结果输入第四个卷积层,再进行卷积运算;

f、上一层的输出结果进入第五个卷积层,并将第五个卷积层的输出结果进行max-pooling运算;

g、上一层的输出结果进入深度哈希网络的两个全连接层;

h、上一层的输出结果进入深度哈希网络的哈希层;

i、上一层的输出结果进入深度哈希网络的最后一层(softmax),得到图像属于两个类别(有缺陷与无缺陷)的概率,得出图像分类结果。

步骤a中,所述预训练一个卷积神经网络的方法是基于alexnet图像分类网络,在imagenet数据集上训练网络,得到的网络参数用于本专利的初始参数。

步骤b中,在训练开始前,对于所有的训练集,网络要计算并产生一个均值文件,对于每一张预训练图像,在进入网络后都要在每一个像素点上减去全局均值。对于输入图像,网络要随机裁剪成227×227的碎片,并在这些提取碎片上进行网络的训练。

步骤c-h中,对于每一层卷积和两层全连接,都可以表示成从上一层到下一层的一种非线性关系:

其中:是对于输入图像经过第p层的图像特征输出,wp和bp分别是第p层的权重和偏置项,fp是一个被称为relu的激活函数,其定义如下:

fp(x)=max(0,x),其中x表示卷积层和全连接层的输出,并且每一层卷积和全连接后紧跟的操作是relu,第一层和第二层的relu操作是跟在局部响应归一化操作后的。

步骤c、d中,第一层卷积和第二层卷积后紧跟一个局部响应归一化(lrn)层,响应归一化活性定义如下:

其中:∑(...)表示在相同空间位置上转换n个相邻的核映射,n是该层中核的总数,k,n,α,和β是超参数,它们的值取决于校验集中的数据,表示在位置(x,y)处的像素点通过应用核计算出的神经元激活度,然后再利用relu非线性。

步骤c、d和f中,max-pooling运算是紧跟在第一个lrn、第二个lrn以及第5层卷积后的。

步骤g中,对于两个全连接层,使用dropout技术,它做的就是以0.5的概率将每个隐层神经元的输出设置为零。以这种方式除掉的神经元既不参与前向传播,也不参与反向传播。所以每次提出一个输入,该神经网络就尝试一个不同的结构,但是所有这些结构之间共享权重。神经元不能依赖于其他特定神经元而存在,所以这种技术降低了神经元复杂的互适应关系。

步骤h中,sigmoid被选作为哈希层的激活函数,它的目的在于使该层的输出近似到[0,1]之间,假设二进制码的长度为k,其定义如下:

其中,hi是哈希层的图像特征向量输出,β是超参数。二进制码通过如下阈值函数得到:

步骤h中,哈希层采用了一种分块模型,假设哈希层输出的图像特征向量为m,将图像特征向量分为k个块,每块包含向量维数为m/k,其中m是k的倍数,其中特征向量的尺寸可以通过控制第7层全连接层的输出单元数量来确定。然后通过一个全连接层将每块映射成一维数字,再通过sigmoid函数将输出限制在[0,1]范围内,最后将这些值经过阈值函数生成紧凑简洁的二进制码。

本发明的优点及积极效果是:

本发明通过将传统卷积神经网络与哈希理论相结合,并在哈希层中考虑到每一个哈希码之间的独立性和冗余性,采用了一种分块模型,每一块生成一个哈希字节,这样做能够很好的提高图像特征的提取能力和图像分类的精度,并且节省了机器运行的时间,避免了人为因素的干扰。

附图说明

图1为本发明的基于深度哈希网络的材料缺陷无损检测方法的工作流程图;

图2为本发明的基于深度哈希网络的材料缺陷无损检测方法的网络结构图;

图3为本发明的基于深度哈希网络的材料缺陷无损检测方法中哈希分块模型的网络结构图。

具体实施方式

如图1和图2所示,本发明是这样实现的,包括下列步骤:

a、在imagenet上预训练一个卷积神经网络,预训练一个卷积神经网络的方法是基于alexnet图像分类网络,在imagenet数据集上训练网络,得到的网络参数用于本发明的初始参数。

b、输入图像,并对输入图像进行预处理,预处理过程为:对于所有的训练集,网络要计算并产生一个均值文件,对于每一张预训练图像,在进入网络后都要在每一个像素点上减去全局均值。对于输入图像,网络要随机裁剪成227×227的碎片,并在这些提取碎片上进行网络的训练。

c、图像(已预处理)开始进入深度哈希网络的第一个卷积层,并将第一个卷积层的输出结果进行max-pooling运算;

d、上一层的输出结果进入第二个卷积层,并将第二个卷积层的输出结果进行max-pooling运算;

e、上一层的输出结果进入第三个卷积层,进行卷积运算,将第三层的输出结果输入第四个卷积层,再进行卷积运算;

f、上一层的输出结果进入第五个卷积层,并将第五个卷积层的输出结果进行max-pooling运算;

g、上一层的输出结果进入深度哈希网络的两个全连接层,对于两个全连接层,使用dropout技术,它做的就是以0.5的概率将每个隐层神经元的输出设置为零。以这种方式除掉的神经元既不参与前向传播,也不参与反向传播。所以每次提出一个输入,该神经网络就尝试一个不同的结构,但是所有这些结构之间共享权重。神经元不能依赖于其他特定神经元而存在,所以这种技术降低了神经元复杂的互适应关系。

h、上一层的输出结果进入深度哈希网络的哈希层;

i、上一层的输出结果进入深度哈希网络的最后一层(softmax),得到图像属于两个类别(有缺陷与无缺陷)的概率,得出图像分类结果。

步骤c-h中,对于每一层卷积和两层全连接,都可以表示成从上一层到下一层的一种非线性关系:

其中:是对于输入图像经过第p层的图像特征输出,wp和bp分别是第p层的权重和偏置项,fp是一个被称为relu的激活函数,其定义如下:

fp(x)=max(0,x),其中x表示卷积层和全连接层的输出,并且每一层卷积和全连接后紧跟的操作是relu,第一层和第二层的relu操作是跟在局部响应归一化操作后的。

步骤c、d中,第一层卷积和第二层卷积后紧跟一个局部响应归一化(lrn)层,响应归一化活性定义如下:

其中:∑(...)表示在相同空间位置上转换n个相邻的核映射,n是该层中核的总数,k,n,α,和β是超参数,它们的值取决于校验集中的数据,表示在位置(x,y)处的像素点通过应用核计算出的神经元激活度,然后再利用relu非线性。

步骤c、d和f中,max-pooling运算是紧跟在第一个lrn、第二个lrn以及第5层卷积后的。

步骤h中,sigmoid被选作为哈希层的激活函数,它的目的在于使该层的输出近似到[0,1]之间,假设二进制码的长度为k,其定义如下:

其中,hi是哈希层的图像特征向量输出,β是超参数。二进制码通过如下阈值函数得到:

步骤h中,哈希层采用了一种分块模型,假设哈希层输出的图像特征向量为m,将图像特征向量分为k个块,每块包含向量维数为m/k,其中m是k的倍数,其中特征向量的尺寸可以通过控制第7层全连接层的输出单元数量来确定。然后通过一个全连接层将每块映射成一维数字,再通过sigmoid函数将输出限制在[0,1]范围内,最后将这些值经过阈值函数生成紧凑简洁的二进制码。

为了更好地理解本发明的检测方法,下面通过对一个具体的检测实例进行描述,首先在imagenet上训练一个网络,网络的最终参数用于本发明的初始参数,然后将输出图像进行预处理,使得所有的输入图像大小都成为227×227;

然后将图像输入到第一层卷积层(conv1)中,conv1层的卷积核大小为11×11,进行卷积操作的步长为4,边缘填充系数为0,输出的特征图数量为96.大小227的图像经过conv1后输出的特征图大小为:

[(227-11)/4+1]×[(227-11)/4+1]=55×55

所以,conv1总共输出96个大小为55×55的特征图;

然后对conv1中输出的特征图进行pooling(pool1)计算,也就是池化过程,又称下采样,进行pooling计算的目的是减少上一层输出的特征维数。进行池化操作的步长为2,边缘填充系数为0,池化区域大小为3。所以,经过池化后特征图的大小为[(55-3)/2+1]×[(55-3)/2+1]=27×27,特征图依然是96个,因此,在pooling计算后,输出96个大小为27×27的特征图;

然后进入第二个卷积层(conv2),在conv2中的卷积运算和conv1相同,不同点在于,conv2层中卷积核的大小为5×5,步长为4,边缘填充系数为2,输出的特征图个数为256,经过conv2层后总共输出256个大小为27×27的特征图;

然后对conv2中输出的特征图进行pooling(pool2)计算,过程类似pool1,并且pool2的配置与pool1相似,经过pool2层后特征图的大小为[(27-3)/2+1]×[(27-3)/2+1]=13×13,特征图个数为256,因此,经过pool2层后总共输出256个大小为13×13的特征图;

然后进入第三个卷积层(conv3),conv3层中卷积核大小为3×3,步长为2,边缘填充系数为1,输出特征图个数为384,所以,经过conv3后总共输出384个大小为13×13的特征图;

然后进入第四个卷积层(conv4),conv4的卷积运算配置与conv3相同,所以,经过conv4后总共输出384个大小为13×13的特征图;

然后进入第五个卷积层(conv5),conv5层中卷积核大小为3×3,步长为2,边缘填充系数为1,输出特征图个数为256,所以,经过conv5后总共输出256个大小为13×13的特征图;

然后对conv5中输出的特征图进行pooling(pool3)计算,过程和配合与pool1相同,按照同样的分析过程,经过pool3层后总共输出256个大小为13×13的特征图。

然后进入两个全连接层(f6与f7),全连接层的作用是讲高维特征图转变为一个列向量,也就是用此包含原始图像所有特征的列向量代表原来复杂的图像;

然后进入如图3所示的哈希层中,哈希层采用了一种分块模型,假设哈希层输出的图像特征向量为m,将图像特征向量分为k个块,每块包含向量维数为m/k,其中m是k的倍数,其中特征向量的尺寸可以通过控制第7层全连接层的输出单元数量来确定。然后通过一个全连接层将每块映射成一维数字,再通过sigmoid函数将输出限制在[0,1]范围内,最后将这些值经过阈值函数生成紧凑简洁的二进制码。假设给定训练数据为a={a1,a2,...,an},每个数据都有一个属于该类别的标签,经过哈希层后可以得到它们的哈希码ah={h1,h2,...,hn},对于一个待测试图像aq,经过哈希层后其哈希编码为hq,如果hq与hi的汉明距离小于设定的阈值,此时可以得到与aq相关的数据集此时在欧几里得空间中,通过比较每张图像的最后一层全连接输出的特征向量来确定测试图像和相关数据集s中哪张图像最相近,vq和vis分别表示图像aq和从网络第7层输出的特征向量,定义欧几里得距离ei=||vq-vis||.ei的值越小,说明两张图像的相似性越高,然后再参照两张图像是否有相同的标签信息。

最后进入softmax层,输出是输入图像属于某一特定类别的概率分布,最大概率值对应的输出就是该网络对输入图像识别分类的结果。

上面结合附图对本发明方案的实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1