训练装置、训练方法以及检测装置的制造方法_2

文档序号:9688027阅读:来源:国知局
也就是卷积操作的输出)。比如,按照上面的步骤得到FM11之 后,还要在FM11的各元素上加上一个偏置,卷积操作子层的输出。送里,卷积模板中的每个 元素的值W及上述偏置值都是卷积神经网络模型的参数,可W通过训练卷积神经网络模型 而得到送些参数的最优值。
[0034] 之后,在非线性操作子层中,利用非线性操作函数对从卷积操作子层输入的数据 进行非线性操作,再将得到的结果输出到池化操作子层。如图4所示,非线性操作函数f() 对从卷积操作子层输入的特征图FM11的每一个元素进行一对一的非线性映射,得到输出 特征图FM21。
[0035] 接下来,在池化操作子层中,对从非线性操作子层输入的数据进行池化操作,再将 得到的结果输出到下一层。送里所述的下一层可W是整个卷积神经网络的全连接层(即, 当前卷积层为卷积神经网络中的最后一个卷积层),也可W是下一个卷积层(即,当前卷积 层不是卷积神经网络中的最后一个卷积层)。
[0036] 池化操作和卷积操作类似,也采用一定大小的窗口去覆盖输入的特征图,不过,池 化操作直接由输入特征图中被覆盖的区域的各个像素值来得到输出结果,例如,输出结果 可W是输入特征图中被覆盖的区域的各个像素的最大值、最小值、中值等。换言之,池化操 作是一种指定规则的、η对一的映射函数,采用池化操作符h 0来表示,其中η为池化操作 符的窗口大小。图5显示了从非线性操作子层输出的特征图FM21经过池化操作子层的操 作而输出的特征图FM31。在图5的示例中,池化操作符h〇将特征图FM21的4个像素值映 射到特征图FM31的一个像素上,即窗口大小为4。
[0037] 在上述卷积操作子层、非线性操作子层和池化操作子层中,每个子层中进行的卷 积操作、非线性操作、池化操作都可W视为是从来自上一子层的输入数据中提取特征的过 程。在现有技术中,出于计算效率W及训练成本的考虑,通常在每个子层中仅仅提取了一个 方面的特征,即仅仅利用了一个特定大小的卷积核、一个非线性操作算子f()、W及一个池 化操作符(或池化操作算子)h 0。
[0038] 为了全面利用输入数据的各个方面的信息,如W上参照图1所描述的,根据本公 开实施例,获取子单元101可W获取训练样本数据的至少两个不同方面的特征,而送一过 程可W发生在卷积操作子层、非线性操作子层和池化操作子层中的任一子层当中。更具体 地,根据本公开实施例的获取子单元101所获取的训练样本数据的至少两个不同方面的特 征可w是针对至少一个卷积层,通过下述方式中的至少一者获取的:在卷积操作子层中利 用至少两个不同大小的卷积核分别对基于所述训练样本数据而获得的输入数据进行卷积 操作,W获取所述至少两个不同方面的特征;在非线性操作子层中利用至少两个不同的非 线性操作函数分别对经过卷积操作子层处理的、基于所述训练样本数据而获得的输入数据 进行非线性操作,W获取所述至少两个不同方面的特征;W及在池化操作子层中利用至少 两个不同的池化操作算子分别对经过卷积操作子层和非线性操作子层处理的、基于所述训 练样本数据而获得的输入数据进行池化操作,W获取所述至少两个不同方面的特征。
[0039] 伴随送种多方面特征提取,相较于现有技术,本发明获得了训练样本数据的更多 信息。为了能够高效地利用送些信息,本发明采用了竞争子单元102,其基于获取子单元 101所获取的至少两个不同方面的特征的对应元素,选择每个元素位置处的最优元素,W得 到竞争结果特征。
[0040] W获取子单元101所获取的至少两个不同方面的特征是在卷积操作子层利用3个 不同大小的卷积核进行卷积操作而获得的Η组特征图为例,竞争子单元102可W基于送Η 组特征图的对应元素,选择每个元素位置处的最优元素,W得到竞争结果特征。作为示例, 最优元素可W是给定位置处的值最大的元素。换言之,可W利用"逐元素取最大"操作来进 行竞争选择。
[0041] 图6Α、图6Β示出了由根据本公开实施例的特征获取及竞争单元10进行的操作的 示意图。图6Α、图6Β给出了获取子单元101在输入层之后的第一个卷积层进行操作的示 例。卷积层包括卷积操作子层、非线性操作子层和池化操作子层,每个子层的操作得到相应 的特征图,W附图标记FM11、FM12等来表示。
[0042] 具体地,在图6Α的示例中,根据本公开实施例的获取子单元101在卷积操作子层 中利用了两组共4个卷积核进行操作,卷积操作中从输入图像出发的每一条连线代表一个 卷积模板,因此得到了 4个特征图FM11-FM14。更具体地,获取子单元101利用两组不同大 小的卷积模板,得到了两个特征图集合,即提取了输入图像的两个不同方面的特征。图6Α 中上方的第一个特征图集合,即特征图FM11、FM12,是利用第一组的具有第一大小的、具体 元素不同的两个卷积模板获得的,而下方的第二个特征图集合,即特征图FM13、FM14,是利 用第二组的具有第二大小的、具体元素不同的两个卷积模板获得的。送里获得每个特征图 FM11-FM14的方式可W与之前参照图3的描述的方式相同,因此不再赏述。此后,竞争子单 元102可W从送两个特征图集合(即FM11和FM12的集合W及FM13和FM14的集合)的对 应元素中,选择每个元素位置处的最优元素,W得到竞争结果特征图FM2UFM22。作为示例, 最优元素可W是给定位置处的值最大的元素。
[0043] 类似地,对于输入到非线性操作子层中的特征图FM2UFM22,如图6Α所示,同样可 W使获取子单元101利用不同的非线性操作(在图6Α中为两个)来提取特征图FM2UFM22 的不同方面的特征,W得到特征图FM31-34。此后,再利用竞争子单元102对特征图FM31-34 进行逐元素取最大,W得到竞争结果特征图FM4UFM42。类似地,对于输入到池化操作子层 的特征图FM4UFM42,可W使获取子单元101利用不同的池化操作(在图6Α中为两个)来 提取特征图FM4UFM42的不同方面的特征,W得到特征图FM51-54。此后,再利用竞争子单 元102对特征图FM51-54进行逐元素取最大,W得到竞争结果特征图FM6UFM62。
[0044] 作为替选,可W仅仅在卷积操作子层、非线性操作子层、池化操作子层中的一个子 层中应用获取子单元101和竞争子单元102。例如,图6B示出了仅仅在卷积操作子层中应 用获取子单元101和竞争子单元102的情况。目P,在卷积操作子层得到的竞争结果特征之 后,后续的特征提取过程与现有技术中一致,即仅仅利用一个非线性操作算子和一个池化 操作算子。类似的,可W仅在非线性操作子层中应用获取子单元101和竞争子单元102 (或 仅在池化操作子层中应用获取子单元101和竞争子单元102),而对其余子层采用与现有技 术类似的特征提取过程。
[0045] 除了提取多个方面的特征W及针对送些特征进行竞争选择W外,在一个示例中, 根据本公开的实施例的训练装置进行的训练可W利用现有技术中的处理。
[0046] 例如,在卷积神经网络中,所有卷积模板的具体元素和偏置都是需要训练的参数。 训练时,例如,送些参数可W首先被随机赋予一个较小的值,然后通过一个迭代的训练算 法,最终找到符合要求的一组值。例如,考虑中文字符识别的示例,如果给卷积神经网络提 供1000幅含有中文字符的并且已被预先标记了相应的中文字符的输入图像作为训练样本 数据,郝么预先标记好的训练样本数据经过卷积神经网络的输入层、各个卷积层、全连接 层、输出层之后,即得到对输入训练数据的计算结果,如果送个结果与之前对该数据的标记 标号不一致,就调整卷积神经网络模型的参数(例如,再次随机生成卷积层中的卷积核中 的各个元素等)。然后,再次执行上述训练过程,直到使得调整后的卷积神经网络能够输出 正确的结果为止。送个过程可W采用现有技术中的卷积神经网络模型训练方法,例如基于 随机梯度下降的后向传播方法等,送里不再进行详细描述。
[0047] 由于获取了多方面的特征,根据本公开实施例的用于对卷积神经网络模型进行训 练的装置可W充分利用训练样本数据的各个方面的信息;而由于采用了竞争选择,根据本 公开实施例的用于对卷积神经网络模型进行训练的装置可W高效利用样本数据,减少了计 算量。
[0048] 图7是示出了根据本公开的一个优选实施例的模型训练单元中与特征过滤有关 的部分的示例结构的框图。
[0049] 如图7中所示,在一个优选实施例中,模型训练单元20可W包括第一过滤子单元 201,所述第一过滤子单元201被配置成W机会均等的方式、在所述获取子单元101获取的 至少两个不同方面的特征的对应元素位置保留来自其中一个方面的特征的元素,W得到第 一过滤特征,作为要提供给所述竞争子单元102 W供选择的特征。在一个优选示例中,所述 模型训练单元20还可W包括第二过滤子单元202,所述第二过滤子单元202被配置成W提 供兀余的方式、在所述获取子单元101获取的至少两个不同方面的特征的对应元素位置保 留来自其中一个W上方面的特征的元素,W得到第二过滤特征,作为要提供给所述竞争子 单元102 W供选择的特征。
[0050] 利用上述第一过滤子单元201,能够减少要训练的特征的规模,但是又W机会均等 的方式保证每一个元素位置处都可W有一个元素能够进入到竞争子单元102,从而保证了 卷积神经网络的每一个部分都能够得到训练。另外,利用第二过滤子单元202,能够W提供 兀余的方式在每一个元素位置处提供一个W上的特征,W使得竞争子单元102的竞争能够 真正地起到作用。因此,本优选实施例的第一和第二过滤子单元有效地选择了训练样本数 据,有助于进一步全面、高效地利用样本数据,减少了计算量。
[0051] 在一个优选示例中,获取子单元102所获取的至少两个不同方面的特征是N个方 面的特征,并且每个方面的特征的数量为s,每个特征为mXη的矩阵,其中,N、S、m、η为自 然数,并且Ν大于1,而且,第一过滤子单元201被配置成基于如下所述的第一矩阵mW来得 到所述第一过滤特征。
[0052] 利用每个元素为[0, 1]的均匀分布中的随机采样的第二矩阵rW将第一矩阵mW 定义为:
[0053]
[0054] 其中,k为1到N的自然数,i为1到S的自然数,X为1到m的自然数,y为1到 η的自然数,的表示第一矩阵mW针对所述N个
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1