一种基于增强型栈式自动编码器的自动图像标注方法

文档序号:9911705阅读:981来源:国知局
一种基于增强型栈式自动编码器的自动图像标注方法
【技术领域】
[0001] 本发明涉及模式识别与计算机视觉领域,特别是一种基于增强型栈式自动编码器 的自动图像标注方法。
【背景技术】
[0002] 随着多媒体影像技术快速发展,互联网上图像信息呈爆炸性增长。这些数字图像 的应用非常广泛,如商业、新闻媒体、医学、教育等方面。因此,如何帮助用户快速、准确地找 到需要的图像成为近年来多媒体研究的热点课题之一。而解决这一课题最重要的技术就是 图像检索和自动图像标注技术。
[0003] 自动图像标注是指自动给图像添加若干关键词来表示图像的语义内容。自动图像 标注可以利用已标注的图像集,自动学习语义概念空间与视觉特征空间的关系模型,并用 此模型标注未知语义的图像。一方面,自动图像标注试图给高层语义特征和底层视觉特征 之间建立一座桥梁,因此,它可以一定程度解决大多数基于内容图像检索方法存在的语义 鸿沟问题,并且具有较好的客观性。另一方面,自动图像标注可以生成与图像内容相关的文 字信息,具有更好的准确性。如果能实现自动图像标注,那么现有的图像检索问题实际上可 以转化成较成熟的文本检索问题。因此,图像自动标注技术可以很方便地实现基于关键字 的图像检索,符合人们的检索习惯。总的来说,自动图像标注涉及计算机视觉、机器学习、信 息检索等多方而的内容,具有很强的研究价值和潜在的商业应用,如图像分类、图像检索、 图像理解以及智能图像分析等。
[0004] 根据现有自动图像标注方法的主要实现特点,可以分为两类:基于概率统计的标 注方法和基于机器学习的标注方法。基于概率统计的方法虽然可以很方便的扩展到大数据 集,但总体标注效果不够理想。基于机器学习的方法,一旦模型训练完毕,就可以进行快速 标注,而当前多数分类、回归等学习方法为浅层结构算法,针对复杂分类问题其泛化能力受 到一定制约。近年来,深度学习作为机器学习的革新算法,广泛用于目标识别、图像分类、语 音识别及其它领域,但鲜有在图像标注问题上得到应用。由于深度学习可以训练深层、复杂 的模型,在处理大数据问题上有很大优势。DBN和CNN这两个模型在标签较少、特征简单、特 征完整的识别任务中可以取得较好效果,而图像标注问题标签众多、图像特征多样且复杂, 且现实图像中还存在大量各类文本、网址、二维码以及图像水印等噪声问题,极大地影响了 DBN和CNN的应用效果。而SAE网络,更加注重特征间的近似表达,容易调整模型将复杂的输 入表达为理想的输出并应用于特定情形,因此,本专利选用SAE模型解决图像标注问题。

【发明内容】

[0005] 本发明的目的在于提供一种基于增强型栈式自动编码器的自动图像标注方法,以 克服现有技术中存在的缺陷,解决针对多对象多标签的自动图像标注问题。
[0006] 为实现上述目的,本发明的技术方案是:一种基于增强型栈式自动编码器的自动 图像标注方法,按照如下步骤实现:
[0007] 步骤SI:构建栈式自动编码器模型,在所述栈式自动编码器模型上判别弱标签样 本,并添加噪声以增加所述弱标签样本的训练次数,进而构建平衡栈式自动编码器模型;
[0008] 步骤S2:通过所述平衡栈式自动编码器模型对训练图像分组训练子平衡栈式自动 编码器模型,加权累加各组最优子模型得到增强平衡栈式自动编码器模型;
[0009] 步骤S3:将未知图像输入到所述增强平衡栈式自动编码器模型并输出标注结果。
[0010] 在本发明一实施例中,在所述步骤S1中,还包括如下步骤:
[0011] 步骤S11:定义编码器5和解码器ge,;所述编码器fe将输入图像X转换为隐层表达 h,解码器ge,将所述隐层表达h重构为与所述输入图像X维度一致的向量X';其中,fe(x) = 〇 (W·計13),0={?,13},¥为网络权重,满足¥'=矿,13为偏置向灑
为激活函数;
[0012]步骤S12:学习一个函数使输出X' =ge'(fe(x))和所述输入图像X近似,且定义损失函 数为L(x,x')= (x-x' )2,并通过最小化损失函数进行学习:
[0013] 步骤S13:记用于图像标注的SAE模型有L层,并用序号1 e {1,. . .,L}表示;用h1表 示第1层的输出向量,W1和b1表示第1层的网络权重和偏置,通过自动编码器对{wWhie {1,...,L}逐层预训练;
[0014] 步骤S14:执行前馈过程并用后向传播算法调优;所述栈式自动编码器模型的前馈 操作表述为:h1+1 = 〇 (W1+V+b1+1),1 e {〇,. . .,L-1};所述栈式自动编码器模型的后向传播 算法调优表述爻
,其中,GU) = % (··.(% M))是多个自动编码 器模型的合成函数,而Θ:为参数^1,131},1[{1,...丄},损失函数为以、 7) = &1)2;
[0015] 步骤S15:定义约束变量,令向量C=(Cl,c2, . . .,cM),c, eZ+表示关键词yi在训练 集P中出现的次数
(6/表示关键词的平均出现次数;向量C=(C1,C2, . . .,CM)表示 第i幅图像Xl的每个关键词Yd,je{l,2, . . .,M}在训练集中出现的次数从而得 到在图像^中出现次数最低的关键词为
[0016] 步骤S16:定义Φ(χ)函数,所述栈式自动编码器模型在训练过程中对训练样本进 行判断,若输入图像X包含低频标签的个数多于k个,则对该输入图像X添加适当的噪声;定 义Γ (X)函数,对输入图像X增加训练强度,若该输入图像X所包含标签的出现次数低于预设 阈值(一般I
?增加训练次数,其中,函数F(x)为:
[0017]
[0018] 其中,α和β为常系数,β用于确定需要加重训练的样本,α用于控制需要加重训练的 样本的训练强度;
[0019] 函数 Φ(χ)为:
[0020]
[0021] 其中,X为常系数,用于控制噪声添加的强度,d为图像Xl特征的维度,#表示图像^ 第j个维度的值,Ran( ·)为随机数函数;
[0022] 步骤S17:调整优化等式得到平衡栈式自动编码器模型模型;将
调整为
,将
I调整为
,当模型训练好后,所述平衡栈式自动编码器模型的最后 一层的输出即为预测图像的关键词的预测分布D。
[0023] 在本发明一实施例中,在所述步骤S2中,还包括如下步骤:
[0024] 步骤S21:分组训练子平衡栈式自动编码器模型模型,将平衡栈式自动编码器模型 模型按不同的加噪方式划分不同的组,每一组内根据不同的隐层神经元个数划分子模型 J -表示平衡栈式自动编码器模型模型采用第t种加噪方式,k表示第k个子B-SAE模 型设置的隐层神经元个数;
[0025] 步骤S22:设置初始权值并计算子平衡栈式自动编码器模型模型模型分类误差率, 对训练数据设置权值如下:
[0026]
[0027] 计算1&4£丨的分类误差率:
< 其中,
表示:假设图像^的真实标签集Yi包含c个关键词, 并通过模型5 - 5L4苟预测得到标签集Y,的个数也为c个,如果Υ, = ΥΛ则丨&为 false,否则为 true;
[0028] 步骤S23:计算平衡栈式自动编码器模型模型权重,并更新训练数据权值;根据组 内所有子β 丨模型的分类误差率,可以得到该组分类误差率最低的模型B-SAEt以及对应 的分类误差率eS计算B-SAE^权重:a"= il〇g·^·:当第t组的模型训练完后,更新训练数 2 e 据的权值,以获得下一组模型的权重,更新训练翁抿切佶的方忒加下·
[0029] fft+i= {wt+i,ij · · · jWt+ι,?, . . . ,Wt+i,N}
ι::1.
[0030] 步骤S24:加权累加子平衡栈式自动编码器模型模型得到增强平衡栈式自动编码 器模型,当所有组都训练完后,即得到关键词预测分布
[0031] 相较于现有技术,本发明具有以下有益效果:本发明所提出的一种基于增强型栈 式自动编码器的自动图像标注方法,利用SAE深度神经网络强大的特征表达能力,基于对自 动图像标注、多标签分类和栈式自动编码器的认识,提出针对图像数据集标签不平衡、难以 有效训练大图像数据等问题的增强型栈式自动编码器的自动图像标注方法,最后得到一种 深层的、复杂的自动图像标注模型,特别是一种基于增强型栈式自动编码器的自动图像标 注方法。该方法简单,实现灵活,实用性较强。
【附图说明】
[0032] 图1为本发明中基于增强型栈式自动编码器的自动图像标注方法的流程图。
【具体实施方式】
[0033]下面结合附图,对本发明的技术方案进行具体说明。
[0034] 本发明提出了一种基于增强型栈式自动编码器的自动图像标注方法,首先针对深 度学习中传统SAE (Stacked Auto-Encoder,SAE)模型难以有效训练有偏数据集的问题,提 出一种提升低频标签准确率的平衡栈式自动编码器(Balance Stacked Auto-Encoder,B-SAE),较好地改善低频标签的标注效果。然后针对单个B-SAE模型不稳定(模型复杂、参数较 多)导致标注效果易随参数改变而发生较大变化的问题,提出一种针对图像标注任务的增 强平衡栈式自动编码器(Enhanced Balance StackedAut〇-Encoder,EB_SAE),通过分组按 序训练、加权累加各组最优B-SAE子模型,取得稳定的标注结果。具体步骤如下:
[0035] S1:先构建SAE模型,接着在SAE模型上判别弱标签样本并添加噪声增加弱标签样 本的训练次数,以此构建B-SAE模型;
[0036] S2:利用步骤S1得到B-SAE模型对训练图像分组训练子B-SAE模型,加权累加各组 最优子模型得到EB-SAE模型,如图1所示;
[0037] S3:将未知图像输入到步骤S2得到的EB-SAE模型并输出标注结果。
[0038]进一步的,在本实施例中,在步骤S1中按照以下步骤实现构建B-SAE模型:
[
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1