本发明涉及图像注释方法领域,具体涉及一种基于扩展的slda模型对图像进行标题注释的方法。
背景技术
在过去的几十年里,图像和视频检索的问题一直处于计算机视觉研究的前沿。尽管如此,由于最近大量的图片和视频在网上可以找到,人们对一种高效的算法在大规模收集中搜索和导航的需求也在不断增长。当前最先进的图像搜索引擎严重依赖于使用带注释的文本或标题来识别和检索图像。虽然这种方法允许进行高级语义查询,但对于基于文本的搜索技术的成功至关重要的标题信息,通常是手动获得的,而这一过程不能随着当今多媒体语料库不断增长的规模而扩展。因此,需要自动化这个注释过程。由于它对涉及数字媒体档案的大量应用程序的潜在影响,近年来人们对设计和开发注释图像和视频的自动化工具的关注度与日俱增。
在没有标题的情况下,注释算法的任务是通过学习图像和文本之间的关联模式来预测缺失的标题。以前在这个领域的工作可以大致分为两组。在第一组工作中,图像注释的问题被转换成一个监督学习问题,在这个问题中,注释将被当作概念类。对于词汇表中的每个单词,类条件密度是从所有标记的图像中学习的。在注释过程中,计算出类标签的后验分布,然后使用最高概率的概念作为预测的标题。在实践中,这种方法会遇到可伸缩性问题,并且只能处理一个小的注释词汇表,因为每个单词都必须学习类条件密度。
另一组通过对两个数据类型之间的联合统计相关性建模,在更平等的基础上处理注释和图像数据。这些模型使用一个潜在的变量框架,通过假设每个文档都有一组隐藏的因子来控制图像特征和相应的标题词之间的关联,从而了解文本和图像特征的联合概率分布。
技术实现要素:
本发明的目的是为了解决现有的图像注释方法会遇到可伸缩性问题,只能处理一个小的注释词汇表,缺乏通用型和易用性的缺点,而提出一种基于扩展的slda模型对图像进行标题注释的方法,能够处理注释数据的多维二元响应变量,包括:
步骤一、对于输入的图像,提取图像的局部特征,并利用k-means算法得到图像的n个视觉词汇wn,其中wn∈{1,2...,n}。
步骤二、使用lda模型表示给定文档隐藏变量的后验分布。
其中α和β是模型参数,z和θ分别是主题变量和主题比例。
步骤三、在步骤二中引入响应变量y以及响应变量的参数η和δ,同时将并将响应变量分布定义成多变量伯努利分布,即将公式(3)表示为:
步骤四、根据基于凸性的lda推理变分算法将式(5)近似成
步骤五、求取能够使l的下界达到最大值的变分参数γ和φ。
步骤六、估计模型参数ψ={α,β,η,δ}。
步骤七、根据模型参数ψ和变分参数γ和φ预测响应变量y的分布p(y|w)。
进一步,步骤三具体为:
利用
其中
其中
进一步,步骤四具体为:
通过以下公式将公式(5)近似为
令l(γ,φ;α,β)表示式(8)的右边,式(8)表示为
logp(w|α,β)=l(γ,φ;α,β)+d(q(θ,z|γ,φ)||p(θ,z|w,α,β))(9)
通过使用p和q的因式分解将l写作式(10):
进一步,步骤五具体为:
步骤五一、在公式(13)中,利用φni最大化l的下界,φni表示第n个视觉词汇由隐藏主题i生成的概率,因此
ψ(x)是双伽马函数;
计算关于φni的导数:
其中βiv表示对于合适的v的
进一步得到在响应变量服从伯努利分布条件下,参数φn的更新公式
步骤五二利用γi最大化上式,γi表示后验狄利克雷参数的第i个组成部分;包含γi的项:
对γi求导:
令导数为零:
迭代方程(16)至(19)直到边界收敛,进而得到能够使l的下界达到最大值的变分参数γ和φ。
进一步,步骤六具体为:
步骤六一、求得参数β的公式为:
步骤六二、求得参数α的过程为:对于公式(22),
进行求导得
对公式(23)通过牛顿迭代法求取α的值;
步骤六三、求得参数η和σ2的过程为:
其中μ(·)=eglm[y|·];
对σ2求导,在
经过计算,最终得到参数估计结果:
将参数αi、βij、ηi和δi进行组合即可得到模型参数ψ={α,β,η,δ}。
进一步,步骤七具体为:
将没有标题的新文档w作为输入,任务是推断出最可能的标题词,利用φn和q(θ)来近似求解条件概率p(y|w),如下:
其中
本发明的有益效果为:
1、本发明对corr-lda的结构做出了调整,删掉了变量x,图像主题可以直接用于预测标题,而不需要对标题的后验概率进行整合(而这是corr-lda需要的步骤)。并对slda进行扩展,使得模型能够处理多变量二进制响应变量,消除了slda只能处理一个响应变量的不足,对于图像的注释更加详细,因此图像检索也更方便且精确。
2、在主题数、词汇数较多的情况下,本发明的预测准确率明显高于corr-lda模型,平均高出0.04。
附图说明
图1为slda-bin的图形化模型结构图;
图2为corr-lda的图形化模型结构图;
图3为slda-bin和lda的预测和观察的响应间的误差曲线图;
图4为k=30时corr-lda和slda-bin的标题词预测曲线图;
图5为n=256时corr-lda和slda-bin的标题词预测曲线图;
图6为n=512时corr-lda和slda-bin的标题词预测曲线图;
图7为corr-lda和slda-bin对部分对象注释的准确率曲线图。
具体实施方式
本发明的基于扩展的slda模型对图像进行标题注释的方法,可简称为slda-bin,包括:
步骤一、对于输入的图像,提取图像的局部特征,并利用k-means算法得到图像的n个视觉词汇wn,其中wn∈{1,2...,n}。
步骤二、使用lda模型表示给定文档隐藏变量的后验分布:
其中α和β是模型参数,z和θ分别是主题变量和主题比例。
步骤三、在步骤二中引入响应变量y以及响应变量的参数η和δ,同时将并将响应变量分布定义成多变量伯努利分布,即将公式(3)表示为:
步骤四、根据基于凸性的lda推理变分算法将式(5)近似成
步骤五、求取能够使l的下界达到最大值的变分参数γ和φ。
步骤六、估计模型参数ψ={α,β,η,δ}。
步骤七、根据模型参数ψ和变分参数γ和φ预测响应变量y的分布p(y|w)。
下面具体说明本实施方式的原理和过程,需要说明的是,角标附带n的变量和不附带n的变量含义相同,区别在于角标附带n的变量强调序数n,也就是强调这个变量是n个词中的第n个对应的参数。例如,变量z和zn是相同的含义,区别在于zn强调的是第n个词的主题变量,z没有强调这一点,而它们的含义是完全相同的。
步骤一、数据表示,提取图像的n个局部特征,然后用k-means对n个特征进行聚类,已知初始的k个均值点m1,...,mk,按照下面两个步骤交替进行:
分配:将每个观测点分配到聚类中,使得组内平方和达到最小。因为这一平方和就是平方后的欧氏距离,所以很直观地把观测分配到离它最近得均值点即可
其中每个xp都只被分配到一个确定的聚类
更新:对于上一步得到的每一个聚类,以聚类中观测值的图心,作为新的均值点
将图像转换成了由视觉词汇组成的文档之后,使用lda模型进行文档注释。lda是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
步骤二、lda模型中一篇文档生成的方式如下:
从狄利克雷分布α中取样生成文档i的主题分布θi,从主题的多项式分布θi中取样生成文档i第j个词的主题zi,j,从狄利克雷分布β中取样生成主题zi,j的词语分布
为了使用lda,需要解决的关键推理问题是,给定一篇文档计算隐藏变量的后验分布:
步骤三、利用
slda使用与广义线性模型相同的概率机制来适应各种类型的响应:不受限制的实际值,被约束为正的真实值(例如故障时间),有序或无序的类标签,非负整数(例如计数数据),和其他类型。响应变量的分布是一个广义线性模型(glm):
glm框架提高了灵活性,只要响应变量的分布可以写成上面的形式,就可以建模。不同的分布对应不同的h(y,δ)和
于是(3)式变为
其中
但是θ和β在潜在主题上的结合难以直接计算,采用基于凸性的lda推理变分算法。
为了处理注释数据的多变量二进制响应变量,可以将响应变量分布建模成多变量伯努利分布,并用逻辑链接函数定义它的概率。
步骤四、变分推算。基于凸性的变分推理的基本思想是利用jensen不等式获得对数似然的可调下界。这个族被表征为以下变分分布:
其中狄利克雷参数γ和多项参数(φ1,φ2,...,φn)都是自由的变分参数。
在指定简化的概率分布族之后,下一步是设置一个优化问题,该问题确定变分参数γ和φ的值。寻找对数似然的最紧凑下界的要求直接转化为以下优化问题
通过最小化变分分布和真实后验分布p(θ,z|w,α,β)间的相对熵最小化,完成上述目标。
首先通过使用jensen不等式来限制文档的对数似然性。为简单起见,省略参数γ和φ,有
jensen不等式为任意变分分布q(θ,z|γ,φ)的对数似然提供了一个下限。上式的左右差值即变分分布和真实后验分布间的相对熵。右边第一项是对隐藏和观察变量的联合概率的对数的期望;第二项是变分分布的熵,h(q)=-eq[logq(θ,z)]。令l(γ,φ;α,β)表示上式的右边,上式变为
logp(w|α,β)=l(γ,φ;α,β)+d(q(θ,z|γ,φ)||p(θ,z|w,α,β))(9)
这表明,通过γ和φ最大化下界l(γ,φ;α,β)等价于最小化变分后验概率和真实后验概率之间的相对熵。
通过使用p和q的因式分解来扩展下界:
然后将上式展开成关于模型参数(α,β)和变分参数(γ,φ)的方程式。前三项是
变分分布的熵是
注意,slda的变分目标函数第四项与lda不同,即给定潜在主题分配的响应变量的预期对数概率。
可以看出计算下界与两个期望有关。第一个期望是
这里的逻辑函数使得期望e[logp(y|z,η,δ)]的计算变得复杂。利用凸对偶性并将逻辑函数表示为
其中,
步骤五、通过变分参数γ和φ最大化l下界;
步骤五一利用φni最大化,φni表示第n个视觉词汇由隐藏主题i生成的概率,因此
为了简单起见,放弃了l的参数,而下标φni表示我们只保留了l中的那些项,这是φni的函数。得到关于φni的导数:
其中βiv表示对于合适的v的
计算出在响应变量服从伯努利分布条件下,参数φn的更新公式
步骤五二利用γi最大化上式,γi表示后验狄利克雷参数的第i个组成部分。包含γi的项:
对γi求导,
令导数为零,
由于方程(19)取决于变分多项式φ,完整的变分推理需要方程(16)和(19)之间的交替。直到边界收敛。
步骤六、参数估计。
步骤六一利用条件多项参数β实现下界最大化。提取出含有β的项并加入拉格朗日乘数。
对β求导并令导数为零,得
最终求得
步骤六二利用狄利克雷参数α实现下界最大化。含有α的项如下
对αi求导得
导数依赖αj,其中i≠j,因此我们必须使用迭代的方法找到符合条件的α。特别的,它的黑塞矩阵可以写作h=diag(h)+1z1τ形式,
因此可以调用线性时间牛顿迭代算法。于是α的更新可以写作
αnew=αold-h(αold)-1g(αold)(25)
其中h(α)和g(α)分别是点α的黑塞矩阵和梯度。
乘以梯度,获得第i个分量:
其中
步骤六三估计glm参数。glm参数是η和σ2。
其中μ(·)=eglm[y|·]。
对σ2求导,在
可以计算等式(29),因为已经在对系数η进行优化的同时精确地或近似地评估了最右边的总和。根据h(y,δ)及其对δ的偏导数,我们可以得到
步骤七、进行预测。给定一个没有标题的新文档w,任务是推断出最可能的标题,即响应变量y。为了完成这个任务,我们在文档上应用变分推算直到收敛,并利用φn和q(θ)来近似求解条件概率p(y|w),如下:
其中
本发明相比于现有技术的突出效果可以根据图1至图7进行具体说明:
图1展示的是slda-bin的图形化模型结构,由于slda模型对于标题词预测的出色表现,我们采用了slda的结构,可以看出,slda-bin对corr-lda的结构做出了调整,删掉了变量,图像主题可以直接用于预测标题,而不需要对标题的后验概率进行整合(corr-lda需要的步骤)。并对slda进行扩展,使得模型能够处理多变量二进制响应变量,消除了slda只能处理一个响应变量的不足,对于图像的注释更加详细,因此图像检索也更方便且精确。
图2展示的corr-lda的结构,corr-lda是现在流行的一种lda模型。与slda-bin不同,corr-lda将每个标题词限制与一个特定图像区域相关联。可以看到,每个标题词都是通过首先选择一个图像区域来生成的,具体体现在图2中额外多出的x变量。
不同主题数下的预测性能分析:
图3展示了slda-bin模型和无监督lda模型在预测电影影评上的比较。我们使用五折交叉验证评估预测的质量。我们测量预测和响应变量间的关联性。关联性越强,说明预测和响应变量观测值越接近,预测质量越高。从图2可以看出,在主题数较低时,无监督lda的预测质量要高于slda-bin,但是伴随着主题数的增多,slda-bin的预测质量会迅速提升,超越无监督lda模型。这是由于slda-bin采用了slda的结构,模型的主题变量和响应变量是直接相关的,因此主题数增多,有助于我们获得更多关于响应变量的信息,对于正确预测响应变量有重要帮助
图5和图6分别展示了词汇数n=256和512下,两种模型的预测概率受主题数k的影响。我们随机选取了从k=5到k=60间的五组数据进行比较。首先可以看到,无论是n=256还是n=512,slda-bin的预测曲线始终高于corr-lda,我们将良好的预测能力归功于图像主题和相应的标题之间的直接关联模型。通过消除隐藏变量,图像主题可以直接用于预测标题,而不需要对标题主题的后验概率进行整合(corr-lda所需要的步骤)。在词汇数固定的情况下,slda-bin对主题数更加敏感,随着主题数的增长,slda-bin预测效果会有明显提升,但是如果主题数过多,会导致预测下降。这是因为slda-bin的响应变量和主题有直接关联,过多的主题数会导致过拟合,预测效果反而不好。所以slda-bin性能发挥依赖于主题数和词汇数的配合。
不同词汇数下的预测性能分析:
如图4中所示,固定主题数k=30,在词汇数n分别为128、256和512时,slda-bin都给出了优于corr-lda模型的预测效果。于是我们得出结论,随着我们在视觉词典中增加视觉词汇的数量,我们也获得了更好的预测概率,这一点对比图5和图6也可以看出。因为词汇数的增加,模型可以获得更多图像的细节信息,从而更好的获知图像的内容信息,更好进行图像-标题的匹配。
图像分类性能分析:
图7展示的是slda-bin模型和corr-lda模型对部分常见对象的注释准确率,可以看出,在每一项上,slda-bin的注释准确率都高于corr-lda。整体来看,slda-bin的准确率平均高过corr-lda约0.04。因为corr-lda将每个标题词限制与一个特定图像区域相关联。事实上,一些注释词在整体上描述整个场景,使用这种限制性关联模型是非常不准确的。通过对主题比例进行回归操作,slda-bin允许每个标题词受来自所有图像区域的主题以及特定图像区域的影响,这取决于相应的回归系数。因此,本发明的关联模型更加通用,准确地反映如何生成真实注释的过程。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。