一种基于多维张量字典学习算法的图像处理方法与流程

文档序号：14992090发布日期：2018-07-20 22:27阅读：325来源：国知局

本发明涉及图像处理技术领域，尤其是涉及一种基于多维张量字典学习算法的图像处理方法。

背景技术：

图像处理一直是视觉、人工智能、机器学习等领域的研究热点。随着电子设备的不断升级，图像数据呈现出高维多通道等特性，增加了图像处理的难度。稀疏编码作为高维数据的一种经典描述方法，将数据简洁的表达为少量基本元素的叠加，能够有效的降低数据的维数，同时保留数据的本质特征，已在图像特征提取、图像去噪、图像聚类等方面取得了许多研究成果，具有重要的实用价值。然而，传统的稀疏编码是基于数据的向量表示，即在处理高维多通道图像时，首先将图像其转换成更高维的向量，不仅增加了计算的复杂度，而且破坏了图像像素间的临近信息，甚至破坏了图像中的物体结构特征。

文献“multi-dimensionaltensorsparserepresentation(naqi,yunhuishi,xiaoyansun,baocaiyin,tensr,cvpr2016)”公开一种基于tucker分解的张量稀疏编码模型，如图2所示，该模型分别模拟各个维度的结构特性，缺乏对两个维度之间相关性的考虑，而图像的两个空间维度共同作用才形成了图像中的物体，如果单独考虑其中的某一个维度，都不能很精确的对物体进行描述。虽然基于tucker分解的张量稀疏能够保留高阶样本的空间结构特性，但该模型存在以下不足：(a)没有考虑各个维度之间的相关性，以图像为例，其两个空间维度之间相互关联；(b)该模型在字典学习的过程中采用了对各个维度的字典逐个更新，算法的可并行能力差，收敛速度慢，极大的限制了该模型在高阶数据中的应用。

文献“highordertensorformulationforconvolutionalsparsecoding(adelbibi,bernardghanem,iccv2017)”公开一种两阶的卷积稀疏编码，其中字典的每一项可以看作是一个滤波器，如图3所示，将原有的卷积稀疏编码模型推广到任意维度的高阶数据运算中。该技术从滤波器的角度出发，字典中的每一项表示一个高阶滤波器。该技术的主要缺点在于计算的复杂度高，限制了高阶滤波器的应用范围，具体表现在：在求解稀疏表示和字典学习时都需要求解线性系统，需要矩阵的逆运算，计算的复杂度较高，很难推广到大规模的高阶数据运算中。

文献“denoisingandcompletionof3ddataviamultidimensionaldictionarylearning(zeminzhang,shuchinaeron,ijcai2016)”提出了一种三阶的基于张量线性组合的张量稀疏编码模型，该技术采用了张量线性组合来近似三阶的张量，该技术并没有深入挖掘张量线性组合和传统的线性组合之间的差异，且该技术只适用于三阶张量，不能明显的推广到高阶(大于三阶)张量。同时该技术在更新字典时采用了逐个更新字典的基，并行性差。在每个基的更新过程中都需要做svd分解，复杂度高，很难推广到大规模的高阶应用中。

传统的基于向量的稀疏编码模型在处理高维数据时，通常是将高维数据转化成一维的向量，这样做的局限性主要在与：(a)向量化的过程会丢失很多的空间结构信息，如图1所示，向量化之后，图片中的飞机结构将完全丢失；(b)高维数据的向量化过程会产生维度很高的向量，如100×100大小的图片，向量化之后的维度为10000，给运算带了非常大的负担，限制了稀疏编码在高维数据中的应用。

技术实现要素：

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多维张量字典学习算法的图像处理方法。

本发明的目的可以通过以下技术方案来实现：

一种基于多维张量字典学习算法的图像处理方法，其特征在于，该方法将多维信号以张量表达实现图像处理；

所述张量表达过程为：通过求解一张量稀疏编码模型获得张量字典及相应的张量系数，获得与输入的多维信号相应的张量；

所述张量稀疏编码模型表达为：

其中，χ表示多维信号，表示张量字典，表示张量系数，‖‖f表示f范数，‖‖1表示1范数，β表示稀疏参数，表示的第j个侧面切片，即，第j个张量基，r表示张量基的个数，其中r＞n1。

进一步地，采用交替迭代优化方法求解所述张量稀疏编码模型，具体包括以下步骤：

1)随机初始化张量字典和张量系数；

2)以上一步获得的张量字典进行张量系数的学习，更新张量系数；

3)以上一步获得的张量系数进行张量字典的学习，更新张量字典；

4)判断是否迭代结束，若是，则终止，输出最终张量字典和对应的张量系数，若否，则返回步骤2)。

进一步地，步骤2)中，采用基于张量的快速迭代收缩阈值方法进行张量系数的学习，具体包括以下步骤：

201)基于上一步获得的张量字典，求解获得初始化的张量系数

202)令d1=1，t＝1；

203)通过以下公式计算

204)通过以下公式计算

其中，r＝β/l，l为李普希兹常数；

205)令

206)判断t是否等于最大迭代次数，若是，则输出若否，则t＝t+1，返回步骤203)。

进一步地，所述初始化的张量系数由以下表达式获得：

进一步地，所述李普希兹常数的表达式为：

进一步地，步骤3)中，固定张量系数通过求解以下优化问题进行张量字典的学习：

进一步地，求解所述优化问题的具体包括以下步骤：

301)在频域中描述所述优化问题，并将其拆分为多个子问题，转化后获得的频域优化问题表示为：

其中，和分别为多维信号χ和张量系数的频域表示；

302)将所述频域优化问题转化为拉格朗日函数：

其中，为拉格朗日乘子；

303)求解所述拉格朗日函数获得拉格朗日乘子λ；

304)计算获得的解析解：

305)通过傅里叶逆变换得到最终的张量字典。

进一步地，所述步骤303)中，建立所述拉格朗日函数的对偶优化问题：

求解所述对偶优化问题获得拉格朗日乘子λ。

进一步地，所述步骤303)中，采用牛顿法或者共轭梯度算法求解拉格朗日乘子λ。

与现有技术相比，本发明具有以下有益效果：

1)本发明提出的张量稀疏编码模型，采用张量来表示原有的高维数据，保留了数据的空间结构特性，提高了图像数据处理的精确度。

2)本发明在张量线性表示下，可以用很小的字典生成同样大小的数据。如要生成100×100大小的任何数据，在线性组合下，需要首先将给数据转成其向量形式为10000维的向量，需要10000个10000维的基。而在张量线性组合下，只需要100个100×100个张量基，字典的大小缩小了100倍。

3)本发明在求解张量稀疏编码模型时采用交替迭代优化的方法，可以获得较高的精度，能较好的推广到高阶的数据中。

4)本发明在张量稀疏表示的学习中设计了一种新的基于张量的快速迭代收缩阈值算法，不仅能够很好的并行化处理，而且复杂度较低。算法的复杂度和字典的个数成线性关系，而当前的基于张量的稀疏编码模型在张量稀疏表示的学习的复杂度都是成三阶或者更高阶的关系。

5)本发明在张量字典学习过程中，首先利用快速傅里叶变化将原问题成一系列小规模的子问题，降低了问题的难度和复杂度，然后利用对偶拉格朗日算法，求解对偶拉格朗日问题，极大的减少了优化变量的数目，能够有效的缓解传统的字典学习算法的困境，提高了算法的有效性。

6)本发明方法在多普图像去噪、图像聚类和彩色图像重构等方面进行了验证，已达到并超越当前其他高阶字典学习算法的性能。其他的应用还可包括：传统的字典学习的应用、基于时序分析的应用、基于图像集合的分类等。

附图说明

图1为传统的稀疏比编码模型示意图；

图2为现有的基于tucker分解的张量稀疏编码模型示意图；

图3为现有的基于卷积运算的稀疏编码模型示意图；

图4为本发明的张量稀疏编码模型(三阶张量)示意图；

图5为线性组合与张量线性组合的比较示意图；

图6为张量线性组合(1个基)和线性组合(9个基)的等价形式示意图；

图7为本发明张量稀疏编码模型的求解流程示意图；

图8为msi数据集示意图；

图9为实施例1中多谱图像的去噪效果对比示意图；

图10为实施例2中彩色图像重构效果示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

下文中所用符号及算子定义：

表1：符号表达及含义

表2：范数及算子

注：的频域表示可以通过下面步骤实现：

step1：

step2：从第3个维度开始到第p个维度，依次做傅里叶变化，即：

表3：符号及说明

给定本发明给出以下三个算子fold(unfold(χ))＝χ其中：

本发明提供一种基于多维张量字典学习算法的图像处理方法，该方法将多维信号以张量表达实现图像处理，可以保留图像本身的结构特性；所述张量表达过程为：通过求解一张量稀疏编码模型获得张量字典及相应的张量系数，获得与输入的多维信号相应的张量。首先，张量作为矩阵(2阶张量)的高阶推广，能更好的保留高阶(3阶及以上)数据本身的结构特性，如彩色图像和彩色视频等。其次，张量线性组合不是线性组合的简单的高阶推广，其具有有别于线性组合的独特性质。

上述方法是在充分挖掘验证张量线性组合特性的基础上提出的。张量线性组合特性包括：(1)小字典特性；(2)平移不变特性。小字典特性从本质上减少了字典的大小，从而有效的降低了计算的复杂度。平移不变特性能有效的减少字典基之间的相互平移的现象，从而有效的提高字典的表达能力。

本发明是建立在循环代数系统上的，基于张量线性组合构建新的张量稀疏编码模型，并提出了有效的求解算法。

1、模型的理论基础---张量线性组合

张量线性组合是建立在张量积运算的基础上，本发明首先给出张量积的定义。高阶张量积(>3)是通过递归的形式来定义的，因此首先给出三阶张量积的定义。

def1：(三阶张量积)给定和张量积其中

注意到三阶张量积只包含保准的矩阵乘积运算。def2将三阶张量积运算推广到任意阶张量。

def2：(p阶张量积)给定和张量积其中

接下来，获得张量线性组合的定义。

def3：(张量线性组合)给定r个p阶张量张量线性组合定义为：

其中，张量系数

从def3中可以看出，张量线性组合和线性组合的表达形式相似，不同的是张量线性组合中可以保留多维数据的空间结构，而且张量线性组合采用的是张量积而不是标准的矩阵乘积，如图5所示。

事实上，张量线性组合可以转化为线性组合，如引理1中所示：

引理1：r个p阶张量的张量线性组合和的线性组合等价，即：

其中

引理1可以利用circ(.)和unfold(.)算子将张量积转化为标准的矩阵乘法运算来证明。从引理1中可以看到在张量线性组合中的一个张量基实际上对应了线性组合中的一组基，如对应线性组合中的dj，其中包含了一组由演化而来的向量基。这表明了在张量线性组合中可以利用比线性组合中更少的基来生成相同的空间，较少的基意味着系数编码中的‘小’字典，‘小’字典能够显著的降低计算的复杂度。

此外，从dj的表达式中可以看出dj(：，1)是的向量化表示，dj中的其他列为dj(：，1)的平移形式，这种平移既包含了空间上的平移，又包含了彩色信道间的平移，如图6所示。

通过上述分析，传统系数编码面临的两个挑战：(i)多维数据的向量表示导致了空间结构的缺失；(ii)多维数据会产生高维的向量空间，需要‘大’的字典来表示，会极大的增加计算的复杂度。上述两个挑战可以在张量线性组合中有效的解决，为此本发明提出了基于张量线性组合的新的张量稀疏编码模型及其有效的求解算法。

2、模型的构建---基于张量线性组合的新的张量稀疏编码模型

为了近似多维信号χl，其大小为：n1×n3×…×np。首先把χl转化成了p阶的张量给定一个充分的张量字典：r＞n1，可以表示为：

其中为新的张量表示，由于张量线性组合和线性线性组合之间的等价特性，本发明将传统的稀疏编码中的稀疏度量l0范数推广到张量中，即中非零元素的个数。为了计算方便，本发明采用了的凸松弛作为张量稀疏编码的稀疏度量。

给定n2个多维信号作为输入，如图4所示，本发明提出的张量稀疏编码模型如下：

其中：的大小为n1×r×n3×…×np，r＞n1。

3、模型的求解算法---张量稀疏编码算法和张量字典求解算法

上述模型中由于目标函数的非凸特性和张量积运算，求解的挑战很大。如图7所示，本发明提出一种有效的基于交替最小优化的算法，包括张量稀疏求解和张量字典求解，见算法1。

算法1：多维张量稀疏编码算法

输入：多维数据稀疏参数β最大的迭代次数：t，

输出：学习到的张量字典和张量系数

初始化：随机初始化张量字典张量系数拉格朗日对偶变量

1.fort＝1:t

2.//张量系数学习

3.通过算法2求解张量系数

4.//张量字典学习

5.对多维数据χ和张量系数做傅里叶转化，得到对应的频域表示和

6.通过牛顿方法求解拉格朗日乘子

7.按切片更新张量字典的频域表示

8.通过傅里叶逆变换得到

endfor

3.1、张量系数求解

固定字典张量系数可以通过如下的表达式进行求解：

本发明设计一种基于张量的快速迭代收缩阈值方法(tensor-basedfastiterativeshrinkagethresholdingalgorithm(tfista))来求解张量系数，见算法2。

算法2：tfista算法求解稀疏的张量稀疏

输入：多维张量数据张量字典稀疏参数β，最大的迭代次数t。

输出：张量稀疏

初始化：张量稀疏令d1＝1，李普希兹常数

1.fort＝1tot

2.计算

3.计算

4更新

5.更新

6.endfor

在每次迭代时：t=0，1，2，…

且

其中，l为李普希兹常数，rt＝β/l，为近似算子。关于张量系数梯度的计算公式如下：

李普希兹常数可通过引理2来计算。

引理2：为李普希兹连续的函数，而且李普希兹常数为：

引理2可以通过李普希兹常数的定义来证明。

由于块循环卷积矩阵可以通过傅里叶变化对角化，令可以得到：

其中为ni×ni离散傅里叶转化矩阵，ir为r×r的单位矩阵。

由于普范数的酉不变特性，以得到李普希兹常数的表达式如下：

令可以通过软阈值算子求解：

3.2、张量字典学习方法

固定张量系数求解张量字典的优化问题如下：

由于张量积可以在频域中有效求解，为此，本发明首先将上述问题转化到频域中：

然后，为进一步提高算法的效率，本发明采用了拉格朗日对偶算法，将优化的变量数目从n1n3…npr减少为r。对应的拉格朗日函数为：

通过求解最小化问题，可以得到的解析解，如下：

然后将的解析解代回到可以得到其对偶优化问题

上述优化问题可以通过牛顿方法或者共轭梯度算法进行求解。一旦λ，的值求出，字典就可以获得。

3.3、算法复杂度分析

本发明分别考虑张量系数学习算法和张量字典学习算法的计算复杂度。在张量系数学习，最主要的计算在于梯度的计算，而梯度中主要涉及张量积运算，该运算在频域中可以有效求解，复杂度为：o(n1n2n3r+n1n2n3logn2n3)，可以看到，复杂度和字典中基的个数成线性关系。张量字典学习中主要的计算在于求解对偶变量，计算的复杂度为：o(r²n2n3r+n1n2n3logn2n3)。表4显示了本发明方法和当前最先进的基于张量的字典学习算法的复杂度的比较，从中可以看出，本发明方法复杂度显著下降。表4中，tcl为张量系数学习，tdl为张量字典学习，tensr、tcsc分别代表基于tucker分解和基于卷积分解的当前最先进的稀疏表示方法。

表4计算复杂度对比

4、模型的应用

为验证本发明方法的有效性，以下将方法应用在多普图像去噪和彩色图像重构中。

实施例1：多普图像去噪

本实施例采用的多谱图像的数据集为哥伦比亚的msi数据集，该数据集包含32个不同的场景，每个场景为一副多谱图像，其分辨率为512x512，普分辨率包含了31频谱，从400nm到700nm，每10nm取一副图像，所以每个场景中的多谱图像大小为：512x512x31。图8给出了msi数据集中的几个场景。

本实施例通过在原图中加入白噪声，然后利用本文中的张量字典学习方法去噪。首先，本实施例随机选择一些位置加入噪声，对每个选取的空间位置(i，j)∈ω，加入白噪声其中去噪过程中，本实施例选取后10个频谱去噪。本实施例从噪声图中提取8x8x10的图像块，随机选择10000个有重叠的图像块作为输入，字典的大小设为：64x256x10，图9为本发明方法和当前最先进的一些算法去噪效果对比图。

实施例2：彩色图像重构

本实施例采用的数据为otb50中的篮球视频。为了验证所提的张量稀疏表示能够学习帧与帧之间的相关特性，本实施例选择10帧(第1帧，第10帧，第20帧到第90帧)，存储为四阶张量：432x576x3x10，用于学习字典。然后利用学习到的字典来重构第5帧，第15帧到第95帧。和去噪类似，本实施例随机选取有重叠的图像块8x8x3x10，保存成8x1x8x3x10，字典的大小设置为：8x16x8x3x10。图10显示了重构的帧。从中可以看出本发明提出的张量字典学习算法能够捕捉到帧与帧之间的相关性，而且得到了比当前最好的基于卷积的张量稀疏编码算法tcsc更高的重构效果。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姜飞;申瑞民
技术所有人：上海交通大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。