图像位移确定方法、装置及电子设备

文档序号:30510087发布日期:2022-06-25 01:38阅读:162来源:国知局
图像位移确定方法、装置及电子设备

1.本发明涉及图像处理技术领域,尤其涉及一种图像位移确定方法、装置及电子设备。


背景技术:

2.通常采用数字图像相关技术来计算物体形变前后的位移。数字图像相关技术的计算过程是首先从物体形变前的图像中确定一个感兴趣区域,以及该感兴趣区域的中心点,再按相关函数计算之后的图像中每个区域与该感兴趣区域的相关系数,与该感兴趣区域相关系数最大的区域则为发生形变后的位置,进而计算得到感兴趣区域中心点的位移。通过计算多个感兴趣区域中心点的位移可以确定物体的位移场。此外,在计算过程中还需要对原始的图像进行插值处理,增加数据量,来满足计算物体形变的微小位移的要求。可见,这种方式的计算过程比较复杂,计算量较大。


技术实现要素:

3.本发明提供一种图像位移确定方法、装置及电子设备,能够在计算图像间位移时减少计算量,提高计算的效率。
4.第一方面,本发明提供一种图像位移确定方法,包括:
5.获取连续的多张散斑图像;
6.将所述多张散斑图像输入由卷积神经网络构成的位移检测模型,所述位移检测模型用于提取所述多张散斑图像之间目标物体的位移;
7.获取所述位移检测模型输出的位移,基于所述位移确定所述目标物体的运动信息。
8.根据本发明提供的一种示例性实施方式,所述位移检测模型包括输入层、三维卷积层、二维卷积层以及检测层;所述将所述多张散斑图像输入由卷积神经网络构成的位移检测模型,包括:
9.将所述多张散斑图像输入所述输入层,获取所述输入层对所述散斑图像提取的第一特征数据;
10.将所述多张散斑图像各自对应的所述第一特征数据,按照所述多张散斑图像的时间顺序堆叠为三维数据;
11.将所述三维数据输入所述三维卷积层,获得所述三维卷积层输出的第二特征数据,并将所述第二特征数据转化为二维;
12.将所述二维的第二特征数据输入所述二维卷积层,获得第三特征数据;
13.将所述第三特征数据输入所述检测层,通过所述检测层确定所述位移。
14.根据本发明提供的一种示例性实施方式,所述位移检测模型包括多个输入层,所述将所述多张散斑图像输入所述输入层,包括:
15.将所述多张散斑图像分别输入到不同的输入层,所述输入层与所述散斑图像一一
对应。
16.根据本发明提供的一种示例性实施方式,所述方法还包括:
17.所述三维卷积层的卷积核的深度与所述三维数据的深度相同。
18.根据本发明提供的一种示例性实施方式,所述散斑图像为发出声音的目标物体表面的散斑形成图像,所述基于所述位移确定所述目标物体的运动信息之后,还包括:
19.根据所述运动信息还原出作用在所述目标物体上的声音信号。
20.第二方面,本发明还提供一种图像位移确定装置,包括:
21.图像采集模块,用于获取连续的多张散斑图像;
22.位移计算模块,用于将所述多张散斑图像输入由卷积神经网络构成的位移检测模型,所述位移检测模型用于提取所述多张散斑图像之间目标物体的位移;
23.运动特征确定模块,用于获取所述位移检测模型输出的位移,基于所述位移确定所述目标物体的运动信息。
24.第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像位移确定方法。
25.第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像位移确定方法。
26.第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像位移确定方法。
27.本发明提供的图像位移确定方法、装置及电子设备,与传统的数字图像相关算法不同,是通过卷积神经网络构成的位移检测模型来确定多张图像之间的位移,为图像位移计算提供了新的方式和研究方向,有利于图像位移算法的发展。并且,本发明的技术方案中,位移检测模型通过提取图像的特征,来确定图像间的位移。无需对图像中的每个点进行搜索,也无需进行插值处理,计算过程简单,能够提高计算速度。
附图说明
28.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
29.图1是本发明提供的图像位移确定方法的流程示意图之一;
30.图2是本发明提供的图像位移确定方法中位移检测模型的结构示意图;
31.图3是本发明提供的图像位移确定方法的流程示意图之二;
32.图4是本发明提供的图像位移确定方法的应用场景示意图;
33.图5是本发明提供的图像位移确定装置的结构示意图;
34.图6是本发明提供的电子设备的结构示意图。
具体实施方式
35.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本
发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
36.本发明首先提供一种图像位移确定方法。该方法可以由个人计算机、掌上电脑、平板电脑、或服务器等电子设备执行,本发明对该电子设备的表现形式不作特殊限定。
37.下面结合附图描述本发明的图像位移确定方法的技术方案。
38.如图1所示,该图像位移确定方法可以包括如下步骤:
39.s10:获取连续的多张散斑图像。
40.散斑图像是激光照射到目标物体表面发生反射或激光通过不均匀物体表面时形成的图像。本实施方式中,通过激光照射目标物体,然后用相机对目标物体进行拍照,可以得到散斑图像。通过采样速率较高的相机在一段时间内对目标物体表面进行采样,可以得到多张散斑图像构成的图像序列。通过控制采样时间的长短,可以得到任意数量张散斑图像。例如,通过采样速率为3200fps的相机每秒可以得到3200张散斑图像。
41.s20:将所述多张散斑图像输入由卷积神经网络构成的位移检测模型,所述位移检测模型用于提取所述多张散斑图像之间目标物体的位移。
42.该位移检测模型为预先训练好的模型。可选的,该位移检测模型可以包括输入层、三维卷积层、二维卷积层来提取图像的特征,然后通过检测层来预测图像间的位移。与只采用二维卷积来提取特征的方式相比,本发明增加了三维卷积层,通过三维卷积在提取图像之间动作信息的基础上,还可以有效保留图像间的时间信息,提高位移计算的精确度。
43.为了同时计算多张散斑图像间的位移,上述位移检测模型可以包括多个输入层,该多个输入层可以同时输入散斑图像,并列地对输入的散斑图像进行处理,能够提高处理的速度,节省时间,并且有利于提取多张散斑图像间的时间信息。
44.下面以两个输入层为例说明位移检测模型的具体结构。如图2所示,位移检测模型200可以包括输入层201、输入层202、三维卷积层203、二维卷积层204以及检测层205。两个输入层可以分别输入两张散斑图像,则该位移检测模型200可以输出这两张散斑图像之间的位移。举例来说,将相机采集到的两张散斑图像:图像1、图像2分别输入到位移检测模型200中,由位移检测模型200的输入层201接收图像1,由输入层202接收图像2。通过输入层201提取得到图像1的特征1,通过输入层202提取得到图像2的特征2。
45.同理的,如果要计算n张散斑图像之间的位移,则可以构建包括n个输入层的位移检测模型,来计算n张散斑图像中两两之间的位移。
46.将散斑图像输入位移检测模型的处理过程如图3所示,具体包括以下步骤:
47.s31:将所述多张散斑图像输入所述输入层,获取所述输入层对所述散斑图像提取的第一特征数据。具体的,输入层可以由卷积层、池化层以及两个残差单元构成。将散斑图像(例如图像1)输入到输入层201中时,输入层201中的卷积层2011对图像1进行二维卷积,卷积后的结果经过池化层2012进行池化处理,池化处理后的结果作为残差单元2013的输入。残差单元2013可以由两个卷积层构成,这两个卷积层再次进行特征提取,提取结果与残差单元2013的输入进行加和,作为下一个残差单元2014的输入,最终得到输入层201的输出结果,即图像1的第一特征数据。
48.可选的,上述输入层中各个子层的卷积核大小、滑动步长、通道数等参数可以根据
实际情况设置。例如,输入层为了尽量多的提取图像的特征,卷积层2011的卷积核可以设置较大的尺寸,如卷积核为7
×
7。池化层可以采用最大池化、平均池化等方式进行特征处理;其感受野的尺寸可以设置为3
×
3,滑动步长为2,则输出结果是将图像的长、宽分别减半,可以减少计算量。输入层的通道数可以包括64、128等,本实施方式对上述参数均不作特殊限定。
49.s32:将所述多张散斑图像各自对应的所述第一特征数据,按照所述多张散斑图像的时间顺序堆叠为三维数据。
50.每张散斑图像经过输入层提取特征后获得二维的第一特征数据。将多张散斑图像得到的多个第一特征数据按照散斑图像间的时间顺序进行堆叠,从而将二维的第一特征数据转换为三维数据。该三维数据的深度与第一特征数据的数量一致,可以指示第二特征之间的时间序列。举例来说,假设图像1、图像2为32
×
32的二维数据,输入层不改变图像的尺寸时,提取的第一特征数据也为32
×
32的二维数据。将图像1对应的第一特征数据记为特征a1,图像2对应的第一特征数据记为b1,则将第一特征数据a1与第一特征数据b1可以堆叠为一个32
×
32
×
2的三维数据。依次类推,将多个散斑图像按照时间顺序一层一层堆叠上去,可以得到32
×
32
×
n的三维数据,n为散斑图像的数量,即第一特征数据的数量。
51.对于多张散斑图像,按照散斑图像采集的时间顺序将每个散斑图像按深度堆叠,可以得到由散斑图像的第一特征数据构成的三维数据。该三维数据的长、宽维度上为图像的运动信息、而深度上为时间信息,从而将时间信息和运动信息进行融合。后续,在三维卷积层提取特征时,不仅可以提取图像中的运动信息、也可以提取时间信息,增加了特征的全面性,使得位移计算更加准确。
52.s33:将所述三维数据输入所述三维卷积层,获得所述三维卷积层输出的第二特征数据,并将所述第二特征数据转化为二维。
53.三维卷积层通过三维的卷积核提取第一特征数据中的特征,并输出三维的第二特征数据。举例来说,三维卷积层的卷积核可以为3
×3×
2,若输入的三维数据为16
×
16
×
2,则该三维卷积层对该三维数据进行卷积处理后,可以得到一个深度为1,长宽均为16的三维数据,即第二特征数据。为了使得第二特征数据能够被转化为二维的数据,则三维卷积层最终输出的第二特征数据的深度可以为1。通过设置三维卷积层中卷积核的尺寸,在卷积核的深度与输入的三维数据的深度相同的情况下,卷积处理后得到的数据的深度为1。
54.s34:将所述二维的第二特征数据输入所述二维卷积层,获得第三特征数据。
55.该二维卷积层可以由多个残差单元构成,如图2所示,二维卷积层204可以包括残差单元2041、残差单元2042以及残差单元2043。每个残差单元由两个残差块构成。为了提取到更高级的特征,可以对残差单元2041、残差单元2042以及残差单元2043的通道数逐渐加倍,依次提取更高层级的特征。例如,残差单元2041为具有128通道的二维卷积、残差单元2042为具有256通道的二维卷积、残差单元2043为具有512通道的二维卷积。进一步的,残差单元需要将输出与输入进行同维度的相加运算,得到的结果为下一个残差单元的输入。在两个相连的残差单元的通道数不同的情况下,需要将输入的低通道数据转换为高通道数据。通过增加一个1
×
1的卷积层来实现将低通道数据转换为高通道数据。
56.举例来说,若三维卷积层为64通道,则输出的第二特征数据为64维。该第二特征数据输入到残差单元2041中,该残差单元2041中的卷积层均为128通道。在残差单元2041的第
一个残差块,即残差块1输出结果时,该结果需要与输入(即第二特征数据)相加,作为下一个残差块的输入。在相加之前,可以将第二特征数据通过128通道的卷积层206再进行一次卷积处理,该卷积层206的卷积核为1
×
1。每次卷积操作是对1个像素的权重与对应像素值相乘,得到的结果与输入的第二特征数据相比,各位置之间像素值的关系不变,像素值整体等比放大,能够保持数据的稳定性。
57.同理的,残差单元2042与残差单元2043也需要进行上述1
×
1的卷积处理。也就是说,残差单元2042的第一个残差块的输出与输入相加时,该输入需要先进行256通道的1
×
1卷积处理,通过卷积层207来实现。
58.可选的,残差单元还可以通过卷积核的滑动步长,来减少提取的二维数据的长宽。举例来说,残差单元2041中的残差块1的滑动步长为2时,该残差单元输出的数据相比于输入的第二特征数据而言,长宽均缩小一半。残差块2的滑动步长为1,维持残差块1的尺寸,保持数据的稳定性。
59.综上所述,二维卷积层204中包括多个残差单元,每个残差单元的通道数逐步增加,对三维数据从时间与空间上进行逐层提取,最终得到的第三特征数据可以表征较高层级的特征信息。
60.s35:将所述第三特征数据输入所述检测层,通过所述检测层确定所述位移。
61.检测层205具体可以包括池化层和全连接层。池化层与上述二维卷积层中最后一个残差单元,即残差单元2043相连,接收残差单元2043输出的第三特征数据。池化层可以将提取到的特征进行融合,便于计算损失。举例来说,残差单元2043包括512通道数,该池化层可以对第三特征数据的每个通道进行池化,例如平均池化处理,则每个通道获得一个像素值,即每个通道的平均像素值。将池化得到的512个像素值输入全连接层,全连接层可以将该512个元素做矩阵运算,得到一个元素,即位移。
62.接下来,继续参考图1。s30:获取所述位移检测模型输出的位移,基于所述位移确定所述目标物体的运动信息。
63.若输入的散斑图像为相邻的两帧图像,则位移检测模型可以输出该两帧图像之间的位移。若输入的散斑图像为多帧图像,则位移检测模型可以输出多张图像两两间的位移。
64.位移检测模型在应用前,需要利用训练数据对其进行训练。具体的,训练数据包括一定数量的散斑图像序列。该散斑图像序列中的每张散斑图像均携带一标签,该标签用于指示其与下一张散斑图像之间的位移。将该散斑图像序列输入位移检测模型,得到散斑图像序列中相邻的图像之间的预测结果。然后计算将该预测结果与对应的标签之间的损失,通过该损失来优化模型每一层的参数。优化后的模型利用下一个散斑图像序列进行下一次的预测,并再次计算预测结果与对应标签之间的损失,然后再次优化参数,直到损失满足预设条件为止,完成训练,得到训练后的位移检测模型。
65.训练后的位移检测模型能够表示图像的特征与位移之间的映射关系。当需要进行计算的散斑图像输入到该位移检测模型中,位移检测模型能够提取散斑图像中的运动特征,进而根据建立的映射关系,确定该运动特征对应的位移。与现有技术相比,本方案不需要搜索感兴趣区域,也不需要逐一计算位移场,可以直接确定出图像之间的位移,计算过程更加简单,能够提高计算速率。
66.可选的,为了维持模型在训练过程中的相对稳定,在每一个卷积层后加上归一化
层,该归一化层可以通过各种归一化函数来对上一层卷积层计算得到的结果进行归一化。并且,在该归一化层后可以再连接一个relu激活函数。
67.散斑图像可以用于进行非接触式语音探测技术中。该技术使用激光照射振动物体,通过相机获取物体表面散射产生的散斑图像,采用图像处理技术,对振动特征进行提取,从而通过物体的振动特征来还原声音源的声音信号。该技术广泛地应用在安防系统、监控、军事等领域。可选的,根据上述位移检测模型输出的散斑图像间的位移,可以确定目标物体的运动信息,根据该运动信息可以还原出作用在目标物体上的声音信号。
68.多张散斑图像每相邻两张之间的位移可以描述目标物体作简谐运动的规律,即振动的规律。若物体表面的振动来自声波传递的能量,则物体表面的散斑的运动规律可以表示声音的规律。因而,将多张散斑图像之间的位移变化可以转化为声波,从而得到作用在目标物体上的声音信号。
69.图4示出了本发明的技术方案的一种应用场景。该应用场景中包括激光器401、高速相机402、计算机403以及声音源404。通过支架可以将高速相机402以及激光器403进行固定,并且激光器的发射角度和相机的拍摄角度均可以进行调整。
70.具体的,激光器401将一束激光投射到正在发出声音的物体(声音源404)上。由于粗糙表面的物体受到激光照射会在其表面产生散斑,当物体发生振动时,散斑图像就随物体表面作来回往复的谐运动。每一时刻处于不同位置的散斑图像,在每相邻位置上会产生一定的位移。
71.通过高速相机402在每间隔很短的时间内采集一张声音源404表面上的散斑图像,然后得到一段时间内的散斑图像序列。例如,通过采样频率为3200fps的高速相机,一秒钟可以获得3200张散斑图像,该3200张散斑图像按照时间顺序排列,可以构成散斑图像序列。
72.计算机403可以为执行上述技术方案的电子设备。该电子设备可以预先构建位移检测模型,并对位移检测模型进行训练,保存训练后的位移检测模型。然后,该计算机403可以执行上述步骤s10至步骤s30,获取高速相机402采集的散斑图像序列,利用位移检测模型获得上述散斑图像序列中每相邻的图像之间的位移。最后,计算机404可以将位移转化为声波,还原出声音波形图。该声音波形图即为声音源404发出的声音信号。
73.可见,采用本发明上述的技术方案,可以进行非接触式的语音探测,得到声音信号。与现有技术中采用数字图像相关技术来计算位移的方式相比,本技术方案更加简单高效,并且能够得到准确度较高的位移,增加声音信号的清晰度。
74.进一步的,本发明还提供一种图像位移确定装置,可用于执行上述图像位移确定方法。下面对本发明提供的图像位移确定装置进行描述。
75.如图5所示,图像位移确定装置50可以包括图像采集模块51、位移计算模块52、运动特征确定模块53。
76.具体的,图像采集模块51,用于获取连续的多张散斑图像;位移计算模块52,用于将所述多张散斑图像输入由卷积神经网络构成的位移检测模型,所述位移检测模型用于提取所述多张散斑图像之间目标物体的位移;运动特征确定模块53,用于获取所述位移检测模型输出的位移,基于所述位移确定所述目标物体的运动信息。
77.在本发明的一种示例性实施方式中,所述位移检测模型包括输入层、三维卷积层、二维卷积层以及检测层。
78.在本发明的一种示例性实施方式中,该位移计算模块52具体包括第一特征提取单元,用于将所述多张散斑图像输入所述输入层,获取所述输入层对所述散斑图像提取的第一特征数据;维度转化单元,用于将所述多张散斑图像各自对应的所述第一特征数据,按照所述多张散斑图像的时间顺序堆叠为三维数据;第二特征提取单元,用于将所述三维数据输入所述三维卷积层,获得所述三维卷积层输出的第二特征数据,并将所述第二特征数据转化为二维;第三特征提取单元,用于将所述二维的第二特征数据输入所述二维卷积层,获得第三特征数据;检测单元,用于将所述第三特征数据输入所述检测层,通过所述检测层确定所述位移。
79.在本发明的一种示例性实施方式中,所述位移检测模型包括多个输入层,所述第一特征提取单元被配置为将所述多张散斑图像分别输入到不同的输入层,所述输入层与所述散斑图像一一对应。
80.在本发明的一种示例性实施方式中,该第二特征提取单元被配置为:所述三维卷积层的卷积核的深度与所述三维数据的深度相同。
81.在本发明的一种示例性实施方式中,所述散斑图像为发出声音的目标物体表面的散斑形成图像,该图像位移确定装置还包括语音检测单元,用于根据所述运动信息还原出作用在所述目标物体上的声音信号。
82.由于本发明示例实施方式中的图像位移确定装置的各个功能模块与上述图像位移确定方法的示例实施方式的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照上述的图像位移确定方法的实施方式。
83.图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(communications interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行上述图像位移确定方法,该方法包括:步骤s10:获取连续的多张散斑图像。步骤s20:将所述多张散斑图像输入由卷积神经网络构成的位移检测模型,所述位移检测模型用于提取所述多张散斑图像之间目标物体的位移。步骤s30:获取所述位移检测模型输出的位移,基于所述位移确定所述目标物体的运动信息。
84.此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
85.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的图像位移确定方法,该方法包括步骤s10:获取连续的多张散斑图像。步骤s20:将所述多张散斑图像输入由卷积神经网络构成的位移检测模
型,所述位移检测模型用于提取所述多张散斑图像之间目标物体的位移。步骤s30:获取所述位移检测模型输出的位移,基于所述位移确定所述目标物体的运动信息。
86.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的图像位移确定方法,该方法包括:步骤s10:获取连续的多张散斑图像。步骤s20:将所述多张散斑图像输入由卷积神经网络构成的位移检测模型,所述位移检测模型用于提取所述多张散斑图像之间目标物体的位移。步骤s30:获取所述位移检测模型输出的位移,基于所述位移确定所述目标物体的运动信息。
87.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
88.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
89.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1