视差图获取方法、装置、存储介质及设备与流程

文档序号:18084896发布日期:2019-07-06 10:25阅读:230来源:国知局
视差图获取方法、装置、存储介质及设备与流程

本申请涉及机器学习技术领域,特别涉及一种视差图获取方法、装置、存储介质及设备。



背景技术:

立体视觉是机器视觉的一种重要形式,以bsv(binocularstereovision,双目立体视觉)为例,bsv是一种基于视差原理并利用摄像头拍摄同一空间物体的左右两张视点图像,通过计算左右两张视点图像的对应点(correspondence)之间的位置偏移量,来获取该空间物体的三维几何信息的方法。

继续以bsv为例,其中,上述位置偏移量即为视差(disparity),假设该空间物体上的任意一点m在左右两张视点图像上的投影点分别为ml和mr,则ml和mr被称为对应点,而求取左右两张视点图像的对应点的过程即为立体匹配。换一种表达方式,运用立体匹配算法能够获取视差图。其中,视差图是以左右两张视点图像中的任意一张视点图像为基准,且尺寸大小等同于基准图像、元素值为视差值的图像。

相关技术在获取视差图时,往往利用基于前向传播的神经网络实现。该种方式无法有效地捕捉像素的背景信息,导致获取到的视差图精确性欠佳,进而在诸如基于视差图对空间物体进行深度估计时会存在不够精准的缺陷。为此,如何获取精确的视差图,成为了本领域技术人员亟待解决的一个问题。



技术实现要素:

本申请实施例提供了一种视差图获取方法、装置、存储介质及设备,解决了相关技术获取到的视差图不够精确的问题。所述技术方案如下:

一方面,提供了一种视差图获取方法,所述方法包括:

获取目标空间区域的多张视点图像;

对于所述多张视点图像中的任意一个图像对,基于第一网络分别对所述图像对中的左图像和右图像逐层进行特征提取,所述第一网络包括多个非空洞卷积层,获取所述多个非空洞卷积层输出的左特征图和右特征图;

基于所述第一网络的第m个非空洞卷积层输出的第一左特征图和第一右特征图,获取第一视差图,m为正整数;

获取第m-1个非空洞卷积层输出的第二左特征图和第二右特征图;

根据所述第一视差图、所述第二左特征图和所述第二右特征图,采用第二网络获取第二视差图,所述第二网络包括具有不同空洞倍率的多个空洞卷积层。

另一方面,提供了一种视差图获取装置,所述装置包括:

第一获取模块,用于获取目标空间区域的多张视点图像;

提取模块,用于对于所述多张视点图像中的任意一个图像对,基于第一网络分别对所述图像对中的左图像和右图像逐层进行特征提取,所述第一网络包括多个非空洞卷积层;

第二获取模块,用于获取所述多个非空洞卷积层输出的左特征图和右特征图;

所述第二获取模块,还用于基于所述第一网络的第m个非空洞卷积层输出的第一左特征图和第一右特征图,获取第一视差图,m为正整数;

所述第二获取模块,还用于获取第m-1个非空洞卷积层输出的第二左特征图和第二右特征图;

所述第二获取模块,还用于根据所述第一视差图、所述第二左特征图和所述第二右特征图,采用第二网络获取第二视差图,所述第二网络包括具有不同空洞倍率的多个空洞卷积层。

在一种可能的实现方式中,所述第二获取模块,还用于获取第m-2个非空洞卷积层输出的第三左特征图和第三右特征图;根据所述第二视差图、所述第三左特征图和所述第二右特征图,采用所述第二网络获取第三视差图;重复执行根据前一个非空洞卷积层输出的左特征图和右特征图、后一个非空洞卷积层对应的视差图,采用所述第二网络,获取所述前一个非空洞卷积层对应的视差图的过程,直至所述第一网络的第n个非空洞卷积层,n为小于m的正整数;将所述第n个非空洞卷积层对应的视差图作为所述图像对最终的视差图。

在一种可能的实现方式中,所述第二获取模块,还用于将所述第一左特征图和所述第一右特征图逐像素错位相连,得到第一张量;对所述第一张量进行降维处理,得到所述第一视差图。

在一种可能的实现方式中,所述第二获取模块,还用于对所述第一视差图进行上采样处理;根据所述第一视差图对所述第二右特征图进行映射处理,得到映射特征图;将所述第一视差图的上采样结果、所述第二左特征图和所述映射特征图在通道维度上相连,得到所述中间特征图。

在一种可能的实现方式中,所述第二获取模块,还用于获取所述组合特征与所述第二权重张量的第二乘积结果;对所述第二乘积结果进行降维处理,得到所述第二视差图。

在一种可能的实现方式中,所述第二获取模块,还用于将所述组合特征依次经过全局池化层、第一全连接层、第一激活层、第二全连接层和第二激活层处理,得到所述第二权重张量。

在一种可能的实现方式中,所述装置还包括:

第三获取模块,用于获取拍摄所述左图像和所述右图像的两个摄像头之间的距离、以及所述摄像头的焦距;

第四获取模块,用于获取所述距离与所述焦距的第三乘积结果,将所述第三乘积结果与所述第一网络的第n个非空洞卷积层对应的视差图的比值,作为所述目标空间区域内包括的空间物体的深度值。

另一方面,提供了一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述的视差图获取方法。

另一方面,提供了一种视差图获取设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述的视差图获取方法。

另一方面,提供了一种视差图获取系统,所述系统包括摄像头和视差图获取设备;

所述摄像头用于对目标空间区域进行拍摄,得到多张视点图像;

所述视差图获取设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现:

获取所述多张视点图像,对于所述多张视点图像中的任意一个图像对,基于第一网络分别对所述图像对中的左图像和右图像逐层进行特征提取,所述第一网络包括多个非空洞卷积层,获取所述多个非空洞卷积层输出的左特征图和右特征图;

基于所述第一网络的第m个非空洞卷积层输出的第一左特征图和第一右特征图,获取第一视差图,m为正整数;

获取第m-1个非空洞卷积层输出的第二左特征图和第二右特征图;

根据所述第一视差图、所述第二左特征图和所述第二右特征图,采用第二网络获取第二视差图,所述第二网络包括具有不同空洞倍率的多个空洞卷积层。

本申请实施例提供的技术方案带来的有益效果是:

在获取到多张视点图像后,对于多张视点图像中的任意一个图像对,本申请实施例首先经过第一网络即特征提取网络分别对该图像对中的左图像和右图像逐层进行提取,之后,再基于特征提取网络提取到的特征信息和第二网络即注意力网络来获取视差图,由于第二网络包括具有不同空洞倍率的多个空洞卷积层,因此能够有效地捕捉像素的背景信息,进而基于上述网络结构获取到的视差图更加精确,在诸如基于视差图对空间物体进行深度估计时也会更加精准,该种获取方式效果较佳。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的不同空洞倍率的卷积操作示意图;

图2是本申请实施例提供的一种视差图获取方法涉及的实施环境的示意图;

图3是本申请实施例提供的一种视差图获取方法涉及的网络结构的示意图;

图4是本申请实施例提供的一种双目摄像机拍摄机拍摄双目视觉图像的示意图;

图5是本申请实施例提供的一种获取视差的示意图;

图6是本申请实施例提供的一种视差图获取方法的流程图;

图7是本申请实施例提供的一种双目视觉图像和视差图的示意图;

图8是本申请实施例提供的一种特征提取网络的结构示意图;

图9是本申请实施例提供的一种注意力网络的结构示意图;

图10是本申请实施例提供的一种视差图获取方法的流程图;

图11是本申请实施例提供的一种左图像和不同分辨率下的注意力图;

图12是本申请实施例提供的一种视差图获取方法的流程图;

图13是本申请实施例提供的一种视差图获取方法的流程图;

图14是本申请实施例提供的一种视差图获取方法的流程图;

图15是本申请实施例提供的一种视差图获取装置的结构示意图;

图16是本申请实施例提供的一种视差图获取设备的结构示意图;

图17是本申请实施例提供的一种视差图获取设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请进行详细地解释说明之前,先对本申请实施例可能涉及到的一些名词进行解释说明。

注意力机制(attentionmechanism):源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。

注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也即注意力焦点,而后对这一区域投入更多注意力资源,以获取更多需要关注的目标的细节信息,而抑制其他无用信息。

综上,注意力机制主要有两个方面:一是决定需要关注输入的哪部分;二是分配有限的信息处理资源给重要的部分。

其中,深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务更关键的信息。

立体匹配:其一直是多目视觉的研究热点,摄像头拍摄同一空间物体的多张视点图像,运用立体匹配算法获取视差图。

其中,视点图像在本文中即指代从不同视角拍摄同一空间物体得到的图像。

以双目立体视觉为例,立体匹配的目的即是找到左右两张视点图像的对应点,通过计算左右两张视点图像的对应点之间的位置偏移量,来获取视差,也即位置偏移量即为视差。

另外,假设该空间物体上的任意一点m在左右两张视点图像上的投影点分别为ml和mr,则ml和mr被称为对应点,而求取左右两张视点图像之间对应点的过程即为立体匹配。

视差图:其是以左右两张视点图像中的任意一张视点图像为基准,且尺寸大小等同于基准图像、元素值为视差值的图像。

双目摄像机:指代具有两个摄像头的摄像机,且这两个摄像头理论上要一模一样,两个摄像头之间的间距通常在10cm至20cm之间,本申请实施例对此不进行具体限定。

空间物体:在本申请实施例中,空间物体可泛指出现在双目摄像机取景范围内的景或物,比如道路两旁的灌木丛、道路隔离带或沿路上的广告牌、车辆、行人等,本申请实施例对此不进行具体限定。

物体深度:还可称之为深度知觉或距离知觉。其中,物体深度可反映空间物体距离双目摄像机的远近情况。比如,空间物体a的深度值大于另一个空间物体b,即表明空间物体a距离双目摄像机的距离大于空间物体b。

其中,能够反映物体深度的深度图的应用范围非常广泛,由于其记录了空间物体距离摄像机的距离,因此可以用于测量、三维重建、以及虚拟视点合成等场景下,本申请实施例对此不进行具体限定。

感受野(receptionfield):在卷积神经网络中,决定某一层输出结果中一个元素所对应的输入层的区域大小,被称作为感受野。

其中,用数学的语言表达即是,感受野是卷积神经网络中的某一层输出结果的一个元素对应输入层的一个映射。

再通俗一点的解释是,特征图(featuremap)上的一个点对应输入图上的区域。需要说明的是,这里特指的是输入图,而不是原始图。

空洞卷积:在图像分割领域,图像输入到卷积神经网络(典型的比如全卷积网络)中后,全卷积网络同传统的卷积神经网络一样,先对图像执行卷积再进行池化(pooling),降低图像尺寸的同时增大感受野,但由于图像分割预测是pixel-wise的输出,所以要将pooling后较小的图像尺寸上采样到原始的图像尺寸进行预测,之前的pooling操作使得每个像素(pixel)预测均能看到较大感受野信息。

因此图像分割有两个关键,一个是pooling减小图像尺寸增大感受野,另一个是upsampling扩大图像尺寸。在先减小再增大图像尺寸的过程中,有一些信息会被损失掉,为了不通过pooling操作也能有较大的感受野,提出了空洞卷积。

参见图1,分别示出了空洞倍率(dilatedrate)等于1、2和3时的空洞卷积操作。其中,图1中的左图对应3x3卷积核大小的1-dilated空洞卷积操作,该卷积操作同普通的卷积操作一样。

图1中的中图对应3x3卷积核大小的2-dilated空洞卷积操作,实际的卷积核大小还是3x3,但是空洞为1,也就是说,对于一个7x7大小的图像patch,仅有9个黑色正方块处的特征和3x3大小的卷积核发生卷积操作,其余的略过。也可以理解为卷积核的大小为7x7,但是仅有图中的9个黑色正方块处的权重不为0,其余均为0。由中图可以看到,虽然卷积核的大小仅有3x3,但是这个卷积的感受野大小已经增大到了7x7。

其中,图1中的右图对应3x3卷积核大小的3-dilated空洞卷积操作。

下面对本申请实施例提供的视差图获取方法涉及的实施环境进行介绍。

参见图2,该实施环境包括摄像头201和视差图获取设备202。

作为一个示例,摄像头201可为ai(artificialintelligence,人工智能)领域的机器人或无人驾驶车辆上配备的摄像头,本申请实施例对此不进行具体限定。也即,本申请实施例提供的视差图获取方法可应用于ai领域,比如应用在ai领域的智能机器人或无人驾驶车辆。换一种表达方式,本申请实施例的应用场景包括但不限于诸如无人驾驶或机器人等用于模拟人类智能的场景下。其中,ai是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术,已被广泛应用在诸如图像处理、人脸识别、游戏、医疗等领域。

如图2所示,视差图获取设备202与摄像头201保持通信连接,摄像头201用于在采集到多张视点图像后,将采集到的多张视点图像基于该通信连接传输给视差图获取设备202。其中,该通信连接既可为无线连接,也可以为有线连接,本申请实施例对此不进行具体限定。其中,视差图获取设备202用于基于摄像头201采集到的多张视点图像输出视差图。

视差图获取设备202为具有机器学习能力的计算机设备,比如,该计算机设备可以是个人电脑、服务器等固定式计算机设备,还可以是平板电脑、智能手机、电子书阅读器等移动式计算机设备,本申请实施例对此不进行具体限定。

在一种可能的实现方式中,视差图获取设备202上设置有如图3所示的网络结构。该网络结构是一种基于注意力机制的立体匹配网络结构,参见图3,该网络结构的输入为摄像头201拍摄得到的视点图像(比如一个图像对中包括的左右两张视点图像),该网络结构的输出为与视点图像等大小的像素级别的视差图。参见图3,该网络结构包括特征提取网络和注意力网络。

需要说明的是,对于任意一个图像对中的两张视点图像,在本文中均是以左图像和右图像进行称谓,即由于一个图像对中的两张视点图像的拍摄视角不同,因此在文本中将任意一个图像对包括的两张视点图像均以左图像和右图像进行命名。其中,左图像指代拍摄视角更加偏左的图像,右图像指代拍摄视角更加偏右的图像。

举例来说,参见图4,先通过摄像头201的左右两个摄像头拍摄某个空间物体的多张视点图像;然后,采用本申请实施例提供的视觉图获取方法进行立体匹配,匹配图像对中一张视点图像上的每个点在另一张视点图像上的位置,得到两个位置之间的偏移量(shift)即为视差,如图5所示。

即,本申请主要通过上述网络结构完成对多张视点图像的空间物体水平视差的获取。作为一个示例,在此基础上,再利用拍摄视点图像的摄像头之间的间距以及焦距的乘积,除以获取到的视差即可得到空间物体的深度值。换一种表达方式,获得像素级别的视差图后,取反比则为像素级别的物体深度图。其中,物体深度图上每个点的值代表被拍摄的空间物体到摄像头201的距离。

换言之,本申请可以提供机器人或无人驾驶车辆等设施的物体深度估计功能。其中,配备有摄像头的机器人或无人驾驶车辆等设施,在实时通过摄像头拍摄得到多张视点图像后,采用本方案能够对空间物体到机器人或无人驾驶车辆的距离进行估计,即能够测距,这对无人驾驶车辆的自动驾驶、以及机器人的正常工作等有着决定性的作用。

基于以上描述,本申请利用一种基于注意力机制的立体匹配方法,通过并行且多空洞倍率的空洞卷积神经网络对输入图像进行特征学习。

另外,本申请还会计算出一个注意力权重图,该注意力权重图的每一个通道代表一个特定空洞倍率卷积层的输出特征的权重系数;之后,将不同空洞倍率卷积层的输出特征和该注意力权重图进行相乘后再相加的叠加组合运算,得到自适应组合特征,这样能够使得网络模型对不同像素点自适应地执行不同空洞倍率的空洞卷积,自适应地获取不同大小的背景信息,这样对每个像素点能自动地确定最适合其语义的感受野。

另一方面,本申请利用通道注意力(channel-wiseattention)自适应地对不同通道进行加权组合,有针对性地对一些通道描述的特征进行强调和抑制,更精确地进行特征学习,最终预测得到精确的像素级别的视差图。

而相关技术由于没有利用并行且多空洞倍率的空洞卷积神经网络对输入图像进行特征学习,感受野相对较小,因此无法有效地捕捉像素的背景信息。

而本申请由于采用并行且多空洞倍率的空洞卷积神经网络,因此能够通过不同的空洞倍率来捕捉不同大小的背景信息,越大的空洞倍率感受野越大,因而能捕捉更大的背景信息。另外,本申请还对不同的空洞倍率自适应学习权重,使不同像素在不同空洞倍率下的加权组合不同,这种对每个像素单独学习最适宜的空洞倍率的特征组合方式,能够避免因所有空洞倍率简单平均而导致的忽略不同像素间差异的缺点。另一方面,本申请还能够基于通道注意力自适应地对不同通道的特征进行组合,避免对所有通道特征进行简单地平均操作,该种方式能够更加智能地挑选强调有用的通道特征,而抑制无用的通道特征。

下面对本申请实施例提供的视差图获取方法进行详细地解释说明。

需要说明的点是,下述实施例中出现的类似第一、第二、第三、第四等这种描述,仅是用于区分不同的对象,而不构成对各个对象的任何其他特殊限定。

图6是本申请实施例提供的一种视差图获取方法的流程图。该方法的执行主体为图2中示出的视差图获取设备202。以拍摄目标空间区域的两张视点图像,分别为左图像和右图像为例,参见图6,本申请实施例提供的方法流程包括:

601、获取对目标空间区域进行拍摄得到的左图像和右图像。

其中,目标空间区域指代涵盖在摄像机的取景范围内的区域。

在本申请实施例中,对目标空间区域进行拍摄的可为双目摄像机,也可为同一摄像头在不同视角对目标空间区域进行拍摄,还可以为独立的两个摄像头对目标空间区域进行拍摄,本申请实施例对此不进行具体限定。

以摄像头配备在无人驾驶车辆上为例,则目标空间区域可为车辆前方的空间区域,位于该空间区域内的空间物体包括但不限于:正在行驶的车辆、行人、道路两旁的树木、交通标志牌、广告牌等。以双目摄像机配备在机器人上为例,则目标空间区域可为机器人前方的空间区域,位于该空间区域内的空间物体包括但不限于:人、静态物体或动态物体等。

如图7所示,针对同一空间区域来讲,由于摄像头的拍摄位置即拍摄视角不同,因此左图像和右图像并不一致,二者角度不同。

602、基于第一网络分别对左图像和右图像逐层进行特征提取,第一网络包括多个非空洞卷积层,获取多个非空洞卷积层输出的左特征图和右特征图。

本步骤即是将拍摄得到的左图像和右图像输入第一网络进行特征提取,第一网络在本文中也称为特征提取网络。即,特征提取网络以左右原始图像作为输入,利用深度卷积神经网络逐层提取左右原始图像的特征。

其中,特征提取网络可为resnet、googlenet等网络结构,本申请实施例对此不进行具体限定。

作为一种示例,图8示出了特征提取网络的具体结构。其中,第一网络中的卷积层均为普通的非空洞卷积层。针对卷积层conv0,具体结构为[3*3,32]*3,分辨率为h/2*w/2;针对卷积层conv1、conv2、conv3以及conv4,具体结构分别如下所示:

针对卷积层conv1、conv2、conv3以及conv4,分辨率分别为h/2*w/2、h/4*w/4、h/8*w/8、h/16*w/16。

其中,h和w分别为左右原始图像的高度和宽度。3*3指代卷积核大小,括号中的最后一位指代输出通道数,括号外的一位指代结构的个数;比如针对卷积层conv1来说,包括3个结构。

在本申请实施例中,将对输入的左图像进行特征提取得到的特征称之为左特征图,将对输入的右图像进行特征提取得到的特征称之为右特征图;参见图8,特征提取网络的卷积层conv1、conv2、conv3以及conv4,每一个卷积层均会输出一个左特征图和右特征图。

其中,卷积层conv1输出的左特征图和右特征图分别为fl1和fr1,卷积层conv2输出的左特征图和右特征图分别为fl2和fr2,卷积层conv3输出的左特征图和右特征图分别为fl3和fr3,卷积层conv4输出的左特征图和右特征图分别为fl4和fr4。

603、基于第一网络的第m个非空洞卷积层输出的第一左特征图和第一右特征图,获取第一视差图。

在本申请实施例中,作为一个示例,第m个非空洞卷积层为第一网络的最后一个非空洞卷积层。

继续以图8作为示例,则最后一个非空洞卷积层即为卷积层conv4。

在本申请实施例中,基于第m个非空洞卷积层输出的第一左特征图和第一右特征图,获取第一视差图,包括但不限于:将第一左特征图和第一右特征图逐像素错位相连,得到第一张量;对第一张量进行降维处理,得到第一视差图,即初始视差图。

其中,逐像素错位相连既可针对x轴,也可针对y轴,本申请实施例对此不进行具体限定。以x轴为例,基于特征提取网络得到的每层特征经过在x轴上的逐像素错位相连可得到一个4d张量。

x轴上的逐像素错位相连即为两个特征图中对应行的元素进行错位相连,比如左特征图中第一行的第1个元素同右特征图中第一行的第0个元素相连,左特征图中第一行的第2个元素同右特征图中第一行的第1个元素相连,左特征图中第一行的第3个元素右特征图中第一行的第2个元素相连,以此类推。

以对左特征图fl4和右特征图fr4在x轴上逐像素错位相连为例,则可得到一个维度为2c*(dmax/16)*(h/16)*(w/16)的4d(4dimensions,四维)张量,其中,c为fl4和fr4的通道维度,即通道个数,dmax为预设的视差值上限。

作为一个示例,在进行降维处理时,可将该4d张量输入一个3d(3dimensions,三维)卷积层得到一个3d张量,然后,再将该3d张量经过一个2d(2dimensions,二维)卷积层即可得到一个维度为(h/16)*(w/16)的视差图d4。其中,视差图可如图7所示。

604、获取第m-1个非空洞卷积层输出的第二左特征图和第二右特征图。

继续以图8作为示例,则第m-1个非空洞卷积层即为卷积层conv3,第二左特征图即为fl3,第二右特征图即为fr3。

605、根据第一视差图、第二左特征图和第二右特征图,采用第二网络获取第二视差图,第二网络包括一个非空洞卷积层、并行且具有不同空洞倍率的多个空洞卷积层。

在得到初始视差图后,经过图9所示的注意力网络,能够将特征利用并行且多空洞倍率的空洞卷积神经网络、以及自适应权重预测方法,对不同像素进行差异化的多空洞倍率空洞卷积加权组合。

作为一个示例,参见图9,注意力网络中包括并行且四个不同空洞倍率的卷积层,分别为这四个卷积层对应的空洞倍率分别为r0、r1、r2、r3。另外,该注意力模块中还包括一个非空洞卷积层

在本申请实施例中,根据第一视差图、第二左特征图和第二右特征图,采用第二网络获取第二视差图,包括但不限于:根据第一视差图、第二左特征图和第二右特征图,获取中间特征图;基于第二网络对中间特征图进行第一处理,得到第二视差图。即,将得到的中间特征图输入到第二网络中,最后基于第二网络的输出结果得到第二视差图。

作为一个示例,根据第一视差图、第二左特征图和第二右特征图,获取中间特征图的方式,包括但不限于:对第一视差图进行上采样处理;根据第一视差图对第二右特征图进行映射处理,得到映射特征图;之后,将第一视差图的上采样结果、第二左特征图和映射特征图在通道维度上相连,得到中间特征图。

举例来说,如图9所示,首先将视差图d4上采样得到尺寸为(h/16)*(w/16)的d4up,获取左特征图fl3和右特征图fr3,再将右特征图fr3根据视差图d4得到映射到左特征图fl3的特征图fl3w,fl3w即为上述的映射特征图;然后,将fl3、fl3w和d4up在通道维度上相连,得到f3c,f3c即为上述的中间特征图。而f3c即为第二网络的输入。

在本申请实施例中,参见图10,基于第二网络对中间特征图进行第一处理,得到第二视差图,包括但不限于下述步骤:

605a、基于第二网络中的每个空洞卷积层,分别对输入的中间特征图执行卷积操作,得到与第二网络中包括的多个空洞卷积层数目一致的多个特征张量。

作为一个示例,如图9所示,将f3c输入一个并行的多空洞倍率的空洞卷积神经网络,例如设定该空洞卷积神经网络具有4个不同的空洞倍率,分别为r0、r1、r2、r3,并行利用具有不同空洞倍率的4个卷积层分别对f3c执行卷积操作,得到4个维度为4*(h/8)*(w/8)的张量其中i的取值为1至4。其中,4个不同的空洞倍率r0、r1、r2、r3对应不同大小的空洞间隔。

605b、基于第二网络中的非空洞卷积层,对中间特征图执行卷积操作,得到第一权重张量。

其中,第一权重张量的一个通道代表一个空洞倍率的空洞卷积层输出的特征张量的权重系数。

作为一个示例,如图9所示,将f3c输入一个普通的非空洞卷积层,得到一个维度为4*(h/8)*(w/8)的权重张量其中,该权重张量4个通道中的每一个通道代表一个特定空洞倍率的空洞卷积层的输出特征的权重系数。

605c、对于每个特征向量,获取该特征张量与第一权重张量的第一乘积结果;对得到的全部第一乘积结果执行相加操作,得到组合特征。

作为一个示例,如图9所示,对于任意一个元素,将权重张量4个通道上该像素的权重系数,分别与4个不同空洞倍率的空洞卷积层输出的特征张量进行相乘操作后再相加,得到自适应组合特征,该过程用数学表达式表示则为下述公式:

605d、对组合特征进行第二处理,得到第二权重张量。

作为一个示例,如图9所示,本申请引入的通道注意力机制将上述得到的特征z3经过若干卷积层与激活层的处理后可得到一个通道权重向量s3,该通道权重向量在本文中也称为第二权重张量。

在一种可能的实现方式中,参见图9,可将组合特征依次经过全局池化层、第一全连接层、第一激活层(比如relu)、第二全连接层和第二激活层(比如sigmoid),得到第二权重张量。

605e、根据组合特征和第二权重张量,获取第二视差图。

在本申请实施例中,根据组合特征和第二权重张量,获取第二视差图,包括但不限于:获取组合特征与第二权重张量的第二乘积结果;对第二乘积结果进行降维处理,得到第二视差图。

作为一个示例,如图9所示,将得到的自适应组合特征z3和通道权重向量s3相乘得到最终的注意力特征可保持(h/8)*(w/8)的分辨率大小。以的通道维度为128为例,则是一个128*(h/8)*(w/8)大小的张量。

其中,图11分别示出了双目摄像机的左摄像头拍摄的原图(左上)、分辨率为(h/8)*(w/8)时的注意力图(右上)、分辨率为(h/4)*(w/4)时的注意力图(左下)、以及分辨率为(h/2)*(w/2)(右下)时的注意力图。

在得到后,再经过一个2d卷积层进行降维处理,即可得到(h/8)*(w/8)分辨率大小的视差图d3。

在另一种可能的实现方式中,如图9所示,将得到的再输入到注意力网络中可对进行更新,得到以此类推,进而得到更新的视差图d3。

在另一种可能的实现方式中,参见图12,在得到第一视差图和第二视差图后,本申请实施例还包括如下步骤:

606、获取第m-2个非空洞卷积输出的第三左特征图和第三右特征图;根据第二视差图、第三左特征图和第二右特征图,采用第二网络获取第三视差图。

以图8为例,首先获取与卷积层conv4对应的视差图d4;之后,根据视差图d4,来获取与卷积层conv3对应的视差图d3;之后,再根据视差图d3,来获取与卷积层conv2对应的视差图d2。

607、重复执行根据前一个非空洞卷积层输出的左特征图和右特征图、后一个非空洞卷积层对应的视差图,来获取前一个非空洞卷积层对应的视差图的过程,直至第一网络的第n个非空洞卷积层。

其中,n为小于m的正整数。作为一个示例,参见图8所示的网络结构,n的取值为2。

在图8中由于卷积层conv1为第二个非空洞卷积层,因此在根据视差图d2获取到与卷积层conv1对应的视差图d1后终止。即连续应用注意力网络进行多轮的迭代过程即可得到视差图d1。

608、将第n个非空洞卷积层对应的视差图作为最终的视差图输出。

作为一种示例,如图8所示,由于视差图d1、d2、d3和d4中,视差图d1的分辨率最高,为(h/2)*(w/2),因此将视差图d1作为注意力网络最终的输出。其中,视差图的可视化效果如图7所示。

需要说明的是,上述提及的视差图d1、d2、d3和d4可既包括左目视差图,也包括右目视差图,本申请实施例仅以其中一目视差图为例进行说明。

本申请实施例提供的方法,在获取到目标空间区域的左图像和右图像后,本申请实施例首先经过第一网络即特征提取网络分别对左图像和右图像逐层进行提取,之后,再基于特征提取网络提取到的特征信息和第二网络即注意力网络来获取视差图,由于第二网络包括并行且具有不同空洞倍率的多个空洞卷积层,因此能够有效地捕捉像素的背景信息,进而基于上述网络结构获取到的视差图更加精确,在诸如基于视差图对空间物体进行深度估计时也会更加精准,该种获取方式效果较佳。

换一种表达方式,由于采用并行且多空洞倍率的空洞卷积神经网络,因此能够通过不同的空洞倍率来捕捉不同大小的背景信息,越大的空洞倍率感受野越大,因而能捕捉更大的背景信息。

另外,本申请还对不同的空洞倍率自适应学习权重,使不同像素在不同空洞倍率下的加权组合不同,这种对每个像素单独学习最适宜的空洞倍率的特征组合方式,能够避免因所有空洞倍率简单平均而导致的忽略不同像素间差异的缺点。

另外,本申请还能够基于通道注意力自适应地对不同通道的特征进行组合,避免对所有通道特征进行简单地平均操作,该种方式能够更加智能地挑选强调有用的通道特征,而抑制无用的通道特征。

需要说明的是,上述实施例仅以拍摄目标空间区域的两张视点图像为例,对视差图的获取方式进行了说明。在另一个实施例中,本申请实施例还支持获取目标空间区域的多张视点图像并基于多张视点图像进行视差图计算。即,参见图13,本申请实施例提供的视差图获取方法包括:

1301、获取目标空间区域的多张视点图像。

其中,多张视点图像可为摄像头从不同的视角对目标空间区域进行拍摄得到的,比如从左到右或从右到左拍摄几张或十几张或几十张的视点图像。

在本公开实施例中,多张视点图像可由多目摄像机拍摄得到,也可由平行的多个摄像头拍摄得到,还可由一个摄像头分为多次平行移动拍摄得到,本申请实施例对此不进行具体限定。

1302、对于多张视点图像中的任意一个图像对,基于第一网络分别对该图像对中的左图像和右图像逐层进行特征提取,第一网络包括多个非空洞卷积层,获取多个非空洞卷积层输出的左特征图和右特征图。

作为一个示例,多张视点图像中的任意两张视点图像可组成一个图像对,而对于任意一个图像对,均可通过步骤1302至步骤1308来获取视差图。

1303、基于第一网络的第m个非空洞卷积层输出的第一左特征图和第一右特征图,获取第一视差图。

1304、获取第m-1个非空洞卷积层输出的第二左特征图和第二右特征图;根据第一视差图、第二左特征图和第二右特征图,采用第二网络获取第二视差图,第二网络包括具有不同空洞倍率的多个空洞卷积层。

另外,参见图14,在获取到第一视差图后,还包括如下步骤:

1305、获取第m-2个非空洞卷积层输出的第三左特征图和第三右特征图。

1306、根据第二视差图、第三左特征图和第二右特征图,采用第二网络获取第三视差图。

1307、重复执行根据前一个非空洞卷积层输出的左特征图和右特征图、后一个非空洞卷积层对应的视差图,采用第二网络,获取前一个非空洞卷积层对应的视差图的过程,直至第一网络的第n个非空洞卷积层。

1308、将第n个非空洞卷积层对应的视差图作为该图像对最终的视差图。

本申请实施例提供的方法,在获取到多张视点图像后,对于多张视点图像中的任意一个图像对,本申请实施例首先经过第一网络即特征提取网络分别对该图像对中的左图像和右图像逐层进行提取,之后,再基于特征提取网络提取到的特征信息和第二网络即注意力网络来获取视差图,由于第二网络包括具有不同空洞倍率的多个空洞卷积层,因此能够有效地捕捉像素的背景信息,进而基于上述网络结构获取到的视差图更加精确,在诸如基于视差图对空间物体进行深度估计时也会更加精准,该种获取方式效果较佳。

在另一个实施例中,以三目立体视觉为例,由于通过摄像头从三个视角获取视点图像,因此会得到三张视点图像,每一张视点图像对应一个拍摄视角。

假设分别以视点图像a、视点图像b和视点图像c指代从左至右拍摄的三张视点图像,则可以视点图像b为中心,将视点图像a、视点图像b组成一个图像对,并对该图像对进行立体匹配,即获取视点图像a和视点图像b之间的视差图;另外,还可将视点图像b、视点图像c组成一个图像对,并对该图像对进行立体匹配,即获取视点图像b和视点图像c之间的视差图。

作为另一个示例,还可对视点图像a和视点图像c进行立体匹配,本申请实施例对此不进行具体限定。

在另一个实施例中,以五目立体视觉为例,由于通过摄像头从五个视角获取视点图像,因此会得到五张视点图像,每一张视点图像对应一个拍摄视角。

假设分别以视点图像a、视点图像b、视点图像c、视点图像d和视点图像e指代从左至右拍摄的五张视点图像,则可以视点图像c为中心,将视点图像a、视点图像c组成一个图像对,并对该图像对进行立体匹配,即获取视点图像a和视点图像c之间的视差图;另外,还可将视点图像b、视点图像c组成一个图像对,并对该图像对进行立体匹配,即获取视点图像b和视点图像c之间的视差图;另外,还可将视点图像c、视点图像d组成一个图像对,并对该图像对进行立体匹配,即获取视点图像c和视点图像d之间的视差图;另外,还可将视点图像c、视点图像e组成一个图像对,并对该图像对进行立体匹配,即获取视点图像c和视点图像e之间的视差图。

作为另一个示例,还可以获取其他图像对以及获取其他图像对之间的视差图,本申请实施例对此不进行具体限定。

在另一个实施例中,针对多目立体视觉,在获取到多个视差图后,可分别基于各个视差图获取深度信息。或者,在基于多目立体匹配得到多个视差图后,还可根据融合准则将多个视差图融合成为一个视差图,并基于融合后的视差图获取深度信息,本申请实施例对此不进行具体限定。

在另一个实施例中,在得到视差图后,基于视差图还能够对物体进行深度估计,且估计的深度值较为准确。其中,深度估计过程为:获取拍摄图像对的两个摄像头之间的距离、以及摄像头的焦距;获取距离与焦距的第三乘积结果,将第三乘积结果与该图像对最终的视差图的比值,作为目标空间区域内包括的空间物体的深度值。需要说明的是,上述两个摄像头之间的距离指代的是摄像头光心之间的距离。

换言之,本申请可以提供机器人或无人驾驶车辆等设施的物体深度估计功能。其中,配备有摄像机的机器人或无人驾驶车辆等设施,在实时通过摄像机拍摄得到视点图像后,采用本方案能够对空间物体到机器人或无人驾驶车辆的距离进行估计,即能够测距,这对无人驾驶车辆的自动驾驶、以及机器人的正常工作等有着决定性的作用。

图15是本申请实施例提供的一种视差图获取装置的结构示意图。参见图15,该装置包括:

第一获取模块1501,用于获取目标空间区域的多张视点图像;

提取模块1502,用于对于所述多张视点图像中的任意一个图像对,基于第一网络分别对所述图像对中的左图像和右图像逐层进行特征提取,所述第一网络包括多个非空洞卷积层;

第二获取模块,用于获取所述多个非空洞卷积层输出的左特征图和右特征图;

第二获取模块1503,还用于基于所述第一网络的第m个非空洞卷积层输出的第一左特征图和第一右特征图,获取第一视差图,m为正整数;

第二获取模块1503,还用于获取第m-1个非空洞卷积层输出的第二左特征图和第二右特征图;

第二获取模块1503,还用于根据所述第一视差图、所述第二左特征图和所述第二右特征图,采用第二网络获取第二视差图,所述第二网络包括具有不同空洞倍率的多个空洞卷积层。

本申请实施例提供的装置,在获取到多张视点图像后,对于多张视点图像中的任意一个图像对,本申请实施例首先经过第一网络即特征提取网络分别对该图像对中的左图像和右图像逐层进行提取,之后,再基于特征提取网络提取到的特征信息和第二网络即注意力网络来获取视差图,由于第二网络包括具有不同空洞倍率的多个空洞卷积层,因此能够有效地捕捉像素的背景信息,进而基于上述网络结构获取到的视差图更加精确,在诸如基于视差图对空间物体进行深度估计时也会更加精准,该种获取方式效果较佳。

在一种可能的实现方式中,第二获取模块1503,还用于获取第m-2个非空洞卷积层输出的第三左特征图和第三右特征图;根据所述第二视差图、所述第三左特征图和所述第二右特征图,采用所述第二网络获取第三视差图;重复执行根据前一个非空洞卷积层输出的左特征图和右特征图、后一个非空洞卷积层对应的视差图,采用所述第二网络,获取所述前一个非空洞卷积层对应的视差图的过程,直至所述第一网络的第n个非空洞卷积层,n为小于m的正整数;将所述第n个非空洞卷积层对应的视差图作为所述图像对最终的视差图。

在一种可能的实现方式中,第二获取模块1503,还用于根据所述第一视差图、所述第二左特征图和所述第二右特征图,获取中间特征图;基于所述第二网络对所述中间特征图进行第一处理,得到所述第二视差图。

在一种可能的实现方式中,第二获取模块1503,还用于基于并行且具有不同空洞倍率的多个空洞卷积层,分别对所述中间特征图执行卷积操作,得到与所述多个空洞卷积层数目一致的多个特征张量;基于所述第二网络中的非空洞卷积层,对所述中间特征图执行卷积操作,得到第一权重张量,所述第一权重张量的一个通道代表一个空洞倍率的空洞卷积层输出的特征张量的权重系数;对于所述多个特征张量中的每个特征向量,获取所述特征张量与所述第一权重张量的第一乘积结果;对得到的全部第一乘积结果执行相加操作,得到组合特征;对所述组合特征进行第二处理,得到第二权重张量;根据所述组合特征和所述第二权重张量,获取所述第二视差图。

在一种可能的实现方式中,第二获取模块1503,还用于将所述第一左特征图和所述第一右特征图逐像素错位相连,得到第一张量;对所述第一张量进行降维处理,得到所述第一视差图。

在一种可能的实现方式中,第二获取模块1503,还用于对所述第一视差图进行上采样处理;根据所述第一视差图对所述第二右特征图进行映射处理,得到映射特征图;将所述第一视差图的上采样结果、所述第二左特征图和所述映射特征图在通道维度上相连,得到所述中间特征图。

在一种可能的实现方式中,第二获取模块1503,还用于获取所述组合特征与所述第二权重张量的第二乘积结果;对所述第二乘积结果进行降维处理,得到所述第二视差图。

在一种可能的实现方式中,第二获取模块1503,还用于将所述组合特征依次经过全局池化层、第一全连接层、第一激活层、第二全连接层和第二激活层处理,得到所述第二权重张量。

在一种可能的实现方式中,该装置还包括:

第三获取模块,用于获取拍摄所述左图像和所述右图像的两个摄像头之间的距离、以及所述摄像头的焦距;

第四获取模块,用于获取所述距离与所述焦距的第三乘积结果,将所述第三乘积结果与所述第一网络的第n个非空洞卷积层对应的视差图的比值,作为所述目标空间区域内包括的空间物体的深度值。

上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。

需要说明的是:上述实施例提供的视差图获取装置在获取视差图时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的视差图获取装置与视差图获取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图16示出了本申请一个示例性实施例提供的视差图获取设备1600的结构框图。该设备1600可以是便携式移动终端,比如:智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。设备1600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常,设备1600包括有:处理器1601和存储器1602。

处理器1601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1601可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(centralprocessingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1601可以在集成有gpu(graphicsprocessingunit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1601还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。

存储器1602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1601所执行以实现本申请中方法实施例提供的视差图获取方法。

在一些实施例中,设备1600还可选包括有:外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地,外围设备包括:射频电路1604、触摸显示屏1605、摄像头1606、音频电路1607、定位组件1608和电源1609中的至少一种。

外围设备接口1603可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1601和存储器1602。在一些实施例中,处理器1601、存储器1602和外围设备接口1603被集成在同一芯片或电路板上;在一些其他实施例中,处理器1601、存储器1602和外围设备接口1603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路1604用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。射频电路1604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1604包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity,无线保真)网络。在一些实施例中,射频电路1604还可以包括nfc(nearfieldcommunication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏1605用于显示ui(userinterface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1605是触摸显示屏时,显示屏1605还具有采集在显示屏1605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1601进行处理。此时,显示屏1605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1605可以为一个,设置设备1600的前面板;在另一些实施例中,显示屏1605可以为至少两个,分别设置在设备1600的不同表面或呈折叠设计;在再一些实施例中,显示屏1605可以是柔性显示屏,设置在设备1600的弯曲表面上或折叠面上。甚至,显示屏1605还可以设置成非矩形的不规则图形,也即异形屏。显示屏1605可以采用lcd(liquidcrystaldisplay,液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件1606用于采集图像或视频。可选地,摄像头组件1606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。

音频电路1607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1601进行处理,或者输入至射频电路1604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在设备1600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1601或射频电路1604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1607还可以包括耳机插孔。

定位组件1608用于定位设备1600的当前地理位置,以实现导航或lbs(locationbasedservice,基于位置的服务)。定位组件1608可以是基于美国的gps(globalpositioningsystem,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1609用于为设备1600中的各个组件进行供电。电源1609可以是交流电、直流电、一次性电池或可充电电池。当电源1609包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中,设备1600还包括有一个或多个传感器1610。该一个或多个传感器1610包括但不限于:加速度传感器1611、陀螺仪传感器1612、压力传感器1613、指纹传感器1614、光学传感器1615以及接近传感器1616。

加速度传感器1611可以检测以设备1600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1611可以用于检测重力加速度在三个坐标轴上的分量。处理器1601可以根据加速度传感器1611采集的重力加速度信号,控制触摸显示屏1605以横向视图或纵向视图进行用户界面的显示。加速度传感器1611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1612可以检测设备1600的机体方向及转动角度,陀螺仪传感器1612可以与加速度传感器1611协同采集用户对设备1600的3d动作。处理器1601根据陀螺仪传感器1612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1613可以设置在设备1600的侧边框和/或触摸显示屏1605的下层。当压力传感器1613设置在设备1600的侧边框时,可以检测用户对设备1600的握持信号,由处理器1601根据压力传感器1613采集的握持信号进行左右手识别或快捷操作。当压力传感器1613设置在触摸显示屏1605的下层时,由处理器1601根据用户对触摸显示屏1605的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1614用于采集用户的指纹,由处理器1601根据指纹传感器1614采集到的指纹识别用户的身份,或者,由指纹传感器1614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1614可以被设置设备1600的正面、背面或侧面。当设备1600上设置有物理按键或厂商logo时,指纹传感器1614可以与物理按键或厂商logo集成在一起。

光学传感器1615用于采集环境光强度。在一个实施例中,处理器1601可以根据光学传感器1615采集的环境光强度,控制触摸显示屏1605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1605的显示亮度;当环境光强度较低时,调低触摸显示屏1605的显示亮度。在另一个实施例中,处理器1601还可以根据光学传感器1615采集的环境光强度,动态调整摄像头组件1606的拍摄参数。

接近传感器1616,也称距离传感器,通常设置在设备1600的前面板。接近传感器1616用于采集用户与设备1600的正面之间的距离。在一个实施例中,当接近传感器1616检测到用户与设备1600的正面之间的距离逐渐变小时,由处理器1601控制触摸显示屏1605从亮屏状态切换为息屏状态;当接近传感器1616检测到用户与设备1600的正面之间的距离逐渐变大时,由处理器1601控制触摸显示屏1605从息屏状态切换为亮屏状态。

本领域技术人员可以理解,图16中示出的结构并不构成对设备1600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

图17是本申请实施例提供的一种视差图获取设备的结构示意图,该设备1700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)1701和一个或一个以上的存储器1702,其中,所述存储器1702中存储有至少一条指令,所述至少一条指令由所述处理器1701加载并执行以实现上述各个方法实施例提供的视差图获取方法。当然,该设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该设备还可以包括其他用于实现设备功能的部件。

在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述实施例中的视差图获取方法。例如,所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

另外,本申请实施例还提供了一种视差图获取系统,其该系统包括摄像头和图16或图17所示的视差图获取设备。

其中,所述摄像头用于对目标空间区域进行拍摄,得到多张视点图像;

所述视差图获取设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现:

获取所述多张视点图像,对于所述多张视点图像中的任意一个图像对,基于第一网络分别对所述图像对中的左图像和右图像逐层进行特征提取,所述第一网络包括多个非空洞卷积层,获取所述多个非空洞卷积层输出的左特征图和右特征图;

基于所述第一网络的第m个非空洞卷积层输出的第一左特征图和第一右特征图,获取第一视差图,m为正整数;

获取第m-1个非空洞卷积层输出的第二左特征图和第二右特征图;

根据所述第一视差图、所述第二左特征图和所述第二右特征图,采用第二网络获取第二视差图,所述第二网络包括具有不同空洞倍率的多个空洞卷积层。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1