一种基于深度神经网络的自然场景重建的方法与流程

文档序号:25731050发布日期:2021-07-02 21:19阅读:98来源:国知局
一种基于深度神经网络的自然场景重建的方法与流程

本发明涉及神经网络的视解码编码技术领域,尤其是涉及一种基于深度神经网络实现根据神经信号重构输入的自然图片和动态视频刺激的方法。



背景技术:

人类获取的信息70%-80%来自于视觉,视觉系统是大脑神经系统的一个重要组成部分,视网膜神经元获取外部视觉信息,然后传输到外侧膝状体,再进一步传输到视觉皮层,最后形成视觉感知。

现有的计算机视觉算法具有一定的局限性,与计算机视觉算法相比,生物视觉系统有很多独特的优势。因此借鉴人脑视觉机理研究类脑视觉可能是人工智能、计算机视觉发展的一个突破口。类脑视觉研究中一个重要的研究问题就是视觉编码与解码问题。因此,可以通过构建一个新型解码模型,用精细的视网膜神经脉冲信号数据或者相对粗糙的功能磁共振数据,来重构给定的视觉自然图片和视频,通过神经信号还原出对应的自然图像与动态视频刺激。



技术实现要素:

为解决现有技术的不足,实现通过精细的脉冲信号或粗糙的人脑功能磁共振数据去重建出对应的复杂自然图像以及动态视频刺激的目的,本发明采用如下的技术方案:

一种基于深度神经网络的自然场景重建的方法,包括如下步骤:

s1,获取自然图片刺激数据及其对应的神经响应数据;

s2,构建脉冲-图片转换器,脉冲-图片转换器是3层全连接的神经网络,包括如下步骤:

s21,第一层神经元接收所有神经节细胞脉冲数据作为输入,第一层神经元个数设置为所使用的rgc数目,第二层为隐藏层,包含512个神经元,接收第一层神经的输出作为输入,公式如下:

表示relu激活函数,s为神经节细胞数据,w1为第一层与第二层之间的权重,b1为第二层的偏置,y1为第二层的输出;

s22,第三层为输出层,接收第二层的输出作为输入,并根据sigmoid函数进行激活,第三层的输出神经元个数设置为刺激图片像素个数,公式如下:

o1=sigmoid(w2*y1)+b2)(2)

w2为第二层与第三层之间的连接权重,b2为偏置,o1为第三层的输出,也是脉冲-图片转换器的输出;

s3,构建图片-图片的自动编码器,一种典型的基于卷积神经网络(cnn)的深度自动编码器,包括如下步骤:

s31,使用卷积和下采样,减小输入图像的大小,包含四个卷积层,公式如下:

wc11,wc12,wc13,wc14为下采样阶段的四层卷积层的卷积核,b11,b12,b13,b14为对应的偏置,y11,y12,y13,y14为对应的输出;

s32,采用卷积和上采样,对图像进行处理,在增大下采样图像尺寸的同时,恢复下采样图像的纹理,相较下采样阶段,上采样阶段还包括四个卷积层,公式如下:

wc21,wc22,wc23,wc24为上采样阶段的四层卷积层的卷积核,b21,b22,b23,b24为对应的偏置,y21,y22,y23,o2为对应的输出;

s4,将输出o1、o2与刺激图片构建损失函数,优化网络输出的重建结果;

s5,通过训练好的模型,根据神经节细胞的响应数据重建其刺激图片。

进一步地,所述s4,将输出o1、o2与刺激图片i进行比较,通过损失函数l1,来优化模型的输出,公式如下:

l1:loss=λ1‖o1-i‖+λ2‖o2-i‖(5)

‖*‖是均方误差损失,λ1和λ2两部分损失的权重;优化重建的图片结果,利用逐渐缩小的均方差值,使模型的输出o1、o2分别与刺激图片i逐渐匹配,以优化模型的输出,均方差函数公式如下:

进一步地,所述s4,将输出o1、o2与刺激图片i进行比较,通过损失函数l2,使模型的输出o1、o2分别与刺激图片i分别构建两个损失函数,交替优化loss1和loss2,公式如下:

l2:loss1=λ1‖o1-i‖,loss2=λ2‖o2-i‖(6)

‖*‖是均方误差损失,λ1和λ2两部分损失的权重;最终得到优化重建的图片结果。

进一步地,所述s4,将输出o1、o2与刺激图片i进行比较,通过损失函数l3,仅使模型的最终输出o2与刺激图片i分别构建一个损失函数进行优化,公式如下:

l3:loss=‖o2-i‖(7)

‖*‖是均方误差损失,λ1和λ2两部分损失的权重;最终得到优化重建的图片结果。

进一步地,输入的响应数据为脉冲发放率或者体素响应数据,脉冲-图片转换器的输出为初步解码的刺激o1,图像-图像自动编码器的输出为最终重建的刺激图片o2,将两种输出与刺激图片i进行比较,优化模型的输出。

进一步地,所述s1,根据真实视网膜神经节细胞白噪声刺激和脉冲响应数据计算感受野,然后构建线性编码模型,输入cifar100的自然图片刺激数据生成模拟神经节细胞响应数据,包括如下步骤:

s11,神经节细胞白噪声刺激数据和真实的响应数据,根据脉冲激发分析的方法,得到该神经元细胞的感受野,在蝾螈视网膜数据记录到了90个神经节细胞的数据,并得到了90个神经节细胞的感受野,根据90个感受野的位置信息,使用二维高斯拟合感受野,生成感受野模块;

s12,将待模拟响应的自然图像转成64*64大小的图片,并作像素归一化处理,根据90个神经节细胞的感受野模块,累加每个感受野内的像素值生成基于发放率的响应数据。

进一步地,所述s1,通过真实生理数据采集,获取神经节细胞刺激数据及其对应的响应数据,刺激包括静态自然图像刺激和动态视频刺激。

进一步地,所述s5,使用真实生理数据训练的端到端的基于深度神经网络的自然场景重建的模型,所述真实生理数据包括静态自然图片或视频,当使用静态自然图片进行训练时,通过刺激图片i和神经元群体的脉冲响应s以及模型输出结果o,训练解码模型,然后在该模型中输入神经节群体细胞对新刺激的脉冲响应,重建出该自然刺激图片,证明本网络可以根据脉冲响应很好的重建出自然图像刺激;当使用真实生理数据训练时,在训练好的模型输入新的神经元群体脉冲响应,重建出刺激视频帧。

进一步地,所述s5,使用模拟数据,模拟当cifar100数据集中的自然图片刺激视网膜后神经节细胞的脉冲响应数据,训练解码模型,根据训练好的模型和神经元群体的响应很好的重建出刺激图片。说明本网络可以根据模拟的视网膜神经节群体细胞的响应数据很好的重建复杂的自然图像刺激。

进一步地,所述s5,使用真实生理数据的功能磁共振成像,记录当人在看手写体数字时视觉皮层v1、v2、v3的响应数据,训练解码模型,根据训练好的模型和三个脑区有效体素的响应很好的重建出刺激图片。说明本网络可以根据fmri这样粗信号重建刺激图像。

本发明的优势和有益效果在于:

本发明可以根据神经元群体的脉冲响应,解码出其刺激场景,例如复杂的静态自然图像和动态的视频图像。本发明还可以根据人脑fmri记录的数据,重建mnist刺激图片。通过计算平均平方误差、峰值信噪比、结构相似指数测度,以衡量本模型的性能,即重构的图片与真实刺激图片之间的相似度。综合解码方法所能达到的以上效果,一方面可以建立人脑视觉与机器视觉的桥梁,从而揭示人脑视觉系统编解码的机理;另一方面考虑将该模型应用于研制视网膜假体,推动信息技术和医疗产业的发展。

附图说明

图1是本发明的方法流程图。

图2是本发明中端到端训练的深度网络解码模型架构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

如图1所示,基于深度神经网络的自然场景重建的方法,一方面可以根据视网膜神经节群体细胞对自然场景刺激的响应,对刺激进行解码和重建,不仅包含静态的图像刺激还是动态的视频刺激;另一方面,还可以根据由功能磁共振技术记录的人脑视觉皮层对手写体数字的响应,重建出刺激图片。此外,将在自然图像刺激下生成的模拟的脉冲响应输入到训练好的模型,也可以对其刺激图片进行很好的重建。

根据线性模型和真实神经节群体细胞的感受野生成视网膜模拟数据。首先根据真实视网膜下白噪声刺激下的90个神经元的脉冲响应,推断出这90个神经元的空间感受野,然后使用二维高斯拟合感受野生成感受野模块。将新刺激图片平铺在感受野中,计数每个感受野覆盖下像素值,模拟得到每个神经元的脉冲发放率。

真实生理数据包括使用静态自然图像刺激和视频刺激蝾螈视网膜,使用多电极记录蝾螈视网膜上90个神经节细胞的脉冲响应数据。每张静态自然图像大小为64*64像素,每个视频帧的大小为90*90像素。以及使用功能磁共振记录的人脑视皮层在mnist手写体数据刺激的响应,手写体图像大小为28*28像素。

如图2所示,脉冲-图像解码器由两部分组成。第一部分为脉冲-图片转换器,将神经信号转变为和刺激图片大小一致的图,在该部分,使用的是全连接网络,该网络已经能很好的捕获刺激图片的信息。然后需要将脉冲-图片转换器输出的一维向量重新整形成刺激图片大小的图片。第二部分为图片-图片自动编码器,该部分使用多层cnn模型,进一步对生成的图进行降噪。整个模型输入的是神经元群体的神经响应(对于视网膜脉冲数据,模型的输入为脉冲发放率,对于功能磁共振数据,模型数据的是所有体素的值)。对于模型结构的探索,本实施例也尝试了很多,最终发现,在脉冲-图片转换器部分,将层数设置为3层的模型已经很好的重现刺激图片信息。在图片-图片自动编码器部分,在下采样部分设置了四个卷积层,卷积核大小分别设置为(64,7,7)、(128,5,5)、(256,3,3)、(256,3,3),步长(2,2),在上采样部分所有这些层的核大小分别为(256,3,3)、(128,3,3)、(64,5,5)、(3,7,7)和步长(1,1)。最后使用脉冲-图片转换器的输出o1和图片-图片自动编码器的输出o2以及真实刺激图片i构建损失函数,优化网络输出的重建结果。整个模型前向信息流表示如下:

第一部分是脉冲-图片转换器,由三层全连接网络组成,第一层神经元个数为90(对于视网膜数据中记录了90个神经元,所以自然图像、视频刺激和模拟数据的模型中均设置为90;由于fmri数据中有3092个体素可用,所以设置为3092),第二层神经元个数为512,第三层为64*64(静态图片设置为64*64,视频刺激设置为90*90,fmri数据设置为28*28,模拟数据设置为32*32)。对于激活函数,第二层和第三层分别为relu和sigmoid。

o1=sigmoid(w2*y1)+b2)(2)

表示relu激活函数,s为神经节细胞群体的神经响应数据,w1为第一层与第二层之间的权重,b1为第二层的偏置,y1为第二层的输出;w2为第二层与第三层之间的连接权重,b2为偏置,o1为第三层的输出,也是脉冲-图片转换器的输出;

第二部分为图片-图片自动编码器。由下采样卷积层部分和上采样卷积层部分组成。卷积和下采样的方法部分,包含四个卷积层。卷积和上采样的方法部分也包括四个卷积层,公式如下:

wc11,wc12,wc13,wc14为下采样阶段的四层卷积层的卷积核,b11,b12,b13,b14为对应的偏置,y11,y12,y13,y14为对应的输出;wc21,wc22,wc23,wc24为上采样阶段的四层卷积层的卷积核,b21,b22,b23,b24为对应的偏置,y21,y22,y23,o2为对应的输出;

最后为了训练网络,我们设计了三种损失函数l1、l2、l3,公式如下;

l1:loss=λ1‖o1-i‖+λ2‖o2-i‖(5)

l2:loss1=λ1‖o1-i‖,loss2=λ2‖o2-i‖(6)

l3:loss=‖o2-i‖(7)

‖*‖是均方误差损失,λ1和λ2两部分损失的权重。

并用adam算法优化网络,让模型输出逐渐匹配真是刺激。经此,网络训练完毕,网络输出为重建的刺激图片。

实施例一:

使用真实生理数据-静态自然图像刺激蝾螈视网膜记录的神经节细胞群体的数据,训练的本深度神经网络模型。可以根据训练好的模型和神经元群体的响应很好的重建出自然图像刺激。说明本网络可以根据视网膜神经节群体细胞的脉冲响应数据很好的重建复杂的自然图像刺激。

实施例二:

使用真实生理数据-动态视频刺激蝾螈视网膜记录的神经节细胞群体的数据,训练的本深度神经网络模型。可以根据训练好的模型和神经元群体的响应很好的重建出刺激的视频帧。说明本网络可以根据视网膜神经节群体细胞的脉冲响应数据很好的重建复杂的动态视频刺激。

实施例三:

使用模拟数据-模拟当cifar100数据集中的自然图片刺激视网膜后神经节细胞的脉冲响应数据,训练的本深度神经网络模型。可以根据训练好的模型和神经元群体的响应很好的重建出刺激图片。说明本网络可以根据模拟的视网膜神经节群体细胞的响应数据很好的重建复杂的自然图像刺激。

实施例四:

使用真实生理数据-功能磁共振成像技术记录的当人在看手写体数字时视觉皮层v1v2v3的响应数据,训练的本深度神经网络模型。可以根据训练好的模型和三个脑区有效体素的响应很好的重建出刺激图片。说明本网络可以根据fmri这样粗信号重建刺激图像。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1