基于深度学习的脑连接信号识别方法

文档序号:32345117发布日期:2022-11-26 11:05阅读:97来源:国知局
基于深度学习的脑连接信号识别方法

1.本发明涉及数据识别领域,具体是基于深度学习的脑连接信号识别方法。


背景技术:

2.随着深度学习理论的发展与机器性能的提高,深度学习展示出强大的学习能力,且已经得到广泛的应用。在图像分类领域,深度学习甚至已经超过了人类的表现,在语音识别领域,深度学习已经能够识别出人类语言并做出相应的回馈[8]。在机器翻译领域,深度学习的表现与人类水平相当。深度学习理论的发展与机器性能的提高,使得深度学习得到广泛的研究,并被用于各个领域中。除了图像领域与自然语言领域外,深度学习在医疗,交通,安防等领域的应用也十分广泛。脑功能连接信号为脑部区域各部分活动的连接信号。大脑中的各个部分并不是单独孤立的脑区,而是存在紧密的联系,共同作用于人类的认识与活动。现代脑科学的一些研究表明,大脑中的高级认知功能依赖于各个脑区的共同作用,而不是由单个脑区完成。当各个脑区之间的连接存在某些异常时,会对人类的精神以及行为造成影响,无法完成正常的认知功能时,因此,如何对脑功能连接数据进行识别,是当下研究人员需要研究的课题。


技术实现要素:

[0003]
本发明的目的在于克服现有技术的不足,提供基于深度学习的脑连接信号识别方法,包括如下步骤:
[0004]
步骤一,对脑连接数据集进行采用z-score标准化与随机丢弃的方式进行预处理,得到预处理后的数据集,预处理后的数据集为训练集,对脑连接数据集进行采用z-score归一化生成验证集;
[0005]
步骤二,基于resnet模型改进得到res_icml模型,将训练集输入到res_icml模型,对res_icml模型进行训练,在经过设定轮次的训练后,进入步骤三;
[0006]
步骤三,通过验证集对训练后的res_icml模型进行验证,若满足提前终止条件,则进入步骤四,若不满足,则判断是否达到设定的最大迭代轮次,若是,则进入步骤四,若否则回到步骤二继续训练;
[0007]
步骤四,结束训练,并保存得到训练完成的res_icml模型,将获得的脑功能连接信号数据输入训练完成的res_icml模型,得到该脑功能连接信号数据属于抑郁症患者的概率。
[0008]
进一步的,所述的对脑连接数据集进行采用z-score标准化与随机丢弃的方式进行预处理,得到预处理后的数据集,预处理后的数据集为训练集,包括如下过程:
[0009]
z-score标准化的公式为:
[0010]
x*=x

μσ
[0011]
其中μ为数据的平均值,σ为数据的标准差,x为原始数据,x*为所得原始数据x
[0012]
经过标准后的数据;
[0013]
所述的随机丢弃策略为:通过随机丢弃策略,使得脑连接数据集中的每个元素有p的概率不起作用。
[0014]
进一步的,所述的基于resnet模型改进得到res_icml模型,包括:
[0015]
脑功能连接信号数据首先会经历一个二维卷积模块,再使用改进的inception模块进行特征提取,生成特征图,在生成特征图后使用通道注意力机制模块为各个特征图分配权重继续进行卷积操作,使用残差连接以提升网络深度,避免网络退化,在不断进行卷积操作后,最终得到x个1x1大小的特征图,每个特征图具有全局感受野,最后使用两个全连接层,通过softmax激活函数得数值p。
[0016]
进一步的,所述的提前终止条件为:模型在验证集上的损失不再下降时,则为提前终止条件。
[0017]
进一步的,所述的再使用改进的inception模块进行特征提取,生成特征图,包括如下过程:
[0018]
在inception模块结构的基础上,添加了两个大小不同的卷积核以提取特征,使用了一个3x1大小的卷积核,对应脑功能连接信号二维矩阵中的横坐标,引入了一个较大的卷积核7x7以捕获一定时间及范围内的有效特征,通过降低较大的卷积核的数量,以降低参数量。
[0019]
进一步的,所述的通道注意力机制模块为:在se模块中,使用了两个全连接层为特征图生成权重,在此基础上继续添加一个全连接层学习各个特征图的权重,同时在se模块的全连接层中使用dropout以改善性能。
[0020]
本发明的有益效果是:通过本发明提出的res_icml模型在对脑功能连接信号进行判别的任务中,可以提高脑连接数据识别的成功率。
附图说明
[0021]
图1为基于深度学习的脑连接信号识别方法的流程示意图;
[0022]
图2为模型训练示意图;
[0023]
图3inception模块示意图;
[0024]
图4为se block的基本结构示意图;
[0025]
图5为改进后的se模块示意图;
[0026]
图6为res_icml模型结构示意图;
[0027]
图7为求解示意图。
具体实施方式
[0028]
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
[0029]
为了使本发明的目的,技术方案及优点更加清楚明白,结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0030]
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护
的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0031]
而且,术语“包括”,“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程,方法,物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程,方法,物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程,方法,物品或者设备中还存在另外的相同要素。
[0032]
以下结合实施例对本发明的特征和性能作进一步的详细描述。
[0033]
如图1所示,基于深度学习的脑连接信号识别方法,包括如下步骤:
[0034]
步骤一,对脑连接数据集进行采用z-score标准化与随机丢弃的方式进行预处理,得到预处理后的数据集,预处理后的数据集为训练集,对脑连接数据集进行采用z-score归一化生成验证集;
[0035]
步骤二,基于resnet模型改进得到res_icml模型,将训练集输入到res_icml模型,对res_icml模型进行训练,在经过设定轮次的训练后,进入步骤三;
[0036]
步骤三,通过验证集对训练后的res_icml模型进行验证,若满足提前终止条件,则进入步骤四,若不满足,则判断是否达到设定的最大迭代轮次,若是,则进入步骤四,若否则回到步骤二继续训练;
[0037]
步骤四,结束训练,并保存得到训练完成的res_icml模型,将获得的脑功能连接信号数据输入训练完成的res_icml模型,得到该脑功能连接信号数据属于抑郁症患者的概率。
[0038]
所述的对脑连接数据集进行采用z-score标准化与随机丢弃的方式进行预处理,得到预处理后的数据集,预处理后的数据集为训练集,包括如下过程:
[0039]
z-score标准化的公式为:
[0040]
x*=x

μσ
[0041]
其中μ为数据的平均值,σ为数据的标准差,x为原始数据,x*为所得原始数据x
[0042]
经过标准后的数据;
[0043]
所述的随机丢弃策略为:通过随机丢弃策略,使得脑连接数据集中的每个元素有p的概率不起作用。
[0044]
所述的基于resnet模型改进得到res_icml模型,包括:
[0045]
脑功能连接信号数据首先会经历一个二维卷积模块,再使用改进的inception模块进行特征提取,生成特征图,在生成特征图后使用通道注意力机制模块为各个特征图分配权重继续进行卷积操作,使用残差连接以提升网络深度,避免网络退化,在不断进行卷积操作后,最终得到x个1x1大小的特征图,每个特征图具有全局感受野,最后使用两个全连接层,通过softmax激活函数得数值p。
[0046]
所述的提前终止条件为:模型在验证集上的损失不再下降时,则为提前终止条件。
[0047]
所述的再使用改进的inception模块进行特征提取,生成特征图,包括如下过程:
[0048]
在inception模块结构的基础上,添加了两个大小不同的卷积核以提取特征,使用了一个3x1大小的卷积核,对应脑功能连接信号二维矩阵中的横坐标,引入了一个较大的卷积核7x7以捕获一定时间及范围内的有效特征,通过降低较大的卷积核的数量,以降低参数量。
[0049]
所述的通道注意力机制模块为:在se模块中,使用了两个全连接层为特征图生成权重,在此基础上继续添加一个全连接层学习各个特征图的权重,同时在se模块的全连接层中使用dropout以改善性能。
[0050]
所述的脑功能连接信号为脑部区域各部分活动的连接信号。
[0051]
具体的,本方案采用多尺度卷积操作以提高模型的表达能力,提高模型的准确率。在inception模块的基础上加以完善以适应本文数据集。考虑以resnet网络模型为基础,resnet模型中已有池化层,因此不需要inception中的池化层,即去掉池化操作,以降低参数量。为了尽可能提取到更多有用的特征,在inception模块的基础上,添加更多尺寸不同的卷积核进行特征提取。
[0052]
本方案在原有inception模块的基础上添加3x1,7x7大小的卷积核进行卷积操作,在原有inception结构的基础上,额外添加了两个大小不同的卷积核以提取到更多有用的特征。相比于通常使用的正方形的卷积核,本方案使用了一个3x1大小的卷积核,因为脑功能连接信号的特点,会更关注各脑功能连接信号量之间的联系,即对应脑功能连接信号二维矩阵中的横坐标。除此之外,为了尽可能的捕获更多有效信息,本文引入了一个较大的卷积核7x7以捕获一定时间及范围内的有效特征。然而此举会为模型带来额外的参数,为了进一步优化改结构,本文将降低较大的卷积核的数量,以降低参数量。对于较小的卷积核如3x1,3x3卷积核,产生更多的特征图,而对于较大的卷积核,将产生相对较少的特征图,本文所用的inception模块,如图3所示。
[0053]
本方案在resnet模型的基础上,将部分卷积层替换为inception模块。一方面相对于原有resnet结构,改进后的inception模块能够通过使用多个尺寸不同的卷积核能够提取到更多有效的特征,以便提高模型的准确率;另一方面,通过保留一部分resnet网络模型结构中的卷积层而不是用inception模块代替所有卷积层,也在一定程度上降低了参数量,降低训练所用的时长。
[0054]
在卷积网络通过卷积操作得到多个特征图后,模型会对特征图进行分析。通常情况下每个特征图对结果所造成的影响是相同的,即各个特征图具有相同的权重。但实际上可能某些特征图对结果的影响更大而另一部分特征图没那么重要。本方案希望模型能够更关注于有较高价值的特征图而忽略那些价值较低的特征图。在resnet模型的基础上,使用通道注意力机制模块,可以为特征图赋予不同的权重值,使得模型在训练中会更加关注有价值的信息,一定程度上提高模型的准确率。se block的基本结构图如图4所示。
[0055]
在正常的卷积操作后(即图4中的ftr操作)得到c个长度为w,高度为h的特征图,需要为各个特征图学习到相应的权重。首先进行squeeze操作(即图4中的fsq(
·
)操作),通过squeeze操作得到一个实数,相当于二维特征图进行全局池化操作,该实数具有对应特征图的全局感受野。完成squeeze操作后得到c个1x1的特征图。随后进行excitation操作(即图4中的操作),它通过参数w为每个特征通道生成权重,w并不是人工设置而是参与模型的训练,通过学习来显示的表示特征通道之间的相关性。操作一般采用全连接层来实
现,即第一层为输入c,输出为c/r的全连接层。第二层为输入层为c/r,输出层为c的全连接层,其中r为超参数,一般选取r为16。在最后一层全连接层后添加sigmoid函数,通过sigmoid函数后得到各个特征通道的权重。通过通道注意力机制,为各个通道分配权重能够让深度神经网络在学习时更加关注权重较高的特征,有助于增强特征的可分辨性。通过操作,将上步操作得到的权重与c个特征通道相乘,即得c个带有权重的高度为h,宽度为w的特征通道。se模块可以嵌入其它深度神经网络,仅仅通过增加少量的参数即可带来性能上的提升。可以很方便的在inception网络与resnet网络中添加se模块。
[0056]
本方案采用使用se模块为模型中的特征图生成权重,使得模型能够更加关注价值较高的特征图,以提高模型的表达能力。针对se模块,仍有可优化的空间。上文中的超参数r是一个降维参数,一般选取r为16,原因是当r取值过大时,即输出隐藏神经元个数c/r会过小,表达能力会较弱;当r的取值较小时,即输出隐藏单元个数c/r会过大,会导致参数量的上升。在本文中,模型更加关注准确率而非训练速度,因此在一定程度上可以容忍引入更多的参数量。选择较小的r值,选取r为12,以使得se模块能够更好的学习到权重。在原se模块中,使用了两个全连接层为特征图生成权重,本方案在此基础上继续添加一个全连接层以更好的学习各个特征图的权重。同时在se模块的全连接层中使用dropout以改善性能,经过改进后的se模块如图5所示。
[0057]
一般来说,在使用残差网络解决模型过深时难以训练的问题后,网络结构越深的模型表达效果越好。本方案在resnet模型的基础上,继续使用残差结构增加网络的深度,保证网络模型的复杂度以提取更为抽象的特征。在使用卷积神经网络解决一些图像的问题中,有着这样一种先验经验—在一张图片中的像素点往往与其距离相近的像素点联系较为密切,而当两个像素点距离较远时,极端情况下,一张图片的左上像素点与右下像素点几乎没有任何联系,因此在卷积神经网络进行图片处理时,往往不需要过大的感受野。
[0058]
在本方案所使用的数据集中,每个点代表了某个时刻脑部某两个区域的脑功能连接信号。出于对脑功能连接信号的未知,无法判断哪些脑功能连接信号量连接对分类结果影响较大,而哪些脑功能信号量对结果几乎没有影响,即在图像处理中的一些经验在本文中并不适用。本文采用了多种尺度的卷积核进行特征提取,以捕获到更多有效的特征。在此基础上,本文继续扩大模型感受野,使得最终的特征图能够具有全局感受野,从而捕获更多脑功能连接信号量之间的关系,使得模型对结果有更准确的判断。常见的操作有全局池化操作,然而此举会损失特征图中的有效信息。本文在残差网络的基础上,使用卷积层以取代池化层。通过多个步长为2的卷积核进行卷积操作,每次卷积操作都将使得特征图大小变为原特征图大小的一半。进行多次下采样卷积操作直到特征图大小1x1,此时可以得到n个1x1的特征图。在每个特征图中,都具有全局感受野。
[0059]
最终每个特征每个初始点都将融合其他所有坐标点的信息,如下公式所示:
[0060][0061]
其中w为最终所获取的信息,t为特征图的位置,i,j分别为矩阵中的横坐标与纵坐标,m为输入矩阵的宽度,n为输入矩阵的长度。在最后生成1x1的特征矩阵中,不仅每个输入矩阵元素参与决策,也考虑到了任意点之间的联系,因此能够提取到更多有用特征,对提升网络模型的结果有所帮助。
[0062]
本文在resnet网络模型的基础上,对于网络模型的结构加以改进,最终提出res_icml模型,模型结构示意图如图6所示。脑功能连接信号数据首先会经历一个普通的二维卷积模块,随后再使用多尺度卷积(即inception模块)以提取更多有效特征。在生成特征图后使用通道注意力机制模块为各个特征图分配权重以提高训练效果,本文所使用的通道注意力机制模块如图5所示,之后继续进行卷积操作,res_icml模型是基于resnet模型改进而来,故使用了残差连接以提升网络深度,避免网络退化。在不断进行卷积操作后,最终得到x个1x1大小的特征图,每个特征图具有全局感受野。最后使用两个全连接层,通过softmax激活函数得数值p,p是该数据属于抑郁症患者的概率。
[0063]
本文所研究的问题,即判断脑功能连接信号判断是否属于抑郁症患者,是一个典型的二分类问题。交叉熵损失函数常被用于分类问题中,且取得不错的效果,本文同样采用了交叉熵损失函数。目前常用的用于分类问题的激活函数为sigmoid激活函数与softmax激活函数。本文通过实验验证选取合适激活函数以搭配交叉熵损失函数使用。以vgg16模型,resnet模型以及alexnet模型作为实验模型,在使用不同的激活函数进行实验后,发现仅仅改变激活层函数,仍然会对结果有影响,本方案发现在神经网络的输出层使用softmax激活函数可以取得最佳效果,最终本方案选择softmax激活函数作为输出层,选择交叉熵损失函数作为模型的损失函数。
[0064]
常用的梯度下降算法有随机梯度下降算法、批量梯度下降算法和小批量梯度下降算法,三者之间的连续与区别在上文中以作解释,在此不再赘述。以批量梯度下降法进行说明,假设一个一般的线性回归函数为:
[0065][0066]
对应的损失函数为:
[0067][0068]
模型需要使得损失函数为最小,在初始化参数之后,需要不断对更新权重参数θ使得模型损失不断降低,直至满足要求时停止。利用初始化的权重θ进行更新,如下所示:
[0069][0070]
其中θj代表了第j轮时的模型参数,a代表学习率,即每次学习时的步长,为了更新权重θ,需要求出函数j的偏导数,当只有一个数据点(x,y)的时候,对应的函数j偏导数为:
[0071][0072]
在此基础上,对所有数据点求偏导,则损失函数的偏导数为:
[0073][0074]
在最小化损失函数时,不断地更新权重θ使得每轮更新都将使损失降低,每一轮更新权重θ的过程如下:
[0075][0076]
由权重更新公式可得,在批量随机梯度下降更新模型参数中,每次更新都会使用所有的训练数据进行更新。由于批梯度下降在每次更新模型参数时,所有样本均参与训练,因此当样本数量过多时,模型的训练速度会大幅度下降。且随着样本的增加,对训练模型所使用的机器性能要求也会随之增加。在批梯度下降的基础上,随机梯度下降被提出,它是在单个样本的损失函数对权重θ求偏导数得到下降梯度的基础上,利用该梯度来更新权重θ,如下式所示:
[0077][0078]
虽然使用随机梯度下降能够大大的提升训练的速度,同时相比批梯度下降可以降低对所需训练机器的需求,但是伴随随机梯度下降而来的一个问题是,相比批梯度下降,随机梯度下降算法因为只使用单个样本更新模型参数,使得模型朝着该样本损失最小化方向更新参数,但是无法保证更新后的参数能够使得所用样本的损失和降低,甚至在第j+1轮迭代后,相较于第j轮迭代,模型损失不降反增,也无法保证使用随机梯度下降后最终一定能够收敛到全局最优位置,即最终所有训练样本的损失和最小。
[0079]
批梯度下降算法与随机梯度下降算法,均有着各自的优缺点,在这两种算法的基础上,小批量梯度下降算法[58]被提出。小批量梯度下降算法在随机梯度下降算法与批梯度下降算法中间取得一个平衡,既考虑了训练时的收敛速度,相比于随机梯度下降算法,也拥有更高的模型准确率与鲁棒性。每次更新参数时,既不是用全部训练样本也不是使用训练样本中的单个样本,而是使用训练样本中的部分样本。假设更新模型参数时,使用样本数量为10个,则对应的权重参数更新公式为:
[0080][0081]
在三种梯度下降算法的基础上,本文选择了带动量与学习率衰减的小批量梯度算法,以加快学习速度与提高学习准确率。通过使用带动量的小批量梯度下降算法,可以带来以下的好处:1,加快模型参数收敛速度,可以在更短时间内收敛。2,使得参数收敛更加的稳定,相比于未使用动量的小批量梯度下降,使用动量后,通过融合多次梯度,使得模型收敛更加稳定,向着最优解收敛。使用随机梯度更新权重时,更新公式可有下表示:
[0082][0083]
在引入动量后,其权重更新公式可由下表示:
[0084][0085]
其中β是超参数,由实验人员根据需要选择合适的值。研究人员通过多次实验发现
一般情况下默认设置为0.9,可以获得较好的收敛速度与鲁棒性。由上式可知,收敛方向不仅与本次梯度相关,还与之前下降梯度方向相关。当两次梯度下降方向相同时,可以加快收敛速度,除此之外,使用带有动量的梯度下降,在一定程度上可以避免陷入局部最优解而可以达到全局最优解。
[0086]
在深度学习中,一个常见的问题就是过拟合。由于模型过大、网络结构过于复杂以及训练样本过少等问题,可能会导致网络模型在训练数据集上效果很好而在测试数据集上效果较差,这就是过拟合。本文采用了l2正则化、dropout技术与提前终止来防止过拟合问题。l2正则化损失函数[61]是通过在原损失函数的基础上加上权重参数的平方和得到:
[0087][0088]
其中c为新的损失函数,c0为原有的损失函数,∑ww2为模型参数中所有参数的平方和,λ为权重衰减系数。由上式可以发现,模型的参数值的大小,也会对损失函数的结果有一定的影响。可以简单理解为,在相同误差的情况下,模型参数w的绝对数值越大,其带有l2正则化的损失越大。一般情况下,其网络模型复杂度越低,模型参数w的值越小,带l2正则化损失越低,对数据的拟合更好,拥有更强的泛化能力。以下对l2正则化做出更加详细的解释。考虑到带约束条件的优化解释,对l2正则化为:
[0089]
minj(w;x,y)
[0090]
其中x为训练样本,y为对应的标签,w为模型参数,其中对模型添加l2正则化项后需要满足约束s.t.||w||2≤c该问题的求解示意图如图7所示。
[0091]
如图7所示,图中椭圆为原目标函数c0的一条等高线,圆为半径为的l2范数球。由于约束条件的限制,w必须位于l2范数球内。考虑边界上的一点w,在此点时,w的梯度方向为图中的ein方向,normal方向为范数球在该点处的法线方向。由于w不能离开边界(否则违反约束),因而在使用梯度下降算法更新w时,只能朝着w的切线方向更新,随着w的不断更新,最终在w*处达到最优解。且由上图可知,当l2正则项系数λ越大,l2正则化系数越大,则上图中所对应的圆越大,对原目标函数的更新方向影响越大,越倾向于较小的模型参数。在实际使用过程中,过大或者过小的权重系数λ都会导致模型的表达能力下降,因此择合适的权重系数λ是必要的。
[0092]
另一个常用的防止过拟合的技术就是dropout技术,本文同样采用了dropout技术来一定程度上防止过拟合。在训练深度神经网络中,使得神经元,以p的概率被随机丢弃,也就是将其置为0,这样在该轮的神经网络训练中,该神经元将失去作用,相当于没有神经元。通过使用dropout技术,在每次训练时,相当于只训练其中的部分神经元,在一定程度上相当于降低了网路模型的复杂度,可以避免整个网络产生过拟合的情况。提前终止是一种正则化策略,可以单独在深度神经网络中使用或者与其他正则化策略搭配一起使用以减少过拟合。随着训练轮次的增加,模型在训练集上表现越来越好,损失不断的降低,然而在验证集上,在损失降到最低后,随着网络模型的继续训练,损失反而会增加,这是因为发生了过拟合。针对这种情况,可以采用提前终止的策略来防止过拟合。
[0093]
在使用提前终时,首先需要保存好现在的模型(网络结构与参数值),训练一个轮次后,得到新的模型。将验证集作为新模型的输入,进行测试。当模型发现在本轮在验证集上的损失比于上次损失更大时,训练不会立即停止。考虑到偶然性的存在,模型继续进行训
练与验证。如果验证集误差依旧没有减小,那么就认为该试验在上一次达到最低测试误差时停下来,之前所保存的网络模型即为最终所得到的网络模型。
[0094]
模型训练的具体过程为:首先需要搭建模型,设置实验所需的各种超参数。随后对数据集进行预处理,在完成预处理后进行模型的训练。在模型经过一定轮次的训练之后,根据模型在验证集上面的表现,观察损失是否降低以及准确率是否降低。当在一定轮次的训练之后,模型在验证集上的损失不再下降时,采用提前终止策略,保存下表现最优的模型作为最终模型。
[0095]
为了提高模型的准确率以及降低模型训练所花费的时间,通常会在模型训练之前,对数据集进行预处理,以摸高模型的性能。本文同样对脑功能连接信号数据集采用了预处理,针对图像数据常用的一些预处理策略,如旋转,裁剪,缩放等在此数据集中不太适用,本文针对脑功能连接信号数据集的特点,采用了z-score标准化(zero mean normalization)与随机丢弃的方式进行预处理。
[0096]
(1)z-score标准化:
[0097]
在使用z-score处理之后,数据满足标准正态分布,
[0098]
z-score标准化的公式为:
[0099]
x*=x-μσ
[0100]
其中μ为数据的平均值,σ为数据的标准差,x为原始数据,x*为所得原始数据x经过处理后的数据。
[0101]
使用z-score标准化之后,优化了数据分布,使得数据的对比性增强,使得模型更容易发现各数据之间的联系。z-score标准化方法能够突出数据间的对比,有利于发现数据间的联系,因此很适合脑功能连接信号分析。z-score标准化能够在数据未知的情况下,改善数据的分布,使其满足均值为0,方差为1的正态分布,有利于模型的训练,在一定程度上可以加快模型的训练速度以及提升模型的准确率。
[0102]
(2)随机丢弃策略:
[0103]
受到dropout技术的启发,为了避免过拟合,本文除了采用dropout技术,提前终止策略等方式外,本文对脑功能连接信号数据集也采用了随机丢弃的策略。通过随机丢弃策略,使得样本数据中的每个元素有p的概率不起作用,不会在训练时对模型的训练造成影响。除此之外,可以模拟一种情况,当一位病人接受脑部信息收集时,因为种种原因,其中某些信号没有收集到,或是信号异常无法用于模型的训练。在这种情况下,通过其他已知的脑功能连接信号,将其分辨为属于抑郁症患者的脑功能连接信号数据或者属于非抑郁症患者的脑功能连接信号数据。在本文中,即表现为样本数据中的某些元素缺失时,样本的标签与完整数据时的标签相同,即部分样本元素的缺失并不影响标签,仍与完整的样本有着相同的标签。使用随机丢弃策略,不仅可以在一定程度上避免过拟合的发生,也能够模拟出不同的样本数据(每次丢弃的元素值不同,因此一个样本数据在训练时会对应多个不同的随机丢弃数据后的样本),提高模型的泛化性能。为了模拟脑功能连接信号中部分数据的丢失,使其不在训练时起作用,即将其值为0。对于脑功能连接信号样本中的每个元素,使其有p的概率为0。当p值设置过大时,会使得样本数据有效信息的丢失,训练的准确率会降低,甚至模型参数无法收敛。当p值设置过小时,无法起到有效作用。经过实验,在本文中取p=0.005时,模型的准确率有所提高。与原数据进行比较,只有其中的部分元素被置为0,其余元素数
值均未改变。通过这种方式,一方面可以一定程度上防止过拟合问题,一方面表现为增加了训练样本的样本数,使得模型的准确率与泛化能力有所提高。
[0104]
在深度学习中,有部分参数不参与训练,是在模型开始训练之前人工设置好的,称之为超参数。不同的超参数会对模型的训练结果造成一定的影响,因此结合网络模型与数据集特点选择一组合适超参数,可以提高深度学习网络模型的学习效率和准确率。没有通用的超参数选项,即不存在某些超参数在所有的模型与数据集上都表现良好。在不同的模型以及数据集中,往往需要选择不同的超参数。在本文中,需要设置的超参数主要有以下几个值,学习率,训练轮次,权重衰减系数,动量系数,小批量样本数,提前终止策略训练轮次。本文所使用的超参数值如下表所示:
[0105][0106]
学习率:在模型进行训练的初期,需要保持较大的学习率,以便使得模型参数快速收敛。在经过一定轮次的迭代训练之后,若仍然保持较大的学习率,会造成无法达到全局最优解且损失来回震荡,造成的模型参数无法收敛,因此在一定轮次的训练之后选择降低学习率。本文在0到50轮次的训练中,采用0.001的学习率,在50轮次到80轮次中,降低学习率为0.0005,在80轮次到100轮次的训练中,降低学习率为0.0001。
[0107]
训练轮次:当训练轮次过大时,可能会造成过拟合的问题,在训练集上取得非常好的效果而在测试集上效果较差。当训练轮次过小时,可能造成欠拟合的问题,即无法通过训练集学习到足够的表达能力,在训练集与测试集上准确率都有所不足。在本文的实验中,发现模型基本可以在100轮次训练内完成收敛,故本文选取的最大训练轮次为100.
[0108]
权重衰减系数:本文采用了权重衰减系数来降低过拟合问题。通过使用l2正则化,即权重衰减策略,来使得模型参数倾向于选择较小的模型参数,从而减少过拟合问题。本文选取的权重衰减系数为0.001。
[0109]
动量系数:考虑之前训练轮次权重更新方向对本轮参数更新时的影响,选择合适的动量系数可以加快模型的收敛速度,避免模型产生不必要的震荡。经过相关人员的研究,选择动量系数选择0.9~0.95之间,一般可以得到不错的效果。在本文中最终选择的动量系数为0.9。
[0110]
小样本批量数:在使用小批量梯度下降算法时,需要指定每次用于更新模型参数时所使用的样本数。当批量样本数过多时,会占用更多的内存,对用于训练模型的机器有着更高的配置要求,且随着样本数的增加,会降低模型收敛的速度,模型训练时间也会随之增加。而当批量样本数较少时,虽然可以加快模型的收敛速度,但无法保证可以达到全局最优点,无法保证收敛到最优解。本文选取的每次用于模型权重更新的样本数量为15。提前终止策略训练轮次:本文选取了提起终止策略来避免过拟合问题,即经过一定轮次的训练之后,再继续进行训练时,模型在验证集上的损失开始增加且在验证集上的准确率开始下降时,可以考虑提前终止。在之后的一定轮次的训练中,模型在验证集上表现均降低,即使用提前终止策略,保存下在验证集上表现最好的模型作为最终模型并停止训练。本文选取的提前终止策略训练轮次为10,即在之后的10轮次训练中,模型在验证集上的表现均降低,则模型
此时发生了过拟合,保存下之前效果较好的模型并停止训练。
[0111]
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1