一种脑发育数据分析方法、系统、设备及存储介质

文档序号:26791319发布日期:2021-09-28 23:29阅读:125来源:国知局
一种脑发育数据分析方法、系统、设备及存储介质

1.本发明属于数据处理领域,涉及一种脑发育数据分析方法、系统、设备及存储介质。


背景技术:

2.高维小样本数据常见于生物医学领域,如基因组数据、医学图像数据、蛋白质数据等,这些数据具有样本量小,但样本特征巨大的特点,尤其是脑发育数据。这一特点对于进行数据处理和分析的过程提出了一定的挑战。当样本量与样本特征比值很小时,经典的机器学习算法往往会失败,这是由于在高维数据中可能包含不相关的和冗余的特征。目前,深度学习被证实是大数据分析中最强大的工具之一,但是传统的深度学习算法在生物信息学的应用中仍然十分有限,主要是因为当数据的样本量远小于特征数时,往往会导致模型陷入过拟合,进而导致数据处理不准确,很难从数据中提取有效信息,因此,有必要针对这类具有高纬小样本特征的数据,必须设计一种方法,以解决现有深度学习模型处理高纬小样本数据的过拟合问题。


技术实现要素:

3.本发明的目的在于克服上述现有技术的缺点,提供了一种脑发育数据分析方法、系统、设备及存储介质,该方法、系统、设备及存储介质能够有效解决处理高纬小样本脑发育数据时出现的过拟合问题。
4.为达到上述目的,本发明所述的脑发育数据分析方法,包括:
5.构建图正则稀疏深度自编码模型,所述图正则稀疏深度自编码模型中的隐含层由n个带图拉普拉斯正则的稀疏自编码堆叠而成,所述图正则稀疏深度自编码模型的损失函数中添加有图拉普拉斯正则项;
6.对图正则稀疏深度自编码模型进行训练及微调;
7.利用训练后的图正则稀疏深度自编码模型进行脑发育数据分析。
8.对图正则稀疏深度自编码模型进行训练的具体过程为:
9.采集已备案的脑发育数据;
10.在采集到的脑发育数据中,将各个体与其对应的数据特征及其变化值汇总为一条单元数据,利用各个体对应的单元数据构建数据矩阵;
11.将数据矩阵分为训练集及测试集;
12.利用训练集及测试集对图正则稀疏深度自编码模型进行训练。
13.所述图正则稀疏深度自编码模型中的隐含层由六个带图拉普拉斯正则的稀疏自编码堆叠而成。
14.图拉普拉斯正则项为:
15.16.其中,数据集为x={x1,x2,l,x
n
},x
p
∈r
m
,x
p
为第p个样本,n为样本量,m为样本特征维数,φ
pq
=exp(

||x
p

x
q
||2/σ)表示连接边权重,σ为高斯内核宽度,h=[h1,h2,l h
n
]
t
,h
p
∈r
m

为每个样本x
p
相应的低维表达,tr(
·
)表示矩阵的转置,d为对称矩阵,)表示矩阵的转置,d为对称矩阵,为拉普拉斯矩阵,
[0017]
训练过程中图正则稀疏深度自编码模型的优化目标为:
[0018][0019]
其中,x={x1,x2,l,x
n
},x
p
∈r
m
,x
p
为第p个样本,n为样本量,m为样本的特征维度,第l层的神经元个数为n
l
,l=1,2,3,表示输出层第p个样本的第i个神经元的激活值,表示第l层和第l+1层之间的连接权矩阵;kl(
·
)表示kl散度,ρ为kl散度项的稀疏参数,表示n个训练样本在第j个隐层单元激活值的平均值;其中,每个表示第l层第p个样本的激活值;为图拉普拉斯正则项,φ
pq
=exp(

||x
p

x
q
||2/σ),σ为核宽度,λ1,λ2,λ3分别为kl、权值衰减和图正则化的权重惩罚参数。
[0020]
添加图拉普拉斯正则项后的图正则稀疏深度自编码模型的损失函数为:
[0021][0022]
其中,x={x1,x2,l,x
n
},x
p
∈r
m
,x
p
为第p个样本,n为样本量,m表示样本的特征维度,第l层的神经元个数为n
l
,l=1,2,3;表示输出层第p个样本的第i个神经元的激活值,表示第l层和第l+1层之间的连接权矩阵,kl(
·
)表示kl散度,ρ为kl散度项的稀疏参数,为n个训练样本在第j个隐层单元激活值的平均值;每个表示第l层第p个样本的激活值;为图拉普拉斯正则项,φ
pq
=exp(

||x
p

x
q
||2/σ),σ为核宽度;λ1,λ2,λ3分别为kl、权值衰减和图正则化的权重惩罚参数。
[0023]
微调过程中图正则稀疏深度自编码模型的损失函数为:
[0024][0025]
其中,表示第l层x
pj
的重构结果,φ
pq
=exp(

||x
p

x
q
||2/σ)且σ表示高斯核宽,表示第p个样本在第l层网络的第j个神经元的响应值,表示z
(l)
=a
(l

1)
·
w
(l

1)
在(p,j)处的值。f为任意可微的激活函数,表示第j个神经元在第l层的平均激活值,β1,β2,β3均为正则项的惩罚参数。
[0026]
一种脑发育数据分析系统,包括:
[0027]
构建模块,用于构建图正则稀疏深度自编码模型,所述图正则稀疏深度自编码模型中的隐含层由n个带图拉普拉斯正则的稀疏自编码堆叠而成,所述图正则稀疏深度自编码模型的损失函数中添加有图拉普拉斯正则项;
[0028]
训练及微调模块,用于对图正则稀疏深度自编码模型进行训练及微调;
[0029]
分析模块,用于利用训练后的图正则稀疏深度自编码模型进行脑发育数据分析。
[0030]
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述脑发育数据分析方法的步骤。
[0031]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述脑发育数据分析方法的步骤。
[0032]
本发明具有以下有益效果:
[0033]
本发明所述的脑发育数据分析方法、系统、设备及存储介质在具体操作时,将图正则稀疏深度自编码模型引入到脑发育数据分析中,同时,所述图正则稀疏深度自编码模型中的隐含层由六个带图拉普拉斯正则的稀疏自编码堆叠而成,且在图正则稀疏深度自编码模型的损失函数中添加图拉普拉斯正则项,以考虑数据中固有结构的先验知识,提高无监督稀疏深度自编码的学习能力及表达能力,有效解决处理高纬小样本脑发育数据时出现的过拟合问题。
附图说明
[0034]
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0035]
图1为本发明的结构示意图;
[0036]
图2a为显著差异的动态功能连接选择示意图;
[0037]
图2b为深层自编码模型的分类比较图;
[0038]
图3为肘部法则的示意图;
[0039]
图4a为状态1下264个roi及其对应的13个rsns中所选功能连接的分布图;
[0040]
图4b为状态2下264个roi及其对应的13个rsns中所选功能连接的分布图;
[0041]
图4c为状态3下264个roi及其对应的13个rsns中所选功能连接的分布图;
[0042]
图4d为状态4下264个roi及其对应的13个rsns中所选功能连接的分布图;
[0043]
图4e为四种状态下儿童和青少年的ft均值分布图;
[0044]
图4f为四种状态下儿童和青少年的dt均值分布图;
[0045]
图4g为两组样本在四种状态下ft和dt的统计学差异图;
[0046]
图5为实施例五中所选功能连接的分布图。
具体实施方式
[0047]
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
[0048]
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本技术所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
[0049]
实施例一
[0050]
参考图1,本发明所述的脑发育数据分析方法包括以下步骤:
[0051]
1)收集已备案的脑发育数据;
[0052]
2)在脑发育数据中,将与每一个个体所对应的数据特征及其变化值汇总为一条单元数据,以形成结构化的数据矩阵,所述数据矩阵包括样本量n及样本特征p,其中,样本量n相对于特征p来说较小,即n<<p;
[0053]
3)将形成结构化数据矩阵的脑发育数据分为训练集及测试集;
[0054]
传统的深度学习算法包括预训练过程(pre

training)及微调(fine

tuning)过程,对微调过程,本发明利用带有图拉普拉斯正则项的损失函数的梯度计算公式,用于在训练过程中的参数更新,通过带图正则稀疏深度自编码模型对上述数据进行优化运算,具体优化过程为:
[0055]
31)设定深度学习基本框架,将训练集中的数据按照数据特征建立包括输入层、六个隐含层及输入层的数据模型,其中,输入层包含若干个具有数据特征的节点,即输入层的节点个数为训练集中的样本特征p,输出层为经过重构后的输入数据,每个隐层包含若干个与上一层输入值具有映射对应关系的节点。
[0056]
32)对于各层稀疏自编码的每个节点采用数学方程,建立该节点的数据模型,预设数学方程中的相关参数值,在该深度网络中,本发明选用6个图稀疏自编码(graphic sparse auto

encoder,gsae)进行堆叠,即包含的隐层个数为5,每层的神经元个数分别15000,7000,6700,6700,7000和15000。输入层及输出层的节点个数都为训练集样本特征,记为p。根据上述设定,本发明所堆叠的深度神经网络模型包含8个神经层,分别为输入层、6个隐含层及输出层。
[0057]
33)在网络训练预训练过程中,对于每个gsae,将其权重衰减参数、kl散度正则项
和图拉普拉斯正则项分别设定为0.03、0.1及0.01,图拉普拉斯正则项的核宽度σ=0.5;微调过程中,权重衰减参数、kl散度正则项和图拉普拉斯正则项参数的设定分别为0.01、0.3及0.01。此外,ρ=0.1且在模型训练中选用sigmoid作为网络层的激活函数f,在微调过程中,采用小批量(minibatch sampling)抽样策略及小批量的随机梯度下降(sgd with mini

batch)方法进行参数更新。
[0058]
34)初始化各层网络的参数值ai,包括网络连接的权重wi及对应的偏置bi,将训练集数据输入到输入层中进行网络结构的学习,将输出层中各节点的输出值与对应的原始输入数据进行对比,反复修正各层神经网络的参数值,依次循环,以获得使得输出层各节点与原始输入数据相似度最高的输出值所对的各层神经网络结点的参数值。
[0059]
35)将测试集数据输入训练好的深度神经网络模型,用于确定所选择具有差异的动态功能连接的有效性,从而进一步进行相应的脑发育分析及研究。
[0060]
需要说明的是,数学方程为参数数学方程,可以为线性模型或神经元模型,例如,sigmoid激活函数或卷积运算模型,数学模型设定方式为:
[0061]
y=g(x)=f
n
(f
n
‑1(f
n
‑2(...f1(x))
[0062]
其中,y为重构后的训练集数据,维度为p,x为训练集数据,特征维度为p,f1至f
n
为设定的每一层运算方程,每层方程f
i
的维度即为各层神经元的个数,例如,第一层输入层到第一个隐含层将维度为p的训练数据转换成维度为200的输出,根据各层神经元个数依次类推,其中,每一层模型f
i
存在与之相匹配的参数组ai,包括各层的连接权重wi及偏置bi。
[0063]
为同时考虑数据中的稀疏模式和固有结构的先验知识,提高无监督深度稀疏自编码的学习能力和表达能力,本发明引入图拉普拉斯正则项,其具体形式为其中,φ
pq
=exp(

||x
p

x
q
||2/σ),σ表示高斯内核宽度,在引入图拉普拉斯正则项后目标函数为:
[0064][0065]
ρ为kl散度项的稀疏参数,为n个训练样本在第j个隐层单元激活值的平均值,λ1,λ2,λ3分别为kl、权值衰减和图正则化的权重惩罚参数,利用以上函数完成gsae的预训练,然后将其堆叠成gsdae,再利用微调完成训练,在微调过程中gsdae的损失函数为:
[0066][0067]
β1,β2,β3均为正则项的惩罚参数。
[0068]
实施例二
[0069]
本发明所述的脑发育数据分析系统,包括:
[0070]
构建模块,用于构建图正则稀疏深度自编码模型,所述图正则稀疏深度自编码模型中的隐含层由n个带图拉普拉斯正则的稀疏自编码堆叠而成,所述图正则稀疏深度自编码模型的损失函数中添加有图拉普拉斯正则项;
[0071]
训练及微调模块,用于对图正则稀疏深度自编码模型进行训练及微调;
[0072]
分析模块,用于利用训练后的图正则稀疏深度自编码模型进行脑发育数据分析。
[0073]
实施例三
[0074]
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述脑发育数据分析方法的步骤。
[0075]
实施例四
[0076]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述脑发育数据分析方法的步骤。
[0077]
实施例五
[0078]
mri作为一个重要的医学成像模式,已经被广泛用于早期检测,诊断以及疾病治疗,这类生物医学数据,通常具有高维小样本的特性,即具有大量特征且样本数较低,在应用深度学习方法对该类数据进行相应的脑结构及脑功能异常时可能会存在过度拟合问题。为了验证我们所提出的算法能够有效地避免过拟合,选取出有效特征。我们以philadelphia neuro developmental cohort(pnc)数据,该数据来自于由宾夕法尼亚大学和费城儿童医院合作研究大脑行为协作研究的大规模实验数据,该数据包括878名8

22岁青少年的fmri数据,用标准预处理过程spm12。
[0079]
本发明利用图正则稀疏深度自编码选择在脑发育过程中具有显著性差异的功能连接。根据年龄(以月为单位)选择完整数据集的数据子集,其中,年龄在216个月以上的受试者属于第一类,年龄在144个月以下的受试者属于第二类,首先根据264个大脑感兴趣区域(rois)的区域平均氧合水平相关(bold)信号,计算它们之间的皮尔逊相关系数。因此,输入数据的维数为34716,总样本量为397。利用所选功能连接的分类能力验证网络的性能,然后再对所选择出来的功能连接后进行生物信息分析。
[0080]
从两组样本(儿童和青少年)中分别选取70%的受试者作为训练集,剩下的30%作为测试集。利用训练数据来实现gsdae的网络架构学习,进而确定两组dfc的本质差异,测试数据用于确定所选择具有差异的dfc的有效性,根据训练数据的重构结果,对原始的34716个连接进行频率统计,选取其中的高频连接作为两组样本中具有显著差异的dfc。整个选择过程以无监督的形式进行。为避免重要连接的遗漏,将上述过程重复进行10次。此外,为了测试gsdae模型在稀疏性和特征选择的有效性能,我们将该模型与其他几种深层进行了比较,包括dae,具有权重衰减和kl正则化的深度自编码模型(sdae),具有dropout的深度自编码(dp

dae),具有dropconnect的深度自编码(dpc

dae),采用剪枝法的深度自编码(pr

dae)和基于奇异值分解的(svd

dae)。上述模型均与gsdae共享参数。将上述所有模型及gsdae在测试数据上重复进行10次,结果如图2a及图2b所示,由图2a及图2b可知,gsdae能够准确识别出两组dfc的显著差异。最后根据gsdae所选择的10组无监督的dfc差异,考虑其结合及每个差异在10次结果中出现的频率,并根据他们的平均分类精度确定最显著性的特
征,所选特征与测试数据平均分类精度的关系如图3所示,在总的34716个功能连接中,最终保留1729个特征作为在发育过程中的最具显著性的动态功能连接,最终将所有样本的特征维度都缩减为1729,即仅保留样本最具显著性的dfc。
[0081]
特征所含的生物信息分析
[0082]
1、动态功能连接状态分析及其时变性
[0083]
首先,利用k

means聚类来识别不同的功能连接模式,通过基于平方误差的肘部法则确定两组的最佳fc状态数为4(状态数确定的依据见图3)
[0084]
对于4种不同的状态,分别研究在不同状态下功能网络的显著性组间差异,且为进一步量化四种状态的重要性,选用ns、ft及dt三个指标对受试者的四种状态的时间占用进行研究。结果如图4a至图4g,在图4a至图4g中a部分表示四种fc状态下264个roi及其对应的13个rsns中所选的1729个功能连接的不同分布,每个子图中的深色线条表示在发育过程中增加的功能连接,其余线条表示发育过程中减弱的功能连接。b部分中,a表示四种状态下儿童与青少年的ft均值分布。b表示四种状态下两组样本的dt均值分布,c表示两组样本在四种状态下ft和dt的统计学差异。
[0085]
2、连接组学差异分析
[0086]
在所选的1729个与发育差异显著相关的功能连接中,有1160个位于12个具有大脑特定功能的rsns内部或之间,其中,包含162个岁年龄的增加显著增强,998个连接会随着年龄的增长显著减弱,图5描述了在12个具有大脑特定功能的rsns之间及其内部的功能连接分布情况,其中,下半部分表示减少的功能连接,上半部分表示增加的功能连接,色块的颜色表示功能连接的强度,色块越深,功能连接越强。
[0087]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0088]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0089]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0090]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0091]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1