本发明的技术方案涉及用于识别图形的图像特征或特性的抽取的图像预处理,具体地说是多模态脑部神经影像特征的处理方法。
背景技术:
阿尔茨海默病是一种很难治愈且不可逆转的脑疾病,现阶段治疗阿尔茨海默病的药物效果有限,所以在病变的早期及时对疾病进行干预非常重要。随着神经影像技术发展,现在已经通过不同技术手段,例如磁共振图像或正电子发射计算机断层扫描,来得到多种反映人类脑部状况的影像。医生借助学习得到的知识和实践经验,解读病人脑影像所反映的解剖结构和病理生理信息,但是这种人工解读病人脑影像的方式,是依赖医生的个人经验、知识和情绪,诊断的正确率和效率均较低。现今,利用计算机技术对脑影像进行分析和处理来辅助医生对脑部发生病变的区域进行定量分析,从而提高了诊断的正确率和效率。机器学习方法作为基于数据驱动的预测与分析工具,能够充分利用生物标志数据内在的结构信息构建模型来分析大脑结构或者功能的特性,从而更好地揭示脑认知行为和相关疾病的产生机制。
“模态”是指从某一个角度对事物进行描述,那么多模态数据是从不同角度对同一事物进行描述所得到的数据,如果将一种脑部神经影像当作一个模态,那么从不同角度对脑部影像进行描述所得到的就是多模态脑部神经影像。多模态学习技术就是通过探索不同模态之间的关系,来提高多模态的选择和分类的性能。因此,可以采用多模态脑部影像来判断检查者是否患有阿尔茨海默病,或者处于阿尔茨海默病的早期轻度认知障碍,或者处于阿尔茨海默病的晚期轻度认知障碍。
脑部影像的维度较高且包含的信息量较大,并不是脑部影像中所有特征都对检测分析阿尔茨海默病有帮助。因此从脑部影像所提供的大量特征中选择出与分类预测任务相关的特征,去掉冗余的或者与分类相关性低的特征是非常重要的研究工作。现有的从脑部影像所提供的大量特征中选择出与分类预测任务相关的特征的方法是基于最小绝对收缩和选择算子方法,该方法大致分为两类:一类是应用单模态数据或者简单级联多模态数据,此类方法不能充分利用多模态数据来挖掘不同模态之间的互补信息。另一类是通过脑脊液中的β-淀粉体(1-42)和t-tau蛋白生物标志物来检测阿尔茨海默病,此类方法需要侵入人体提取生物标志物,对受试者产生较大伤害。cn108198576a公开了基于语音特征非负矩阵分解的阿尔茨海默症初筛方法,该方法利用语音特征对受试者进行是否患病进行判断,其提取出的声学特征没有在临床上证明阿尔茨海默症和健康人存在差异,其提取的特征在医学上没有解释性。cn106062563a公开了用于阿尔茨海默病早期诊断的生物标志物及方法,该方法从脑脊液和血液中提取生物标志物,在对受试者进行这些生物标志物获取时会对受试者造成身体伤害,有侵入性,且特征提取和检验的成本较高。cn108154924a公开了基于支持向量机的阿尔茨海默症特征分类方法及系统,该方法只利用了一种数据,只能从结构上找出脑部变化,获取的特征少,不能充分说明受试者是否患病。cn108682009a公开了一种阿尔茨海默症预测方法、装置、设备及介质,该方法利用磁共振成像数据且使用3d卷积神经网络模型进行运算,该方法只能判断受试者是否患病,不能找出患者的患病脑区,其黑盒特性不能给出判断受试者是否患病的依据。cn106202916a公开了建立一种阿尔茨海默病的分层多流形分析模型,该方法只能对受试者进行分类,并不能找出受试者是否患病的病变脑区特征。cn108682009a公开了一种基于人工神经网络和多模态mri的阿尔茨海默病智能判别分析方法,该方法只能判断受试者是否患病,不能找出患者的患病脑区,其黑盒特性不能给出判断受试者是否患病的依据。
总之,在现有的检测分析阿尔茨海默病技术中,存在利用的生物标志物特征时会对受试者造成伤害,只利用一种脑部影像特征数据或利用不充分的多模态脑部神经影像特征数据不能找出患者的患病脑区,并且所利用的脑部影像中的特征没有医学上的解释性的缺陷。
技术实现要素:
本发明所要解决的技术问题是:提供多模态脑部神经影像特征的处理方法,是基于样本权重和低秩约束的多模态神经影像特征选择和多核支持向量机分类的方法,即先采用样本权重和低秩约束的多模态神经影像特征选择方法对多模态的数据进行特征选择,得到低维特征矩阵,计算每个模态的核矩阵,得到低维特征矩阵,计算每个模态的核矩阵,然后将不同模态的核矩阵融合成一个核矩阵,由此选择出更具有判别性的生物标志物特征,并使用多核支持向量机对阿尔茨海默病新样本病例进行预测分类。本发明方法克服了在现有的检测分析阿尔茨海默病技术中,所存在的利用的生物标志物特征会对受试者造成伤害,只利用一种脑部影像特征数据或利用不充分的多模态脑部神经影像特征数据不能找出患者的患病脑区,并且所利用的脑部影像中的特征没有医学上的解释性的缺陷。
上文中,“基于样本权重和低秩约束”的英文为“sampleweightandlowrankconstraint”,以下简称“swlrc”,“支持向量机”的英文为“supportvectormachine”,以下简称“svm”,“阿尔茨海默病”的英文为“alzheimer'sdisease”,以下简称“ad”,“基于最小绝对收缩和选择算子”的英文为“leastabsoluteshrinkageandselectionoperator”,以下简称“lasso”。
本发明解决该技术问题所采用的技术方案是:多模态脑部神经影像特征的处理方法,是使用swlrc的多模态神经影像特征选择方法进行生物标志物的挖掘,再使用多核svm方法分类,具体步骤如下:
第一步,多模态神经影像输入:
对基于体素的形态测量法处理的磁共振脑影像和氟脱氧葡萄糖-正电子发射断层扫描脑影像这两种模态脑部影像数据提取感兴趣区模板特征,步骤是,首先使用统计参数映射软件包将基于体素的形态测量法处理的磁共振脑影像和氟脱氧葡萄糖-正电子发射断层扫描脑影像配准到标准空间中,然后采用116个感兴区的spm软件的工具箱marsbar自动解剖标记模板分别将基于体素的形态测量法处理的磁共振脑影像的灰度密度数值和氟脱氧葡萄糖-正电子发射断层扫描脑影像的葡萄糖代谢水平的数值作为特征并进行提取,最后确定去除小脑后的90个感兴趣区的上述两种模态脑影像数据作为使用的特征,进一步对这些使用的特征进行标准化,由此完成多模态神经影像输入;
第二步,使用swlrc的多模态特征选择方法进行特征分析:
将上述第一步中得到的每个模态的特征数据用
公式(1)中,m为神经影像个数,s为模态的个数,βv为第v个模态的特征选择向量,
第三步,优化目标函数:
优化上述第二步中的公式(1)中的目标函数的方法是采用快速收敛的方案,即重复多次搜索公式(1)中的目标函数的局部最优解来近似最优解,并采用交替方向乘子法对上述公式(1)中的w和βv进行优化,目标函数被改写为如下公式(2)所示,
s.t.-w+λ=0,j=w,
公式(2)中,
在线性规划中,将不等式约束条件变为等式约束条件,由此完成优化目标函数;
第四步,目标函数的求解:
为了表示简单,将上述第三步中的公式(2)的三项内容分别简记为f1(u)、f2(βv)、f3(j),由此将公式(2)的增广拉格朗日形式定义为如下公式(3),
公式(3)中,pv∈rm×90,q∈rm×s,e∈rm×s均为拉格朗日乘子,μ、ρ、ξ均为增广拉格朗日项的三个参数,‖·‖f表示f范数,uv为由变量
并且,将通用的交替方向乘子法框架写成如下公式(5)的形式:
且在交替方向乘子法框架中,每一步都是凸优化问题,通过计算得到每一步的最优解,由此完成目标函数的求解;
第五步,变量w、βv、u和j的求解:
将wvβvt-uv简记为γv,
第5.1步,求解变量训练样本的所有模态的权重矩阵w:
由以下公式(6)和公式(7)求解变量训练样本的所有模态的权重矩阵w,
公式(6)中,ev是e的列向量,jv是w的列向量,将上述问题分解为s个关于wv的子问题,如下公式(7)所示,
公式(7)为s个关于wv的子问题,通过梯度下降的方法进行求解,然后将w的解按列进行归一化,即将w的每一列的数除以每一列的模长,由此完成求解变量训练样本的所有模态的权重矩阵w;
第5.2步,求解变量第v个模态的特征选择向量βv:
上述第二步中指明βv为第v个模态的特征选择向量,对于各个模态的βv的解通过以下公式(8)计算得到,
公式(8)中,d=‖wv‖2,ε=λs/(dρ),sε是软阈值收缩算子,即通过比较(ρuv-pv)twv/(dρ)与ε=λs/(dρ)的大小并计算完成求解变量第v个模态的特征选择向量βv;
第5.3步,求解变量跨模态矩阵u:
用如下的公式(9)求解跨模态矩阵u,
公式(9)中,
其中,
第5.4步,更新交替方向乘子法中的j:
用以下公式(11)更新交替方向乘子法中的j,
公式(11)中,
由此完成交替计算变量w、βv、u和j的求解,并求出目标函数的值,当前目标函数的值与前循环计算得到的目标函数值的差小于0.0001时,停止迭代;
第六步,特征选择:
对于上述第五步的第5.2步中计算得到的第v个模态的特征选择向量βv的值,去掉βv的特征的权重值小于0.001的特征,剩下的特征即为使用swlrc选择出来的特征;
第七步,训练多核svm:
将上述第六步得到的特征的权重大于0.001的特征和数据集中的脑部神经影像标签输入到多核svm中,用φ(x)来表示映射后的特征向量,此时得到每个模态的核矩阵,且所用的核为线性核,第v个模态的核函数如下公式(12)所示,
公式(12)中,
公式(13)中,κ(xi,xj)表示所有模态的核函数和,cv每个模态的权重,
由此得到多核svm的对偶形式如下公式(14)所示,
αi≥0,i=1,2,…,m(14),
公式(14)中,α为拉格朗日乘子,αi表示第i个神经影像的拉格朗日乘子,
然后对公式(14)求解即可,由此完成训练多核svm;
第八步,分类与预测:
将上述第七步训练得到的αi带入到下面的公式(15)中,给定一个新的测试样本x0,决定样本标签的决策函数定义如下公式(15)所示,
公式(15)中,核函数采用线性核,两个线性核函数的和还是线性核,sign()为取括号内数值的符号,b为偏置,由训练支持向量机得到,cv是通过网格搜索在训练集上交叉验证得到的,f(x0)的值即为新的测试样本的预测结果;
至此完成使用swlrc的多模态神经影像特征选择方法进行生物标志物的挖掘,并使用多核svm方法分类进行多模态脑部神经影像特征的处理。
上述多模态脑部神经影像特征的处理方法,所述spm的全称为statisticalparametricmapping,中文意思为统计参数映射;marsbar的全称为
本发明的有益效果是:与现有技术相比,本发明的突出的实质性特点和显著进步如下:
(1)脑部影像的维度较高且包含的信息量较大,并不是脑部影像中所有特征都对检测分析阿尔茨海默病有帮助。因此从脑部影像所提供的大量特征中选择出与分类预测任务相关的特征,去掉冗余的或者与分类相关性低的特征是非常重要的研究工作。基于样本权重和低秩约束即swlrc的多模态特征选择方法是基于最小绝对收缩和选择算子方法(简称lasso)的改进,能够在进行特征选择时考虑样本存在个体差异甚至含有离群点,选择出判别性较强的特征,最终达到更好的分类预测效果。
(2)本发明采用swlrc方法,相较于其他的特征选择方法,更适用于阿尔茨海默病这种小样本、存在噪声且患病样本存在各异性的数据。
(3)本发明方法充分利用的多种脑影像数据并且获取数据时不会对受试者造成伤害且特征在医学上是可以解释的。
(4)本发明方法有更好的鲁棒性,并且可以有效地刻画出正常人与阿尔茨海默病患者之间的生理表征差异,找出病变脑区特征。
(5)本发明方法辅助医生诊断阿尔茨海默病,缩短诊断时间。
(6)本发明方法与cn108198576a相比,cn108198576a利用语音特征对受试者进行判断,其提取出的声学特征没有在临床上证明阿尔茨海默症和健康人存在差异,其提取的特征在医学上没有解释性。本发明方法所具有的优点是从脑影像上获取特征,相较于音频特征,所提取选择的特征可以直观的看到并且已经在临床上证明提取的特征与阿尔茨海默症有关。
(7)本发明方法与cn106062563a相比,cn106062563a利用脑脊液、血液等中提取生物标志物,在对受试者进行这些生物标志物获取时会对受试者造成身体伤害,有侵入性,且特征提取和检验的成本较高。本发明方法是利用脑影像数据,在对受试者进行检查,获得脑影像数据时不会对患者造成伤害,是非侵入性的,且检查成本较低。
(8)本发明方法与cn108154924a相比,cn108154924a利用的是磁共振成像数据,只利用了一种数据,只能从结构上找出脑部变化,获取的特征少,不能充分说明受试者是否患病。本发明方法利用了多种脑影像数据,可以从多个方面找出脑部病变区域,例如:功能、结构。从多个方面表示出受试者是否患病,相较于单个模态的方法,可以获取更多与分类有关的信息。
(9)本发明方法与cn108682009a相比,cn108682009a利用磁共振成像数据且使用3d卷积神经网络模型进行运算,该方法只能判断受试者是否患病,不能找出患者的患病脑区,其黑盒特性不能给出判断受试者是否患病的依据。本发明方法选择出的特征可以直观的看到并且已经在临床上证明提取的特征与阿尔茨海默症有关。
(10)本发明方法与cn106202916a相比,cn106202916a方法只能对受试者进行分类,并不能找出受试者是否患病的病变脑区特征。本发明方法选择出的特征能够直观的看到并且已经在临床上证明提取的特征与阿尔茨海默症有关,并且选择出的特征能够对判别结果进行说明。
(11)本发明方法与cn103646183a相比,cn108682009a利用多模态磁共振成像数据且使用神经网络模型进行运算,该方法只能判断受试者是否患病,不能找出患者的患病脑区,其黑盒特性不能给出判断受试者是否患病的依据。本发明方法利用脑影像数据,选择出的特征能够直观的看到并且已经在临床上证明提取的特征与阿尔茨海默症有关,并且选择出的特征能够对判别结果进行说明。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明方法基于swlrc方法和多核svm进行多模态脑部神经影像特征的处理流程示意图。
具体实施方式
图1所示实施例表明,本发明方法基于swlrc方法和多核svm进行多模态脑部神经影像特征的处理流程是:多模态神经影像输入→使用swlrc的多模态特征选择方法进行特征分析→优化目标函数→目标函数的求解→变量w、βv、u和j的求解→特征选择→训练多核svm→分类与预测。
实施例1
本实施例的多模态脑部神经影像特征的处理方法,是使用swlrc的多模态神经影像特征选择方法进行生物标志物的挖掘,再使用多核svm方法分类,具体步骤如下:
第一步,多模态神经影像输入:
对基于体素的形态测量法处理的磁共振脑影像和氟脱氧葡萄糖-正电子发射断层扫描脑影像这两种模态脑部影像数据提取感兴趣区模板特征,步骤是,首先使用统计参数映射软件包将基于体素的形态测量法处理的磁共振脑影像和氟脱氧葡萄糖-正电子发射断层扫描脑影像配准到标准空间中,然后采用116个感兴区的spm软件的工具箱marsbar自动解剖标记模板分别将基于体素的形态测量法处理的磁共振脑影像的灰度密度数值和氟脱氧葡萄糖-正电子发射断层扫描脑影像的葡萄糖代谢水平的数值作为特征并进行提取,最后确定去除小脑后的90个感兴趣区的上述两种模态脑影像数据作为使用的特征,进一步对这些使用的特征进行标准化,由此完成多模态神经影像输入;
第二步,使用swlrc的多模态特征选择方法进行特征分析:
本步骤是为了获得与分类相关的特征,去掉冗余的或者与分类任务相关性低的特征,数据集设置为训练集与测试集,
将上述第一步中得到的每个模态的特征数据用
公式(1)中,m为神经影像个数,s为模态的个数,βv为第v个模态的特征选择向量,
第三步,优化目标函数:
优化上述第二步中的公式(1)中的目标函数的方法是采用快速收敛的方案,即重复多次搜索公式(1)中的目标函数的局部最优解来近似最优解,并采用交替方向乘子法对上述公式(1)中的w和βv进行优化,目标函数被改写为如下公式(2)所示,
s.t.-w+λ=0,j=w,
公式(2)中,
在线性规划中,将不等式约束条件变为等式约束条件,由此完成优化目标函数;
第四步,目标函数的求解:
为了表示简单,将上述第三步中的公式(2)的三项内容分别简记为f1(u)、f2(βv)、f3(j),由此将公式(2)的增广拉格朗日形式定义为如下公式(3),
公式(3)中,pv∈rm×90,q∈rm×s,e∈rm×s均为拉格朗日乘子,μ、ρ、ξ均为增广拉格朗日项的三个参数,‖·‖f表示f范数,uv为由变量
并且,将通用的交替方向乘子法框架写成如下公式(5)的形式:
且在交替方向乘子法框架中,每一步都是凸优化问题,通过计算得到每一步的最优解,由此完成目标函数的求解;
第五步,变量w、βv、u和j的求解:
将wvβvt-uv简记为γv,
第5.1步,求解变量训练样本的所有模态的权重矩阵w:
由以下公式(6)和公式(7)求解变量训练样本的所有模态的权重矩阵w,
公式(6)中,ev是e的列向量,jv是w的列向量,将上述问题分解为s个关于wv的子问题,如下公式(7)所示,
公式(7)为s个关于wv的子问题,通过梯度下降的方法进行求解,然后将w的解按列进行归一化,即将w的每一列的数除以每一列的模长,由此完成求解变量训练样本的所有模态的权重矩阵w;
第5.2步,求解变量第v个模态的特征选择向量βv:
上述第二步中指明βv为第v个模态的特征选择向量,对于各个模态的βv的解通过以下公式(8)计算得到,
公式(8)中,d=‖wv‖2,ε=λs/(dρ),sε是软阈值收缩算子,即通过比较(ρuv-pv)twv/(dρ)与ε=λs/(dρ)的大小并计算完成求解变量第v个模态的特征选择向量βv;
第5.3步,求解变量跨模态矩阵u:
用如下的公式(9)求解跨模态矩阵u,
公式(9)中,
其中,
第5.4步,更新交替方向乘子法中的j:
用以下公式(11)更新交替方向乘子法中的j,
公式(11)中,
由此完成交替计算变量w、βv、u和j的求解,并求出目标函数的值,当前目标函数的值与前循环计算得到的目标函数值的差小于0.0001时,停止迭代;
第六步,特征选择:
对于上述第五步的第5.2步中计算得到的第v个模态的特征选择向量βv的值,去掉βv的特征的权重值小于0.001的特征,剩下的特征即为使用swlrc选择出来的特征;
第七步,训练多核svm:
将上述第六步得到的特征的权重大于0.001的特征和数据集中的脑部神经影像标签输入到多核svm中,因为其可以融合多模态的数据,每个模态的特征可以映射到一个更高维的特征空间,用φ(x)来表示映射后的特征向量,此时得到每个模态的核矩阵,且所用的核为线性核,第v个模态的核函数如下公式(12)所示,
公式(12)中,
公式(13)中,κ(xi,xj)表示所有模态的核函数和,cv每个模态的权重,
由此得到多核svm的对偶形式如下公式(14)所示,
αi≥0,i=1,2,…,m(14),
公式(14)中,α为拉格朗日乘子,αi表示第i个神经影像的拉格朗日乘子,
然后对公式(14)求解即可,由此完成训练多核svm;
第八步,分类与预测:
将上述第七步训练得到的αi带入到公式(15)中,给定一个新的测试样本x0,决定样本标签的决策函数定义如下公式(15)所示,
公式(15)中,核函数采用线性核,两个线性核函数的和还是线性核,sign()表示取括号内数值的符号,b为偏置,由训练支持向量机得到,cv是通过网格搜索在训练集上交叉验证得到的,f(x0)的值即为新的测试样本的预测结果;
至此完成使用swlrc的多模态神经影像特征选择方法进行生物标志物的挖掘,并使用多核svm方法分类进行多模态脑部神经影像特征的处理。