一种面向数据缺失场景的阿尔兹海默症分类方法及系统

文档序号:31941983发布日期:2022-10-26 03:17阅读:100来源:国知局
一种面向数据缺失场景的阿尔兹海默症分类方法及系统

1.本发明涉及数据分类技术领域,更具体的说是涉及一种面向数据缺失场景的阿尔兹海默症分类方法及系统。


背景技术:

2.阿尔茨海默症已经成为危害老年人健康的一大因素,受到了广泛的关注。该病多发于老年期以及老年前期,症状一般表现为一系列脑功能性损伤,比如,认知困难、记忆丧失和语言功能障碍等。目前该疾病还没有可以痊愈的治疗方法,在早期阶段对其进行干预治疗以延缓病情恶化是目前临床上使用的方法。因此,借助模式识别技术对阿尔兹海默症进行分类是有意义的。
3.传统的分类方法针对的是完整的阿尔兹海默症数据集而提出的,但是阿尔茨海默症数据集存在数据缺失的问题。数据的不完整问题也是目前亟需解决的难题。因此,传统的分类方法已经不再适应于数据缺失场景下的阿尔茨海默症分类。针对该问题,有些研究者也提出一些松耦合的处理方法,即先对缺失数据集进行预处理,如去除缺失的样本以及矩阵补全等,然后再对处理以后的数据集进行分类,这类松耦合方法会在预处理步骤中引入额外的噪声对后续的分类结果产生负面影响,并且这种“两步走”的方法在实际操作中步骤繁琐。因此,对本领域技术人员来说,如何在数据缺失场景下进行更为精准的阿尔茨海默症分类是亟待解决的问题。


技术实现要素:

4.有鉴于此,本发明提供了一种面向数据缺失场景的阿尔兹海默症分类方法及系统,以解决背景技术中提出的问题。
5.为了实现上述目的,本发明采用如下技术方案:一种面向数据缺失场景的阿尔兹海默症分类方法,具体步骤包括如下:
6.获取缺失数据集;
7.对所述缺失数据集进行预处理,得到第一数据集;
8.通过目标函数对所述第一数据集同时进行特征选择及矩阵补全,并且对所述目标函数进行迭代优化直至收敛,输出表示矩阵s;
9.根据所述表示矩阵s的l
2,p
范数值,将非零元素行视为具有判别性特征,将全零元素行视为非判别性特征,将所述判别性特征对应的l
2,p
范数进行降序排列,选取关键判别性特征;
10.根据所述关键判别性特征训练svm分类器,得到最终的辅助分类标签。
11.可选的,对所述缺失数据集进行预处理,具体包括:将所述缺失数据集进行归一化,学习所述缺失数据集的字典,然后初始化所述表示矩阵,初始化拉普拉斯矩阵,将所述字典,初始化表示矩阵、初始化拉普拉斯矩阵构成第一数据集。
12.可选的,所述目标函数的表达式为:
[0013][0014][0015]
其中,μ、α和λ为正则化参数,为所述缺失数据集,其中i2表示样本数,每个样本有i1维特征,x是补全后的特征矩阵,是所学习到的字典,为学习到的x的稀疏表示,其中si和sj表示稀疏表示s的第i、j列,即表示第i个样本和第j个样本所对应的稀疏表示;在s上进行特征选择,然后分类,为二进制索引矩阵,如果m
ij
的值没有缺失,则ω
i,j
=1,如果m
ij
的值缺失,则ω
i,j
=0,为相关的抽样操作符,只检索ω索引的项,r是矩阵m的秩,r《min(i1,i2),根据低秩矩阵分解理论,低秩矩阵被分解为uv
t
,其中再根据秩一近似理论,u、v矩阵又分解为r个秩为1的矩阵的加权和,即为r个秩为1的矩阵的加权和,即所以ur和vr表示第r个秩为1的矩阵,其中,q=[q1,

,qr,

,qr]
t
是权重矩阵,其中qr表示第r个权重,通过同时最小化l1范数正则化和重构误差,确定不完全矩阵的秩,并预测缺失项,ω
ij
表示第i个样本和第j个样本的相似程度:其中n(xi)表示样本xi的k个最近的样本。
[0016]
通过采用上述技术方案,具有以下有益的技术效果:本发明中的无监督特征选择方法,采用的是将稀疏表示学习与谱学习集成在一个框架下的特征选择方法,其中,稀疏表示学习方法在一个新的空间中学习出原始数据的新的表示,因此这个原始数据的新的表示就去除了原始空间中许多噪声,这样不仅有利于特征选择,还能减少因为矩阵补全带来的噪声影响。此外,谱学习可以学习到原始数据的内在结构信息,可以帮助选择出有效的特征。矩阵补全方法采用的是范数正则化下的自动秩估计秩一矩阵补全方法,该方法在矩阵补全的时候可以自动估计矩阵的秩,从而更好地进行矩阵补全。本方法具有较强的鲁棒性并且可以获得较好的预测效果。
[0017]
可选的,对所述目标函数进行迭代优化的过程为:更新ur、更新ur、更新权重qr、更新补全后的矩阵x、更新稀疏表示s。
[0018]
可选的,更新ur的过程为:
[0019]
确定与ur相关的项:
[0020]
其中,xr、sr分别表示第r块变量所对应的x和s的值,对其求偏导,得:
[0021]
令导数为零,得:其中,表示第k+1次迭代中ur的值,对
进行归一化,即进行归一化,即
[0022]
另一方面,提供一种面向数据缺失场景的阿尔兹海默症分类系统,包括数据获取模块、数据预处理模块、特征选择模块、特征优化模块、分类模块;其中,
[0023]
所述数据获取模块,用于获取缺失数据集;
[0024]
所述数据预处理模块,用于对所述缺失数据集进行预处理,得到第一数据集;
[0025]
所述特征选择模块,用于通过目标函数对所述第一数据集同时进行特征选择及矩阵补全,并且对所述目标函数进行迭代优化直至收敛,输出表示矩阵s;
[0026]
所述特征优化模块,用于根据所述表示矩阵s的l
2,p
范数值,将非零元素行视为具有判别性特征,将全零元素行视为非判别性特征,将所述判别性特征对应的l
2,p
范数进行降序排列,选取关键判别性特征;
[0027]
所述分类模块,用于根据所述关键判别性特征训练svm分类器,得到最终的辅助分类标签。
[0028]
可选的,还包括迭代模块,用于对所述目标函数进行迭代更新。
[0029]
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种面向数据缺失场景的阿尔兹海默症分类方法及系统,具有以下有益的技术效果:
[0030]
(1)解决了面向数据缺失场景下的阿尔茨海默症数据集分类问题,利用多模态数据进行更为精准鲁棒的阿尔茨海默症分类;
[0031]
(2)本发明可以在一个框架内同时进行缺失值补全和特征选择,从而有效减少噪声的影响,省时省力方便快捷,并提高了分类模型的鲁棒性;
[0032]
(3)在优化过程中,稀疏表示可以帮助去除矩阵补全时候的噪声;
[0033]
(4)亲和矩阵可以表示数据样本之间的关系以及数据之间的结构信息,对于缺失值,可以借助周围的样本信息来估计缺失值,使预测结果更准确而不是像松耦合方法借助于整个样本集进行补全。多个分类任务的实验结果显示,本发明提出的紧耦合分类方法的分类效果都有提高,与松耦合的分类方法相比,在实验的任务中,分类准确率提高的范围是3.29%-8.96%。
附图说明
[0034]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0035]
图1为本发明的方法流程图;
[0036]
图2为本发明的特征选择结构图;
[0037]
图3为本发明的系统结构图。
具体实施方式
[0038]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0039]
本发明实施例1公开了一种面向数据缺失场景的阿尔兹海默症分类方法,如图1所示,具体步骤包括如下:
[0040]
s1、获取缺失数据集;
[0041]
s2、对缺失数据集进行预处理,得到第一数据集;
[0042]
s3、通过目标函数对第一数据集同时进行特征选择及矩阵补全,并且对目标函数进行迭代优化直至收敛,输出表示矩阵s;
[0043]
s4、根据表示矩阵s的l
2,p
范数值,将非零元素行视为具有判别性特征,将全零元素行视为非判别性特征,将判别性特征对应的l
2,p
范数进行降序排列,选取关键判别性特征;
[0044]
s5、根据关键判别性特征训练svm分类器,得到最终的辅助分类标签。
[0045]
在本实施例中,缺失数据集为阿尔兹海默症的缺失数据集,该疾病可划分为三个阶段:正常对照组(normal control,nc)、轻度认知障碍(mild cognitive impairment,mci)和阿尔兹海默症阶段(alzheimer's disease,ad),传统的分类方法针对的是完整的阿尔兹海默症数据集而提出的,但是阿尔茨海默症数据集存在数据缺失的问题,因此,传统的分类方法已经不再适应于数据缺失场景下的阿尔茨海默症分类,本发明解决的就是如何在数据缺失场景下进行精准鲁棒的阿尔茨海默症分类。
[0046]
进一步的,对缺失数据集进行预处理,具体包括:将缺失数据集进行归一化,学习缺失数据集的字典,然后初始化表示矩阵,初始化拉普拉斯矩阵,将字典,初始化表示矩阵、初始化拉普拉斯矩阵构成第一数据集。
[0047]
进一步的,在本实施例中,将各判别性特征对应的l
2,p
范数进行降序排序,选取前200个判别性较高的特征作为关键判别性特征。
[0048]
进一步的,目标函数的表达式为:
[0049][0050][0051]
其中,μ、α和λ为正则化参数,为所述缺失数据集,其中i2表示样本数,每个样本有i1维特征,x是补全后的特征矩阵,是所学习到的字典,为学习到的x的稀疏表示,其中si和sj表示稀疏表示s的第i、j列,即表示第i个样本和第j个样本所对应的稀疏表示;在s上进行特征选择,然后分类,为二进制索引矩阵,如果m
ij
的值没有缺失,则ω
i,j
=1,如果m
ij
的值缺失,则ω
i,j
=0,为相关的抽样操作符,只检索ω索引的项,r是矩阵m的秩,r《min(i1,i2),根据低秩矩阵分解理论,低秩矩阵被分解为uv
t
,其中再根据秩一近似理论,u、v矩阵又分解
为r个秩为1的矩阵的加权和,即为r个秩为1的矩阵的加权和,即所以ur和vr表示第r个秩为1的矩阵,其中,q=[q1,

,qr,

,qr]
t
是权重矩阵,其中qr表示第r个权重,通过同时最小化l1范数正则化和重构误差,确定不完全矩阵的秩,并预测缺失项,ω
ij
表示第i个样本和第j个样本的相似程度:其中n(xi)表示样本xi的k个最近的样本。
[0052]
如图2所示,从特征选择的目标函数可以看出,该特征选择模块将矩阵补全模块与特征选择模块集成在一个统一的框架内同时进行优化,可以直接对缺失的数据集进行特征提取,而不需要提前对数据集进行预处理,操作方便快捷。矩阵补全是深度协同特征选择的,自适应地更新学习到的表示,并在学习到的表示上进行补全,可以自动去除噪声,缓解以往松耦合方法中出现的噪声问题,即在松耦合方法中,如果第一步处理不妥当,可能会给第二步处理引入一些额外的噪声,给后续的特征选择与svm分类模块带来负面影响。此外,该模块中亲和矩阵w可以表示样本间的相似信息,辅助矩阵补全,同时矩阵补全过程中自适应地学习矩阵的秩以及补全缺失信息,可以帮助选择出更有效的特征。
[0053]
采用块坐标下降法(the block coordinate descent,bcd)对目标函数进行迭代优化。该方法将目标变量分成r+1个块:{{q1,u1,v1},

,{qr,ur,vr},

{qr,ur,vr},x,s}。然后优化一组(块)变量,同时固定其他组(块)变量,并更新一个变量,同时固定每组中的其他变量。在完成这些r+1块变量的更新后,最终确定了矩阵的秩。以更新第r块变量{qr,ur,vr}为例,对目标函数进行迭代优化的详细过程为:
[0054]
(1)更新ur[0055]
确定与ur相关的项:
[0056]
其中,xr、sr分别表示第r块变量所对应的x和s的值,对其求偏导,得:
[0057]
令导数为零,得:
[0058]
其中,表示第k+1次迭代中ur的值,对进行归一化,即进行归一化,即
[0059]
(2)更新vr[0060]
与求ur同理,先确定与vr相关的项:
[0061]
对其求偏导并令其等于零,得:其中,表示第k+1次迭代中vr的值,对进行归一化得进行归一化得
[0062]
(3)更新权重qr[0063]
固定其他变量更新qr,得:
[0064]
对上式求偏导,得:
[0065]
基于l1范数正则化软阈值,可得:
[0066]
其中,表示第k+1次迭代时qr的值,shrink是软阈值操作符:
[0067]
(4)更新补全后的矩阵x
[0068]
确定与x相关的项,得:
[0069]
导出上式的karush-kuhn-tucker(kkt)条件,可以更新x
(k+1)
,得:,得:其中,x
(k+1)
表示第k+1次迭代后x的值,表示第k+1次迭代后x的值,
[0070]
(5)更新稀疏表示s。
[0071]
固定其他变量更新s,得:
[0072][0073]
对上式求导,得:
[0074][0075]
其中,d是对角矩阵,其对角元素为l是拉普拉斯矩阵,定义为:l=d-w,其中,w=[ω
ij
]|
i,j=1,

,n
是相似矩阵,d是一个对角线矩阵,其对角元素值为该元素所在列对应的w的列元素之和,令导数等于零,得:(b
t
b+αd)s+λsl=b
t
z;因为b
t
b+αd和λl项都是半正定矩阵,对它们进行奇异值分解得:b
t
b+αd=uc1u
t
;γl=vc
2vt
,其中,u和u为酉矩阵,所以,式(b
t
b+αd)s+λsl=b
t
z可以表示为:uc1u
t
s+svc
2vt
=b
t
x;上式左右两边分别乘以u
t
、v,有:c1u
t
sv+u
t
svc2=u
tbt
xv;为了简化表示,令ψ=u
t
sv,ω=u
tbt
xv,得:c1ψ+ψc2=ω;其中,=ω;其中,最后可得:s=uψv
t

[0076]
本发明实施例2提供一种面向数据缺失场景的阿尔兹海默症分类系统,如图3所示,包括数据获取模块、数据预处理模块、特征选择模块、特征优化模块、分类模块;其中,
[0077]
数据获取模块,用于获取缺失数据集;
[0078]
数据预处理模块,用于对缺失数据集进行预处理,得到第一数据集;
[0079]
特征选择模块,用于通过目标函数对第一数据集同时进行特征选择及矩阵补全,并且对目标函数进行迭代优化直至收敛,输出表示矩阵s;
[0080]
特征优化模块,用于根据表示矩阵s的l
2,p
范数值,将非零元素行视为具有判别性
特征,将全零元素行视为非判别性特征,将判别性特征对应的l
2,p
范数进行降序排列,选取关键判别性特征;
[0081]
分类模块,用于根据关键判别性特征训练svm分类器,得到最终的辅助分类标签。
[0082]
进一步的,还包括迭代模块,用于对目标函数进行迭代更新。
[0083]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0084]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1