一种基于特征选择和SVM的脑部疾病患者分类系统和方法

文档序号:32342300发布日期:2022-11-26 10:10阅读:154来源:国知局
一种基于特征选择和SVM的脑部疾病患者分类系统和方法
一种基于特征选择和svm的脑部疾病患者分类系统和方法
技术领域
1.本发明涉及脑成像数据处理与分析技术领域,尤其涉及一种基于特征选择和 svm的脑部疾病患者分类系统和方法。


背景技术:

2.帕金森、阿尔茨海默症、精神分裂症、抑郁症和脑白质病变等是一种以精神障碍为主要特征的一类疾病,此类疾病的治愈几率比较小,一般需要早期治疗。静息状态功能磁共振成像(rs-fmri)通过检测血氧水平依赖(bold)信号的自发波动,揭示神经元在静息状态下的自发活动现象。对于rs-fmri最常用的研究方法有低频振荡振幅(alff)、局部一致性(reho)和功能连接(fc)等。alff 能够可靠的测量自发bold信号强度,反映的是静息状态下局部脑区的自发活动强度;reho描述的是给定体素与周围体素之间的脑活动同步性,可直接观察到局部脑区神经活动的时间同步性;fc描述的是不同脑区的功能性信号在时间维度上的相关程度,反映不同脑区之间的连接强度。目前,已有研究表明帕金森、阿尔茨海默症、精神分裂症、抑郁症和脑白质病变等存在alff、reho和fc的异常,并且对于帕金森和抑郁症有着潜在的诊断潜力。因此,发明出一种快速精准的自动分类系统能够有效的帮助医生诊断治疗疾病。
3.随着机器学习技术的快速发展,将机器学习应用于神经成像数据的研究引起了研究者的兴趣。近年来,机器学习方法尤其是多变量模式分析(mvpa)被用于提取神经精神疾病的结构或功能特征,为探索一种基于神经影像数据的神经精神疾病高效诊断方法提供了一个有前景的方向。mvpa是一种数据驱动技术,能够获得大脑活动的空间分辨模式,在fmri数据分析中起着至关重要的作用。此外,mvpa使我们能够识别出在个体分类中贡献最大的特征,这可能为研究群体差异提供新的见解。支持向量机(svm)是机器学习方法之一,与其他机器学习方法相比,svm在识别复杂数据集中的细微模式方面非常强大。


技术实现要素:

4.基于现有技术中存在的不足之处,本发明提供了一种基于特征选择和svm 的脑部疾病患者分类系统和方法,具体技术方案如下:
5.一种基于特征选择和svm的脑部疾病患者分类方法,包括以下步骤:
6.步骤1:基于患者的fmri脑影像数据,计算alff,reho和fc值;
7.步骤2:根据解剖自动贴标模板提取alff,reho和fc值,作为原始特征数据;
8.步骤3:基于原始特征数据,进一步进行特征选择;
9.步骤4:将选择后的特征作为最终的分类特征,然后进行svm分类器的选择;
10.步骤5:结果计算与输出。
11.具体的,所述计算alff,reho和fc值还包括预处理的步骤,包括去剔除前 10个时间点、头动校正、回归协变量、归一化、平滑处理、去线性趋势和去除协变量。
12.具体的,所述alff值的计算包括:
13.将fmri测量所得的时间序列信号进行傅里叶变换,得到0.01-0.08hz之间的功率谱;
14.计算功率谱中每个频率的平方根,并在0.01

0.08hz内获得的均方根即为 alff值;
15.计算公式为:
[0016][0017]
其中,ak和bk均为不同频率下所对应的系数,n为体素总数,f为时间序列信号;
[0018]
所述reho值的计算包括:
[0019]
采用肯德尔一致性系数来度量给定体素的时间序列与周围体素的时间序列的相似性;
[0020]
计算公式为:
[0021][0022]
其中,其中w表示肯德尔一致性系数,取值范围(0,1),n表示时间点个数,k表示特定体素与周围相邻体素的个数,其取值有7、19和27,ri是第i 个时间点的各个体素点的体素值的等级总数,是r的平均值;
[0023]
所述fc值的计算包括:
[0024]
计算两个感兴趣区域之间时间序列的皮尔逊相关性。
[0025]
具体的,所述根据解剖自动贴标模板提取alff,reho和fc值包括以下步骤:
[0026]
步骤21:将解剖自动贴标(aal)作为掩码,将大脑区域分为90个大脑区域和26个小脑区域
[0027]
步骤22:将每个受试者的alff值、reho值分别与aal相乘,求取每个大脑区域内的均值即为每个脑区的alff值、reho值的m
×
n的矩阵
[0028]
其中,m为受试者数目,特征数目n为116;
[0029]
步骤23:提取n
×
n的fc矩阵的上三角元素作为该受试者的fc特征,将所有受试者的fc特征组合为一个m
×
h的矩阵,即为fc值的原始特征数据;
[0030]
其中n为116,m为受试者数目,特征数目h为6670。
[0031]
具体的,所述特征选择包括一种基于f-分数特征选择方法,利用f-分数数值对特征进行排序,f-分数数值越大,表示此特征的辨别能力越强;
[0032]
计算公式为:
[0033][0034]
其中分别是整个数据集、病人组数据集和正常人组数据集的第i个
特征的平均值,x
k,i(+)
表示病人组第i个特征的第k个数据;x
k,i(-)
表示正常人组第i个特征的第k个数据。
[0035]
具体的,所述特征选择还包括一种基于t-分数特征选择方法:
[0036]
t-分数使用双样本t检验返回原假设的检验决策,根据检验统计量信息对特征从高到低进行排序。
[0037]
具体的,所述特征选择还包括一种基于相关性特征选择方法:
[0038]
使用corr函数计算两条特征之间的皮尔逊相关系数,并根据皮尔逊相关系数对特征由高到低进行排序。
[0039]
具体的,所述svm分类器选择基于libsvm工具包搭建,使用svmtrain和 svmpredict函数进行svm训练和测试;所述svm分类器根据核函数的不同,可分为核函数为linear的线性svm和核函数为高斯径向基核函数的rbf svm;
[0040]
所述rbf svm还包括:
[0041]
使用svmcgforclass函数在(-8,8)之间以0.2的步长对惩罚因子c和不敏感损失函数的参数g进行优化;
[0042]
所述分类器的选择还包括使用留一法交叉验证(loocv)的步骤,对分类器的性能进行优化。
[0043]
具体的,所述结果计算与输出包括roc曲线绘制及auc计算、计算平均正确率和计算分类器预测结果的敏感性和特异性的子步骤;
[0044]
所述roc曲线绘制及auc计算子步骤包括:
[0045]
计算并绘制真阳性率(y轴)和假阳性率(x轴)的roc曲线;
[0046]
根据roc曲线以下的面积,得到auc值,用于评估整个分类过程的性能;
[0047]
所述计算平均正确率子步骤包括:
[0048]
求取每次loocv返回正确率的平均值,作为svm分类器的平均正确率;
[0049]
所述计算分类器预测结果的敏感性和特异性子步骤,计算公式为:
[0050][0051][0052][0053]
其中,accuracy表示每次loocv的正确率,sensitivity表示将患者正确识别为患者的概率,specificity表示将正常人正确识别为正常人的概率;tp为预测的正确正类数量,fn表示预测的错误正类数量;tn为预测的正确负类数量, fp为预测的错误负类数量。
[0054]
一种基于特征选择和svm的脑部疾病患者分类系统,用以实现权利要求1~9 任意一项所述的一种基于特征选择和svm的脑部疾病患者分类方法,包括特征选择模块,分类器选择模块和结果计算与输出模块,其中,
[0055]
所述特征选择模块包括f-分数特征选择子模块、t-分数特征选择子模块和相关性特征选择子模块;
[0056]
所述f-分数特征选择子模块利用f-分数数值对特征从高到低进行排序;
[0057]
所述t-分数特征选择子模块根据检验统计量信息对特征从高到低进行排序;
[0058]
所述相关性特征选择子模块根据皮尔逊相关系数将特征由高到低进行排序;
[0059]
所述分类器选择模块包括线性svm子模块、rbf svm子模块和留一法交叉验证子模块;
[0060]
所述线性svm子模块选定核函数为linear,对模型进行训练;
[0061]
所述rbf svm子模块选定核函数为高斯径向基核函数,对模型进行训练;
[0062]
所述留一法交叉验证子模块对分类器的性能进行优化;
[0063]
所述结果计算与输出模块包括roc曲线绘制及auc计算子模块、计算平均正确率子模块和计算分类器预测结果的敏感性和特异性子模块;
[0064]
所述roc曲线绘制及auc计算子模块用于评估分类器的分类性能,输出roc 曲线图和auc值;
[0065]
所述计算平均正确率子模块使用loocv返回正确率的平均值;
[0066]
所述计算分类器预测结果的敏感性和特异性子模块输出accuracy、 sensitivity和specificity三个数值,体现对患者的诊断结果。
[0067]
本发明的有益效果:
[0068]
本发明通过对患者组和健康对照组的rs-fmri数据进行分析处理,分别计算出alff、reho和alff值,选取当中具有显著差异的有效特征作为分类特征,进而利用svm搭建分类器进行模式识别。最后将分类器组装成一种基于特征选择和svm的脑部疾病患者分类系统,以此帮助医生对疾病的诊断治疗。
附图说明
[0069]
图1所示是本发明的系统模型示意图。
[0070]
图2所示为本发明的线性svm分类流程图。
[0071]
图3所示为本发明的rbf svm分类流程图。
具体实施方式
[0072]
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
[0073]
如图1-3所示,本发明提出一种基于特征选择和svm的脑部疾病患者分类方法,包括以下步骤:
[0074]
步骤1:基于患者的fmri脑影像数据,计算alff,reho和fc值;
[0075]
步骤2:根据解剖自动贴标模板提取alff,reho和fc值,作为原始特征数据;
[0076]
步骤3:基于原始特征数据,进一步进行特征选择;
[0077]
步骤4:将选择后的特征作为最终的分类特征,然后进行svm分类器的选择;
[0078]
步骤5:结果计算与输出。
[0079]
具体的,所述计算alff,reho和fc值还包括预处理的步骤,包括去剔除前 10个时间点、头动校正、回归协变量、归一化、平滑处理、去线性趋势和去除协变量。
[0080]
具体的,所述alff值的计算包括:
[0081]
将fmri测量所得的时间序列信号进行傅里叶变换,得到0.01-0.08hz之间的功率
谱;
[0082]
计算功率谱中每个频率的平方根,并在0.01

0.08hz内获得的均方根即为 alff值;
[0083]
计算公式为:
[0084][0085]
其中,ak和bk均为不同频率下所对应的系数,n为体素总数,f为时间序列信号;
[0086]
所述reho值的计算包括:
[0087]
采用肯德尔一致性系数来度量给定体素的时间序列与周围体素的时间序列的相似性;
[0088]
计算公式为:
[0089][0090]
其中,其中w表示肯德尔一致性系数,取值范围(0,1),n表示时间点个数,k表示特定体素与周围相邻体素的个数,其取值有7、19和27,ri是第i 个时间点的各个体素点的体素值的等级总数,是r的平均值;
[0091]
所述fc值的计算包括:
[0092]
计算两个感兴趣区域之间时间序列的皮尔逊相关性。
[0093]
具体的,所述根据解剖自动贴标模板提取alff,reho和fc值包括以下步骤:
[0094]
步骤21:将解剖自动贴标(aal)作为掩码,将大脑区域分为90个大脑区域和26个小脑区域
[0095]
步骤22:将每个受试者的alff值、reho值分别与aal相乘,求取每个大脑区域内的均值即为每个脑区的alff值、reho值的m
×
n的矩阵
[0096]
其中,m为受试者数目,特征数目n为116;
[0097]
步骤23:提取n
×
n的fc矩阵的上三角元素作为该受试者的fc特征,将所有受试者的fc特征组合为一个m
×
h的矩阵,即为fc值的原始特征数据;
[0098]
其中n为116,m为受试者数目,特征数目h为6670。
[0099]
具体的,所述特征选择包括一种基于f-分数特征选择方法,利用f-分数数值对特征进行排序,f-分数数值越大,表示此特征的辨别能力越强;
[0100]
计算公式为:
[0101][0102]
其中分别是整个数据集、病人组数据集和正常人组数据集的第i个特征的平均值,x
k,i(+)
表示病人组第i个特征的第k个数据;x
k,i(-)
表示正常人组第i个特征的
第k个数据。
[0103]
具体的,所述特征选择还包括一种基于t-分数特征选择方法:
[0104]
t-分数使用双样本t检验返回原假设的检验决策,根据检验统计量信息对特征从高到低进行排序。
[0105]
具体的,所述特征选择还包括一种基于相关性特征选择方法:
[0106]
使用corr函数计算两条特征之间的皮尔逊相关系数,并根据皮尔逊相关系数对特征由高到低进行排序。
[0107]
具体的,所述svm分类器选择基于libsvm工具包搭建,使用svmtrain和 svmpredict函数进行svm训练和测试;所述svm分类器根据核函数的不同,请着重参阅图2,可分为核函数为linear的线性svm和核函数为高斯径向基核函数的rbf svm;
[0108]
请着重参阅图3,所述rbf svm还包括:
[0109]
使用svmcgforclass函数在(-8,8)之间以0.2的步长对惩罚因子c和不敏感损失函数的参数g进行优化;
[0110]
所述分类器的选择还包括使用留一法交叉验证(loocv)的步骤,对分类器的性能进行优化。
[0111]
具体的,所述结果计算与输出包括roc曲线绘制及auc计算、计算平均正确率和计算分类器预测结果的敏感性和特异性的子步骤;
[0112]
所述roc曲线绘制及auc计算子步骤包括:
[0113]
计算并绘制真阳性率(y轴)和假阳性率(x轴)的roc曲线;
[0114]
根据roc曲线以下的面积,得到auc值,用于评估整个分类过程的性能;
[0115]
所述计算平均正确率子步骤包括:
[0116]
求取每次loocv返回正确率的平均值,作为svm分类器的平均正确率;
[0117]
所述计算分类器预测结果的敏感性和特异性子步骤,计算公式为:
[0118][0119][0120][0121]
其中,accuracy表示每次loocv的正确率,sensitivity表示将患者正确识别为患者的概率,specificity表示将正常人正确识别为正常人的概率;tp为预测的正确正类数量,fn表示预测的错误正类数量;tn为预测的正确负类数量, fp为预测的错误负类数量。
[0122]
请着重参阅图1,一种基于特征选择和svm的脑部疾病患者分类系统,用以实现权利要求1~9任意一项所述的一种基于特征选择和svm的脑部疾病患者分类方法,包括特征选择模块,分类器选择模块和结果计算与输出模块,其中,
[0123]
所述特征选择模块包括f-分数特征选择子模块、t-分数特征选择子模块和相关性特征选择子模块;
[0124]
所述f-分数特征选择子模块利用f-分数数值对特征从高到低进行排序;
[0125]
所述t-分数特征选择子模块根据检验统计量信息对特征从高到低进行排序;
[0126]
所述相关性特征选择子模块根据皮尔逊相关系数将特征由高到低进行排序;
[0127]
所述分类器选择模块包括线性svm子模块、rbf svm子模块和留一法交叉验证子模块;
[0128]
所述线性svm子模块选定核函数为linear,对模型进行训练;
[0129]
所述rbf svm子模块选定核函数为高斯径向基核函数,对模型进行训练;
[0130]
所述留一法交叉验证子模块对分类器的性能进行优化;
[0131]
所述结果计算与输出模块包括roc曲线绘制及auc计算子模块、计算平均正确率子模块和计算分类器预测结果的敏感性和特异性子模块;
[0132]
所述roc曲线绘制及auc计算子模块用于评估分类器的分类性能,输出roc 曲线图和auc值;
[0133]
所述计算平均正确率子模块使用loocv返回正确率的平均值;
[0134]
所述计算分类器预测结果的敏感性和特异性子模块输出accuracy、 sensitivity和specificity三个数值,体现对患者的诊断结果。
[0135]
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1