一种基于一致性正则化的半监督脑电信号分类方法

文档序号:26586052发布日期:2021-09-10 19:15阅读:169来源:国知局
一种基于一致性正则化的半监督脑电信号分类方法

1.本发明属于脑电信号处理领域,具体的说是一种基于一致性正则化的半监督脑电信号分类方法。


背景技术:

2.脑电信号(eeg,electroencephalography)是记录脑电活动的有力工具,能够准确地区分不同的脑部状态。近年来,脑电信号的自动分类越来越多的关注,在癫痫检测、情绪识别和睡眠监护等领域都有重大的应用价值。目前,脑电信号分类方法主要分为两大类:传统机器学习算法和深度学习算法。
3.传统机器学习算法的关键在于特征工程,它需要人工设计具有高区分度的特征。常用的人工特征可以分为两大类:线性特征和非线性特征。线性特征主要包括自回归系数、方差、谱能量和hjorth描述符等,非线性特征主要包括动态相似指数、lyapunov指数和相位同步系数等。人工特征的设计要求研究人员具有高度深入的专业知识,且因为脑电信号固有的非平稳性,设计鲁棒的特征困难度极高。
4.近年来,深度学习算法被广泛的应用到脑电信号分类中,并取得了巨大的成功,常见的网络结构有深度置信网络、卷积神经网络、长短时记忆网络等。深度学习避免了人工特征的设计,采用数据驱动的方式,驱动人工神经网络自动提取数据中的特征,从而实现分类,并取得显著的分类效果。
5.然而,深度学习的成功依赖于大量带标注的数据。目前基于深度学习的脑电信号分类算法多采用全监督模式,在训练过程中,需要大量带标注的样本,才能取得可靠的决策边界。现实中,对脑电的标注成本极高,不仅要求相应病理学家有相当丰富的经验,而且十分耗时。这限制了深度学习方法在脑电信号分类中的进一步发展。


技术实现要素:

6.本发明是为了解决上述现有技术存在的不足之处,提出一种基于一致性正则化的半监督脑电信号分类方法,以期能充分利用无标注数据来优化决策边界以减轻对标注数据的依赖,并取得较为理想的脑电信号分类性能。
7.本发明为达到上述发明目的,采用如下技术方案:
8.本发明一种基于一致性正则化的半监督脑电信号分类方法的特点在于,包括以下步骤:
9.步骤1、获取脑电信号数据集,并利用随机函数选取部分数据进行标注,得到带标注的数据集;将其余的脑电信号数据集作为无标注的数据集;
10.步骤2、对所有数据统一进行切片分割、短时傅里叶变换、去噪的预处理;
11.步骤2.1、利用滑窗法分别将带标注的数据集和无标注的数据集切分为长度为l的片段,得到带标注的样本集和无标注的样本集;
12.步骤2.2、采用短时傅里叶变换分别将带标注的样本集和无标注的样本集转换为
带标注的时频样本集和无标注的时频样本集;
13.步骤2.3、在频域上分别移除所述带标注的时频样本集和无标注的时频样本集的部分频率成分,以去除工频干扰和直流分量,从而得到带标注的去噪时频样本集l和无标注的去噪时频样本集u;其中,对于任意一个样本x,赋予一个标记标量i,当i=0时,表示样本x属于无标注的去噪时频样本集u,即x∈u;当i=1时,表示样本x属于带标注的去噪时频样本集l,即x∈l,当x∈l时,令样本x的标注y∈{0,...,c

1},其中,c代表类别数;
14.步骤3、搭建人工神经网络f
θ
,并作为特征处理器,其中,θ表示网络参数;
15.步骤4、将去噪时频样本集l和u合并,再构建随机增强函数ξ(x)对合并后的样本集中的每个样本x进行增强处理,得到增强后的合并样本集;
16.步骤5、将增强后的合并样本集分批次地输入到人工神经网络f
θ
中进行训练,并对增强后的合并样本集中每一个增强样本记录每次迭代得到的输出概率;将当前第t次迭代的输出概率z
t
与历史的输出概率进行指数滑动平均后再除以校正因子,从而得到目标集成输出概率
17.步骤6、设计损失函数,建立优化目标;
18.通过标记i=1从增强后的合并样本集中找出带标注的样本,并利用交叉熵损失l
c
来计算当前第t次迭代的输出概率z
t
与真实标注y的偏差;
19.对增强后的合并样本集中所有样本,构建无监督的一致性正则项l
con
来约束当前第t次迭代的输出概率z
t
与目标集成输出概率间的偏差;
20.构建随迭代次数t逐步增加的加权函数ω(t),从而得到组合后的损失函数l=l
c
+ω(t)l
con

21.步骤7、基于组合后的损失函数l,使用优化器构建动态的学习率策略来更新人工神经网络f
θ
的网络参数θ,从而获得最优分类模型;
22.利用最优分类模型对任一脑电信号样本进行分类,并得到对应类别的概率值,按照所设的阈值,对所得到的概率值进行二值化分类,从而得到最终的分类结果。
23.与现有技术相比,本发明的有益效果在于:
24.1、本发明设计半监督学习策略,能够在仅有一小部分数据被标注的情况下,充分利用无标注数据来大幅提升分类准确率。
25.2、本发明通过添加高斯噪声,结合网络固有的dropout机制,促使同一输入在不同时刻的输出出现一定的偏差;而样本本身的类别属性应维持不变,对此,本发明设计一致性正则项驱使神经网络消除这种偏差,能在不需要标注信息的情况下,实现了对分类决策边界的优化,从而提升了分类性能。
附图说明
26.图1为本发明方法流程图;
27.图2为本发明构建的卷积神经网络结构图;
28.图3为本发明设计的一致性正则化原理示意图;
29.图4为本发明方法的半监督训练策略示意图。
具体实施方式
30.本实施例中,一种基于一致性正则化的半监督脑电信号分类方法,如图1所示,其包括如下步骤:
31.步骤1、获取脑电信号数据集,并利用随机函数选取部分数据进行标注,得到带标注的数据集;将其余的脑电信号数据集作为无标注的数据集;
32.具体实施中,若训练集中存在n条长时的eeg记录,用random函数随机选择1条记录进行人工标注,剩下的不进行标注。
33.步骤2、对所有数据统一进行切片分割、短时傅里叶变换、去噪的预处理;
34.步骤2.1、利用滑窗法分别将带标注的数据集和无标注的数据集切分为长度为l的片段,得到带标注的样本集和无标注的样本集;
35.具体实施中,对滑窗法,取窗口长度l=30,即统一切分成长为30秒的片段;
36.步骤2.2、采用短时傅里叶变换分别将带标注的样本集和无标注的样本集转换为带标注的时频样本集和无标注的时频样本集;
37.步骤2.3、在频域上分别移除带标注的时频样本集和无标注的时频样本集的部分频率成分,以去除工频干扰和直流分量,从而得到带标注的去噪时频样本集l和无标注的去噪时频样本集u;具体实施中,在频域上移除57~63hz和117~123hz的频率成分来消除60hz的工频噪声,并移除0hz的直流分量;其中,对于任意一个样本x,赋予一个标记标量i,当i=0时,表示样本x属于无标注的去噪时频样本集u,即x∈u;当i=1时,表示样本x属于带标注的去噪时频样本集l,即x∈l,当x∈l时,令样本x的标注y∈{0,...,c

1},其中,c代表类别数;
38.步骤3、搭建人工神经网络f
θ
,并作为特征处理器,其中,θ表示网络参数;
39.具体实施中,构建的神经网络结构如图2所示;该网络包含三个卷积模块,每个卷积模块由批归一化层、卷积层、最大池化层依次组成,其中卷积层的激活函数为relu函数;第一卷积模块采用3d卷积,得到的特征图重塑后输入到后两个卷积模块中,后两个卷积模块均采用2d卷积;将卷积模块输出的特征拉直,放入两层带有激活函数的全连接层中,输出当前样本对应类别的概率,其中第一全连接层的激活函数为sigmoid函数,第二全连接层的激活函数为softmax函数,每个全连接层前均设置dropout rate为0.5的dropout层。
40.步骤4、将去噪时频样本集l和u合并,再构建随机增强函数ξ(x)对合并后的样本集中的每个样本x进行增强处理,得到增强后的合并样本集;
41.具体实施中,采用高斯噪声增强作为随机增强函数ξ(x),即在输入上添加随机的高斯噪声,高斯噪声分布的标准差设置为σ=0.15;如图3所示,这样的随机增强相当于在输入空间原样本的附近,生成了一定的增强样本;
42.步骤5、将增强后的合并样本集分批次地输入到人工神经网络f
θ
中进行训练,并对增强后的合并样本集中每一个增强样本记录每次迭代得到的输出概率;将当前第t次迭代的输出概率z
t
与历史的输出概率进行指数滑动平均后再除以校正因子,从而得到目标集成输出概率
43.具体实施中,指数滑动平均公式如下:
44.z=αz+(1

α)z
t
ꢀꢀꢀ
(1)
45.式(1)中,z表示初步的集成输出概率,α表示加权常数,控制着当前结果在集成中
的比重;在本实施中,α=0.6。z进一步除以校正因子(1

α
t
),得到最终的目标集成输出概率
46.步骤6、设计损失函数,建立优化目标;每一个批次评估一次损失,整体训练流程图如图4所示;
47.通过标记i=1从增强后的合并样本集中找出带标注的样本,并利用如式(2)所示的交叉熵损失l
c
来计算当前第t次迭代的输出概率z
t
与真实标注y的偏差;
[0048][0049]
式(2)中,b表示当前批次内的样本构成的样本集,n
b
表示该批次的样本数目,本实施中n
b
=32;
[0050]
对增强后的合并样本集中所有样本,构建无监督的一致性正则项l
con
来约束当前第t次迭代的输出概率z
t
与目标集成输出概率间的偏差;
[0051]
正如步骤3所描述,随机增强将促使样本在输入空间造成一定的波动,结合神经网络固有的波动,使得同一输入在不同时刻的输出概率趋于不同;然而,样本本身的类别属性并未改变(原样本与附近的增强样本仍然属于同一类),通过构造正则项约束这样的波动,使神经网络对于单个样本的判断保持一致,同时提示人工神经网络,相似的样本应该属于相似的类;如图3所示,这将促使决策边界落于低密度区,从而提升分类准确度;
[0052]
具体实施中,采用均方差来衡量z
t
与间的距离,公式如下:
[0053][0054]
式(3)中,c代表类别数,在本实施中c=2;
[0055]
考虑到训练初始无标注样本的输出结果置信度偏低,此时一致性正则项的比重不应过大,构建随迭代次数t逐步增加的加权函数ω(t),从而得到组合后的损失函数l=l
c
+ω(t)l
con

[0056]
具体实施中,ω(t)以高斯曲线的方式逐步上升,表达式如下:
[0057][0058]
式(4)中,τ表示权重增加的截止时刻,ω
max
表示无监督项的最大权重;在本实施中,最大迭代次数为50,τ=30,ω
max
=30;
[0059]
步骤7、基于组合后的损失函数l,使用优化器构建动态的学习率策略来更新人工神经网络f
θ
的网络参数θ,从而获得最优分类模型;
[0060]
具体实施中,采用adam优化器,学习率λ的最大值设为0.0005,在训练的前期采用与ω(t)相同的高斯曲线,逐步增加,增加的截止时刻τ同样取30;在后期采用下降的高斯曲线来进行退火,动态学习率具体表达式如下:
[0061][0062]
利用最优分类模型对任一脑电信号样本进行分类,并得到对应类别的概率值,按照所设的阈值,对所得到的概率值进行二值化分类,从而得到最终的分类结果。
[0063]
模型的性能由所有待预测个体的平均敏感度和平均误报率来评估,灵敏度即正确预测的正类与所有正类之比,误报率即平均每小时将负类预测为正类的次数。
[0064]
具体实施中,为充分验证本发明提出的半监督训练策略的有效性,将本方案的性能与相同模型在全监督模式下(称为baseline)得到的性能进行直接对比。如表1所示,其中baseline(全部标注)表示:所有训练数据均标注的情况下,采用全监督策略训练网络;baseline(部分标注)表示:仅使用与本方案相同的部分标注数据下,采用全监督策略训练网络。
[0065]
表1.不同方法在chb

mit数据集的预测性能
[0066][0067]
结果表明,当标注数据大幅减少时,基于全监督学习的baseline性能大幅下降,这证实了全监督深度学习方法对标注数据的高度依赖性;本发明的方法在使用相同标注数据的情况,充分利用无标注数据,大幅提升了性能,灵敏度提升了17.1%,误报率降低了0.26/小时,且性能接近于使用全部标注的baseline。这证明了本发明提出的半监督训练策略的有效性,为在脑电信号分类的应用中,减少对标注的依赖,提供了一个全新的思路。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1