一种基于聚类降维的集成学习睡眠分期方法

文档序号:35213888发布日期:2023-08-24 15:11阅读:20来源:国知局
一种基于聚类降维的集成学习睡眠分期方法

本发明属于医疗信息学,特别涉及一种基于聚类降维的集成学习睡眠分期方法,使用svm(supportvectormachine,支持向量机)作为基分类器实现睡眠分期。


背景技术:

1、睡眠占据了人一生1/3的时间,睡眠质量和人的身体和心理健康密切相关。相关研究表明,正常睡眠模式的破坏将会导致心理和神经的失调,此外,睡眠失调还会对认知功能产生更加深远的影响,如注意力下降、学习能力减退、记忆力衰减等。睡眠分期是指根据睡眠过程中脑电(electroencephalogram,eeg)、眼电(electrooculogram,eog)、心电(electrocardiogram,ecg)、血氧饱和度等生理指标的周期性变化,将睡眠过程划分为不同阶段。睡眠分期诊断结果不但对睡眠疾病的诊断有重要意义,而且是睡眠过程中的神经干预治疗的前提[2]。当下睡眠脑电研究中常用的是aasm标准(american academy ofsleepmedicine),该标准将睡眠划分为清醒阶段(wake),非快眼动睡眠期(non-rapid eyemovement,nrem),快速眼动睡眠期(rapid eye movement,rem),其中nrem期又细分为n1,n2,n3三个时期。

2、然而,传统的睡眠分期是由医生,基于多导睡眠监测仪(polysomnography,psg)的生理信号数据,通过观察得出的。针对整夜睡眠数据,依靠医师凭借观察进行睡眠分期,会产生巨大工作量,而且难以实现实时分析,此外睡眠分期结果的准确度还严重依赖于医师的经验。故而,当下睡眠医学领域急需一种能准确进行睡眠分期的自动睡眠分期方法。

3、现有的睡眠分期算法分为多通道信号处理和单通道信号处理两种,例如多通道算法的文章《s.khalighi,t.sousa,g.pires,u.nunes,automatic sleep staging:acomputer assisted approach for optimal combination of features andpolysomnographic channels,expert syst.appl.40(17)(2013)7046–7059.》,虽然加入更多的生理信号通道确实能提升分类算法的准确性,但是也会产生更大的时间开销和内存开销。而且多通道算法依赖于更多的信号采集设备,这不但会使诊断过程变得繁琐,而且多设备之间的干扰也会引入随机噪声,使得算法性能不稳定。此外,如果要实现实时睡眠分期,多通道处理算法是难以与单通道算法相比的。

4、当下已有很多研究表明,单通道的eeg信号足够实现睡眠分期,例如《boostani r,karimzadeh f,nami m.a comparative review on sleep stage classificationmethods in patients and healthy individuals[j].computer methods and programsin biomedicine.2016,140(2017):77-91.》,而针对单通道eeg信号的睡眠分期算法,目前主要分为基于特征提取的传统机器学习算法和端到端的深度学习算法两大类,有研究表明,传统机器学习方法在睡眠分期领域能达到与深度学习算法相当的分类性能。专利申请号为cn202310356676.3的《基于时间自注意力与动态图卷积的睡眠分期分析系统与方法》,该方法接受多通道脑电的特征作为输入,采用了自注意力机制和动态图卷积作为分类模型,实现睡眠分期。虽然该方法具有不错的分类效果,但是多通道脑电信号输入使得信号采集过程更加繁杂,此外,在不使用gpu加速的情况下,在多通道脑电庞大的样本空间上布置注意力网络和动态图卷积,必定会带来巨大的计算时间开销。对于需要布置在治疗型设备上的睡眠分期算法而言,诸如此类的深度学习网络并不能满足要求。


技术实现思路

1、为了克服上述现有技术的缺陷,本发明的目的在于提供一种基于聚类降维的集成学习睡眠分期方法,考虑到训练数据的标签由医师手动标定,有一定概率存在偏差,提出了基于聚类的特征选择方法,使用svm作为基分类器,算法具有较低的时间开销和内存开销,此外,使用单通道eeg信号作为输入,极大的降低了输入信号的采集难度,并且提出的进行特征选择和特征分类,针对不同的特征空间,都具有良好的适应性,因此本发明可以快速、准确、实时地的进行睡眠分期。

2、为了达到上述目的,本发明的技术方案为:

3、一种基于聚类降维的集成学习睡眠分期方法,包括以下步骤:

4、步骤一,获取单通道eeg数据和专业医师的睡眠分期诊断结果,对eeg数据的每个时段数据进行带通滤波,同时初始化svm分类器;

5、步骤二,对eeg数据进行特征提取,每个时段提取一个特征向量,作为一个数据点;

6、步骤三,进行特征选择和特征分类,为分类器分别选择特征集,选择需要保留的特征,将保留的特征分配到特征集;

7、步骤四,训练模型,步骤一中的专业医师的睡眠分期诊断结果作为训练数据的标签;采用步骤三为每个分类器选择的特征子集,从特征空间中产生五个子空间,分别用于五个基分类器的训练;每个基分类器进行独立训练,经过训练后,每个基分类器能够给出预测一个样本,为相应睡眠阶段是和否的概率;

8、步骤五,对于测试数据,{svm0,svm1,svm2,svm3,svm4}分别给出对应睡眠阶段是和否的概率,集成五个分类器的输出后得出测试数据判别为五个分期的概率,选择概率最大的分期作为测试数据的预测结果。

9、所述步骤一具体为:首先将eegg数据按时段进行划分,以时段为最小处理单元,分别使用butterworth滤波器进行0.5-45hz的带通滤波,同时初始化5个svm分类器,分别作为五个睡眠阶段的分类任务的基分类器,{svm0,svm1,svm2,svm3,svm4},svm编号为对应的睡眠分期。

10、所述步骤三的实施方法为:

11、(a)、对特征空间进行数据增强,即使用复制现有数据点的方法,使得特征空间中每个睡眠阶段的数据量相同,得到增强后的总体数据集其中li∈{0,1,2,3,4},(pi,li)表示一个的样本;

12、(b)、对特征xi,构建仅含该特征的数据集d(xi);

13、(c)、对d(xi)进行k-means二聚类,得到两个簇cluster1、cluster2;

14、(d)、分别计算两个簇的信息熵;

15、(e)、选择信息熵小的簇作为该特征的标志簇cc(xi),统计cc(xi)中实际标签为k的样本数,选择样本数最多的标签并赋值给pl(xi),聚类算法对cc(xi)中所有样本标签的预测值为pl(xi);

16、(f)、将特征xi分配到特征集,特征xi的评分p(xi)为cc(xi)中真实标签与聚类预测标签pl(i)相同的样本占比;

17、(g)、对于每个特征,重复(b)-(f),直到所有特征完成分类和评分,通过p(xi)选择需要保留的特征。

18、所述步骤五的具体实施方法为:

19、每个基分类器会给出样本被判断为该分类器对应的睡眠分期是与否的概率,即输出[p0,p1],通过综合考虑每个模型的输出结果,最终得出样本判定为五个分期的概率向量[p(0),p(1),p(2),p(3),p(4)],该向量的计算方法为

20、

21、相较于现有技术,本发明的优点为:

22、(1)、本发明步骤一使用单通道eeg信号作为输入,极大的降低了输入信号的采集难度,特别是与集成学习的方法、基于聚类的特征选择的结合,进一步实现了效果、准确性与内存开销和时间开销之比的最优化。

23、(2)、本发明采用了集成学习的方法,以svm作为基学习器实现睡眠分期,算法具有较低的时间开销和内存开销,该方法在睡眠分期准确性方面能达到领域前沿水平。

24、(3)、本发明步骤三提出的基于聚类的特征选择,能针对不同的特征空间进行特征选择和特征分类,因此本算法在不同的特征提取方案上都有很好的适应性。

25、综上所述,与现有技术相比,本发明提出了一种基于聚类的特征选择和分类的方法、使用svm作为基学习器构建了一个睡眠分期集成学习模型,能够实现在低内存开销和时间开销的情况下,实现实时睡眠分期。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1