基于随机森林的睡眠分期方法及系统与流程

文档序号:17379234发布日期:2019-04-12 23:39阅读:415来源:国知局
基于随机森林的睡眠分期方法及系统与流程

本发明涉及计算机领域,且特别涉及一种基于随机森林的睡眠分期方法及系统。



背景技术:

睡眠是人体一种十分重要的生理活动,是人类适应自然界昼夜变化的生理现象,容易受环境、情绪等因素的影响。经过不断的研究,我们发现睡眠有着一定的生理规律,从睡眠脑电信号(eeg)中我们可以得到许多生理信息。因此,研究睡眠脑电信号所蕴含的信息并分析睡眠周期的变化规律,对于研究睡眠相关的疾病有着重大意义。目前国际上普遍使用美国睡眠医学学会(aasm)的睡眠分期规则,根据睡眠时eeg的特征,可以将睡眠分为:清醒期(w)、非快速眼动1期(n1)、非快速眼动2期(n2)、非快速眼动3期(n3)和快速眼动期(rem)。

目前对eeg的分期方法有许多种,基本的过程是信号处理、特征提取以及模型分析。通过大脑皮层采集到的脑电数据会有许多噪声,还会有生理伪迹信号,这些干扰信号幅值较大,有用信号幅值较少,对有用信号进行分析的难度增大。目前的分期方法中,在特征提取时,大多是从时域或者频域来提取特征参数,由于eeg的非平稳、非线性,目前的方法很难完整准确的提取出脑电数据中蕴含的睡眠信息,故分类的准确性较低。此外,在现有的睡眠分期研究中,大多使用svm、人工神经网络、等分类器进行特征参数的训练识别,但svm分类器难以处理大规模的训练样本,将耗费大量的机器内存和运算时间,神经网络分类算法学习速度慢,容易出现过拟合现象,严重影响分类的准确性。进一步的,信号处理仅仅只针对单通道的信号且处理后干扰较大。



技术实现要素:

本发明为了克服现有睡眠分期方法中分类准确性低的问题,提供一种高分类性的基于随机森林的睡眠分期方法及系统。

为了实现上述目的,本发明提供一种基于随机森林的睡眠分期方法,该方法如下:

获取多个脑信号样本并对每个脑电信号样本进行睡眠分期;

对每个脑电信号样本进行预处理;

从时域上将预处理后的每个脑电信号样本分割成多个具有一定时长的片段;

提取每个片段上的多个特征参数,多个特征参数包括时域特征参数、频域特征参数以及非线性特征参数;

以提取的多个特征参数为特征向量,以每个特征向量对应的片段所处的睡眠期为期望输出,训练随机森林分类器内的多个决策树,形成随机森林模型;

获取待分析的脑电信号,经预处理和片段分割后,提取待分析的脑电信号上每个片段的多个特征参数,并将该多个特征参数输入至随机森林模型内,经分析后获得每个片段所处的睡眠期,经统计后获得待分析的脑电信号的睡眠分期。

根据本发明的一实施例,在提取频域特征参数时,将每个片段分割成2秒且有1秒重叠的小片段,提取每个小片段的多个频域特征参数。

根据本发明的一实施例,在提取每个片段的特征参数后,将多个脑电信号样本分成训练集和测试集,利用训练集内的多个脑电信号样本训练随机森林分类器内的多个决策树,形成随机森林模型,利用测试集内的多个脑电信号样本测试修正形成的随机森林模型。

根据本发明的一实施例,基于随机森林的睡眠分期方法还包括利用hmm模型对测试修正后的随机森林模型进行平滑处理。

根据本发明的一实施例,在对随机森林内的多个决策树进行训练时,包括:

步骤s501,在训练集中随机且有回放的抽样,形成数量与训练集相同的训练样本集;

步骤s502,获取训练样本集内每个训练集样本的特征参数,形成特征向量集;

步骤s503,在特征向量集内随机且有回放抽样,形成数量与特征向量集相同的待选特征向量集;

步骤s504,在待选特征向量集中随机选取部分待选特征,在部分待选特征中选择最优的待选特征,并以该最优的待选特征从根节点处开始进行分裂,如果当前节点上达到终止条件,则设置当前节点为叶子节点,该叶子节点的预测输出为当前节点样本集合中数量最多的那一类;如果当前节点没有达到终止条件,则继续重复步骤s504,直到当前决策树停止生长;

重复步骤s501至步骤s504来训练下一颗决策树,直到所有的决策树都停止生长,完成随机森林模型的训练。

根据本发明的一实施例,对每个脑电信号样本或待分析的脑电信号进行预处理的步骤包括多通道脑电信号中眼电伪迹的去除,具体步骤为:

将原始脑电信号s进行标准化处理得到sc;

然后使用“db6”小波函数对sc信号进行七层小波变换,并将分解后得到的小波系数串联起来,得到一个小波系数向量矩阵x;

求矩阵x的转置,得到装置矩阵y;

对向量矩阵x和装置矩阵y进行典型相关性分析,计算基向量矩阵wx和wy,求得典型成分分析后的典型变量,利用相关系数识别眼电伪迹成分,利用典型相关性分析逆变换将去除眼电伪迹后的各典型向量进行投影变换,再进行小波变换的逆变换,得到去除眼电伪迹后的脑电信号。

根据本发明的一实施例,去除眼电伪迹后通过滤波的方式去除高频分量。

另一方面,本发明还提供一种基于随机森林的睡眠分期系统,其包括信号采集模块、存储器以及处理器。信号采集模块获取多个脑信号样本并对每个脑电信号样本进行睡眠分期,或者获取待分析的脑电信号。存储器上存储有计算机程序。处理器处理存储器内存储的计算机程序,计算程序被处理器执行时能够实现以下步骤:

对每个脑电信号样本进行预处理;

从时域上将预处理后的每个脑电信号样本分割成多个具有一定时长的片段;

提取每个片段上的多个特征参数,多个特征参数包括时域特征参数、频域特征参数以及非线性特征参数;

以提取的多个特征参数为特征向量,以每个特征向量对应的片段所处的睡眠期为期望输出,训练随机森林分类器内的多个决策树,形成随机森林模型;

获取待分析的脑电信号,经预处理和片段分割后,提取待分析的脑电信号上每个片段的多个特征参数,并将该多个特征参数输入至随机森林模型内,经分析后获得每个片段所处的睡眠期,经统计后获得待分析的脑电信号的睡眠分期。

综上所述,本发明提供的基于随机森林的睡眠分期方法及系统,在对脑电信号进行特征提取时首先在时域上将处理后的每个脑电信号样本分割成多个片段,对每个片段进行特征提取。进一步的,提取的特征不仅包含长时性的时域特征参数,还包含短时性的特征参数,具体包括频域特征参数和非线性特征参数,长时性特征参数和短时性特征参数的融合分析可更完整的提取出eeg中蕴含的睡眠信息,大大提高睡眠分期的准确性。此外,在分析模型上采用包含有多个决策树的随机森林分类器来解决现有分类器过拟合的问题,从而进一步提高睡眠分期的精确度。

此外,在预处理时采用离散小波变换(dwt)和典型成分分析(cca)相结合的方式进行信号处理,其不仅能处理多通道的信号,同时也有效的去除了眼电伪迹,将干扰降到最低。在建立随机森林模型后使用hmm模型来平滑睡眠分期模型,考虑到了相邻睡眠阶段之间的切换信息,提高了分类精确度。

为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。

附图说明

图1所示为本发明一实施例提供的基于随机森林的睡眠分期方法的流程图。

图2所示为图1中训练随机森林模型的流程图。

图3所示为图1中步骤s30中特征提取的原理框图。

具体实施方式

睡眠状态下的脑电信号通常包含着很多关于人类疾病的生理信息,故为更好的进行研究,需要对睡眠进行分期。现有的分期方法很难完整准确的提取出脑电数据中蕴含的睡眠信息且在分类是容易出现过拟合的问题,从而大大影响睡眠分期的准确性。有鉴于此,本实施例提供一种基于随机森林的睡眠分期方法及系统。

如图1所示,本实施例提供一种睡眠分期方法包括:获取多个脑信号样本并对每个脑电信号样本进行睡眠分期(步骤s10)。对每个脑电信号样本进行预处理(步骤s20)。从时域上将预处理后的每个脑电信号样本分割成多个具有一定时长的片段(步骤s30)。提取每个片段上的多个特征参数,多个特征参数包括时域特征参数、频域特征参数以及非线性特征参数(步骤s40)。以提取的多个特征参数为特征向量,以每个特征向量对应的片段所处的睡眠期为期望输出,训练随机森林分类器内的多个决策树,形成随机森林模型(步骤s50)。获取待分析的脑电信号,经预处理和片段分割后,提取待分析的脑电信号上每个片段的多个特征参数,并将该多个特征参数输入至随机森林模型内,经分析后获得每个片段所处的睡眠期,经统计后获得待分析的脑电信号的睡眠分期(步骤s60)。以下结合图1至图3详细介绍本实施例提欧的基于随机森林模型的睡眠分期方法。

本实施例提供的基于随机森林模型的睡眠分期方法始于步骤s10,在该步骤中脑电采集设备(包括脑电图仪、多导睡眠监测仪(psg)等)以频率为500hz的采样频率来获取实验体24小时的生理信号,获取其中的脑电信号,形成脑电信号样本,本实施例中脑电采集设备采集的是额区、中央区和枕区三个通道的脑电信号。采集大量不同性别,不同年龄的实验体的脑电信号,来获得多个脑电信号样本。经专业医生对多个脑电信号样本进行标记,将每个脑电信号样本中的睡眠状态分别分成w期、n1期、n2期、n3期和rem期,建立睡眠数据库。

之后执行步骤s2,对每个脑电信号样本进行预处理。于本实施例中,预处理保护两步:首先,通过离散小波变换(dwt)和典型成分分析(cca)去除多通道脑电信号样本的眼电伪迹;之后,带通滤波器滤除50hz以上,0.5hz以下的频率成分,减少无用信号的干扰。其中,去除眼电伪迹的具体步骤如下:将原始脑电信号s进行标准化处理得到sc。然后使用“db6”小波函数对sc信号进行七层小波变换,并将分解后得到的小波系数串联起来,得到一个小波系数向量矩阵x;求矩阵x的转置,得到装置矩阵y。对向量矩阵x和装置矩阵y进行典型相关性分析,计算基向量矩阵wx和wy,求得典型成分分析后的典型变量,利用相关系数识别眼电伪迹成分,利用典型相关性分析逆变换将去除眼电伪迹后的各典型向量进行投影变换,再进行小波变换的逆变换,得到去除眼电伪迹后的脑电信号。

步骤s30将去除眼电伪迹和高频分量的完整的脑电信号样本从时域上进行片段分割。于本实施例中,将完整的脑电信号分割成多个时长为30秒的片段,针对每个片段进行特征参数的提取。然而,本发明对片段的长度不作任何限定。

之后执行步骤s40,对每个片段进行特征参数提取。提取的特征参数包括时域特征参数、频域特征参数以及非线性特征参数,以下将结合图3详细介绍三种特征参数的提取。时域特征参数包括脑电信号样本的峰值、方差以及hjorth参数。其中方差表示表示不同睡眠阶段脑电信号的变化范围。假设一个片段信号为x(i),i=1,2,...,n,n为片段的长度,则其方差v为:

其中,是信号x(i)的均值。

对于,hjorth参数而言,hjorth参数包含hjorth移动性和hjorth复杂度:

①hjorth移动性hm为:

②hjorth复杂度hc为

其中,difi=x(i)-x(i-1),x(i)是片段信号,i=1,2,...,n,n为片段的长度。

在进行频域特征提取时,因为每个节律波最长不超过2秒,为了提取的特征更加全面的包含睡眠信息,故将每个片段分割成2秒且有1秒重叠的小片段,提取每个小片段的多个频域特征参数,频域特征参数包括:每个2秒的小片段中k复合波的频带能量e(kc),能量比ratio(kc);δ波的频带能量e(δ),能量比ratio(δ);θ波的频带能量e(θ),能量比ratio(θ);α波的频带能量e(α);能量比ratio(α);β波的频带能量e(β),能量比ratio(β),并提取各频带能量的最小值、最大值、平均值、方差等统计特征。

对于每个2秒的小片段其频域特征提取如下:

首先,利用mallat算法对脑电信号x(i)进行m层分解,相应的小波系数如下:

其中,aj,k和dj,k(j=1,2,…,m)分别为j尺度空间的近似系数和细节系数,h0,h1分别为低频和高频分解滤波器,m-2k表示尺度位移,z表示整数集合。

于本实施例中,采用“db6”小波函数对脑电信号x(i)进行七层分解,即m=7,其中a1代表k复合波,a1+d1代表δ波,d2代表θ波,d3代表α波,d4代表β波。

δ波的能量e(δ)由公式5得到:

其中,a1(i)表示经小波信号分解后第i层中的k复合波,d1(i)表示经小波信号分解后第i层中的δ波。

θ波的能量e(θ)由公式6得到:

其中,d2(i)表示经小波信号分解后第i层中的θ波。

α波的能量e(α)由公式7得到:

其中,d3(i)表示经小波信号分解后第i层中的α波。

β波的能量e(β)由公式8得到:

其中,d3(i)表示经小波信号分解后第i层中的β波。

k复合波的能量e(kc)由公式9得到:

总能量和es=e(δ)+e(θ)+e(α)+e(β)+e(kc)。

进而可以计算出各节律波的能量比,ratio(kc)=e(kc)/es,ratio(δ)=e(δ)/es,ratio(θ)=e(θ)/es,ratio(α)=e(α)/es,ratio(β)=e(β)/es。

非线性特征参数包括近似熵、renyi’s熵以及关联维数。

①近似熵算法如下:

对于原始输入信号x(i)=[x1,x2,…,xn]构造新的子序列,x(i,l)=[xi,xi+1,…,xi+l-1],1≤i≤n-l,其中l是子序列的长度,取1,2或者3;

r定义为信号噪声等级,r=k·sd,其中sd是信号x(i)的标准差,k=0,0.1,0.2,…,0.9;

构建空间子矩阵x(j,l)={x(j,l)|j∈[1,2,…,n-l]},对矩阵中每个元素计算

c(i,l)代表矩阵x(j,l)中小于r的数目与总数n-l的比值,计算公式如下:

故近似熵可由公式12计算:

②renyi’s熵定义为:

其中,q是renyi’s熵的权数,当q趋近于1时,hq收敛到香农熵,当q趋近于0时,hq收敛到最小熵,x(i)是片段信号,i=1,2,...,n,n为该片段的长度。

③关联维数算法:

关联维数表示了系统的复杂程度,关联维数越高,表明系统越复杂,关联积分由公式14表示:

其中为heaviside函数。

关联积分c(r)与标度r之间存在如下关系:

其中,d表示要求的关联维数。

由公式15可以得到关联维数d:

经上述时域特征参数提取、频域特征参数提取以及非线性特征参数后获得每个脑电信号样本的特征参数,之后执行步骤s50,以每个脑电信号样本上提取的多个特征参数为特征向量,以每个脑电信号样本所处的睡眠期为期望输出,训练随机森林分类器内的多个决策树,形成随机森林模型。于本实施例中,将步骤s10中获取的脑电信号样本分为训练集和测试集,利用训练集内的多个脑电信号样本训练随机森林分类器内的多个决策树,形成随机森林模型,利用测试集内的多个脑电信号样本测试修正形成的随机森林模型。

如图2所示,具体的训练过程如下:

步骤s501,在训练集中随机且有回放的抽样,形成数量与训练集相同的训练样本集。步骤s502,获取训练样本集内每个训练集样本的特征参数,形成特征向量集。步骤s503,在特征向量集内随机且有回放抽样,形成数量与特征向量集相同的待选特征向量集。步骤s504,在待选特征向量集中随机选取部分待选特征,在部分待选特征中选择最优的待选特征,并以该最优的待选特征从根节点处开始进行分裂。步骤s505,判断是否可以成为叶子节点。如果当前节点上达到终止条件,则设置当前节点为叶子节点,该叶子节点的预测输出为当前节点样本集合中数量最多的那一类;如果当前节点没有达到终止条件,则继续重复步骤s504和步骤s505,直到当前决策树停止生长。重复步骤s501至步骤s505来训练下一颗决策树,直到形成的决策树的数量满足设定要求后,完成随机森林模型的训练。所述终止条件为在当前节点上能获得睡眠分期结果。

在完成随机森林模型的训练后,步骤s50还包括步骤s506,利用hmm模型(隐马尔可夫模型)对测试修正后的随机森林模型进行平滑处理。hmm模型考虑到了相邻睡眠阶段之间的切换信息,提高了分类精确度。

在完成随机森林模型的训练和修正后,执行步骤s60。步骤s60包括获取待分析的脑电信号,采用步骤s20中的算法对待分析的脑电信号进行预处理,之后采用s30中的算法进行片段分割以及步骤s40中的算法进行特征提取,以获得待分析的脑电信号所包含的多个特征参数,经分析后获得每个片段所处的睡眠期,经统计后获得待分析的脑电信号的睡眠分期。

与上述基于随机森林的睡眠分期方法相对应的,本实施例还提供一种基于随机森林的睡眠分期系统,其包括信号采集模块、存储器以及处理器。信号采集模块获取多个脑信号样本并对每个脑电信号样本进行睡眠分期,或者获取待分析的脑电信号。存储器上存储有计算机程序。处理器处理存储器内存储的计算机程序,计算程序被处理器执行时能够实现本实施例提供的基于随机森林的睡眠分期方法中步骤s10至步骤s60。

综上所述,本发明提供的基于随机森林的睡眠分期方法及系统,在对脑电信号进行特征提取时首先在时域上将处理后的每个脑电信号样本分割成多个片段,对每个片段进行特征提取。进一步的,提取的特征不仅包含长时性的时域特征参数,还包含短时性的特征参数,具体包括频域特征参数和非线性特征参数,长时性特征参数和短时性特征参数的融合分析可更完整的提取出eeg中蕴含的睡眠信息,大大提高睡眠分期的准确性。此外,在分析模型上采用包含有多个决策树的随机森林分类器来解决现有分类器过拟合的问题,从而进一步提高睡眠分期的精确度。

此外,在预处理时采用离散小波变换(dwt)和典型成分分析(cca)相结合的方式进行信号处理,其不仅能处理多通道的信号,同时也有效的去除了眼电伪迹,将干扰降到最低。在建立随机森林模型后使用hmm模型来平滑睡眠分期模型,考虑到了相邻睡眠阶段之间的切换信息,提高了分类精确度。

虽然本发明已由较佳实施例揭露如上,然而并非用以限定本发明,任何熟知此技艺者,在不脱离本发明的精神和范围内,可作些许的更动与润饰,因此本发明的保护范围当视权利要求书所要求保护的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1