本发明涉及生物信号特征提取技术领域,尤其是一种融合小波包与互信息的生物信号特征提取方法。
背景技术:
生物信号在医学、生命科学等领域具有重要的研究价值,目前生物信号处理在医疗保健、疾病预防、治疗以及医疗仪器产业中展现出其重要作用,由于生物信号来自于生命体,受环境、生理、心理的影响,信号具有多样性和复杂性等特点。并随着科学技术的发展,所采集的生物信号在维度、广度和数量上也呈现出爆炸式的增长趋势。
为了很好的利用所采集的生物信号,对其进行特征提取是很有必要的。现有的针对特定的生物信号的进行特征提取的技术有很多,比如:北京理工大学的申请号为201410543404.5、发明名称为“多尺度特征融合的心电图心电信号分类方法”所针对的是心电信号进行特征提取的方法,东南大学的申请号为201310168156.6、发明名称为“基于巴氏距离最优小波包分解的语音情感特征提取方法”所针对的是语音信号进行特征提取的方法等等。这些方法针对的是特定生物信号进行特征提取的方法,具有一定的针对性,同时缺乏普适性。
本发明保留了生物信号经过小波包分解后的原始时-频域特征,相对于利用小波包分解后的特征重构新特征或者计算频带能量的方式具有特征分辨率更强的优势。同时利用互信息的良好表达能力,有效剔除冗余的小波包分解特征,使得该特征提取方法具有良好的普适性,针对生物信号具有良好的特征提取能力。
技术实现要素:
针对现有技术的不足,本发明提供一种融合小波包与互信息的生物信号特征提取方法。
本发明的技术方案为:一种融合小波包与互信息的生物信号特征提取方法,包括以下步骤:
s1)、读取数据库中所有的生物信号,并使用滤波器去除所述生物信号中的低频场电位和高频噪声;
s2)、进行生物信号的分割,首先根据阈值检测得到每个生物信号的中心发放时间,并根据该时间向前采样k个点、向后采样k-1个点作为一个周期为2k个采样点的生物信号,从而得到所有单独的生物信号;
s3)、对生物信号进行小波包分解,得到每个生物信号的小波包分解系数;
s4)、随机选取少数用小波包分解系数表示的生物信号作为训练数据,每个用于训练的生物信号数据包括多维的特征,即小波包分解系数,以及一维的类别标签;
s5)、运用最大互信息准则对训练生物信号数据进行特征选择,得到相应的系数索引;
s6)、对经过步骤s1)至步骤s3)处理的测试生物信号,采用步骤s5)得到的系数索引进行特征提取,得到测试生物信号的低维时-频特征;
s7)、应用分类器对所述生物信号的低维时-频特征进行分类,进而得到目标生物信号和多种非目标生物信号的多分类结果。
进一步的,上述技术方案中,步骤s1)中,所述的生物信号为心电信号、脑波信号、肌电图、胃电信号、眼视网膜信号、眼电信号、非电生理信号、人体光电信号、耳声发射信号、人体生理特征信号中的多种,其中,非电生理信号是指由器官运动产生的心音、脉搏、颈动脉搏动、呼吸、鼾声和柯氏音,压力信号;人体光电信号是指光电脉波、血氧饱和度信号;人体生理特征信号是指指纹、掌形、面部、虹膜和步态等相关信号。
进一步的,上述技术方案中,步骤s1)中,所述的滤波器包括低通滤波器、高通滤波器、带通滤波器和带阻滤波器中的一种或多种。通过滤波器对所有的生物信号进行滤波处理,滤除生物信号中的低频场电位和高频噪声信号,得到处于特定频率范围内的生物信号。
进一步的,上述技术方案中,步骤s2)中,生物信号的分割采用低阈值检测、高阈值检测或双阈值检测中的任意一种。
进一步的,上述技术方案中,所述的双阈值检测,具体如下:
将步骤s1)中的生物信号通过双阈值检测,当信号中的电位值超过一定阈值4μ,并且在该电位附近的k个样本内最低电位值有低于另一阈值-2μ,则记该超过阈值4μ的采样位置为一个生物信号中心发放时间点,其中,μ为上述信号电位的均值;
接着根据该中心发放时间向前采样k个点,向后采样k-1个点作为一个周期为2k个采样点的生物信号。
进一步的,上述技术方案中,步骤s3)中,对生物信号进行小波包分解采用哈尔小波族、多贝西小波族、symlet小波族、coiflet小波族、双正交小波族、反向双正交小波族、fejer-korovkinfilters小波族、离散逼近的meyer小波族中的任意一种,所采用的小波包分解级数为所有可能值。
进一步的,上述技术方案中,步骤s5)中,运用最大互信息准则对训练生物信号数据进行特征选择,采用基于互信息的min-redundancy特征集度量准则和基于近似条件互信息的特征集度量准则进行特征选择,其中,基于近似条件互信息的特征集度量准则对训练生物信号进行特征选择,具体为:
s501)、对训练生物信号的每一维特征的熵和特定二维特征组的联合熵进行估计,令某度量空间中一个有值的随机变量为x,在该空间下x的两个观测值x和x′的有距离函数||x-x′||,熵值h(x)通过使用
其中,m为表示样本数,
其中,ψ(x)为双伽玛函数,即伽玛函数γ(x)的对数导数ψ(x)=γ(x)′/γ(x),d表示x的维度,cd表示d维单元球的体积,e(logε)表示对距离ε的对数值求期望;
考虑二维联合随机变量z=(x,y),并有两个观测值z′和z″,使用最大范式,
||z′-z″||=max{||x′-x″,||y′-y″||},
在m个样本中取一个点za,该点与其第k个近邻点间的距离为ε(a)/2,并且该点在x,y空间的投影表示为εx(a)/2,εy(a)/2,所以ε(a)=max{εx(a),εy(a)},记nx(a)为与样本xa的距离严格小于εx(a)/2的样本个数,定义ny(a)为与样本ya的距离严格小于εy(a)/2的样本个数,用dz=dx+dy,
其中,dz、dx、dy分别表示样本点za的维度以及该点在x,y空间投影的维度;
s502)、由估计得到的熵
s503)、利用生物信号的类别标签向量、每一维特征向量或特定二维特征向量的互信息或条件互信息迭代选择特征k,并记为s[k],具体为:
首先计算每一特征{fi|i=1,2.....,m},则类别标签向量z的互信息i(z;fi),然后选择使得互信息最大的一个特征fj作为第一个特征s[1],并将其归入最优特征集s中,同时更新剩余特征集
此时,|s|=1,|ns|=m-1,然后在此基础上迭代步骤s501),s502),并使用条件互信息:
然后进行后续n-1个特征的选择,其中n为最优特征个数。
进一步的,上述技术方案中,步骤s7)中,采用的分类器为基于分类算法相关的分类器和基于聚类算法相关的分类器,其中,所述的基于分类算法是指决策树算法、朴素贝叶斯算法、逻辑回归算法、人工神经网络算法、k-近邻算法、支持向量机算法、关联规则算法、集成学习算法,所述的基于聚类算法是指基于划分的k-均值聚类算法及其变种、基于层次的聚类算法及其变种、基于密度的dbscan聚类算法及其变种、基于网络的sting聚类算法及其变种、基于神经网络的自组织神经网络som算法及其变种、基于统计学的cobweb算法及其变种。
本发明的有益效果为:
1、本发明提出了方法适用于普适的各类生物信号的特征提取;
2、本发明保留了生物信号经过小波包分解后的原始时-频域特征,并利用互信息的特性有效剔除冗余特征,使得本发明提取的生物信号特征不受限于所选择的分类系统而具有良好的普适性,针对各类生物信号具有良好的特征提取能力,更为有效的提取生物信号中所蕴含的重要特征;
3、对于脑电信号,本发明所提取的特征经过聚类处理结果显示大大提高了正常与癫痫信号的分类精度。
附图说明
图1为本发明的流程示意图;
图2为本发明基于近似条件互信息的特征集度量准则为例对训练生物信号进行特征选择的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,一种融合小波包与互信息的生物信号特征提取方法,包括以下步骤:
s1)、读取数据库中所有的生物信号,并通过带通滤波器对所有的生物信号进行带通滤波处理,滤除生物信号中的低频场电位和高频噪声信号,得到处于特定频率范围内的生物信号,其中,所述的生物信号为心电信号、脑波信号、肌电图、胃电信号、眼视网膜信号、眼电信号、非电生理信号、人体光电信号、耳声发射信号、人体生理特征信号中的多种,其中,非电生理信号是指由器官运动产生的心音、脉搏、颈动脉搏动、呼吸、鼾声和柯氏音,压力信号;人体光电信号是指光电脉波、血氧饱和度信号;人体生理特征信号是指指纹、掌形、面部、虹膜和步态等相关信号;
s2)、进行生物信号的分割,首先根据双阈值检测得到每个生物信号的中心发放时间,并根据该时间向前采样k个点、向后采样k-1个点作为一个周期为2k个采样点的生物信号,从而得到所有单独的生物信号;具体如下:
s201)、将步骤s1)中的生物信号通过双阈值检测,当信号中的电位值超过一定阈值4μ,并且在该电位附近的k个样本内最低电位值有低于另一阈值-2μ,则记该超过阈值4μ的采样位置为一个生物信号中心发放时间点,其中,μ为上述信号电位的均值;
s202)、接着根据该中心发放时间向前采样k个点,向后采样k-1个点作为一个周期为2k个采样点的生物信号;
s3)、采用多贝西函数db4小波母函数对生物信号进行小波包分解,得到每个生物信号的小波包分解系数,选择最大的分解级数对所有的生物信号逐一进行小波包分解,得到每个生物信号的小波包分解系数,并将其作为生物信号的原始特征进行后续的特征选择;
s4)、随机选取少数用小波包分解系数表示的生物信号作为训练数据,每个用于训练的生物信号数据包括多维的特征,即小波包分解系数,以及一维的类别标签;
s5)、运用基于近似条件互信息的特征集度量准则对训练生物信号进行特征选择,得到相应的系数索引,如图2所示,具体为:
s501)、对训练生物信号的每一维特征的熵和特定二维特征组的联合熵进行估计,令某度量空间中一个有值的随机变量为x,在该空间下x的两个观测值x和x′的有距离函数||x-x′||,熵值h(x)通过使用
其中,m为表示样本数,
其中,ψ(x)为双伽玛函数,即伽玛函数γ(x)的对数导数ψ(x)=γ(x)′/γ(x),d表示x的维度,cd表示d维单元球的体积,e(logε)表示对距离ε的对数值求期望;
考虑二维联合随机变量z=(x,y),并有两个观测值z′和z″,使用最大范式,
||z′-z″||=max{||x′-x″,||y′-y″||},
在m个样本中取一个点za,该点与其第k个近邻点间的距离为ε(a)/2,并且该点在x,y空间的投影表示为εx(a)/2,εy(a)/2,所以ε(a)=max{εx(a),εy(a)},记nx(a)为与样本xa的距离严格小于εx(a)/2的样本个数,定义ny(a)为与样本ya的距离严格小于εy(a)/2的样本个数,用dz=dx+dy,
其中,dz、dx、dy分别表示样本点za的维度以及该点在x,y空间投影的维度;
s502)、由估计得到的熵
s503)、利用生物信号的类别标签向量、每一维特征向量或特定二维特征向量的互信息或条件互信息迭代选择特征k,并记为s[k],具体为:
首先计算每一特征{fi|i=1,2.....,m},则类别标签向量z的互信息i(z;fi),然后选择使得互信息最大的一个特征fj作为第一个特征s[1],并将其归入最优特征集s中,同时更新剩余特征集
此时,|s|=1,|ns|=m-1,然后在此基础上迭代步骤s501),s502),并使用条件互信息:
然后进行后续n-1个特征的选择,其中n为最优特征个数;
s6)、对经过步骤s1)至步骤s3)处理的测试生物信号,采用步骤s5)得到的系数索引进行特征提取,得到测试生物信号的低维时-频特征,
s7)、应用基于模糊c均值聚类的分类器对所述生物信号的低维时-频特征进行分类,将低维时-频特征表示的生物信号c作为模糊c均值聚类的输入进行聚类处理,进而得到目标生物信号和多种非目标生物信号的多分类结果。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。