一种基于特征提取算法的数据特征分类方法

文档序号:8445641阅读:706来源:国知局
一种基于特征提取算法的数据特征分类方法
【技术领域】
[0001] 本发明属于临床数据检测和数据挖掘技术领域,具体涉及是一种基于特征提取算 法的数据特征分类方法。
【背景技术】
[0002] 在现代任何一家医院,重症监护病房(I⑶,IntensiveCareUnit)都是死亡率最 高的部分(8-19%)。因此,实时检测重症监护病房中病人的生命体征,并对其生命体征中 的心率和血氧饱和浓度进行特征提取和分析,在防止ICU病人的病情突然恶化甚至是死亡 方面起着重要作用。
[0003] 研宄发现,由于生物系统的特质,实时临床数据具有一些独特的功能。现有技术中 对临床数据进行分析时存在两个主要问题:首先,在建立模型时往往只考虑病人的一个重 要体征,而这难以对多个时间序列进行分析;其次,时间序列数据中包含着丰富的信息,对 单一时间序列来讲,有一阶,二阶时间序列特征,还有一些复杂的特征,如趋势波动分析,频 谱分析,近似熵等,然而这些特征没有被充分利用。
[0004] 针对这种情况,本发明提供了一种基于特征提取算法的数据特征分类方法,包括 以下步骤:首先,收集正常人的生命体征数据,并构建成数据库N存储;其次,收集病人的生 命体征数据S-I;然后,从数据库N中选取与收集的病人生命体征数据S-I相匹配的正常人 的生命体征数据N-1,引入特征提取算法,从病人生命体征数据S-I的时间特征序列中提取 出呼吸、心率、血氧饱和度、血压这四种最有鉴别能力的特征;再次,从提取的全部特征中选 取相应的特征子集;最后,用数据挖掘算法将选取的特征子集进行分类。通过挖掘无线医疗 设备检测的实时的、高频率的病人生命体征数据,在防止病人临床恶化以及为可能出现的 死亡提供早期预警方面起了重要作用,适用性强,提高了工作效率。

【发明内容】

[0005] 本发明的目的是克服现有技术中的不足,充分利用时间序列数据中的信息,同时 对多个特征数据进行提取和分类,使诊断更加准确有效。
[0006] 为此,本发明提供了一种基于特征提取算法的数据特征分类方法,包括如下步 骤:
[0007] 步骤一、收集正常人的生命体征数据,并构建成数据库N存储,通过无线医疗监控 系统收集实时的、高频率的正常人的生命体征数据;
[0008] 步骤二、收集病人的生命体征数据S-1,通过无线医疗监控系统收集实时的、高频 率的病人的生命体征数据;
[0009] 步骤三、从数据库N中选取与收集的病人的生命体征数据S-I相匹配的正常人的 生命体征数据N-1,引入特征提取算法,从病人的生命体征数据S-I的时间特征序列中提取 出呼吸、心率、血氧饱和度、血压这四种最具有鉴别能力的特征;
[0010] 步骤四、从提取的全部特征中选取相应的组合特征子集;
[0011] 步骤五、用数据挖掘算法将选择出的特征子集进行分类。
[0012] 上述一种基于特征提取算法的数据特征分类方法,所述步骤三的特征提取算法包 括如下步骤:
[0013] (3. 1)用趋势波动分析算法获取病人的生命体征数据S-I与正常人的生命体征数 据N-I的线性拟合特征数据;
[0014] 设时间序列为{x(i)},1彡i彡N,定标指数的计算过程如下:
[0015] (3.L1)构造去均值的和序列:
【主权项】
1. 一种基于特征提取算法的数据特征分类方法,其特征在于,包括如下步骤: 步骤一、收集正常人的生命体征数据,并构建成数据库N存储; 步骤二、收集病人的生命体征数据S-I; 步骤三、从数据库N中选取与收集的病人的生命体征数据S-I相匹配的正常人的生命 体征数据N-1,引入特征提取算法,从病人的生命体征数据S-I的时间特征序列中提取出呼 吸、心率、血氧饱和度、血压这四种最有鉴别能力的特征; 步骤四、从提取的全部特征中选取相应的组合特征子集; 步骤五、用数据挖掘算法将选择出的特征子集进行分类。
2. 根据权利要求1所述的一种基于特征提取算法的数据特征分类方法,其特征在于: 所述步骤三的特征提取算法包括如下步骤: (3. 1)用趋势波动分析算法获取病人的生命体征数据S-I与正常人的生命体征数据N-I的线性拟合特征数据; (3. 2)用近似熵算法描述数据的复杂度特征; (3. 3)用频谱分析算法提取数据的能量普特征; (3.4) 用分析数据的一阶特征算法提取数据的均值、标准差、偏度、和峰度特征; (3.5) 用分析数据的二阶特征算法提取时间序列内部的共生关系特征:熵、惯性系数、 相关系数和局部同质性; (3. 6)用时间序列间的特征算法提取数据的线性相关系数和互相关系数。
3. 根据权利要求1所述的一种基于特征提取算法的数据特征分类方法,其特征在于: 所述步骤四的特征子集的选取包括如下步骤: (4. 1)用完全搜索(Complete),启 发式搜索(Heuristic),随机搜索(Random) 3大类搜索算法从步骤三获得的特征全集 中产生出一个特征子集; (4.2)用筛选器(Filter)、封装器(Wrapper)两大类评价函数对该特征子集进行评 价; (4. 3)将评价的结果与特征选择的评价标准(停止准则)AUC,F-score进行比较,若 评价结果符合停止准则就停止,否则就继续产生下一组特征子集,继续对特征子集进行评 价; (4.4)验证选出来的特征子集的有效性。
4. 根据权利要求1所述的一种基于特征提取算法的数据特征分类方法,其特征在于: 所述步骤五、用数据挖掘算法对选择出的特征子集进行分类,包括如下步骤: (5. 1)将逻辑回归模型准确度、敏感度和AUC作为评价系统分类性能的准则; (5. 2)引入特征选择和探索性下采样,对选出的特征子集进行分类。 (5. 3)考虑到数据类间的不平衡性,再将探索性下采样引入系统中来提高分类效果。
【专利摘要】本发明属于临床数据检测和数据挖掘技术领域,具体涉及是一种基于特征提取算法的数据特征分类方法,包括以下步骤:首先,收集并构建正常人的生命体征数据库N;其次,收集病人的生命体征数据S-1;然后,从数据库N中选取与收集的病人生命体征数据S-1相匹配的正常人的生命体征数据N-1,引入特征提取算法,从病人生命体征数据S-1的时间特征序列中提取出最有鉴别能力的特征;再次,从提取的全部特征中选取相应的特征子集;最后,用数据挖掘算法将选取的特征子集进行分类。该方法,通过挖掘无线医疗设备检测的实时的、高频率的病人生命体征数据,防止病人临床恶化的同时为出现的死亡提供早期预警,适用性强,提高了工作效率。
【IPC分类】G06F17-30
【公开号】CN104765846
【申请号】CN201510184753
【发明人】闫允一, 闫长虎, 郭宝龙, 孟繁杰
【申请人】西安电子科技大学
【公开日】2015年7月8日
【申请日】2015年4月17日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1