一种基于随机子空间集成学习的主动脉夹层筛查模型及其建立方法、系统和模型与流程

文档序号:16395083发布日期:2018-12-25 19:43阅读:629来源:国知局
一种基于随机子空间集成学习的主动脉夹层筛查模型及其建立方法、系统和模型与流程

本发明涉及医学及人工智能领域,特别是一种基于随机子空间集成学习的主动脉夹层筛查模型及其建立方法、系统和模型。

背景技术

主动脉夹层是临床上一种比较少见的急症,它的发病过程是主动脉腔内血液从在主动脉压力下从主动脉内膜破口进入主动脉壁内,然后在主动脉壁中形成夹层血肿,并延主动脉纵轴扩展形成”双腔主动脉”。这是一种非常凶险的心血管疾病,该疾病在发病的最初24小时内每小时的死亡率为1%~2%,一周内死亡率高达60%~70%,大多数没有经过治疗的患者都会在一年内死亡。

目前主动脉夹层的诊断方法主要是影像学方法和超声波方法。包括ct扫描、ct血管造影、超声心电图、磁共振血流成像数字、减影血管造影术等。这些方法都各有其优点和缺点。ct扫描速度相对较快,无创,但是如果患者血流动力学不稳定,这种技术就不适用。ct血管造影的准确率很高,欧洲心脏病学会推荐多层螺旋ct血管造影作为对疑似急性病人的第一道检查,但是ct血管造影需要使用潜在的肾毒性造影剂,并且会使检查者暴露在电离辐射下。超声心电图具有简单、操作方便的优点,即使在病床上也能够完成,但它的缺点是明显的,也就是准确率不太高。磁共振血流成像具有仅比ct血管造影低少许的准确率,并且它的造影剂相对于ct血管造影的造影剂对肾脏的毒性较弱,并且没有电离辐射,但是缺点包括它在幽闭恐惧症患者或身体中有金属设备患者群体中的应用有限。既往认为减影血管造影术(dsa)是主动脉夹层诊断的黄金标准,但是该检查会造成创伤并且一般都在手术中进行,另外存在操作步骤复杂、价格高昂、而且很可能会引起并发症。

随着电子病历的普及,我们拥有了越来多的关于患者的有价值的数字信息。如今,从数据中获取有用知识的知识收集和数据挖掘过程被认为是必要的。如果在病人诊断的过程中利用机器学习技术,则可以自动地计算出多种疾病的患病概率并及时给医生提供指导,这样将有效地降低病人的误诊率和漏诊率,并且极大地减轻了患者的经济负担。将机器学习应用到医疗诊断中已经不算什么新鲜事了,例如,曾经将机器学习算法用到了缺血性心脏病诊断中,也将机器学习应用到肺癌的预测中,等等。但是,目前还没有使用机器学习算法对主动脉夹层进行诊断和预测的研究。

本发明的目的就是利用患者的血常规检查、体格检查等检查项目及生活习惯、家族遗传病史、个人既往病史等数据训练基于随机子空间集成学习的rs模型,用以进行主动脉夹层疾病的诊断、筛查和预测。

名词解释:easyensemble集成模型:即简单集成分类器模型。



技术实现要素:

本发明所要解决的技术问题是,针对现有传统诊断方法对于主动脉夹层诊断的效率低、误诊率高、漏诊率低、成本高、过程复杂的缺点,提供一种基于随机子空间集成学习的主动脉夹层筛查方法。该方法利用机器学习的rs-ensemble算法建立rs模型,利用rs模型进行主动脉夹层的筛查和诊断,大大提高了诊断准确率,同时大大降低了误诊率和漏诊率,实现高效低成本的诊断。

为了实现上述目的,本发明所采用的技术方案是:

一种基于随机子空间集成学习的主动脉夹层筛查方法,包括以下步骤:

步骤一)、获得患者的基础信息;

步骤二)、提取基础信息的部分项作为样本特征;

步骤三)、根据确诊结果对是否为主动脉夹层患者的基础信息进行正负样本标定,得到样本数据;

步骤四)、利用随机子空间集成学习算法对得到的样本数据进行训练,得到训练好的分类模型——rs模型;

步骤五、用训练好的rs模型对新的患者进行分类,实现主动脉夹层的诊断和筛查。

进一步的改进,通过医学常规检查提取患者的基础信息。

进一步的改进,所述步骤四中随机子空间集成学习算法为将随机子空间与简单集成算法进行优化,利用随机子空间改进样本的特征空间的集成算法。

进一步的改进,步骤四)中利用随机子空间集成学习算法对得到的样本数据进行训练,得到rs模型的步骤包括:

步骤一、若样本的正例集合为p,为少数类集合,反例集合为n,为多数类集合,即|n|>>|p|,|n|表示集合n的基数,即集合n中元素的个数,将n分成t个子集,对于子集ti,|ti|=|p|,且将ti和p取并集得到集合tsi(i=1,2...t);φ表示空集,i和λ均为下标序列号;

步骤二、设样本的特征空间为s,样本特征数目为k,easyensemble简单集成分类器的个数为m,随机子空间系数为α;

步骤三、从样本的特征空间中随机采样k*α数目的特征创建特征子空间sj(j=1,2...m);j为下标序列号;

步骤四、选取特征子空间sj的特征对集合tsi进行投影,得到新的集合ts'j,i,即

k为下标序列号;其中п表示投影操作,s1,s2,...,sk∈sj;

步骤五、使用ts'j,i训练adaboost分类器si;

步骤六、i从1到t,重复步骤三、四、五t次,得到t个不同的adaboost分类器si(i=1,2...t),i表示下标序列号;

步骤七、将t个adaboost分类器求算术平均得到一个easyensemble集成模型:

hj表示easyensemble集成模型结果,hj为0表示患者未患有主动脉夹层,hj为1表示患者患有主动脉夹层;round()表示round函数返回一个数值,该数值是按照指定的小数位数进行四舍五入运算的结果;

步骤八、j从1到m,重复步骤二、三、四、五、六、七m次,得到m个不同的easyensemble集成模型hj(j=1,2...m);

步骤九、从m个easyensemble模型中选取按照f-measure衡量指标从大到小排列的前m/2个模型进行算术平均,得到最终模型rs模型:

h(x)表示rs模型的结果,h(x)为0表示患者未得主动脉夹层,h(x)为1表示患者患有主动脉夹层;m表示easyensemble集成模型的个数,j表示easyensemble集成模型的序列号,hj表示第j个easyensemble集成模型。

进一步的改进,所述正例集合即具有主动脉夹层的病人样本的集合;反例集合为不具有主动脉夹层的病人样本的集合。

一种基于随机子空间集成学习的主动脉夹层筛查模型的建立方法,包括如下步骤:

步骤一)、获得患者的基础信息;

步骤二)、提取基础信息的部分项作为样本特征;

步骤三)、根据确诊结果对是否为主动脉夹层患者的基础信息进行正负样本标定,得到样本数据;

步骤四)、利用随机子空间集成学习算法对得到的样本数据进行训练,得到训练好的分类模型——rs模型。

进一步的改进,步骤四)中利用随机子空间集成学习算法对得到的样本数据进行训练,得到rs模型的步骤包括:

步骤一、若样本的正例集合为p,为少数类集合,反例集合为n,为多数类集合,即|n|>>|p|,|n|表示集合n的基数,即集合n中元素的个数,将n分成t个子集,对于子集ti,|ti|=|p|,且将ti和p取并集得到集合tsi(i=1,2...t);φ表示空集,i和λ均为下标序列号;

步骤二、设样本的特征空间为s,样本特征数目为k,easyensemble简单集成分类器的个数为m,随机子空间系数为α;

步骤三、从样本的特征空间中随机采样k*α数目的特征创建特征子空间sj(j=1,2...m);j为下标序列号;

步骤四、选取特征子空间sj的特征对集合tsi进行投影,得到新的集合ts'j,i,即

k为下标序列号;

其中п表示投影操作,s1,s2,...,sk∈sj;

步骤五、使用ts'j,i训练adaboost分类器si;

步骤六、i从1到t,重复步骤三、四、五t次,得到t个不同的adaboost分类器si(i=1,2...t),i表示下标序列号;

步骤七、将t个adaboost分类器求算术平均得到一个easyensemble集成模型:

hj表示easyensemble集成模型结果;round()表示round函数返回一个数值,该数值是按照指定的小数位数进行四舍五入运算的结果;

步骤八、j从1到m,重复步骤二、三、四、五、六、七m次,得到m个不同的easyensemble集成模型hj(j=1,2...m);

步骤九、从m个easyensemble模型中选取按照f-measure衡量指标从大到小排列的前m/2个模型进行算术平均,得到最终模型rs模型:

h(x)表示rs模型的结果;m表示easyensemble集成模型的个数,j表示easyensemble集成模型的序列号,hj表示第j个easyensemble集成模型。

一种基于随机子空间集成学习的主动脉夹层筛查系统,包括数据输入单元、数据计算单元和数据输出单元;数据输入单元用于输入病人的基础信息,数据计算单元用于计算病人是否患有主动脉夹层,数据输出单元用于输出数据计算单元的输出结果;其中数据计算单元采用的计算模型为:h(x)表示取值为0或1,取值为0时表示未患有主动脉夹层,取值为1表示患有主动脉夹层,小于0.5时h(x)取值为0,否则取值为1;m表示easyensemble集成模型的个数,j表示easyensemble集成模型的序列号,hj表示第j个easyensemble集成模型;m个不同的easyensemble集成模型hj(j=1,2...m)。

进一步的改进,还包括模型建立单元,模型建立单元用于建立和改进数据计算单元的计算模型;模型建立单元建立模型步骤为:步骤一)、获得患者的基础信息;

步骤二)、提取基础信息的部分项作为样本特征;

步骤三)、根据确诊结果对是否为主动脉夹层患者的基础信息进行正负样本标定,得到样本数据;

步骤四)、利用随机子空间集成学习算法对得到的样本数据进行训练,得到训练好的分类模型——rs模型即数据计算单元适应的计算模型;步骤四)中利用随机子空间集成学习算法对得到的样本数据进行训练,得到rs模型的步骤包括:

步骤一、若样本的正例集合为p,为少数类集合,反例集合为n,为多数类集合,即|n|>>|p|,|n|表示集合n的基数,即集合n中元素的个数,将n分成t个子集,对于子集ti,|ti|=|p|,且将ti和p取并集得到集合tsi(i=1,2...t);φ表示空集,i和λ均为下标序列号;

步骤二、设样本的特征空间为s,样本特征数目为k,easyensemble简单集成分类器的个数为m,随机子空间系数为α;

步骤三、从样本的特征空间中随机采样k*α数目的特征创建特征子空间sj(j=1,2...m);j为下标序列号;

步骤四、选取特征子空间sj的特征对集合tsi进行投影,得到新的集合ts'j,i,即

k为下标序列号;

其中π表示投影操作,s1,s2,...,sk∈sj;

步骤五、使用ts'j,i训练adaboost分类器si;

步骤六、i从1到t,重复步骤三、四、五t次,得到t个不同的adaboost分类器si(i=1,2...t),i表示下标序列号;

步骤七、将t个adaboost分类器求算术平均得到一个easyensemble集成模型:

hj表示easyensemble集成模型结果;round()表示round函数返回一个数值,该数值是按照指定的小数位数进行四舍五入运算的结果;

步骤八、j从1到m,重复步骤二、三、四、五、六、七m次,得到m个不同的easyensemble集成模型hj(j=1,2...m);

步骤九、从m个easyensemble模型中选取按照f-measure衡量指标从大到小排列的前m/2个模型进行算术平均,得到最终模型rs模型:

h(x)表示rs模型的结果;m表示easyensemble集成模型的个数,j表示easyensemble集成模型的序列号,hj表示第j个easyensemble集成模型。

一种基于随机子空间集成学习的主动脉夹层筛查模型,所述模型如下所示:h(x)表示模型的结果;m表示easyensemble集成模型的个数,j表示easyensemble集成模型的序列号,hj表示第j个easyensemble集成模型;m个不同的easyensemble集成模型。

步骤一)中基础信息包括患者的血常规检查、生化全套检查、凝血常规检查等的检查结果以及患者是否吸烟、是否喝酒、是否有高血压、是否有过外伤的信息。

步骤二)中提取的作为样本特征的部分项如表一所示。

表一

rs模型的框架图如图1所示。

对于模型的评估方法,使用f-measure值和auc值。

因为获取的数据集是极度不平衡的,因此采用不平衡评价指标来评价模型。分类器对一个样本的输出结果有四种可能,评价指标就是建立在这四种可能的输出之上的,而这四种可能的输出构成了一个混淆矩阵对混淆矩阵的解释是:如果一个样本是正例,分类器输出也是正例,那么这算是一个tp;如果一个样本是正例,分类器输出是反例,这就是fn;如果一个样本是反例,分类器输出也是反例,这就是tp;如果一个样本是反例,分类器输出是正例,这就是fp。

召回率就是对于某一类样本,正确识别的样本数占该类样本总数的比例。召回率的计算公式如下所示。

(recall)r表示召回率,tp表示正确识别的样本,fn表示错误识别的样本。

准确率可以理解为所有预测为正例的样本中真正正例所占的比例:

(precision)p表示准确率,tp表示预测为正例的样本数,fp为为反例的样本数。

由于单一的准确率和召回率不能说明问题,所以才有了f-measure作为衡量指标。f-measure是准确率和召回率的调和平均值,它的值介于准确率和召回率之间:

f即f-measure表示衡量指标,r即(recall)r,p即(precision)p。

auc的全称是areaundercurve,这里的曲线说的就是roc曲线,如图2所示。roc曲线图是一种对分类器的性能做可视化的技术,由于只用精确度来评价分类器的性能是不够的,所以目前roc在机器学习中得到了广泛的应用。此外,roc由于其对类不平衡不敏感的特性而在类别不平衡的领域受到了重视。

在图2中的纵坐标truepositiverate是召回率(recall或tpr),横坐标falsepositiverate是误报率(falsealarmrate/fpr),也就是在所有预测为反例的样本中正例的比例。误报率的公式如下:

fp表示所有预测为反例(预测错误)的样本数,tn表示所有预测为正例(预测正确)的样本。

在图中,左下角的(0,0)点将所有的样本预测为反例;右上角的(1,1)点将所有的样本预测为正例;左上角的(0,1)点将所有的样本准确预测;右下角的点(1,0)错误预测所有的点,也就是将正例预测为反例,将反例预测为正例。auc指的就是图中的曲线下方的面积,当曲线是(0,0)和(1,1)两点间的直线是auc为0.5,此时表示分类器为随机分类器。为了保证模型足够好,需要曲线向左上偏移,也就是auc的值越接近1越好。

基于以上评价指标,本发明采用以上两个指标f-measure值和auc值评价模型的优劣。

与现有技术相比,本发明所具有的有益效果为:本发明利用随机子空间集成学习的方法去进行主动脉夹层的筛查、预测和诊断,为医生提供了有效的辅助诊断,减轻了医生负担,提高了工作效率;同时,利用机器模型进行诊断,大大提高了诊断的准确率,降低了诊断的误诊率和漏诊率,降低了患者检查成本,也克服了传统诊断手段可能具有其他伤害和副作用的弊端。

附图说明

图1rs模型结构图

图2评价模型效果的roc曲线图

具体实施方式

为进一步说明本发明的实施过程,现采用以下实验来验证本发明的有益效果:

本实验采用的数据集来自于湘雅一医院,该数据集包括收集的53213位患者的信息作为样本,主动脉患者总人数为802人,非患者52411人,即正例样本802个,反例样本52411个,正例与反例样本之比为1:65,提取到85个指标作为样本特征。

1)将数据集分成7个大小相似的互斥子集,每个子集尽可能保证分布一致性,即从数据集中分层采样得到,每次用其中6个子集的并集作为训练集,余下那个子集作为测试集,进行7次训练和测试;

2)在训练集中,设少数类即病人样本为p,多数类即非病人样本为n,|p|<<|n|,样本特征空间为s,样本特征数目为85,,随机子空间系数为0.5,训练一个rs模型h(x)的迭代次数为50,即简单集成分类器easyensemble的个数为50;

3)将n分成65个子集,对于子集ti,|ti|=|p|,且将ti和p取并集得到集合tsi(i=1,2,...,65);

4)从样本的特征空间中随机采样42个特征s1,s2,...,s42创建特征子空间sj(j=1,2,...,50);

5)j=0;

6)j=j+1;

7)i=0;

8)i=i+1;

9)选取特征子空间sj的特征对集合tsi进行投影,得到新的集合ts'j,i,即

其中π表示投影操作,s1,s2,...,s42∈sj;

10)使用ts'j,i训练adaboost分类器si;

11)重复8)、9)、10)直到i=65;

12)将65个adaboost分类器求算术平均得到一个easyensemble集成模型hj,其中

13)重复6)、7)、8)、9)、10)、11)、12)直到j=50;

14)从50个easyensemble模型中选取最好的m/2个模型进行算术平均,得到最终模型rs模型h(x),其中

15)使用rs模型h(x)测试测试集;

16)将7次测试结果平均,返回测试结果。

17)返回步骤3),重复执行5次,即得到一个五次七折交叉验证结果。

rs_easyensemble算法构建的rs模型无论是在auc值和fmeaure值上均取得了很高值,auc=0.8520,fmeaure=0.5511,远远优于其他模型的结果。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1