一种出血转化预测系统的制作方法

文档序号:14475821阅读:525来源:国知局
一种出血转化预测系统的制作方法

本发明涉及医疗技术领域,尤其涉及一种出血转化预测系统。



背景技术:

脑梗死是全球主要公共卫生问题之一,其发病率、致死率、致残率及复发率高,且临床治疗手段有限。其中静脉溶栓治疗是近20年在缺血性脑卒中临床治疗手段上的一项重大突破,可有效降低死亡及致残率。但是静脉溶栓治疗是一种高风险的治疗手段,在治疗的同时可能伴随着溶栓后出血转化的症状,有些出血可加重神经功能损害,甚至危及生命,出血转化也是静脉溶栓治疗手段无法进一步推广的重要原因之一。具体地,在临床救治过程中,静脉溶栓有严格的时间限制,只有发病4.5小时以内符合静脉溶栓条件的急性脑梗死患者才可以进行该项治疗,所谓“符合静脉溶栓条件”即指发生出血转化的风险较低或者基本没有出血转化危险。因此,对于出血转化风险的预判直接关系到医生与患者的沟通及对治疗的决策把握。

现有技术中对于出血转化的预测通常依据一些相关的临床研究来决定,例如譬如年龄、血糖、发病时的临床神经功能等。同时也会有相关的临床评分表来辅助临床医生对出血转化的可能性进行预判,例如溶栓后出血评分、多中心卒中调查预测评分、sits评分、grasps评分以及sedan评分等。但是这些评分表基本都是基于医生的诊疗经验或者是使用了简单的逻辑回归而得到的,使用价值和相应的精确性都有待检验。可以参照《五种预测模型在中国人群溶栓后出血预测应用中的比较》一文中,对不同的评分模型的性能进行了比较。其中grasps评分性能最优,但是其受试者工作特征曲线(receiveroperatingcharacteristiccurve,roc)所对应的auc值仅有0.7056,其工作性能仍然有待提升。并且,上述临床提示相对独立,评分表也相对简单,基本都只涵盖了几项临床上可能对预后影响较大的因素,而不会对患者的临床相关因素进行综合评判,亦缺乏个体化评判。



技术实现要素:

根据现有技术中存在的问题,现提供一种出血转化预测系统的技术方案,旨在降低静脉溶栓治疗过程中出血转化情况的发生概率,从而降低临床风险和相应的医疗费用。

上述技术方案具体包括:

一种出血转化预测系统,其中,包括:

获取单元,用于获取多条训练用患者数据,每条所述训练用患者数据中包括多个训练用病情特征;

模型生成单元,连接所述获取单元,用于根据多条获取的所述训练用患者数据生成一用于对出血转化进行预测的预测模型,所述模型生成单元进一步包括:

特征选择模块,用于对所述训练用患者数据中的所述训练用病情特征进行选择;

特征分类模块,连接所述特征选择模块,用于对被选择的所述训练用病情特征进行特征分类;

模型训练模块,连接所述特征分类模块,用于根据经过分类的所述训练用病情特征训练形成所述预测模型;

采集单元,用于采集得到实际患者数据;

预测单元,分别连接所述采集单元和所述模型生成单元,用于将所述实际患者数据送入训练形成的所述预测模型中,以输出对应的预测结果。

优选的,该出血转化预测系统,其中,所述特征选择模块中进一步包括:

第一特征选择部件,用于采用cm特征选择方式对所述训练用病情特征进行选择;

第二特征选择部件,用于采用封装模型特征选择方式对所述训练用病情特征进行选择;

第三特征选择部件,用于采用过滤模型特征选择方式对所述训练用病情特征进行选择;

选择控制部件,分别连接所述第一特征选择部件、所述第二特征选择部件和所述第三特征选择部件,用于根据所述训练用病情特征之间的对应关系选择启用所述第一特征选择部件或者所述第二特征选择部件或者所述第三特征选择部件。

优选的,该出血转化预测系统,其中,所述特征分类模块采用随机森林模型的方式对所述训练用病情特征进行分类。

优选的,该出血转化预测系统,其中,所述特征分类模块采用支持向量机的方式对所述训练用病情特征进行分类。

优选的,该出血转化预测系统,其中,所述特征分类模块采用logistic回归或者感知器的方式对所述训练用病情特征进行分类。

优选的,该出血转化预测系统,其中,所述特征分类模块采用adaboost算法对所述训练用病情特征进行分类。

优选的,该出血转化预测系统,其中,还包括:

数据处理单元,连接在所述获取单元和所述模型生成单元之间,用于对所述训练用患者数据进行预设处理,以实现所述训练用患者数据的数据均衡;

所述预设处理为:采用过采样和/或多元支持向量机算法的方式对所述训练用患者数据进行处理。

优选的,该出血转化预测系统,其中,还包括:

数据处理单元,连接在所述采集单元和所述模型生成单元之间,用于对所述训练用患者数据进行预设处理,以实现所述训练用患者数据的数据均衡;

所述预设处理为:采用过采样的方式对所述训练用患者数据进行处理;和/或

采用代价敏感损失函数对所述训练用患者数据进行处理;和/或

采用代价敏感学习率对所述训练用患者数据进行处理。

优选的,该出血转化预测系统,其中,所述模型生成单元中还包括:

风险评级模块,连接所述模型训练模块,所述风险评级模块根据获取的所述训练用患者数据进行风险等级离散化处理,以形成一组风险评级的参照离散点,作为所述模型训练模块训练形成所述预测模型时的参考数据。

上述技术方案的有益效果是:提供一种出血转化预测系统,能够降低静脉溶栓治疗过程中出血转化情况的发生概率,从而降低临床风险和相应的医疗费用。

附图说明

图1是本发明的较佳的实施例中,一种出血转化预测系统的总体结构示意图;

图2是本发明的较佳的实施例中,特征选择模块的具体结构示意图;

图3是本发明的较佳的实施例中,特征选择模块的具体工作原理示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。

随着科学技术的不断发展,一些机器学习算法也被应用到了对出血转化进行预测的过程中,即利用一些机器学习算法来实现对出血转化的预测,从大量的非结构化的数据中识别出人类难以识别的模式。已有的对溶栓出血风险预测仅仅只是将溶栓治疗和出血转化对应的数据库输入给了一个固定的机器学习模型,没有针对医学数据的特征对算法进行改进,没有考虑数据的不均衡、数据特征之间可能存在的关联关系以及医生的先验诊断给数据集带来的影响,因此模型的预测水准较为一般,比如在14年h.asadi等人的研究中,模型虽然精确性达到了70%但是其召回率接近于零,预测的auc值也仅有0.6左右。这些预测模型的设计系统都是固定的,参数都是基于对之前的数据库内数据训练得到的,对新进入的患者数据没有设计自更新功能。随着时间的推移,这些系统预测的准确性会有明显的下降。

基于现有技术中存在的上述问题,现提供一种出血转化预测系统,该预测系统应用于对静脉溶栓治疗过程中可能产生的出血转化状况进行预测。

具体地,上述出血转化预测系统中具体如图1所述,包括:

获取单元1,用于获取多条训练用患者数据,每条训练用患者数据中包括多个训练用病情特征;

模型生成单元2,连接获取单元1,用于根据多条获取的训练用患者数据生成一用于对出血转化进行预测的预测模型,模型生成单元2进一步包括:

特征选择模块21,用于对训练用患者数据中的训练用病情特征进行选择;

特征分类模块22,连接特征选择模块21,用于对被选择的训练用病情特征进行特征分类;

模型训练模块23,连接特征分类模块22,用于根据经过分类的训练用病情特征训练形成预测模型;

采集单元3,用于采集得到实际患者数据;

预测单元4,分别连接采集单元3和模型生成单元2,用于将实际患者数据送入训练形成的预测模型中,以输出对应的预测结果。

具体地,本实施例中,上述获取单元1可以连接一外部的数据库,或者远程连接一服务端,并通过数据库或者远程的服务端获取预先准备好的训练用患者数据。当然,上述训练用患者数据也可以通过用户设置的方式直接输入到获取单元1中。

本实施例中,上述训练用患者数据中包括多个训练用病情特征,这些训练用病情特征都是一些物理意义明确的特征,因此不需要系统再从训练用患者数据中进行特征提取。所谓物理意义明确的特征,可以为根据历史记录中的一些患者的病历信息中的一些基本信息例如年龄和性别等,进行术前体征检查的一些检查信息,以及进行静脉溶栓治疗后是否有出血转化情况的相关信息(无出血转化、轻微出血或者严重出血)等。

本实施例中,上述获取单元1在获取数据后,需要对数据进行预处理,具体地需要筛选掉训练用患者数据中存在缺失或者明显有错误的数据条目,并且对连续型数据进行标准化处理。进一步地,上述数据预处理的过程可以由用户手动执行,也可以由系统根据预设的一些筛选规则自动执行,例如预设训练用患者数据的数据填充模板,并根据该模板来对训练用患者数据进行匹配,以判断训练用患者数据中是否存在数据缺失的情况,以及根据模板中不同填充位的数据格式来对其进行匹配,判断训练用患者数据中是否存在数据明显错误的情况。

本实施例中,上述模型生成单元2中,在进行预测模型的训练生成之前,首先需要对特征进行选择。之所以需要进行特征选择,是因为在数据集大小、特征维度以及特征属性不同的情况下,不同的训练用病情特征的选择框架都会有不同的性能以及各自适宜使用的环境,因此需要在训练模型之前对特征进行选择,以将不同的特征放置到最适合的特征选择框架中,体现其最佳的测试效果。具体的特征选择方法在下文中会详述。

本实施例中,经过特征选择之后,需要采用特征分类模块22对经过选择的训练用病情特征进行分类。上述特征分类模块22可以采用分类器实现,经过特征分类后的训练用病情特征就可以应用到模型训练的过程中。

本实施例中,采用与现有技术中类似的方式,根据特征训练得到相应的预测模型,在此不再赘述。

本实施例中,训练得到的预测模型就可以应用到实际的出血转化预测的过程中。具体地,按照预测模型的输入要求采集病患的实际数据并送入预测模型中,经过预测模型的预测后就能够得到用于表示该病患经过静脉溶栓治疗后出现出血转化的可能性的预测结果。医生可以将该预测结果作为参考信息与患者之间进行沟通以及制定相关的诊疗计划等,从而降低临床风险,节约医疗费用。

本发明的较佳的实施例中,如图2中所示,特征选择模块21中进一步包括:

第一特征选择部件211,用于采用cm特征选择方式对训练用病情特征进行选择;

第二特征选择部件212,用于采用封装模型特征选择方式对训练用病情特征进行选择;

第三特征选择部件213,用于采用过滤模型特征选择方式对训练用病情特征进行选择;

选择控制部件214,分别连接第一特征选择部件211、第二特征选择部件212和第三特征选择部件213,用于根据训练用病情特征之间的对应关系选择启用第一特征选择部件211或者第二特征选择部件212或者第三特征选择部件213。

本实施例中,上述第一特征选择部件211、第二特征选择部件212以及第三特征选择部件213即分别表示系统的三种不同的特征选择框架,其可以由计算机系统实现自动的训练和测试。

具体地,第一特征选择部件211采用的是cm特征选择方式(conservativemeanfeatureselection)对训练用病情特征进行选择。cm特征选择方式主要针对单个特征进行选择,其提供了一种采样提高特征选择稳定性的方案。具体地,cm特征选择方式中利用了单调函数映射情况下auc值不变的特性,使用k-foldvalidation来计算对于某一个特定的特征和分类结果的auc值。随后,对于这k个auc值,再求取其平均值μ和标准差α。最后通过比较(μ-α)的值来选择最佳的多个训练用病情特征组成特征子集。

上述第二特征选择部件212采用的是封装模型特征选择方式(wrapper)对训练用病情特征进行选择。第三特征选择部件213采用的是过滤模型特征选择方式(filter)对训练用病情特征进行选择。这两种特征选择方式中,需要考虑的是它们的评估函数和搜索算法。在本技术方案中,对于这两种特征选择方式,提供了包括前向搜索、反向搜索、遗传算法以及穷举搜索等多种搜索算法。并且对于封装模型特征选择方式,采用cfs框架(correlation-basedfeatureselection)学习算法输出的auc值作为其评估函数。对于过滤模型特征选择方式,采用symmetricaluncertainty、relief以及最小描述长度作为其评估函数。

本实施例中,采用一个选择控制部件214来控制上述三种特征选择框架的运行。具体地,如图3中所示,选择控制部件214首先根据训练用病情特征之间的关联关系进行判断:

1)若关联关系较为简单,则选择控制部件214直接选择启用第一特征选择部件211,即采用cm特征选择方式对训练用病情特征进行选择;

2)若关联关系较为复杂,则选择控制部件214选择较为传统的另两种特征选择框架。进一步地,若获取到了足够多的数据,则选择控制部件214选择启用第二特征选择部件212,即采用封装模型特征选择方式对训练用病情特征进行选择;

3)若获取到的数据量较少,则选择控制部件214选择启用第三特征选择部件213,即采用过滤模型特征选择方式对训练用病情特征进行选择。

本发明的较佳的实施例中,上述特征分类模块22采用随机森林模型的方式对训练用病情特征进行分类。

具体地,对于随机森林模型,可以在系统中直接使用scikit-learn学习库中的randomforestclassifier。因为随机森林的每课决策树在训练的过程中就等同于在做特征选取,因此采用随机森林模型进行特征分类的过程中无需对特征选取算法进行额外的考虑。在交叉验证(crossvalidation)的过程中直接对需要调整的参数进行网格搜索,最后确定在auc值最优的情况下其各个参数值即可。

本发明的较佳的实施例中,上述特征分类模块22采用支持向量机的方式对训练用病情特征进行分类。

具体地,对于传统的支持向量机(supportvectormachine,svm)而言,使用的为python3.6下的libsvm库。其中,用作衡量性能的auc值考量的是数据点到最优超平面的距离值与最后分类之间的关系。

而对于多元支持向量机(multivariatesvm)而言,可以用auc值作为预测标签和真实标签之间的损失函数。使用的核都为线性核,并且不考虑过采样的处理,以及使用c语言编写的svm-perf库。

在实际处理过程中,可以根据实际情况选择不同种类的支持向量机、相对应的特征选择算法以及数据均衡处理方法(下文中会详述),输出当前最佳的svm模型。

本发明的较佳的实施例中,上述特征分类模块22采用logistic回归或者感知器的方式对训练用病情特征进行分类。

具体地,采用logistic回归的方式时,其训练过程中需要对比不同的特征选择方案以及数据均衡处理方法(下文中会详述)。本技术方案中,针对logistic回归采用的是python3.6下的theano框架。

采用感知器的方式时,在感知器的设计方面,特征选取以及单隐层感知器适当的非线性设计能够使得感知器模型对当前数据集具有较好的拟合效果。并且考虑到目前训练用患者数据的数据集大小有限,感知器的隐层数目也不宜过多,否则反而会引来更多的误差。

对于感知器的一些超参数,可以采用交叉验证来确定。更进一步地,可以根据实际情况选择适宜使用的特征选择和数据均衡处理方法(下文中会详述)。同样地,本技术方案中,针对感知器也采用python3.6下的theano框架。

本发明的较佳的实施例中,上述特征分类模块22采用adaboost算法对训练用病情特征进行分类。

具体地,在adaboost算法中,每个弱分类器都被设计成较为简单的感知器模型。其中弱分类器的个数可以由交叉验证来确定。上述adaboost算法也主要通过python3.6下的theano框架实现。

本发明的较佳的实施例中,仍然如图1中所示,上述出血转化预测系统具体还包括:

数据处理单元5,连接在获取单元1和模型生成单元2之间,用于对训练用患者数据进行预设处理,以完成以下目标:筛选明显存在错误的患者数据、对缺失数据进行填充、实现训练用患者数据的数据均衡。

具体地,在输入特征缺失方面,对于现有的多数据中心数据集,由于每个数据中心记录的特征都有所侧重,因此存在一定量的数据缺失。本发明采用的缺失处理方案为missingindicate方案,以避免平均数填充或者中位数填充对数据集的准确性带来负面的影响。在目标分类均衡方面,对于现有的患者数据而言,其最终发生出血转化的训练样本和未发生出血转化的训练样本之间的占比非常不均衡,发生症状性出血的样本可能仅占未发生出血样本的1/20左右,导致整个训练样本的数据集出现了数据不均衡的问题。因此,系统需要对数据集进行一些数据均衡处理,以避免采用不均衡的数据集对模型进行训练导致最终的预测模型输出不准确的问题。

进一步地,针对特征分类模块22所采用的不同的特征分类方法(即不同的分类器),上述预设处理(即系统采用的数据均衡处理方法)也有所不同,具体为:

1)当特征分类模块22采用支持向量机的方式对特征进行分类时,上述数据处理单元5中采用的预设处理如下:

①过采样,采用过采样的方式对训练用患者数据进行数据均衡处理。具体地,随机采样一系列的少类样本(即有症状性出血的训练用患者数据,下文中不再详述),以使不同类型所对应的样本数量相近。

②使用多元支持向量机算法进行分类,并用auc值替代错误率来更新支持向量机。

2)当特征分类模块22采用logistic回归或者感知器的方式对特征进行分类时,上述数据处理单元5中采用的预设处理如下:

①采用过采样的方式对训练用患者数据进行数据均衡处理。具体地,随机采样一系列的少类样本,以使不同类型所对应的样本数量相近。

②采用代价敏感损失函数替代系统中使用的一般的损失函数,以加大对少类样本错判的惩罚力度。

③使用代价敏感学习率替代系统中使用的一般的学习率,使得对于少类样本的学习率更高,对于多类样本(即没有症状性出血的训练用患者数据,下文中不再详述)的学习率更低。在这种情况下,模型的参数针对少类样本进行更新的步长要大于多类样本。

本发明的较佳的实施例中,仍然如图1中所示,上述模型生成单元2中还包括:

风险评级模块24,连接模型训练模块23,风险评级模块24根据获取的训练用患者数据进行风险等级离散化处理,以形成一组风险评级的参照离散点,作为模型训练模块训练形成预测模型时的参考数据。

具体地,系统针对风险等级离散化提供了两种方案:

在系统数据库内数据比较匮乏,数据质量还不是很理想的情况下,系统使用无监督的等频数离散化方案。等频数离散化作用在训练集上,可以获得一组连续数据离散点。这一组离散点是后续为患者作风险评级的时候的参照点;

在系统数据库内数据比较充足并且数据质量可以得到一定保证的情况下,系统使用有监督的最小化信息熵离散化方案。这种方案作用在训练集上,通过训练集不同分组的信息熵之和,使得不同分组组间出血样本占总样本的比率的差异尽可能大,进而也生成一组可以用于新来患者风险分级参照的离散点。

上述两种风向等级离散化方案的分级的有效性可以通过威尔科克森符号秩检验(wilcoxon秩和检验)进行验证。系统选择检验过程中z值偏离原点更大的方案所生成的离散点作为预测部分的参照点。

以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1