一种测定用于分类的危险评分的系统和方法_4

文档序号:9475218阅读:来源:国知局
.册〇1182):高频功率。(0.15-〇.4赫兹)
[0165] 5.LFnorm(nu):归一化LF功率:LFnorm=LF/ (TP-VLF)X100%
[0166] 6.HF norm(nu):归一化HF功率:HF norm=HFATP-VLF)X100%
[0167] 7.LF/HF:LF与HF之比
[0168] 之后将提取得到的参数提供给中央处理单元104,以用于进一步处理。
[0169] 综上所述,分类系统100利用上述信息和参数来确定相关的加权分类器,通过疾 病状态输入106、生理数据输入110、十二导联心电图机器112、ECG提取模块116以及HRV 提取模块150获得上述信息和参数,相关的加权分类器与用于测定ACS的信息和/或参数 的重要性有关。
[0170] 以件病人的数据的收集
[0171] 还可以通过本实施方式的分类系统100访问积累以往病人数据的数据库。该数据 库位于中央数据服务器108,分类系统100的中央处理器104可访问该数据库。提供由中央 处理器104运行的集成评分系统160,它利用积累的以往的病人的数据训练机器学习结构, 通过该结构,可以做出可靠的判定。
[0172] 在本公开中,从送至医院急诊部门的具有未分化的和非创伤性胸痛的病人开始对 以往的病人的数据进行整理。排除非窦性心律的病人(如心跳停止、室上性和室性心律失 常、完整的心脏传导阻滞)、违反医嘱出院的病人或在被送至急诊部门后72小时内被转送 至另一医院的病人。经过培训的医务人员对急诊部门的符合条件的胸痛病人进行随机筛选 和接收。
[0173] 这项研究的结果为到达急诊部门后72小时内出现严重并发症的汇总,从电子的 医院记录中提取该研究结果。如果病人有下列严重并发症中的至少一个,则被视为已满足 上述结果:全因死亡、心脏骤停、持续性室性心动过速(VT)、需要正性肌力药物或主动脉内 球囊反搏(IABP)插入的低血压、气管插管或机械通风、完整的心脏传导阻滞和需要插入起 搏导线的心动过缓。
[0174] 由本分类系统100记录和提取的数据参数包括上面列出的参数中的任何一个或 所有参数,以及任何其他未列出的但可协助ACS评估的参数。此外,过去访问急诊部门的病 人的结果也可被利用,为各种数据参数提供参考。
[0175] 随着计算技术的进步,人们已经发现机器学习对评分系统是有用的,可提高预测 性能、处理不平衡数据和增强系统的适应性。本公开提供集成评分系统160,其中一个目的 是提供一种智能评分系统,结合HRV、十二导联心电图参数和生命体征,在72小时内为有胸 痛症状的危重病人预测急性心脏并发症。本实施例的评分系统160采用了一种独特的机器 学习结构,通过该结构,可以作出可靠的判定。
[0176] 对以往病人的数据进行整理和研究,发现结果分布是极度不平衡的。不平衡数据 被定义为存在具有正常数据的多数类和异常数据的少数类,在这种情况下,72小时内病人 会出现急性心脏并发症。当应用机器学习算法处理不平衡数据集时,该多数类将主导学习 的过程,从而推广未知的测试样本的能力较差。处理不平衡数据的常用的解决方案包括欠 采样多数类和过采样少数类。然而,从收集的数据中观察到的发病率是相当低的(〈5%)。 这样一来,不论是现有的分类技术或传统的不平衡处理策略都不能提供令人们满意的预测 结果。为了采用HRV参数、十二导联心电图参数和生命体征提供可靠的预测,专门为不平衡 数据定制适合的学习框架是非常重要的,并且适合的学习框架将作为控制系统性能的一个 主要因素。
[0177] 申请人先前已经提出了一种基于几何距离的评分系统,其输入是连续变量,其适 用于各参数,如心率、血压、呼吸频率和其他生理学数据输入,甚至是从ECG中提取得到的 HRV参数。在本公开中,十二导联心电图参数被纳入评分模型;然而,这些测量是以离散的 格式存在,即0或1。其结果是,需要新的、能够处理连续和离散变量输入的评分系统。
[0178] 在计算机器学习分数前,原来的输入应该通过最小一最大(min-max)归一化被分 在[-1,1]区间内。设数据集X=[Xpx2, ? ? ?,xk],其中每个x代表一个病人,minjPmaxA 表示属性矢量A= [Xl(m],…,xk(m)]的最小值和最大值,其中m是要素的数量(在本实施 例中,m为十二导联心电图参数、HRV参数和被用作分类器的生命体征的总数),K是以往病 人数据样本的总数。通过计算以下等式,在[min'A,max'J内,最小-最大归一化将A中的 v映射为V' :
[0179] (2)
[0180] 值得注意的是,归一化处理能够保持原始数据值之间的关系,因此这有助于集成 评分系统160中的基于机器学习的危险评分预测。
[0181] 做出总体决策
[0182] 在医学界,对医疗从业者来说,在做出最终决定之前,寻求第二意见或进一步的意 见是一种很好的做法。通过咨询一些有不同背景的专家,医生可以掂量一下自己的决定或 选择最明智的建议。例如,资深临床医师给予的建议会比初级医生的更有分量。在病危的 情况下,最后的决定可能通过专家委员会的讨论给出结果,甚至由表决决定。鉴于人们对能 尽可能地与真实世界紧密联系地进行操作的愿望,智能计算方法努力模拟许多专家的决策 过程。这样的智能学习系统有不同的名称,如集成学习系统、混合专家和多分类系统。
[0183] 这些技术背后的原理是发现一种最佳的方式来结合个别专家的建议,从而实现可 靠的最终决定。图4A示出了集成学习系统的总体结构。在这个结构中,每个独立的专家可 被看作为一个分类器164。图4A中,分类器"七指分类器1,分类器164 ,指分类器t,分类 器16\指分类器T。类似功能的类似特点也用类似的数字标识。在本实施例中,每个专家 也指向一个参数,它可以为观察病人的ACS评估。每个集成分类器提供了权重以表示该分 类器的重要性。在本公开中,权重由其相应的分类器的贡献来确定,并从训练过程得到,即 分类器的权重与特定参数在ACS评估中的关联性相关。
[0184] 常用的集成学习方法通常会输出预测标签而不是分数。然而,正如前面提到的,在 做出决策时,对临床医生来说,风险评分比分级标签更有用。在本公开中,简单的集成评分 或危险评分168作为系统的预测输出。
[0185] 在本实施例中,从分类系统100和集成评分系统160访问训练数据集162。用L表 示训练数据集162,包括K个样本(xk,yk)其中,k= 1,2,...,1(,715是分级标签。假设将中 央处理器104的分类系统100获得的测试数据166中引入的测试样本x应用在新入病人身 上,可以通过单一分类器f:(3C,:U预测标签y,其中分级标签是QSCi。在本公开中,标 签C。表示病人是正常的(负的ACS结果),而标签Ci表明在72小时内该病人有急性心脏 并发症(正的ACS结果)。如图4A中,从输入参数中获得一组独立的T分类器,以及从样品 训练数据集162中确定它们相应的权重。使用如下等式计算样本x的危险评分168 :
[0186]
[0187] 其中分类器軌(X:,L)的输出为〇或1,其对应的预测标记y分别是C。或C1<3
[0188] 基于加权的阳性预测和加权阴性预测测定危险评分。加权阳性预测被定义为预测 标签(^的分类器的权重的总和,而加权阴性预测被定义为预测测试样本x的标签为C。的 分类器的权重的总和。集成评分系统160的学习机器的原理是试图模拟真实世界的决策过 程。由于本公开内容解决了上述参数和分类器为二进制类的问题,可以按照下面的等式简 化危险评分的计算。
[0189]
(4)
[0190] 此外,在本公开中,期望可以确定如何选择创建集成决策的合适的独立分类,并确 定用于组合决定的有用的方法。在大多数医学场景中,解决上述问题是困难的,因为数据库 通常是不平衡的,即,阳性样本远远小于阴性样本。例如在预测急性心脏并发症时,以往病 人的数据中阳性样本小于5%。在本公开中,提出了两个集成评分系统的实施例一一采用欠 样本方法的第一系统,用于计算危险评分,以及包括混合采样算法的第二系统。
[0191] 集成评分系统1--USS
[0192] 图4B示出了利用欠采样方法来计算危险评分的第一评分系统。在本实施例中,集 成评分系统160是一个基于欠采样的应用欠采样技术的评分系统(USS) 161。USS用于预测 不平衡数据集的危险评分。作为一个输入,训练数据集163 (或L)提供了一组少数类样本P 和一组多数类样本N,还有确定数量的独立分类器T。t用作确定分类器165t的标记,其中 t = 1,…,T〇
[0193] 在本实施例中,欠采样方法随机地对N进行采样得到子集Nt,其中|Nt|〈|N|。在大 多数医疗情景中,|P| << |N|使得|Nt| = |P|被选中,其中P表示一组阳性结果的样本, N代表一组阴性结果的样本。将所得样本合并,以提供平衡数据集S,其中St=P+Nt。
[0194] 此后,USS随机对T子集进行采样,对于每个分类器St,用队和P训练T个独立的 分类器。随后建立一个分类模型St。关于创建合适的分类模型更详细的信息,可参考本发 明人的题为"智能评分系统及其在心脏停搏预测中的应用"的文章(刘楠等人,2012年11 月,IEEE,信息技术在生物医学中的应用),其全部内容通过引用结合在本申请公开中。将 这种分类模型Sts用于在来自测试数据166的新入的测试样本X,以产生0或1的预测输出 (pt{\,S,)a
[0195] 在本实施例中,假定所有的T个独立的分类器对决策有相同的贡献,并且分类器 釣的权重值具有wt值并被设置为1。在其他实施例中,可以评估各分类器科的权重值,然 后提供一个数值,以反映关于病人的ACS评估的参数或分类器的重要性。
[0196] 其他一些现有的集成学习方法将所有分类器输出合并为一个复合预测。然而,在 本公开中,可计算阳性预测和阴性预测的总数,式(4)被用于估算危险评分,即危险评分预 测为x:
[0197] 这种危险评分作为USS161的输出或总体 分数169。
[0198] 在本公开中,支持向量机(SVM)作为基于集成学习的评分系统中的一个独立分类 器。SVM实现了一个概念上简单的想法,即输入向量非线性地映射到高维特征空间,在其中 构建一个线性决定超平面以用最大边距分离输入向量。
[0199] 图5A是USS161的算法的框图500。在本实施方式的第一处理框502中,用t标 记测定的分类器165t,其中t= 1,...,T。在第二处理框504中,先通过合并?和队创建 平衡数据集St,其中Nt是选自N的随机取样,P和Nt有相同数量的样本。
[0200] 在下一处理框506中,基于St建立分类模型取。在处理框508中,假定所有的T独 立分类器对决策有相同的贡献,并且wt值被设置为1。
[0201] 重复处理框502至508,以获得所有的分类模型_:,:将各自对应的wt设定为1。在 处理框510中,将分类模型应用于新入的测试样本X,以产生0或1的预测输出扒(X,叉)。
[0202] 在接下来的处理框512,用式⑷为新入测试数据x预测危险评分:
这种危险评分作为USS161的输出或总体分数169。
[0203] 集成评分系统2--HSS
[0204] 图4C所示为本发明另一实施方式的应用混合采样法的第二评分系统。在上述的 USS161中,采用随机欠采样的方法在多数类样本中选择子集。系统USS161使用的选择方 法提供了一个无人监管的策略,探索出一个数据样本的多数类,即,可能不对每个分类器的 性能进行测定,即使某些独立分类器对集成决策做出的贡献比较少。因此,在第二个实施方 案中,提供了一种监督独立分类器的选择的策略,使得可以构建一个具有很强的鉴别能力 的、稳健的集成决策。
[0205] 在本实施例中,集成评分系统是一种基于混合采样的评分系统(HSS) 260,同时应 用了欠采样技术和过采样技术。现有技术中智能机器学习系统一般使用过采样数据,以提 高训练。在本实施例中,应用过采样技术来生成用于验证独立分类器的合成数据,以便为选 择更相关的分类器提供一个分层结构,以做出集成决策。
[0206] 类似地,提供输入,其中训练数据集262提供一组少数类样本P和一组多数类样本 N,其中,|P| << |N|。也有T个独立分类器,和J个用于优化的独立分类器。T和J是独 立的变量。T定义了集成数,J定义用于优化的独立分类器的数量。从J个分类器中选择每 个分类器,以创建包括T个分类器的集成。
[0207] 图5B是HSS260的算法的框图550。本实施方式的第一处理框552中,t用来标 识确定的分类器264t,其中t= 1,. . .,T。J用来标识确定的优化分类器265_j,其中j= 1,...,J。在第二处理框554中,先通过合并P和化创建平衡数据集S^,其中化是选自N 的随机样本,P和具有相同数量的样本。
[0208] 接下来处理框556中,通过合并P'和队j'创建合成数据集Sij',其中对P应用SMOTE 获得P',对Ntj应用SMOTE获得Ny。SMOTE表示合成少数类过抽样技术,在本领域中用于 构建来自不平衡数据集的分类器。
[0209] 在SMOTE中,通过获取每个数据样本及沿着连接任意数量/所有的最相邻的K样 本类的线段执行合成操作,对类数据集,通常是少数类,进行过采样,其中k是基于要求的 过采样数量而预先设定的一个变量。例如,如果过采样所需的数量为200%,从五个最相邻 的样本类中选择2个相邻的样本类,在各自的方向上产生一个样本。在生成合成样本时,在 〇和1之间选择一个随机数,随后将随机数被增与考虑中的样本矢量相加。如此可以沿着两 个特定特征形成的线段选择随机点,通常在讨论少数类与多数类的比较时,这可有效地使 得类数据集的判决区域变得更普遍。
[0210] SMOTE可提供合成样本,合成样本促使分类器创建较大的和不大具体的判决区域, 而不是较小的和较具体的区域。总的结果是使得决策树更一般化。在本实施例中,将SMOTE 应用于包括的样本数量等于少数类集的两个数据集P和Nt],以获得新的合成数据集S' t], 其中S'tJ=P' +N' t]〇
[0211] 在接下来的处理框558中,基于SlS建立分类模型<Py。基于Si/验证训练模型物。 将分类模型啊产生的预测精度存储为Acct]。
[0212] 重复执行处理框552至558,以获得每个分类模型产生的预测精度,直至J个用于 优化的分类器都已被处理。
[0213] 在处理框560中,具有最高预测精度ACCtj^数据集St]被选择为第一平衡数据集 Si,它的权重Wl被设置为对应的预测准确度Acctj。
[0214] 在接下来的处理框562中,基于Si建立/训练分类模型(Pw将受过训练的分类模 型觀应用于新入测试样本x,以产生0或1的预测输出妁。在另一实施方式中,先 前建立的可产生预测精度的分类模型被重新使用。
[0215] 重复执行处理框552至562,以获得每个经过加权和排序的分类模型科产生的预 测输出,直至T个分类器都已被处理。特别地,基于早期获得的预测精度,按照下列顺序对 平衡数据集进行排序:Si,S2,…,St,…,ST,其
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1