一种病例分组方法、装置、电子设备及存储介质与流程

文档序号：23423134发布日期：2020-12-25 11:49阅读：150来源：国知局

本发明涉及医疗技术领域，尤其涉及一种病例分组方法、装置、电子设备及存储介质。

背景技术：

目前医保支付方式改革主要涉及按疾病诊断相关分组(diagnosisrelatedgroups，以下简称为drgs)付费和基于大数据的病种(bigdatadiagnosis-interventionpacket，以下简称为dip)分值付费两种基金支付方式。

drgs支付和dip支付两种付费方式本质上都以出院患者信息为基础，综合考虑患者的主要诊断和主要治疗方式，但相比于drgs支付，dip支付具有推进速度快，推广阻力小的优势。dip支付分为三个层次，首先根据病种组合目录将病例分到病种层级，其次利用疾病严重程度辅助目录反映疾病严重程度，最后利用违规行为监管辅助目录对医院违规行为进行监管。

但由于dip分组所需要的数据相对简单，主要是使用病例中主要诊断和主要操作的组合。利用疾病严重程度辅助目录反映疾病严重程度，仅能够考虑单个诊断的影响，无法考虑多个诊断复合作用的影响，损失了部分疾病信息，导致疾病的严重程度判断不够精确。

因此，如何提供一种病例分组方法、装置、电子设备及存储介质，有效解决基于辅助目录判断疾病严重程度精度不高的问题，能够实现在不同的疾病治疗分类下识别出病例填写的诊断与费用变异程度的关系，实现用病例的所有诊断来评价每个病例的疾病的严重程度，提高对疾病严重程度判断的精确度，成为亟待解决的问题。

技术实现要素：

本发明实施例提供一种病例分组方法、装置、电子设备及存储介质，用以解决现有技术中的病例分组方法不够精确的缺陷。

本发明实施例提供一种病例分组方法，包括：

确定待分组病例的疾病治疗大类，获取第一疾病治疗大类的数据；其中，所述第一疾病治疗大类为待分组病例所在的疾病治疗大类，是基于待分组病例的主诊断类型和主手术类型得到的；

根据所述第一疾病治疗大类的数据，计算所述待分组病例的cci指数；

确定所述待分组病例的费用影响特征；其中，所述费用影响特征为对待分组病例的医疗费用的影响高于预设阈值的特征；

将待分组病例的cci指数和费用影响特征输入病例分组模型中，确定所述待分组病例所在的dip疾病严重程度分组；其中，

所述病例分组模型是基于样本病例的cci指数以及费用影响特征训练得到的。

上述技术方案中，所述病例分组模型是基于cart决策回归树模型训练得到的；其中，

所述病例分组模型包括多棵决策树；所述多棵决策树中的任意一棵决策树各自与一个疾病治疗大类相对应；

相应的，将待分组病例的cci指数和费用影响特征输入病例分组模型中，确定所述待分组病例所在的dip疾病严重程度分组，包括：

将待分组病例的cci指数和费用影响特征输入与第一疾病治疗大类对应的决策树，确定所述待分组病例所在的dip疾病严重程度分组。

上述技术方案中，所述根据所述第一疾病治疗大类的数据，计算所述待分组病例的cci指数，包括：

计算所述待分组病例中的各个诊断的dcl值；

对所述待分组病例中的各个诊断按照dcl值从大到小进行排序，按照排序结果计算所述待分组病例的cci指数；其中，

计算所述待分组病例的cci指数的公式为：

其中，ccis是待分组病例的cci指数；dcl(x1；a)≥dcl(x2；a)≥…≥dcl(xn；a)；r为预设的第一衰减系数。

上述技术方案中，所述计算所述待分组病例中的各个诊断的dcl值，包括：

计算第一诊断在包含有i个诊断的病例中的相对费用，所述相对费用为具有i个诊断并且包含第一诊断的所有病例的平均费用与具有i-1个诊断的病例的平均费用估计值的相对比例值；其中，所述第一诊断为所述待分组病例中的任意一个诊断，所述包含有i个诊断的病例为第一疾病治疗大类中的病例；i为大于1的自然数；

根据第一诊断在包含有i个诊断的病例中的相对费用，计算第一诊断的平均相对费用；

根据所述第一诊断的平均相对费用，计算第一诊断的dcl值。

上述技术方案中，所述根据第一诊断在包含有i个诊断的病例中的相对费用，计算第一诊断的平均相对费用，包括：

检测第一疾病治疗大类中包含第一诊断的病例的数量，当病例数量少于预先设置的阈值，从与所述第一诊断相近的诊断和/或与所述第一疾病治疗大类相近的疾病治疗大类中获取新的病例以扩展包含第一诊断的病例；

根据扩展后的包含第一诊断的病例，计算第一诊断的平均相对费用。

上述技术方案中，方法还包括：

确定样本病例的疾病治疗大类，获取所述样本病例的疾病治疗大类数据；

基于所述样本病例的疾病治疗大类数据，得到所述样本病例的cci指数；

确定所述样本病例的费用影响特征；

基于所述样本病例的cci指数以及费用影响特征，训练得到病例分组模型。

上述技术方案中，所述基于所述样本病例的cci指数以及费用影响特征，训练得到病例分组模型，包括：

基于所述样本病例的cci指数以及费用影响特征，对cart决策回归树模型进行训练，得到病例分组模型；其中，

所述病例分组模型包括多棵决策树；所述多棵决策树中的任意一棵决策树各自与一个疾病治疗大类相对应。

上述技术方案中，方法还包括：

通过后剪枝的方法对所述病例分组模型进行修正；具体包括：

对于任一疾病治疗大类所对应的决策树，在一个节点下的两个分支，如果裁剪后病例数小于预设的最小病例阈值，或相邻病组裁剪后高费用组的均费不超过低费用组均费的预设的第一倍数，则合并该节点；

在跨节点下的两个相邻分支，如果裁剪后病例数小于预设的最小病例阈值，或相邻病组裁剪后高费用组的均费不超过低费用组均费的预设的第一倍数，则合并相邻分支。

上述技术方案中，所述cart决策回归树模型的深度设置为2；所述cart决策回归树模型中的叶子结点所含病例的最小数量为40。

上述技术方案中，所述基于所述样本病例的疾病治疗大类数据，得到所述样本病例的cci指数包括：

根据样本病例的疾病治疗大类数据，为各个疾病治疗大类计算各自的费用估计模型；所述费用估计模型的表达式为：

a代表疾病治疗大类的标识，ci(a)表示估计得到的疾病治疗大类a中诊断数量为i的所有病例的几何平均费用，参数a表示疾病治疗大类a的基准费用，参数b表示疾病治疗大类a的变化参数，参数r表示第二衰减系数；所述参数a、参数b以及参数r的取值通过数据拟合得到；

计算样本病例中的诊断的dcl值；

根据样本病例中的诊断的dcl值，计算第一衰减系数的值；包括：

将样本病例中的诊断的dcl值代入如下公式：

其中，c代表病例的总费用，dcl1—dcln代表样本病例中所有诊断的dcl值按从大到小排序，参数a、参数b为所述费用估计模型中的参数a和参数b；r为第一衰减系数；将样本病例的数据纳入公式，得到所有疾病治疗大类中r值的最小二乘最佳估计；

根据样本病例中的诊断的dcl值以及第一衰减系数的值，计算样本病例的cci指数。

本发明第二方面实施例提供一种病例分组装置，包括：

疾病治疗大类数据获取模块，用于确定待分组病例的疾病治疗大类，获取第一疾病治疗大类的数据；其中，所述第一疾病治疗大类为待分组病例所在的疾病治疗大类，是基于待分组病例的主诊断类型和主手术类型得到的；

cci指数计算模块，用于根据所述第一疾病治疗大类的数据，计算所述待分组病例的cci指数；

特征提取模块，用于确定所述待分组病例的费用影响特征；其中，所述费用影响特征为对待分组病例的医疗费用的影响高于预设阈值的特征；

dip疾病严重程度分组划分模块，用于将待分组病例的cci指数和费用影响特征输入病例分组模型中，确定所述待分组病例所在的dip疾病严重程度分组；其中，

所述病例分组模型是基于样本病例的cci指数以及费用影响特征训练得到的。

本发明第三方面实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面实施例所述病例分组方法的步骤。

本发明第四方面实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述病例分组方法的步骤。

本发明实施例提供的病例分组方法、装置、电子设备及存储介质，通过样本病例的cci指数以及费用影响特征训练得到的病例分组模型，在不同的疾病治疗分类下识别出病例填写的诊断与费用变异程度的关系，从而将病例的所有诊断转化成cci指数来判断每个病例的疾病严重程度，将待分组病例划分到相应的dip疾病严重程度分组中，实现了dip疾病严重程度分组的自动实现，避免了人为干扰，也提高了dip疾病严重程度分组的准确性，实现了病种的严重程度的细分。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的病例分组方法的流程图；

图2为本发明另一实施例提供的病例分组方法的流程图；

图3为本发明实施例提供的病例分组装置的示意图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在对本发明实施例做详细说明之前，首先对本发明实施例中所涉及的相关概念进行说明。

ecc(episodeclinicalcomplexity，病例临床复杂)：用于测算病例的临床复杂程度模型技术。

dcl(diagnosiscomplexitylevel，诊断复杂程度)：用于测算诊断的复杂程度。

cci(comorbidityandcomplicationindex，合并症及并发症指数)：用于对有多个严重程度较高的并发症/合并症病例复杂程度的数字化度量。cci指数的计算源于ecc模型技术。

图1为本发明实施例提供的病例分组方法的流程图，如图1所示，本发明实施例提供的病例分组方法包括：

步骤101、确定待分组病例的疾病治疗大类，获取待分组病例所在疾病治疗大类的数据。

在本发明实施例中，待分组病例为待分组的住院病例，该病例在住院治疗的过程中会产生一系列的数据，如性别、年龄、住院天数、主诊断、次要诊断以及费用等。其中，主诊断是指患者在住院期间对健康危害最严重，花费医疗精力最多，住院时间最长的诊断。次要诊断是指需要临床评估、治疗或诊断性处置，会延长住院天数、增加护理照护的诊断。例如，一个病例的主诊断是“z51.100肿瘤化学治疗疗程”，次要诊断是“c90.000多发性骨髓瘤”和“e11.900ii型糖尿病”。主诊断与次要诊断都可以采用诊断编码来表示。

基于上述信息，可确定待分组病例的疾病治疗大类。具体的，主诊断类型分为肿瘤和非肿瘤两类，主手术类型分为手术，治疗性操作，诊断性操作和内科共四类。将主诊断和主手术类型分别做笛卡尔积，确定一共有8个疾病治疗大类。

疾病治疗大类所包含的数据包括：多个病例(包括待分组病例)的数据；其中，每个病例的数据又包括该病例的性别、年龄、住院天数、主诊断、次要诊断以及费用等信息。

步骤102、根据待分组病例所在的疾病治疗大类的数据，计算待分组病例的cci指数。

在本发明实施例中，根据待分组病例所在的疾病治疗大类的数据，为待分组病例中所包含的各个诊断计算dcl值，然后根据所述dcl值为同属于待分组病例的所有诊断进行排序，根据排序结果计算待分组病例的cci指数。

具体的说，包括以下步骤：

步骤1021、计算待分组病例中的诊断的dcl值。

dcl值反映了诊断在所在疾病治疗大类下的复杂程度。

计算诊断的dcl值，具体包括以下步骤：

步骤1021-1、计算某一诊断x在包含有i个诊断的病例中的相对费用。

具体的说，此处的相对费用是指：具有i个诊断数并且包含诊断x的所有病例的平均费用与具有i-1个诊断数的病例的平均费用估计值的相对比例值。

其中，具有i个诊断数并且包含诊断x的所有病例的平均费用可从待分组病例所在的疾病治疗大类中获取。具有i-1个诊断数的病例的平均费用估计值可通过预设的与疾病治疗大类对应的费用估计模型获取。

所述费用估计模型假定一个疾病治疗大类中诊断数量为i的所有病例的几何平均费用满足乘数衰减规律，所述费用估计模型的表达式为：

在上述的费用估计模型中，a代表疾病治疗大类的标识，ci(a)表示估计得到的疾病治疗大类a中诊断数量为i的所有病例的几何平均费用，参数a表示疾病治疗大类a的基准费用，参数b表示疾病治疗大类a的变化参数，参数r表示第二衰减系数。

参数a、参数b以及参数r的取值可通过数据拟合得到，在本发明的其他实施例中，将对如何通过样本数据拟合参数a、参数b以及参数r的数值的过程进行说明。在本发明实施例中，参数a、参数b以及参数r为已知值。

不同的病治疗大类所对应的费用估计模型中的参数取值可能是不同的。因此，在本发明实施例中，采用待分组病例所在疾病治疗大类对应的费用估计模型计算具有i-1个诊断数的病例的平均费用估计值。

例如，在待分组病例所在的疾病治疗大类a中，包含诊断x的所有病例共如下4例：

表1

根据预设的与疾病治疗大类对应的费用估计模型，假设计算出疾病治疗大类a中，共2个诊断的病例预估总费用为9000，共1个诊断的病例预估总费用为6000。

结合表1中的数据，可知：

共有3个诊断的病例中，诊断x的

共有2个诊断的病例中，诊断x的

步骤1021-2、计算诊断x的平均相对费用。

在计算出某一诊断x在包含有i个诊断的病例中的相对费用后，计算出该诊断x的平均相对费用。

一般来说，计算诊断x的平均相对费用是要计算诊断x在所在疾病治疗大类中、所有诊断数下的平均相对费用。

在一个疾病治疗大类中，包含有诊断x的病例的个数是一个有限集合，为这有限个病例的诊断x的相对费用计算平均值，所得到的结果就是诊断x在所在疾病治疗大类中、所有诊断数下的平均相对费用。

仍以之前的例子为例：

其中，c(x,a)为诊断x在疾病治疗大类a中、所有诊断数下的平均相对费用。

步骤1021-3、计算诊断的dcl值。

在得到诊断x的平均相对费用后，通过标准化可得到诊断的dcl值。标准化公式如下：

其中，b为前述费用估计模型中的变化参数。

需要说明的是，在计算诊断的dcl值之前，为了避免重复计算，可以先将病例中的重复诊断删除。考虑到dip分组本身已经到病种层级，以及同一亚目层级的诊断在疾病严重程度上的相似性，为了提升cci指数的稳定性，将诊断保留至亚目层级，在本实施例中除特殊说明，诊断均指的是诊断亚目层级。

其中，诊断亚目为icd-10(国际疾病分类，internationalclassificationofdiseases，简称icd)的前四位编码，4位亚目码是3位码的亚分类，具有统计分类意义，例如：急性阑尾炎伴腹膜脓肿k35.1。

步骤1022、计算待分组病例的cci指数。

在得到待分组病例中的各个诊断的dcl值后，可以根据诊断的dcl值计算待分组病例的cci指数。

首先，将待分组病例中的所有诊断按dcl值从大到小进行排列，排列后的表达式为：

dcl(x1；a)≥dcl(x2；a)≥…≥dcl(xn；a)；

其中，n表示待分组病例中所包含的诊断的数量。

然后，根据排序结果计算待分组病例的cci指数。计算cci指数的计算公式为：

其中，r为第一衰减系数。

第一衰减系数r的数值在所有的疾病治疗大类中都是统一的。在本发明实施例中，第一衰减系数r的数值是预先计算得到的，在本发明的其他实施例中，可通过样本病例数据计算第一衰减系数r的数值。

例如，一条病例有两个诊断，主诊断是z51.1肿瘤化学治疗疗程(dcl＝3)，次要诊断是c90.0多发性骨髓瘤(dcl＝2)和e11.9非胰岛素依赖型糖尿病不伴有并发症(dcl＝1)，被分到肿瘤手术iii组和/或其他手术类型。那么该条病例的cci指数为：

ccis(e)＝3+2*r+1*r²；

衰减系数r用于调整多重诊断中关于它们个体贡献的减弱贡献。

步骤103、确定待分组病例的费用影响特征。

参考dip技术操作规范，将患者的年龄、住院天数、cci指数和患者是否死亡作为费用影响特征。

具体的说，根据待分组病例所对应患者的年龄，确定患者的年龄分段。例如，假设预先将患者的年龄分为“0到17岁(含17岁)”，“17到60岁(含60岁)”以及“60岁以上”三个年龄段。根据待分组病例所对应患者的年龄，可确定其所在的年龄段。由此，可将患者的年龄转换成年龄段的分类字段。该分类字段也就是待分组病例的年龄特征信息。

根据待分组病例所对应患者的住院天数，确定患者住院天数的区间。例如，假设预先将患者的住院天数分为“小于等于30天”以及“大于30天”两个区间。根据待分组病例所对应患者的实际住院天数，将患者的住院天数转换成住院天数的分类字段。该分类字段也就是待分组病例的住院天数特征信息。

计算待分组病例的年龄特征信息与医疗费用之间的第一相关系数，计算住院天数特征信息与医疗费用之间的第二相关系数，若计算得到的第一相关系数和/或第二相关系数超过预设的阈值，则将满足阈值的第一相关系数和/或第二相关系数作为费用影响特征。步骤104、将待分组病例的cci指数和费用影响特征输入病例分组模型中，得到待分组病例所在的dip疾病严重程度分组。

在本发明实施例中，病例分组模型是基于样本病例的cci指数以及费用影响特征训练得到的。

在本发明实施例中，病例分组模型已经预先训练完成，可直接使用该模型确定待分组病例所在的dip疾病严重程度分组。在本发明的其他实施例中，将对病例分组模型的训练过程做进一步说明。

本发明实施例提供的病例分组方法利用样本病例的cci指数以及费用影响特征训练得到的病例分组模型，在不同的疾病治疗分类下识别出病例填写的诊断与费用变异程度的关系，从而将病例的所有诊断转化成cci指数来判断每个病例的疾病严重程度，将待分组病例划分到相应的dip疾病严重程度分组中，实现了dip疾病严重程度分组的自动实现，避免了人为干扰，也提高了dip疾病严重程度分组的准确性，实现了病种的严重程度的细分。

基于上述任一实施例，在本发明实施例中，所述计算诊断x的平均相对费用，包括：

检测待分组病例所在疾病治疗大类中包含诊断x的病例的数量，当病例数量少于一预先设置的阈值，从相近的诊断或相近的疾病治疗大类中获取新的病例以扩展诊断x的病例；

根据扩展后的诊断x的病例，计算诊断x的平均相对费用。

在本发明实施例中，在计算诊断x的平均相对费用时，还要考虑包含诊断x的病例的数量。

本领域技术人员很容易理解，当病例数量太少时，计算结果的稳定性就会存疑。因此在本发明实施例中，将疾病治疗大类包含诊断x的病例的数量与一个预先设置的阈值(如阈值大小为100)进行比较，如果病例数量小于所述阈值，那么就需要从相近的诊断或相近的疾病治疗大类中寻找新的病例来填补诊断x的病例。

在本发明实施例中，是否相近的划分主要基于两个维度：诊断维度和疾病治疗大类维度。

其中诊断维度分成3个层级，从上至下范围越来越大：

1、满足同诊断类目下(诊断编码前3位相同)的所有诊断

2、满足同分类编码下的所有诊断

3、满足诊断编码前1位相同的所有诊断

疾病治疗大类维度分成3个层级，从上至下范围越来越大：

1、当前疾病治疗大类

2、内科组、非内科组

3、所有疾病治疗大类

扩展的时候优先在诊断维度扩展，扩展至最大层时再扩展疾病治疗大类维度。在找到相近诊断后，利用包含相近诊断的病例来填补诊断x的病例。但如果填补后，病例数量仍然小于预设的阈值，那么还需要从相近的疾病治疗大类中寻找新的病例。

在本发明实施例中，具体的扩展顺序可用下面的表2表示：

表2

在表2中，数字越小，代表扩展的优先级越高。

在扩展与诊断x相关的病例数量后，根据扩展后的病例计算诊断x的平均相对费用，诊断相对费用的计算是通过不断扩充样本量直到达到临界值的迭代计算过程。

例如，假设在疾病治疗大类a下，诊断x涉及的病例数只有4条(小于阈值100例)，因此需要对该结果作填补。首先将诊断扩展到同一个默认疾病治疗大类下同类目诊断，假设扩展后的病例有200个(包括先前的4个)，那么在196个额外的病例中(即200-4)，选取其中的96个病例用于形成估算的集合。这96个额外的病例，它们每个病例的平均相对费用等于200个病例的几何均值c1。那么，最终计算得到的诊断x的平均相对费用为：

其中，c(x,a)为病例扩展前，诊断x的平均相对费用；为病例扩展后，诊断x的平均相对费用。

假设在同类目诊断扩展后的病例仍<100例，则进一步扩展到下一层，不断迭代，直到扩展后的病例达到100例再求均值。

相应的，计算诊断的dcl值的标准化公式也相应变化为：

其中，b为前述费用估计模型中的变化参数。

本发明实施例提供的病例分组方法在计算待分组病例的cci指数时，若包含待分组病例中某一诊断的病例数量过少时，通过从相近的诊断或相近的疾病治疗大类中获取新的病例来补充病例数量，以提高计算结果的稳定性。

基于上述任一实施例，图2为本发明另一实施例提供的病例分组方法的流程图，如图2所示，本发明另一实施例提供的病例分组方法包括：

步骤201、确定样本病例的疾病治疗大类，获取样本病例的疾病治疗大类数据。

在本发明实施例中，样本病例是已经发生的住院病例，即历史住院病例。这些样本病例在住院治疗的过程中会产生一系列的数据，如性别、年龄、住院天数、主诊断、次要诊断以及费用等。基于样本病例的相关数据，可将样本病例分配到相应的疾病治疗大类。如何将样本病例分配到相应的疾病治疗大类是本领域技术人员的公知常识，因此不在此处重复说明。

一个疾病治疗大类中包括有多个临床特征与医疗资源消耗相近的病例。一个疾病治疗大类所包含的数据包括：多个病例的数据；其中，每个病例的数据又包括该病例的性别、年龄、住院天数、主诊断、次要诊断以及费用等信息。

在本发明实施例中，所获取的样本病例有多个，这些样本病例会被分配到不同的疾病治疗大类中，因此可获取多个疾病治疗大类的数据。

作为一种优选实现方式，获取样本病例的疾病治疗大类数据后，为了避免异常值数据对后续操作的影响，从中剔除费用过高或过低的病例数据；和/或，鉴于dip疾病严重程度分组适用于短期住院病例，从样本病例的疾病治疗大类数据中剔除住院天数过长的病例数据；和/或，从样本病例的疾病治疗大类数据中剔除对费用没有影响的诊断数据。

步骤202、基于样本病例的疾病治疗大类数据，得到各个样本病例的cci指数。

在本发明实施例中，根据样本病例的疾病治疗大类数据，为第一样本病例(所述第一样本病例为任意一个样本病例)中的各个诊断计算dcl值，然后根据dcl值为同属于第一样本病例的所有诊断进行排序，根据排序结果计算第一样本病例的cci指数。

具体的说，包括以下步骤：

步骤2021、根据样本病例的疾病治疗大类数据，为各个疾病治疗大类计算各自的费用估计模型。

在本发明实施例中，所述费用估计模型假定一个疾病治疗大类中诊断数量为i的所有病例的几何平均费用满足乘数衰减规律，所述费用估计模型的表达式为：

参数a、参数b以及参数r的取值可通过数据拟合得到，即：将疾病治疗大类中每条样本病例的费用、诊断数纳入模型，从而得到三个参数的最佳估计。

参数a、参数b以及参数r的取值通过数据拟合确定后，所述费用估计模型即可确定。每一个疾病治疗大类会有各自对应的费用估计模型。根据该模型，可得到不同的诊断数下总平均费用的估计值。

步骤2022、计算样本病例中的诊断的dcl值。

计算诊断dcl值的具体实现过程在之前的本发明实施例中已经有详细说明，因此不在此处重复。

步骤2023、根据样本病例中的诊断的dcl值，计算第一衰减系数的值。

在后续计算样本病例的cci指数时，需要使用第一衰减系数。第一衰减系数用于调整多重诊断中关于它们个体贡献的减弱贡献。

第一衰减系数可用r表示，其大小在所有的疾病治疗大类中都是统一的。可通过诊断的dcl值预先计算出第一衰减系数r的大小。具体的说，将诊断的dcl值代入如下模型：

其中，c代表病例的总费用，dcl1—dcln代表样本病例中所有诊断的dcl值按从大到小排序，参数a、参数b为前述费用估计模型中的参数a和参数b。将所有数据纳入模型得到所有疾病治疗大类中r值的最小二乘最佳估计，作为cci指数计算中用到的统一的衰减系数。

步骤2024、计算样本病例的cci指数。

在得到样本病例中的各个诊断的dcl值后，可以根据诊断的dcl值计算样本病例的cci指数。

首先，将样本病例中的所有诊断按dcl值从大到小进行排列，排列后的表达式为：

dcl(x1；a)≥dcl(x2；a)≥…≥dcl(xn；a)；

其中，n表示样本病例中所包含的诊断的数量。

然后，根据排序结果计算样本病例的cci指数。计算cci指数的计算公式为：

其中，r为第一衰减系数，其大小已经在前一步骤中得到。

ccis(e)＝3+2*r+1*r²；

衰减系数r用于调整多重诊断中关于它们个体贡献的减弱贡献。

步骤203、基于样本病例的疾病治疗大类数据，得到各个样本病例的费用影响特征。

在本发明实施例中，除了样本病例的cci指数外，还可以从样本病例的疾病治疗大类数据中筛选对费用影响较大的特征。

基于医学经验，可以知道年龄、住院天数对住院总费用的影响较大。年龄和住院天数是一个连续性变量，在一个实例中，可将年龄划分成三类，分别为“0—17岁”、“17—60岁”和“60岁以上”；住院天数根据是否大于30天，分为“0-30天”以及“大于30天”这两类。经过处理之后这两个连续性特征变成类别特征。

在每个疾病治疗大类中，计算年龄分布以及住院天数分布和总费用之间的相关性，得到这两个特征和住院总费用的相关系数。给定相关系数的阈值，将满足阈值的特征纳入决策树模型。

步骤204、基于各个样本病例的cci指数以及费用影响特征，生成病例分组模型。

在本发明实施例中，病例分组模型是基于cart决策回归树模型生成的。

具体的说，对于每个疾病治疗大类，基于该疾病治疗大类中所包含的样本病例的cci指数和费用影响特征，调用cart决策回归树模型对总费用进行拟合，得到两层的cart回归树。cart假设决策树是一个二叉树，它在每一层分化的时候，会遍历每一个特征的每一个取值进行二分，并计算划分后叶节点上的均方差，然后将均方差最小的特征和特征值作为当前节点的分化依据。然后再利用分化依据对疾病治疗大类进一步细分。

例如，对于“肿瘤手术组”，经过第一层分析后，基于cci指数是否小于4.07分成2个组；第二层分析中，对cci小于或等于4.07的组中，按cci是否小于1.908分成2个组，对cci大于4.07的组中，按cci是否小于6.646分成2个组，因此最终肿瘤手术组共分成4个dip疾病严重程度分组。

需要说明的是，在基于cart决策回归树模型生成病例分组模型时，需要考虑以下因素：

(1)决策树的深度。cart决策回归树需要提前设定树的深度，如果不加限定很容易过拟合，导致一个疾病治疗大类分成很多组的情况。基于实际情况，因为特征数较少，通常深度不会设置很高。如果设定树的深度为1，决策树通常分为2组dip疾病严重程度分组；如果设定深度为2，则决策树通常分为4组dip疾病严重程度分组。考虑到如果直接选深度为1，可能会过于简单而欠拟合，因此决定采用深度为2，再进行后剪枝得到合适的组数。

(2)叶子结点中的病例最小数量。因为最终分到的dip疾病严重程度分组病例数太少不稳定，因此设定决策树每个叶子结点的病例数量>40例。

步骤205、确定待分组病例的疾病治疗大类，获取待分组病例所在疾病治疗大类的数据。

步骤206、根据待分组病例所在的疾病治疗大类的数据，计算待分组病例的cci指数。

步骤207、确定待分组病例的费用影响特征。

步骤208、将待分组病例的cci指数和费用影响特征输入病例分组模型中，得到待分组病例所在的dip疾病严重程度分组。

本发明实施例提供的病例分组方法计算样本病例的cci指数以及获取样本病例的费用影响特征，通过所述样本病例的cci指数以及费用影响特征训练病例分组模型，将待分组病例划分到相应的dip疾病严重程度分组中，实现了dip疾病严重程度分组的自动实现，避免了人为干扰，也提高了dip疾病严重程度分组的准确性。

基于上述任一实施例，在本发明实施例中，在生成病例分组模型的步骤之后，所述方法还包括：

对病例分组模型进行修正。

由于病例分组模型所基于的决策树模型容易产生过拟合的问题，因此可通过后剪枝的方法对病例分组模型进行修正。

后剪枝的基本步骤如下：对于任一疾病治疗大类所对应的决策树，在一个节点下的两个分支，如果裁剪后病例数小于预设的最小病例阈值，或相邻病组裁剪后高费用组的均费不超过低费用组均费的预设的第一倍数，则合并该节点；在跨节点下的两个相邻分支，如果裁剪后病例数小于预设的最小病例阈值，或相邻病组裁剪后高费用组的均费不超过低费用组均费的预设的第一倍数，则合并相邻分支。

在本发明实施例中，最小病例阈值为40，第一倍数为1.2倍。在本发明的其他实施例中，最小病例阈值与第一倍数的具体取值均可以根据需要进行调整。

例如，假设最终形成4个dip疾病严重程度分组：cci<1.908(组1，裁剪后病例数18例，裁剪后均费6000元)，1.908<＝cci<4.07(组2，裁剪后病例数23例，裁剪后均费8000元),4.07<＝cci<6.646(组3，裁剪后病例数50例，裁剪后均费10000元)，cci>＝6.646(组4，裁剪后病例数30例，裁剪后均费11000元)。组1经过裁剪之后的病例数<20例，则组1和组2(同一分支下两个分组)合并；组4裁剪后的均费<组3裁剪后的均费*1.2，那么组3和组4合并。因此得到的dip疾病严重程度分组方案为cci<4.07(假设裁剪后病例数40例，裁剪后均费7000元)，cci>＝4.07(假设裁剪后病例数78例，裁剪后均费10300元)，此时不满足后剪枝条件，保留这两个dip疾病严重程度分组。

本发明实施例提供的病例分组方法利用后剪枝的方法对病例分组模型进行修正，使得病例分组模型在将病例划分到dip疾病严重程度分组时更为准确。

进一步的，在具体应用时，基于某地区历史数据确定所有病种的疾病严重程度判断条件之后，对于新年度某地区数据应用该判断条件，从而将每条病例分到一个合理的病种疾病严重程度分组。假设新年度某条病例分到疾病治疗大类a下的dipb组，计算该条病例的cci指数(＝7.2)，因此该条病例分到dipb组,cci>＝4.07这个疾病严重程度组。

图3为本发明实施例提供的病例分组装置的示意图，如图3所示，本发明实施例提供的病例分组装置包括：

疾病治疗大类数据获取模块301，用于确定待分组病例的疾病治疗大类，获取第一疾病治疗大类的数据；其中，所述第一疾病治疗大类为待分组病例所在的疾病治疗大类；

cci指数计算模块302，用于根据所述第一疾病治疗大类的数据，计算所述待分组病例的cci指数；

特征提取模块303，用于确定所述待分组病例的费用影响特征；其中，所述费用影响特征为对待分组病例的医疗费用的影响高于预设阈值的特征；

dip疾病严重程度分组划分模块304，用于将待分组病例的cci指数和费用影响特征输入病例分组模型中，确定所述待分组病例所在的dip疾病严重程度分组；其中，

所述病例分组模型是基于样本病例的cci指数以及费用影响特征训练得到的。

本发明实施例提供的病例分组装置利用样本病例的cci指数以及费用影响特征训练得到的病例分组模型，将待分组病例划分到相应的dip疾病严重程度分组中，实现了dip疾病严重程度分组的自动实现，避免了人为干扰，也提高了dip疾病严重程度分组的准确性。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(communicationsinterface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行如下方法：确定待分组病例的疾病治疗大类，获取第一疾病治疗大类的数据；其中，所述第一疾病治疗大类为待分组病例所在的疾病治疗大类，是基于待分组病例的主诊断类型和主手术类型得到的；根据所述第一疾病治疗大类的数据，计算所述待分组病例的cci指数；确定所述待分组病例的费用影响特征；其中，所述费用影响特征为对待分组病例的医疗费用的影响高于预设阈值的特征；将待分组病例的cci指数和费用影响特征输入病例分组模型中，确定所述待分组病例所在的dip疾病严重程度分组；其中，所述病例分组模型是基于样本病例的cci指数以及费用影响特征训练得到的。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定待分组病例的疾病治疗大类，获取第一疾病治疗大类的数据；其中，所述第一疾病治疗大类为待分组病例所在的疾病治疗大类，是基于待分组病例的主诊断类型和主手术类型得到的；根据所述第一疾病治疗大类的数据，计算所述待分组病例的cci指数；确定所述待分组病例的费用影响特征；其中，所述费用影响特征为对待分组病例的医疗费用的影响高于预设阈值的特征；将待分组病例的cci指数和费用影响特征输入病例分组模型中，确定所述待分组病例所在的dip疾病严重程度分组；其中，所述病例分组模型是基于样本病例的cci指数以及费用影响特征训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：舒正;尹珊珊;张骁雅;艾馨;董子坤;朱波;田雅如;傅兆翔;罗屿浪;王净;刘英杰;赵明;李璐璐
技术所有人：青岛国新健康产业科技有限公司
我是此专利的发明人

上一篇：一种智能化矿井降温制冷系统的制作方法
上一篇：高海拔高温特长隧道施工变频节能通风系统及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。