本发明涉及一种基于临床变量属性的决策分析方法,属于临床数据分析技术领域。
背景技术:
临床上医生需要整合分析多种变量数据,对患者的疾病状况进行评估,期望给出最佳治疗方案。医生整合分析数据时需要依赖于自身经验,主观性较强,尤其是当经验不足时,往往是出现评估偏差,给医生和患者均带来隐患。同时,不同医院对同种疾病的监测方法和使用仪器规格也有差异,会导致同种疾病在不同医院的指标数据也有差异,即使经验丰富的医生拿到这些数据,也常有疑惑而难以快速评估出结果。如何分析某个变量数据对样本产生的效应,以及整合分析多个变量数据对样本产生的总和效应,是难题之一。另外,整合分析多种变量时也常会因为测量单位、取值范围、标准化方法不同而增加误差,给后续分析带来困难。
技术实现要素:
本发明所要解决的技术问题是提供一种基于临床变量属性的决策分析方法,采用全新逻辑设计方法,能够快速获得变量属性对样本对象的影响效应量化值,有效提高后续对变量属性数据的分析应用效率。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于临床变量属性的决策分析方法,用于针对来自同一数据源的数据库中各个样本对象、以及各样本对象分别对应相同各变量属性的数据,实现变量属性对样本对象的影响效应量化性分析,包括如下步骤:
步骤a.分别针对各个变量属性,获得变量属性对应各样本对象的数据中、彼此不重复的非空数据的个数,作为该变量属性所对应不重复数据个数m,m≥2;完成对各变量属性的上述操作后,然后进入步骤b;
步骤b.分别针对各个变量属性,若变量属性对应各样本对象的非空数据为数值型变量,则获得该变量属性对应各样本对象的非空数据中的最大值max、最小值min,以及针对该各非空数据进行由小至大排序或由大直小排序,并获得该排序中间位置的非空数据,作为中值med,完成对各变量属性的上述操作后,然后进入步骤c;
步骤c.分别针对各个变量属性,若变量属性对应各样本对象的非空数据为数值型变量,则根据该变量属性所对应的最大值max、最小值min、以及中值med,分别针对该变量属性所对应各样本对象的非空数据,应用线性效应函数进行效应归一化处理,获得该变量属性所对应各样本对象的非空数据、分别对应的初级效应值y;
若变量属性对应各样本对象的非空数据为分类型变量,则以1/m的值,作为该变量属性所对应各样本对象的非空数据、分别对应的初级效应值y;并且进一步若该变量属性所对应各样本对象的非空数据、等于样本对象所对应各变量属性的判定目标,则以1/m+0.5的值,作为该变量属性所对应各样本对象的非空数据、分别对应的初级效应值y;
完成对各变量属性的上述操作后,然后进入步骤d;
步骤d.分别针对各个变量属性,根据变量属性所对应各样本对象的非空数据、分别对应的初级效应值y,获得该变量属性所对应的l2范数值;完成对各变量属性的上述操作后,然后进入步骤e;
步骤e.获得各变量属性分别所对应l2范数值的和sum(l2),然后分别针对各个变量属性,以变量属性所对应l2范数值与sum(l2)的比值,作为该变量属性所对应的权重值;即获得各变量属性分别所对应的权重值,并进入步骤f;
步骤f.分别针对各个变量属性,分别针对变量属性所对应各样本对象的非空数据,以非空数据所对应初级效应值y与该变量属性所对应权重值的乘积,作为该变量属性所对应各样本对象的非空数据、分别对应的终级效应值,即该变量属性分别对各样本对象的影响效应量化值yy;完成对各变量属性的上述操作后,然后进入步骤g;
步骤g.分别针对各个样本对象,以样本对象所对应各变量属性的非空数据、分别对应的终级效应值yy之和,作为全部变量属性整体对该样本对象的影响效应量化值;即获得全部变量属性整体分别对各样本对象的影响效应量化值sum(yy)。
作为本发明的一种优选技术方案:还包括如下步骤h至步骤i,执行完步骤g之后,进入步骤h;
步骤h.分别针对各个变量属性,针对变量属性分别对各样本对象的影响效应量化值yy,按由低至高进行排序,然后顺序针对该排序、进行样本对象数量的累加,并做如下操作:
以最小影响效应量化值,作为该变量属性对应0%数量样本对象的临界效应值yy1;
获取该变量属性对50%数量样本对象的各影响效应量化值中的最大值,作为该变量属性对应50%数量样本对象的临界效应值yy2;
获取该变量属性对75%数量样本对象的各影响效应量化值中的最大值,作为该变量属性对应75%数量样本对象的临界效应值yy3;
获取该变量属性对90%数量样本对象的各影响效应量化值中的最大值,作为该变量属性对应90%数量样本对象的临界效应值yy4;
以最大影响效应量化值,作为该变量属性对应100%数量样本对象的临界效应值yy5;
完成对各变量属性的上述操作后,即构成数据库中各变量属性分别对样本对象的影响效应量化值、相对数据库中全部样本对象的分布;然后进入步骤i;
步骤i.针对全部变量属性整体分别对各样本对象的影响效应量化值sum(yy),按由低至高进行排序,然后顺序针对该排序、进行样本对象数量的累加,并做如下操作:
以最小影响效应量化值,作为全部变量属性整体对应0%数量样本对象的临界效应值sum(yy)1;
获取全部变量属性整体对50%数量样本对象的各影响效应量化值中的最大值,作为全部变量属性整体对应50%数量样本对象的临界效应值sum(yy)2;
获取全部变量属性整体对75%数量样本对象的各影响效应量化值中的最大值,作为全部变量属性整体对应75%数量样本对象的临界效应值sum(yy)3;
获取全部变量属性整体对90%数量样本对象的各影响效应量化值中的最大值,作为全部变量属性整体对应90%数量样本对象的临界效应值sum(yy)4;
以最大影响效应量化值,作为全部变量属性整体对应100%数量样本对象的临界效应值sum(yy)5;
即构成数据库中全部变量属性整体对样本对象的影响效应量化值、相对数据库中全部样本对象的分布。
作为本发明的一种优选技术方案:还包括用于针对与数据库来自同一数据源的目标样本对象、以及目标样本对象对应相同各变量属性的数据,获得变量属性对目标样本对象的影响效应量化值、相对数据库中全部样本对象的分布,包括如下步骤i至步骤iii,实现变量属性对目标样本对象的影响效应量化值、相对数据库中全部样本对象的分布分析;
步骤i.通过步骤a至步骤g的方法,获得各变量属性分别对目标样本对象的影响效应量化值yy,以及全部变量属性整体对目标样本对象的影响效应量化值sum(yy),然后进入步骤ii;
步骤ii.分别针对各变量属性,根据变量属性对目标样本对象的影响效应量化值yy,结合数据库中各变量属性分别对样本对象的影响效应量化值、相对数据库中全部样本对象的分布,获得该变量属性对目标样本对象的影响效应量化值、相对数据库中全部样本对象的分布;即获得各变量属性分别对目标样本对象的影响效应量化值、相对数据库中全部样本对象的分布;然后进入步骤iii;
步骤iii.针对全部变量属性整体对目标样本对象的影响效应量化值sum(yy),结合数据库中全部变量属性整体对样本对象的影响效应量化值、相对数据库中全部样本对象的分布,获得全部变量属性整体对目标样本对象的影响效应量化值、相对数据库中全部样本对象的分布。
作为本发明的一种优选技术方案:所述步骤c中,分别针对各个变量属性,若变量属性对应各样本对象的非空数据x为数值型变量,则根据该变量属性所对应的最大值max、最小值min、以及中值med,分别针对该变量属性所对应各样本对象的非空数据x,按如下公式:
若
若
应用线性效应函数进行效应归一化处理,获得该变量属性所对应各样本对象的非空数据、分别对应的初级效应值y。
作为本发明的一种优选技术方案:所述步骤d.分别针对各个变量属性,针对变量属性所对应各样本对象的非空数据、分别对应的初级效应值y,先计算获得各初级效应值平方的和,再对该和开二次根号,所获结果,即为该变量属性所对应的l2范数值。
作为本发明的一种优选技术方案:所述步骤b中,若变量属性对应各样本对象的非空数据的个数为奇数个,则针对各非空数据的排序,直接获得该排序中间位置的非空数据,作为中值med;若变量属性对应各样本对象的非空数据的个数为偶数个,则针对各非空数据的排序,获得该排序中间位置两个非空数据的平均数,作为中值med。
本发明所述一种基于临床变量属性的决策分析方法,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明所设计基于临床变量属性的决策分析方法,采用全新逻辑设计方法,基于同一数据源的样本对象,针对样本对象所对应各变量属性的数据,先基于数值型变量与分类型变量的区分,获得数据所对应的初级效应值;然后基于初级效应值,获得各变量属性的l2范数值,并进一步获得各变量属性的权重值;最后结合初级效应值,获得变量属性对样本对象的影响效应量化值;如此实现变量属性对样本对象的影响的量化反应,为后续对变量属性数据的分析应用提供了客观、且准确的数据参考依据,有效提高了最终数据分析应用的准确性。
附图说明
图1是本发明设计基于临床变量属性的决策分析方法的流程示意图;
图2是本发明设计应用实施例中变量属性对样本对象的影响效应量化性分析的结果示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明设计了一种基于临床变量属性的决策分析方法,用于针对来自同一数据源的数据库中各个样本对象、以及各样本对象分别对应相同各变量属性的数据,实现变量属性对样本对象的影响效应量化性分析,实际应用当中,如图1所示,具体执行如下步骤a至步骤g。
步骤a.分别针对各个变量属性,获得变量属性对应各样本对象的数据中、彼此不重复的非空数据的个数,作为该变量属性所对应不重复数据个数m,m≥2;完成对各变量属性的上述操作后,然后进入步骤b。
步骤b.分别针对各个变量属性,若变量属性对应各样本对象的非空数据为数值型变量,则获得该变量属性对应各样本对象的非空数据中的最大值max、最小值min,以及针对该各非空数据进行由小至大排序或由大直小排序,并获得该排序中间位置的非空数据,作为中值med,完成对各变量属性的上述操作后,然后进入步骤c。
实际应用中,上述步骤b中,若变量属性对应各样本对象的非空数据的个数为奇数个,则针对各非空数据的排序,直接获得该排序中间位置的非空数据,作为中值med;若变量属性对应各样本对象的非空数据的个数为偶数个,则针对各非空数据的排序,获得该排序中间位置两个非空数据的平均数,作为中值med。
步骤c.分别针对各个变量属性,若变量属性对应各样本对象的非空数据x为数值型变量,则根据该变量属性所对应的最大值max、最小值min、以及中值med,分别针对该变量属性所对应各样本对象的非空数据x,按如下公式:
若
若
应用线性效应函数进行效应归一化处理,获得该变量属性所对应各样本对象的非空数据、分别对应的初级效应值y。
若变量属性对应各样本对象的非空数据为分类型变量,则以1/m的值,作为该变量属性所对应各样本对象的非空数据、分别对应的初级效应值y;并且进一步若该变量属性所对应各样本对象的非空数据、等于样本对象所对应各变量属性的判定目标,则以1/m+0.5的值,作为该变量属性所对应各样本对象的非空数据、分别对应的初级效应值y。
完成对各变量属性的上述操作后,然后进入步骤d。
步骤d.分别针对各个变量属性,针对变量属性所对应各样本对象的非空数据、分别对应的初级效应值y,先计算获得各初级效应值平方的和,再对该和开二次根号,所获结果,即为该变量属性所对应的l2范数值;完成对各变量属性的上述操作后,然后进入步骤e。
步骤e.获得各变量属性分别所对应l2范数值的和sum(l2),然后分别针对各个变量属性,以变量属性所对应l2范数值与sum(l2)的比值,作为该变量属性所对应的权重值;即获得各变量属性分别所对应的权重值,并进入步骤f。
步骤f.分别针对各个变量属性,分别针对变量属性所对应各样本对象的非空数据,以非空数据所对应初级效应值y与该变量属性所对应权重值的乘积,作为该变量属性所对应各样本对象的非空数据、分别对应的终级效应值,即该变量属性分别对各样本对象的影响效应量化值yy;完成对各变量属性的上述操作后,然后进入步骤g。
步骤g.分别针对各个样本对象,以样本对象所对应各变量属性的非空数据、分别对应的终级效应值yy之和,作为全部变量属性整体对该样本对象的影响效应量化值;即获得全部变量属性整体分别对各样本对象的影响效应量化值sum(yy)。
上述步骤a至步骤g的实施例应用中,如图2所示,各颜色区块分别表示各临床变量属性,全部临床变量属性整体对样本对象id1的影响效应量化值sum(yy)为0.23,全部临床变量属性整体对样本对象id5的影响效应量化值sum(yy)为0.58,效应总和最高,说明检测到的临床变量属性对该样本对象产生较强的影响。样本对象id5所对应的每个临床变量属性都有对应的影响效应量化值yy,yy越高,说明该临床变量属性对样本对象影响越高。结合图2,可以清楚快速分析出某个样本对象单个变量属性的效应值、以及多个变量属性对样本对象作用的效应值。
基于上述所设计实现变量属性对样本对象的影响效应的量化分析,本发明还进一步针对数据库中变量属性,设计获得变量属性对样本对象的影响效应量化值、相对数据库中全部样本对象的分布分析,基于上述步骤a至步骤g的执行,如图1所示,进一步执行如下步骤h至步骤i。
步骤h.分别针对各个变量属性,针对变量属性分别对各样本对象的影响效应量化值yy,按由低至高进行排序,然后顺序针对该排序、进行样本对象数量的累加,并做如下操作:
以最小影响效应量化值,作为该变量属性对应0%数量样本对象的临界效应值yy1;
获取该变量属性对50%数量样本对象的各影响效应量化值中的最大值,作为该变量属性对应50%数量样本对象的临界效应值yy2;
获取该变量属性对75%数量样本对象的各影响效应量化值中的最大值,作为该变量属性对应75%数量样本对象的临界效应值yy3;
获取该变量属性对90%数量样本对象的各影响效应量化值中的最大值,作为该变量属性对应90%数量样本对象的临界效应值yy4;
以最大影响效应量化值,作为该变量属性对应100%数量样本对象的临界效应值yy5;
完成对各变量属性的上述操作后,即构成数据库中各变量属性分别对样本对象的影响效应量化值、相对数据库中全部样本对象的分布;然后进入步骤i。
步骤i.针对全部变量属性整体分别对各样本对象的影响效应量化值sum(yy),按由低至高进行排序,然后顺序针对该排序、进行样本对象数量的累加,并做如下操作:
以最小影响效应量化值,作为全部变量属性整体对应0%数量样本对象的临界效应值sum(yy)1;
获取全部变量属性整体对50%数量样本对象的各影响效应量化值中的最大值,作为全部变量属性整体对应50%数量样本对象的临界效应值sum(yy)2;
获取全部变量属性整体对75%数量样本对象的各影响效应量化值中的最大值,作为全部变量属性整体对应75%数量样本对象的临界效应值sum(yy)3;
获取全部变量属性整体对90%数量样本对象的各影响效应量化值中的最大值,作为全部变量属性整体对应90%数量样本对象的临界效应值sum(yy)4;
以最大影响效应量化值,作为全部变量属性整体对应100%数量样本对象的临界效应值sum(yy)5;
即构成数据库中全部变量属性整体对样本对象的影响效应量化值、相对数据库中全部样本对象的分布。
对于上述0%、50%、75%、100%的划分设计,实际应用中,还可以根据具体应用需要,采用不同节点数据进行划分,同样获得上述变量属性对样本对象的影响效应量化值、相对数据库中全部样本对象的分布分析。
如图1所示,基于上述步骤a至步骤i的整体实施,实际应用当中,本发明还进一步针对与数据库来自同一数据源的目标样本对象、以及目标样本对象对应相同各变量属性的数据,设计获得变量属性对目标样本对象的影响效应量化值、相对数据库中全部样本对象的分布,具体应用中,执行如下步骤i至步骤iii,实现变量属性对目标样本对象的影响效应量化值、相对数据库中全部样本对象的分布分析。
步骤i.通过步骤a至步骤g的方法,获得各变量属性分别对目标样本对象的影响效应量化值yy,以及全部变量属性整体对目标样本对象的影响效应量化值sum(yy),然后进入步骤ii。
步骤ii.分别针对各变量属性,根据变量属性对目标样本对象的影响效应量化值yy,结合数据库中各变量属性分别对样本对象的影响效应量化值、相对数据库中全部样本对象的分布,获得该变量属性对目标样本对象的影响效应量化值、相对数据库中全部样本对象的分布;即获得各变量属性分别对目标样本对象的影响效应量化值、相对数据库中全部样本对象的分布;然后进入步骤iii。
步骤iii.针对全部变量属性整体对目标样本对象的影响效应量化值sum(yy),结合数据库中全部变量属性整体对样本对象的影响效应量化值、相对数据库中全部样本对象的分布,获得全部变量属性整体对目标样本对象的影响效应量化值、相对数据库中全部样本对象的分布。
基于上述0%、50%、75%、100%的划分设计,上述步骤i至步骤iii在实际应用中,诸如某个变量属性对目标样本对象的影响效应量化值yy,在yy3与yy4之间,则表示该变量属性对目标样本对象的影响效应量化值、高于数据库中75%的对象样本;进一步若全部变量属性整体对目标样本对象的影响效应量化值sum(yy)大于sum(yy)4,则表示全部变量属性整体对目标样本对象的影响效应量化值、高于数据库中90%的对象样本,说明全部变量属性整体对样本对象产生了很强效应。
上述设计方案旨在计算来源一致的数据库(比如特定某个医院数据),对于相同事件和对应的相同变量,可以选取其它医院数据,按照步骤a至步骤g计算变量属性对样本对象的影响效应量化值,由此进一步可比较2个医院数据在不同取值分位数的差异偏差,例如比较某个变量属性对样本对象的影响效应量化值yy值、在2个医院的50%人群是否有偏差,采用下列偏差公式,若偏差为正,说明该变量属性在医院1的数据库的效应量化值、高于其在医院2的数据库的效应量化值,反之亦然。
上述技术方案所设计基于临床变量属性的决策分析方法,采用全新逻辑设计方法,基于同一数据源的样本对象,针对样本对象所对应各变量属性的数据,先基于数值型变量与分类型变量的区分,获得数据所对应的初级效应值;然后基于初级效应值,获得各变量属性的l2范数值,并进一步获得各变量属性的权重值;最后结合初级效应值,获得变量属性对样本对象的影响效应量化值;如此实现变量属性对样本对象的影响的量化反应,为后续对变量属性数据的分析应用提供了客观、且准确的数据参考依据,有效提高了最终数据分析应用的准确性。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。