一种利用用户特征计算和预测某种并发症发生概率的方法与流程

文档序号:37278990发布日期:2024-03-12 21:15阅读:14来源:国知局
一种利用用户特征计算和预测某种并发症发生概率的方法与流程

本发明涉及大数据人工智能,特别是涉及一种利用用户特征计算和预测某种并发症发生概率的方法。


背景技术:

1、一般的治疗都是在症状发生后进行,在此过程中,患者已经承受了病症本身所带来的痛苦。如果可以预判症状发生的风险,则可以提前进行干预,一定程度上缓解患者的痛苦甚至规避症状的发生。因此,预判风险的需求在医疗领域广泛存在。

2、现在在同样场景中最广泛使用的是基于决策树的预测方法,通常情况下决策树只能处理离散型的数据,对于连续数据要想使用决策树通常会在连续值的值域内进行区间划分。这种划分通常缺乏理论依据的支撑,造成最终结果不准确。也有对每个维度进行聚类或者其它划分策略的方式,但是这些处理方式可以改善结果,但对于单个维度分别处理的方式在多维度相关的时候并不准确。


技术实现思路

1、为解决现有技术存在的问题,本发明提供一种准确性高并且有可解释性的利用用户特征计算和预测某种并发症发生概率的方法。

2、为此,本发明采用以下技术方案:

3、一种利用用户特征计算和预测某种并发症发生概率的方法,包括以下步骤:

4、s1,数据采集:采集多位患者的多维度数据,包括日常行为数据和各项体征数据;

5、各项体征数据包括性别、地区、年龄、身高、体重、腰围、血压、血脂、血糖;所述日常行为数据包括运动时间、睡眠时间、饮食摄入的蛋白质量、碳水化物量、参与患教时长、血糖检测次数、服药次数、服药类型。

6、s2,数据过滤:对s1采集的多维度数据进行过滤,去除格式和取值有异常的数据,并进行储存;

7、s3,数据重采样并转化:

8、s31,按照统一的时间间隔排列s2得到的多维度数据,如在对应时间点下无某一维度的数据,则选择距离所述对应时间点最接近的此维度的数据填充进所述时间点下,如此所述对应时间点附近的测量结果距此时间点间隔超过此对应维度的数据的采样有效范围,则取值为空;去掉取值为空的所在时间点的各维度数据,保留重采样后的多维度数据;

9、s32,将并发症也作为一个数据维度,采样时,如果发生了该种并发症,取1,否则取0;

10、s33,数据的转化:

11、将重采样后的多维度数据中的数据分为定性数据和定量数据;所述定量数据直接参与计算;

12、对于定性数据中适用2值化分布的简单数据,使用-1、1的方式替代后参与计算;

13、对于定性数据中的文字类型数据,按照文字表述的程度高低转化成数值型数据,不能转换成数值型数据的不参与计算;所述的按照文字表述的程度高低转化成数值型数据具体为:将严重转化成3,较轻转化成1,一般转化成0。

14、将所述定量数据和转化后的定性数据记为数据x;

15、s4,数据维度间的关联性计算:

16、s41,对s3中得到的数据x,计算其协方差矩阵c′,对所有所述采样点数据计算协方差矩阵c′的方法为:

17、

18、其中,cov[xa,xb]=e[(xa-e[xa])(xb-e[xb])],a∈[1,n],b∈[1,n],e[x]表示x的期望。

19、计算协方差矩阵c′中时不计入取值为空的项。在计算所述数据维度的协方差矩阵c′时,过滤掉协方差矩阵中小于0.1的数据项。对协方差矩阵c′中保留的所有项,按照绝对值由大到小排序,排序越靠前,表示对应的两个维度间相关性越大。

20、对协方差矩阵c′中的数据维度进行归一化,得到归一化的并发症协方差矩阵c,并发症协方差矩阵c中的项cij的计算方法为:

21、cij=cov[xi,xj]/|s[xi]*s[xj]|,

22、其中,cov[xi,xj]为所述协方差矩阵c′,i为所述数据x中并发症维度的编号,j为所述数据x中除并发症维度外的其它维度的编号;

23、令pi为编号i对应的并发症维度,qj为编号j对应的维度;

24、s42,确定归一化后的并发症协方差矩阵c中目标并发症i对应的不为零的项中的数据维度qj的集合j;

25、s43,对于所述集合j中的任意两个数据维度q1和q2,确定其在所述矩阵c′中的结果,如所述结果不为0,则归并为一个维度分组dm,将彼此相关的维度分组组成的子集归并后得到集合d;如所述结果为0,则将与其他维度无关且只与目标并发症i相关的维度单独作为一个维度分组d’m,将所有d’m作为子集也放入集合d中,其中m为子集编号;

26、s5,k-meams聚类分析:

27、对s4中得到的每一个d中的子集,使用k-meams聚类算法,对子集所包含的数据维度上的数据进行聚类,分类后的分类集编号记为km;k-meams聚类集对d中不同的子集确定不同的k个分类,对于每个子集,当子集包含t个数据维度时,k的范围为2~t。

28、s6,将数据转化为向量:

29、使用s5中的聚类方法,将所述数据x中每一位患者的数据转化为由分类集组成的一个向量(k1,k2,k3,…km),并将所有向量组成向量集;

30、s7.计算并发症发生概率:

31、s6中所述的所有向量集中每个分类集出现的概率记为p(km);

32、s1的多位患者中出现目标并发症i的概率记为p(i(1)),其中目标并发症i发生时记为i(1);

33、目标并发症i发生时,某一个分类集出现的概率记为p(km|i(1));

34、将所有所述p(km)、p(i(1))和p(km|i(1))组成概率集;

35、对于任意一个新采样记录,先转化为s6中所述的向量,再使用向量中每一个分类集在所述概率集中确定对应的概率,带入下式得到患有目标并发症i的概率:

36、p(i(1)|(k1,k2,k3…km))=p(k1|i(1))*p(k2|i(1))*p(k3|i(1))*…*p(km|i(1))*p(i(1))/(p(k1)*p(k2)*p(k3)*…*p(km))。

37、其中:p(i(1)|(k1,k2,k3…km))=p(k1,k2,k3,…km|i(1))*p(i(1))/p(k1,k2,k3…km),因为(k1,k2,k3,…km)彼此之间相互独立,因此有:

38、p(k1,k2,k3…km)=p(k1)*p(k2)*p(k3)*…*p(km);

39、p(k1,k2,k3…km|i(1))=p(k1|i(1))*p(k2|i(1))*p(k3|i(1))*…*p(km|i(1))。

40、对于所述并发症协方差矩阵c中的其它目标并发症,通过所述s5-s7计算其发生概率。

41、与现有技术相比,本发明具有以下有益效果:

42、1.在处理同类问题时,业内一般采用决策树模型对患者的病情进行预测,以判断患者是否有可能具有某种并发症。得到的结论一般都是“是”或“否”,但并不能给出量化的可能性百分比。本发明的预测方法能够对可能性进行量化。

43、2.本发明的预测方法使用k-meams聚类算法产生的子集往往对应于现实中产生了某种共同的并发症,从而体现出某些维度数据发生相似变化的趋势;或者有些具有共同行为特征的患者会产生同样的并发症,从而使整个模型具有更好的可解释性。现有的决策树方法并不具有这种性质。

44、3.对于发病风险高的患者,利用本发明的方法能够实现提前预警干预,规避健康风险。本方法不仅可用于并发症风险预测场景,也可推广到任意更多维度数据集中,用于预测和评估某个关键特征发生的概率。该方法本身是通过大量数据来寻找其中某一个维度数据属于某一个取值的概率,因此对于满足这种数据组织形式的所有场景都可以使用此方法。比如预测购物的研究中,某个年龄段,某个性别,并且满足某种特征的顾客,购买某个商品的概率,或者随着顾客购买商品的逐渐增多,在已经购买了某些商品以后,接下来购买其它某个商品的概率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1