一种孕早期子痫前期风险预测模型的构建方法及装置

文档序号:35958135发布日期:2023-11-08 20:10阅读:38来源:国知局
一种孕早期子痫前期风险预测模型的构建方法及装置

本发明属于孕早期子痫前期风险预测,具体涉及一种孕早期子痫前期风险预测模型的构建方法及装置。


背景技术:

1、子痫前期的风险预测是一个二分类问题,其中正例表示存在子痫前期的风险,而负例则表示不存在子痫前期的风险。这个问题的目标是根据病人的临床数据,如孕周、年龄、体重等,对其患病风险进行预测,并给出二元分类结果,即是否存在子痫前期风险。

2、子痫前期数据,特别是孕早期子痫前期数据,存在严重的小样本和类别不平衡的问题。由于子痫前期在孕早期发生率较低、且不易发现,虽然可通过检测潜在特征加以判别,但由于样本量小,判别的可靠性难于保证,并且子痫前期风险预测模型更多是用于对孕妇的子痫前期的筛查而非诊断,这意味着在训练数据中,正样本(即患有子痫前期的样本)的数量远远小于负样本(即未患病的样本)的数量,即存在类别上的样本不平衡问题,这将严重影响筛查结果的质量。

3、在临床实践中,这样的结果可能导致错过重要的早期预警信号,以至于延误治疗和增加患者风险。因此,解决孕早期子痫前期数据的小样本不平衡问题和提高孕早期子痫前期的风险预警的准确性和可靠性十分必要。

4、目前子痫前期的主要预测手段是根据妊娠期高血压和蛋白尿进行预测,但这种方法测定准确率较低,且敏感性、特异性均不高,无法满足对于孕早期子痫前期筛查的需求。国际上的一些子痫前期风险预测技术,如simoa平台的超高灵敏度蛋白标志物检测技术和elecsys平台的将sflt-1/pigf相结合的技术,可以较为有效地预测子痫前期风险。

5、在机器学习领域中,目前已有的与本发明最相近似的实现方案是集成学习中的bagging算法,以及在bagging基础上改进的随机森林算法。这些方法都通过重复多次有放回采样得到多个采样集,并基于每个采样集训练出一个基学习器,再将这些基学习器进行结合,取其预测值的平均或者投票作为最终的预测结果。虽然这样可以提高模型性能,但也导致最终的模型极为复杂(是n个基学习器的集成),存在模型存储和计算成本高的问题,尽管n越大预测结果越准确,所带来的却是模型存储和计算的成本越高。

6、现在模型性能评估一般通过交叉验证进行,其中最常用的是k折交叉验证:将原始数据集分成k份,其中k-1份作为训练集,剩下的一份作为测试集,进行k次训练和测试,最终将得到k个性能指标(如准确率等)的平均值作为模型的性能评估指标。

7、现有方法主要存在以下不足:

8、(1)现有的子痫前期预测方法准确率不高,如根据妊娠期高血压和蛋白尿进行预测的方法,其敏感性、特异性均不高,无法满足对于早期筛查的需求。

9、(2)国际上的一些子痫前期风险预测平台可以较为有效的预测子痫前期风险,但这些平台目前缺乏针对孕早期的子痫前期风险预测模型和平台。

10、(3)集成学习算法构建的模型规模庞大,无论是bagging还是随机森林,对于一个问题,都需要训练和存储n个基学习器(n一般很大),存储量大;每次求解时需要先计算出每一个基学习器的预测值,计算效率低。而且集成学习无法解决类别不平衡问题。

11、(4)目前通过交叉验证获得的模型预测误差来比较模型性能,但这样的评价存在可靠性不高的风险。


技术实现思路

1、为了克服以上现有技术存在的问题,本发明提供一种孕早期子痫前期风险预测模型的构建方法及装置;

2、本发明的目的一:提出新的预测模型构建方法以解决孕早期子痫前期数据的小样本不平衡问题,得到针对性更强、准确率更高的预测模型和平台。

3、本发明的目的二:构建出单一的子痫前期风险预测模型,而不像bagging或随机森林模型那样是多模型的集成,从而模型规模小,存储量小,响应速度高。

4、本发明的目的三:提供的评估方法能够更全面、准确、可靠地评估模型的预测性能。

5、为了实现上述目的,本发明采用的技术方案是:

6、一种孕早期子痫前期风险预测模型的构建方法,包括以下步骤;

7、步骤1:孕早期子痫前期数据预处理,选取的数据为没有缺失值且所有特征取值均为数字类型;

8、步骤2:孕早期子痫前期数据采样;

9、步骤3:步骤2获得的所有采样集ωj进行svm模型训练;

10、步骤4:孕早期子痫前期风险预测模型构建;

11、步骤5:对步骤4孕早期子痫前期风险预测模型进行交叉验证;

12、步骤6:孕早期子痫前期风险预测误差的均值计算;

13、步骤7:孕早期子痫前期风险预测误差的变异系数计算。

14、所述步骤1具体为:首先从临床收集孕早期子痫前期样本,并将患有子痫前期的样本记为正类,无病样本记为负类,如果特征中存在缺失值,采用插补法,即取该项特征的中位数来填充空值,如果特征取值为文本类型,或某项离散特征的取值之间没有大小意义,采用one-hot编码将其转化为数字类型,从而获得预处理后的孕早期子痫前期数据集ω,其中没有缺失值且所有特征取值均为数字类型,符合模型训练所需的要求。

15、所述步骤2对孕早期子痫前期数据集ω进行无放回随机采样获得n个采样集,原则上n越大越好(n至少取100),每次采样时先从数据集ω的正类中随机采集2/3的样本,再从数据集ω的负类中采集相同数量的样本,然后将这两类样本组合到一起形成采样集ωj,j=1,2,…n。

16、所述步骤3具体为在步骤2获得的所有采样集ωj,j=1,2,…n上各训练一个svm模型fj(x),这样对ωj中的每个样本,都能得到svm最优解对应的拉格朗日乘子的值α≥0;而对ω中所有不属于ωj的样本,即ω/ωj中的样本,令其对应的拉格朗日乘子的值α=0,则最终fj(x)的决策函数如式(1)所示,其中m表示ω中的样本数目,xi表示ω中第i个样本的特征向量,yi表示ω中第i个样本的标签,κ(x,xi)为核函数,b是偏置项,αi(j)≥0为第i个样本对应的拉格朗日乘子的值,sign是将模型输出转化为类别标签的函数;

17、

18、所述步骤4具体为:将步骤3中获得的所有svm模型fj(x),j=1,2,…n融合成最终的孕早期子痫前期风险预测模型f(x),其决策函数如式(2)所示,其中n表示采样集数目,m表示ω中的样本数目,xi表示ω中第i个样本的特征向量,yi表示ω中第i个样本的标签,κ(x,xi)为核函数,bj是第j个svm模型fj(x)中的偏置项,αi(j)≥0为第j个svm模型fj(x)中第i个样本对应的拉格朗日乘子的值,sign是将模型输出转化为类别标签的函数;

19、

20、所述步骤5具体为;为评估孕早期子痫前期风险预测模型的性能,将数据集ω平均分成k份,轮流将其中k-1份做训练集,剩余的1份做测试集,在每个训练集上按步骤2~4各构建一个子痫前期风险预测模型,然后在测试集上计算子痫前期风险预测误差ba(balanced accuracy),这样得到k次交叉验证的子痫前期风险预测误差bai,i=1,2,…,k。ba的计算公式如式(3)所示:

21、

22、所述步骤6具体为:对步骤5中获得的k次交叉验证的子痫风险预测误差bai,i=1,2,…,k,根据式(4)计算其均值将用于衡量孕早期子痫前期风险预测模型的预测准确性,越高表示模型预测越准确;

23、

24、所述步骤7具体为:利用步骤5中获得的k次交叉验证的预测误差bai,i=1,2,…,k和步骤6中获得的预测误差均值计算变异系数cv(coefficient of variation),计算公式如式(5)所示,该指标用于衡量孕早期子痫前期风险预测模型预测误差均值的可靠性,cv越小表示越可靠;

25、

26、一种用于实现孕早期子痫前期风险预测的装置,包括:采集单元、处理单元以及显示单元;

27、所述采集单元为数据输入接口,用于获取并记录孕妇的各项可用于子痫前期风险预测的生理参数;

28、所述处理单元为计算设备,用于对采集到的数据进行处理,并调用预先训练好的模型进行风险预测;

29、所述显示单元为数据输出界面,用于展示孕早期子痫前期风险的预测结果。

30、所述装置全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令;

31、在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本方法所述的流程或功能;

32、所述计算机是通用计算机、专用计算机、计算机网络、或者其他可编程装置;

33、所述计算机指令用于存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输(例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。

34、所述计算机可读取存储介质是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备;

35、所述可用介质是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk)。

36、本发明的有益效果:

37、(1)本技术的方法可用于但不限于孕早期子痫前期风险预测模型的建立。对于子痫前期风险预测,开发适用性更高的预测模型和平台。

38、(2)模型规模小。最终建立的孕早期子痫前期风险预测模型为单一的svm模型,模型存储量小,响应速度高。在基于n个svm模型进行建模的情况下,新型svm模型的规模仅仅为bagging模型的1/n,通常n很大(比如>400),从而这个模型降低是非常大的。

39、(3)模型准确率高、可靠性强。最终建立的孕早期子痫前期风险预测模型虽然是单一模型,但在预测性能上优于bagging模型。

40、(4)适用于小样本问题。svm模型的优化目标是最小化分类误差的同时最大化分类边界,因此对于小样本问题,它的泛化能力和稳定性相对较高。而孕早期子痫前期风险预测模型融合了多个svm模型,能够进一步缓解小样本问题带来的负面影响。

41、(5)适用于类别不平衡问题。在采样时保证每个采样集中拥有相同数量的正类样本和负类样本,避免了类别不平衡对孕早期子痫前期风险预测模型性能的影响。

42、(6)给出了模型准确性和可靠性的评价指标,将模型预测误差的均值用于评估模型预测准确性,更给出反映其可靠性的变异系数。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1