医疗数据处理方法、装置、设备及介质与流程

文档序号:30271013发布日期:2022-06-02 09:28阅读:153来源:国知局
医疗数据处理方法、装置、设备及介质与流程

1.本发明属于数据处理技术领域,尤其涉及一种对医疗诊断数据基于机器学习的医疗数据处理方法、装置、电子设备及存储介质。


背景技术:

2.辅助诊断技术是指通过影像学、医学图像处理技术以及其他可能的生理、生化手段,结合计算机的分析计算,辅助发现病灶,提高诊断的准确率。随着医疗数字化的普及与医疗行业大量临床医疗数据的积累,许多基于机器学习的相关技术被广泛应用于辅助诊断领域中。可通过改变算法结构与数据分布来提高机器学习算法模型对特定样本的敏感度,从而提升对具有复杂分布特点的医学数据的分类预测准确率,将算法嵌入到辅诊系统中可精准地提供疾病预测以及预防等服务。
3.现有用于疾病辅助诊断任务的机器学习相关分类算法包括决策树、朴素贝叶斯分类、逻辑回归以及支持向量机等,这些标准分类器在均匀的数据上表现良好,但对于通常存在分布不均问题的医学数据来说分类效果较差,通常会把少数类样本错分或产生过拟合现象;其次,常用的数据预处理技术就是采样,但简单的过采样通常会引入大量噪音且容易使模型产生过拟合,欠采样则会丢失数据信息。
4.因此,现有技术需要改进。


技术实现要素:

5.为解决上述技术问题,本发明提出了一种医疗数据处理方法、装置、电子设备及存储介质。
6.基于本发明实施例的一个方面,公开一种医疗数据处理方法,包括:
7.获取原始医疗数据,对原始医疗数据进行第一处理,获取第一医疗数据集;
8.引入医疗数据集样本的重要性权重,依据所述第一医疗数据集对boosting模型进行训练和测试,获取评估模型;
9.依据所述评估模型,计算评价指标,获取评价值;
10.依据所述评价值,获取预测效果达到最优的预测模型。
11.在另一个实施例中,所述依据所述评价值,获取预测效果达到最优的预测模型,包括:
12.获取评价值,并判断评价值是否达到设定的阈值或达到设定的迭代次数;
13.如果是,则所述评估模型即为预测效果达到最优的预测模型;
14.如果否,则通过群智能优化算法计算样本分布比例,直至获取预测效果达到最佳的预测模型。
15.在另一个实施例中,所述通过群智能优化算法计算样本分布比例,包括:
16.获取第一医疗数据集,并将第一医疗数据集分为多数类样本和少数类样本;
17.依据所述多数类样本和少数类样本,进行粒子群搜索,获取每个样本随机编码成
的代表候选解的粒子;
18.依据所述代表候选解的粒子,将所述代表候选解的粒子从随机位置向全局最优位置迭代移动,得到群智能优化算法计算样本分布比例。
19.在另一个实施例中,还包括:
20.依据所述代表候选解的粒子,选择随机森林作为分类模型,选择f1-score/g-mean作为目标函数衡量样本对分类结果的影响,将所述代表候选解的粒子从随机位置向全局最优位置迭代移动,得到群智能优化算法计算样本分布比例
21.在另一个实施例中,所述通过群智能优化算法计算样本分布比例,直至获取预测效果达到最佳的预测模型,包括:
22.依据所述群智能优化算法计算样本分布比例和所述第一医疗数据集,进行样本合成,获取第二医疗数据集;
23.依据所述第二医疗数据集,进行boosting模型训练并测试,获取训练后的boosting模型;
24.依据训练后的boosting模型,进行模型评估,获取评价指标;
25.直至所述评价指标达到设定的阈值或达到设定的迭代次数。
26.在另一个实施例中,所述引入医疗数据集样本的重要性权重包括:
27.获取第一医疗数据集中的多数类样本和少数类样本;
28.依据多数类样本和少数类样本,获取重要性权重的样本集;
29.依据重要性权重的样本集,调整少数类样本在所述重要性权重的样本集的比例;
30.依据调整少数类样本比例后的重要性权重的样本集,获取更新后的引入医疗数据集样本的重要性权重。
31.在另一个实施例中,所述对原始医疗数据进行第一处理包括对原始医疗数据进行去除噪声数据和缺失数据。
32.本技术实施例提供了一种医疗数据处理装置,包括:
33.第一数据处理模块,用于获取原始医疗数据,对原始医疗数据进行第一处理,获取第一医疗数据集;
34.模型训练模块,用于引入医疗数据集样本的重要性权重,依据所述第一医疗数据集对boosting模型进行训练和测试,获取评估模型;
35.评价值获取模块,用于依据所述评估模型,计算评价指标,获取评价值;
36.最优预测模型获取模块,用于依据所述评价值,获取预测效果达到最优的预测模型。
37.本技术实施例提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本技术任意实施例所提供的医疗数据处理方法的步骤。
38.本技术实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本技术任意实施例所提供的医疗数据处理方法的步骤。
39.与现有技术相比,本发明具有如下优点:
40.采用本发明的医疗数据处理方法、装置、电子设备及存储介质通过结合数据分布特点在基于boosting的集成算法的权重机制中引入数据样本的重要性权重,改进了权重的
更新机制,提升了算法对少数类样本的敏感度,通过结合群智能算法、模型分类结果的评价指标以及样本合成技术设计了模型优化流程,通过对数据分布进行迭代优化,实现了对模型的优化,有效提升模型分类准确率的同时也避免了由于数据分布造成的模型过拟合现象。
附图说明
41.图1为本发明实施例中提供的医疗数据处理方法的应用场景;
42.图2为本发明提出的医疗数据处理方法的流程图;
43.图3为一个实施例中医疗数据处理装置的结构框图;
44.图4为一个实施例中电子设备的内部结构图。
具体实施方式
45.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.下面结合附图和实施例对本发明提供的一种医疗数据处理方法、装置、电子设备及存储介质进行更详细地说明。
47.本技术提供的医疗数据处理方法,可以应用于如图1所示的应用环境中。该医疗数据处理方法应用于医疗数据处理装置中。该医疗数据处理装置可以配置在终端102或者服务器104,或者部分配置在终端102,部分配置在服务器104中,由终端102与服务器104交互完成医疗数据处理方法。
48.其中,终端102与服务器104可以通过网络进行通信。
49.其中,终端102可以但不限于是各种医疗数据获取的设备,比如医学影像资料、医学图片、医疗检测数据等等,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
50.在一个实施例中,如图2所示,提供了一种医疗数据处理方法,本实施例主要以该方法应用于图1中的终端102来举例说明,可以知晓的是,本实施例的医疗数据处理方法也可以采用一部分在终端102,一部分在服务器104共同部署的方式,通过终端102与服务器104的共同工作,完成医疗数据处理方法的各个步骤。
51.在本技术的实施例中,所述医疗数据处理方法主要应用于医疗领域,通过获取医学影像、医学图像或者一些医疗设备所检测的医疗数据,比如心电图数据、血液检测数据、尿液检测数据、生理数据,或者可穿戴设备检测的运动数据、心跳数据、人体生活作息数据、日常饮食餐饮数据等,通过分析计算,辅助发现人体病灶,提高诊断的准确率。
52.在一个具体的实施例中,如图2所示,所述医疗数据处理方法包括:
53.步骤101,获取原始医疗数据,对原始医疗数据进行第一处理,获取第一医疗数据集。
54.具体的,在本技术的一个实施例中,获取的原始医疗数据可以是医学影像资料、医学图片等,这些图像或影像资料经过数字化处理以后,即生成数据资料,通过对原始医疗数
据进行第一处理以后,具体的,所述第一处理为对原始医疗数据进行去除噪声数据和缺失数据的处理,即可得到原始数据的数据集,在这里,将这个数据集称之为第一医疗数据集。
55.具体的,在本技术的一个实施例中,对原始医疗数据进行第一处理包括去除原始数据中的噪声数据和缺失数据,通过去除噪声数据减少原始数据中的噪声,防止模型产生过拟合,具体的,比如原始的医学图像因为图像采集设备的设备问题,在图像采集中会存在大量的噪声,或者使图像含有波纹、白图像、使图像产生模糊、图像缺失等问题,通过第一处理以后,可以把原始医学图像中的噪声数据和缺失数据去除掉,使获得的第一医疗数据集只包括原始医学图像中的有用信息。
56.步骤102,引入医疗数据集样本的重要性权重,依据所述第一医疗数据集对boosting模型进行训练和测试,获取评估模型。
57.具体的,引入医疗数据集样本的重要性权重就是对第一医疗数据集中的数据的权重进行处理,以提高boosting模型所需要数据的针对性,比如,在医学诊断数据中,包括医学图像、生化数据、生理数据等,医生在进行疾病诊断时,对于这些数据的重视程度使不同的,也就是这些数据在医生的诊断意见的重视程度是不同的,因此,需要对数据集样本的重要性进行权重赋值,通过引入医疗数据集样本的重要性权重,来对第一医疗数据集中的数据进行训练,使训练的数据样本更加具有针对性和准确性。
58.具体的,在本技术的一个实施例中,所述引入医疗数据集样本的重要性权重包括:
59.获取第一医疗数据集中的多数类样本和少数类样本;具体的,多数类样本就是重要性权重较大的数据样本,少数类样本就是重要性权重较小的数据样本,比如在医疗数据中,如果医学图像的重要性权重比较大,此时,第一医疗数据集中的医学图像就是多数类样本,比如生理数据的重要性权重比较小,此时,第一医疗数据集中的生理数据就是少数类样本。
60.依据多数类样本和少数类样本,获取重要性权重的样本集;
61.依据重要性权重的样本集,调整少数类样本在所述重要性权重的样本集的比例;
62.依据调整少数类样本比例后的重要性权重的样本集,获取更新后的引入医疗数据集样本的重要性权重。
63.通过调整医疗数据集样本的重要性权重中多数类样本和少数类样本,改进权重的更新机制,能够有效提升算法对少数类样本的敏感度。
64.步骤103,依据所述评估模型,计算评价指标,获取评价值。
65.具体的,在本技术的一个实施例中,计算评价指标使通过f1-score或g-mean作为目标函数来计算的。
66.具体的,在使用第一医疗数据集中的数据对boosting模型进行训练及测试以后,即可得到基于重要性权重的第一医疗数据集的训练模型,这时,需要对最终的训练模型进行评估,以获取该模型的评价指标,这样就可以用于计算获取的最终训练模型是不是最优的预测模型,在本技术的实施例中,通过f1-score或g-mean作为目标函数来计算评价指标,对于符合评价指标的训练模型,就可以认为使最优的预测模型,对于不合法评价指标的训练模型,可以重新调整重要性权重以及第一医疗数据集中的数据样本,直至达到最优的预测模型。
67.步骤104,依据所述评价值,获取预测效果达到最优的预测模型。
68.具体的,在本技术的一个实施例中,所述依据所述评价值,获取预测效果达到最优的预测模型,包括:
69.获取评价值,并判断评价值是否达到设定的阈值或达到设定的迭代次数;具体的,评价值是通过评价指标判断的训练模型的结果,因此,通过判断评价值是否达到了设定的阈值,就可以判断是不是最优的预测模型,具体的,设定的阈值就是设定的最优的预测模型的评价值数值,如果某一预测模型的评价值大于设定的阈值,则认为该预测模型的预测效果好于最优的预测模型,如果某一预测模型的评价值小于设定的阈值,则认为该预测模型的预测效果低于最优的预测模型。考虑到数据处理的效率,如果多次计算,仍然达不到最优的预测模型的效果,那么则需要设定一个迭代次数,即,无论能否达到最优的预测模型的效果,到达了该设定的迭代次数以后,也不再进行迭代训练,将这些迭代中评价值最高的一个训练模型作为最优的评价模型。
70.如果是,则所述评估模型即为预测效果达到最优的预测模型;
71.如果否,则通过群智能优化算法计算样本分布比例,直至获取预测效果达到最佳的预测模型。
72.具体的,在本技术的一个实施例中,所述通过群智能优化算法计算样本分布比例,包括:
73.获取第一医疗数据集,并将第一医疗数据集分为多数类样本和少数类样本;
74.依据所述多数类样本和少数类样本,进行粒子群搜索,获取每个样本随机编码成的代表候选解的粒子;
75.依据所述代表候选解的粒子,将所述代表候选解的粒子从随机位置向全局最优位置迭代移动,得到群智能优化算法计算样本分布比例。
76.所述依据所述代表候选解的粒子,将所述代表候选解的粒子从随机位置向全局最优位置迭代移动,得到群智能优化算法计算样本分布比例,包括:
77.依据所述代表候选解的粒子,选择随机森林作为分类模型,选择f1-score/g-mean作为目标函数衡量样本对分类结果的影响,将所述代表候选解的粒子从随机位置向全局最优位置迭代移动,得到群智能优化算法计算样本分布比例。
78.具体的,在本技术的一个实施例中,所述通过群智能优化算法计算样本分布比例,直至获取预测效果达到最佳的预测模型,包括:
79.依据所述群智能优化算法计算样本分布比例和所述第一医疗数据集,进行样本合成,获取第二医疗数据集;
80.依据所述第二医疗数据集,进行boosting模型训练并测试,获取训练后的boosting模型;
81.依据训练后的boosting模型,进行模型评估,获取评价指标;
82.直至所述评价指标达到设定的阈值或达到设定的迭代次数。
83.具体的,在一个具体的实施例中,以宫颈癌诊断数据集为例,数据集共包含32个属性。样本集共包含858条记录,癌症患者和非癌症患者的数量分别为102和756,数据集不平衡率达到了7.41。
84.在集成算法初始化样本集权重前中引入为不同类别样本赋予重要性权重,将权重设置为与不同类别样本数量呈反比的权重来进行均衡处理,计算公式如下:
85.式中,αc为类别c样本权重,sn为样本总数,cn为类别数量,nc为类别c样本数量。
86.该样本集的多数类权重为0.57,少数类权重为4.21。
87.选用adaboost,算法对作为分类模型,训练过程如下:
88.首先,初始化训练数据的权值分布,每一个训练样本最初都被赋予相同的权值:
[0089][0090]
在该步骤中加入样本的重要性权重α,初始权重如下:
[0091]
βc=αc*ωi;
[0092]
为了增加权值的合理性可对得到的值进行归一化运算,得到权重β
′c,
[0093]
β
′c=softmax(βc);
[0094]
得到训练样本集的初始权值分布:
[0095]
d1(i)=(β

c1
,β

c2
,...β

cn
),i=1,2...,n;
[0096]
使用加权后的数据对弱分类器进行训练,得出其分类错误率,以此计算出该弱分类器权重并更新数据样本权重传入下一轮。
[0097]
进行迭代,在新一轮中增加弱分类器,重复计算分类器权重与数据权重,迭代t轮,对每轮得出结果进行加权投票,得出最终分类结果。
[0098]
计算分类结果的f1,作为评价指标。
[0099]
设置f1阈值为0.950,最大迭代次数设为100。
[0100]
使用粒子群算法,迭代100次后,得到最佳过样欠比例为2.21,根据该比例对少数类样本进行采样后少数类样本数量为328;欠采样比例为0.02,欠采样后多数类样本数量为739。使用采样后得到新数据集训练的模型f1-score达到0.903。为验证本方法模型的有效性,将未加入重要性权重训练得到的模型以及未使用粒子群优化算法后得到的模型的分类结果进行对比,三个模型在数据集上的准确率、f1、g-mean结果如下:
[0101]
模型分类结果对比
[0102] 未引入重要性权重未应用粒子群优化算法输出模型f1-score0.7430.8960.903g-mean0.7470.8570.910accuracy0.7750.8650.985
[0103]
由此可见,本发明提出模型在该小样本诊断数据集上的分类结果明显优于未引入重要性权重以及未使用优化算法进行数据采样的进行训练的模型。
[0104]
本技术实施例的医疗数据处理方法通过结合数据分布特点在基于boosting的集成算法的权重机制中引入数据样本的重要性权重,改进了权重的更新机制,提升了算法对少数类样本的敏感度,通过结合群智能算法、模型分类结果的评价指标以及样本合成技术设计了模型优化流程,通过对数据分布进行迭代优化,实现了对模型的优化,有效提升模型分类准确率的同时也避免了由于数据分布造成的模型过拟合现象。
[0105]
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的
执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0106]
在一个实施例中,如图3所示,提供了一种医疗数据处理装置,所述装置包括:第一数据处理模块、模型训练模块、评价值获取模块、最优预测模型获取模块。
[0107]
第一数据处理模块,用于获取原始医疗数据,对原始医疗数据进行第一处理,获取第一医疗数据集;
[0108]
模型训练模块,用于引入医疗数据集样本的重要性权重,依据所述第一医疗数据集对boosting模型进行训练和测试,获取评估模型;
[0109]
评价值获取模块,用于依据所述评估模型,计算评价指标,获取评价值;
[0110]
最优预测模型获取模块,用于依据所述评价值,获取预测效果达到最优的预测模型。
[0111]
具体的,在本技术的另一个实施例中,本技术的医疗数据处理装置通过最优预测模型获取模块用于获取评价值,并判断评价值是否达到设定的阈值或达到设定的迭代次数;如果是,则所述评估模型即为预测效果达到最优的预测模型;如果否,则通过群智能优化算法计算样本分布比例,直至获取预测效果达到最佳的预测模型。
[0112]
具体的,在本技术的另一个实施例中,本技术的医疗数据处理装置通过最优预测模型获取模块获取第一医疗数据集,并将第一医疗数据集分为多数类样本和少数类样本;依据所述多数类样本和少数类样本,进行粒子群搜索,获取每个样本随机编码成的代表候选解的粒子;依据所述代表候选解的粒子,将所述代表候选解的粒子从随机位置向全局最优位置迭代移动,得到群智能优化算法计算样本分布比例。
[0113]
具体的,在本技术的另一个实施例中,本技术的医疗数据处理装置通过最优预测模型获取模块依据所述代表候选解的粒子,选择随机森林作为分类模型,选择f1-score/g-mean作为目标函数衡量样本对分类结果的影响,将所述代表候选解的粒子从随机位置向全局最优位置迭代移动,得到群智能优化算法计算样本分布比例。
[0114]
具体的,在本技术的另一个实施例中,本技术的医疗数据处理装置通过最优预测模型获取模块依据所述群智能优化算法计算样本分布比例和所述第一医疗数据集,进行样本合成,获取第二医疗数据集;依据所述第二医疗数据集,进行boosting模型训练并测试,获取训练后的boosting模型;依据训练后的boosting模型,进行模型评估,获取评价指标;直至所述评价指标达到设定的阈值或达到设定的迭代次数。
[0115]
具体的,在本技术的另一个实施例中,本技术的医疗数据处理装置通过模型训练模块获取第一医疗数据集中的多数类样本和少数类样本;依据多数类样本和少数类样本,获取重要性权重的样本集;依据重要性权重的样本集,调整少数类样本在所述重要性权重的样本集的比例;依据调整少数类样本比例后的重要性权重的样本集,获取更新后的引入医疗数据集样本的重要性权重。
[0116]
具体的,在本技术的另一个实施例中,本技术的医疗数据处理装置通过第一数据处理模块对原始医疗数据进行去除噪声数据和缺失数据。
[0117]
本技术实施例的医疗数据处理装置通过结合数据分布特点在基于boosting的集
成算法的权重机制中引入数据样本的重要性权重,改进了权重的更新机制,提升了算法对少数类样本的敏感度,通过结合群智能算法、模型分类结果的评价指标以及样本合成技术设计了模型优化流程,通过对数据分布进行迭代优化,实现了对模型的优化,有效提升模型分类准确率的同时也避免了由于数据分布造成的模型过拟合现象。
[0118]
在一个实施例中,提供了一种电子设备,该电子设备内部结构图可以如图4所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、近场通信(nfc)或其他技术实现。该计算机程序被处理器执行时以实现一种医疗数据处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0119]
本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0120]
在一个实施例中,本技术提供的医疗数据处理装置可以实现为一种计算机程序的形式,计算机程序可在如图4所示的电子设备上运行。电子设备的存储器中可存储组成该医疗数据处理装置的各个程序模块,比如,图3所示的第一数据处理模块、模型训练模块、评价值获取模块、最优预测模型获取模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本技术各个实施例的医疗数据处理方法中的步骤。
[0121]
例如,图4所示的电子设备可以通过3所示的医疗数据处理装置的第一数据处理模块获取原始医疗数据,对原始医疗数据进行第一处理,获取第一医疗数据集;模型训练模块引入医疗数据集样本的重要性权重,依据所述第一医疗数据集对boosting模型进行训练和测试,获取评估模型;评价值获取模块依据所述评估模型,计算评价指标,获取评价值;最优预测模型获取模块依据所述评价值,获取预测效果达到最优的预测模型。
[0122]
在一个实施例中,处理器执行计算机程序时,实现以下步骤:获取评价值,并判断评价值是否达到设定的阈值或达到设定的迭代次数;如果是,则所述评估模型即为预测效果达到最优的预测模型;如果否,则通过群智能优化算法计算样本分布比例,直至获取预测效果达到最佳的预测模型。
[0123]
在一个实施例中,处理器执行计算机程序时,实现以下步骤:获取第一医疗数据集,并将第一医疗数据集分为多数类样本和少数类样本;依据所述多数类样本和少数类样本,进行粒子群搜索,获取每个样本随机编码成的代表候选解的粒子;依据所述代表候选解的粒子,将所述代表候选解的粒子从随机位置向全局最优位置迭代移动,得到群智能优化算法计算样本分布比例
[0124]
在一个实施例中,处理器执行计算机程序时,实现以下步骤:依据所述代表候选解的粒子,选择随机森林作为分类模型,选择f1-score/g-mean作为目标函数衡量样本对分类结果的影响,将所述代表候选解的粒子从随机位置向全局最优位置迭代移动,得到群智能
优化算法计算样本分布比例。
[0125]
在一个实施例中,处理器执行计算机程序时,实现以下步骤:依据所述群智能优化算法计算样本分布比例和所述第一医疗数据集,进行样本合成,获取第二医疗数据集;依据所述第二医疗数据集,进行boosting模型训练并测试,获取训练后的boosting模型;依据训练后的boosting模型,进行模型评估,获取评价指标;直至所述评价指标达到设定的阈值或达到设定的迭代次数。
[0126]
在一个实施例中,处理器执行计算机程序时,实现以下步骤:获取第一医疗数据集中的多数类样本和少数类样本;依据多数类样本和少数类样本,获取重要性权重的样本集;依据重要性权重的样本集,调整少数类样本在所述重要性权重的样本集的比例;依据调整少数类样本比例后的重要性权重的样本集,获取更新后的引入医疗数据集样本的重要性权重。
[0127]
在一个实施例中,处理器执行计算机程序时,实现以下步骤:对原始医疗数据进行去除噪声数据和缺失数据。
[0128]
本技术处理器执行计算机程序时通过结合数据分布特点在基于boosting的集成算法的权重机制中引入数据样本的重要性权重,改进了权重的更新机制,提升了算法对少数类样本的敏感度,通过结合群智能算法、模型分类结果的评价指标以及样本合成技术设计了模型优化流程,通过对数据分布进行迭代优化,实现了对模型的优化,有效提升模型分类准确率的同时也避免了由于数据分布造成的模型过拟合现象。
[0129]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,比如静态随机存取存储器(static random access memory,sram)和动态随机存取存储器(dynamic random access memory,dram)等。
[0130]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0131]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1