基于迁移学习的青少年IgA肾病的预测分析系统

文档序号:32350675发布日期:2022-11-26 12:56阅读:120来源:国知局
基于迁移学习的青少年IgA肾病的预测分析系统
基于迁移学习的青少年iga肾病的预测分析系统
技术领域
1.本发明涉及机器学习领域,尤其涉及一种基于迁移学习的面向青少年iga肾病的预测分析系统。


背景技术:

2.iga全称指(immunoglobulin a,即免疫球蛋白a)。iga肾病是全世界最常见的免疫性肾小球肾炎;各个年龄段都有发病,但高峰在20-40岁。迄今为止,发病的机制尚不清楚,疾病预测仍依赖于肾活检这项有创操作,虽然经过积极治疗,目前仍有高达20%-30%的患者可能恶化至终末期肾病(尿毒症)。因此我们结合机器学习,采取有效手段预测iga肾病的青少年患者的恶化情况,有重要的科学意义和现实意义。
3.但是,由于青少年的发病率较低,用于训练机器学习模型的相关样本较少,难以通过数据驱动的方式为机器学习模型提供充分的训练样本,会造成模型预测精度的显著下降,使得模型对于青少年患者的临床样本的特征预测呈现欠拟合。
4.现有的利用机器学习的iga肾病预测系统采取的判断途径主要是通过数据驱动的方式来训练iga肾病预测模型。但是,由于青少年恶化率较低,难以对肾病预测分析系统提供充足的样本。如果使用全部年龄的样本来训练青少年肾病预测系统,一方面会引入关于成年患者的样本偏置,从而使得面向青少年预测系统的泛化性不强,另一方面,由于肾病预测衡量的指标多样复杂,不可避免的会引入训练噪声。但在重要的病理特征上,青少年和成年人存在一致性。因此本发明利用迁移学习技术,利用青少年和成年人肾病数据的域分布差异,在数据效率上,改进青少年肾病预测。
5.本发明利用迁移学习的技术方法,提供综合考虑青少年患者的临床病理数据和历史成年患者的病理数据以及恶化状态的肾病预测系统,并基于该系统提供预测青少年患者iga肾病恶化的概率的装置,使得预测结果相对更加准确。


技术实现要素:

6.本发明的目的是提供一套基于迁移学习的青少年iga肾病恶化预测的分析系统,即基于迁移学习的青少年iga肾病的预测分析系统,该系统综合运用青少年和成年历史临床检查数据,面向青少年患者是否恶化为终末期肾病(尿毒症),采用迁移学习技术进行评估。该预测分析系统包含样本数据采集模块,数据预处理模块,数据归一化模块,基于迁移学习方法的模型训练模块,模型预测模块以及报告展示模块。通过样本数据采集模块中的临床病理采集装置采集数据,随后,在模型训练模块中,基于迁移学习方法训练得到青少年iga肾病恶化概率预测模型;通过模型预测模块利用训练得到的概率预测模型预测新的临床样本的病情恶化概率;最后,报告生成展示装置生成临床样本的病情恶化概率预测报告。
7.其中,针对青少年患者临床样本不足的问题,基于迁移学习方法的预测系统通过临床病理数据预测患者iga肾病恶化的概率,使得预测的结果更加准确。并通过预测报告分析设备生成患者iga肾病恶化概率的预测报告。
8.本发明提出了一种基于迁移学习的面向青少年iga肾病的预测分析系统,该系统包含以下模块:
9.1、数据采集模块:采集青少年(iga)患者样本的临床检查数据和病理检查数据以及青少年患者样本对应的恶化标签、成年(iga)患者样本的临床检查数据和病理检查数据,以及成年患者样本对应的恶化标签。
10.青少年患者数量和成年患者数量大致为1:1;
11.所述临床检查数据,即通过相关医疗仪器对青少年患者或成年患者采集血液样本进行血液检查和采集尿液样本进行尿液检查得到的化验单数据,包含血肌酐、肾小球滤过率、血压、尿酸等数据;
12.所述病理检查数据,即通过对青少年患者或成年患者的肾脏进行切片进行活体检查得到的与所患肾脏病相关的数据,包含m、e、s、t、c五类指标,其中,m(mesangial hyperc ellularity)表示系膜细胞增生:超过50%的肾小球存在系膜细胞增生则为m1,否则为m0;e(endocapillary hypercellularity)表示毛细血管内皮细胞增生:如果有毛细血管内皮细胞增生则为e1,否则为e0;s(segmental glomerulosclerosis)表示肾小球节段硬化:如果有肾小球节段硬化或黏连为s1,否则为s0;t(tubular atrophy/interstitial fibrosis)表示肾小管萎缩或肾间质纤维化:t0表示肾小管萎缩或肾间质纤维化的比例小于25%,t1表示肾小管萎缩或肾间质纤维化的比例大于25%小于50%,t2表示肾小管萎缩或肾间质纤维化的比例超过50%;c(cellular fibrocellular crescents)表示细胞性或纤维细胞性新月体:c0表示不存在细胞性或纤维细胞性新月体,c1表示存在小于25%的肾小球存在细胞性或纤维细胞性新月体,c2表示存在超过25%的肾小球细胞性或纤维细胞性新月体;
13.所述恶化标签,即iga肾病是否恶化,即是否达到终末期肾病或egfr(肾小球滤过率)下降大于50%。其中,终末期肾病指egfr<15ml/min/1.73m2或开始进行肾脏替代治疗的时间持续3个月以上。
14.2、数据预处理模块:对青少年患者和成年患者的临床检查数据和病理检查数据进行数据增强预处理,并剔除有数据缺失的样本,最终得到可用于后续模型训练及预测的临床检查数据特征和病理检查数据特征表示,再将二者进行直接拼接组合,构成下文统称的临床数据特征,作为后续模型训练及测试的输入数据,患者(包括青少年患者和成年患者)的临床数据特征表示为f=[f1,f2,

,fn]。其中,fi表示第i个特征,n表示共有n个特征。将恶化标签处理为1和0的二分类标签y,作为后续模型训练及测试的标签,其中1表示患者iga肾病恶化,0表示iga肾病没有恶化。
[0015]
所述数据增强包含对样本数据的增广。
[0016]
3、数据归一化模块:接着,将得到的患者(包括青少年患者和成年患者)临床数据特征f进行数据归一化操作,最终得到可用于后续模型训练及测试的(青少年患者和成年患者)数据集。所述数据集中的每一个数据样本包括该患者(可以是青少年患者或成年患者)归一化后的临床数据特征及该患者对应的恶化标签。最终的面向青少年的iga肾病预测模型的数据集由训练集和测试集两部分构成。其中训练集由成年患者的全部数据集样本以及青少年患者的70%的数据集样本构成,测试集由青少年患者的30%的数据集样本构成。
[0017]
所述数据归一化指通过如下公式将临床数据特征f映射到0-1之间,避免因为数据范围相差过大,增加模型训练的难度。
[0018][0019]
上式中,fi表示对应患者的临床数据特征表示为f中的第i个临床数据特征,f
min
表示所有患者(包括青少年患者和成年患者)的第i个临床数据特征的最小值,f
max
表示所有患者(包括青少年患者和成年患者)的第i个临床数据特征的最大值。xi表示第i个临床数据特征被归一化之后的标准特征值。那么,最终归一化之后的临床数据特征表示为x=[x1,x2,

,xn]。
[0020]
其中,因为iga肾病的青少年样本数量很少,难以为青少年的iga肾病诊断模型提供充足的训练数据,对于成年患者样本数量相对较多,但由于青少年患者与成年患者的数据差异,不能直接将成年患者样本用于训练面向青少年的iga肾病预测模型。因此,本发明通过迁移学习技术,实现基于迁移学习利用成年患者数据的青少年iga肾病的预测分析系统。对于数量相对较多的成年患者样本,可以得到其病情恶化的情况,将成年患者的恶化情况的概率表示为
[0021]
4、迁移学习方法的模型训练模块:在该模块中通过迁移学习方法,训练构建的面向青少年的iga肾病预测模型,用于后续的青少年患者样本恶化概率预测。所述面向青少年的iga肾病预测模型训练方法,采用迭代训练方法训练。对于一个给定的输入的训练集数据样本,将临床数据特征分别输入面向青少年的iga肾病预测模型中的肾病预测分类器和数据域分类器中。其中,数据域分类器用于判断输入的数据样本是来自成年患者还是青少年患者,当输入数据样本为成年患者时,肾病预测分类器用于判断成年患者的患病情况,当输入数据样本为青少年患者时,面向青少年的iga肾病预测模型只需要计算数据域分类器的损失函数最终,使用所述肾病预测分类器的损失函数对所述面向青少年的iga肾病预测模型进行训练。当面向青少年的iga肾病预测模型的精度满足预设阈值要求,停止训练。
[0022]
其中,模型的精度,是指模型准确率,即测试集中分类正确的样本数占测试集中的总的样本数的比例。
[0023]
所述迁移学习方法,指将某个数据域上学习到的知识或模式应用到与源数据域有差异但相关的数据域或问题中。在本发明中,来自成年患者的临床数据称为源数据域(以下简称源域),来自青少年患者的临床数据称为目标数据域(以下简称目标域),因为由于成年患者和青少年患者的体质年龄差异,并不能将在成年患者上训练得到的肾病预测模型直接用于青少年患者。通过迁移学习方法,获得成年患者和青少年患者的对于肾病的域不变的特征,将来自源数据域的成年患者的肾病恶化模式,结合青少年的自身临床以及病理特征,应用到青少年患者的iga肾病恶化预测中。
[0024]
在该模块中,输入数据为数据预处理模块中预处理之后得到的青少年患者和成年患者的归一化临床数据特征x=[x1,x2,

,xm]以及数据预处理模块处理得到的成年患者的恶化标签y。最终的训练目标是得到面向青少年的iga肾病预测模型,用于后续的青少年患者样本恶化概率预测,当面向青少年的iga肾病预测模型的准确度满足要求,停止训练。
[0025]
所述面向青少年的iga肾病预测模型,主要包含肾病预测分类器和数据域分类器,将成年患者的临床数据特征和青少年患者的临床数据特征输入肾病预测分类器和数据域分类器后,通过对抗学习的方式,利用肾病预测分类器、数据域分类器,以及面向青少年的
iga肾病预测模型的相应的损失函数,保留成年患者和青少年患者的域不变的特征。
[0026]
所述域不变的特征,指克服青少年患者和成年患者的数据分布差异,如因年龄不同而临床数据指标表示不同的数据特征,而对于判断肾病恶化概率起着关键表示作用的特征;保留域不变的特征,即消除了成年患者和青少年患者的有差异和独有的特征,而保留与iga肾病有相关度和相似性的特征。
[0027]
所述肾病预测分类器,是一个具有多层感知器的全连接神经网络,输入数据预处理模块得到的成年患者或青少年患者归一化临床数据特征x=[x1,x2,

,xn],通过肾病预测分类器,输出iga肾病情况的恶化概率
[0028]
所述数据域分类器,是一个二分类的神经网络,用于判别输入数据域分类器的特征是来自于源域,还是目标域,在输入数据预处理模块得到的归一化临床数据特征x=[x1,x2,

,xn],输出分类器的判断结果,0表示源域,1表示目标域。数据域分类器仅在所述面向青少年的iga肾病预测模型的训练阶段使用,目的是获取域不变的通用特征。在使用所述面向青少年的iga肾病预测模型进行预测青少年患者肾病情况的时候不需要。
[0029]
所述对抗学习方式,指通过肾病预测分类器和数据域分类器之间的对抗,数据域分类器需要域相关的(容易区分的)成年患者和青少年患者的临床数据特征才能够准确区分出样本来自哪个数据域,而肾病预测分类器则需要域不变的临床数据特征,才能有效地预测成年和青少年患者的iga肾病恶化概率。通过对抗学习的方式,来学习得到成年患者和青少年患者的域不变的特征,用于预测青少年患者的恶化概率。
[0030]
所述面向青少年的iga肾病预测模型在训练过程中,使用损失函数其中,为肾病预测分类损失函数,该损失函数用于对比模型预测的成年患者的恶化概率与成年患者的恶化标签,因此仅适用于成年患者样本,为数据域分类器的对抗损失函数。
[0031]
其中,的表示如下:
[0032][0033]
上式中,y表示成年患者样本的真实的恶化标签,表示成年患者样本的模型预测的肾病恶化概率。
[0034]
所述数据域分类器的对抗损失函数如下:
[0035][0036]
上式中,di′
表示第i

个训练集样本的数据域标签。当di′
=0时,表示来自成年患者的数据域,即源域;而当di′
=1时,表示来自青少年患者的数据域,即目标域。pi′
表示对第i

个样本的所属的数据域的预测概率,log表示以e为底。
[0037]
则最终的面向青少年的iga肾病预测模型预测损失函数如下:
[0038][0039]
5、模型预测模块:在该模块中,使用迁移学习方法的模型训练模块中训练得到的面向青少年的iga肾病预测模型预测临床样本的iga肾病恶化概率。
[0040]
在采用训练得到的面向青少年的iga肾病预测模型进行预测时,只需要使用肾病预测分类器。对于测试集样本,输入数据预处理模块得到待测试的青少年患者样本的临床数据特征x=[x1,x2,

,xn],将提取到的临床数据特征直接输入肾病预测分类器中,训练得到的面向青少年iga肾病预测模型即可以通过肾病预测分类器输出青少年患者的iga肾病恶化概率。
[0041]
6、报告生成模块:输出对给定的待测试的青少年患者的肾病恶化情况分析报告,并将报告上传到基于迁移学习的青少年iga肾病的预测分析系统平台,患者可在手机、平板等终端查询。
[0042]
本发明将成年患者中传统肾病检查中的临床数据与青少年患者的临床数据结合起来,进行综合考虑,使检查效果更准确,运用人工智能算法自动比较分析,提高青少年患者预测效率;通过比较不同年龄的患者的检查数据,有助于医生掌握疾病发展规律,有利于治疗与预后。
附图说明
[0043]
图1是基于迁移学习的青少年iga肾病的预测分析系统示意图;
[0044]
图2基于迁移学习的青少年iga肾病的预测分析系统工作流程图。
具体实施方式
[0045]
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,所描述的实施例是本发明一部分实施例,而不是全部的实施例,也并非旨在限制要求保护的本发明的范围。本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046]
如图1所示,本发明提供的一种基于迁移学习的青少年iga肾病的预测分析系统,以成年患者的历史临床数据和恶化结果以及青少年患者的临床数据作为输入,以青少年患者可能恶化的概率作为输出,包括数据采集模块、数据预处理模块、数据归一化模块、迁移学习方法的模型训练模块、模型预测模块和报告生成模块,所述数据采集模块用于采集青少年患者样本的临床检查数据和病理检查数据以及青少年患者样本对应的恶化标签、成年患者样本的临床检查数据和病理检查数据,以及成年患者样本对应的恶化标签。
[0047]
所述数据预处理模块用于对青少年患者和成年患者的临床检查数据和病理检查数据进行数据增强,并剔除有数据缺失的样本,最终得到用于后续模型训练及预测的临床检查数据特征和病理检查数据特征表示,再将临床检查数据特征和病理检查数据特征二者进行直接拼接组合,构成临床数据特征,作为后续模型训练及测试的输入数据。
[0048]
所述数据归一化模块用于将得到的患者临床数据特征进行数据归一化操作,最终得到用于后续模型训练及测试的数据集,所述数据集中的每一个数据样本包括患者归一化后的临床数据特征及该患者对应的恶化标签,所述数据集由训练集和测试集两部分构成。
[0049]
所述迁移学习方法的模型训练模块通过迁移学习方法,训练构建的面向青少年的iga肾病预测模型,用于后续的青少年患者样本恶化概率预测。
[0050]
所述模型预测模块使用所述迁移学习方法的模型训练模块中训练得到的面向青
少年的iga肾病预测模型来预测临床样本的iga肾病恶化概率。
[0051]
所述报告生成模块用于输出待测试的青少年患者的iga肾病恶化情况分析报告,并将报告上传到基于迁移学习的青少年iga肾病的预测分析系统平台,用于患者在手机、平板等终端进行查询。
[0052]
具体地,如图2所示,所述基于迁移学习的青少年iga肾病的预测分析系统的工作流程包括:
[0053]
s1、数据采集:通过数据采集模块,采集青少年患者的临床检查数据和病理检查数据和青少年患者对应的恶化状态作为恶化标签,用于测试训练得到的面向青少年的iga肾病预测模型的效果;通过数据采集模块,采集成年患者的临床检查数据、病理检查数据和成年患者对应的恶化状态作为恶化标签;
[0054]
s2、青少年患者数据预处理:对青少年患者的临床检查数据和病理检查数据进行预处理,包括数据增强和归一化,剔除有数据缺失的样本,并对隐私信息进行脱敏处理等,将临床检查数据和病理检查数据直接进行拼接组合,得到可用于后续模型训练及预测的临床数据特征表示;对青少年患者的恶化标签进行预处理,处理为1和0的恶化标签;临床数据特征表示及恶化标签构成了青少年患者数据集;
[0055]
s3、成年患者数据预处理:对成年患者的临床检查数据和病理检查数据进行预处理,包括数据增强,剔除有数据缺失的样本,并对隐私信息进行脱敏处理等,将临床检查数据和病理检查数据直接进行拼接组合,得到可用于后续模型训练及预测的临床数据特征表示;对成年患者的恶化标签进行预处理,处理为1和0的恶化标签;临床数据特征表示及恶化标签构成了成年患者数据集;
[0056]
s4、成年和青少年患者数据归一化:对成年患者的临床数据特征和青少年患者的临床数据特征进行归一化;
[0057]
s5、划分训练集和测试集:将成年患者的全部数据集以及青少年患者的70%的数据集划分为训练集,用于后续模型训练;将青少年患者的30%的数据集划分为测试集,用于后续模型测试;
[0058]
s6、基于迁移学习的面向青少年iga肾病预测模型训练:
[0059]
迁移学习指将某个数据域上学习到的知识或模式应用到有差异但是却相关的数据域或问题中。基于迁移学习的面向青少年iga肾病预测模型,主要包含肾病预测分类器和数据域分类器,将成年患者的数据特征和青少年患者的数据特征输入后,通过对抗学习的方式,利用肾病预测分类器、数据域分类器和相应的损失函数,保留成年患者和青少年患者的域不变的特征。
[0060]
在本发明中,来自成年患者的患病数据称为源域,而来自青少年患者的患病数据称为目标域。将数据预处理模块中预处理之后得到的青少年患者和成年患者的归一化临床数据特征x=[x1,x2,

,xn]以及数据预处理模块处理得到的成年患者的恶化标签y作为输入,分别输入肾病预测分类器和数据域分类器中,使用损失函数进行训练。当面向青少年的iga肾病预测模型的准确度满足要求,停止训练;
[0061]
所述肾病预测分类器,是一个具有多层感知器的全连接神经网络,输入数据预处理模块得到的的归一化临床数据特征x=[x1,x2,

,xn],通过肾病预测分类器,输出iga肾病情况的恶化概率
[0062]
所述数据域分类器,是一个二分类的神经网络,用于判别输入数据域分类器的特征是来自于源域,还是目标域,在输入数据预处理模块得到的归一化临床数据特征x=[x1,x2,

,xn],输出分类器的判断结果,0表示源域,1表示目标域。数据域分类器仅在所述面向青少年的iga肾病预测模型的训练阶段使用,目的是获取域不变的通用特征。在使用所述面向青少年的iga肾病预测模型进行预测青少年患者肾病情况的时候不需要。
[0063]
其中,数据域分类器仅在训练阶段使用,目的是获取数据域不变的通用特征。在测试阶段不需要。训练面向青少年的iga肾病预测模型时,使用的损失函数其中,为肾病预测分类损失函数,为数据域分类器的对抗损失函数。
[0064]
其中,的表示如下:
[0065][0066]
上式中,y表示成年患者临床样本的恶化状态标签,表示成年患者临床样本的模型预测概率。
[0067]
所述数据域分类器的损失函数如下:
[0068][0069]
上式中,di′
表示第i

个训练集样本(的数据域标签。当di′
=0时,表示来自成年患者的数据域,即源域;而当di′
=1时,表示来自青少年患者的数据域,即目标域。
[0070]
则最终的迁移学习肾病预测损失函数如下:
[0071][0072]
对于分类的结果,使用上述提及的迁移学习肾病预测损失函数进行训练。当模型的精度满足要求,停止训练。
[0073]
s7、青少年患者iga肾病的概率预测:
[0074]
当模型预测时,只需要使用到训练完成的面向青少年的iga肾病预测模型中的肾病预测分类器。采用一维的cnn模型对数据域不变的特征进行提取之后,对于一个给定的待预测青少年患者的临床数据样本,得到提取的临床数据特征。再将提取到的临床数据特征直接输入肾病预测分类器中,即可以输出青少年患者的iga肾病恶化概率。
[0075]
s8、青少年患者肾病检查报告生成:青少年患者肾病预测报告与分析,该模块输出对待预测青少年患者的肾病恶化情况检查与病情分析报告,并将报告上传到系统平台,患者可在手机、平板电脑端查询。
[0076]
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1