本发明涉及一种基于机器学习的软组织肉瘤复发概率预测方法,属于医学图像处理技术领域。
背景技术:
现有针对软组织肉瘤复发概率的预测方法,主要存在两方面问题:首先,医生根据经验观察肉瘤的医学影像,对肉瘤尺寸、组织学类型、病理学等级等内容进行判断,往往因医生的能力和经验不同导致巨大的差异,可能会导致耽误治疗;其次,基于软组织肉瘤数据中的某些特定特征信息,可以建立数学模型开展复发风险预测,然而现有的模型中,过度依赖于模型中使用的特定特征,由于软组织肉瘤的形态差异大、特征多且复杂,则会导致预测准确率低、可靠性差。
技术实现要素:
针对现有技术存在的上述缺陷,本发明提出了一种基于机器学习的软组织肉瘤复发概率预测方法,利用各城市、医院中较为容易采集的核磁共振mri影像提取典型特征,并综合采用bp神经网络和随机森林算法建立软组织肉瘤复发概率预测模型,可以对软组织肉瘤复发风险进行预测。
本发明所述的基于机器学习的软组织肉瘤复发概率预测方法,包括如下步骤:
s1:基于样本数据的复发概率计算:通过收集软组织肉瘤患者的信息并进行换算,以获知单个患者的复发概率,包括如下小步:
s11:收集软组织肉瘤病人的样本{d1,d2,d3,...,dn},建议样本数量n≥100;
s12:针对每个样本计算其复发概率,包括如下具体小步:
s121:针对样本i,划分包含样本i的全部子样本
s122:针对子样本
式中:n3-r、n5-r分别为子样本
s123:计算样本i的复发概率,即:
s124:则获知全部样本的{d1,d2,d3,...,dn}的三年期复发概率
s125:利用复发时间t,分别对三年期复发概率和五年期复发概率进行换算,即:
式中:复发时间t代表术后第几个月复发,t取值范围[1,60];
s2:面向软组织肉瘤复发的特征筛选:针对样本数据集,筛选其中的常规特征和图像特征;
s3:基于特征的样本数据处理:根据步骤s1和步骤s2,获得采集样本{d1,d2,d3,...,dn}中所有样本对应的常规特征、影像特征、3年期复发概率和5年期复发概率,对其常规特征及影像特征进行处理,包括如下小步:
s31:常规特征处理;
s32:影像特征处理:针对样本{d1,d2,d3,...,dn}的所有影像特征
s32:数据集划分:分为测试集与训练集划分,其中:训练集用于机器学习算法的训练,而测试集用于检验机器学习算法的优劣,将数据集按照3年期复发概率或5年期复发概率从大到小排序,按照序号选取一定规律的样本作为测试集,剩余数据作为训练集;
s4:基于机器学习模型的复发概率预测:根据步骤s1、步骤s1和步骤s2,获得全部样本的完整数据集,采用bp神经网络和随机森林实现样本特征与复发概率的映射,包括如下小步:
s41:模型训练:包括bp神经网络和随机森林,其中:
s411:bp神经网络;
s412:随机森林;
s42:模型评价及确定:将对应三年期复发概率
则对三年期和五年期预测值和真实值之间的差异v3和v5进行计算,即:
参数v3,v5值越大,代表预测值与真值的差距越大,即对应的模型的误差越大,效果越不好;
针对全部模型的参数vann、vrf,选择其中的最小值min{vann,vrf}对应的模型即为软组织肉瘤复发概率预测模型。
优选地,所述步骤s11中,收集软组织肉瘤病人的样本信息包含:病人个人信息、病理学特征、影像特征、术后3年是否复发、术后5年是否复发。
优选地,所述步骤s2中,软组织肉瘤复发的特征包括:
s21:常规特征包括性别、年龄和术后时间;
s22:图像特征,利用核磁共振设备获得的mri影像提取图像特征。
优选地,所述步骤s22中,核磁共振设备获得的mri影像按照成像方式不同,分为t1加权成像和t2加权成像。
优选地,所述步骤s22中,t1加权成像,包括如下情况:
情况一:小波-低低低频子带成像模式下:
(a)灰度级区域矩阵的大面积高灰度水平因子特征;
(b)灰度级区域矩阵的小面积高灰度水平因子特征;
情况二:小波-低低高频子带成像模式下:
(a)相邻灰度差矩阵的粗糙度特征;
(b)一阶统计量的总能量特征;
情况三:小波-高低低频子带成像模式下:
(a)灰度级相关矩阵的小依赖低灰度水平因子特征;
情况四:小波-高低高频子带成像模式下:
(b)灰度级区域矩阵的大面积高灰度水平因子特征;
(c)灰度级区域矩阵的小面积高灰度水平因子特征;
情况五:5mm拉普拉斯算子三维成像模式下:
(a)灰度差异矩阵的依赖不均匀规范化特征;
(b)灰度共生矩阵的马修斯相关系数特征;
(c)一阶统计量的峰态特征;
情况六:15mm拉普拉斯算子三维成像模式下:
(a)灰度差异矩阵的依赖不均匀规范化特征;
(b)一阶统计量的峰态特征;
情况七:原始成像模式下:
(a)灰度共生矩阵的逆方差特征;
(b)灰度差异矩阵的大依赖高灰度水平因子特征;
(c)灰度区域矩阵的大面积高灰度水平因子特征。
优选地,所述步骤s22中,t2加权成像,包括如下情况:
情况一:原始成像模式下:
(a)形状的延伸率特征;
(b)灰度共生矩阵的逆方差特征;
(c)灰度差异矩阵的大依赖高灰度水平因子特征;
情况二:小波-高高高频子带成像模式下:
(a)相邻灰度差矩阵的对比度特征;
(b)灰度级区域矩阵的灰度级非均匀归一化特征;
(c)灰度游程矩阵的长游程高灰度因子特征;
(d)一阶统计量的均值特征
情况三:15mm拉普拉斯算子三维成像模式下:
(a)一阶统计量的90分位值特征;
(b)一阶统计量的峰态特征;
情况四:5mm拉普拉斯算子三维成像模式下:
(a)灰度差异矩阵的依赖不均匀规范化特征;
(b)灰度共生矩阵的马修斯相关系数特征;
情况五:小波-高低高频子带成像模式下:
(a)灰度共生矩阵的逆方差特征;
(b)灰度共生矩阵的聚类阴影特征;
情况六:小波-低低低频子带成像模式下:
(a)灰度共生矩阵的逆方差特征;
(b)灰度级区域矩阵的小面积高灰度水平因子特征。
优选地,所述步骤s31中,常规特征处理,包括如下内容:
a)性别:男取1女取0;
b)年龄:0~10岁取0.1,10~20岁取0.2,20~30岁取0.3,30~40岁取0.4,40~50岁取0.5,50~60岁取0.6,60~70岁取0.7,70~80岁取0.8,80~90岁取0.9,90岁以上取1;
c)术后时间:实际月数m除以60。
优选地,所述步骤s32中,数据集划分按照序号选取等差数列,即第3、6、9、12、15、18、21、24、27、30…的样本作为测试集,剩余数据作为训练集。
优选地,所述步骤s411中,bp神经网络包括如下内容:
a)选用5层网络结构:即输入层、隐藏层1、隐藏层2、隐藏层3和输出层lin,ly1,ly2,ly3,lout;
b)5层神经元个数:分别为:sin,sy1,sy2,sy3,sout,其中:sy1的取值范围[16,30],sy2取值范围[8,12],sy3取值范围[3,5];
c)网络初始权重:取随机值;
d)激活函数:激活函数采用sigmoid函数,计算公式为
e)误差函数:采用和方差sse;
f)学习速率:取值范围[0.1,0.5]。
优选地,所述步骤s412中,随机森林中涉及的关键参数设置如下:
每次迭代的变量抽样数值,设为10;
随机森林包含的决策树数目,设为3000。
本发明的有益效果是:
(1)基于医院收集的软组织肉瘤患者样本,利用样本抽样的思维,对个体样本进行软组织肉瘤三年期和五年期复发概率值计算,并结合复发时间数据,对复发概率值进行换算,获得准确可靠的个体软组织肉瘤患者复发概率;
(2)利用软组织肉瘤患者的数据集,提取年龄、性别、核磁共振mri影像等33个典型特征,建立bp神经网络和随机森林模型实现特征与复发概率值的映射,并根据预测值和真实值的差异确定最终的软组织肉瘤复发概率预测模型。
附图说明
图1是本发明的流程原理框图。
图2是本发明的流程体系图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1和图2所示,本发明所述的基于机器学习的软组织肉瘤复发概率预测方法,主要。第一,基本软组织肉瘤样本数据的复发概率计算;第二,针对样本数据集,筛选其中的常规特征和图像特征;第三,针对样本数据集,实施常规特征处理、影像特征处理和数据集划分;最后,联合bp神经网络模型和随机森林,进行复发概率预测模型构建。
本发明具体包括如下步骤:
步骤s1:基于样本数据的复发概率计算:
针对单个软组织肉瘤患者,很难获知其精准的复发概率,因此要收集足够的软组织肉瘤患者的信息,进行换算,以获知单个患者的复发概率。
首先,收集软组织肉瘤病人的样本{d1,d2,d3,...,dn},样本数量建议超过100(n≥100),数据样本信息包含:病人个人信息、病理学特征、影像特征、术后3年是否复发、术后5年是否复发等。
其次,针对每个样本计算其复发概率,方式如下:
(1)针对样本i,划分包含样本i的全部子样本
(2)针对子样本
(3)计算样本i的复发概率,方式如下:
(4)则可获知全部样本的{d1,d2,d3,...,dn}的三年期复发概率
(5)利用复发时间t(t1,t2,...,tn∈[1,60],当t=10时代表术后第10个月复发),分别对三年期复发概率和五年期复发概率进行换算,公式如下:
步骤s2:面向软组织肉瘤复发的特征筛选:
面向软组织肉瘤复发的特征主要包括两类,一类是常规特征,一类是医疗影像特征。本发明筛选作为软组织肉瘤复发概率计算的依据特征包括:
(一)常规特征
(1)性别,(2)年龄,(3)术后时间(月)
(二)医疗影像特征
本发明利用核磁共振设备获得的mri影像提取其中30个图像特征。具体包括:
t1加权成像中,小波-低低低频子带(wavelet-lll)成像模式下
(1)灰度级区域矩阵(glszm)的大面积高灰度水平因子(largeareahighgraylevelemphasis)特征;
(2)灰度级区域矩阵(glszm)的小面积高灰度水平因子(samllareahighgraylevelemphasis)特征;
t1加权成像中,小波-低低高频子带(wavelet-llh)成像模式下
(3)相邻灰度差矩阵(ngtdm)的粗糙度(coarseness)特征;
(4)一阶统计量(firstorder)的总能量(totalenergy)特征;
t1加权成像中,小波-高低低频子带(wavelet-hll)成像模式下
(5)灰度级相关矩阵(gldm)的小依赖低灰度水平因子(smalldependencelowgraylevelemphasis)特征;
t1加权成像中,小波-高低高频子带(wavelet-hlh)成像模式下
(6)灰度级区域矩阵(glszm)的大面积高灰度水平因子(largeareahighgraylevelemphasis)特征;
(7)灰度级区域矩阵(glszm)的小面积高灰度水平因子(samllareahighgraylevelemphasis)特征;
t1加权成像中,5mm拉普拉斯算子三维(log-sigma-0-5-mm-3d)成像模式下
(8)灰度差异矩阵(gldm)的依赖不均匀规范化(dependencenon-uniformitynormalized)特征;
(9)灰度共生矩阵(glcm)的马修斯相关系数(mcc)特征;
(10)一阶统计量(firstorder)的峰态(kurtosis)特征;
t1加权成像中,15mm拉普拉斯算子三维(log-sigma-1-5-mm-3d)成像模式下
(11)灰度差异矩阵(gldm)的依赖不均匀规范化(dependencenon-uniformitynormalized)特征;
(12)一阶统计量(firstorder)的峰态(kurtosis)特征;
t1加权成像中,原始(original)成像模式下
(13)灰度共生矩阵(glcm)的逆方差(inversevariance)特征;
(14)灰度差异矩阵(gldm)的大依赖高灰度水平因子(largedependencehighgraylevelemphasis)特征;
(15)灰度区域矩阵(glszm)的大面积高灰度水平因子(largeareahighgraylevelemphasis)特征;
t2加权成像中,原始(original)成像模式下
(16)形状(shape)的延伸率(elongation)特征;
(17)灰度共生矩阵(glcm)的逆方差(inversevariance)特征;
(18)灰度差异矩阵(gldm)的大依赖高灰度水平因子(largedependencehighgraylevelemphasis)特征;
t2加权成像中,小波-高高高频子带(wavelet-hhh)成像模式下
(19)相邻灰度差矩阵(ngtdm)的对比度(contrast)特征;
(20)灰度级区域矩阵(glszm)的灰度级非均匀归一化(graylevelnon-uniformitynormalized)特征;
(21)灰度游程矩阵(glrlm)的长游程高灰度因子(longrunhighgraylevelemphasis)特征;
(22)一阶统计量(firstorder)的均值(mean)特征
t2加权成像中,15mm拉普拉斯算子三维(log-sigma-1-5-mm-3d)成像模式下
(23)一阶统计量(firstorder)的90分位值(90percentile)特征;
(24)一阶统计量(firstorder)的峰态(kurtosis)特征;
t2加权成像中,5mm拉普拉斯算子三维(log-sigma-0-5-mm-3d)成像模式下
(25)灰度差异矩阵(gldm)的依赖不均匀规范化(dependencenon-uniformitynormalized)特征;
(26)灰度共生矩阵(glcm)的马修斯相关系数(mcc)特征;
t2加权成像中,小波-高低高频子带(wavelet-hlh)成像模式下
(27)灰度共生矩阵(glcm)的逆方差(inversevariance)特征;
(28)灰度共生矩阵(glcm)的聚类阴影(clustershade)特征;
t2加权成像中,小波-低低低频子带(wavelet-lll)成像模式下
(29)灰度共生矩阵(glcm)的逆方差(inversevariance)特征;
(30)灰度级区域矩阵(glszm)的小面积高灰度水平因子(samllareahighgraylevelemphasis)特征;
步骤s3:基于特征的样本数据处理:
根据步骤s1和s2内容,可获得采集样本({d1,d2,d3,...,dn})中所有样本对应的常规特征、影像特征、3年期复发概率和5年期复发概率。对其常规特征及影像特征进行处理,具体如下:
(1)常规特征处理
a)性别:男取1女取0
b)年龄:0~10岁取0.1,10~20岁取0.2,20~30岁取0.3,30~40岁取0.4,40~50岁取0.5,50~60岁取0.6,60~70岁取0.7,70~80岁取0.8,80~90岁取0.9,90岁以上取1
c)术后时间:实际月数m除以60(m/60)
(2)影像特征处理
针对样本({d1,d2,d3,...,dn})的所有影像特征
(3)数据集划分
测试集与训练集划分,训练集用于机器学习算法的训练,而测试集用于检验机器学习算法的优劣。
将数据集按照3年期复发概率或5年期复发概率从大到小排序,按照序号选取其中第3、6、9、12、15、18、21、24、27、30…(等差数列)的样本作为测试集,剩余数据作为训练集。
步骤s4:基于机器学习模型的复发概率预测:
根据步骤s1、s2、s3内容,可获得全部样本的完整数据集,本发明采用bp神经网络(backpropagationneuralnetwork)和随机森林(ramdomforrest)实现样本特征(含常规特征和影像特征)与3年期复发概率(或5年期复发概率)的映射。
(1)模型训练
1)bp神经网络
a)选用5层网络结构,即输入层、隐藏层1、隐藏层2、隐藏层3和输出层lin,ly1,ly2,ly3,lout;
b)各层神经元个数分别为:sin,sy1,sy2,sy3,sout。其中,sin=33、sout=1,分别对应33个特征值和1个输出(3年期复发概率或5年期复发概率),sy1的取值范围[16,30],sy2取值范围[8,12],sy3取值范围[3,5];
c)网络初始权重:取随机值;
d)激活函数:激活函数采用sigmoid函数,计算公式为
e)误差函数:采用和方差(sse);
f)学习速率:取值范围[0.1,0.5]。
2)随机森林
算法中涉及的关键参数设置如下:
每次迭代的变量抽样数值,设为10;
随机森林包含的决策树数目,设为3000;
(2)模型评价及确定
将所有的测试样本(对应三年期复发概率
则对三年期和五年期预测值和真实值之间的差异v3和v5进行计算,公式如下:
参数v3,v5值越大,代表预测值与真值的差距越大,即对应的模型(神经网络或随机森林)的误差越大,效果越不好。
针对全部模型的参数vann、vrf,选择其中的最小值min{vann,vrf}对应的模型即为本发明的软组织肉瘤复发概率预测模型。可以推广至其他领域、区域、样本中应用。
本发明的效果是:(1)基于医院收集的软组织肉瘤患者样本,利用样本抽样的思维,对个体样本进行软组织肉瘤三年期和五年期复发概率值计算,并结合复发时间数据,对复发概率值进行换算,获得准确可靠的个体软组织肉瘤患者复发概率。(2)利用软组织肉瘤患者的数据集,提取年龄、性别、核磁共振mri影像等33个典型特征,建立bp神经网络和随机森林模型实现特征与复发概率值的映射,并根据预测值和真实值的差异确定最终的软组织肉瘤复发概率预测模型。
本发明可广泛运用于医学图像处理场合。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。