一种基于机器学习的软组织肉瘤等级判断方法与流程

文档序号:24241671发布日期:2021-03-12 13:16阅读:429来源:国知局
一种基于机器学习的软组织肉瘤等级判断方法与流程

本发明属于医疗技术领域,具体涉及一种基于机器学习的软组织肉瘤等级判断方法。



背景技术:

软组织肉瘤来源于脂肪、筋膜、肌肉、纤维、淋巴及血管,发病率约3/10万,其恶性程度高,可见于任何年龄段、任何部位,如果得不到及时诊断和治疗,不得不被迫截肢,已经成为人类健康的重要威胁。通过核磁共振mri影像特征进行软组织肉瘤病变等级判断,是合理安排治疗方案的重要依据。然而根据核磁共振mri影像特征实现软组织肉瘤等级判断,主要存在两方面问题:(1)肉瘤病变等级判断准确率,往往取决于诊断医生的能力和经验,能力越强、病例经验越多的医生,判断正确率越高,而这些医生往往只在北上广等大城市的一流医院工作,而小城市、小医院的医生无法准确判断肉瘤病变等级,也就无法合理安排治疗方案,延误病情;(2)核磁共振mri影像可以提取出上千个维度的特征,如肉瘤直径、肉瘤图像局部纹理特征、灰度游程矩阵等,如何从这些特征中选取有限数量的特征,以便进行肉瘤等级的自动化判断,也是进行快速确诊的必要手段,然而现在还缺少有效手段实施。



技术实现要素:

本发明提供了一种基于机器学习的软组织肉瘤等级判断方法,解决目前依靠医生能力和经验判断肉瘤病变等级,判断准确率不稳定的问题。

本发明提供的一种基于机器学习的软组织肉瘤等级判断方法,所述方法依次包括如下步骤:

s1、对软组织肉瘤影像进行典型特征提取,

s2、获得采样样本中所有病人的软组织肉瘤影像的典型特征,形成样本数据集,并对该样本数据集进行预处理,

s3、将经过预处理的样本数据集划分为测试集和训练集,

s4、基于步骤3中生成的训练集,分别采用不同的机器学习算法构建机器学习模型并进行训练,

s5、将步骤3中生成的测试集分别带入步骤4构建的多个机器学习模型中进行计算,可获得每种机器学习模型计算的预测值,计算预测值与真值之间的差异性,差异性越大,代表预测值与真值之间的差距越大,即预测的错误越多,选取差异性最小的机器学习模型作为软组织肉瘤等级判断模型。

优选的,所述软组织肉瘤影像采用核磁共振mri输出的软组织肉瘤影像。

优选的,所述典型特征共取19个,将核磁共振mri输出的软组织肉瘤影像,按照成像方式不同,分为t1加权成像和t2加权成像,所述19个典型特征分别为t1图像,小波-低低高频子带成像模式下,邻域灰度差矩阵的对比度特征;t1图像,5mm拉普拉斯算子三维成像模式下,灰度差异矩阵的依赖不均匀规范化特征;t1图像,原始成像模式下,灰度共生矩阵的逆方差特征;t1图像,15mm拉普拉斯算子三维成像模式下,一阶统计量的峰度特征;t1图像,小波-低高低频子带成像模式下,灰度差异矩阵的大依赖低灰度水平因子特征;t1图像,5mm拉普拉斯算子三维成像模式下,灰度共生矩阵的马修斯相关系数特征;t1图像,小波-高高低频子带成像模式下,灰度共生矩阵的马修斯相关系数特征;t1图像,小波-高低高频子带成像模式下,一阶统计量的中值特征;t2图像,15mm拉普拉斯算子三维成像模式下,一阶统计量的90分位数特征;t2图像,小波-高低高频子带成像模式下,灰度共生矩阵的聚类阴影特征;t2图像,小波-高高高频子带成像模式下,邻域灰度差矩阵的对比度特征;t2图像,原始成像模式下,形状的延长率特征;t2图像,小波-高高高频子带成像模式下,灰度区域大小矩阵的灰度级不均匀规范化特征;t2图像,小波-低低低频子带成像模式下,灰度共生矩阵的逆方差特征;t2图像,小波-高低高频子带成像模式下,灰度共生矩阵的逆方差特征;t2图像,原始成像模式下,灰度共生矩阵的逆方差特征;t2图像,小波-高低高频子带成像模式下,灰度游程矩阵的长游程高灰度因子特征;t2图像,小波-高高高频子带成像模式下,灰度游程矩阵的长游程高灰度因子特征;t2图像,小波-高高高频子带成像模式下,一阶统计量的中值特征。

优选的,对样本数据集进行预处理的方法为对样本数据集进行归一化处理,公式如下:

其中,为样本数据集,为样本数据集中最小数据,为样本数据集中最大数据,为归一化后的数据。

优选的,所述训练集的数量为测试集数量为n为采样样本的总数量。

优选的,将经过预处理的样本数据集划分为测试集和训练集之后,并且基于生成的训练集,分别采用不同的机器学习算法构建机器学习模型并进行训练之前,需对训练集按照不同等级软组织肉瘤患者数量进行均衡化处理,所述均衡化处理采用人工少数类过采样法,均衡原则为:

ngm代表第m个软组织肉瘤病变等级对应的病人样本数,m通常取值为{1,2},1代表良性、2代表恶级。

优选的,步骤4中,采用决策树、随机森林、支持向量机、bp神经网络四种机器学习算法构建机器学习模型(mcart,mrf,msvm,mann)进行训练。

优选的,将步骤3中生成的测试集分别带入构建的四个机器学习模型(mcart,mrf,msvm,mann)中进行计算,可获得四种模型计算的预测值:所述预测值与真值之间的差异性,即参数d,计算方式如下式:

针对全部模型的参数dcart、drf、dsvm和dann,选择其中的最小值min{dcart,drf,dsvm,dann}对应的模型即为本发明的软组织肉瘤等级判别模型。

本发明的有益效果:本发明提出了一种机器学习的软组织肉瘤等级判断方法,首先,提出软组织肉瘤的核磁共振mri影像中典型特征的选择思路;其次,利用选取的典型特征,进行样本数据的预处理;再次,利用随机森林、逻辑回归、bp神经网络等机器学习算法,开展肉瘤等级诊断;最后,根据各学习算法的实施结果,确定具体判断方法,可以将优秀医生、专家的经验积累下来,复制到其他小城市、小医院推广使用,提高判断准确率,进而提升患者的治愈率。

附图说明

图1为基于机器学习的软组织肉瘤等级判断方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,不能理解为对本发明具体保护范围的限定。

实施例

参照图1,本实施例的基于机器学习的软组织肉瘤等级判断方法依次包括如下步骤:

s1、对软组织肉瘤影像进行典型特征提取;

s2、获得采样样本中所有病人的软组织肉瘤影像的典型特征,形成样本数据集,并对该样本数据集进行预处理;

s3、将经过预处理的样本数据集划分为测试集和训练集,

s4、基于步骤3中生成的训练集,分别采用不同的机器学习算法构建机器学习模型并进行训练,

s5、将步骤3中生成的测试集分别带入步骤4构建的多个机器学习模型中进行计算,可获得每种机器学习模型计算的预测值,建立预测值与真值之间的差异性,差异性越大,代表预测值与真值之间的差距越大,即预测的错误越多,选取差异性最小的机器学习模型作为软组织肉瘤等级判断模型。

具体的,步骤1是基于软组织肉瘤核磁共振mri影像进行典型特征提取的,按照成像方式不同,可以分为t1加权成像和t2加权成像,本实施例综合利用这两种成像方式的图像,对其典型特征进行提取。

针对t1图像,分别提取图像的7个维度的特征,即:一阶统计量(firstorder)、灰度共生矩阵(glcm)、灰度差异矩阵(gldm)、灰度游程矩阵(glrlm)、灰度区域大小矩阵(glszm)、邻域灰度差矩阵(ngtdm)、形状(shape)。

针对t2图像,分别提取图像的7个维度的特征,即:一阶统计量(firstorder)、灰度共生矩阵(glcm)、灰度差异矩阵(gldm)、灰度游程矩阵(glrlm)、灰度区域大小矩阵(glszm)、邻域灰度差矩阵(ngtdm)、形状(shape)。

筛选其中19个典型特征作为软组织肉瘤等级判断方法的依据,包括如下:

(1)t1图像,小波-低低高频子带(wavelet-llh)成像模式下,邻域灰度差矩阵(ngtdm)的对比度(contrast)特征;

(2)t1图像,5mm拉普拉斯算子三维(log-sigma-0-5-mm-3d)成像模式下,灰度差异矩阵(gldm)的依赖不均匀规范化(dependencenonuniformitynormalized)特征;

(3)t1图像,原始(original)成像模式下,灰度共生矩阵(glcm)的逆方差(inversevariance)特征;

(4)t1图像,15mm拉普拉斯算子三维(log-sigma-1-5-mm-3d)成像模式下,一阶统计量(firstorder)的峰度(kurtosis)特征;

(5)t1图像,小波-低高低频子带(wavelet-lhl)成像模式下,灰度差异矩阵(gldm)的大依赖低灰度水平因子(largedependencelowgraylevelemphasis)特征;

(6)t1图像,5mm拉普拉斯算子三维(log-sigma-0-5-mm-3d)成像模式下,灰度共生矩阵(glcm)的马修斯相关系数(mcc)特征;

(7)t1图像,小波-高高低频子带(wavelet-hhl)成像模式下,灰度共生矩阵(glcm)的马修斯相关系数(mcc)特征;

(8)t1图像,小波-高低高频子带(wavelet-hlh)成像模式下,一阶统计量(firstorder)的中值(mean)特征;

(9)t2图像,15mm拉普拉斯算子三维(log-sigma-1-5-mm-3d)成像模式下,一阶统计量(firstorder)的90分位数(90percentile)特征;

(10)t2图像,小波-高低高频子带(wavelet-hlh)成像模式下,灰度共生矩阵(glcm)的聚类阴影(clustershade)特征;

(11)t2图像,小波-高高高频子带(wavelet-hhh)成像模式下,邻域灰度差矩阵(ngtdm)的对比度(contrast)特征;

(12)t2图像,原始(original)成像模式下,形状(shape)的延长率(elongation)特征;

(13)t2图像,小波-高高高频子带(wavelet-hhh)成像模式下,灰度区域大小矩阵(glszm)的灰度级不均匀规范化(graylevelnonuniformitynormalized)特征;

(14)t2图像,小波-低低低频子带(wavelet-lll)成像模式下,灰度共生矩阵(glcm)的逆方差(inversevariance)特征;

(15)t2图像,小波-高低高频子带(wavelet-hlh)成像模式下,灰度共生矩阵(glcm)的逆方差(inversevariance)特征;

(16)t2图像,原始(original)成像模式下,灰度共生矩阵(glcm)的逆方差(inversevariance)特征;

(17)t2图像,小波-高低高频子带(wavelet-hlh)成像模式下,灰度游程矩阵(glrlm)的长游程高灰度因子(longrunhighgraylevelemphasis)特征;

(18)t2图像,小波-高高高频子带(wavelet-hhh)成像模式下,灰度游程矩阵(glrlm)的长游程高灰度因子(longrunhighgraylevelemphasis)特征;

(19)t2图像,小波-高高高频子带(wavelet-hhh)成像模式下,一阶统计量(firstorder)的中值(mean)特征。

作为本实施例的一个优选实施方式,本实施例可获得采样样本(1,2,...,j,...,n)中所有病人对应的19个核磁共振mri图像特征(f1,f2,...,fi,...,f19),对样本数据集进行预处理的方法为对样本数据集进行归一化处理,公式如下:

其中,为样本数据集,为样本数据集中最小数据,max为样本数据集中最大数据,为归一化后的数据。

作为本实施例的一个优选实施方式,所述训练集用于机器学习算法的训练,而测试集用于检验机器学习算法的优良。本实施例训练集与测试集采用随机采样的方法,按照8:2比例进行划分,训练集的数量为测试集数量为n为样本数据集的总数量,且确保训练集与测试集均含有全部类型的软组织肉瘤病变等级样本。

在训练集样本中,不同的软组织肉瘤病变等级对应的病人数量是不同的,而在机器学习算法中,如果某一等级的数据样本比例过小,则容易导致训练结果出行较大偏差,因此需对训练数据集按照不同等级软组织肉瘤患者数量进行均衡化处理。

作为本实施例的一个优选实施方式,将经过预处理的样本数据集划分为测试集和训练集之后,并且基于生成的训练集,分别采用不同的机器学习算法构建机器学习模型并进行训练之前,需对训练集按照不同等级软组织肉瘤患者数量进行均衡化处理,所述均衡化处理采用人工少数类过采样法(smote,syntheticminorityover-samplingtechnique),均衡原则为:

ngm代表第m个软组织肉瘤病变等级对应的病人样本数,m通常取值为{1,2},1代表良性、2代表恶级。

作为本实施例的一个优选实施方式,本实施例采用决策树(cart)、随机森林(rf)、支持向量机(svm)、bp神经网络(bp-ann)四种机器学习算法构建机器学习模型(mcart,mrf,msvm,mann)进行训练。

(1)决策树(cart),算法中涉及的关键参数设置如下:

在进行树划分时分支方法采用gini指数;

在进行剪枝操作时损失函数阈值为0.01。

(2)随机森林(rf),算法中涉及的关键参数设置如下:

mtry节点值,即每次迭代的变量抽样数值,设为10;

ntree值,即随机森林包含的决策树数目,设为3000;

(3)支持向量机(svm),算法中涉及的关键参数设置如下:

kernel核函数采用径向基函数核(radialbasisfunction)。

(4)bp神经网络(bp-ann),算法中涉及的关键参数设置如下:

神经网络隐藏层为3层,第一层隐藏层12-15个节点,第二层7-10个节点,第三层2-4葛节点;

激活函数采用sigmoid函数,计算公式为

误差函数采用和方差(sse);

学习速率为0.5。

作为本实施例的一个优选实施方式,将步骤3中生成的测试集分别带入构建的四个机器学习模型中进行计算,可获得四种模型计算的预测值:所述预测值与真值之间的差异性,即参数d,计算方式如下式:

针对全部模型的参数dcart、drf、dsvm和dann,选择其中的最小值min{dcart,drf,dsvm,dann}对应的模型即为本发明的软组织肉瘤等级判别模型。

本实施例基于核磁共振mri影像的典型特征选取,从上千个特征中确定了具体的软组织肉瘤等级判定所需的医学影像特征,能够准确反映肉瘤图像与病变等级的关联性;基于机器学习构建了软组织肉瘤等级判别模型,以判断准确率最大为目标,实现了bp神经网络、随机森林、逻辑回归等多种机器学习模型的构建与对比,并最终确定最佳软组织肉瘤等级判别模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1