一种基于主动学习的腹腔CT图像腹膜转移自动标记方法与流程

文档序号:16584502发布日期:2019-01-14 18:17阅读:346来源:国知局
一种基于主动学习的腹腔CT图像腹膜转移自动标记方法与流程

本发明属于医学图像处理技术领域,涉及一种基于主动学习的腹腔ct图像腹膜转移自动标记方法,特别针对已标记ct图像数量少的问题,运用图像处理技术和机器学习方法,实现大量腹腔ct图像的自动标记。



背景技术:

腹膜是腹腔内多种恶性肿瘤常见的转移部位,标记腹膜转移是评价恶性肿瘤治愈效果的重要依据。存在腹膜转移的肿瘤患者病情发展快、预后差,临床治疗难度大,需要尽早诊断、及时治疗。标记腹膜转移可通过结节检测来完成,腹腔ct图像是检测小结节的重要诊断依据。但ct会产生大量的图像,其中包含淋巴、血管等类似于结节的图像颗粒,通过结节检测腹腔转移需要经验丰富的医师来完成,现有的人工阅片方式会消耗大量人力和时间资源,而且受主观因素影响,检测精度低且难以重复。通过人工智能技术处理腹腔ct图像,自动标记腹膜转移以进行恶性肿瘤诊断是计算机辅助医疗的新趋势之一,能够在减少医师工作量的同时提高诊断准确性。

本发明应用主动学习技术完成腹腔ct图像腹膜转移自动标记,若给定ct图像包含腹膜转移,则标记为阳性,否则标记为阴性。通过筛选最有价值的样本进行专家标记来解决标记样本数量少、标记成本高的问题。主动学习的关键在于判断一个未标记样本是否为“有用的”或者“含有信息”的,其中基于分类器的不确定性采样是一种广泛使用的方法。该方法基于现有已标记样本训练分类器,预测未标记样本属于为各类别的概率以衡量未标记样本的不确定性。由于已标记样本的数据分布代表性差以及已标记样本数量少等问题直接影响分类器的预测性能,基于分类器的方法会产生较大的样本标记误差。随机游走分类是一种基于随机游走模型的分类技术,它通过利用整体样本集的信息缓解已标记样本数量少的问题,可有效衡量未标记样本的标记不确定性。



技术实现要素:

针对于上述现有技术的不足,本发明的目的在于提供一种基于主动学习的腹腔ct图像腹膜转移自动标记方法,本发明方法易于理解、计算开销小、算法迭代速度快,能够在少量专家标记的基础上,完成大量腹腔ct图像的腹膜转移自动标记,为恶性肿瘤诊疗提供依据,具有良好的实用性、扩展性和鲁棒性。

为达到上述目的,本发明采用的技术方案如下:

本发明的一种基于主动学习的腹腔ct图像腹膜转移自动标记方法,包括步骤如下:

1)读取腹腔ct图像,对其进行截取、滤波、去噪、平滑、增强的预处理工作;采用阈值分割技术对腹腔ct图像进行区域分割,获取颗粒图像;

2)基于分割后的ct图像,选取颗粒图像,分别提取灰度和纹理特征,构建ct图像的特征向量;

3)基于随机游走分类算法计算未标记ct图像的标记不确定性;

4)基于标记不确定性初次筛选未标记ct图像,采用聚类技术计算图像多样性再次筛选ct图像,提请专家标记筛选出的ct图像;返回步骤3),直至不存在标记不确定的ct图像;

5)完成所有腹腔ct图像的腹膜转移标记,并输出已标记的腹腔ct图像。

优选地,所述步骤2)中基于每张分割后的ct图像选取颗粒图像的处理过程基于以下三个特征:

21)像素个数:颗粒图像中包含的像素个数;

22)最大灰度值:颗粒图像所有像素中的最大灰度值;

23)最小灰度值:颗粒图像所有像素中的最小灰度值;

分别设置最佳值b1=20,b2=60,b3=20,获取每个颗粒图像的上述三个特征值d1,d2,d3,按以下公式计算颗粒图像的分数score:

将颗粒图像按score从小到大排序,选择前s个颗粒图像进行后续处理,s=10。

优选地,所述步骤2)中针对筛选出的颗粒图像提取灰度特征的处理过程是:将图像灰度级分为q个区间,q=15,统计灰度直方图h(),按以下公式表示:

h(ri)=ai(2)

其中ri为第i个灰度级区间,1<=i<=q,ai为颗粒图像中灰度值属于区间ri的像素个数;对该直方图进行归一化,公式如下:

每个颗粒图像获取q维的灰度特征。

优选地,所述步骤2)中针对筛选出的颗粒图像提取纹理特征的处理过程是:首先对每个颗粒图像,找到能包含颗粒图像且面积最小的矩形,按灰度值0填充颗粒图像外围直至该矩形大小;然后基于矩形图像,使用log-gabor函数对矩形图像进行频域滤波,公式如下:

其中r为像素的径向坐标,其最小值为0,最大值为矩形高度的1/2,θ为像素的角度坐标其最小值为0,最大值为2π,exp()为e指数函数,σr为基于径向坐标r计算的标准差,σθ为基于角度坐标θ计算的标准差,f0为滤波器的中心频率,θ0为滤波器方向;每个矩形图像使用1个f0(0.1)和4个不同的θ0(0,π/4,π/2,3π/4)的4种组合,获取4个频域滤波后图像;随后将滤波后图像按行和列平均划分为3×3个子块,求每个子块的灰度平均值,将结果按行拼接为9维向量;分别按4张滤波后图像计算,拼接所得向量;最后进行归一化处理,保证向量中的值累加等于1,得到颗粒图像的纹理特征。

优选地,所述步骤2)中构建ct图像特征向量的过程是:针对ct图像分割后筛选出的s(s=10)个颗粒图像,分别计算每个颗粒图像的灰度特征和纹理特征,拼接两个特征得到颗粒图像的特征向量,然后拼接s个颗粒图像的特征向量,得到ct图像的特征向量。

优选地,所述步骤3)中计算未标记腹腔ct图像标记不确定性的处理过程是:令已有nl张专家已标记ct图像,nu张未标记ct图像,共有n=nl+nu张ct图像,xi∈[0,1]d代表第i张ct图像的特征向量,d为向量维数;首先采用距离衡量ct图像间的相似性,给定ct图像xi,xj,其距离dist(xi,xj)计算公式如下:

其中t为向量的转置,m为半正定对称矩阵,m=at×a,其中正交矩阵a使用随机梯度下降法通过求解目标函数获得,公式如下:

其中ωi为与已标记ct图像xi属于相同类别的已标记ct图像下标集合,1≤i≤nl,j为集合ωi中元素,l为下标,1≤l≤nl,nl为已标记的ct图像数量,exp()为e指数函数;

然后基于距离指标将ct图像映射为n×n权重矩阵w∈rn×n,n为ct图像总数,其第i行第j列元素wij基于ct图像xi和ct图像xj间的距离计算,公式如下:

wij=exp(-dist2(xi,xj))=exp(-(xi-xj)tm(xi-xj))(7)

再定义n×n对角矩阵d∈rn×n,其中对角线元素的计算公式如下:

除对角线元素外,矩阵d中其他元素为0;基于对角矩阵d和权重矩阵w计算标准化权重矩阵q∈rn×n,公式如下:

q=d-1w(9)

矩阵q被分解为四个子块,公式如下:

其中qll(nl×nl矩阵)代表已标记图像间的标准化权重,qlu(nl×nu矩阵)代表未标记图像和已标记图像间的标准化权重,quu(nu×nu矩阵)代表未标记图像间的标准化权重,t代表矩阵转置,nl和nu分别代表已标记和未标记的ct图像数量;

接下来将已标记ct图像的状态设置为吸收态,未标记ct图像的状态设置为非吸收态,计算带吸收态的马尔科夫转移矩阵g,公式如下:

其中ill(nl×nl)为单位矩阵,即对角线元素全部为1的对角矩阵,0lu(nl×nu)为零矩阵;令集合l包含所有已标记ct图像,集合u包含所有未标记ct图像;基于转移矩阵g计算未标记ct图像被已标记ct图像吸收的稳态概率矩阵p(l|u),公式如下:

其中iuu(nu×nu)为单位矩阵;定义为已标记ct图像的类标向量,如果ct图像xi∈l,l为已标记ct图像集合,标记为阳性,则yi=1,否则yi=0;令标记为阳性的ct图像集为l+,计算集合u中未标记ct图像被阳性标记吸收的概率向量p(l+|u),公式如下:

最后定义概率向量f=[f1,f2,...fnu]t=p(l+|u),其中fi代表未标记ct图像xi属于阳性标记的概率;基于概率向量f,基于熵值法计算未标记ct图像xi的标记不确定性h(xi),公式如下:

h(xi)=-filogfi-(1-fi)log(1-fi)(14)。

优选地,所述步骤4)中基于标记不确定性初次筛选ct图像的处理过程是:首先设定阈值th,th=0.151,当未标记图像x的标记不确定性h(x)小于th时,则认为此图像的标记已确定,不再需要专家标记;挑选标记不确定性大于th的所有未标记ct图像构成候选集c,若集合c为空集,则执行步骤5)。

优选地,所述步骤4)中计算图像多样性以再次筛选ct图像的处理过程是:首先选择聚类中心个数k,1≤k≤min(|c|,10);若候选图像数量|c|≤10,则全部候选图像提交专家标记;

然后在候选集c中随机选择k张ct图像作为聚簇中心,按公式(5)计算集合c中其他非中心ct图像分别到k个聚簇中心的距离;将非中心图像分配到最近的中心所在聚簇;划分好k个聚簇后,重新选择每个聚簇的中心图像,为到达聚簇中所有其它图像的距离之和最小的ct图像;基于更新的k个中心图像,重新按最短距离划分聚簇;重复上述过程,直至k个聚簇的中心图像不再改变;

在得到k个图像聚簇和对应的中心图像后,计算k个聚簇的误差平方和sse(k),公式如下:

其中clusteri为第i个聚簇,ci为该聚簇的中心图像,dist()为按公式(5)计算的距离;

继续选择下一个k,重复上述步骤计算sse(k),得到对应的折线图,k为x轴,sse为y轴,寻找其中的拐点,如果折线图存在拐点(k’,ssek’),则选择与此拐点对应的k’张中心图像去标记;如果折线图不存在拐点,当折线图最大值和最小值之差不超过平均值的20%时,按k=5选择5张中心图像去标记,否则当折线图最大值和最小值之差超过平均值的20%时,按k=10选择10张中心图像去标记。

优选地,所述步骤5)中完成所有腹腔ct图像的腹膜转移标记的处理过程是:当不存在不确定标记的ct图像时,对于每个未标记ct图像xi,基于上述步骤3)计算的概率向量f=[f1,f2,...fnu]t=p(l+|u),其中l+为标记阳性的ct图像集合,u为未标记ct图像集合,若fi大于0.5,则标记该ct图像为阳性;否则标记该ct图像为阴性。

本发明的有益效果:

本发明方法充分利用腹腔ct图像特点和肿瘤腹膜转移特征,应用主动学习思想,采用随机游走和马尔科夫链技术,基于完整的ct图像集评估未标记ct图像的标记不确定性,使用聚类技术筛选未标记ct图像供专家标记;在少量专家标记的基础上,能够有效完成大量腹腔ct图像的腹膜转移自动标记;本发明方法易于理解,计算开销小,算法迭代速度快,适用于大量ct图像的自动标记,具有良好的实用性、扩展性和鲁棒性。

附图说明

图1为本发明方法的总体框架图。

图2a为原始腹腔ct图像的示意图。

图2b为经过预处理并完成阈值分割后的ct图像的示意图。

图3为计算未标记ct图像的标记不确定性的处理流程图。

图4为采用聚类技术筛选未标记ct图像的处理流程图。

具体实施方式

为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。

参照图1所示,本发明方法的输入是腹腔ct图像集和少量专家标注的ct图像,输出是确定腹膜转移标记的所有ct图像,如果ct图像包含腹膜转移,则标记为阳性,否则标记为阴性。

具体包括步骤如下:

1)读取腹腔ct图像,对其进行截取、滤波、去噪、平滑、增强等预处理;采用阈值分割技术对腹腔ct图像进行区域分割,获取颗粒图像;

2)基于分割后的ct图像,选取颗粒图像,分别提取灰度和纹理特征,构建ct图像的特征向量;

3)基于随机游走分类算法计算未标记ct图像的标记不确定性;

4)基于标记不确定性初次筛选未标记ct图像,采用聚类技术计算图像多样性再次筛选ct图像,提请专家标记筛选出的ct图像;返回步骤3),直至不存在标记不确定的ct图像;

5)完成所有腹腔ct图像的腹膜转移标记,并输出已标记的腹腔ct图像。

参照图2a、图2b所示,步骤2)中选取颗粒图像的过程是:基于以下三个特征:

(1)像素个数:颗粒图像中包含的像素个数;

(2)最大灰度值:颗粒图像所有像素中的最大灰度值;

(3)最小灰度值:颗粒图像所有像素中的最小灰度值;

分别设置最佳值b1=20,b2=60,b3=20,获取每个颗粒图像的上述三个特征值d1,d2,d3,按以下公式计算颗粒图像的分数score:

将颗粒图像按score从小到大排序,选择前s个颗粒图像进行后续处理,s=10。

所述步骤2)中针对筛选出的颗粒图像提取灰度特征的处理过程是:将图像灰度级分为q个区间,q=15,统计灰度直方图h(),按以下公式表示:

h(ri)=ai(2)

其中ri为第i个灰度级区间,1<=i<=q,ai为颗粒图像中灰度值属于区间ri的像素个数;对该直方图进行归一化,公式如下:

每个颗粒图像获取q维的灰度特征。

所述步骤2)中针对筛选出的颗粒图像提取纹理特征的处理过程是:首先对每个颗粒图像,找到能包含颗粒图像且面积最小的矩形,按灰度值0填充颗粒图像外围直至该矩形大小;然后基于矩形图像,使用log-gabor函数对矩形图像进行频域滤波,公式如下:

其中r为像素的径向坐标,其最小值为0,最大值为矩形高度的1/2,θ为像素的角度坐标其最小值为0,最大值为2π,exp()为e指数函数,σr为基于径向坐标r计算的标准差,σθ为基于角度坐标θ计算的标准差,f0为滤波器的中心频率,θ0为滤波器方向;每个矩形图像使用1个f0(0.1)和4个不同的θ0(0,π/4,π/2,3π/4)的4种组合,获取4个频域滤波后图像;随后将滤波后图像按行和列平均划分为3×3个子块,求每个子块的灰度平均值,将结果按行拼接为9维向量;分别按4张滤波后图像计算,拼接所得向量;最后进行归一化处理,保证向量中的值累加等于1,得到颗粒图像的纹理特征。

所述步骤2)中构建ct图像特征向量的过程是:针对ct图像分割后筛选出的s个颗粒图像,分别计算每个颗粒图像的灰度特征和纹理特征,拼接两个特征得到颗粒图像的特征向量,然后拼接s个颗粒图像的特征向量,得到ct图像的特征向量。

参照图3所示,所述步骤3)中计算未标记腹腔ct图像标记不确定性的处理过程是:令已有nl张专家已标记ct图像,nu张未标记ct图像,共有n=nl+nu张ct图像,xi∈[0,1]d代表第i张ct图像的特征向量,d为向量维数;首先采用距离衡量ct图像间的相似性,给定ct图像xi,xj,其距离dist(xi,xj)计算公式如下:

其中t为向量的转置,m为半正定对称矩阵,m=at×a,其中正交矩阵a使用随机梯度下降法通过求解目标函数获得,公式如下:

其中ωi为与已标记ct图像xi属于相同类别的已标记ct图像下标集合,1≤i≤nl,j为集合ωi中元素,l为下标,1≤l≤nl,nl为已标记的ct图像数量,exp()为e指数函数;

然后基于距离指标将ct图像映射为n×n权重矩阵w∈rn×n,n为ct图像总数,其第i行第j列元素wij基于ct图像xi和ct图像xj间的距离计算,公式如下:

wij=exp(-dist2(xi,xj))=exp(-(xi-xj)tm(xi-xj))(7)

再定义n×n对角矩阵d∈rn×n,其中对角线元素的计算公式如下:

除对角线元素外,矩阵d中其他元素为0;基于对角矩阵d和权重矩阵w计算标准化权重矩阵q∈rn×n,公式如下:

q=d-1w(9)

矩阵q被分解为四个子块,公式如下:

其中qll(nl×nl矩阵)代表已标记图像间的标准化权重,qlu(nl×nu矩阵)代表未标记图像和已标记图像间的标准化权重,quu(nu×nu矩阵)代表未标记图像间的标准化权重,t代表矩阵转置,nl和nu分别代表已标记和未标记的ct图像数量;

接下来将已标记ct图像的状态设置为吸收态,未标记ct图像的状态设置为非吸收态,计算带吸收态的马尔科夫转移矩阵g,公式如下:

其中ill(nl×nl)为单位矩阵,即对角线元素全部为1的对角矩阵,0lu(nl×nu)为零矩阵;令集合l包含所有已标记ct图像,集合u包含所有未标记ct图像;基于转移矩阵g计算未标记ct图像被已标记ct图像吸收的稳态概率矩阵p(l|u),公式如下:

其中iuu(nu×nu)为单位矩阵;定义为已标记ct图像的类标向量,如果ct图像xi∈l,l为已标记ct图像集合,标记为阳性,则yi=1,否则yi=0;令标记为阳性的ct图像集为l+,计算集合u中未标记ct图像被阳性标记吸收的概率向量p(l+|u),公式如下:

最后定义概率向量f=[f1,f2,...fnu]t=p(l+|u),其中fi代表未标记ct图像xi属于阳性标记的概率;基于概率向量f,基于熵值法计算未标记ct图像xi的标记不确定性h(xi),公式如下:

h(xi)=-filogfi-(1-fi)log(1-fi)(14)。

参照图4所示,步骤4)中基于标记不确定性初次筛选ct图像的处理过程是:首先设定阈值th(th=0.151),当未标记图像x的标记不确定性h(x)小于th时,则认为此图像的标记已确定,不再需要专家标记;挑选标记不确定性大于th的所有未标记ct图像构成候选集c,如果集合c为空集,则执行步骤5)。

所述步骤4)中计算图像多样性以再次筛选ct图像的处理过程是:首先选择聚类中心个数k,1≤k≤min(|c|,10);若候选图像数量|c|≤10,则全部候选图像提交专家标记;

然后在候选集c中随机选择k张ct图像作为聚簇中心,按公式(5)计算集合c中其他非中心ct图像分别到k个聚簇中心的距离;将非中心图像分配到最近的中心所在聚簇;划分好k个聚簇后,重新选择每个聚簇的中心图像,为到达聚簇中所有其它图像的距离之和最小的ct图像;基于更新的k个中心图像,重新按最短距离划分聚簇;重复上述过程,直至k个聚簇的中心图像不再改变;

在得到k个图像聚簇和对应的中心图像后,计算k个聚簇的误差平方和sse(k),公式如下:

其中clusteri为第i个聚簇,ci为该聚簇的中心图像,dist()为按公式(5)计算的距离;

继续选择下一个k,重复上述步骤计算sse(k),得到对应的折线图,k为x轴,sse为y轴,寻找其中的拐点,如果折线图存在拐点(k’,ssek’),则选择与此拐点对应的k’张中心图像去标记;如果折线图不存在拐点,当折线图最大值和最小值之差不超过平均值的20%时,按k=5选择5张中心图像去标记,否则当折线图最大值和最小值之差超过平均值的20%时,按k=10选择10张中心图像去标记。

所述步骤5)中完成所有腹腔ct图像的腹膜转移标记的处理过程是:当不存在不确定标记的ct图像时,对于每个未标记ct图像xi,基于上述步骤3)计算的概率向量f=[f1,f2,...fnu]t=p(l+|u),其中l+为标记阳性的ct图像集合,u为未标记ct图像集合,若fi大于0.5,则标记该ct图像为阳性;否则标记该ct图像为阴性。

本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1