一种生物医学图像特征提取方法

文档序号:6630691阅读:304来源:国知局
一种生物医学图像特征提取方法
【专利摘要】本发明公开了一种生物医学图像特征提取方法。本发明的方法包括:提取生物医学图像的低层视觉特征(灰度特征、纹理特征、边缘特征);对生物医学图像进行提取文本区域,得到文本区域的像素信息与位置信息;对生物医学图像的文本区域提取全局特征;对图像采用子区域划分方法,分析各子区域的文本区域分布,提取图像的空间分布特征;将上述的三种图像特征进行特征融合,得到最终的图像视觉特征。本发明能够通过对图像的低层视觉信息和文本区域信息进行分析,全面地描述生物医学图像的本质的属性,有效地提高生物医学图像的分类精度,用于对流程图、图表的识别时效果更好。
【专利说明】一种生物医学图像特征提取方法

【技术领域】
[0001]本发明涉及数字图像处理领域,具体涉及一种生物医学图像特征提取方法。

【背景技术】
[0002]随着计算机多媒体技术和机器学习技术的发展,图像数据库的应用也日益广泛。如何有效地建立、管理和充分利用图像信息库资源,实现智能化、高效地识别和检索图像,一直是国内外科研工作者关注的热点问题,在科学研究、国防军事、工业生产、航空航天、生物医学、交通监控等领域有着广泛的应用。面对生物医学图像数据数量大、多模态、成像复杂、针对性较强等特点,特征提取技术不断面临新的机遇和挑战
[0003]图像特征的提取是图像识别和图像检索的重要的环节。图像特征主要包括文本语义特征和视觉信息特征两类,目前图像的视觉特征成为了国内外学者的重点研究热点,图像视觉信息特征主要包含两方面内容:一方面是图像的视觉特征,如颜色、灰度、形状、纹理与边缘等特征,这是图像所固有的、重要的、本质的属性,具有一定的客观性;另一方面是高层次图像信息,对图像内容在语义的角度上进行描述。前者用于描述所有图像共有的、与图像的具体类型或内容无关的特征;后者则基于对所描述图像内容的某些先验知识条件上,与具体的应用紧密相关。
[0004]但是,与普通图像相比较,生物医学图像具有精度高、数量大、与解剖和临床密切相关、存在噪声和局部体效应等特点,这大大增加了对生物医学图像进行特征提取的难度,所以生物医学图像的特征提取方法的过程更加复杂,不但将图像处理技术和生物医学知识相互结合,而且借助人工智能、认知科学、信息检索、模式识别等多个领域的技术,对生物医学图像进行特征数值化来辅助完成生物医学图像的识别与检索。近年来,一些国内外学者对生物医学图像的特征提取方法展开了大量的研究。
[0005]经过对现有的技术文献分析,R.Barry和L.Minsuk等学者在文献“R.Barry, L.Minsukj Exploring text and image features to classify images in b1scienceliterature, Proceedings of the Workshop on Linking Natural Language Processingand B1logy, 2003, 73?80”中提出一种基于文本与视觉相结合的特征提取方法,该方法主要对生物医学图像提取视觉特征(基于直方图的特征、8连通区域特征)和基于图像标题的文本特征,并实现了对生物医学图像进行分类,但是,这些特征对图像的分类和识别精度较低,且忽略图像中文本的信息。
[0006]本发明方案基于上述特征提取方法所存在的不足,提出了一种生物医学图像特征提取方法,该方法不但考虑了图像的低层特征,而且利用图像中文本区域的信息,提出基于文本区域的全局特征和空间分布特征,有效地提高生物医学图像识别与分类的精确度。


【发明内容】

[0007]本发明的目的是对生物医学图像提供一种特征提取方法,该方法能够有效地提高对生物医学图像的识别和检索的准确度的问题。
[0008]本发明提供一种生物医学图像特征提取方法,包括如下步骤:
[0009]S1:提取生物医学图像I的低层视觉特征;
[0010]S2:对生物医学图像I进行提取文本区域,获得文本区域的像素信息与位置信息;
[0011]S3:对生物医学图像I提取基于文本区域的全局特征;
[0012]S4:对生物医学图像I采用子区域划分方法,分析各子区域的文本区域分布,提取图像的基于文本区域的空间分布特征;
[0013]S5:对低层视觉特征、基于文本区域的全局特征和基于文本区域的空间分布特征进行特征融合,得到生物医学图像I的视觉特征。
[0014]上述生物医学图像特征提取方法,其中步骤SI所述的提取生物医学图像I的低层视觉特征,按如下步骤进行:
[0015]S1.1:利用灰度直方图来计算图像的统计量,得到图像的灰度特征GH ;
[0016]S1.2:利用灰度共生矩阵来提取图像的纹理特征TH ;
[0017]S1.3:提取图像的边缘特征EF,该边缘特征首先采用Candy算子对图像的边缘进行检测,并获取边缘信息,然后对所得到的边缘信息提取边缘方向直方图特征和基于坐标轴的边缘特征。
[0018]上述生物医学图像特征提取方法,其中步骤S3所述的对生物医学图像I提取基于文本区域的全局特征,按如下步骤进行:
[0019]S3.1:提取图像文本像素的比率特征;
[0020]用文本区域的像素个数与图像总像素之比作为图像文本的一种度量参数,SP
A
[0021]R = -
S
[0022]其中,A为文本区域的像素个数,S为图像总像素,R大小能反映图像的文本的丰富程度,这个比率特征的值限定在O到I之间。
[0023]S3.2:提取图像文本像素的熵特征;
[0024]根据所得到文本区域的像素信息,图像文本像素的熵特征为

I
[0025]E = —I Pi.1g2 Pi

/-0
[0026]其中,Ptl和P1分别图像中文本像素和非文本像素的个数。
[0027]S3.3:提取图像文本区域的行距特征;
[0028]采用文本区域的行间距的方差值作为行距特征,其表达式为
I kI k
[0029]V - —X (L, ~μ)\μ = L
k — I /-1A: /-1
[0030]其中,k为文字间行隙的个数,Li为第i个行间距。
[0031]S3.4:提取图像文本像素直方图特征。
[0032]计算横(纵)向方向中每一行文本像素点的数量,建立横(纵)向文字像素直方图;最后把上述的直方图进行统计量分析(均值、标准差、偏斜度、熵)就可以构成特征描述子。
[0033]上述生物医学图像特征提取方法,其中步骤S4所述的对生物医学图像I提取基于文本区域的空间分布特征,按如下步骤进行:
[0034]S4.1:提取文本密度分布特征;
[0035](I)将图像划分成kXk个子区域,计算每个区域的文本密度值;
[0036]对于图像的kXk个子区域,统计每个子区域文本像素的个数Pix(i,j)和总的像素ToPix (i, j),则子区域的文本密度值SubD (i, j)为
ΓπV ! ΓΛ,..、
[0037]SubDm =

ToPtxd,))
[0038](2)统计这些区域的文本密度值,得到文本密度分布特征。
[0039]对所得到的子区域的文本密度值进行分析,将这些文本密度值的范围分成λ等份,计算这些密度值落入每一等份的个数,形成λ维的向量并以这个向量作为特征。
[0040]S4.2:提取子区域之间的最近距离特征。
[0041](I)将图像划分成kXk个子区域,计算每个区域与文本密度值满足阈值条件的区域的最小欧氏距离;
[0042]对于图像的kXk个子区域,计算子区域R(i, j)的文本密度值SubD(i, j),给定阈值1子区域1?(1,」)的最小距离SubED (i,j)为

f min(i/(/?(/, /), R{u, v))), SubD{u, v) > r
[0043]SuhLD^i, j) = \
L0, otherwise
[0044]其中,I彡 u, V 彡 k 且 u 关 i, V 关 j,函数 d(R(i, j), R(u, V))为区域 R(i, j)和R(u,v)的距离。
[0045](2)统计子区域的最小欧氏距离,得到子区域之间的最近距离特征。
[0046]对所得到的子区域的最小欧氏距离进行分析,将这些欧氏距离的范围分成λ等份,计算这些距离值落入每一等份的个数,形成λ维的向量并以这个向量作为特征。

【专利附图】

【附图说明】
[0047]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0048]图1是本发明实施例中的生物医学图像特征提取方法的流程图;
[0049]图2是本发明实施例中按照4X4的方式对生物医学图像进行划分的示意图;
[0050]图3是本发明与现有的图像特征提取方法LRR、ETIF、STF在来自PubMed Central的生物医学图像集的对比实验结果图。

【具体实施方式】
[0051]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0052]参照图1,本技术方案的生物医学图像特征提取方法包括以下的步骤:
[0053]步骤1:提取生物医学图像I的低层视觉特征;
[0054](I)利用灰度直方图来计算图像的统计量,得到图像的灰度特征GH ;
[0055](2)利用灰度共生矩阵来提取图像的纹理特征TH ;
[0056](3)提取图像的边缘特征EF ;
[0057]该边缘特征首先采用Candy算子对图像的边缘进行检测,并获取边缘信息,然后对所得到的边缘信息提取边缘方向直方图特征和基于坐标轴的边缘特征。
[0058]步骤2:对生物医学图像I进行提取文本区域,获得文本区域的像素信息与位置信息;
[0059]利用迭代法,对图像的文本区域不断进行分割,直至每一个文本区域不能再分割为止,得到文本区域的像素信息与位置信息。
[0060]步骤3:对生物医学图像I提取基于文本区域的全局特征;
[0061](I)提取图像文本像素的比率特征;
[0062]用文本区域的像素个数与图像总像素之比作为图像文本的一种度量参数,SP
? A
[0063]R = -
S
[0064]其中,A为文本区域的像素个数,S为图像总像素,R大小能反映图像的文本的丰富程度,这个比率特征的值限定在O到I之间。
[0065](2)提取图像文本像素的熵特征;
[0066]根据所得到文本区域的像素信息,图像文本像素的熵特征为

I
[0067]E = —Σ Pi.loS: P,

i=0
[0068]其中,Ptl和P1分别图像中文本像素和非文本像素的个数。
[0069](3)提取图像文本区域的行距特征;
[0070]采用文本区域的行间距的方差值作为行距特征,其表达式为
[0071]V = -^― ^L1-μ?,μ = ^^
/C _ 丄K
[0072]其中,k为文字间行隙的个数,Li为第i个行间距。
[0073](4)提取图像文本像素直方图特征。
[0074]计算横(纵)向方向中每一行文本像素点的数量,建立横(纵)向文字像素直方图;最后把上述的直方图进行统计量分析(均值、标准差、偏斜度、熵)就可以构成特征描述子。
[0075]步骤4:对生物医学图像I采用子区域划分方法(如图2所示),分析各子区域的文本区域分布,提取图像的基于文本区域的空间分布特征;
[0076](I)提取文本密度分布特征;
[0077](a)将图像划分成kXk个子区域,计算每个区域的文本密度值;
[0078]对于图像的kXk个子区域,统计每个子区域文本像素的个数Pix(i,j)和总的像素ToPix (i, j),则子区域的文本密度值SubD (i, j)为
[0079]SubD{Kj) =

ΤυΡιχ(ι,/)
[0080](b)统计这些区域的文本密度值,得到文本密度分布特征。
[0081]对所得到的子区域的文本密度值进行分析,将这些文本密度值的范围分成λ等份,计算这些密度值落入每一等份的个数,形成λ维的向量并以这个向量作为特征。
[0082](2)提取子区域之间的最近距离特征。
[0083](a)将图像划分成kXk个子区域,计算每个区域与文本密度值满足阈值条件的区域的最小欧氏距离;
[0084]对于图像的kXk个子区域,计算子区域R(i, j)的文本密度值SubD(i, j),给定阈值1子区域1?(1,」)的最小距离SubED (i,j)为
? ,.、[min(i/(/?(/, /), R(u, y))), SubD{u,v) > τ
[0085]SiibED{i,j) = \.[O, otherwise
[0086]其中,I彡 u, V 彡 k 且 u 关 i, V 关 j,函数 d(R(i, j), R(u, V))为区域 R(i, j)和R(u,v)的距离。
[0087](b)统计子区域的最小欧氏距离,得到子区域之间的最近距离特征。
[0088]对所得到的子区域的最小欧氏距离进行分析,将这些欧氏距离的范围分成λ等份,计算这些距离值落入每一等份的个数,形成λ维的向量并以这个向量作为特征。
[0089]以下通过仿真实验验证本发明方法的有效性和实用性。
[0090]仿真内容:
[0091](I)采用对比实验的形式,选择三个具有代表性的特征提取方法在同样的图像集上进行测试,以验证本发明的有效性。具体选择的是由Y.Chen,等人提出的基于学习和推理的区域特征提取方法(LRR),具体参考文献“Y.Chen, J.Wang, Image categorizat1nby learning and reasoning with reg1ns, The Journal of Machine LearningResearch, 2004, 913 ?939.”、由 1.Guyon、J.Westo 和 Barnhill 提出的基于文本与视觉相结合的特征提取方法(ETIF),具体参考文献“R.Barry, L.Minsuk, Exploring text andimage features to classify images in b1science literature, Proceedings ofthe Workshop on Linking Natural Language Processing and B1logy, 2003,73 ?80.”和由P.Gehler和S.Nowozin提出的基于语义的特征提取方法(STF),具体参考文 献“J.Shotton, M.Johnson, R.Cipolla, Semantic texton forests for imagecategorizat1n and segmentat1n, IEEE Conference on Computer Vis1n and PatternRecognit1n (CVPR), 2008, I ?8.,,
[0092](2)使用由美国国立医学图书馆提供生物医学和生命科学领域的图像数据库(PubMed Central)的图像集进行仿真实验,以验证本发明对生物医学图像集的识别和分类效果,具体的仿真条件详见实验的描述。
[0093]实验:实验所采用图像集是来自PubMed Central的生物医学图像数据库,它包括5类图像,每一类数量不相等,介于118到340张图像,本实验分别对LRR、ETIF、STF和本发明方法进行分类精度对比,其分类结果如图3所示,仿真结果表明:本发明方法在不同特征下的分类精度都比LRR、ETIF、STF方法高。
[0094]实验结果表明,本发明的特征提取方法的分类精度均比高于现有的特征提取方法。
[0095]以上对本发明实施例所提供的生物医学图像特征提取方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种生物医学图像特征提取方法,其特征在于,包括如下步骤: 51:提取生物医学图像I的低层视觉特征;52:对生物医学图像I进行提取文本区域,获得文本区域的像素信息与位置信息; 53:对生物医学图像I提取基于文本区域的全局特征; 54:对生物医学图像I采用子区域划分方法,分析各子区域的文本区域分布,提取图像的基于文本区域的空间分布特征; S5:对低层视觉特征、基于文本区域的全局特征和基于文本区域的空间分布特征进行特征融合,得到生物医学图像I的视觉特征。
2.如权利要求1所述的生物医学图像特征提取方法,其特征在于,所述步骤SI,提取低层视觉特征,具体包括: S1.1:利用灰度直方图来计算图像的统计量,得到图像的灰度特征GH ; S1.2:利用灰度共生矩阵来提取图像的纹理特征TH ; S1.3:提取图像的边缘特征EF。
3.如权利要求2所述的生物医学图像特征提取方法,其特征在于,所述步骤1.3,提取图像的边缘特征,具体包括: S1.3.1:采用Candy算子对图像的边缘进行检测,获取边缘信息; S1.3.2:对所得到的边缘信息提取边缘方向直方图特征; S1.3.3:对所得到的边缘信息提取基于坐标轴的边缘特征。
4.如权利要求1所述的生物医学图像特征提取方法,其特征在于,所述步骤S2,提取文本区域的像素信息与位置信息,具体包括: 利用迭代法,对图像的文本区域不断进行分割,直至每一个文本区域不能再分割为止,得到文本区域的像素信息与位置信息。
5.如权利要求1所述的生物医学图像特征提取方法,其特征在于,所述步骤S3,提取基于文本区域的全局特征,具体包括: S3.1:提取图像文本像素的比率特征; S3.2:提取图像文本像素的熵特征; S3.3:提取图像文本区域的行距特征; S3.4:提取图像文本像素直方图特征。
6.如权利要求5所述的生物医学图像特征提取方法,其特征在于,所述步骤S3.1,提取图像文本像素的比率特征,具体包括: 用文本区域的像素个数与图像总像素之比作为图像文本的一种度量参数,即
S 其中,A为文本区域的像素个数,S为图像总像素,R大小能反映图像的文本的丰富程度,这个比率特征的值限定在O到I之间。
7.如权利要求5所述的生物医学图像特征提取方法,其特征在于,所述步骤S3.2,提取图像文本像素的熵特征,具体包括: 根据所得到文本区域的像素信息,图像文本像素的熵特征为

I S=-YjP1-^g2 Pi
/-0 其中,Ptl和P1分别图像中文本像素和非文本像素的个数。
8.如权利要求5所述的生物医学图像特征提取方法,其特征在于,所述步骤S3.3,提取图像文本区域的行距特征,具体包括: 采用文本区域的行间距的方差值作为行距特征,其表达式为 v ^ T^-TΣ( A M = γΣ L丨 其中,k为文字间行隙的个数,Li为第i个行间距。
9.如权利要求5所述的生物医学图像特征提取方法,其特征在于,所述步骤S3.4,提取图像文本像素直方图特征,具体包括: 计算横(纵)向方向中每一行文本像素点的数量,建立横(纵)向文字像素直方图;最后把上述的直方图进行统计量分析(均值、标准差、偏斜度、熵)就可以构成特征描述子。
10.如权利要求1所述的生物医学图像特征提取方法,其特征在于,所述步骤S4,提取基于文本区域的空间分布特征,具体包括: S4.1:提取文本密度分布特征; S4.2:提取子区域之间的最近距离特征。
【文档编号】G06T7/00GK104282025SQ201410552606
【公开日】2015年1月14日 申请日期:2014年10月17日 优先权日:2014年10月17日
【发明者】罗笑南, 陈湘萍, 邓伟财, 王众 申请人:中山大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1