一种基于Relief算法的乳腺肿瘤特征选择方法

文档序号:10656930阅读:353来源:国知局
一种基于Relief算法的乳腺肿瘤特征选择方法
【专利摘要】本发明涉及一种基于Relief算法的乳腺肿瘤特征选择方法,包括两个部分:乳腺肿瘤特征提取模块和Relief特征选择模块,如下:乳腺肿瘤特征提取模块:该模块用于提取乳腺肿瘤特征,从乳腺肿瘤图像中提取可以描述肿瘤特征的数值量,将肿瘤特征分为三大类,为形态特征、纹理特征和小波特征;Relief特征选择模块:该模块用于进行特征选择,以获得良好的特征子集,从而提高分类性能与乳腺肿瘤诊断准确率,对于每一类纹理特征和小波特征,通过Relief特征选择算法进行特征选择,再分别同全部形态特征拼接融合,构成多个特征子空间,将所有得到的特征子集同全部形态特征拼接融合,从而完成整个乳腺肿瘤特征选择过程。
【专利说明】
-种基于Re I i ef算法的乳腺肿瘤特征选择方法
技术领域
[0001] 本发明设及数据挖掘技术与生物医学工程技术,具体设及一种乳腺肿瘤特征选择 方法。
【背景技术】
[0002] 乳腺癌是女性中最为常见的恶性肿瘤。在世界范围内,其致死率位居女性恶性肿 瘤死亡率之首。当前,及早诊断与及时治疗是应对乳腺癌最为有效的措施。医学影像学方 法,如X线、核磁共振、超声检测等,是目前最主要的检测和诊断乳腺癌的手段。然而,在乳腺 检查中产生的大量影像信息易使医生疲劳,且诊断精度受医师的职业能力、经验能主观因 素影响。在此背景下,通过机器学习方法来判定肿瘤是否存在及其良恶性成为一个得到广 泛关注的研究热点。
[0003] 在乳腺肿瘤计算机辅助诊断技术中,肿瘤的诊断与确定需要通过分类技术实现。 为获得良好的诊断准确率,需找到可W准确描述乳腺肿瘤的特征量。常用的描述乳腺肿瘤 的特征包括形态特征、纹理特征及小波特征等。通常,更多的特征维数可W使分类器建模更 加准确与稳定,从而提高分类准确率。但实际上,特征维数较高时,其中可能存在相互依赖 或与分类目标不相关的冗余特征,运些特征的存在会使得运算复杂度升高,导致分析特征 与训练模型所需的时间加长。同时,构建的分类模型也会更加复杂,导致其泛化能力下降, 出现维数灾难。通过对从乳腺肿瘤X线图像提取出的特征进行选择,不相关或冗余的特征可 被剔除,从而达到减少特征个数,提高模型精度并减少运行时间的目的。因此,在近年与数 据挖掘相关的多项研究中,特征选择均得到了广泛应用。除此之外,特征选择算法本身也已 成为一大研究热点。
[0004] 近年来,科研人员提出多种特征选择方法。根据理论基础的不同,运些方法主要可 W被分为基于统计理论的特征抽取方法和序列选择方法两大类。
[0005] 基于统计理论的特征抽取方法通过统计变换获得原特征空间的一个映射,从而达 到降维目的。其经典方法包括主成分分析和线性判别分析。主成分分析的目的是抽取出可 W精确表示样本信息的样本映射,使特征抽取完成后信息丢失最小。线性判别分析则对样 本进行线性投影,使特征抽取完成后得到的新特征空间得到更高的分类准确率。专利"人脸 认证方法和装置"(CN105138972A)对提取出的人脸特征分别运用主成分分析和线性判别分 析进行降维,从而在获取更有代表性的特征的同时降低了算法的时间和空间复杂度。然而, 基于统计理论的特征抽取方法难W同时顾及特征的代表性与分类准确度,因此应用范围受 到一定局限。
[0006] 序列选择方法则在特征全集中产生出一个特征子集,然后用评价函数对该特征子 集进行评价,将评价结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就 继续产生下一组特征子集,重新进行特征选择,最终对选出的特征子集验证其有效性。其经 典方法主要包括完全捜索和启发式捜索两类。完全捜索对特征全集中的每个特征均进行捜 索,虽可避免陷入局部最优,但运算复杂度极高,在实际应用中效果不够理想。启发式捜索 的基础是贪婪算法,虽不能保证得到的特征子集全局最优,但运算复杂度较低,执行效率 高,因此得到了广泛应用。其主要算法包括前向选择、后向选择、双向捜索及序列浮动选择 等。

【发明内容】

[0007] 本发明的目的是基于Relief特征选择算法,提出一种乳腺肿瘤特征选择方法,可 W用于提高乳腺肿瘤特征选择的准确率。本发明的技术方案如下:
[0008] 一种基于Relief算法的乳腺肿瘤特征选择方法,包括两个部分:乳腺肿瘤特征提 取模块和Re 1 i ef特征选择模块,方法如下:
[0009] 乳腺肿瘤特征提取模块:该模块用于提取乳腺肿瘤特征,从乳腺肿瘤图像中提取 可W描述肿瘤特征的数值量,将肿瘤特征分为=大类,为形态特征、纹理特征和小波特征; 形态特征从形状、大小方面对乳腺肿瘤直观进行描述,由于形态特征维数较少但对于分类 至关重要,不对形态特征进行选择;纹理特征,表征乳腺肿瘤图像的局部性质,是图像中反 复出现的局部模式及其排列规则,考虑到不同种类的纹理特征对肿瘤特性的描述不同,且 纹理特征具有方向性,所W不同种类、不同方向的乳腺肿瘤纹理特征对分类结果的影响不 同,对每一类纹理特征均从多个方向进行提取;小波特征是一种特殊的纹理特征,用于从不 同尺度对乳腺肿瘤图像纹理进行分析,提取方式与上述的纹理相同;
[0010] Relief特征选择模块:该模块用于进行特征选择,W获得良好的特征子集,从而提 高分类性能与乳腺肿瘤诊断准确率,对于每一类纹理特征和小波特征,通过Relief特征选 择算法进行特征选择,再分别同全部形态特征拼接融合,构成多个特征子空间,将所有得到 的特征子集同全部形态特征拼接融合,从而完成整个乳腺肿瘤特征选择过程。
[0011] 本发明针对乳腺肿瘤计算机辅助诊断,同时顾及特征的分类能力与物理意义,对 各类乳腺肿瘤特征分别应用Relief算法,提取该类特征中性能最好的特征子集并将所有提 取出的特征融合后构成新的特征子集,提取出的特征可W全面描述乳腺肿瘤的形状及纹理 特性,且维数较低,在获取良好的分类准确率的同时充分降低运算复杂度。
【附图说明】
[0012] 图1为特征选择过程的流程图。
[0013] 图2为本发明的执行步骤流程图。
【具体实施方式】
[0014] 本发明提取多个方向的纹理特征和小波特征,随后运用Relief算法进行选择。对 于各类特征中选取得到的子集,将其同全部的形态特征进行融合后得到完整的特征子集并 用于分类。下面结合附图对本发明作进一步详细的说明。
[001引(1)取得现聯和训练数据:本发明测试与训练数据选择数字乳腺X线图像数据库中 取得的疑似肿瘤区域共1950个。数据集中正负样本(即有肿瘤与无肿瘤样本)数目不平衡, 共有正样本401个,负样本1549个,比例大约为1:4。由于一般情况下肿瘤数据库中的正样本 数目要远少于负样本的数目,若数据非线性可分,则运种不平衡现象在分类过程中会导致 正样本的判决边界被负样本所侵占,最终导致分类性能受到严重影响。如图2所示,本发明 对数据集中的多数样本即负样本进行随机降采样W避免由于数据不平衡所导致的分类性 能下降的问题。
[0016] (2)对每个肿瘤样本提取圆度、径向长度的平均值,标准差与离屯、率、灰度赌、灰度 均值、标准差、肿块面积、分型维数均值与标准差、光度惯性动力、各向异性、轮廓梯度赌、平 滑度、偏度、峰度、灰度逐层变化等形态学特征,共18维;
[0017] 计算每个样本的灰度共生矩阵,从该矩阵中提取纹理特征。灰度共生矩阵是对图 像上保持某距离的两像素分别具有同一灰度值的情况进行统计而得到的,可由灰度共生矩 阵提取角二阶矩、对比度、相关性、差分矩、均匀性、和平均值、和方差、和赌、赌、差方差及差 赌共11维特征。本发明共选取16个不同的角度与距离进行灰度共生矩阵纹理特征提取,因 此共提取出166维特征;
[0018] 计算每个样本的灰度-梯度共生矩阵,从该矩阵中提取纹理特征。灰度-梯度共生 矩阵综合利用图像的灰度和梯度信息,其中元素 H(x,y)可定义为在经归一化处理的灰度图 像Ki, j)及其归一化梯度图像GradQJ)中同时具有灰度值X及梯度值y的像素个数。其中, 设置灰度级为16,梯度级为8,梯度算子采用SObel算子。共提取特征15维,分别为小梯度优 势、大梯度优势、灰度分布不均匀性、梯度分布不均匀性、能量、灰度平均、梯度平均、灰度方 差、梯度方差、相关系数、灰度赌、梯度赌、混合赌、惯性及逆差矩。
[0019] 计算并提取每个样本的灰度差分统计纹理特征。灰度反应电磁波能量大小,因此 灰度的差分反映了电磁波福射能量变化的速率。在某一方向的灰度差分统计直方图上,可 W提取出对比度、赌、平均值和能量共四维特征。为获得更多方向的统计信息,与灰度共生 矩阵纹理特征相同,本发明共选取16个不同的角度与距离进行灰度差分统计纹理特征提 取,共计64维;
[0020] 计算并提取每个样本的灰度行程长度纹理特征。在纹理分析中,在某一方向具有 相同灰度值的像素个数成为行程长度。对于每个方向,可W提取出强调短行程的逆差、强调 长行程的逆差、灰度不均匀性、行程长度非均匀性及W行程表示的图像分数共5维特征。本 发明中,设置灰度级为256,行程数为6,取从0到JT的共16个方向分别提取特征,最终共可提 取到80维灰度行程长度纹理特征;
[0021] 计算并提取gabor小波特征。通过将图像与Gabor小波滤波器进行卷积可W得到一 系列滤波图像,生成的每一幅图像均可在一定的尺度和方向上描述图像的纹理信息。本发 明选取从0到n的8个方向,每个方向分别取0.5,0.25,0.125和0.1共4个频率尺度,依次计算 在该尺度和方向下经gabor滤波后得到的图像像素的均值和标准差,共计64维。
[0022] (3)对各类纹理特征和gabor小波特征分别执行图1所示的Re 1 i ef特征选择算法。 具体流程如下:
[0023] 设训练数据集为D,样本抽样次数为m,特征权重的阔值为th。
[0024] 1.初始化:将所有特征的权重W初始化为0,选中的特征子集T初始化为空集。
[0025] 2.随机选择一个样本S,计算其与其他样本的欧氏距离。从其同类样本集中找出最 近邻的样本,标记为化arilit。从其不同类的样本集中找出最近邻的样本,标记为化arMiss。
[0026] 3.对该样本的每一维特征i,更新其权值
[0027]
[00%] 其中,对于取值为离散值的特征,
[0029]
[0030]
[0031]
[0032 ] max (i)和min (i)分别为该维特征的最大值和最小值。
[0033] 4.将迭代m轮的各特征维权值与阔值th进行比较。若权值小于th,则该维特征不进 入特征子集T,反之将该维特征加入特征子集T中。
[0034] 本发明中,权值更新的迭代次数m设为500,阔值th取450。完成特征选择后,将选中 的特征子集与形态学特征集合灰度-梯度共生矩阵特征集融合,即构成完整的用于分类的 特征集。
[0035] (4)将所有的样本按照十折交叉验证划分出训练集与测试集,对所有特征值进行 归一化处理后用线性判别分析分类器(Xinear Discriminant Analysis,LDA)进行分类实 验。
[0036] 表1给出了直接将未经特征选择的全部特征用于训练和经特征选择后得到的特征 集用于训练所得到的分类结果。本发明采用W下几个指标对分类结果进行评价:
[0037]
[00;3 引
[0039]
[0040]
[0041] 此外,为证明本发明拥有较低运算复杂度,训练时间也将作为一个评价指标在下 表中进行比较。
[0042] 表1特征分类性能比较
[0043]
[0044] 由表1数据可W看出,本发明在各项指标上均相比特征选择前具有明显优势,因此 经本发明方法获得的特征子集具有更好的分类能力,同时降低了运算复杂度。
【主权项】
1. 一种基于Relief算法的乳腺肿瘤特征选择方法,包括两个部分:乳腺肿瘤特征提取 模块和Re 1 i ef特征选择模块,方法如下: 乳腺肿瘤特征提取模块:该模块用于提取乳腺肿瘤特征,从乳腺肿瘤图像中提取用于 描述肿瘤特征的数值量,将肿瘤特征分为三大类,为形态特征、纹理特征和小波特征;形态 特征从形状、大小方面对乳腺肿瘤直观进行描述,由于形态特征维数较少但对于分类至关 重要,不对形态特征进行选择;纹理特征,表征乳腺肿瘤图像的局部性质,是图像中反复出 现的局部模式及其排列规则,考虑到不同种类的纹理特征对肿瘤特性的描述不同,且纹理 特征具有方向性,所以不同种类、不同方向的乳腺肿瘤纹理特征对分类结果的影响不同,对 每一类纹理特征均从多个方向进行提取;小波特征是一种特殊的纹理特征,用于从不同尺 度对乳腺肿瘤图像纹理进行分析,提取方式与上述的纹理相同; Rel ief特征选择模块:该模块用于进行特征选择,以获得良好的特征子集,从而提高分 类性能,对于每一类纹理特征和小波特征,通过Re lief特征选择算法进行特征选择,再分别 同全部形态特征拼接融合,构成多个特征子空间,将所有得到的特征子集同全部形态特征 拼接融合,从而完成整个乳腺肿瘤特征选择过程。
【文档编号】G06T7/00GK106023188SQ201610325689
【公开日】2016年10月12日
【申请日】2016年5月17日
【发明人】吕卫, 李喆, 褚晶辉
【申请人】天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1