一种基于高斯核参数选择的SVM乳腺分类方法与流程

文档序号：11808492阅读：173来源：国知局

本发明涉及医学图像处理技术领域，特别是一种基于高斯核参数选择的SVM乳腺分类方法。

背景技术：

乳腺癌是发生在妇女群体中最普遍的恶性肿瘤之一。近年来我国调查研究显示，乳腺癌的发生比率在逐年递增。因此提高乳腺癌的早期诊断精度变得越来越有意义。

目前，乳腺癌诊断采用的主要方法是通过乳腺钼靶、B超图像等影像检查，诊断者通过钙化或肿块等影像特征来对病情进行分析。但由于乳腺组织中的腺体、血管、脂肪等软组织的密度与病灶区的密度都很接近，加上诊断者视觉疲劳等因素，使得早期乳腺癌的误诊和漏诊仍时常发生。随着医学影像技术和计算机技术的不断发展，利用计算机进行辅助诊断成为可能；比如：利用数字图像处理技术，分别提取乳腺B超、钼靶图像中病理相关的的特征，运用SVM等机器学习方法根据这些特征对乳腺肿块良恶性进行分类识别等。

同一患者的乳腺钼靶与B超影像数据各自存在不足，两者间或有数据冲突，为提供更加全面有效的诊断结果，可对同一患者的乳腺钼靶与超声影像资料进行联合数据分析处理，通过乳腺钼靶与超声影像资料相互间的数据融合与互补，强化佐证，发现肉眼无法辨别的微小病灶，并提高乳腺癌诊断的准确率，减少误诊率、漏诊率。

此外，基于高斯核的二叉平衡决策树SVM多分类算法适合处理数据特征丰富的数据，如乳腺图像数据。本质上，该算法是由多个二分支持向量机分类器组合构成的，每个二分支持向量机分类器对应着二叉平衡决策树的一个决策面，不同决策面对应的数据特征差异性较大，各个决策面训练时需要一个适合于该决策面的高斯核参数。因此，快速有效的高斯核参数选择算法对于二叉平衡决策树支持向量机多分类算法有着举足轻重的影响。

因此，本发明基于上述方法，对提取的乳腺钼靶与B超影像数据特征进行融合后，构建基于二叉平衡树的SVM多分类模型，将高斯核参数选择算法用于基于高斯核的二叉平衡决策树SVM多分类算法的训练过程，从而为临床诊断提供有价值的“参考意见”，提高乳腺癌诊断的准确率和效率。

技术实现要素：

有鉴于此，本发明的目的是提出一种基于高斯核参数选择的SVM乳腺分类方法，能够提高乳腺癌诊断的准确率和效率。

本发明采用以下方案实现：一种基于高斯核参数选择的SVM乳腺分类方法，具体包括以下步骤：

步骤S1：从已知病例中提取乳腺钼靶与B超影像数据特征；将完成特征提取的各病例数据按照已知临床诊断结果进行良恶性与临床分期标注；所述标注分为五类：良性、恶性I级、恶性II级、恶性III级、恶性IV级；

步骤S2：对同一患者乳腺的钼靶图像特征与B超图像特征通过串联进行多特征融合，得到乳腺样本的特征向量；

步骤S3：选取基于高斯核的二叉平衡决策树SVM作为乳腺多分类模型,针对二叉平衡决策树的各个决策面，求解合适的高斯核参数，通过二分SVM进行训练；即随机选取标注数据的80％用于基于高斯核参数选择的二叉平衡决策树SVM多分类算法的训练过程：

步骤S4：用基于高斯核的二叉平衡决策树SVM进行识别；即剩余标注数据的20％用于基于高斯核参数选择的二叉平衡决策树SVM多分类算法的识别过程。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：给定一个中等规模以上的乳腺B超病灶区域、乳腺钼靶病灶区域图像集；所述中等规模以上表示该图像集至少含有250幅以上的乳腺B超诊断图像和乳腺钼靶诊断图像；

步骤S12：将所述乳腺B超病灶区域、乳腺钼靶病灶区域图像集分为训练集和验证集；从乳腺钼靶病灶区域图像提取基于GLCM和基于灰度直方图的特征；从B超病灶区域图像提取基于GLCM、基于小波、基于小波包、基于MPEG-7的特征；将训练集的各病例数据按照已知临床诊断结果进行良恶性与临床分期标注。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：建立一棵二叉平衡决策树SVM：构建基于高斯核的乳腺数据二叉平衡决策树SVM，从根节点开始，先将类别均分成两部分，每个部分为中间结点或为叶子结点，再递归分解中间结点直至为叶子结点；

步骤S32：针对步骤S31中所述的二叉平衡决策树SVM的各个决策面，采用高斯核参数选择方法设置合适的高斯核参数；

步骤S33：通过二分SVM进行训练。

进一步地，所述步骤S31具体包括以下步骤：

步骤S311：分别计算步骤S1中已标注的5个类的类中心；

步骤S312：找出5个类中的两个类：将恶性IV级记为c1，良性记为c2，这两个类的类中心拥有最大欧氏距离；

步骤S313：将步骤S312中的这两个类分别标记为C1类簇与C2类簇；

步骤S314：在剩余的3个类当中，选择与C1类簇有最小的欧氏距离的类与所述C1类簇合并成一个类，并标记为C1类簇，重新计算C1类簇的类中心；

步骤S315：在剩余的2个类当中，选择与C2类簇有最小的欧氏距离的类与所述C2类簇合并成一个类，并标记为C2类簇，重新计算C2类簇的类中心；

步骤S316：循环计算S314至S315，直至5个类分配结束。

进一步地，所述步骤S32具体包括以下步骤：

步骤S321：选择合适的P值；

步骤S322：设max＝P，min＝0；

步骤S323：若max-min≥ξ，则进入步骤S324；否则返回步骤S321；

步骤S324：计算：

$<mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munder> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <msup> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>*</mo> </msup> <msup> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>*</mo> </msup> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>j</mi> </msub> <mi>E</mi> <mi>x</mi> <mi>p</mi> <mrow> <mo>(</mo> <mo>-</mo> <mi>P</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>·</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>;</mo> </mrow>$

式中，其中y_i为第i个训练样本的类别，y_i∈{-1,+1}；x_i为第i个训练样本的特征；a_i^*为拉格朗日乘子，0≤a_i^*≤C，常量C为惩罚因子，a_i^*利用序列最小化方法SMO求解；

步骤S325：若G(P)＞0，则t＝G(P)，否则t＝0；

步骤S326：令mid＝(max+min)/2,求解G(mid),若G(mid)＞0,则t＝0；

步骤S327：令λ＝mid，计算：

$<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>λ</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munder> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <msup> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>*</mo> </msup> <msup> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>*</mo> </msup> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>j</mi> </msub> <mi>E</mi> <mi>x</mi> <mi>p</mi> <mrow> <mo>(</mo> <mo>-</mo> <mi>λ</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mo>Σ</mo> <mi>i</mi> </munder> <msup> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>*</mo> </msup> <mo>;</mo> </mrow>$

步骤S328：若(G(mid)＝0∩J(mid)＝J(0))∪G(mid)＜t，则令min＝mid；否则令max＝mid；返回步骤S326。

进一步地，所述步骤S321具体包括以下步骤：

步骤S3211：初始化：令P＝1，w＝0.000001

步骤S3212：计算：

式中，y_i为第i个训练样本的类别，y_i∈{-1,+1}；x_i为第i个训练样本的特征；a_i^*为拉格朗日橙子，0≤a_i^*≤C，常数C为惩罚因子，a_i^*利用序列最小化方法SMO求解；

步骤S3213：令λ＝P，计算：

步骤S3214：若(G(P)＝0∩J(P)＝J(0))∪G(P)≤-w，则P＝P×2,并返回步骤S3212；否则结束。

与现有技术相比，本发明有以下有益效果：本发明利用高斯核参数选择算法对基于高斯核的二叉平衡决策树SVM的每个决策面设置适合于该决策面数据特征的高斯核。该方法实现灵活，具有较强的实用性，提高了乳腺癌诊断的准确率和效率。

附图说明

图1为本发明实施例构建基于高斯核的乳腺二叉平衡决策树SVM原理示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本实施例提供了一种基于高斯核参数选择的SVM乳腺分类方法，具体包括以下步骤：