一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法与流程

文档序号：24241683发布日期：2021-03-12 13:16阅读：61来源：国知局

本发明属于乳腺癌诊断
技术领域：
，特别涉及一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法。
背景技术：
：通过计算机的技术对乳腺癌进行诊断，主要方法是根据数据集进行训练测试得到诊断的效果，如：该患者是良性还是恶性，乳腺癌能否复发等。利用计算机的技术进行乳腺癌的诊断，可以减轻医生人工诊断的负担，并且诊断结果可以用于参考，减少误判率。目前乳腺癌诊断已成为近年来医疗诊断领域的热点。目前采用的乳腺癌诊断技术效率太低，应用于临床的系统也比较少，诊断结果也不是很理想。技术实现要素：本发明的目的是为克服上述现有技术存在的缺点和不足，提供一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法。通过在国际标准数据集(breast-cancer-wisconsin，bcw)上进行测试，并和其他两种乳腺癌诊断算法进行对比，该算法的整体诊断效果较优于其它两种乳腺癌诊断算法。本发明技术方案：基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法，包括以下步骤：第1步、设计基于模糊聚类和广义最小二乘法的模糊模型的表示形式；第2步、对国际标准数据集威斯康乳腺癌数据集(breast-cancer-wisconsin，bcw)进行预处理，并将数据集分为训练集和测试集两个部分，其中训练集是用来进行训练模糊模型，测试集是用来进行测试模糊模型；第3步、模糊模型中模糊规则的前提部分的构造是通过模糊聚类算法(fuzzyclusteringmethod，fcm)对训练集进行训练；第4步、模糊模型中模糊规则的结论部分的构造通过广义最小二乘法(generalizedleastsquare，gls)估计多项式函数作为连接权值的参数系数；第5步、根据构造出的模糊模型，对测试数据进行识别分类，并输出最终的诊断结果。第1步中所述的基于模糊聚类和广义最小二乘法的模糊模型的表示形式具体过程：给定一个多项式模糊模型，它包含了多个输入变量和n条模糊规则，则它的模糊规则库的表示形式为：r1：ifx1isb11and...andxnisb1nthenz1＝f1(x1，x2，...，xn)r2：ifx2isb21and...andxnisb2nthenz2＝f2(x1，x2，...，xn)……rn：ifxnisbn1and...andxnisbnkthenzn＝fn(x1，x2，...，xn)其中，r′(i＝1，2，...，n)表示第i条模糊规则，n表示模糊规则的总数；数据集x＝{x1，x2，...，xm}，xi(i＝1，2，...，n)表示第i行输入数据；bij(i＝1，2，...，n，j＝1，2，...，c)表示第i个模糊集属于第j类，c为聚类中心点的个数，fi(x1，x2，...，xn)表示第i条模型规则的输出多项式，zi表示第i条模型规则的输出多项式；模糊模型的输出多项式类型表达式zi＝fi(x1，x2，...，xn)(i＝1，2，...，n)：fj＝bj0+bj1(x1-v1j)+…+bjk(xk-vkj)+bj(k+1)(x1-v1j)2+…+bj(2k)(xk-vkj)2+bj(2k+1)(x1-v1j)(x2-v2j)+…+bj((k+2)(k+1)/2)(xk-1-v(k-1)j)(xk-vkj)其中fj表示第j条规则的多项式，bji表示第j行第i列输入数据的系数，vij表示第i个聚类中心第j个输入变量的中心点，vij的值通过第3.2步模糊聚类算法(fuzzyclusteringmethod，fcm)获得。第2步中所述的数据预处理包含以下步骤：第2.1步、训练集和测试集的划分标准：采用随机抽样法获取训练集和测试集。第2.2步、数值化：国际标准数据集威斯康乳腺癌数据(breast-cancer-wisconsin，bcw)，该数据集有9个属性，分类2类，共286个实例。由于原始数据集中的部分数据是字符型，为了满足实验数据，需要将字符型转换成数值类型；第2.3步、标签化：威斯康乳腺癌数据集(breast-cancer-wisconsin，bcw)数据集，它包含两个类别，分别为recurrence-events和no-recurrence-events，标签化为0和1；第3步中所述的模糊模型中模糊规则的前提部分的构造包含以下步骤：第3.1步、选择模糊模型的输入变量xi(i＝1，2，...，m，m＜＝n)，其中n是输入变量的最总个数，xi表示第i行输入数据；第3.2步、利用模糊聚类算法(fuzzyclusteringmethod，fcm)对数据集中每个选出的输入变量xi进行聚类，获得第i个聚类中心bi；第3.2.1步、初始化聚类中心点的数量和隶属矩阵u(r)：其中，r是迭代次数，u(r)表示第r次迭代隶属矩阵u的值，uiq表示第i个聚类中心点第q个数据点的值，c是聚类中心点的数量，n是数据点的个数。第3.2.2步、计算每个子类的中心向量si和隶属值uiq；其中，表示第r次迭代第i个子类的中心点向量，表示第r次迭代第i个聚类中心第j个输入变量的中心点向量，f＝2，x是数据集，xk表示第k行输入数据，表示第r次迭代第j个子类的中心点向量；第3.2.3步、更新隶属矩阵，通过欧几里德距离来进行计算：其中，diq表示第i个聚类中心第q个数据点距离聚类中心的距离，xq表示第q行输入数据，l表示模糊模型输入变量个数，xqj表示第q行第j列的输入数据；第3.2.4步、判断终止条件。如果||u(r+1)-u(r)||足够小，则算法结束；否则令r＝r+1并返回第3.2.2步；其中，u(r+1)表示第r+1次迭代矩阵u的值，u(r)表示第r次迭代矩阵u的值，指定最大迭代次数maxiter＝50；第3.3步、获得模糊模型中模糊规则的前提部分。根据每个输入变量，得到每条模糊规则，在此基础上获得整个模糊模型的模糊规则前提部分。第4步中所述的模糊模型中模糊规则的结论部分的构造具体过程：估算多项式表达式的系数。采用广义最小二乘法(generalizedleastsquare，gls)来估算表达式的系数。模糊模型的输出y和系数b的值是通过如下公式获得：b＝(xtx)-1xty其中b表示多项式的系数，x表示输入数据矩阵，xt表示矩阵x的转置，(xtx)-1是xtx的逆矩阵，y表示输出；根据基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法进行分类，并将最终的分类结果作为最终的识别结果。所述的方法是：根据构造出的模糊模型，对测试数据进行识别，并输出最终的诊断结果。本发明的优点和有益效果：本发明首先将构造的模糊模型来进行乳腺癌诊断分类。模糊模型中模糊规则的构造包括前提和结论两部分，其中前提部分的构造基于模糊聚类算法(fuzzyclusteringmethod，fcm)，结论部分的构造则基于广义最小二乘法(generalizedleastsquare，gls)。在测试集上进行分类并识别出最终结果。该发明与传统的方法相比，提高了准确率，使得乳腺癌诊断效果得到了提升。附图说明图1是本发明基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法的算法流程图；图2是国际标准数据集(威斯康乳腺癌数据集(breast-cancer-wisconsin，bcw))预处理流程图。具体实施方式下面结合附图对本发明的具体实施方式做进一步的详细说明。下面用模糊聚类算法(fuzzyclusteringmethod，fcm)和广义最小二乘法(generalizedleastsquare，gls)对模糊模型中模糊规则的前提和结论的构造对本发明的方法做具体说明。图1对本发明提供的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法进行了详细步骤说明，本发明提供的方法包括以下步骤：第1步、设计基于模糊聚类和广义最小二乘法的模糊模型的表示形式；给定一个多项式模糊模型，它包含了多个输入变量和n条模糊规则，则它的模糊规则库的表示形式为：r1：ifx1isb11and...andxnisb1nthenz1＝f1(x1，x2，...，xn)r2：ifx2isb21and...andxnisb2nthenz2＝f2(x1，x2，...，xn)……rn：ifxnisbn1and...andxnisbnkthenzn＝fn(x1，x2，...，xn)其中，ri(i＝1，2，...，n)表示第i条模糊规则，n表示模糊规则的总数；数据集x＝{x1，x2，...，xm}，xi(i＝1，2，...，n)表示第i行输入数据；bij(i＝1，2，...，n，j＝1，2，...，c)表示第i个模糊集属于第j类，c为聚类中心点的个数，fi(x1，x2，...，xn)表示第i条模型规则的输出多项式，zi表示第i条模型规则的输出多项式；模糊模型的输出多项式类型表达式zi＝fi(x1，x2，...，xn)(i＝1，2，...，n)：fj＝bj0+bj1(x1-v1j)+…+bjk(xk-vkj)+bj(k+1)(x1-v1j)2+…+bj(2k)(xk-vkj)2+bj(2k+1)(x1-v1j)(x2-v2j)+…+bj((k+2)(k+1)/2)(xk-1-v(k-1)j)(xk-vkj)其中fj表示第j条规则的多项式，bji表示第j行第i列输入数据的系数，vij表示第i个聚类中心第j个输入变量的中心点，vij的值通过第3.2步模糊聚类算法(fuzzyclusteringmethod，fcm)获得。第2步、对国际标准数据集威斯康乳腺癌数据集(breast-cancer-wisconsin，bcw)进行预处理，并将数据集分为训练集和测试集两个部分，其中训练集是用来进行训练模糊模型，测试集是用来进行测试模糊模型；如图2所示，本发明中威斯康乳腺癌数据集(breast-cancer-wisconsin，bcw)数据集预处理主要包括以下步骤：第2.1步、训练集和测试集的划分标准：采用随机抽样法获取训练集和测试集。随机抽取5次，每次抽取的60％样本作为训练集(包含174个样本)，剩下的40％样本(包含115个样本)作为测试集。这样一共可以获得5对训练集和测试集，分别记作train_1，train_2，train_3，train_4，train_5；test_1，test_2，test_3，test_4，test_5；第2.2步、数值化：将符号类型数据变换为数值类型。在威斯康乳腺癌数据集(breast-cancer-wisconsin，bcw)数据集中，共2大类，9个属性(特征)，共289个样本。2大类别分别是乳腺癌复发(recurrence-events)和未复发(no-recurrence-events)，9个特征分别是age，menopause，tumor-size，inv-nodes，node-caps，deg-malig，breast，breast-quad，irradiat。为了满足本发明分类算法的数据要求，需要对这些符号型变量进行数值化，变换为数值类型数据，如表1.1所示：表1.1类别和属性的数值转换表第2.3步、标签化：将威斯康乳腺癌数据集(breast-cancer-wisconsin，bcw)数据集进行数据标签化，可以提升分类模型的精度。数据标签化如表1.2所示。表1.2数据标签化如图1所示，图1为本发明提供分类模糊模型的乳腺癌诊断方法的算法流程图。通过训练集的输入，构造模糊模型模糊规则库的前提部分和结论部分。第3步、模糊模型中模糊规则的前提部分的构造是通过模糊聚类算法(fuzzyclusteringmethod，fcm)对训练集进行训练；模糊模型的模糊规则前提部分的构造主要包含以下步骤：第3.1步、选择模糊模型的输入变量xi(i＝1，2，...，m，m＜＝n)，其中n是输入变量的最总个数，xi表示第i行输入数据；第3.2步、利用模糊聚类算法(fuzzyclusteringmethod，fcm)对数据集中每个选出的输入变量xi进行聚类，获得第i个聚类中心bi；第3.2.1步、初始化聚类中心点的数量和隶属矩阵u(r)：其中，r是迭代次数，u(r)表示第r次迭代隶属矩阵u的值，uiq表示第i个聚类中心点第q个数据点的值，c是聚类中心点的数量，n是数据点的个数；第3.2.2步、计算每个子类的中心向量si和隶属值uiq；其中，表示第r次迭代第i个子类的中心点向量，表示第r次迭代第i个聚类中心第j个输入变量的中心点向量，f＝2，，x是数据集，xk表示第k行输入数据，表示第r次迭代第j个子类的中心点向量；第3.2.3步、更新隶属矩阵，通过欧几里德距离来进行计算：其中，diq表示第i个聚类中心第q个数据点距离聚类中心的距离，xq表示第q行输入数据，l表示模糊模型输入变量个数，xqj表示第q行第j列的输入数据；第3.2.4步、判断终止条件。如果||u(r+1)-u(r)||足够小，则算法结束；否则令r＝r+1并返回第3.2.2步；其中，u(r+1)表示第r+1次迭代矩阵u的值，u(r)表示第r次迭代矩阵u的值，指定最大迭代次数maxiter＝50；第3.3步、获得模糊模型中模糊规则的前提部分。根据每个输入变量，得到每条模糊规则，在此基础上获得整个模糊模型的模糊规则前提部分。第4步、模糊模型中模糊规则的结论部分的构造通过广义最小二乘法(generalizedleastsquare，gls)估计多项式函数作为连接权值的参数系数；模糊模型模糊规则结论部分的构造过程是：估算多项式表达式的系数。采用广义最小二乘法(generalizedleastsquare，gls)来估算表达式的系数。模糊模型的输出y和系数b的值是通过如下公式获得：b＝(xtx)-1xty其中b表示多项式的系数，x表示输入数据矩阵，xt表示矩阵x的转置，(xtx)-1是xtx的逆矩阵，y表示输出。第5步、根据构造出的模糊模型，对测试数据进行分类，并输出最终的诊断结果。其中，分类模糊模型的参数设置如下：模糊规则的数量设定为10，模糊隶属度函数个数设定为2。我们将本发明所提供的方法的乳腺癌诊断准确率与支持向量机分类器(svm)、k近邻算法(k-nearstneighbors，knn)两种方法进行对比，实验结果如表1所示。实验结果表明，本发明的乳腺癌诊断准确率在多数情况下优于其他两种乳腺癌诊断方法。表1.在国际标准数据集正确检测率的比较测试样本svmknnfcm+glstest_188.7087.5095.35test_288.6587.5595.38test_388.6887.4595.30test_489.1587.1095.33test_588.6487.6595.36当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王丹;张贤坤;罗新
技术所有人：天津科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。