在计算机辅助诊断装置中利用未诊断病例的预测建模方法

文档序号:6639419阅读:234来源:国知局
专利名称:在计算机辅助诊断装置中利用未诊断病例的预测建模方法
技术领域
本发明涉及一种计算机辅助医疗诊断装置,特别涉及一种结合协同训练技术和集成学习技术从而有效利用已诊断和未诊断病例进行预测建模的方法。
背景技术
随着计算机技术的发展,计算机辅助医疗诊断装置由于不受疲劳、情绪等因素的影响,已成为重要的辅助诊断手段。计算机辅助医疗诊断装置通常是利用一些预测建模方法对病例进行分析,从而建立预测模型,然后再用该预测模型来对新病例进行诊断,其结果提交给医学专家进行进一步的分析确诊,从而在一定程度上减轻医学专家的工作负担。因此,预测建模方法是计算机辅助医疗诊断装置的关键。
在计算机辅助医疗诊断中,往往需要对大量经过医学专家诊断的病例进行分析才能得到具有高预测精度的模型。随着医疗卫生的普及,大量可供建模的病例已经可以从各种日常体检中获取。但是,如果让医疗专家为每一个病例都给出相应的诊断,势必会加重医学专家们的负担。通常,医学专家们只能为少量病例提供诊断。然而,仅仅使用这些少量的已诊断病例来进行建模,预测模型往往难以达到所要求的精度,因此大大制约了计算机辅助医疗诊断装置的效用。同时,如果不对那些已经收集到的未诊断数据进行利用,势必会造成资源的浪费。因此,如果预测建模方法能够同时利用已诊断病例和未诊断病例来建立模型,使得在少量的已诊断病例上建立模型的预测精度可以通过对未诊断病例的利用得以提高,那么将会提高计算机辅助医疗诊断装置的性能。

发明内容
1、发明目的本发明的主要目的是针对现有计算机辅助医疗诊断中预测建模方法由于只能利用少量的已诊断病例进行建模,从而使得预测模型不能达到较高精度的问题,提供一种能够同时利用已诊断病例和未诊断病例来建立模型,从而使得在少量的已诊断病例上建立模型的预测精度可以通过对未诊断病例的利用得以提高的预测建模方法,以辅助提高计算机辅助医疗诊断装置的性能。
2、技术方案为实现上述目的,本发明提供一种结合协同训练技术以及集成学习技术来利用已诊断病例和未诊断病例进行高精度预测建模的方法该方法包括通过医学症状检测设备获取待诊对象的症状形成症状向量,然后通过以下步骤得到预测结果(1)如果预测模型尚未建立,执行步骤2,否则转入步骤6;(2)根据已诊断病例和未诊断病例分别产生已标记训练数据集和未标记训练数据集;(3)根据已标记数据训练一个随机森林决策树集成;(4)采用协同训练技术利用未标记数据提高随机森林中每个个体的预测精度;(5)采用多数投票机制来结合经过步骤(4)精化过的个体,以产生预测模型;(6)利用预测模型进行预测并给出预测结果;(7)结束。
3、有益效果本发明的优点在于为计算机辅助医疗诊断装置提供了能够利用可以方便获取的大量未诊断病例,来提高只利用已诊断病例所建立模型精度的预测建模方法,以辅助提高计算机辅助医疗诊断装置的性能。
下面将结合附图对最佳实施例进行详细说明。


图1是计算机辅助医疗诊断装置的工作流程图。
图2是本发明方法的流程图。
图3是随机森林的训练过程。
图4是采用协同训练技术利用未诊断病例来提高随机森林中个体精度的流程图。
具体实施例方式
如图1所示,计算机辅助医疗诊断装置利用医学症状检测设备例如体温、血压测量设备等获取待诊对象的症状例如体温、血压等,然后将症状进行量化以得到症状向量,例如[t1,t2…,tn],其中t1表示第一个症状值,t2表示第二个症状值,依此类推。症状向量交给预测模型处理,即可得到预测结果,经过文字化处理后,就产生了最后提交给用户的诊断结论。
本发明的方法如图2所示。步骤10是初始动作。步骤11判断预测模型是否已经训练好,若已训练好则可处理诊断任务,执行步骤16;否则需进行训练,执行步骤12。步骤12利用已经诊断过以及未诊断病例产生已标记训练集L和未标记训练集U,其中每个病例为一个样本,标记为该样本属于某一个病症或者是“健康”,未标记样本的标记缺失。步骤13利用可重复取样技术从L中训练出N个随机决策树,从而组成一个特殊的决策树集成——随机森林。N是一个用户预设的整数值,例如6,它确定了随机森林所包含的随机决策树的个数。这里的随机决策树可以通过在机器学习教科书介绍的C4.5、CART等决策树学习算法上修改而得,具体来说,当选择样本的某个特征作为决策树的内部结点时,C4.5、CART等算法都是每次从数据所有的特征中根据一定的判定原则挑选一个区分能力最强的特征来划分数据,而随机决策树则是先从所有可用的特征中随机挑选一个子集,然后再从这个子集中选出一个区分能力最强的特征。因此,只需将C4.5、CART等算法中每次挑选特征的集合从特征全集随机改为一个子集即可。步骤14采用协同训练技术来利用U中未被未标记样本来提高随机森林中每个个体的精度,该步骤将在图3中详细介绍。在协同训练完成以后,步骤15就是采用多数投票技术来结合所有利用未标记数据精化过的随机决策树的预测结果。具体来说就是最终随机森林的预测结果保持和多数个体预测结果相同。步骤16接收待诊断的症状向量。步骤17将症状向量提交给经过未标记数据精化过的随机森林进行预测。步骤18给出随机森林产生的预测结果。步骤19是结束状态。
图3详细说明了图2的步骤13,具体说明了如何利用L来产生随机森林。图3的步骤1300是起始状态。步骤1301,1302以及1309构成了一个循环体,每一个循环体中建立一个随机决策树。一共建立N个。步骤1303把用于训练第i个随机决策树训练集置为空集。步骤1304,1305,1307构成一个循环体,用于从L中通过可重复取样技术产生Li。其中M是Li的大小,通常和L的大小一样。步骤1306,随机的从L中挑选一个样本拷贝到Li中。由于使用的是拷贝操作,刚被选中的样本仍然可能在下一次循环中继续被选中,因此该项技术被称为可重复取样技术。步骤1308,根据采用可重复取样技术产生的训练集Li构造一个随机决策树。步骤1310时结束状态。
图4详细说明了图2的步骤14,其作用是使用协同训练技术来利用U中的未标记样本来提高随机森林中个体的精度。图4的步骤1400是起始状态。步骤1401分别初始化上一轮迭代中Hi(i=1,…,N)的误差ei’为0.5以及上一轮迭代中使用的所有未标记样本的权值和Wi’为0。其中Hi是随机森林中除去个体hi以后所形成的随机森林。步骤1402,1403以及1411构成一个循环用于遍历所有的个体,从步骤1404到1410都位于该循环体中。步骤1404根据训练数据估计Hi在本轮迭代中的误差ei。步骤1405判断如果Hi在本轮迭代的误差ei小于上轮迭代的误差ei’,则进行步骤1406,否则转到步骤1411。步骤1406从U中随机挑选若干样本,并拷贝到集合Li,并且使得Li中所有样本的总权值不超过ei’wi’/ei。对于U中的样本来说,初始权值都为1。注意,在该步骤中,所挑选的样本并不从U中去掉,因此已经挑选过的样本仍然可能会在以后继续被挑选。步骤1407利用Hi对Li中样本进行预测,把预测结果作为该样本的标记赋给该样本,并且记录每个样本的预测置信度。步骤1408检查预测置信度是否大于某个预设阈值,如果是进行步骤1409,使用样本对应的置信度为样本加权,否则进行步骤1410,即从Li中删除这些置信度较低的样本。步骤1412,1413以及1417构成了一个循化条件,用于遍历随机森林中的每一个个体。从步骤1414到1416都位于该循环体之间。步骤1414,判断Hi在本轮迭代的误差ei小于上轮迭代的误差ei’并且本轮迭代中Li的总权值Wi大于上一轮的总权值Wi’,如果是,Li可用来帮助提高当前版本的hi精度,因此进行步骤1415,否则不予考虑Li并转到1417。步骤1415利用原来有标记的数据集L以及新标记数据集Li重新训练随机森林中的个体hi。步骤1416,把本轮迭代中的ei和wi赋给上轮的ei’和wi’,以便进入下一轮迭代。步骤1418判断是否所有个体在本轮迭代中都没有更新过,如果不是,转步骤1402,开始新一轮的迭代,如果是,则进入步骤1419。步骤1419为结束状态。
其中i、j、N、m均为自然数,hi为第i个随机决策树,Hi为随机森林H中除了hi以外的其它随机决策树所组成的随机森林。L为已标记训练集,Li是Hi为hi所挑选并标记的未标记数据集合,ei’和ei分别为Hi在上一轮迭代和本轮迭代中的误差。wi’和wi分别为上一轮迭代和本轮迭代中Li中样本的权值和。
权利要求
1.一种在计算机辅助诊断装置中利用未诊断病例的预测建模方法,其特征在于该方法包括通过医学症状检测设备获取待诊对象的症状形成症状向量,然后通过以下步骤得到预测结果(1)如果预测模型尚未建立,执行步骤(2),否则转入步骤(6);(2)根据已诊断病例和未诊断病例分别产生已标记训练数据集和未标记训练数据集;(3)根据已标记数据训练一个随机森林决策树集成;(4)采用协同训练技术利用未标记病例提高随机森林中每个个体的预测精度;(5)采用多数投票机制来结合经过步骤(4)精化过的个体,以产生预测模型;(6)利用预测模型进行预测并给出预测结果;(7)结束。
2.根据权利要求1所述的在计算机辅助诊断装置中利用未诊断病例的预测建模方法,其特征在于在步骤(3)中,所述的根据已标记数据训练一个随机森林决策树集成的方法包括以下步骤(1301)置i为0;(1302)若i≤N,执行步骤(1303),否则转入步骤(1310);(1303)置Li为空集;(1304)置j为0;(1305)若j≤m,则执行(1306),否则转入(1308);(1306)从L中随机挑选一个样本拷贝到Li中;(1307)置j=j+1,转入(1305);(1308)在Li上训练一个随机决策树;(1309)置i=i+1,转入(1302);(1310)结束;其中i、j、N、m均为自然数,L为已标记训练集,Li为第i个随机决策树训练集。
3.根据权利要求1所述的在计算机辅助诊断装置中利用未诊断病例的预测建模方法,其特征在于在步骤(4)中,所述的采用协同训练技术利用未标记病例提高随机森林中每个个体的预测精度的方法,包括以下步骤(1401)置每个个体的ei’为0.5,wi为0;(1402)置i为1;(1403)若i≤N,执行步骤(1404),否则转入(1412);(1404)估计Hi的误差ei;(1405)若ei<ei’,执行步骤(1406),否则转入(1411);(1406)从未标记数据集U中亚取样产生Li;(1407)使用Hi对Li中的样本进行预测;(1408)如果预测的置信度大于阈值,执行步骤(1409),否则转入(1410);(1409)用置信度为样本加权;(1410)从Li中删除这些置信度未超过阈值的样本;(1411)计数器i增加1;(1412)置i为1;(1413)若i≤N,执行步骤(1414),否则转入(1418);(1414)若ei<ei’且wi’<wi,执行步骤(1415),否则转入(1417);(1415)利用L和Li重新训练hi;(1416)ei’置为ei,wi’置为wi;(1417)计数器i增加1;(1418)若所有的hi都没有更新过,执行步骤(1419),否则转入(1402)(1419)结束;其中i、j、N、m均为自然数,hi为第i个随机决策树,Hi为随机森林H中除了hi以外的其它随机决策树所组成的随机森林。L为已标记训练集,Li是Hi为hi所挑选并标记的未标记数据集合,ei’和ei分别为Hi在上一轮迭代和本轮迭代中的误差。wi’和wi分别为上一轮迭代和本轮迭代中Li中样本的权值和。
全文摘要
本发明公开了一种在计算机辅助诊断装置中利用未诊断病例的预测建模方法,该方法通过以下步骤得到预测结果(1)若预测模型未训练好,则执行步骤(2),否则转到步骤(6);(2)利用已诊断病例和未诊断病例产生已标记和未标记训练数据集;(3)利用已标记训练数据集训练出一个随机森林;(4)采用协同训练技术利用未标记数据来帮助提高随机森林中每一个个体的精度;(5)利用多数投票技术产生最终的预测模型;(6)利用预测模型进行预测并给出结果。本发明的优点是通过对未诊断病例的利用得以提高预测建模方法,以辅助提高计算机辅助医疗诊断装置的性能。
文档编号G06F19/00GK1760881SQ200510095420
公开日2006年4月19日 申请日期2005年11月14日 优先权日2005年11月14日
发明者周志华, 黎铭 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1