利用支持向量机(svm)在计算机辅助检测(cad)中进行假阳性降低的系统和方法

文档序号:6553061阅读:392来源:国知局
专利名称:利用支持向量机(svm)在计算机辅助检测(cad)中进行假阳性降低的系统和方法
本申请/专利来源于所提名申请人于2004年11月19日提交的申请号为60/629,751的美国临时专利申请。本申请与共同拥有的编号为PHUS040499、PHUS040500、以及PHUS040501的共同未决Philips申请有关。
本发明涉及计算机辅助检测系统和方法。本发明更进一步涉及用于利用支持向量机(SVMs)在从高分辨率薄片计算层析成象(HRCT)的图像进行对肺结核的计算机辅助检测(CAD)中进行假阳性降低以实现CAD后机器学习的系统和方法。
当前与计算机有关的系统的速度和复杂性支持开发更快速以及更完善的医学成像系统。由于处理而产生的数据量以及处理量的相应增大导致创建很多应用程序以自动分析医学图像数据。也就是说,开发了各种数据处理软件和系统以帮助内科医师、临床医师、放射科医师等等评估医学图像以对医学图像进行识别和/或诊断及评估。例如,已经开发了计算机辅助检测(CAD)算法和系统以从多片CT(multi-slice CT,MSCT)扫描中自动地识别出可疑的损伤。考虑到它的准确地说明解剖结构的尺寸、形状和位置以及异常或损伤的能力,CT或者计算层析成象系统是一般用于通过成像来诊断疾病的成像模态。
CAD系统自动地在形态学上检测(识别)所关心部位(interestingregions)(例如,损伤)或可能是临床相关的其他结构上可检测的状态。当再现并显示医学图像时,CAD系统典型地标记或识别所研究的部位。标记是为了引起对所标记的可疑部位的注意,并且更进一步提供对损伤(所关心部位)的分类或表征。也就是说,CAD(和/或CADx)系统可以识别出胸部研究中的微钙化(microcalcifications)或者MSCT中的结核为恶性的还是良性的。CAD系统结合了放射科医师的专业知识,并且基本上提供了与在医学图像数据中检测异常有关的第二种意见,并且可以再现诊断建议。通过支持对怀疑为癌症的损伤的早期检测和分类,CAD系统允许较早地介入,理论上会为病人产生较好的预后。
CAD及其他机器学习系统的大多数现有工作都遵循有监督学习的相同方法。CAD系统从利用已知的基础事实(ground truth)来收集数据开始,并在训练数据上被“训练”以识别出被认为是有足够的鉴别能力以区分基础事实(例如恶性的或良性的)的一特征集。对所属领域技术人员的挑战包括提取便于对类型进行鉴别的特征,理论上找到特征池内最相关的特征。CAD系统可以组合异质的信息(例如基于图像的特征与病人数据),或者可以发现例如基于相似性度量的方法。技术人员应当理解,任何计算机驱动决策支持系统的准确性都受到已经被分类成学习过程的模式集合的可用性(即,受训练集合)的限制。
如果不确定界(indefinite boundary)是CAD后处理的基础,那么基于不确定界描述的结果可能同样是不确定的。也就是说,诊断扫描处理中所使用的任何计算机学习系统的输出都是建议。因此利用提供给临床医师的每个建议作为可能的候选恶性肿瘤,临床医师不得不进行研究。也就是说,CAD辅助结果把底线事实(例如,真阳性)表示为对所研究部位的建议诊断,临床医师会疏忽的是他/她不会更加详细地研究该部位。所属领域技术人员应该理解,在医学上下文中“真阳性”常常指的是所检测的真正恶性的结核,在CAD上下文中,即使标记指示良性或钙化结核,也把标记认为是真阳性标记。于是没有定义“真阴性”,并且在CAD中不能给出标准化的特异性。假阳性标记是根本不指示结核(而是在伤痕、支气管壁变厚、运动伪假象、脉管分支等等)的那些标记。因此,CAD性能典型地由敏感性(检出率)和假阳性率(每个CT研究中假阳性标记)来限定(qualify),因而技术人员十分需要的是使假阳性减到最少。完成自动检测处理(有或没有标记)之后,大多数CAD系统会自动地调用一个或多个截取工具用于用户和CAD检测的损伤(部位)以便除去多余信息、实现解释工具等等。为此,已知各种技术来降低CAD和诊断中的假阳性。例如,W.A.H.Mousa和M.A.U.Khan在Proc.of IEEE ICIP′2002中公开了命名为“Lung Nodule Classification Utilizing Support Vector Machines”的他们的技术。K.Suzuki,S.G.Amato III,F.Li,S.Sone,K.Doi在“Massive training artificial neural network(MTANN)for reduction offalse positives in computerized detection of lung nodules in low-dosecomputed tomography”,Med.Physics 30(7),July 2003,pp.1602-1617中以及Z.Ge,B.Sahiner,H.-P.Chan,L.M.Hadjiski,J.Wei,N.Bogot,P.N.Cascade,E.A.Kazerooni,C.Zhou,“Computer aided detection oflung nodulesfalse positive reduction using a 3D gradient field method”,Medical Imaging 2004Image Processing,pp.1076-1082描述了一种最小化假阳性检测的尝试。
上述FPR系统的一部分嵌入于CAD算法中,而另一部分用作处理后步骤以提高CAD算法的特异性。例如,R.Wiemker等在他们的COMPUTER-AIDEDSEGMENTATION OF PULMONARY NODULESAUTOMATED VASCUALTURE CUTOFF INTHIN-AND THICK-SLICE CT,2003 Elsevier Science BV中讨论了最大化CAD算法的敏感性以在薄片CT中把肺结核从结核的周围脉管系统中有效地分离(以弥补部分容积影响),致力于降低分类错误。然而,Weimker FPR系统和方法像大多数已知FPR系统和方法一样常常没有使用完善的机器学习技术,或者没有优化它们的特征提取和选择方法。例如,虽然Mousa等利用支持向量机来把真正的肺结核从非结核(EP)中区分出来,但是他们的系统基于可能限制特异性的非常简单化的特征提取单元。
因此,本发明的目的就是提供一种假阳性降低系统,其可以准确且可靠地执行对医学图像数据的放射性重要部分的自动检测,以实现很好的特异性和敏感性(即,最少的假阳性)那样的方式来对它们进行分类。
本发明的另一个目的是实现一种FPR系统,其包括用于在形态学上识别和描绘医学图像内的相关部位(“候选部位”)的CAD子系统,以及机器学习子系统,其包括特征提取器、遗传算法(GA)和支持向量机(SVM),以把机器学习应用到CAD子系统所描绘的候选部位上并且把它们分类成结核和非结核,借此在保留所有真阳性的限制条件下除去尽可能多的假阳性。
本发明的又一个目的是包括用于通过足够的特异性和敏感性来检测、提取和分类医学图像数据中的候选结核的CAD后机器学习技术以实际上除去假阳性分类。首先由CAD处理来识别候选结核,由GA提取和处理结核特征以识别出由分类器处理来使用的理想特征和特征的数目,所述分类器处理利用足够的敏感性和特异性来把所有结核识别成恶性或者良性以有效地降低被错误识别的结核的数目,这由CAD后确定的特征子集的机器学习来支持。
在一个实施例中,一种用于假阳性降低(FPR)的方法被实现成四个主要步骤的序列1)图像分割(通过CAD),2)从分割数据中进行特征提取,3)由GA、后期CAD进行特征子集合优化,以及4)由SVM基于优化的特征子集合进行分类,结果产生可靠的敏感性和特异性、以及最低的假阳性。在这方面,一种此处定义的创新FPR系统可包括CAD子系统。如果是这样的话,该子系统包括具有推荐器子系统的新颖的分割器,以识别出被分析部位的“最佳”分割。在与本申请一道同时提交的共同拥有的共同未决的[申请号为10/的美国申请]Philips申请编号为US040505的申请中可以发现并请求保护了本发明上的这种变化。
虽然创新系统和方法被称作在CT或高分辨率CT扫描数据(HRCT)上进行操作,但是所属领域技术人员应当理解该描述不意味着把本发明的范围限制在CT或HRCT数据上的操作,而是可以在任何所获得的图像数据上进行操作,其仅仅由在此附上的权利要求的范围来限定。


图1是描述一种利用支持向量机(SVM)在计算机辅助检测(CAD)中从计算机断层(CT)医学图像中降低假阳性(FPR)的系统的示意图;图2是描述支持向量机的基本思想的示意图;以及图3是识别本发明的示范性处理的处理流程图。
在图像数据集合(例如,CT)中检测肺结核的过程中计算机辅助(CAD和CADx)的根本目标不是为了把诊断指派给机器,而是实现一种基于机器的算法或方法以支持放射科医师提出他的/她的判断,即,指出可疑对象的位置以便提高总灵敏度(检出率)。利用CAD或其他临床决策支持系统的主要问题是不可避免的假标记(所谓的假阳性)会与真阳性标记一起出现。临床研究的经验显示出由CAD系统以及由放射科医师自己所得到的测量检出率明显地取决于共同读取的放射科医师的数目越多的共同读取者参与,就会不可避免发现越多的可疑损伤,因而每个参与的放射科医师和CAD系统的个人敏感性就会减小。但是即使必须小心地鉴别绝对敏感性图形,所有临床研究仍在这一点上意见相同,即很多结核已经被辅助CAD软件独自地检测出了,但是会被所有共同读取的放射科医师所忽视。本发明考虑到了这种敏感性。
包括假阳性降低处理的基于CAD的系统(诸如由Wiemker、Mousa及其他人等等所描述的那些)具有一个重要的工作,那就是识别出医学图像数据中所检测的“可采取行动的”结构。一旦被识别(即,被分割),就由CAD系统获得重要特征的全面集合以便关于一部分基础事实(例如恶性或良性)而对所分割的部位进行分类。所属领域技术人员应当承认,计算机驱动决策支持、或CAD系统的准确性由用作训练集合的已知病理学的模式或部位集合的可用性来限制。即使诸如由Wiemker,R.,T.Blaffert,在他们的Options to improve theperformance of the computer aided detection of lung nodules in thin-slice CT.2003,Philips Research LaboratoriesHamburg中所描述的以及由Wiemker,R.,T.Blaffert在他们的Computer Aided Tumor Volumetryin CT Data,Invention disclosure.2002,Philips Research,Hamburg中所描述的之类的现有技术CAD算法也会产生许多假阳性,导致有相关风险和较低用户接受性的不必要的介入。此外,当前假阳性降低算法常常是为了胸部X光照片图像或厚片CT扫描而开发的,未必会在源自HRCT的数据上很好地执行。
为此,此处描述的创新FPR系统和方法包括一种CAD子系统或处理以识别出被分割的候选部位。在训练期间,以及CAD处理之后,训练数据集合内的分割部位被传递给特征提取器、或者实现特征提取处理的处理器。特征提取从所检测的结构中获得3D和2D特征,其被传递给遗传算法(GA)子系统或GA处理器。需要在用于检测医学图像中的相关部位的领域中的至少一个临床医师来支持训练。GA处理器处理该提取特征集合(来自训练图像)以实现最佳特征子集。最佳特征子集包括最佳数目的最佳特征,所述最佳特征利用FPR为SVM提供了足够的鉴别能力。
在训练期间,由GA进行的CAD后处理确定由机器学习处理所使用的特征的最佳子集。SVM将特该征子集用于其机器学习。此后,由CAD子系统来处理所调查的图像,利用或不利用分割器(segmenter),来对候选部位进行识别和分割。由已训练分类器(SVM)对从候选部位中提取的特征集合进行操作。因为该唯一CAD后机器学习的关系,以及利用足够的特异性和敏感性,创新FPR系统准确地在高分辨率且薄片CT(HRCT)图像中检测非常小的结核。所属领域技术人员应当理解,该创新FPR系统可以准确地检测和分类出利用低级技术不可见的结核或微钙化。例如,具有片厚度<=1mm的HRCT数据允许检测非常小的结核,但是为了这样做需要新方法以进行可靠的检测及从脉管中进行鉴别,诸如本发明在此处阐述的那样。参考图1来大致地描述本发明的FPR系统400的优选实施例。FPR系统400(具有假阳性降低)包括CAD子系统420,用于对满足具体标准的部位进行识别和分割。优选地,该CAD子系统包括CAD处理器410,以及更进一步包括分割单元430以在医学图像数据上执行低水平处理。CAD子系统420对由CAD处理所识别的候选结核(所关心的部位)进行分割,不论是对训练数据进行操作还是研究候选部位。CAD子系统指导参数调整处理以实现稳定的分割。
分割数据被输出到包括FPR子系统的特征提取单元440。特征池从每个分割部位(训练或候选)中被提取,并且由遗传算法处理器450来对其进行操作以便识别“最佳”集合特征子集以训练SVM。也就是说,GA处理器450相对于该特征池所包括的特征的选择和特征的数目而产生特征的优化子集。该子集由支持向量机(SVM)460来使用以利用足够好的敏感性和特异性来分类出当在从候选部位所提取的特征集合上进行操作时(错误地)识别最少的假阳性。也就是说,当研究候选部位时,象从训练中被区分那样,所提取的特征被转送到SVM以用于分类。
如上所述,CAD子系统420,无论它包括或者不包括分割单元430,都通过产生二元或三元图像来从背景中描绘出候选结核(包括非结核),所述图像中标记了结核部位、背景部位和肺壁(或“切断”)部位。当收到灰度级和已标记的VOI时,特征提取器计算(提取)任何相关的特征,诸如2D和3D形状特征、基于直方图的特征等等。在训练模式中,特征提取很关键,因为它大大地影响了FPR系统的总体性能。如果没有对特征的整个集合或池进行适当地提取,GA就不能确定具有最佳判别能力和最小尺寸的特征子集(以便避免过度拟合(over-fitting)和提高概括能力)。
基于GA的特征选择处理由共同拥有的共同未决[美国专利申请序列号]Philips申请编号US040120(ID公开#779446)教导,通过引用将其内容引入于此。通过创建包括多个“基因”的若干“染色体”而开始GA的特征子集选择。每个基因表示一个所选特征。由染色体所表示的特征集合用来在训练数据上训练SVM。染色体的适合度(fitness)由最终的SVM执行得有多好来评价。开始这个处理时,通过随机选择特征以形成染色体来产生染色体的总数(population)。然后该算法(即,GA)迭代地搜索执行良好的(高适合度)那些染色体。
在每次产生时,GA在对象总体中评价每个染色体的适合度以及通过两个主要的进化方法(变异和交叉)从当前染色体中创建新染色体。“好”染色体中的基因很可能被保留以用于下一次产生,而性能差的那些很可能被丢弃。最终通过适者生存的这种处理找到最佳解(即,一批特征)。以及通过认识该最佳特征子集,包括最佳数目的特征来实现假阳性降低(FPR),降低了误分类情况的总数。确定了特征子集之后,该子集用来训练SVM。所属领域技术人员应该理解SVM把“原”特征空间映射到一部分较高维数的特征空间,在所述较高维数的特征空间中可由超平面来分离训练集合,如图2所示。基于SVM的分类器具有若干内部参数,其可能影响它的性能。这种参数被凭经验地优化以得到最佳可能总准确度。此外,在由SVM使用之前对该特征值进行标准化以避免使具有大数值范围的特征比具有较小数值范围的特征有优势,这是由共同拥有且共同未决的[美国专利申请号10/]Philips申请编号US 040499(ID公开号778965)所教导的创新系统和处理的焦点。标准化特征值也使计算更简单。以及因为核心值通常取决于特征向量的内积,所以大属性值可能会引起数值问题。
范围的标度(scale)被实现成x′=(x-mi)/(Mi-mi),其中,x′是“标度”值;
x是原始值;Mi是数组中的最大值;以及mi是数组中的最小值。
利用被称为是“留一法(leave-one-out)和K折验证(k-fold validation)”的方法,使用包括病理学已知的训练数据或部位的肺结核数据集来验证该创新FPR系统。该验证被实现且该创新FPR系统被显示出降低大多数假结核的同时实际上保留了所有真结核。正是可能包括或可能不包括分割器(如图1所示)的CAD子系统,通过产生二元或三元的图像而把结核和非结核从背景中描绘出来,借此标记了结核部位、背景部位、以及肺壁或(“切断”)部位。利用灰度级和标记VOI,具有特征提取单元的机器学习子系统对诸如2D和3D形状特征、基于直方图的特征等等之类的不同特征进行计算。
图3是描述一种根据本发明而实现的处理的流程图。也就是说,图3是阐述此处应用本发明的处理的一个实施例的流程图。框550表示在医学图像训练数据集合上训练分类器,对于所述医学图像训练数据来说关于部位的临床基础事实是已知的。在一个实施例中,该步骤可以包括在选择为包括若干真和假部位的医学图像训练数据集合上训练分类器,其中真和假部位由CAD处理来识别,以及被自动地分割,其中分割训练部位由至少一个专家来审阅以把每个训练部位针对它的基础事实(即,真或假)进行分类,其中从每个分割部位来识别和提取特征池,以及其中由遗传算法来处理该特征池以识别最佳特征子集,所述子集用来训练支持向量机。
框540表示在非训练医学图像数据内对作为分类候选者的部位进行检测的步骤,以及框560表示对候选部位进行分割的步骤。框580表示更进一步处理分割部位以提取与所关心部位有关的全部特征集合(池)的步骤。框600表示利用遗传算法在每个已知训练部位的全部特征集合上进行操作以识别最佳子集合特征、以训练支持向量机的步骤。训练之后,SVM对从候选部位提取的特征集合进行操作。训练的步骤可以包括在分割处理中利用推荐器(recommender),这个推荐器利用已知的病理学为训练器提供对部位的最佳分割的实际选择。
重要的是要注意执行该创新方法或驱动该创新FPR分类器所需要的软件包括用于实现逻辑功能的可执行指令的有序列表。因而,该软件能够以由或结合指令执行系统、装置、或设备来使用的任何计算机可读介质来体现,诸如基于计算机的系统、包含处理器的系统、或可把指令从指令执行系统、装置、或设备中取出并且执行该指令的其他系统。在本文件的上下文中,“计算机可读介质”可以是能够包含、存储、通信、传播、或传送由或结合指令执行系统、装置、或设备来使用的程序的任何装置。
计算机可读介质可以是例如但不限于电、磁、光、电磁、红外、或半导体系统、装置、设备、或传播介质。计算机可读介质的更加具体的例子(非穷举列表)包括以下具有一个或多个线路的电连接(电子)、便携式计算机盘(磁性)、随机存取存储器(RAM)(磁性)、只读存储器(ROM)(磁性)、可擦除可编程只读存储器(EPROM或闪速存储器)(磁性)、光纤(光)、以及便携式光盘只读存储器(CDROM)(光)。要注意的是计算机可读介质甚至可以是纸或另一种其上可以打印程序的适当的介质,当该程序可经由例如对纸或其他介质的光学扫描而被电子地获取然后编译、解释或者相反如有必要以适当的方式被处理、然后被存储在计算机存储器中。
应当强调的是本发明的上述实施例(尤其是任何“优选”实施例)仅仅是实现的可能例子,其仅仅是阐述以清楚地理解本发明的原理。此外,在基本上不脱离本发明的精神和原理下可对本发明的上述实施例做出许多变化和修改。所有这种修改和变化用来由本发明的范畴内所包括的且由以下权利要求所保护的当前公开所教导。
权利要求
1.一种用于在对诸如HRCT数据之类的医学图像数据内的部位进行计算机辅助检测(CAD)以及分类期间进行假阳性降低(FPR)的方法,所述方法实现了处理后机器学习以便最大化分类的特异性和敏感性,以及以便实现降低由FPR系统所报告的假阳性检测的数目,该方法包括以下步骤在被选择为包括若干真和假部位的医学图像训练数据集合上训练分类器,其中该真和假部位由CAD处理来识别,以及被自动地分割,其中分割训练部位由至少一个专家来审阅以把每个训练部位针对其基础事实,即真或假,进行分类,本质上限定自动分割,其中从每个分割部位来识别和提取特征池,以及其中由遗传算法来处理该特征池以识别最佳特征子集,所述子集用来训练支持向量机;在非训练医学图像数据内检测作为分类侯选者的部位;对候选部位进行分割;从每个分割的候选部位中提取特征集合;以及在根据最佳特征子集进行训练之后利用支持向量机来对候选部位进行分类,以及处理该候选特征集合。
2.如权利要求1中所阐述的用于CAD和分类的处理,其中训练步骤更进一步包括确定提供最佳拟合的特征子集的尺寸,并且确定特征的身份。
3.如权利要求2中所阐述的用于CAD和分类的处理,其中确定包括在两个阶段中应用GA,包括a.)关于它的特征集合以及特征的数目而识别每个染色体;以及b.)为每个染色体分析所识别的特征集合以及所识别的特征数目,以便基于不同染色体出现的次数以及平均误差的次数而确定特征的最佳尺寸。
4.如权利要求1中所阐述的用于CAD和分类的处理,其中训练步骤更进一步包括把特征池定义成染色体,其中每个特征表示基因,以及其中遗传算法最初通过随机选择特征来繁殖染色体,以及迭代地搜索具有较高适合度的那些染色体,其中利用变异和交叉对每一代进行重复评估,产生新的且更适合的染色体。
5.一种包括计算机可读指令集合的计算机可读介质,其通过下载有指令的通用计算机来处理,实现一种包括下述步骤的方法一种用于在对诸如HRCT数据之类的医学图像数据内的部位进行计算机辅助检测(CAD)以及分类期间进行假阳性降低(FPR)的方法,所述方法实现了处理后机器学习以便最大化分类的特异性和敏感性,以及以便实现降低由FPR系统所报告的假阳性检测的数目,该方法包括以下步骤在被选择为包括若干真和假部位的医学图像训练数据集合上训练分类器,其中该真和假部位由CAD处理来识别,以及被自动地分割,其中分割训练部位由至少一个专家来审阅以把每个训练部位针对其基础事实,即真或假,进行分类,实质上限定自动分割,其中从每个分割部位来识别和提取特征池,以及其中由遗传算法来处理该特征池以识别最佳特征子集,所述子集用来训练支持向量机;在非训练医学图像数据内检测作为分类侯选者的部位;对候选部位进行分割;从每个分割的候选部位中提取特征集合;以及在根据最佳特征子集进行训练之后利用支持向量机来对候选部位进行分类,以及处理该候选特征集合。
6.一种医学图像分类系统,其包括CAD子系统以及用于假阳性降低(FPR)的子系统,所述FPR子系统包括支持向量机训练后期CAD、以特异性和敏感性来对图像数据内所检测的相关部位进行临床上的分类以最小化所报告的假阳性,包括用于识别和描绘图像数据内所检测的临床上相关的部位的CAD子系统;与该CAD子系统相通信的假阳性降低子系统,包括用于从每个CAD描绘的部位中提取特征池的特征提取器;与该特征提取器相通信以提供该特征池的最佳子集的遗传算法;以及与特征提取器和GA相通信的支持向量机(SVM),其依照具有最少假阳性的特征子集来对每个所描绘部位进行分类;其中首先在包括已知是真阳性或是假阳性的部位的图像集合上训练该系统,从中提取特征以及利用GA来识别最佳子集以便SVM对未知部位进行最佳分类。
7.权利要求6中所阐述的医学图像分类系统,其中CAD子系统更进一步包括用于对CAD子系统所识别部位进行描绘的分割子系统。
全文摘要
一种用于计算机辅助检测(CAD)和在HRCT医学图像数据内检测的所关心部位的分类的方法,包括处理后机器学习以最大化分类的特异殊性和敏感性以实现假阳性检测报告数量上的下降。该方法包括在被选择为包括若干真部位和假部位的医学图像训练数据集合上训练分类器,其中真部位和假部位由CAD处理来识别,并且自动地被分割,其中分割训练部位由至少一个专家来审阅以把每个训练部位针对其基础事实,即真或假,进行分类,实质上限定自动分割,其中从每个分割部位识别并提取特征池,以及其中特征池由遗传算法来处理以识别最佳特征子集,所述子集用来训练支持向量机,在非训练医学图像数据内检测作为分类候选者的部位,对该候选部位进行分割,从每个分割候选部位提取特征集合以及在根据最佳特征子集进行训练之后利用支持向量机来对候选部位进行分类,以及处理该候选特征集合。
文档编号G06K9/62GK101061490SQ200580039686
公开日2007年10月24日 申请日期2005年11月18日 优先权日2004年11月19日
发明者L·博罗茨基, L·赵, K·P·李 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1