概率密度函数估计器的制作方法

文档序号:6360360阅读:213来源:国知局
专利名称:概率密度函数估计器的制作方法
技术领域
本公开通常涉及模式识别、估计,尤其涉及将对象分类为一组可能对象之一的系统和方法。
背景技术
概率密度函数(HF)描述了观察到随机变量任一给定采样值的相对可能性。在所有可能值上的HF的积分为I。在随机变量范围子集上的HF的积分表示随机变量的抽样落入该范围内的概率。由封闭式等式表示的PDF通常易于理解,许多有关这些PDF的应用也已经被开发。另一方面,对于复杂多维随机变量,尤其是每个维度具有未知和可能不规则分布和/或具有较长的、分布稀疏的尾部的变量的roF,其实际估计在很大程度上困惑着研究人员。例如,在模式和图像识别领域,由于应用PDF方法的实际困难,许多研究人员已经放弃了 PDF这种方法而专注于现有可解决的替代方法,例如,神经网络和线性判别函数
发明内容


以下是附图的简要说明,附图示出了本发明的示范性实施例,其中图I是根据一个实施例的异常检测系统的系统级图;图2是根据一个实施例的计算机辅助检测(CAD)单元的组件图;图3是根据一个实施例的检测单元的组件图;图4a和4b示出了根据一个实施例的分类器概率单元;图5示出了封闭式PDF和由概率分布绘成的采样分布直方图;图6概念性地显示了由一组表示点表示的假设一维分布的西格玛值估计;图7显示了应用图6中西格玛值以估计在评价点处PDF ;和图8是根据本发明的一个实施例的台式计算设备的方块图。
具体实施方式
以下将详细讨论实施例的形成和使用。然而,应该理解的是,本发明提供许多能够体现在各种特定上下文中的适用的发明概念。所讨论的特定实施例仅仅是形成和使用本发明的特定方法的说明性描述,而不是限制本发明的范围。例如,这里讨论的实施例通常描述成在乳房X射线图像(例如,在乳房X线照相过程中为便于医务人员检查通过对可能的异常进行定位和分类而获得的)检查中辅助医疗人员。然而,其它实施例则可能用于其它情形,包括,例如,分析、检测和/或分类诸如肺组织等其它组织中数据/特征,用于金融市场、体育统计、金融数据、市场数据、使用数据、性能数据、天气/气候数据、网络使用数据、结构数据、热数据、密码数据、音视频数据、地质数据(例如,油气勘探)、声呐和雷达数据、谱分析数据等的统计性异常、变化或异常的任何类型的图像分析。参考附图,其显示和描述了本发明的说明性实施例,其中这里所有视图使用相似的参考编号来标识相似的元素。图形不一定是按比例绘制的。在某些情况下,仅仅出于说明性的目的,在某些地方将附图放大或者简化。基于以下本发明的说明性实施例,本领域的 普通技术人员能够理解本发明的许多可能的应用和变化。首先参考图1,根据一个实施例,其示出了例如乳房X线照相过程中辅助检测异常的系统100。系统100包括成像单元102、数字化器104和计算机辅助检测(CAD)单元106。成像单元102拍摄感兴趣区域(例如乳房组织)的一张或多张图像(例如X射线图像)。在系统100用于辅助分析乳房X射线照片的实施例中,当乳房被压以展开乳房组织时,拍摄一套四张X射线图像以辅助异常检测。这套四张X射线图像包括左右乳房各自的自顶向下图像(被称为头脚位(CC)图像)和左右乳房各自的倾斜角图像(被称为侧斜位(MLO)图像),其中,该倾斜角图像自胸骨顶部斜向下朝身体外侧拍摄。该一个或多个图像可体现在胶片上或者被数字化。以往,该一个或多个图像作为X射线图像体现在胶片上,但当今技术允许以与现代数字相机非常相同的方法直接将X射线图像拍摄为数字图像。如图I所示,数字化器104允许将胶片图像数字化为数字格式。数字图像可以被格式化为任何适合的格式,例如工业标准医学数字成像和通信(DICOM)格式。数字化图像,例如数字化胶片图像或直接拍摄成数字图像的图像,被提供给计算机辅助检测(CAD)单元106。正如以下更为详细的讨论那样,CAD单元106处理一个或多个图像以检测各种类型的异常(例如,钙化、相对密集区域、畸变等)的可能位置。一旦被处理,可能异常的位置和数字化图像(可选地)(带有或不带有指示任何被测可能异常的位置的标记)被提供给评价单元108供放射科医师、主治医师或其他人员查看。评价单元108可包括显示器、工作站、便携设备等。图2示出了根据一个实施例的CAD单元106 (见图I)可能用到的组件。通常,CAD单元106包括分割单元202,一个或多个检测单元204a-204n和一个或多个显示预处理器206a-206n。将会被理解的,x射线图像或其它图像可能包括除感兴趣的区域以外的区域。例如,乳房的X射线图像可能包括背景区域以及诸如胸肌等其它结构区域。在这些情形下,可能需要分割X射线图像以定义搜索区域(例如,定义乳房组织的有界区域),一个或多个检测单元204a-204n将在该区域上分析异常。一个或多个检测单元204a_204n分析一个或多个图像或者由分割单元202定义的特定区域,以检测可指示病人体内一个或多个特定类型异常的特定类型特征。例如,在用于检查人体乳房组织的实施例中,检测单元204a-204n可包括钙化单元、密度(质量)单元和畸变单元。正如医疗领域所公知的,人体经常通过用钙质包围癌细胞的方式对癌细胞作出反应,产生微钙化点。这些微钙化点在X射线图像中表现为明亮小区域。钙化单元检测并识别乳房的这些区域为可能的微钙化点。进一步为大家所知的是,癌变区域比周边组织更趋于密集,因此,表现为指示比周边组织更为密集的组织的、通常更为明亮的区域可能指示癌变区域。由此,密度单元分析一个或多个乳房X射线图像以检测一个或多个图像中相对密集的区域。因为正常乳房组织的随机重叠有时可能显得可疑,在一些实施例中,密度单元将对象(例如,乳房)的不同视图相关以确定密集区域是否存在于其它对应的视图中。如果密集区域出现在多个视图中,则该区域是真正恶性的可能性较高。畸变单元检测由癌细胞作用于周边组织而导致的结构性缺陷。癌细胞常常具有吸入周边组织的效果,从而形成表现为伸展标记、星型图案或其它线性直线图案的毛刺征。应当注意到,上述检测单元204a_204n的例子(例如,钙化单元、密度单元和畸变 单元)仅出于说明目的而被提供,其它实施例可以包括更多或更少的检测单元。还应当注意到,一些检测单元可能与其它检测单元相互作用,正如点划线208所显示的那样。下面将参考图3,详细讨论检测单元204a-204n。显示预处理器206a_206n生成图像数据以指示异常的位置和/或类型。例如,可通过环绕所关注区域的一种类型的线条来指示微钙化点,而可通过环绕所关注区域的另一种类型的线条来指示毛刺特征(或其它类型的异常)。图3示出了根据一个实施例的每个检测单元204a_204n可能用到的组件。通常,每个检测单元204a-204n包括检测器302、特征提取器304和分类器306。检测器302对图像进行分析以识别指示检测单元所检测异常(例如钙化)类型的属性,特征提取器304提取每个被检测区域的预定特征。例如,预定特征包括尺寸、信噪比、位置等。分类器306检查来自特征提取器304的每个被提取特征并确定被提取特征为异常的概率。一旦概率被确定,将结果与阈值进行比较以确定被检测区域是否被报告为可能的关注区域。美国临时申请第61/400,573和第61/398,571号详细说明了一种适合的分割单元202,美国临时申请第61/343,557号和第61/343,609以及共同提交的美国专利申请代理人案号VUC-007PCT详细说明了用于对微钙化点进行检测和分类的适合的检测单元,美国临时申请第61/343,552号和共同提交的美国专利申请代理人案号VUC-009PCT详细说明了用于对恶性肿块进行检测和分类的适合的检测单元,美国临时申请第61/395,029号和共同提交的美国专利申请代理人案号VUC-010PCT详细说明了用于对毛刺征恶性肿块进行检测和分类的适合的检测单元,美国临时申请第61/399,094号详细说明了适合的显示预处理器。这里,上述所有内容通过引用结合到本文中。以下段落针对PDF估计器给出了更详细的描述,例如,根据一个实施例,该PDF估计器可用于检测单元204a-204n (见图2)中的一个或多个分类器306 (见图3)。图4a与4b示出了用于一个实施例中的分类器306的实例。通常,分类器通过首先估计两个或两个以上类的每一个的TOF值和然后将不同类的PDF值组合成概率的方式估计评价点属于特定类的概率。可采用诸如周知的贝叶斯定律等技术进行PDF值的组合以估计概率。分类器也可以利用PDF估计来产生似然比而非概率值。在该实施例中,分类器306包括一个或多个PDF单元400,PDF单元400向概率单元401提供PDF估计。通常,PDF单元400确定对象的每个可能分类的PDF估计。例如,在采用分类器306对微钙化点进行分类的实施例中,各有一个PDF单元400用于恶性微钙化点、良性微钙化点、透明微钙化点、血管微钙化点、胶片伪影等。以下针对PDF单元400给出了更详细的描述。参考图4b,示出了根据一个实施例的用于分类器306 (见图3)的PDF估计器400,尽管采用了不同的分类器概率单元。PDF估计器单元400的邻域定义单元402功能性定义了每个表示点或每组表示点的邻域大小。在一些实施例中,为了使得功能性描述更好地与实际测量特征数据吻合,需要有可变的邻域大小。在该实施例中,邻域定义单元402评价接收的训练数据(例如,来自数据库),为包括在训练数据中的表示点确定合适的邻域大小。邻域定义单元402提供向量^ (该向量表示每个特征或维度的每个表示点或每组表示点的尺度参数)至邻域确定单元404。在一个实施例中,邻域定义单元402以离线方式执行,并且存储其结果(例如I),例如存储在数据库中,以备后续访问。邻域确定单元404利用向量I确定尺度参数向量^ (用于每个特征或维度的评价点Xtl的邻域大小)。提供尺度参数 向量^至权重确定单元406以确定权重Wi,其指定应该赋予训练数据的表示点多少权重。一旦被确定,权重Wi被提供至局部估计器408。局部估计器408将权重Wi用于训练数据以确定评价点Xtl的PDF估计,该PDF估计可存储于诸如数据库中。以下段落进行了更详细的描述。具有复杂和/或稀疏的长尾分布的现实多变量系统的PDF估计,其以往被几个内在困难所阻碍。首先,经充分研究但高度受限的参数模型常常不能准确表示现实应用中遇到的HF。其次,如果所用模型是高度灵活或非参数的(例如,基于Parzen窗的方法),由于随机采样的变化,所估计的值可能不可靠。这对于采样非常少的PDF尾部区域来说尤其正确。提高估计器可靠性的方法可能导致棘手的计算或存储器要求。这里描述的实施例采用了一种PDF估计的新方法。并非估计并存储整个TOF,而是存储一个数据集合,实现PDF中任何特定局部区域TOF值的即时估计。以这种方式存储被估计的PDF所要求的数据量为nXM的级别,其中,η为系统维度,M为表示点的数目。每个表示点表示一个或多个来自被估计的实际分布的采样。例如,采样集合中的每个采样能以单位权重接收自身表示点。每个采样能够通过权重小于I的表示点替换地表示。例如,如果两个不同的多维测量被认为来源于相同的采样,每个采样被给予权重为O. 5的表示点。最后,一个表示点能够通过采用权重等于各个采样权重的单个表示点代替采样的方式“集合”在测量空间内邻近的几个采样。集合采样表示点的实际多维采样值可以是集合中心、集合采样的均值、每个维度集合采样值的中值等。除了表示点,进行估计之前选择几个其他的输入。一个输入是评价点Xtl,将在该点估计HF。另一个输入是由一个实施例中的邻域定义单元402提供的向量&,表示允许尺度参数向^计算的一组参数。尺度参数向量确定哪个表示点将用于估计,也是确定用于每个所包括点的权重的函数的参数。再另一个输入是加权函数发(o-s),其将实际应用到估计中采用的表示点。最后一个输入是参数化估计器函数f(X(l,Θ),其中,Θ是该函数的参数矩阵。图5是一维随机变量的通用PDF500,其叠加在绘自相同随机变量的抽样群体502的采样分布直方图上。如果点数足够多,直方图将趋向于roF500形状的量化版本,其可由现有技术(例如Parzen窗)估计。对于roF500的尾部,这种方法很难产生可靠估计。尾部的采样数量经常很少,意味着在尾部,简单的窗口估计或者因为采样数少而具有较大方差,或者因为大线性窗口的应用而无法考虑实际TOF的真实形状。在优选的实施例中,输入数据包括预计算参数,从该预计算参数可由例如邻域确定单元404为任何输入评价点计算合适的尺度参数。通常,尺度参数将在分布的尾部较大而在表示点空间的数据富足区较小。尽管可以采用独立数据结构存储整个采样空间上的尺度参数描述,在一个实施例中,每个表示点存储可以用于即时计算尺度参数向量的参数。图6示出了表示点尺度参数存储与使用的一个实施例,其中,每个表示点!Ti还描述了用于尺度参数函数σ Jxtl) = σΜΙΝ( ) + σ d0 (i) Ix0Ti的尺度参数斜率σ d。(i)和最小尺度参数值oMIN(i)。因此,对于任何评价点Xtl,尺度参数函数允许计算尺度参数。与评·价点共同使用的尺度参数因此可以定义为最小尺度参数函数值σ i (Xtl),其针对所有i进行评价,其最小值色提供至权重确定单元406。在实际应用中,仅需评价邻近评价点的表示点的尺度参数。从图7中可以看出这一点,其中,为每个评价点绘制尺度参数函数σ Jx)(标注了针对A的。上入针对巧的0200、针对1*3的σ3(Χ))。数值O3(Xtl)低于与所有其他表示点关联的尺度参数函数值,因此被选为评价点Xtl的尺度参数。可选地,不同尺度参数函数值可以与除“最小值”以外的数学函数结合(例如,可以使用不同数值的均值或特定百分位)对于多维度的情况,取决于每个维度Xtl附近表示点的局部稀疏度,通常每个维度有不同的尺度参数。一旦确定每个维度的尺度参数,可接着使用该尺度参数限制用于估计评价点处PDF的表示点。例如,可利用实际经验法则,该实际经验法则基于与评价点距离,例如比例因子的倍数,以排除实际不可能影响图7中示出的计算的表示点,因此节省了计算时间。可选地,无论距离评价点多远,所有表示点都要被评价。尺度参数也可用于采用权重确定单元406(图4)示出的定义的加权函数Wi =gCfi ;Χ0, O (XtI))计算每个表示点的总权重。被选中、被加权的表示点用于计算参数矩阵Θ以用于由局部估计器408计算的参数化估计器函数f (X,Θ )。在一个实施例中,计算参数矩阵以使得函数大化,
I
其中,h()是单调函数。对于一些函数选择,当模型化的PDF对于η维空间内的所有点均是非零的,可采用等式求解参数矩阵。在一个这样的实施例中,权重函数g()是高斯函数,h()是log函数,f()是二阶指数函数
1 ΣΗ^οΜχο)) f^e) = c.e^x其中,N是表示点的数目。在多维解决方案中,上述等式仍然适用,应当理解变量和参数是多维的。上述通用方法对于PDF在η维空间的某些部分具有零值的情况同样适用。对于h、g或f不是直接可解形式的情况,该方法也能适用。在这些情况下,参数矩阵能够采用例如Newton-Rhapson优化等数值方法逼近。一旦得到估计器函数的参数矩阵,就可能在评价点评价估计器函数从而获得TOF值。根据一个实施例,PDF技术存在广泛多样的应用。一些受益于精确PDF估计的学科包括模式识别、分类、估计、计算机视觉、图像处理和信号处理。PDF估计数据对紧凑空间的要求为PDF数据集合的紧凑存储、更新分布、附加区别变量和/或类的包含等增添了实用性。除非明确指出,这里描述的所有功能可以用硬件或者软件或者两者的一些组合来实现。然而,在一个优选的实施例中,除非明确指出,这些功能通过诸如计算机或电子数据 处理器等处理器根据诸如计算机程序代码软件等代码、和/或被编码以实现这些功能的集成电路来实现。例如,图8是根据一个实施例所采用的计算系统800的方块图。然而,应当注意至IJ,这里讨论的计算系统800仅用于说明目的,因此也可以采用其他设备。例如,计算系统800可以包括台式计算机、工作站、便携式计算机、个人数字助理、为特殊应用而定制的专用单元等。相应地,这里公开的计算系统800的组件仅用于说明目的,本发明的其它实施例可包括额外的或更少的组件。在一个实施例中,计算系统800包括配备一个或多个输入设备812(例如,鼠标、键盘等)和一个或多个输出设备(例如,显示器814、打印机816等)的处理单元810。优选地,处理单元810包括连接至总线830的中央处理单元(CPU) 818、存储器820、大容量存储设备822、视频适配器824、输入/输出接口 826和网络接口 828。总线830可以是包括存储器总线或存储器控制器、外围总线、视频总线等在内的任何类型的总线架构中的一个或多个。CPU 818可包括任何类型的电子数据处理器。例如,CPU 818可包括英特尔公司或先进微器件公司的处理器(例如,单核或多核的)、精简指令集计算机(RISC)、专用集成电路(ASIC)等。存储器820可包括诸如静态随机存储器(SRAM)、动态随机存储器(DRAM)、同步动态随机存储器(SDRAM)、只读存储器(ROM)或上述存储器的组合等任何类型的系统存储器。在一个实施例中,存储器820可包括用于启动时使用的ROM和用于执行程序时用于存储数据的DRAM。存储器820可包括更多非瞬态存储器中的一种。大容量存储设备822可包括任何类型的存储设备,该存储设备被配置成存储数据、程序和其它信息并使得可通过总线828访问这些数据、程序和其它信息。在一个实施例中,大容量存储设备822被配置成存储由CPU818执行的程序。例如,大容量存储设备822可以包括硬盘驱动器、磁盘驱动器、光盘驱动器等中的一个或多个。大容量存储设备822可包括一个或多个非瞬态存储器。视频适配器824和输入/输出接口 826提供接口将外部输入输出设备耦合至处理单元810。如图8所述,输入输出设备的例子包括耦合至视频适配器824的显示器814和耦合至输入/输出接口 826的鼠标/键盘812和打印机816。其它设备可耦合至处理单元810。网络接口 828可以是有线连接和/或无线连接,使得处理单元810通过网络832与远程单元通信。在一个实施例中,处理单元810耦合至局域网或广域网以提供与诸如其它处理单元、因特网、远程存储设施等远程设备的通信。应当注意到,计算系统800可以包括其他组件。例如,计算系统800可以包括电源、电缆、主板、可移动存储介质、机箱、网络接口等。这些其他组件虽未显示,但也被认为是计算系统800的一部分。而且,还应当注意到,计算系统800的任一组件可以包括多个组件。例如,CPU818可以包括多个处理器,显示器814可以包括多个显示器,等等。作为又一个例子,计算系统800可以包括多个直接耦合连接和/或网络连接的计算系统。另外,一个或多个组件可以远程设置。例如,显示器可以远离处理单元设置。在该实施例中,显示信息(例如,异常的位置和/或类型)可通过网络接口传输至显示单元或耦合有显示器的远程处理单元。尽管描述了几个实施例和可选的实施方式,通过阅读本公开,许多其他更改和实施技术对于本领域技术人员而言将是显而易见的。在一个给定的实施例中,可以定义用于求解估计器函数参数的等式,使得其最小化或最大化选择参数矩阵。给定评价点的尺度参数可在运行时从表示点直接计算得出,尽管好的尺度参数求解方案因为不进行每个表示点·函数的预计算就开始计算而可能更昂贵。尽管说明书在一些位置可能涉及“一”、“一个”、“另一个”或“一些”实施例,这并不一定意味着每个这样的指代针对相同实施例或者其特征仅适用于单个实施例。
权利要求
1.一种用于分类数字图像中异常的方法,所述方法包括 接收包括多个训练情况的每一个的多个分类特征的每一个的训练特征值的训练数据; 基于所述训练数据定义每个分类特征的多个表示点的每一个的邻域大小; 接收包括被测情况的每个分类特征的评价点处被测特征值的被测数据; 采用所述分类特征的邻域大小数据确定每个分类特征的所述评价点附近的至少一些表示点的尺度参数向量; 采用相应的尺度参数向量确定至少一些表示点的权重因子;和将至少一些表示点的所述权重因子应用到所述多个表示点处的所述训练数据,以生成所述评价点处被测情况的分类概率。
2.根据权利要求I所述的方法,其中接收训练数据包括从数据库提取所述训练数据。
3.根据权利要求I所述的方法,进一步包括在数据库中存储被测情况的分类概率或HF估计。
4.根据权利要求I所述的方法,进一步包括执行接收被测数据、确定所述尺度参数向量、确定并应用所述权重因子以及生成多个被测情况的所述分类概率。
5.根据权利要求I所述的方法,其中至少一些表示点每个表示所述训练数据的多个采样。
6.根据权利要求I所述的方法,其中以离线方式执行接收所述训练数据和定义所述邻域大小,以及在数据库中存储所述多个表示点的每一个的所述邻域大小以备后期确定所述尺度参数向量时使用。
7.一种用于分类数字图像中异常的系统,所述系统包括 邻域定义单元,用于接收包括多个训练情况的每一个的多个分类特征的每一个的训练特征值的训练数据,并基于所述训练数据定义多个表示点的每一个的邻域大小; 邻域确定单元,用于接收包括被测情况的每个分类特征的评价点处被测特征值的被测数据,并采用分类特征的邻域大小数据确定所述评价点附近的至少一些所述表示点的尺度参数向量; 权重确定单元,用于采用相应的尺度参数向量确定至少一些所述表示点的权重因子;和 局部估计器,用于将至少一些所述表示点的权重因子应用到所述多个表示点处的所述训练数据,以生成所述评价点处的PDF估计。
8.根据权利要求7所述的系统,其中所述邻域定义单元从数据库提取训练数据。
9.根据权利要求7所述的系统,其中所述局部估计器在数据库中存储被测情况的所述分类概率。
10.根据权利要求7所述的系统,其中至少一些表示点每个表示所述训练数据的多个采样。
11.根据权利要求7所述的系统,其中所述邻域定义单元在数据库中存储所述多个表示点的每一个的邻域大小以备所述邻域确定单元后期使用。
12.一种用于分类异常的计算机程序产品,所述计算机程序产品具有其上体现有计算机程序的非瞬态的计算机可读介质,所述计算机程序包括用于接收包括多个训练情况的每一个的多个分类特征的每一个的训练特征值的训练数据的计算机程序代码; 用于基于所述训练数据定义每个分类特征的多个表示点的每一个的邻域大小的计算机程序代码; 用于接收包括被测情况的评价点处被测特征值的被测数据的计算机程序代码; 用于采用所述分类特征的所述邻域大小数据确定所述评价点附近的至少一些表示点的尺度参数向量的计算机程序代码; 用于采用相应的尺度参数向量确定至少一些表示点的权重因子的计算机程序代码;和 用于将至少一些表示点的所述权重因子应用到所述多个表示点处的所述训练数据,以生成所述评价点处被测情况的PDF估计的计算机程序代码。
13.根据权利要求12所述的计算机程序产品,其中用于接收所述训练数据的所述计算机程序代码包括用于从数据库提取所述训练数据的计算机程序代码。
14.根据权利要求12所述的计算机程序产品,进一步包括在数据库中存储被测情况的分类概率或PDF估计的计算机程序代码。
15.根据权利要求12所述的计算机程序产品,进一步包括用于执行接收被测数据、确定所述尺度参数向量、确定并应用所述权重因子、估计PDF值以及生成多个被测情况的所述分类概率的计算机程序代码。
16.根据权利要求12所述的计算机程序产品,其中至少一些表示点每个表示所述训练数据的多个采样。
全文摘要
本发明提供一种PDF估计器,用于确定被测对象是某种特定类型对象的概率。采用来自已知集合的训练数据来功能性描述特定表示点的相关邻域。基于被分类对象的被测特征选择邻域,计算权重并用于表示点。基于被存储的训练数据、被分类对象的被测特征和权重来确定概率。
文档编号G06K9/62GK102893294SQ201180021958
公开日2013年1月23日 申请日期2011年4月29日 优先权日2010年4月30日
发明者J·C·威内斯 申请人:沃康普公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1