凝胶电泳图像的分割和数据挖掘的制作方法

文档序号:6489539阅读:281来源:国知局
专利名称:凝胶电泳图像的分割和数据挖掘的制作方法
技术领域
本发明提供了一种对基于图像的信息进行自动分析和管理的系统和方法。提供了创新的图像分析(分割)、图像数据挖掘、情境(context)多源数据管理方法,这些方法集合起来提供了一种有效的图像发现平台。
背景技术
在许多领域尤其是在其中现在要求公司和个人处理巨量数字图像和各种其它类型的数字数据的生物制药学和生物医学工业领域,图像分析和多源数据管理正日益成为问题。随着人类基因组计划以及最近的人类蛋白质组计划的出现以及药物发现的领域上的主要进步,信息量持续高速增长。随着全自动系统被引入高吞吐量图像分析情境中,该增长进一步成为一个障碍。比以前更需要用于对这样广阔范围的数据进行分析和管理的有效系统。尽管在提供分析和管理方法两者上已经存在许多尝试,但是很少曾经或者设法将这两种技术集成在一个有效且统一的系统中。与统一发现平台研发相关联的主要问题主要在三个方面1)开发鲁棒、自动的图像分割方法上的困难,2)在成像领域缺少有效的知识管理方法以及不存在情境知识关联方法,以及3)确实基于对象的数据挖掘方法的研发。
本发明同时解决了这些问题并且提出了一种独一无二的发现平台。与标准图像分割和分析方法相反,这里所描述的2D凝胶电泳图像分析描述了一种允许图像光点(spot)的完全鲁棒且自动分割的新方法。基于该分割方法,还描述了基于对象的数据挖掘和分类方法。该主系统提供了用于将这些分割和数据挖掘方法结合地集成为有效的情境多源数据集成和管理的手段。
以前已经研发了一些基本方法用于2D图像内的光点分割(4,592,089),但是没有提供自动方法并且因而不能消除由手动分割引入的错误和易变性。诸多公司已经研发了最近的软件应用程序用于2D凝胶电泳图像的分析,这些软件应用程序确实提供了某种程度的自动性(例如,Phoretix)。但是,这些软件并没有适当地解决低表现光点、光点聚合、图像假象(artifact)这些关键问题。在没有适当考虑这些问题的情况下,所提供的软件产生了有偏差且不精确的结果,这相当大地削弱了这些方法的有用性。
在提供图像数据挖掘的方法上也做出了一些尝试(5,983,237;6,567,551;6,563,959)。然而,这些方法排他地基于特征,这意味着图像的搜索是通过寻找具有相似的全局特征(诸如纹理、一般边缘、颜色)的图像来实现的。然而,这类图像内容数据挖掘没有提供用于从下述标准检索图像的任何方法,所述标准基于感兴趣的被确切识别的精确形态学(morphological)或语义特征。
本文所公开的发明可以涉及和引用受让人先前所提交的专利申请,其公开了关于计算机控制的图形用户界面的发明,用于使用嵌入式图形对象(embedded graphical object,EGO)网络来归档和导航3D图像。该提交的专利申请具有下述标题METHOD AND APPARATUS FOR INTEGRATIVE MULTISCALE3D IMAGE DOCUMENTATION AND NAVIGATION BY MEANS OF AN ASSOCIATIVENETWORK OF MULTIMEDIA EMBEDDED GRAPHICAL OBJECT。

发明内容
在本发明的一个实施例中,本发明的第一方面是一种新颖的分割方法,被提供来对2D图像中类似光点这样的结构进行自动分割从而允许基于多个标准对所述结构和所述图像进行精确量化和分类,并且还允许自动标识一个或多个图像中存在的基于多光点的模式。在优选实施例中,本发明用于2D凝胶电泳图像分析,目的是量化蛋白质表达,以及用于允许复杂的基于多蛋白质模式的图像数据挖掘以及图像匹配、注册以及自动分类。尽管本发明描述了对2D图像自动分割的实施例,应该理解本发明的图像分析方面还可以应用于多维图像。
本发明的另一方面是情境多源数据集成和管理。该方法提供了在其中稀疏且多种类型的数据需要彼此关联并且其中图像仍为焦点中心点的情境下有效的知识和数据管理。
在优选实施例中,本发明的每个方面用在生物医学情况下诸如用在保健、药物或生物工艺学工业情况下。


将结合某些附图描述本发明,这些附图仅用于说明而非用于限制本发明优选和替代性实施例的目的,在所述附图中图1显示了总体图像光点分析和分割方法的流程。
图2显示了在图像分析和情境数据集成的处理中操作的基本顺序。
图3图示了数据挖掘和基于对象的图像发现处理所需的操作的基本顺序。
图4图示了标准多源数据集成的示例。
图5图示了如当前发明中所描述的情境多源数据集成的实施例。
图6是交互ROI选择的简图。
图7图示了可视地指示情境数据集成的另一手段。
图8显示了用于自动光点拾取的光点参数提取中所涉及的基本操作。
图9显示了情境数据关联中所需的操作的一般流程。
图10图示了基本图像分析操作流程。
图11图示了数据挖掘结果显示的实施例。
图12图示了数据挖掘结果显示的另一实施例。
图13图示了与真实对象比较的仿真光点对象的表面图示。
图14是多光点模式的示例。
图15图示了图像匹配处理中所使用的示例源和目标模式。
图16图示了隐藏光点的双亲图。
图17a-17c图示了噪声和光点的两种尺度的能量简图(profile)。
图18图示了基于基本神经网络的分类器。
图19图示了光点置信属性处理中所涉及的步骤。
图20图示了条带(smear)以及假象检测处理中所涉及的步骤。
图21图示了隐藏光点标识处理中所涉及的基本步骤。
图22a显示了原(raw)图。
图22b显示了叠置的区域化。
图22c显示了示例的隐藏光点标识。
图23显示了多尺度事件树的侧面视图。
图24显示了光点的多尺度事件树的3D视图。
图25显示了不同级别的多尺度图像。
图26显示了包括噪声和假象的典型图像变体。
图27显示了光点标识处理中所涉及的总体步骤。
附图中所包含的标号在详细描述中以括号提及,例如(2)。
具体实施例方式
主系统组件主系统组件管理全局系统工作流。在一个实施例中,主系统包括5个组件1.显示管理器管理信息的图形显示;2.图像分析管理器加载适当的图像分析模块以允许自动图像分割;3.图像信息管理器管理图像及其相关联的信息的归档和存储;4.数据集成管理器管理情境多源数据集成;5.数据挖掘机允许复杂的基于对象的图像数据挖掘。
参考图10,在第一步中,可以由系统从多个存储介质或仓库(例如但不限于数字计算机硬盘驱动器、CDROM或DVDROM)加载数字图像。系统还可以使用通信接口以从远程或本地数据库读取数字数据。图像加载可以是用户驱动的操作或者是完全自动的(2)。一旦数字图像被加载到存储器中,显示管理器可以向用户显示图像(4)。下面的步骤通常在于通过图像分析管理器利用专门的自动分割方法来分析所考虑的图像(6)。在特定实施例中,用户交互式地指示系统分析当前图像。在另一实施例中,系统自动地分析所加载的图像,而无需用户干涉。在图像的自动分析之后,图像信息管理自动地将自动分析方法所生成的信息保存在一个或多个仓库(例如但不限于关系数据库)中(8)。这里所描述的系统提供了特定模块(插件)的自动集成,从而允许动态地加载并使用精确的模块。这样的模块可以用于自动图像分析,其中特定的模块可以被专门化用于特定的问题或应用程序(10)。另一类型模块可以用于专门的数据挖掘功能体。
跟随这些基本步骤,下面的操作成为可能显示图像内的相关情境信息、使多源数据关联到图像内特定对象(或者整个图像)并且进行高级的数据挖掘操作。
一旦所考虑的图像被自动分割,则显示管理器可以以多种方式显示经分割的图像从而在图像内强调它们,例如但不限于以区别性颜色渲染对象轮廓或表面。另一类型的情境显示信息是可视标记表示,其可被置于图像内的特定位置,以便可视地标识对象或对象组以及指示用于(或者关联到)一个或多个所考虑对象的某些其它数据是可得的。
数据集成管理器允许用户(或者系统本身)动态地将所存储在一个或多个本地或远程仓库中的多源数据关联到一个或多个所考虑图像中感兴趣的对象。在图像内或者在图像附近使用情境可视标记可视地描绘外部数据到所考虑图像的关联。
数据挖掘机允许基于定性和定量信息(例如分别为用户文本描述和复杂形态学参数)对图像进行高级的基于对象的数据挖掘。与数据集成管理器和显示管理器相结合,系统提供对图像情境中结果的有效且直观探察和验证。
情境多源数据集成情境多源数据集成提供了新颖且有效的知识管理机制。该子系统提供了用于的手段将数据和知识关联到图像内的精确情境,诸如关联到其中所包含的感兴趣的一个或多个对象,以及可视地标识该关联和情境位置。该情境集成的第一方面允许有效的数据分析和数据挖掘。一个或多个数据与一个或多个图像对象之间的显式关联提供了目标明确的分析和挖掘情境。该子系统的另一方面是有效的多源数据归档,从而提供关联数据存储和情境数据审阅。与其中例如整个图像将关联到外部数据的传统多源数据集成方法形成对比,当前的子系统允许用户容易地标识该数据涉及什么具体情境并且因而提供高级别的知识。例如,在外部数据涉及包含大量经分割的或未经分割的对象的图像内三个具体对象的情况下,该情境关联允许用户立即查看数据涉及哪个对象并且因而可视地理解在关联中的这两个内容。如果没有此可能性,则外部多源数据的集成基本上变得没有用处。
图4图示了其中没有提供情境数据关联的情况,其图示了这种情况引起的困难和问题,这是因为其不可能标识数据涉及到图像中的哪个对象。
参考图2,在一个实施例中,当前子系统(关联到数据集成管理器)包括下述步骤选择一个或多个感兴趣区域;可视情境标识;数据选择;
情境数据关联;信息归档。
选择感兴趣区域。该第一步骤在于在一个或多个所考虑的源图像中标识一个或多个感兴趣区域。该一个或多个所考虑的源图像是可视信息和外部数据可以关联到其的感兴趣的初始点。感兴趣区域的标识和产生既可以使用专门化方法自动地获得也可以通过用户交互手动地获得。在第一种情况下,自动标识和产生是使用自动图像分析和分割方法实现的。在一个实施例中,感兴趣区域是象光点那样(spot-like)的结构并且是使用这里所定义的图像分析和分割方法来标识与分割的。在这样的情况下,在所标识的感兴趣区域(对象)池中,基于所指定的标准同样以自动的方式选择一个或多个特定对象是可能的。例如,该方法可以选择具有超过指定阈值的表面面积的每个对象并且定义后者为感兴趣区域。另一方面,感兴趣区域的交互式选择可以通过许多方式实现。在一个实施例中,在自动图像分割处理之后,用户交互式地选择感兴趣的特定区域。这可以通过在经分割对象所位于的、并且要将其定义为感兴趣区域的图像区域中点击来实现。该选择处理使用了拾取方法,其中系统读取用户点击处的坐标并且验证该坐标是否包含于经分割对象区域中。该系统可以然后使用不同的渲染颜色或者纹理强调所选择的对象。参考图6,用于交互式选择感兴趣区域的另一方法在于手动定义图像内的轮廓(12)。用户使用控制设备诸如鼠标来通过在监视器上直接画而交互式地定义轮廓。系统然后获取所画的轮廓的坐标并且选择该轮廓的边界内所包含的图像中的每个像素(14)。所选择的像素成为感兴趣区域。当没有提供或使用自动分割方法时使用该方法。
可视情境标记。参考图5,可视情境标记步骤在于显示图像情境自身中以及图像附近的图形标记或对象。这提供了有关什么是图像内所选择的感兴趣区域以及是否存在关联到该特定感兴趣区域的任何信息/数据的可视指示。利用该机制,用户可以容易地查看外部数据涉及哪些特定区域。图形标记和对象可以属于许多类型,诸如位于感兴趣区域上或附近的图形图标(16),或者其可以是使用上色的轮廓或区域显示的区域的实际图形重点(18)。标记处理仅需要系统取得先前所选择的感兴趣区域的坐标并且根据这些坐标显示图形标记。除了可视地标识图像内的感兴趣区域,该标记还允许这些区域与相关联的外部数据的直接且可视的关联。在一个实施例中,在显示器的一部分显示部分或全部外部数据(20),并且在数据与其特定相关联的感兴趣区域之间显示图形链接(22)。参考图7,在另一实施例中,图形标记具有以下图形指示,其在不显示到区域的相关联数据或链接的情况下,允许用户看出该区域具有关联到其的某些外部数据(24)。在这样的情况下,用户可以通过激活该标记诸如通过使用控制设备在其上点击而选择查看所关联的数据。图形标记可以手动或自动放置。当进行了感兴趣区域的自动标识和选择时,系统可以进一步自动创建并显示在区域附近的图形标记,从而允许最后的数据关联。在另一实施例中,当用户通过在显示器上交互地画轮廓而选择感兴趣区域时,系统其后自动地创建并显示在该新近定义区域附近的图形标记。在另一实施例中,用户选择某选项并且在所选取的图像情境中交互地放置图形标记。
数据选择。在先前所定义的步骤之后,现在可以将外部数据关联到该图像整体以及关联到特定感兴趣区域。在优选实施例中,系统提供用户界面用于交互地选择感兴趣的外部数据。该界面提供了在各种媒体诸如文件夹库或数据库中选择数据的可能性。
情境数据关联。在优选实施例中,用户交互地选取一个或多个所选数据,以关联到一个或多个所选择的感兴趣区域。该关联例如可以通过点击鼠标并且将鼠标从图形标记拖到所考虑的数据而完成。在该特定实施例中,将外部数据显示在监控器中,由此用户创建关联的链接。该关联处理创建并且保存直接将感兴趣区域或图形标记关联到所考虑的外部数据的数据字段。该数据字段例如可以是源和外部数据两者的位置,从而当用户返回集成关联信息的项目时,观看外部数据和可视关联两者将是可能的。在一个实施例中,使用从标记到数据的图形链接显示可视关联。在另一实施例中,通过特定图形标记图示该关联,而无需可视地标识到外部数据的关联。在这种情况下,需要激活该标记以查看关联到其的某些或全部信息。在特定实施例中,将外部数据嵌入图形标记中,所述标记形成具有图形表示的数据结构,在这种情况下数据被存储在标记数据库中,其中每个条目是特定标记。情境数据关联机制也可以应用于源和外部数据两者,即,关联到特定感兴趣区域的外部数据本身可以是另一图像内的感兴趣区域或数据。为了如此做,这里所描述的情境多源数据集成子系统可以直接应用于外部信息。参考图9,总体情境数据关联处理要求选择感兴趣区域(26),其后放置图形标记到图像内感兴趣区域或对象(28)。在该点处,可以选择(30)外部数据并且将该外部数据关联(32)到图形标记。步骤30和32可以在步骤26之前或之后进行。最后的步骤在于保存信息(34)。
信息归档。最后的步骤在于将信息和元信息存储在仓库中。为了允许返回到该信息和所有相关联的多源数据,系统自动保存为重新加载数据和显示每个图形元素所需的每个元信息。在优选实施例中,元数据被结构化、表达并保存为XML格式。元信息包括但不限于下述描述一个或多个源图像、外部数据、感兴趣区域、图形标记、关联信息。
图像分析和数据挖掘关于先前所定义的一般系统架构更具体地关于图像分析管理器和数据挖掘机描述下面的方法。但是,无需关联到这里所描述的主系统,这些方法本身是新颖的。
在2D凝胶电泳图像分析的优选实施例中,提供下面的方法用于图像内的光点检测以及用于图像数据挖掘和分类。
光点检测本系统的第一方面是自动光点检测。该组件考虑了多个机制,包括但不限于-噪声表示-光点表示-尺度标识-噪声特征刻画-对象特征刻画-无偏区域化-光点标识为了智能地分析图像,必须全面理解其本性和性质。在特定实施例中,所考虑的图像是2D电泳凝胶的数字表示。这些图像被特征刻画为包含例如下面实体的累积(图26)-可变大小和幅度的蛋白质光点-孤立的光点
-成组的光点-假象(灰尘、指纹、气泡、裂缝、毛发…)-条带线(smear line)-背景噪声通过对可能存在于图像中的噪声精确地建模,在后续的分析中区分感兴趣的真实对象和噪声聚合成为可能。尽管噪声分布和模式可能随图像而变化,但是依据所考虑的图像类型根据特定分布对其建模是可能的。在考虑2D凝胶电泳图像的实施例中,可以用泊松分布(公式1)精确地表示噪声。
类似于噪声的表示,可以根据模拟产生光点的物理过程或者可视地对应于所考虑对象的各种公式对光点建模。在大多数情况下,2D光点可以表示为2D高斯分布或者其变型。为了对光点精确建模,可能需要引入更复杂的高斯表示,从而允许对各种强度的各向同性和各向异性的光点建模。在特定实施例中,这是使用公式2来实现的。
参考图27,光点检测操作流程包括下述步骤1.图像输入(36)2.最优多尺度级别标识(38)3.多尺度图像表示(40)4.噪声特征刻画和统计分析(42)5.区域分析(44)6.光点标识(46)图像输入组件可以使用标准I/O操作以从各种存储媒体例如但不限于数字计算机硬盘驱动器、CDROM或DVDROM读取数字数据。该组件还可以使用通信接口以从远程或本地数据库读取数字数据。
一旦由系统输入了数字图像,则第一步骤在于标识图像分析组件应该使用的最优多尺度级别,其中所述级别对应于噪声开始聚合的级别。为了标识该级别,将图像划分为不同的区域并且在不同多尺度级别接连重复该过程。图像的多尺度表示可以通过用渐增的高斯核大小接连平滑后者来获得,其中在每个平滑级别将图像区域化。其后可以跟踪从一个级别到另一级别的区域合并事件的数目,这指示聚合行为。在该处合并数目稳定的级别被称作感兴趣的级别。图像的区域化可以使用诸如分水岭变换(Watershed)算法的方法来实现。图25图示了使用分水岭变换算法在不同的多尺度级别所区域化的图像。
一旦标识了该级别,则将图像的多尺度表示连同其经区域化的副本一起保存在存储器中。从该处,系统可以利用诸如噪声功率谱(Noise PowerSpectrum)的功能来继续噪声的特征刻画。NPS可以使用拉普拉斯金字塔(Laplacien pyramid)的前两种级别来计算。从该功能,可以获得图像的统计特性,例如但不限于其泊松分布。之后,生成多尺度合成噪声图像以便量化噪声聚合行为。如先前所描述的,多尺度噪声图像通过利用渐增大小直到先前所标识级别的高斯核接连平滑合成图像而获得。在该最后的级别,利用分水岭变换算法区域化该多尺度噪声图像。该模拟的信息之后可以用于标识光点图像中类似的噪声聚合行为并且因而将噪声聚合与感兴趣对象区分开。
下面的步骤在于分析多尺度区域化后的图像中的每个区域,以便检测光点并且消除噪声聚合区域。目标主要是标识不是噪声聚合的感兴趣区域。光点标识可以使用多种方法来实现,这些方法中的一些在下面描述。这些方法是基于签名(signature)概念的;其中签名被定义为唯一地将感兴趣对象与其它结构识别开的一组参数或信息。这样的签名可以是例如基于形态学特征或多尺度事件模式的。
图1中图示了总体图像分析和光点分割方法流程。
多尺度事件树多尺度事件树是在图像的多尺度表示中所遇到的合并和划分事件的图形表示。特定尺度的对象将倾向于与更大尺度的附近对象合并,从而形成合并事件。可以通过在双亲(parent)区域和其潜在的孩子区域之间递归地创建链接来构造树。在这种情况下所使用的数据结构的优选类型是N叉树。图23图示了多尺度事件树。图24进一步图示了光点区域的多尺度事件树。从该树中,多个标准可以用于评估关联区域是否是感兴趣对象。由于噪声特征在于其在多尺度空间中相对低的持久性以及其聚合行为,所以可以基于其多尺度树容易地标识噪声区域。例如,将不存在持久的主树路径(“主干”)。基于多尺度树的签名可以包含例如但不限于下述信息-相对于在级别N表达的树根的最小平均距离-相对于树根的距离的方差-在每个尺度级别的合并事件数目
-沿主树路径每个区域表面上的方差-沿主树路径区域的体积分类从光点的基于签名的特征刻画的视点看,利用各种分类方法来适当地标识感兴趣对象成为可能。利用先前提到的签名变量,可以形成信息向量,该信息向量可以直接输入到各种神经网络或其它分类和学习方法。在特定实施例中,分类是使用多层感知器神经网络实现的。参考图18,可能的网络配置可以包括5个神经元输入,其直接映射到关联到上述签名的5个元素向量。神经网络的输出可以是利用单个神经元的二值本性,其中分类属于本性“光点”/“非光点”。另一种配置可以在输出部分中包括多个神经元,以获得多个可能类别之中的签名分类。
两尺度能量幅度我们基于多尺度图事件概念开发的用于在其它结构中标识光点的另一方法在于评估在两个不同多尺度级别即级别1和级别N(图17)表达的区域的归一化能量幅度差别。通过根据最大能量的对象归一化对象的能量差别,构造了比较基础,从而允许感兴趣对象的后续标识。利用该信息以及从噪声或假象出现的对象具有大能量差别的先验知识,可以清楚地标识与大多数情况下通常表示为空间中的脉冲的噪声区域(图17b)形成对比的具有固有的扩散表达的感兴趣对象(光点)(图17c)。
隐藏光点标识由于光点强度饱和以及多个光点的聚合,包含光点的某些感兴趣区域可能被识别错。该现象基于下述原理在饱和区域不能标识任何最小部分,因而不能识别任何对象,以及在饱和聚合光点的区域中通常将仅标识单个最小部分。为了克服这些困难,系统集成了专门设计用于检测包含饱和光点或光点聚合的区域的组件。在2D凝胶电泳图像的优选实施例中,凝胶上的蛋白质表达特征在于累积过程,其中每个蛋白质均具有其自身的表达级别,这总体转化为下述事实,在该组之中仅单个蛋白质将具有表达最大值。该积累过程将生成具有多个隐藏光点的蛋白质集群(cluster)。
参考图21,隐藏光点标识过程在于首先利用分水岭变换算法将图像区域化(48)以及其后应用根据最佳梯度表示的第2基于分水岭变换的方法(50)。该最优梯度表示在大多数情况下将允许聚合光点的有效分离。下一步骤在于评估两种区域化方法获得的区域的并发(52)。包含在基本分水岭变换区域中的、由梯度方法获得的区域具有是隐藏光点的可能性。图22图示了并发区域化和隐藏光点标识。
隐藏光点分析在尺度级别N的光点区域的分析在某些情况下可能产生所谓的伪(false)隐藏光点。伪隐藏光点是真实光点,其在尺度级别N与邻近光点熔合从而导致最初的真实光点失去了其在级别N的极值(extremum)表达。当这样的光点不再具有可标识的极值时,使用例如分水岭变换算法的区域化处理不能独立地区域化该光点。因而该光点被与其邻区聚合在一起,从而导致其被这里所述的算法标识为隐藏光点。为了越过这个问题,我们引入了一种多尺度自顶而下(top-down)方法,其检测隐藏光点是否实际上在下级的尺度级别中具有可标识的极值。该方法包括下述步骤对于包含一个或多个隐藏光点的每个光点区域,首先在其每个区域隐藏光点的级别N的区域内接近极限位置,然后重复地转到较低尺度级别以验证在所接近位置的附近是否存在可标识的极值,如果存在匹配,则强迫级别N具有该极值,并且最终重新计算顶部区域的分水岭区域化以生成对于先前隐藏的光点的独立区域。该机制允许我们自动定义先前所隐藏的光点的光点区域并且因而允许该光点的精确量化。
有组织的结构检测总体系统中的第二主组件在于图像中有组织的结构的检测。在2D凝胶图像分析的实施例中,这些结构包括条带线、刮痕、裂缝、毛发等等。参考图20,该组件的操作流程的第一步是使用分水岭变换方法对反置了强度的图像的多尺度标识的级别N进行区域化(54)。目标是基于图像的脊(ridge)创建区域。第二步骤在于再次使用分水岭变换算法在多尺度级别N-1对梯度图像进行区域化(56)。一旦已经计算了这两个区域化,接下来的步骤是基于它们的连通性构建区域的关系图(58),其中每个区域关联到一个节点。最后的步骤在于检测具有预定方位和连通度、拓扑、语义表示的图形段(graph segment)。例如,交叉的垂直和水平直线结构可以对应于条带线,而弯曲的孤立结构可以关联到图像中的毛发或者裂痕。
置信属性随着光点、隐藏光点、有组织的结构检测处理,手头有了足够的信息以供系统智能地在所检测的光点上赋予置信级别属性。这样的级别指定了系统相信所检测的对象确实是光点而不是假象或噪声聚合对象的置信程度。一方面,通过依据图像中噪声的统计分析,可以精确地标识具有与噪声聚合相似的统计简图和分布的对象,并且因而如果这些对象还没有被系统消除的话则赋予这些对象低置信级别属性。例如,如果对象被标识为光点但是具有与噪声聚合非常相似的能量幅度差别,则该对象可以被赋予低置信级别属性。此外,有组织的结构检测处理带来了额外的信息并且提供了赋予置信级别属性的更鲁棒途径。这样的额外信息是关键的,这是因为在某些情况下存在某些对象,其具有与光点相似的分布和行为,但是实际上来源于例如假象和条带线。在2D凝胶图像分析的实施例中,存在引人注意的行为,其中垂直和水平条带线的交叉产生了假(artificial)光点。通过先前检测图像中的条带线,我们能够标识重叠条带并且因而标识假光点。利用同样的方式,在假象和条带线附近的光点可以被赋予较低的置信度属性,这是因为它们的签名可能已经被其它对象的存在而修改,这意味着假象的强度分布可以导致噪声聚合对象具有与真实光点类似的表达。此外,随着隐藏光点检测处理,可以相对于包含在相同区域中的光点而构建隐藏光点的双亲图。该双亲图可以用于为隐藏光点分配与已经被赋予置信度属性的其双亲光点成比例的置信级别(图16)。总而言之,置信属性组件基于所计算的统计信息及其附近所检测到的结构精确地为每个光点赋予某级别属性。图19中图示了该总体处理。
光点量化在2D凝胶电泳实施例中,其它实施例也可能是这样的情况,光点形成的物理处理可能引入光点部分重叠的区域。该区域重叠导致光点可能被过度量化,这是因为其强度值可能由于其它光点的贡献而受到影响。为反击此效应,当前的发明提供了用于对该累积效应建模以便精确地量化独立光点对象的方法。该方法在于利用扩散函数诸如2D高斯对光点对象建模,以及其后发现在光点上函数的最佳拟合。对每个光点,步骤包括-计算拟合的第一逼近扩散函数-使用拟合函数诸如最小二乘法找到最佳参数一旦函数被最佳拟合,则系统通过将代表重叠光点的每个函数的部分相加来仿真累积效应。如果该仿真的累积处理类似于图像简图,则函数的每个正确地量化了它们相关联的光点对象。然后可以通过简单地分解所相加的函数来对这些光点以它们没有累积效应的真实值来精确量化并且量化独立的函数。
在该方法中,扩散函数的高度对应于图像中相应像素的强度值,因为这些强度可以视为构建图像的3D表面的投影值。图13图示了对应于相关联的光点对象的图像表面(70)的模拟扩散函数(72)。这些扩散函数其后可以用于精确地量化光点对象,诸如它们的密度和体积。函数的宽度和高度提供了为量化光点对象所需的信息。该方法在其中精确鲁棒的蛋白质量化非常重要的2D凝胶电泳分析的实施例中具有巨大的价值。
光点拾取参考图8,2D凝胶电泳分析实施例中系统的另一方面涉及凝胶基质(gelmatrix)中蛋白质的自动切除。这里所描述的图像分析方法提供用于自动定义应该使用机器人光点拾取(robotic spot picking)系统拾取的蛋白质的空间坐标的手段。随着在一个或多个图像中光点结构的分割,系统生成了参数集合。对于每个光点这些参数可以包括但不限于质心(质量的中心)坐标、平均半径、最大半径、最小半径。可以将该信息直接保存在数据库中或者保存在标准化的文件格式中。在一个实施例中,使用XML保存该信息。通过以意义自明的标准格式提供较广范围的参数,我们的系统可以被任意类型的机器人装备使用。此外,基于这里所描述的光点置信属性,该系统提供了选择对于光点拾取优选的置信度的可能性。利用此途径,可以仅拾取具有高于某级别(例如高于50%)的置信级别的蛋白质。光点拾取处理中所需的总体步骤为1.图像的自动分割;2.参数的自动提取;3.参数的自动存储。
多光点处理多光点处理提出了基于对象的图像分析和处理的概念。在本文所描述的发明中,术语多光点处理指的是基于光点(对象)的图像处理操作,其中这些操作可以是各种性质的,包括但不限于,使用多个光点以及合并模式用于自动且精确的基于对象的图像匹配和以一对一或一对多方式的注册。本发明明确提及的另一种类型的操作是进行基于对象的图像数据挖掘和分类(也称作基于对象的图像发现)的可能性。与当前基于内容的图像数据挖掘方法(其简单地提取基本的图像特征诸如边和脊用于后续数据挖掘)形成对比,本发明提供了一种用于基于拓扑和/或语义的基于对象的信息挖掘多个图像的手段。这样的信息可以是图像中多个所标识的光点的拓扑和语义关系,从而形成了富集(enrich)的光点模式。
图像匹配在2D凝胶电泳图像分析的优选实施例中,图像匹配是头等重要的。本文所描述的方法提供了使用一种手段,用于利用对象中心方法以自动方式将一个或多个目标图像与参考图像相匹配。该匹配方法包括下述步骤1.自动光点标识和分割2.参考图像模式创建3.一个或多个目标图像模式标识4.光点对光点匹配自动光点标识和分割是使用本发明中所描述的光点标识方法实现的。第一步在总体图像匹配处理中是关键的,这是因为光点标识的鲁棒性决定了匹配的质量。光点标识错误将导致匹配处理中的多个错误匹配。参考图15,下面的步骤在于在参考图像中创建光点模式。这里,目标是通过创建拓扑图形(模式)刻画参考图像中每单个标识光点的特征,其中的思路基于下述事实,即光点可以由其邻近光点的相对位置来标识。因而,对于参考图像中每个所标识的光点,可被视为诸如星座的拓扑模式的拓扑图被构建并且保存在存储器中。光点模式由节点、弧和中心节点构成。中心节点对应于感兴趣的光点(60),节点对应于邻近光点(62),弧是连接中心点到邻近节点的线段(64)。该图特征在于其包含的节点数目、每条弧的长度、每条弧的方位。一旦在参考图像中为每个感兴趣光点创建了该类型的图,下一步在于标识一个或多个目标图像中的对应模式(66)以及它们的相似度值,目标是标识先前在参考图像中所标识的感兴趣光点的存在与否。该目标图像模式标识步骤首先需要定义分析窗口,其限制了目标图像中的分析空间。因为目标图像中的对应光点将大致具有与当时参考图像中相似的位置,则定义分析窗口大小为mW×mW(其中,W是参考模式的边界框宽度,m是尺度因子,其中m>1)是合理的。一旦在目标图像中定义了窗口,则利用所包含的光点构造各种模式配置,其中,对于每种配置,计算相对于参考模式的相似度值。如果目标配置具有大于指定阈值的相似度值,则认为目标光点与参考光点相匹配。该相似度值可以根据图的线段(弧)的大小和方位上的差别来计算。最终,最后的步骤仅包括将参考图像与目标图像之间的光点对光点的对应保存在存储器中。
图像数据挖掘一旦手边有了如本发明所述的鲁棒且完全自动的光点标识和匹配方法,则进行复杂的对象中心的图像内容数据挖掘(或基于对象的图像发现)成为可能,这为分析家提供了额外的价值和知识。
本发明包括用于自动或交互式基于对象的图像数据挖掘的方法,从而使得能够发现多个图像中反复出现的“光点模式”以及使得能够基于对象发现包含特定对象属性(形态、密度、面积…)的图像。参考图3,该方法的一般操作流程如下1.第一图像的自动光点检测。
2.数据挖掘标准定义3.多个图像之中的数据挖掘4.结果表示在特定实施例中,自动光点检测的第一步骤是利用本发明中所描述的方法实现的。第二步骤在于定义将用于发现处理的标准(68)。标准可以是例如用户感兴趣的特定光点模式,其中该用户需要标识可能包含类似模式的其它图像。另一标准可以是图像中可标识光点的数目或者任意其它可量化的对象性质。在特定实施例中,用户通过选择多个先前标识并分割的光点以及通过定义图形式的拓扑关系来交互地定义感兴趣的模式(图14)。在另一实施例中,该图由系统利用诸如前面部分(图像匹配)中所定义的方法来自动定义。在交互的或自动的标准定义之后,下一步骤在于图像的实际数据挖掘。数据挖掘可以在先前所分割的图像或者以前从未分割过的图像上进行。当处理未分割过的图像时,系统需要在进行数据挖掘之前分析这些图像。这可以例如以逐个图像为基础来进行,其中系统接连读取数字图像并且标识其中的光点,进行数据挖掘,然后在N个其它图像上重复相同的过程。
在特定实施例中,本发明包括一个或多个本地和/或远程数据库以及至少一个通信接口。数据库可以用于图像、分割结果、对象性质或图像标识符的存储。通信接口用于通过通信网络诸如因特网或企业内部互联网与计算机化的装备通信,以便读取和写入例如数据库中或远程计算机上的数据。通信可以使用TCP/IP协议实现。在优选实施例中,系统与两个截然不同的数据库通信第一数据库用于存储数字图像,而第二数据库用于存储由图像分析过程诸如光点标识和分割产生的信息和数据。该第二数据库至少包含关于源图像的信息诸如名字、唯一的标识符、位置、所标识光点的数目,以及关于所标识和分割的光点的物理性质的数据。后者至少包括光点空间坐标(x-y坐标)、光点表面面积、光点密度数据。这两个数据库可以是本地或远程的。
在另一实施例中,系统可以在其上安装该系统的计算机空闲时或者在用户请求时在数据库或存储介质中所包含的多个图像上进行自动光点标识和分割。对于每个经处理的图像,作为结果的信息被存储在数据库中,如上所述。这样的自动后台处理允许有效的随后的数据挖掘。
图像数据挖掘处理因而可以包括对象拓扑和对象性质信息,用于根据各种标准精确且有效地发现多个图像之间的关系。在特定实施例中,用户在第一图像上启动自动光点标识方法并且向系统规定包含在数据库中的、具有至少一个类似光点拓扑模式的所有其它图像都应该被发现。
数据挖掘处理中的最终步骤是发现结果的表示。在优选实施例中,构造该结果并且将其如图12所示呈现给用户,其中使用可视链接直接显示基于模式搜索所发现的图像的列表。
语义图像分类利用先前所描述的光点标识方法和结合专家知识的基于内容的图像数据挖掘,系统提供了基于语义或定量标准对一组数字图像自动分类的可能性。在特定实施例中,语义分类标准是特定病理学固有的蛋白质模式(签名)。在这种意义上,包含与预先定义的病理学签名类似的蛋白质模式的图像被肯定地归类于该特定病理学类别中。该方法包括5个主要步骤1.自动光点标识2.病理学签名定义3.模式匹配4.图像归类5.结果表示使用本文所描述的方法实现第一步的自动光点标识。第二步在于定义并且关联蛋白质模式到特定病理学。正是该拓扑模式到实际病理学的关联定义了分类的语义级别。病理学签名的定义典型地由具有关于多蛋白质签名存在的明确知识的专家用户来定义。该用户因而使用如图像匹配部分中所定义的交互式工具而定义拓扑图,但是进一步将所构造的图关联到病理学名称。该系统之后在持久性存储部件中记录该图(具有相对坐标的图节点以及弧)以及其相关联的语义名字。所存储的信息然后用于在任意时刻进行图像分类以及用于建造签名库。该签名库保存了用户可以在任意时刻用来进行分类或语义图像发现的一组签名。处理中的下一步在于通过首先选择适当的签名和依据的参考图像而进行图像匹配。用户然后选择存储器、图像仓库或者图像数据库中的一组图像,在该组图像上将迭代地进行图像匹配。最后,用户可以选择定义匹配算法的敏感度的相似度阈值。例如,用户可以指定肯定匹配对应于与参考签名的相似度为90%或更多的签名。在图像匹配处理期间,将每个被肯定地匹配的图像归类于期望的类别中。一旦每个所考虑的图像都已经被分类,则需要给出结果。这可以通过许多方式实现,例如但不限于以图12中所图示的方式。参考图11,也可以以信息的类似电子数据表的视图呈现结果。该电子数据表可以保存关于被肯定地分类的图像的名称和位置以及用于图像快速显示的链接的信息。
作为部分实施例的描述在考虑了为可视化、分析、管理图像信息所需的各种步骤的主系统的情境下,下面描述了2D凝胶电泳图像分析和管理的实施例。在该实施例中,具有高吞吐量自动分析和管理以及交互式用户驱动的分析和管理的可能。下文描述了这两者。
用户驱动在用户驱动的情景下,第一步骤需要用户选择待分析的图像。用户可以使用图像加载对话框在标准仓库中和在数据库中浏览图像,其后用户通过点击适当的图像名字来选择期望的图像。在该步骤之后,系统使用图像加载器加载所选取的图像。图像加载器可以从计算机系统的硬盘驱动器和数据库(系统本地或远程)读取数字图像。系统可以使用通信接口通过通信网络诸如因特网从远程位置加载图像。一旦加载了图像,则系统将其保存在存储器以供后续使用。系统的显示管理器然后从存储器读取图像并且将其显示在监控器上。用户然后激活图像分析插件。图像分析管理器加载所考虑的插件模块并且将其启动。该模块然后可以自动地分析并且分割图像(所考虑的插件是本文所描述的分析和分割方法)。一旦完成了分割,则由图像信息管理器将结果和量化参数与其源图像相关联地保存在数据库或仓库中。显示管理器然后通过使用一种或几种不同颜色渲染经分割的对象的轮廓而显示图像分割结果。所显示的结果被渲染为图像上的新层。在自动分析之后,用户可以选择待关联到图像的部分、图像自身或者感兴趣的特定对象的某外部数据。在该实施例中,外部数据可以是,例如但不限于,到用于特定蛋白质注释的网页的链接、质谱数据、显微镜或者其它类型的图像、音频和视频信息、文档、报告、结构分子信息。在这种情况下,用户通过下述操作选择该信息的任意一种并且将其关联到期望的区域或者感兴趣对象首先根据所考虑的对象或区域获取图形标记并且关联且放置该图形标记,其后交互式地将该标记与所考虑的外部数据相关联。由于感兴趣对象或区域是先前由分割模块精确地分割的,所以它们到标记的关联是直接的、精确的系统自动检测用户所选择的区域或对象并且将所考虑的像素值关联到标记。在外部数据关联处理中,用户定义该数据是应该被嵌入标记中还是相反通过关联链接被关联到标记。
用户还具有使用数据挖掘模块发现图像和模式的可能性。这是通过向系统指定数据挖掘标准来实现的,该标准可以是各种性质的,诸如但不限于使用参数诸如表面面积和直径来在图像内搜索特定对象形态、搜索特定密度的对象、搜索包含特定数目对象的图像、搜索对象拓扑模式(对象星座)、甚至使用描述图像本性的语义标准(例如病理学)来搜索。例如,用户挖掘具有特定对象拓扑模式的图像。系统然后在监控器中将结果显示给用户。用户可以选择特定图像并且在所发现模式的情境下使其可视化。显示管理器通过下述操作强调所发现的图像模式以不同颜色渲染所考虑的对象或者在该模式的情境下创建并且放置图形标记。结果可以保存在当前项目中以供以后察看。用户还可以使用一个或多个所提到的标准对一组图像进行分类。
用户然后可以保存当前项目以及其相关联的信息。图像、分割结果、图形标识符以及到多源外部数据的关联都可以保存在当前项目中。这允许用户重新打开进行中或者已经完成的项目并且察看所包含的信息。
高吞吐量在高吞吐量分析的情境下,系统提供了用于有效管理整个工作流程的手段。作为第一步,用户必须选择系统可从其加载图像的多个文件夹、仓库、数据库或者特定源。在特定实施例中,将源于数字成像系统的图像自动地且不断地输入系统,在这种情况下,系统包括临时存储进入数字图像的图像缓冲器。系统然后一次一个地读取该缓冲器中的每个图像以进行分析。一旦图像被系统加载并且放入存储器中,则如前面用户驱动说明中所提到的,图像由图像分析模块自动分析。然后计算得到的图像信息自动保存于存储介质中。为了由机器人系统进行光点拾取,以标准格式导出每个所检测光点的坐标和参数从而允许机器人系统物理地提取2D凝胶上的每个蛋白质。光点拾取器然后可以读取该光点参数并且随后物理地提取凝胶基质中的相应蛋白质。对输入到系统的每个图像重复该处理。在本实施例中,当前发明可以提供为集成系统,首先提供成像设备以从物理2D凝胶创建数字图像,然后提供图像输入/输出设备以输出数字化的凝胶图像并且将后者输入到所提供的图像分析软件中。该软件然后控制机器人装备以便优化该吞吐量并且促进光点拾取操作。例如,软件可以基于由图像分析软件输出的光点参数直接与光点拾取器控制器设备交互。此外,利用所提供的置信度属性方法(其中每个所检测的蛋白质具有置信级别),通过指定应考虑的特定置信级别来控制自动处理成为可能。在这种意义上,光点拾取器例如可以仅提取具有大于70%的置信级别的蛋白质光点。总之,本文所描述的发明提供了用于图像加载、图像分析和分割、自动图像和数据管理的全自动软件方法。
这些上面的以及许多其它实施例,即使背离所述的任意其它实施例,但并不背离所附权利要求所阐明的本发明。
权利要求
1.一种图像和数据管理系统,包括下述步骤显示图像;在所述图像的至少一种情境下,产生、显示并且放置至少一个图形标记;选择待关联到所述图形标记的至少一个的至少一个外部数据,其中所述外部数据是在一个或多个本地或远程仓库中选择的;将所述外部数据的至少一个关联到所述图形标记的至少一个并且显示所述关联的可视指示;将信息保存在一个或多个本地或远程仓库中,所述信息至少包括定义所述关联的数据。
2.如权利要求1所述的方法,其中所述情境是感兴趣区域,所述感兴趣区域是由像素值组成的用户定义区域。
3.如权利要求2所述的方法,其中定义感兴趣区域包括下述步骤向用户提供用于定义所述感兴趣区域的工具;使用所述工具在所述图像内交互地定义所述感兴趣区域的轮廓,所述轮廓被显示在所述图像中;以及自动将所述用户定义区域的所述像素值关联到所述图形标记。
4.如权利要求1所述的方法,其中所述情境是感兴趣区域,所述感兴趣区域是利用自动分割方法自动定义的由像素值组成的区域。
5.如权利要求4所述的方法,还包括自动将所述图形标记关联到所述自动定义区域的所述像素值。
6.如权利要求1所述的方法,还包括用于显示所述外部数据的至少一个的手段。
7.如权利要求1所述的方法,其中,所述产生、显示、放置所述图形标记的所述步骤是利用程序自动实现的。
8.一种用于分析和管理图像信息的系统,包括用于输入图像的图像输入手段;用于自动标识和量化所述图像内感兴趣对象的图像分析程序,所述程序产生图像信息;用于将多源信息关联到所述图像和所述感兴趣对象的关联程序,所述关联步骤产生关联信息;用于显示所述图像,至少所述多源信息中的一些,以及用于在所述图像的所述感兴趣对象的情境下产生和显示图形信息的显示程序;以及用于将所述图像、所述图像信息、所述图形信息、所述关联信息存储在本地或远程仓库中的存储手段和程序。
9.如权利要求8所述的方法,还包括下述步骤自动对一个或多个所述仓库进行搜索以寻找满足一个或多个数据挖掘标准的图像,所述数据挖掘标准是手动或自动定义的;自动产生和显示搜索结果,所述搜索结果至少包括所找到图像的列表;通过激活所述列表的至少一个元素从所述挖掘结果选择并显示所述图像的至少一个,其中所述显示包括强调所述所选择图形的所述感兴趣对象。
10.一种提供基于对象的图像发现的方法,包括用于输入图像的图像输入手段;用于自动标识和量化所述图像内感兴趣对象的图像分析程序,所述程序产生图像信息,所述图像和所述图像信息存储在至少一个仓库中;用于输入发现标准的用户输入手段;用于在所述仓库内搜索满足所述发现标准的搜索程序;用于显示搜索结果和所述图像的显示装置。
11.一种数字图像中的自动光点检测的方法,包括下述步骤读取图像;计算所述图像中噪声信息的统计分布;根据所述统计分布计算多尺度分析级别N;计算所述图像的多尺度图像直到所述级别N,并且生成所述多尺度图像的至少一种类型的区域化;与所述多尺度图像和所述区域化相对应地标识所述图像中的感兴趣对象;标识所述图像中的有组织的结构,所述有组织的结构不是感兴趣对象;以及对所述感兴趣对象进行特征刻画并分类。
12.一种用于为数字图像中的一个或多个光点对象自动赋予置信级别属性的方法,包括下述步骤读取图像;自动标识所述图像中的光点对象;计算所述光点对象的置信级别;显示对于所述光点对象的至少一个的置信级别。
13.一种用于对图像中的光点对象进行特征刻画的方法,包括用于计算所述图像的多尺度表示直到级别N的手段,其中所述计算步骤提供多尺度图像;用于在所述多尺度图像的所述级别的每个上标识并且定义光点对象区域的手段;用于链接在所述多尺度图像的所述级别的每个上所标识的所述光点对象区域的手段,所述链接创建多尺度事件树,所述多尺度事件树提供了用于对所述光点对象进行特征刻画和分类的信息。
14.如权利要求11所述的方法,其中,所述特征刻画的步骤是利用权利要求13的手段实现的。
15.如权利要求11所述的方法,其中,所述分类的步骤是利用人工神经网络实现的。
16.如权利要求11所述的方法,其中,所述有组织的结构是条带线。
17.如权利要求11所述的方法,其中,所述有组织的结构是图像假象,所述图像假象包括气泡、毛发、裂缝、划痕。
18.如权利要求13所述的方法,其中,所述光点对象区域是分水岭区域。
19.如权利要求4所述的方法,其中,所述自动分割方法是由权利要求11所述的方法提供的。
20.如权利要求8和10所述的方法,其中,所述图像分析程序是权利要求11所述的方法。
21.如权利要求12所述的方法,其中,所述自动标识的步骤是利用权利要求11的方法实现的。
22.一种用于量化所标识的光点对象的方法,包括下述步骤计算一个或多个2D扩散函数;通过改变所述扩散函数的参数以便优化下述拟合来使所述扩散函数拟合到所述所标识的光点对象,所述参数提供了所述扩散函数的方差、宽度、高度;利用所述扩散函数仿真并且计算所述所标识的光点对象的累积效应;以及利用所述扩散函数量化没有所述累积效应的所述所标识的光点对象。
全文摘要
提供了一种分割方法,用于将光点结构自动分割为D图像,从而允许基于多个标准对所述结构和所述图像进行精确量化和分类,还允许自动标识一个或多个图像中存在的基于多光点的模式。在优选实施例中,本发明用于2D凝胶电泳图像的分析,目标是量化蛋白质表达以及用于允许复杂的基于多蛋白模式的图像数据挖掘,以及图像匹配,注册和自动分类。
文档编号G06T7/00GK1830004SQ200480021630
公开日2006年9月6日 申请日期2004年6月16日 优先权日2003年6月16日
发明者亚历山大·J·布德罗, 帕特里克·杜布, 克劳德·考夫曼, 卡尔杜恩·Z·埃尔阿比戴恩 申请人:戴纳皮克斯智能成像股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1