用于IHC图像分析的空间索引创建的制作方法

文档序号:16369115发布日期:2018-12-22 08:35阅读:228来源:国知局
用于IHC图像分析的空间索引创建的制作方法

发明领域

本发明涉及一种用于分析ihc组织样本的图像的图像分析系统。

背景和相关技术

存在多种病理学数字成像解决方案,旨在生成大量组织样本的数字图像和/或生成全切片(wholeslide)的高分辨率图像。用于诊断,教育和研究目的的大量数字图像,特别是高分辨率全切片图像的处理可能非常复杂并且可能消耗大量计算资源,特别是cpu和内存。计算机处理能力,数据传输速度和云存储解决方案的增益使得数字图像在病理学中用于更广泛的目的,但是处理和分析大量数字图像,特别是全切片图像,仍然是一个通常无法以合理的成本使用现有图像处理技术充分解决的技术挑战。

本发明的目的是提供一种改进的图像分析系统和相应的图像分析方法。

发明概述

本发明提供了用于分析ihc组织样本的图像分析系统,相应的图像分析方法和数据库管理系统,如各个独立权利要求所述。在从属权利要求中给出了本发明的实施方案。本发明的实施方案可以彼此自由组合,只要它们不相互排斥。

在一个方面,本发明涉及用于分析ihc组织样本的图像分析方法。该方法包括:

-为数字图像的一个或多个集合中的每一个在空间dbms的空间数据库中存储集合id,每个数字图像集合的数字图像描绘ihc组织样本的相同或相邻层;

-为每个数字图像在空间数据库中存储与集合id相关联的多个空间数据对象,每个空间数据对象是点,线,多边形或其组合并表示组织样本的生物医学特征;

-通过空间dbms创建至少一个空间索引,该空间索引覆盖包含在一个或多个集合中的数字图像的空间数据对象;

-选择一个或多个数字图像集中的一个;

-通过空间dbms对至少一个空间索引应用空间数据库操作,以确定所选数字图像集的两个或更多个数字图像的空间数据对象的相对位置;

-提供所述相对位置作为输入,用于确定由两个或更多个数字图像的空间数据对象表示的组织样本的生物医学特征的距离和/或相对位置。

为组织样本的一个或多个图像的空间数据记录生成至少一个空间索引可能是有利的,因为现在可以以高效的方式分析大量数字ihc图像中的多个生物医学特征的空间信息,包括全切片图像。

代替使用应用程序来执行生物医学特征的相对位置的分析,使用最初设计用于处理地理数据(即,完全不同类型的数据)的优化空间数据库操作。因此,可以避免进出用于确定图像中不同生物医学特征的相对位置的应用程序的数据流量。此外,通过对表示生物医学特征的空间数据对象使用空间数据库操作而不是用户定义的应用程序例程,可以使用适于快速处理大量空间数据对象的速度优化例程,从而进一步减少cpu和内存消耗。

根据实施方案,每个空间数据对象作为数据记录存储在空间数据库的表的相应行中。

数字图像可以存储在单独的数据库中,并且可以连接到从中提取的空间数据对象,并通过集合id存储在空间数据库中。根据其他实施方案,数字图像也可以存储在空间数据库中。

根据实施方案,空间索引选自包括以下内容的组:

r树索引(在r树中,空间数据对象使用最小边界矩形-mbr分组);r+树索引;r*树索引;希尔伯特r树索引;四叉树索引;网格空间索引;z阶指数;ub树索引;x树索引;kd树索引;m树索引;(使用任意度量比较,m-树索引可用于复杂对象上的相似性查询的有效解析);二进制空间分区(bsp树)索引。

根据实施方案,由分析的两个或更多个数据对象表示的组织样本的生物医学特征属于至少两种不同类型的生物医学特征。例如,至少两种类型-以任何组合-从包括以下的组中选择:特定细胞类型,特定细胞器类型,特定簇类型的细胞簇,跨越多个细胞的特定解剖结构,特定组织类型,肿瘤组织。例如,可以确定肿瘤细胞和非肿瘤或淋巴细胞的相对距离和空间分布,以确定肿瘤组织的免疫细胞浸润程度或确定肿瘤组织浸润健康非肿瘤组织的程度。或者,可以确定特定生物标记例如细胞内的膜蛋白,上皮蛋白,胞质蛋白或核蛋白的出现和空间分布,用于分类细胞类型,例如将细胞类型分类为生物标记阳性或生物标记阴性细胞,作为肿瘤或非肿瘤细胞,作为特定细胞类型,例如调节性t细胞或其他类型的t细胞,如肝细胞,血管细胞,肺细胞或凋亡细胞等。检测生物医学特征例如某些生物标记的相对位置,可用于鉴定组织区域,肿瘤区域,细胞簇及其边界,解剖结构如血管,神经细胞等。

这可能是有利的,因为生物医学特征的相对位置和分布可以允许自动或半自动地计算诊断或诊断的建议(例如肿瘤类型和/或肿瘤阶段)和/或计算适当治疗方法的建议。所述信息还可以用于使用相对位置信息作为输入来执行分类操作,例如,用于对细胞或细胞器进行分类并且可选地还不同地突出显示不同生物医学类别的特征并且将亮点覆盖在样本的一个数字图像上。

根据实施方案,应用程序,例如,图像分析应用程序,自动识别一个或多个集合的一些或所有数字图像中的一个或多个生物特征。该识别包括,例如,自动执行斑点提取和斑点分类操作,用于自动分类表示特定类型生物特征的数字图像的像素区域。例如,可以通过各种不同的方法识别像素斑点,例如,图像分割,阈值处理或其他图像分析技术。像素斑点可以被分类为肿瘤细胞或非肿瘤细胞或凋亡细胞等。同样,可以执行边缘检测算法,分类器,机器学习和/或统计图像分析操作以识别数字图像中的细胞核,细胞边界等。例如,图像分析应用程序可以访问和读取执行斑点识别的数字图像,并将识别的生物医学特征存储在空间数据库中。在一些实施方案中,空间dbms还检测数字图像中的一些生物医学特征,而图像分析应用程序检测并存储生物医学特征的其他生物医学特征。

另外或替代地,空间dbms接收在一个或多个集合的一些或所有数字图像中的一个或多个其他生物特征。所接收的其他生物特征是数字图像的像素区域,其已被手动分类为表示特定类型的生物特征。例如,病理学家可能已经手动将特定像素斑点分类为肿瘤细胞而将另一像素斑点分类为凋亡细胞。将所述带注释的像素区域的位置信息作为另外的生物医学特征提供给空间dbms,并存储在空间dbms中。

根据实施方案,空间dbms或图像分析应用程序自动从自动识别和/或手动分类的生物医学特征中提取空间数据对象。例如,dbms或应用程序可以分析对应于生物医学特征的斑点和区域的像素强度或其他图像属性,并且可以将它们表示为多边形,线和/或点。例如,复杂的解剖结构,例如血管壁的轮廓,细胞簇或组织区域可以表示为多边形,单个细胞或细胞核可以表示为多边形或点和/或细胞膜或组织边界可以用线表示。然后在存储步骤中在空间数据库中存储所述提取的空间数据对象。通常,提取的空间数据对象与从中导出对象的数字图像相关联地存储。

多边形,线或点的提取可以由应用程序执行。这可以具有以下优点:通常应用程序更灵活,并且可以实现用于提取空间数据对象的多种算法。因此,取决于要回答的生物医学问题,可以从同一数字图像中提取不同的空间数据对象。例如,表示特定类型肿瘤细胞的特定斑点可以由多边形表示(例如,如果尺寸是相关的并且将在稍后估计)或者作为2d坐标系中的点。

根据实施方案,该方法包括为一个或多个数字图像集中每一个的每个数字图像创建相应的空间索引或至少一个空间索引的相应分区。为特定数字图像创建的空间索引或索引分区覆盖从所述数字图像导出并包含在所述数字图像中的空间数据对象。

这可以减少加载到内存中的数据量,以便对多个数字图像执行数据库操作。

根据替代实施方案,该方法包括为每个数字图像集创建相应的空间索引或至少一个空间索引的相应分区。为特定数字图像集创建的空间索引或索引分区覆盖从所述所有数字图像集导出并包含在其中的空间数据对象。

创建基于集合的分区可以具有以下优点:集合表示一组生物相关数据。定义基于集合的索引或分区可以允许选择性地将空间数据对象加载到内存中,其是用于由空间数据操作处理的候选者,用于识别与相同组织样本或组织样本的区域相关的生物医学特征的空间关系。

另外或替代地,该方法包括为数字图像的一个或多个集合中每一个的至少两种不同类型的生物医学特征中的每一个创建相应空间索引或至少一个空间索引的相应分区。为特定生物医学特征和特定图像集创建的空间索引或索引分区覆盖代表所述类型生物医学特征的所述特定集合的所有数字图像中的所有空间数据对象。

例如,第一数字图像可以包括多个多边形,其分别代表表达特定生物标记的细胞,其可以指示所述细胞是肿瘤细胞。相同选择的图像集的第二数字图像可以代表免疫细胞。

通过将代表肿瘤细胞的多边形而不是代表免疫细胞的多边形表示在不同空间索引或至少一个空间索引的不同分区中,可以加速空间数据库操作,因为可以减少加载到内存中以执行空间操作的数据对象的数量(对应于索引或索引分区的大小)。例如,索引可以包括用于特定图像集的表示肿瘤细胞的空间对象的第一分区,用于所述特定图像集中的表示免疫细胞的空间对象的第二分区,用于表示血管细胞的空间对象的第三分区,.......,以及用于代表凋亡细胞的空间对象的第n个分区。

在必须评估肿瘤细胞和免疫细胞的相对位置的情况下,可以不必将对应于凋亡细胞的分区加载到内存中。在必须评估肿瘤细胞和凋亡细胞的相对位置的情况下,可以不必将对应于免疫细胞的分区加载到内存中。

根据本发明的实施方案创建附加分区和/或索引可能是有利的,因为可以减少内存消耗和/或cpu消耗:已经观察到为特定图像或图像集的空间数据对象创建空间索引提供了关于用于与组织样本的两个或更多个不同生物医学特征的空间接近度的评估相关的许多数据库查询的索引大小(索引越小,要加载到内存中的数据量越小)和索引覆盖率的非常好的折衷方案(索引越小,管理和访问多个索引以便能够处理请求的处理成本就越高)。另外,可以使用基于特征或基于特征和图像集的空间索引或分区来进一步减少几种类型的数据库查询的内存消耗。

根据实施方案,可以组合基于图像和基于特征类型的索引创建或索引分区。例如,在第一图像包括n种不同类型的生物医学特征并且第二图像包括m种不同类型的生物医学特征的情况下,创建n+m个空间索引或n+m个空间索引分区。

实际上,可以提供用于分析ihc图像的图像特征的相对位置的高度灵活且节省内存的方法,其可以用于多个不同的生物或医学问题和用例场景。

根据实施方案,该方法包括在执行空间数据对象的相对位置的分析之前执行预处理操作。预处理包括空间dbms自动预先计算数字图像的空间数据对象的区域大小,几何中心和/或最小边界矩形(“mbr”)。预先计算的区域大小,几何中心和/或最小边界矩形可以存储到空间数据库或另一种形式的非易失性数据存储。空间dbms和/或图像分析应用程序使用预先计算的区域大小,几何中心和/或最小边界矩形作为输入,以确定生物医学特征的距离和/或相对位置。

这可能是有利的,因为区域大小,几何中心和/或mbr的计算是计算上要求很高的任务,特别是如果针对每个图像的几个10.000或甚至100.000个空间数据对象执行的话。通过预先计算和存储上述特征,可以针对不同的生物医学问题多次重复使用所得到的信息,例如,用于比较非肿瘤组织与肿瘤组织的大小,用于确定用于执行后续细胞分类操作的细胞的大小,确定组织区域的几何中心,用于为稍后应用于图像数据的分类器提供输入特征,等等。可以通过使用由空间dbms提供的空间数据库操作来至少部分地或完全地执行预计算。

例如,包含“spatialcomponent”的oracle数据库可以用作空间dbms。这种类型的dbms包括用于管理原生类型的地理和位置数据的空间数据库例程。它支持“sdo_geom”数据类型,该数据类型可用于存储空间数据对象,并支持能够处理sdo_goem数据类型的多个空间数据库操作。例如,sdo_geom.sdo_area操作计算二维多边形的面积。sdo_geom.sdo_mbr返回空间数据对象或空间数据对象集体的最小边界矩形。sdo_geom.sdo_centroid操作返回多边形的质心。

根据一些实施方案,所选择的数字图像集的每个数字图像是从组织样本的多个相邻层中的相应一个导出的。例如,不同的层可以被不同地染色以识别不同的生物标记,例如,通过使用具有第一荧光染料的第一抗体选择性地鉴定第一生物标记并通过至少使用第二荧光染料的第二抗体来选择性染色相应的第二生物标记。由于这些层是相邻的,可以安全地假设尽管第一和第二染料的荧光信号不是来自相同的组织层,但是可以通过比较第一和第二染料的强度信号来识别第一和第二生物标记的相对位置。因此,在该实施方案中,图像集的每个数字图像可以对应于相应的组织层,并且可以对应于相应的生物标记和染料。所述图像中的一个或多个也可以对应于一般染料,例如苏木精和/或曙红,用于识别组织切片的组织区域与玻璃区域。

根据实施方案,图像分析应用程序生成每个数字图像集。该生成包括执行图像配准操作,用于将描绘ihc组织样本的相同或相邻层的多个数字图像配准到公共坐标系中。

例如,图像分析程序可以执行光谱分离操作,以产生描绘ihc组织样本的相同层的多个数字图像。至少一个集合的每个数字图像对应于不同的颜色。因此,通过应用光谱分离(也称为颜色反卷积),可以从描绘组织样本层的单个多通道图像生成特定层的一组数字图像。例如,国际专利申请wo2015/124772(其全部结合于本公开中)描述了一种使用组稀疏度建模的用于图像分离的系统。在所述国际专利申请中描述的颜色反卷积方法被本发明的实施方案用于生成数字图像的一个或多个集合113,其图像描绘相同组织样本层(其不同的光谱分量)。

根据实施方案,多个数字图像集的集合id和对应的空间数据对象存储在空间数据库中。

一个或多个第一数字图像集分别包括治疗前肿瘤活组织检查样本的数字图像。

一个或多个第二数字图像集分别包括治疗期间肿瘤活组织检查样本的数字图像。

另外或替代地,一个或多个第三数字图像集分别包括治疗后肿瘤活组织检查样本的数字图像。

该方法可以包括确定第一,第二和第三数字图像集中每一个的表示两个或更多个不同生物特征的空间数据对象的相对位置。然后,可选地,dbms或图像分析应用程序可以比较针对第一,第二和/或第三图像集计算的生物医学特征的相对位置,以确定治疗组与当前治疗组或先前治疗组患者的差异。例如,可以执行统计测试以比较相对位置。这可能是有利的,因为能够比较多个未治疗的,目前治疗的和先前治疗的人中的两个或更多个生物医学特征的相对位置,即使对于大量患者也可以快速地进行。

根据实施方案,至少多个数字图像集的集合id和空间数据对象存储在空间数据库中。第四数字图像集包括具有特定条件的第一组群人的组织样本的数字图像。第五数字图像集包括不具有特定条件的第二组群人的组织样本的数字图像。空间dbms选择第四和第五数字图像集,并对第四和第五数字图像集中的每一个执行分析。存储分析结果。然后,空间dbms或图像分析应用程序计算第四数字图像集中数字图像的表示两个或更多个不同生物特征的空间数据对象的相对位置的第一统计平均值。另外,空间dbms或图像分析应用程序计算第五数字图像集中数字图像的表示所述两个或更多个不同生物特征的空间数据对象的相对位置的第二统计平均值。然后,空间dbms或图像分析应用程序自动比较第一和第二统计平均值,以识别第一和第二组群人之间的统计学显著性差异。本文使用的“组群”是具有相似生活史,年龄,健康状况,教育,饮食习惯等和/或具有相似健康状况的人群,例如,是否有病症。

在另一有益方面,使用空间数据库操作来比较生物医学特征的空间关系,例如,在治疗组与未治疗组患者的样本中或在不同组群的组织样本中,可以产生标准化且可靠的诊断或教育结果。当使用手动图像分析技术时,这是不可能的,因为例如不同病理学家或甚至相同病理学家在不同日期对特征距离的手动评估可能禁止对多个组织样本获取的图像数据进行全面和准确的比较。

根据实施方案,用于分析空间数据对象的相对位置的空间数据库操作选自包括以下各项的组:

-确定所选集合中的一个数字图像的第一区域是否完全包含在同一集合的另一个数字图像的第二区域中;

-确定所选集合中的一个数字图像的第一区域是否与同一集合的另一个数字图像的第二区域重叠;

-确定所选集合的一个数字图像中的表示第一类型生物特征的空间数据对象相对于同一集合的另一个数字图像中的表示另一类型生物特征的空间数据对象的空间距离;

-确定所选集合的一个数字图像中的表示第一类型生物特征的空间数据对象相对于同一集合的另一个数字图像中的表示另一类型生物特征的空间数据对象的位置的相对位置的模式。

在大规模组群研究的背景下,本发明的实施方案可能是特别有利的,因为多个人可能贡献一个或多个数字图像并且需要快速分析大量数据。

根据实施方案,空间dbms计算一个或多个数字图像集的一个或多个数字图像的空间数据对象的密度。优选地,空间dbms使用内置空间操作来快速执行密度计算。然后,dbms或图像分析程序分析计算的密度,以自动将空间数据对象分类为多个预定义的生物医学特征类之一,例如,分类成特定的细胞类型或组织类型,分类成特定的t细胞亚类,如细胞毒性t细胞与调节性t细胞等。

在另一方面,本发明涉及一种非易失性计算机可读存储介质。存储介质包括计算机可读指令,当由处理器执行时,使得处理器执行根据前述权利要求中任一项所述的方法。

在另一方面,本发明涉及一种图像分析系统,包括具有空间数据库的空间dbms,并且包括处理器。处理器配置为:

-为数字图像的一个或多个集合中的每一个在空间dbms的空间数据库中存储集合id,每个数字图像集的数字图像描绘ihc组织样本的相同或相邻层;

-为每个数字图像在空间数据库中存储与集合id相关联的多个空间数据对象,每个空间数据对象是点,线,多边形或其组合并表示组织样本的生物医学特征;

-执行空间dbms的第一程序例程,用于创建覆盖包含在一个或多个集合中的数字图像的空间数据对象的至少一个空间索引;

-接收对一个或多个数字图像集中的一个的选择;

-执行空间dbms的第二程序例程,用于对至少一个空间索引应用空间数据库操作,以确定所选数字图像集的两个或更多个数字图像的空间数据对象的相对位置并用于提供所述相对位置作为输入,用于确定由两个或更多个数字图像的空间数据对象表示的组织样本的生物医学特征的距离和/或相对位置。

在另一方面,本发明涉及一种空间数据库管理系统,包括:

-空间数据库,其包括:

о至少数字图像的一个或多个集合的集合-id,每个数字图像集的数字图像描绘ihc组织样本的相同或相邻层;

о对于每个数字图像,多个空间数据对象,每个空间数据对象是点,线,多边形或其组合,并且表示组织样本的生物医学特征;

-用于创建至少一个空间索引的第一程序例程,该空间索引覆盖包含在一个或多个集合中的数字图像的空间数据对象;

-用于对至少一个空间索引应用空间数据库操作的第二程序例程,用于确定一个或多个数字图像集中所选择的一个集合的两个或更多个数字图像的空间数据对象的相对位置,并用于提供所述相对位置作为输入,用于确定由两个或更多个数字图像的空间数据对象表示的组织样本的生物医学特征的距离和/或相对位置。

如本文所用的“空间数据库管理系统”或“空间dbms”是被设计为允许空间数据库的定义,创建,查询,更新和管理的软件应用程序。

如本文所用的“空间数据库”或“地理数据库”是被优化以存储和查询表示在几何空间中定义的对象的数据的数据库。空间数据库允许表示简单的几何对象,例如点,线和多边形,以及可选地还有更复杂的结构,例如3d对象,拓扑覆盖和/或线性网络。虽然典型的数据库被设计为管理各种数字和字符类型的数据,但空间数据库包括用于有效地处理空间数据对象的附加功能。空间数据对象也可以称为“空间基元”或“简单几何对象”。术语“几何”可用于指代各个空间数据对象和空间数据对象的集体。

如本文所用的“空间数据库操作”是配置用于分析一个或多个空间数据对象的空间信息的数据库例程。空间数据库操作通常是速度优化的,以通过使用为多个空间数据对象创建的空间索引来有效地处理空间数据对象。例如,空间数据库可以支持以下空间数据库操作中的一个或多个:空间测量(例如,计算线长度,多边形的面积,空间数据对象之间的距离),空间函数(将现有空间数据对象修改以创建新的空间数据对象,例如通过在它们周围提供最小边界矩形,交叉空间数据对象,合并空间数据对象);空间谓词(执行关于空间数据对象之间的空间关系的真/假查询,用于检查例如多边形是否重叠或者在距另一个空间数据对象的最大距离内),以及其他。

如本文所用的“空间索引”是空间数据库用于优化空间查询的数据结构。空间索引类型通常比常规索引更有效地处理空间查询(诸如两个点之间差多远,或者点是否落在感兴趣的空间区域内,两个多边形是否指定不相交,交叉,重叠或接触区域)。

如本文所用的“组织样本”是衍生自例如活组织检查的一块组织或是一组细胞,包括取自生物体例如人或其他哺乳动物的血细胞。例如,可以使用免疫组织化学(ihc)染色方案对组织样本或其切片进行染色。

这里理解的术语“数字图像”包括从生物组织样本获取的原始图像数据,例如借助于光学传感器或传感器阵列,或预处理的图像数据。特别地,图像数据可以包括像素矩阵和/或可以是从光谱分离(颜色反卷积)操作导出的像素矩阵。

如本文所用的“生物标记”是组织样本的特性(例如(存在)特定细胞类型,例如免疫细胞),特别是指示医学病症的组织特性。生物标记可以通过组织样本中特定分子(例如蛋白质)的存在来识别。

如本文所用的“生物医学特征”是通过自动分析和/或手动注释组织样本的数字图像而获得的组织样本的生物医学特性。例如,数字图像可以包括指示特定生物标记,分子或细胞结构的存在和量的像素强度信息。所述信息可以通过分割,斑点检测或分类算法用作输入,或者可以由人评估以将生物医学属性分配给图像的各个像素。所述属性或特性可以是类标签,其指示一组像素表示细胞(而不是玻璃载玻片背景)或表示特定细胞器或特定细胞类型。

如本文所用的“集合id”是唯一地标识数据库中的数字图像集的标识符。

附图简述

在下面的实施方案中,仅通过参考附图的示例更详细地解释本发明,其中:

图1显示了相同组织样本层的一数字图像集的创建,

图2显示了描绘组织样本的相邻层的一数字图像集的创建,

图3显示了一个包含空间dbms的分布式系统,

图4描绘了数字图像集的各个图像,

图5描绘了用于对图像集的多个数字图像执行空间数据库操作的多个生物医学用例场景

图6是根据本发明实施方案的方法的流程图。

详细说明

图1示出了组织样本100的相同层102的数字图像106.1-106.4的集合112的创建。例如,作为许多癌症类型的诊断的一部分,例如,结肠直肠癌,取一个或多个活组织检查样本。将活组织检查样本切成一个或多个薄组织层102。层102可以用选择性染色特定生物标记,细胞和/或细胞器的一种或多种染色剂染色,并且从一层102获取多光谱图像104以捕获有意义的生物医学特征,其可以允许对肿瘤进行分类,提供预后和/或治疗建议。多光谱图像可以包括多个不同染色例如荧光染色的光谱信息,和/或可以覆盖包括层102的整个切片。因此,得到的多光谱图像通常非常大。通过应用光谱分离过程,创建多个数字图像106-1-106.4。集合112中的每个图像可以对应于由相应染色选择性地产生的强度信号,因此可以对应于特定的生物医学特征,例如,特定生物标记的存在和分布。可以通过图像分析程序使用不同的技术处理和分析图像106.1-106.4中的每一个,以自动识别生物医学特征,例如,肿瘤细胞,免疫细胞等,并用于将所识别的生物医学特征表示为空间数据对象,例如,多边形,点或线。图像分析程序将空间数据对象存储在空间数据库中。例如,自动生物医学特征检测可以包括斑点识别,边缘检测,分割,阈值处理,局部强度顺序模式的提取和其他技术。诸如支持向量机,神经网络或随机森林的各种方法和分类器可以应用于不同类型的生物医学特征和/或用于从每个图像中提取表示生物医学特征的空间数据对象。总之,集合112中的图像包括关于相同单个组织切片层102的不同生物医学特征的信息。

图2示出了数字图像106.5-106.7的集合113的创建,其描绘了组织样本的相邻层102,108,110。将活组织检查样本切成两个或更多个薄组织层102,108,110。每个组织层可以用不同的染色方案染色,用于选择性染色特定的生物标记,细胞和/或细胞器,并且可以在相应的切片上转移。从包括这些层中的一个的每个组织切片,取得相应的图像,通常是单色图像106.5-106.7,例如,通过荧光显微镜,明视场显微镜,载玻片扫描装置等。图像集113的每个图像捕获有意义的生物医学特征,其可以允许对肿瘤进行分类,提供预后和/或治疗建议。对于图1中描绘的示例,图像可以是全切片图像,因此可能通常非常大。集合113中的每个图像可以对应于由相应层的相应染色选择性地产生的强度信号,因此可以对应于特定的生物医学特征,例如,特定生物标记的存在和分布。可以使用如已针对图1所描述的不同技术,通过图像分析程序和/或空间dbms的例程来处理和分析图像106.5-106.7中的每一个。总之,集合113中的图像分别对应于组织样本的不同相邻层,并且分别包括关于不同生物医学特征的信息。

图3示出了包括空间dbms316的分布式系统。空间dbms托管在包括处理器328,主内存和非易失性存储介质的数据库服务器314上,并且包括一个或多个空间数据库318。数据库服务器可以是实现为基于云的数据库系统。

可选地,该系统还可以包括托管在图像处理系统306上的图像分析程序308,例如标准计算机系统,用户计算机或应用服务器计算机系统。图像分析应用程序308可以包括特征检测和分类模块310,例如,用于自动识别生物医学特征,例如细胞核,细胞,背景区域,组织边界和细胞,以及用于分类所述生物医学特征,例如分类成肿瘤细胞和非肿瘤细胞。另外,根据实施方案,图像分析应用程序308包括用于检测表示生物医学特征的空间对象的另一模块312。该模块可以使用生物医学特征和/或数字图像,所述特征是作为用于识别空间数据对象的输入而得到的,例如,表示所述生物医学特征的点,线和多边形。例如,特定类型的细胞的轮廓(通过在特定数字图像中描绘强度信号的染色可选择性地识别)可以表示为多边形。然后将生成的空间数据对象存储在空间数据库中。从各个图像导出的空间数据对象存储在空间数据库318中,并且稍后由速度优化的空间数据库操作使用,以确定生物医学特征的空间分布和关系。

图像处理系统306,例如,服务器或标准计算机可以通过网络320例如互联网或内联网与数据库服务器314连接。

根据一些实施方案,系统经由网络320连接到包括显示器的一个或多个客户端计算机系统322。客户端计算机可以是分配给用户的计算机,例如,病理学家或免疫学家。计算机322可以是台式计算机,笔记本电脑,平板电脑或移动电池供电的电信设备,例如智能手机。用户可以经由客户端应用程序向空间数据库提交请求,以优选地以实时模式确定在一生物学相关图像集中在各个数字图像中识别的两个或更多个生物医学特征的距离和/或相对空间位置。在客户端设备的显示器324上向用户显示该分析的结果326。

另外,该系统可以包括或可操作地耦合到成像设备304,例如,切片扫描仪或显微镜,其被配置用于拍摄或扫描染色组织样本302的一个或多个层的一个或多个图像。

(组织)成像设备304可以例如包括亮场照明模块,其实现组织样本的明视场照明,并且可以在组织样本的明场照明期间实现代表组织样本的图像的多个像素的捕获。另外或可替代地,(组织)成像设备304可以包括ccd相机,例如ccd相机选自rgbccd相机和具有多个颜色通道的ccd相机。(组织)成像设备可以通过选自rgbccd相机和ccd相机的ccd相机实现成像,即捕获代表组织样本的图像的多个像素。例如,ccd相机可以捕获红色,绿色和蓝色通道的每一个中的像素或者红色,绿色,蓝色和uv通道的每一个中的像素。ccd相机可以包括分束器,用于将入射光分成各种(颜色)通道以进行捕获。

成像装置304可以将生成的数字图像直接存储在空间数据库中,或者可以将图像转发到图像处理系统308,以执行特征和空间数据对象提取,并将图像和所得空间数据对象存储在空间数据库318中。根据实施方案,一个或多个图像集合可包括rgb图像和/或cymk图像和/或从多通道彩色图像(包括两个或更多(颜色)通道的图像)导出的单色图像。这样,一些图像的每个像素可以包括用于多个颜色通道中的任何颜色通道的颜色信息,例如,对于rgb图像的红色,绿色和蓝色通道中的每一个。颜色信息可以与在图像分析过程中从数字图像中提取的空间数据对象的x-y坐标相关联地存储在空间数据库中。

空间数据库包括至少一个空间索引,其覆盖一个或多个图像集中包含的所有图像的空间数据对象。在一些实施方案中,创建每个图像集或甚至每个图像的一个空间索引(或分区)。在一些另外的实施方案中,创建每个生物医学特征的一个空间索引(或分区),并且根据又一些实施方案,创建生物医学特征和图像的每个组合或生物医学特征和个体图像的每个组合的空间索引(或分区)。在一些实施方案中,分区存储在不同的物理表空间中以提高性能。每当新的空间数据对象存储在数据库中时,空间dbms就更新空间索引或索引,以确保索引保持最新。

根据实施方案,对空间数据对象的空间索引进行操作的空间数据库操作实现两步查询模型以执行数据库查询和连接:这两个步骤包括初次和二次过滤操作。

在第一过滤操作中,识别满足近似几何边界的所有候选空间数据对象的(快速)选择。所述识别由几何操作组成,所述几何操作使用空间索引来确定特定空间数据对象或其部分是否适合近似几何边界。例如,可以将一个或多个空间数据对象的最小边界矩形或最小边界椭圆计算为近似几何边界。所述近似几何边界用于建立空间索引,例如,r树或线性四叉树。

在二次过滤操作中,空间dbms仅比较满足初次过滤操作所施加的几何要求的候选空间数据对象中的一些。二次过滤对初次过滤器的结果集应用精确计算,以返回精确结果。二次过滤通常需要更多的计算工作量,但精确的计算不再应用于所有空间数据记录,而是仅限于有限的数量。因此,虽然仅在空间索引上执行初次过滤用于提供一组候选数据对象,但是二次过滤用于基于空间数据对象的精确几何位置和边界来确定空间对象之间的精确空间关系。

根据实施方案,至少一些空间数据库操作仅包括初次过滤操作但不包括二次过滤操作。

多个染色剂可以与抗体或其他分子偶联,用于特异性染色相应的特定生物标记或其他分子。用于染色组织样本的一个或多个切片的染色方案中使用的每种染色剂的颜色可以是独特的,因此每种染色颜色可以对应于生物标记或其他类型的分子。

例如,抗体偶联的染色剂可以对选自肿瘤细胞细胞角蛋白,调节性t细胞核,通用细胞核,b细胞膜,通用t-细胞膜和细胞毒性t-细胞膜的至少一种组织特征具有亲和力。

图6是根据本发明的实施方案的用于分析ihc组织样本100的图像分析方法的流程图,其可以由图3中描绘的系统实现。例如,样本100可以是结肠癌活组织检查样本。数字图像106.1-106-4;106.5-106.7的一个或多个集合112113由图像应用程序用于提取生物医学特征和表示生物医学特征的空间数据对象。每个数字图像集的数字图像描绘ihc组织样本的相同层102或相邻层102,110,108。例如,图像分析应用308可以从成像装置304接收图像,可选地执行光谱分离操作,并将接收或生成的数字图像存储在图像管理数据库中。另外,图像分析应用程序可单独或与空间dbms互操作执行一些图像分析步骤,例如,用于提取单个图像中的生物医学特征以及用于将生物医学特征表示为点,线和/或多边形(其在本文中称为“空间数据对象”)的分割或斑点识别。每个空间数据对象包括至少一个具有x坐标值和y坐标值的点。线和多边形包括多个x-y值对,它们通过边缘相互连接。多边形是由直线构成的二维形状,其中形状是“闭合的”(所有线连接起来)。

在第一步骤702中,将图像集的标识符(“集合id”)存储在空间dbms316的空间数据库318中,用于将与集合id相关联的数据记录链接到存储在图像管理数据库中的原始图像。在步骤704中,对于每个数字图像,空间数据对象存储在空间数据库中。存储步骤702和704可以例如由图像分析应用程序触发,并且可以对针对各个组织样本获得的多个图像集重复执行。

在步骤706中,空间dbms为每数字图像集创建一个空间索引,该空间索引覆盖包含在所述集合中的数字图像的空间数据对象。在步骤708中,选择一个或多个数字图像集。例如,用户可以通过界面执行选择,或者空间dbms可以自动选择要用于空间特征分析的所有图像集。在步骤710中,空间dbms对为所述选择的数字图像集创建的空间索引应用空间数据库操作。例如,可以在空间索引上处理intersect或is-contained-in查询和/或可以计算由一组空间数据对象表示的生物医学特征的密度,以确定所选数字图像集的两个或更多个数字图像的空间数据对象的相对位置。和/或用于获得特征密度信息。在步骤712中,空间dbms提供所计算的相对位置作为用于合适的图像分析例程的输入,用于确定由两个或更多个数字图像的空间数据对象表示的组织样本的生物医学特征的距离和/或相对位置。例如,在步骤714中生成的结果可以存储在空间数据库的表中,该表可由图像分析应用程序308或统计应用程序访问。或者,空间dbms可以包括合适的程序例程,例如,一些存储过程,用于执行距离和/或相对位置的确定。

图4更详细地描绘数字图像集112的各个图像。图像106.1显示了用苏木精和曙红(h&e)染色的多个细胞400。细胞核的颜色比细胞的细胞质部分颜色更深。图像106.2显示了对应于特异性结合特定类型免疫细胞的染色的三个点。因此,点402表示具有侵入组织区域400的三个免疫细胞。图像106.3显示由特异性结合肿瘤标记物的染色信号引起的多个黑点404。因此,通过对例如点检测,分割,阈值处理进行图像分析和应用分类器,可以从各个组织中提取一个或多个生物医学特征。

下面的虚线框不代表数字图像,但表明通过组合多数字图像中包含的信息,可以导出相关的生物特征及其相对空间位置。

例如,图像显示组织区域400的右半部分(包括黑点404的细胞)是肿瘤细胞,组织区域的左半部分由非肿瘤细胞组成。此外,可以推断三种免疫细胞402尚未侵入肿瘤区域。空间dbms包括空间数据库操作,例如用于计算最小边界矩形,计算构成空间数据对象的这种矩形或多边形的几何中心,并确定例如两个不同生物医学特征的两个几何中心的距离。例如,可以快速确定免疫细胞402的几何中心406与肿瘤细胞404的几何中心408之间的距离,对于100.000个或更多个空间物体以及数百或数千个图像集(例如,在大型组群研究中)快速,经常甚至实时确定。这可以通过预先计算生物医学特征的若干空间特性来实现,例如,组织区域,细胞簇,细胞等的大小或几何中心,并使用速度优化的空间数据库操作来计算衍生空间信息,例如,不同类型的各个细胞之间的距离或不同细胞类型组的几何平均值之间的距离。免疫细胞和肿瘤细胞的几何中心406和408之间的距离在图4中用箭头表示。然而,这种计算两个生物医学特征(免疫细胞和肿瘤细胞)的相对位置的方式仅仅是一个例子。根据生物医学问题,可以使用其他类型的生物医学特征,其他距离测量和其他类型的空间数据库操作。

图5描绘用于对图像集的多个数字图像执行空间数据库操作的多个生物医学用例场景。图5a描绘包含具有多个细胞的样本切片的组织切片600。区域602对应于玻璃,左侧部分602稍后将被识别为非肿瘤细胞,并且细胞的右侧部分606随后将被识别为肿瘤细胞。每个细胞可以表示为多个多边形:第一多边形可以代表围绕细胞质区域608的细胞膜612,因此代表细胞的轮廓。第二多边形可以代表细胞核610。可以通过在h&e染色图像上或在包括关于细胞和核边界的足够信息的任何其他类型的数字图像上应用图像分析方法来自动识别细胞膜和细胞核。

根据图5b中描绘的一个示例,通用细胞检测方法可以将由分别表示细胞边界的多个第一多边形614定义的区域与分别表示核小块的多个第二多边形616定义的区域进行比较。可以执行空间数据库操作“完全包含在其中”以快速确定每个第一多边形是否包括完整的第二多边形。可以执行该操作以自动生成示出为覆盖204.1的结果,该覆盖204.1包括两个生物医学特征的相对位置信息。所述结果可用于去除被错误地分类为表示细胞的第一多边形或表示细胞核的第二多边形的伪影,因为质量标准可能要求每个真核包含在细胞中并且每个细胞必须恰好包含一个核。因此,数据库操作可用于提高图像分析中使用的特征提取操作的质量。

根据图5c中描绘的另一示例,将由分别表示细胞边界的多个第一多边形614定义的区域与由多个第二多边形618定义的区域进行比较,所述多个第二多边形618分别表示指示细胞是特定类型肿瘤细胞的生物标记。可以执行用于选择所有第一多边形作为包括第二多边形618的肿瘤细胞的空间数据库操作,以快速识别组织中的所有肿瘤细胞。可以执行该操作以自动生成覆盖图204.2图示的结果,该覆盖图204.2包括两个生物医学特征的相对位置信息。所述结果可用于快速识别组织中肿瘤细胞的存在和位置。

根据图5d中描绘的另一示例,可以比较两个以上生物医学特征的位置信息。可以如针对图5b所描述的那样分析和比较生物医学特征614和616的位置。可以如针对图5c所描述的那样分析和比较生物医学特征614和618的位置。可以如针对图4所描述的那样分析和比较生物医学特征614,620和618的位置,由此三个多边形620可以是例如免疫细胞,并且多边形618可以是生物标记,其存在指示细胞是肿瘤细胞。此外,本发明的实施方案可以使用预先计算的最小边界矩形,多边形面积和/或多边形或多边形集体的几何中心来计算附加的相对空间信息,例如,不同类型细胞的大小差异,另一组织细胞对组织的浸润程度等。所述操作由空间数据库操作执行,所述空间数据库操作可以利用为空间数据对象创建的空间索引,例如快速确定空间对象是否完全或部分包含在另一个空间对象中,两个数据对象之间是否存在交叉点。

此外,可以通过空间dbms或通过图像分析或统计应用程序来执行对绝对几何信息如密度信息和相对几何信息如两个生物医学特征的距离的统计评估,其比较同一患者在不同时间(治疗前,治疗期间或治疗后)的数据或比较不同组群患者或健康人群的数据。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1