数字病理学图像的变换的制作方法

文档序号:22323464发布日期:2020-09-23 02:01阅读:223来源:国知局
数字病理学图像的变换的制作方法

本发明涉及图像分析领域,并且更具体地涉及数字病理学领域。



背景技术:

已知几种图像分析方法,所述方法可以被用于利用有关细胞和其他组织成分的生化组成的额外信息来辅助诊断过程。总体上,计算机化的组织病理学图像分析将通过相机采集到的单通道图像或多通道图像作为其输入,并且试图模拟人工分析和/或提供附加的定量信息以辅助诊断。

数字病理学的主要缺点之一是通常需要对组织进行染色以揭示相关的生物学信息,例如揭示细胞边界、细胞类型、组织类型或某些生物标记的数量或分布。染色是易于出错、耗时且昂贵的过程。组织本身是稀缺且昂贵的,并且制备和染色组织样品所需的时间和材料也是如此。通常,关于可用组织和预算的限制会减少对样品执行检查的次数,即使对每个样本上的多个染色进行分析以更好地了解疾病是有益的。

例如,为了基于组织样品图像的图像分析来确定特定肿瘤的阶段,可能需要用多种生物标记特异性染色剂对所述样品染色。组织样品的生物标记特异性染色通常涉及选择性结合目标生物标记的第一抗体的使用。特别地,这些第一抗体以及染色规程的其他成份可能是昂贵的,并且因此出于成本原因,在许多应用场景中,特别是在高通量筛选中,可能会排除使用可用的图像分析技术。

通常,用背景染色剂(例如,苏木精和伊红染色剂(“h&e”或“hd”染色剂))来染色组织样品,以便揭示细胞和细胞核的大规模的组织形态以及边界。除背景染色剂之外,还可以根据待回答的生物医学问题(例如,肿瘤的分类和分级、组织中某些细胞类型的数量和相对分布的检测等)应用多种生物标记特异性染色剂。



技术实现要素:

本发明的目的是为了提供一种识别组织样品中的生物标记的改进方法以及一种如独立权利要求中所指定的相应的图像分析系统。在从属权利要求中给出了本发明的实施方案。如果本发明的实施方案不是互相排斥的,则可以彼此自由地组合。

一方面,本发明涉及一种识别组织样品中生物标记的方法。所述方法包括通过图像分析系统接收采集到的图像。所述采集到的图像是已经由图像采集系统采集的图像。所述采集到的图像是以下类型之一:

-所述组织样品的数字图像,所述数字图像的像素强度值与所述组织样品的自发荧光信号的强度或x射线感生信号的强度相关;或者

-所述组织样品的数字图像,所述数字图像的像素强度值与非生物标记特异性染色剂(例如,苏木精、h&e等)的量相关;或者

-所述组织样品的数字图像,所述数字图像的像素强度值与第一生物标记特异性染色剂的量相关,所述第一生物标记特异性染色剂被适配用于选择性地染色所述组织样品中包含的第一生物标记;或者

-所述组织样品的数字图像,其中,一些像素的像素强度值与非生物标记特异性染色剂(例如苏木精或h&e等)的强度相关,并且其中,其他像素的像素强度值与一个或多个第一生物标记特异性染色剂(例如,ki67特异性染色剂)的强度相关。

所述方法进一步包括提供经训练的机器学习逻辑-mll。所述mll是已经被训练以(显式地或隐式地)识别被预测包括第二生物标记的组织区域的机器学习逻辑。所述方法进一步包括将所接收的采集到的图像输入到所述mll中,并且通过所述mll将所述采集到的图像自动地变换成输出图像。所述输出图像突出显示了被预测包括所述第二生物标记的组织区域。例如,mll可以作为存储在便携式或非便携式数据存储装置(例如,dvd或usb记忆棒或硬盘驱动器)上的软件产品提供,或者可以经由网络(例如,因特网或实验室的内联网)下载。同样地,可以通过训练mll的未经训练版本来提供mll。

通常,已经关于描绘组织样品的训练图像对mll进行了训练,所述组织样品具有与采集到的图像中描绘的组织样品相同或相似的类型。通常,在训练图像中描绘的组织样品像在采集到的图像中所描绘的组织样品一样,已经用相同的染色剂并且用相同或相似的染色规程进行了染色。

在采集到的图像中描绘的由第一生物标记特异性染色剂选择性染色的组织样品中的第一生物标记可以称为“经验生物标记”或“观察到的生物标记”,因为该生物标记的存在实际上是借助于所述第一个生物标记特异性染色剂经验显示的。第二生物标记是优选不被所述第一生物标记特异性染色剂染色的生物标记。第二生物标记也可以被称为“感兴趣的生物标记”或“mll-生物标记”,因为mll是已经基于一些训练图像被训练以预测该“第二生物标记/感兴趣的生物标记/mll-生物标记”的存在的机器学习逻辑。

这可能是有利的,因为尽管被用作输入的采集到的图像描绘了根本没有被染色或被一个或多个染色剂染色的样品,但是方法可以生成突出显示存在的第二生物标记的输出图像,所述一个或多个染色剂被适配用于选择性地染色一个或多个对应的第一生物标记,而不是所述第二生物标记。因此,通过提供关于采集到的图像中隐式包含的信息进行训练的mll,在无需利用被适配用于选择性地染色第二生物标记的染色剂对所述组织样品进行染色的情况下,即可获得有关组织中所述第二生物标记的存在的显式信息。因此,可以节省宝贵的时间和用于选择性地染色第二生物标记的染色剂的成本。申请人已经惊奇地观察到,例如在自发荧光图像、从x射线显微镜采集到的图像、已经被非生物标记特异性染色剂染色的样品图像(例如h&eihc图像)以及已经被一个或多个染色剂染色的样品的图像中包含的视觉信息足以允许已经关于这类图像被训练的mll预测第二生物标记的位置,所述一个或多个染色剂选择性地染色一个或多个对应的第一生物标记(不包含所述第二生物标记)。在不受任何理论束缚的情况下,申请人相信,由组织的本质特征(例如,生成特定自发荧光信号的特征)提供的视觉信息或由非特异性染色剂或第一生物标记特异性染色剂提供的视觉信息在许多情况下足以生成对第二生物标记存在的可靠的显式预测或隐式预测,即使在所述组织样品尚未被相应的第二生物标记特异性染色剂染色的情况下。所述视觉信息可能不足以允许人类执行该预测。例如,特定生物标记的存在可能会修改人眼无法识别和/或人脑无法解释的细胞或细胞器、细胞膜形状或其他形态特征的对比度,因为各种视觉特征与特定生物标记的存在之间的相互关系可能太复杂,以至于人类无法理解。然而,申请人已经观察到可以训练未经训练的mll,使得经训练的mll能够基于组织的数字图像来预测所述组织中第二生物标记的存在,所述数字图像仅示出如自发荧光的一些组织本质特征和/或示出一种或多种其他(第一)生物标记的存在和分布和/或示出可以通过现今在免疫组织化学(ihc)环境中广泛使用的非生物标记特异性染色剂揭示的组织特征。

根据实施方案,mll是已经被训练以(显式地或隐式地)识别采集到的图像中被预测包括第二生物标记的组织区域的机器学习逻辑。

根据实施方案,通过图像变换生成的图像看起来像由用于采集输入图像的相同类型的图像采集系统生成的图像。例如,根据采集到的自发荧光图像生成的输出图像可能看起来像原始自发荧光图像,并且另外包括指示第二生物标记的突出显示区域。根据采集到的x射线图像/明场显微镜图像/荧光图像生成的输出图像看起来像原始的x射线图像/明场显微镜图像/荧光图像,并且另外包括指示所述第二生物标记的突出显示区域。

根据其他实施方案,通过图像变换生成的图像看起来像由用于采集输入图像的不同类型的图像采集系统生成的图像。例如,采集到的图像可以是通过荧光显微镜采集的图像(“荧光图像”),并且输出图像可以是突出显示一种或多种第二生物标记的虚拟h&e图像。

组织样品的特征(如“自发荧光”或“x射线吸收”或“x射线透射”或“x射线感生荧光”)也可以被称为所述组织样品的“特征性能”或“固有特性”。

在一些实施方案中,可以训练mll,以使得显式识别出组织样品的被预测包括第二生物标记的区域。这意味着这些区域的坐标可以由mll计算,并且所述坐标可以或可以不作为提供给使用者的输出。根据一些实施例,输出图像与采集到的图像基本上相同或相似,唯一的不同是突出显示了描绘组织样品区域的图像区域,所述组织样品区域被预测包括第二生物标记。优选地,执行突出显示,以使得突出显示的组织区域看起来像已经被常规生物标记特异性染色剂染色的组织区域,所述常规生物标记特异性染色剂被适配成用于选择性地染色第二生物标记。缺乏第二生物标记的所有其他图像区域可以基本上保持不变。

根据一些其他实施方案,可以对mll进行训练,以使得仅隐式地识别组织样品的被预测包括第二生物标记的区域。这意味着mll可能不会显式计算这些区域的坐标,并且因此不会将所述坐标作为提供给使用者的输出。根据一些实施例,输出图像是虚拟染色图像,所述虚拟染色图像在描绘被预测包括第二生物标记的组织样品区域中以及还在所有其他区域中与采集到的的图像不同。例如,被预测包括第二生物标记的组织样品区域可以被突出显示,并且其他图像区域可以具有与采集到的图像不同的背景颜色和/或对比度。优选地,执行图像变换,以使得前景图像看起来像已经被常规生物标记特异性染色剂染色的组织样品的典型图像,所述常规生物标记特异性染色剂被适配成用于选择性地染色第二生物标记。因此,可以训练mll以将完整的采集到的图像变换成相应的“被虚拟染色的”输出图像,由此修改了所有图像区域。

例如,采集到的图像可以是复染色组织样品图像,例如,h&e(苏木精和曙红)染色的组织样品图像或苏木精染色的组织样品图像(将所有细胞核复染色成蓝色)。然后,将经训练以检测复染组织图像中的两个第二生物标记(ki67和cd3)的mll应用于采集到的图像,并且生成虚拟染色图像来作为输出图像。虚拟染色图像描绘了图像中被预测包括(多个)第二生物标记(例如ki67生物标记和cd3生物标记)的区域,并且将设置输出图像中相应像素的颜色和强度值,使得所述像素看起来好像它们将代表由cd3特异性染色剂或ki67特异性染色剂生产的信号。另外,还修改了图像中所有其他像素的颜色和强度值,因为输出图像可以代表未被h&e染色剂染色,而是已经被cd3特异性染色剂和ki67特异性染色剂染色的组织样品的图像。由于在输出图像中不存在曙红染色剂,所以所述输出图像的背景区域中的图像像素将不会具有曙红染色的组织的典型颜色。因此,采集到的图像到输出图像的变换至少包括与对应于第二生物标记的像素的变换,但是典型地/优选地,另外还包括对其他像素也进行变换,以使得所述输出图像看起来像已经被染色规程染色的组织的图像,所述染色规程被适配用于对感兴趣的一种或多种第二生物标记染色。

根据实施方案,组织样品是尚未被适配用于选择性地染色第二生物标记的染色剂染色的样品。因此,采集到的图像不包含由选择性地染色第二生物标记的染色剂生成的任何信号。

根据实施方案,采集到的数字图像是组织样品图像,所述组织样品图像的像素强度值与两种或更多种第一生物标记特异性染色剂的量相关,每个第一生物标记特异性染色剂被适配用于选择性地染色所述组织样品中包含的相应的第一生物标记,由此第一生物标记都不是第二生物标记。另外或替代性地,采集到的数字图像是组织样品图像,所述组织样品图像的像素强度值与组织自发荧光信号相关。仍替代性地,采集到的数字图像是由x射线显微镜生成的组织样品的图像。

根据实施方案,mll是已经被训练以(显式地或隐式地)识别被预测包括两种或更多种第二生物标记的组织区域的机器学习逻辑。输出图像突出显示了被预测包括所述两种或更多种第二生物标记中的任何一种的组织区域,由此优先地,例如通过模拟通常使用的或可以被用于选择性地染色所述两种或更多种第二生物标记的染色剂及其相应的颜色来不同地突出显示所述两种或更多种第二生物标记中的每一种。

根据实施方案,输出图像是虚拟染色图像。变换包括设置被预测包括第二生物标记的图像区域的像素强度值,以使得所述强度值光学地模拟第二生物标记特异性染色剂的存在。所述第二生物标记特异性染色剂是被适配用于选择性地染色第二生物标记的染色剂。

根据实施方案,采集到的图像是组织样品的数字图像,所述数字图像的像素强度值与第一生物标记特异性染色剂的量相关。所述第一生物标记特异性染色剂是被适配用于选择性地染色第一生物标记的染色剂。所述第一生物标记选择性地包含在特定细胞类型中。第二生物标记选择性地包含在该细胞类型的多种已知子类型中的一种中。

根据一个实施方案,采集到的图像是描绘了已经被h&e染色剂染色的组织样品的明场显微镜图像。输出图像是模拟(“虚拟”)荧光图像,所述模拟荧光图像突出显示了被预测包括生物标记fap(成纤维细胞激活蛋白α)和/或被预测包括经由panck-抗体偶联荧光团可视化的细胞角蛋白的区域。已经观察到的是,采集到的h&e图像中包含的信息足以训练mll,使得经训练的mll能够将所述采集到的图像变换为正确突出显示包括fap和/或细胞角蛋白的区域的图像。

根据另一个实施方案,采集到的图像是荧光显微镜图像,所述荧光显微镜图像描绘了已经被选择性结合生物标记ki67的第一荧光染色剂和选择性结合生物标记cd8的进一步第一荧光染色剂染色的组织样品。输出图像是模拟(“虚拟”)荧光图像,所述模拟荧光图像突出显示了被预测包括生物标记fap和/或被预测包括经由panck-抗体偶联荧光团可视化的细胞角蛋白的区域。已经观察到的是,突出显示cd8和ki67的采集到的图像中包含的信息足以训练mll,使得经训练的mll能够将所述采集到的图像变换为正确突出显示包括fap和/或细胞角蛋白的区域的图像。

这可能是有利的,因为方法可以允许对细胞类型进行子分类,而无需使用通常被认为是执行子分类所必需的所有生物标记特异性染色剂对样品进行染色。例如,被h&e染色的bf图像允许病理学家识别组织中的t细胞,但是不允许病理学家识别t细胞的子类(例如,杀伤细胞(killercell)、辅助细胞(helpercell)、巨噬细胞等)。为了允许更细粒度的数字图像分析,样品必须另外被生物标记特异性染色剂(例如,与生物标记(如cd4、cd3、cd3和其他蛋白质)选择性结合的染色剂)染色。因此,基于数字病理学中用于细胞分类的现有技术方法,需要执行一种或多种另外的染色程序。这意味着从数字病理学图像中提取更细粒度的信息需要额外的时间和努力。相反,申请人已经观察到,通过在被h&e染色的组织样品图像上施加经训练的mll,可以容易地识别上述细胞类型(杀伤细胞、辅助细胞、巨噬细胞)。

根据进一步实施方案,第二生物标记是已知选择性地包含在多种已知免疫细胞子类型之一中的生物标记。特别地,所述第二生物标记可以是以下之一:cd4(即,其存在指示包括该生物标记的细胞是t辅助细胞的生物标记)或cd8(即,其存在指示包括该生物标记的细胞为细胞毒性t细胞的生物标记)或cd3(用于所有t细胞的标记)或foxp3(即,其存在指示包括该生物标记的细胞是调节性t细胞的生物标记)。基于被h&e染色的采集到的图像,训练mll以识别被预测包括以下第二种生物标记中的任何一种的组织区域:cd4、cd8、cd3、foxp3。

根据仍进一步的实施方案,训练mll以基于被h&e染色的采集到的图像识别被预测包括以下第二种生物标记中的任何一种的组织区域:cd4、cd3和cd8;输出图像突出显示被预计包含cd3生物标记、cd4生物标记或cd8生物标记的任何区域。

根据另一个实施例,基于被h&e染色的采集到的图像来训练mll以识别被预测包括fap生物标记的组织区域和被预测包括一种或多种肿瘤特异性细胞角蛋白的组织区域;输出图像突出显示被预测包括所述fap生物标记的区域(并且因此突出显示选择性表达fap蛋白的基质细胞),并且用一种或多种不同的颜色突出显示被预测包括细胞因子的区域(并且因此突出显示表达所述细胞角蛋白的肿瘤细胞)。

根据实施方案,采集到的图像是组织样品的数字图像,所述数字图像的像素强度值与第一生物标记特异性染色剂的量相关。所述第一生物标记特异性染色剂被适配用于选择性地染色第一生物标记。所述第一生物标记选择性地包含在特定第一细胞类型中。第二生物标记是已知被选择性地包含在该第一细胞类型的多种已知子类型中的一种的生物标记,或者是已知被选择性地包含在不同于所述第一细胞类型的第二细胞类型中的生物标记。

根据另一个实施方案,采集到的图像是未染色的组织样品的荧光图像(即,自发荧光图像),并且输出图像是虚拟生成的被h&e染色的图像,其中,突出显示了被预测包括如fap的生物标记的区域。

根据另一个实施方案,采集到的图像是已经被多种特异性生物标记染色剂(例如cd3、cd8、cd4、pan-ck抗体标记的细胞角蛋白、ki67和/或dapi)染色的组织样品的多谱线荧光图像,并且输出图像是虚拟生成的被h&e染色的图像,其中,突出显示了被预测包括如fap或细胞角蛋白(“ck”和“panck”)的生物标记的区域。

根据另一个实施方案,采集到的图像是已经被多种特异性生物标记染色剂(例如,cd3、cd4、ki67、fap、pd1、和/或dapi)染色的组织样品的多谱线荧光图像,并且输出图像是虚拟生成的选择性突出显示cd8标记和/或panck标记和/或foxp3标记和/或cd168标记和/或cd68标记和/或血管标记(例如,cd31)的荧光组织图像。

根据实施方案,采集到的图像是组织样品的数字图像,所述数字图像的像素强度值与非生物标记特异性染色剂的量相关。所述非生物标记特异性染色剂选自:h&e染色剂、苏木精、曙红、genta、马森三色(masson'strichrome)、gomori三色、阿利新蓝(alcianblue)、齐尔-尼尔森染色剂(ziehlneelsenstain)、perls普鲁士、铁蓝、高碘酸希夫(pas)、改良的gms银染色剂、胭脂红、硝酸银、革兰氏染色剂、carcade、指甲花、翼果提取物、月季提取物、甜菜提取物、红玫瑰提取物、三色染色剂、高尔基染色剂、甲苯胺蓝、具有荧光染色剂或酶促染色剂的免疫标记、kluver-barrera染色剂、mallory的ct染色剂以及两种或多种所述染色剂的组合。

所述特征可能是有利的,因为上述染色剂在数字病理学中被广泛使用并且相对便宜。存在用于使用上述染色剂中的一些对组织进行染色的完善染色规程和甚至半自动系统或者全自动系统用于生成被染色的组织样品。

根据实施方案,采集到的图像是组织样品的数字图像,所述数字图像的像素强度值与第一生物标记特异性染色剂的量相关,所述第一生物标记特异性染色剂是荧光染色剂。

例如,所述第一生物标记特异性染色剂可以以下各项中的任意一个:羟基香豆素(hydroxycoumarin)、氨基香豆素(aminocoumarin)、甲氧基香豆素(methoxycoumarin)、nbd、r-藻红蛋白(pe)、pe-cy5缀合物、pe-cy7缀合物、red613、percp、trured、fluorx、荧光素、x-罗丹明、丽丝胺罗丹明b、alexafluor染料、量子点、或任何其他荧光染色剂。

使用已经基于组织样品的图像被训练的mll来识别第二生物标记可以是有利的,因为存在种类繁多的具有不同激发光谱和发射光谱的荧光染色剂,所述组织样品已经被一种或多种其他基于荧光的生物标记特异性染色剂染色。这些荧光染色剂常常可以与任何类型的第一抗体自由组合,以用于选择性地染色某些生物标记,并且因此被广泛用于数字病理学中。存在用于使用上述染色剂中的一些对组织进行染色的完善染色规程和甚至半自动系统或者全自动系统用于生成被染色的组织样品。

使用从已经被非生物标记特异性明场染色剂染色和/或被一种或多种荧光染色剂染色的样品中生成的采集到的图像可能是有利的,因为组织样品和活组织检查的荧光显微镜成像和明场显微镜成像已广泛用在医疗诊断中,例如用于诊断可疑的癌症。因此,组织学切片很可能被这些技术中的一种染色,并且使病理学家能够在经训练的mll的帮助下更高效地识别肿瘤细胞、淋巴细胞、基质细胞和其他类型的细胞,而无需对染色规程(现在可能已经过时的一些染色步骤除外)进行重大修改。

本发明的实施方案可以(例如在药物开发中、在组织样品中不同细胞或隔室的定位和定量中)被用于新药物和医疗技术的研究和开发,以便了解药物作用模式和患者反应。

根据实施方案,方法进一步包括通过图像采集系统采集采集到的图像。图像采集系统可以是例如明场显微镜、荧光显微镜或x射线显微镜。明场显微镜可以被用于例如获取被一种或多种明场染色剂染色的组织样品(例如,被h&e染色的样品)的图像。荧光显微镜可以特别地被用于采集已经被一种或多种生物标记特异性染色剂染色的组织样品的图像,或者用于生成自发荧光图像,或者用于生成非生物标记特异性荧光染色剂图像,所述生物标记特异性染色剂由例如与荧光团直接或间接偶联的抗体组成。

x射线显微镜,特别是透射软x射线显微镜,也可以用于采集组织样品的数字图像。例如,组织的薄切片可以嵌入到包埋介质(例如,乙二醇甲基丙烯酸酯聚合物)中,并且可以以各种辐射剂量(通常以高达10格雷的剂量)用x射线照射(例如,参见loobwjr等人的“anewsamplepreparationmethodforbiologicalsoftx-raymicroscopy:nitrogen-basedcontrastandradiationtolerancepropertiesofglycolmethacrylate-embeddedandsectionedtissue(一种用于生物软x射线显微镜术的新样品制备方法:乙二醇甲基丙烯酸酯包埋和切片组织的氮基对比度和耐辐射性能)”,2001年10月;204(pt1):69-86)。与使用可见光的显微镜相比,x射线显微镜可以实现更高的光学分辨率。x射线的波长比可见光的波长短得多,因此x射线显微镜的光学分辨率(由衍射引起)的极限远远低于使用可见光的显微镜的衍射极限。通过这种技术采集的图像的对比度主要是基于组织的氮含量。可以通过获取氮边缘附近蛋白质的吸收光谱来校准测量。通过一些经训练的mll可以将塑料包埋的软组织的切片的由x射线显微镜生成的图像变换为被虚拟染色的图像。根据其他实施方案,采集到的x射线图像是“水带(waterband)”中的x射线图像,即,在其中主要对比度来自水分子(而不是氮)的x射线图像,例如参见pfannkuchf.、hoderd.、h.(1984):“possibleapplicationsofx-raymicroscopyinpathology(x射线显微术在病理学中的可能应用)”,schmahlg.、rudolphd.(编辑),x射线显微术,施普林格系列光学科学,第43卷,施普林格、柏林、海德堡,印刷isbn978-3-662-13547-1。

根据一些其他实施方案,采集到的x射线图像是通过波带片x射线显微镜(g.schmahl、d.rudolph、b.niemann、0.christ:x-raymicroscopyofbiologicalspecimenswithazoneplatemicroscope(具有波带片显微镜的生物学样本的x射线显微术)ann.ny.acad.sci.342,368–386(1980))或通过扫描x射线显微术(b.niemann、d.rudolph、g.schmahl:thex-raymicroscopes(哥廷根x射线显微镜),核仪器与方法208,367-371(1983))采集的x射线图像。x射线显微术目前被用于例如观察活细胞和用于观察细胞培养物单分子层,并特别是关于其功能,诸如细胞运动、吞噬作用、胞饮作用、胞饮泡排出、异常情况(例如,病理性吞噬作用抑制、形成病理性粒细胞的溶酶体酶分泌物缺乏等)下的分泌物。

机器学习方法(approach)a(“监督学习”)

在下文中,描述了用于在训练过程中生成mll的第一方法,所述第一方法可以被称为“监督学习”方法。然而,由于“监督的”和“非监督的”的区别有时被认为是易变的或渐进的,因此术语“监督的”和“非监督的”在下文中仅意味着非监督方法比监督学习方法需要较少的训练数据集中的信息。

根据实施方案,方法进一步包括生成经训练的mll。生成包括通过图像采集系统采集多个第一训练图像。每个第一训练图像描绘相应的训练组织样品,并且是以下类型之一:

-训练组织样品的数字图像,所述数字图像的像素强度值与所述训练组织样品的自发荧光信号的强度或x射线感生信号的强度相关并且指示所述训练组织样品的自发荧光信号的强度或x射线感生信号的强度;或者

-训练组织样品的数字图像,所述数字图像的像素强度值与所述训练组织样品中的非生物标记特异性染色剂的强度相关并且指示所述训练组织样品中的非生物标记特异性染色剂的强度;或者

-训练组织样品的数字图像,所述数字图像的像素强度值与第一生物标记特异性染色剂的量的强度相关并且指示第一生物标记特异性染色剂的量的强度,所述第一生物标记特异性染色剂被适配用于选择性地染色包含在所述训练组织样品中的第一生物标记;或者

-训练组织样品的数字图像,其中,一些像素的像素强度值与非生物标记特异性染色剂(例如,h&e或苏木精的强度相关,并且其中,其他像素的像素强度值与一个或多个第一生物标记特异性染色剂(例如,ki67特异性染色剂)的强度相关。

假如第一训练图像的像素强度是其像素强度指示非生物标记特异性染色剂或指示第一生物标记特异性染色剂的图像类型,则mll的生成可以进一步包括洗涤训练组织样品以用于去除非生物标记特异性染色剂或第一生物标记特异性染色剂。

训练图像中描述的训练组织样品中的第一生物标记也可以被称为“经验性训练生物标记”或“观察到的训练生物标记”,因为该生物标记的存在实际上是借助于所述训练组织样品中的第一生物标记特异性染色剂来经验示出的。通过关于训练图像、该“经验训练生物标记”训练mll,所述mll能够预测此“经验训练生物标记”的存在为“第二生物标记/感兴趣的生物标记/mll生物标记”,所述“第二生物标记/感兴趣的生物标记/mll生物标记”在特定输入图像中的存在由经训练的mll预测。

mll的生成进一步包括用第二生物标记特异性染色剂染色训练组织样品。第二生物标记特异性染色剂被适配用于选择性地染色训练组织样品中的第二生物标记。mll的生成进一步包括通过图像采集系统采集多个第二训练图像。每个第二训练图像描绘训练组织图像中的已经被第二生物标记特异性染色剂染色的相应的一个。mll的生成进一步包括将第一训练图像和第二训练图像成对输入到mll的未训练版本中。每对训练图像都描绘相同的训练组织样品,并且彼此成像素对准。mll的产生进一步包括训练mll,以使得所述mll学习显式地或隐式地识别第二训练图像中的区域,所述区域描绘了训练组织样品中的被预测包括第二生物标记的组织区域,由此mll使用描绘相同训练组织样品的第一训练图像中包含的强度信息来进行所述预测。

所述特征可以是有益的,因为将第一训练图像和第二训练图像成对输入到未训练的mll中,由此将每对图像的像素彼此成像素对准以允许生成并且训练mll,所述mll能够将已经以与第一数字训练图像中的样本相同的方式被染色的任何输入图像变换为像被用于生成第二训练图像的样本一样的已经被染色的样本的图像。在训练期间向mll提供了大量的训练信息,因为mll可以为第一训练图像中的每个单独的像素学习“已变换的”图像中相应的像素的外观。由于图像对是成像素对准的,因此人类使用者不必手动注释第二训练图像中的被检测到第二生物标记的每个单独区域。而是,如果在第二训练图像中观察到相应的信号,则该信号可以被认为是可靠的、正确的信号,因为它是在样品已经被第二生物标记特异性染色剂染色之后从相机中获取的测量信号。因此,已经从相同样品中经验采集了两个图像的成对对准,但是在用不同的染色规程处理之后,可以在训练期间向mll提供信息丰富的训练数据集。

在一些实施方案中,第一训练图像是描绘已经被多种生物标记特异性第一染色剂染色的样品的图像,每个第一染色剂被适配用于选择性地染色不同于第二生物标记的第一生物标记。第二训练图像可以是描绘已经被两种或更多种不同的第二染色剂染色的训练组织样品的图像,所述两种或更多种不同的第二染色剂被分别适配用于选择性地结合第二生物标记。

根据实施方案,训练数据集的生成可以包括以下步骤:用一种或多种第一染色剂染色训练组织样品、从已经被(多种)第一染色剂染色的样品中采集一个或多个第一训练图像、洗涤所述训练样品、用被适配用于选择性地染色第二生物标记的一种或多种第二染色剂染色所述训练样品、以及从已经被一种或多种第二生物标记特异性染色剂染色的所述训练样品中采集第二训练图像。在训练期间,描绘相同组织样品的第一训练图像和第二训练图像被用作被馈送到mll的图像对。优选地,在关于例如相机相对于样品的位置、分辨率等的相同或相似条件下获取第一图像和第二图像。这可以确保两个图像的成像素对准将所述图像的描绘样品的相同区域的区域彼此对准。另外或替代性地,执行馈入mll的图像对的自动图像配准或手动图像配准,以确保描绘相同组织区域的像素彼此对准。

因此,在一些示例实施方案中,训练数据集的生成进一步包括在采集第一训练图像之前,用非生物标记特异性染色剂或用第一生物标记特异性染色剂对训练组织样品进行染色。

根据实施方案,mll的训练进一步包括训练mll以学习图像变换例程。图像变换例程被适配用于将每个第一训练图像变换成虚拟染色图像,所述虚拟染色图像与已经针对相同训练组织样品获得的第二训练图像中的一个相同或相似。例如,图像变换例程可以是将被h&e纯染色的样品的图像变换成虚拟染色图像的例程,在所述虚拟染色图像中特定蛋白质(例如fap)被alexafluor488染色。根据另一个实施例,图像变换例程可以是将dapi染色的样品(其中另外第一生物标记cd3和cd8被染色)的图像变换成虚拟染色图像例程,其中,仅foxp3蛋白以对应于alexafluor594的颜色突出显示。因此,通过生成相应的训练数据集并且关于所述训练数据集训练未训练的mll,可以容易地生成大量不同的图像变换例程。

根据实施方案,mll是神经网络。

根据实施方案,所述神经网络是全卷积网络,例如具有u-net架构的网络。

例如,网络可以是全卷积网络,其中输入是fluoro图像或明场图像,并且输出图像是在其中突出显示被预测包括至少一个额外的生物标记的组织区域的图像。

合适的全卷积网络架构的一个实施例是由olafronneberger、philippfischer和thomasbrox在“u-net:convolutionalnetworksforbiomedicalimagesegmentation(u-net:用于生物医学图像分割的卷积网络)”,计算机科学系和bioss生物信号研究中心,德国弗赖堡大学(arxiv:1505.04597v12015年5月18日)描述的“unet”架构。可以经由康奈尔大学图书馆https://arxiv.org/abs/1505.04597下载该文档。

根据实施方案,神经网络是生成对抗网络,例如具有条件gan架构的网络。

合适的条件gan架构的实施例是由phillipisola、朱俊彦、周婷慧、alexeia.efros:“image-to-imagetranslationwithconditionaladversarialnetworks(使用条件对抗网络进行图像到图像转换)”,伯克利ai研究(bair)实验室,加州大学伯克利分校,arxiv:1611.07004v2,2017年11月22日所描述的。可以通过康奈尔大学图书馆https://phillipi.github.io/pix2pix.%20下载该文档。

机器学习方法b(“非监督学习”)

根据替代性实施方案,方法进一步包括生成经训练的mll。mll的生成包括通过图像采集系统采集多个第一训练图像。每个第一训练图像描绘相应的训练组织样品,并且是以下类型之一:

-训练组织样品的数字图像,所述数字图像的像素强度值与所述训练组织样品的自发荧光信号的强度或x射线感生信号的强度相关并且指示所述训练组织样品的自发荧光信号的强度或x射线感生信号的强度;或者

-训练组织样品的数字图像,所述数字图像的像素强度值与所述训练组织样品中的非生物标记特异性染色剂的强度相关并且指示所述训练组织样品中的非生物标记特异性染色剂的强度;或者

-训练组织样品的数字图像,所述数字图像的像素强度值与第一生物标记特异性染色剂的量的强度相关并且指示第一生物标记特异性染色剂的量的强度,所述第一生物标记特异性染色剂被适配用于选择性地染色包含在所述训练组织样品中的第一生物标记;

mll的生成进一步包括使用第二生物标记特异性染色剂染色被用于采集第一训练图像的训练组织样品的未被染色版本或脱染色版本。另外,或替代性地,mll的生成包括使用第二生物标记特异性染色剂染色未被染色的进一步训练组织样品。所述第二生物标记特异性染色剂是被适配用于选择性地对训练组织样品中的第二生物标记染色的染色剂。

mll的生成进一步包括通过图像采集系统采集多个第二训练图像。每个第二训练图像描绘训练组织图像中的已经被第二生物标记特异性染色剂染色的相应的一个。

mll的生成进一步包括将第一训练图像和第二训练图像输入到mll的未训练版本中。描绘相同训练组织样品的第一训练图像和第二训练图像(如果有的话)既未分配也未彼此对准。mll的生成包括训练mll,以使得所述mll学习显式地或隐式地识别第二训练图像中的区域,所述区域描绘了训练组织样品中被预测包括第二生物标记的组织区域。进而,mll使用包含在描绘相同训练组织样品的第一训练图像中的强度信息来预测包括第二生物标记的区域。

所述特征可能是有利的,因为没有将第一训练图像和第二训练图像以描绘相同样品的图像对的形式提供给未训练的mll并且所述图像不需要被成像素地对准以被提供为未训练的mll的输入。因此,与用于机器学习方法“a”的训练数据集的生成相比,训练数据集的生成可能甚至需要更少的手工工作。因此,由于第一训练图像和第二训练图像不必描绘相同组织样品,因此第一图像和第二图像可以描绘不同的组织样品,例如同一患者的不同样品,或者不同患者的样品等。这可以简化训练数据集的生成。此外,可能不必脱染色已经被染色的样品以便允许被第二生物标记特异性染色剂重染色。而是,可以简单地使用描绘已经被一种或多种第二生物标记染色的其他样本的其他图像作为第二训练图像。因此,可以减少用于生成足够大的训练数据集以生成和训练mll所需的时间和努力。

根据实施方案,第一训练图像描绘分别已经被两种或更多种第一染色剂染色的组织样品和/或第二训练图像描绘已经分别被两种或更多种第二染色剂染色的组织样品,如已经针对方法“a”所解释的。

根据实施方案,与在第二训练图像中描绘的进一步训练组织样品相比,在第一训练图像中描绘的训练组织样品源自不同的组织块或不同的患者。

假如第一训练图像的像素强度是其像素强度指示非生物标记特异性染色剂或指示第一生物标记特异性染色剂的图像类型,则训练数据集的生成可以包括洗涤训练组织样品以用于去除非生物标记特异性染色剂或第一生物标记特异性染色剂。训练数据集的生成可以进一步包括在采集第一训练图像之前,用非生物标记特异性染色剂或用第一生物标记特异性染色剂对训练组织样品进行染色。假如第一训练图像的像素强度是其像素强度指示非生物标记特异性染色剂或指示第一生物标记特异性染色剂的图像类型,则洗涤训练组织样品以用于去除非生物标记特异性染色剂或第一生物标记特异性染色剂。因此,可以如用于机器学习方法a所述的对样品进行染色、清洗和重新染色。然而,这里的清洗步骤是可选的,因为也可以使用已经被一种或多种生物标记特异性第二染色剂染色的其他样品的图像作为第二训练图像。

根据实施方案,mll是生成对抗网络(“gan”),特别是循环生成对抗网络(“循环gan”)架构或disco-gan架构。

用于合适的循环gan网络架构的实施例是由朱俊彦、taesungpark、phillipisola和alexeia.efros在“unpairedimage-to-imagetranslationusingcycle-consistentadversarialnetworks(使用循环一致的对抗网络进行不成对的图像到图像变换)”,(2017年11月24日)中所描述的。可以通过康奈尔大学图书馆https://arxiv.org/abs/1703.10593下载该文档。

“discogan架构”是生成对抗网络的被适配用于学习发现不同域(对象类型)之间的关系的架构。用于合适的disco-gan网络架构的实施例是由taeksookim、moonsucha、hyunsookim、jungkwonlee、jiwonkim:“learningtodiscovercross-domainrelationswithgenerativeadversarialnetworks(利用生成对抗网络学习发现跨域关系)”,arxiv:1703.05192v2,2017年5月15日。可以通过康奈尔大学图书馆https://arxiv.org/abs/1703.05192下载该文档。

根据实施方案,mll的训练进一步包括训练mll以学习图像变换例程。图像变换例程被适配用于将每个第一训练图像变换成虚拟染色图像,所述虚拟染色图像与已经针对相同训练组织样品获得的第二训练图像中的一个相同或相似。

根据实施方案,经训练的mll被适配用于执行图像到图像的转换。图像到图像的转换是图像处理操作,在所述图像处理操作中将输入图像(例如,一个或多个第一训练图像)变换为输出图像(例如,一个或多个第二训练图像)。变换是通过已经关于对准图像的或未对准图像的训练集进行训练的mll来执行的。

假如训练数据集不包含成对图像,则mll会在没有成对实施例的情况下学习将图像从源域x变换为目标域y。经训练的mll将被适配用于执行非成对图像到图像变换。在训练数据集中没有成对的图像的情况下,映射(或图像变换)g:x→y被学习,以使得来自g(x)的图像的分布与目标域的采集到的图像y的分布难以区分。换句话说,在学习过程期间,mll学习计算地生成(“模拟”)输出图像g(x),以使得模拟图像g(x)与目标域的采集到的图像y之间的像素强度分布之差被最小化。源域的图像x也可以被称为“第一训练图像”,并且目标域的采集到的图像y也可以被称为“第二训练图像”。因为在没有成对的图像对准的情况下该映射被高度约束,所以实施方案将这种映射的学习与逆变换(或“逆映射”)f:y→x的学习耦合并且引入循环一致性损失以强制执行f(g(x))≈x(反之亦然)。

根据其mll包括循环gan网络架构的一些实施方案,所述循环gan包括四个功能单元(“块”):两个“生成器”gf、gg和两个“鉴别器”df/dg。生成器gg实现并且“学习”适合于生成上述输出图像g(x)的图像实施变换函数g。生成器gf实现并且“学习”逆变换f:y→x从目标域的图像到源域的图像。鉴别器df实现并且“学习”以确定图像是由生成器gg生成的还是目标域的采集到的“真实”图像。鉴别器dg实现并且“学习”以确定图像是由逆生成器fg生成的还是源域的采集到的“真实”图像。所有这四个块都参与学习过程,并且评估和使用损失来执行学习。

优化“生成器”以生成“虚拟染色图像”,所述虚拟染色图像被鉴别器识别为相应域中的“采集到的”图像。

例如,如果训练mll以将如图像202、图像204描绘的那样的被h&e染色的组织样品的采集到的明场图像变换为如在图像206、图像208中描绘的那样已经被苏木精(h)、ki67和cd3虚拟染色的组织样品图像,则生成器gg学习生成“虚拟染色”图像,所述“虚拟染色”图像突出显示包括苏木精以及包括分别已经被生物标记特异性染色剂染色的生物标记ki67和cd3的组织区域。实际上已经被h&e染色的组织样品的采集到的h&e图像代表了源域的图像。实际上已经被h以及被ki67和cd3特异性染色剂染色的组织样品的采集到的图像代表目标域的图像。

在训练中,gf根据采集到的h&ki67和cd3染色的样品的图像学习生成代表源域的图像。df学习确定由生成器gf提供的图像是采集到的h&e组织图像还是模拟的h&e组织图像。dg学习确定由生成器gg提供的图像是h&ki67和cd3染色的组织样品的采集到的图像还是模拟图像,所述模拟图像描绘了仅被h染色以及被ki67和cd3特异性染色剂虚拟染色的组织样品。

当鉴别器dg、鉴别器df正确地将生成器gg、生成器gf生成的图像识别为“假的”/“模拟的”而不是“采集到的”时,该优化过程可以被实现为使事件数量最小化的过程。学习过程可以包括通过生成器gg将源域的图像变换为目标域,并且通过生成器gf将由gg提供的图像逆变换为源域的图像的多个循环。

例如,在第一个循环中,通过gg将源域图像sdi变换为目标域图像tdi,并且通过gf将tdi逆变换为图像sdi'。

在第二个循环中,通过gg将源域图像sdi'变换为目标域图像tdi',并且通过gf将tdi’逆变换为图像sdi”。在第三个循环中,通过gg将源域图像sdi”变换为目标域的图像tdi”,并且通过gf将tdi”逆变换为图像sdi”'。依此类推,直到达到终判准则。

在生成器的每个图像变换操作之后,确定对抗损失,并且在每个循环结束时确定循环损失。生成器gg、生成器gf中的每一个的损失(“生成器损失”)由鉴别器检查由相应生成器生成的图像的“对抗损失”(或“鉴别器损失”)和“循环损失”的加权和组成:生成器_损失=对抗_损失+w*循环_损失;其中w是整数。优选地,w是10或更大的整数,以指示循环正确性的重要性,所述循环正确性意味着在变换期间图像中的信息不会丢失。对抗损失是鉴别器造成的平均误差,由此误差将真实采集到的图像分类为假的/模拟的,或者将假图像分类为真实采集到的图像。“对抗损失”是对生成器“伪造”(虚拟生成/模拟)图像失败以使得相关联的鉴别器无法准确地预测该图像是在相应域中被经验采集的还是被模拟的度量。“循环损失”是在一个循环内由生成器生成的图像的差异(不相似)的量度,例如代表图像sdi与图像sdi'的不相似度或代表图像sdi'与和图像sdi”的不相似性的量度,等等。mll的训练包括最小化生成器gg、生成器gf两者的生成器损失。

使用基于循环gan的mll可以具有以下优势:mll可以学习在域之间进行转换而无需成对的输入输出实施例。假如在第一训练图像(或第一类别数字病理学图像)与第二训练图像(或第二类别数字病理学图像)之间存在某种潜在关系:例如,存在相同底层场景的两个不同的渲染-并且寻求学习这种关系。尽管训练缺乏采用成对训练图像形式的监督,但是mll可以以以下组级别运用监督:域x中的第一组图像(第一项训练图像或第一类别数字病理学图像)和域y中的不同的组(第二训练图像或第二类别数字病理学图像)。在训练期间,mll学习映射g:x→y,使得输出x∈x与由对手训练以从y中分类出∈的图像y∈y难以区分。从理论上讲,这个目标可以引起的输出分布与经验分布p数据(y)匹配(通常,这要求g是随机的)。进而,最优g将域x变换为与y分布相同的域然而,这种变换并不能保证单个输入x和单个输出y以有意义的方式配对-因为有将引起上的相同分布的无限多个映射g。而且,在实践中,已经发现孤立地优化对抗目标是困难的:标准程序通常会导致众所周知的模式崩溃问题,其中所有输入图像都映射到相同的输出图像,并且优化无法取得进展。

因此,根据本发明的实施方案的mll的训练包括运用转换应该是“循环一致的”的性质,在某种意义上,如果特定输入图像(例如,被h&e染色的图像)被转换成例如看起来像描绘被苏木精染色的样品的第二图像,其中,cd8生物标记和ki67生物标记选择性地被相应的生物标记特异性染色剂染色,并且然后如果将该第二图像转换回“虚拟”被h&e染色的第一图像,则该“虚拟”第一图像被预期与原始第一图像相同或非常相似。在数学上,给定转换器g:x→y和另一个转换器f:y→x,然后g和f应当彼此相反,并且两个映射都应该是双射。通过在mll的训练期间同时训练映射g和f两者并且添加激励f(g(x))≈x和g(f(y))≈y的循环一致性损失来应用此结构假设。将这种损失与域x和域y上的对抗性损失相结合,可以产生用于不成对的图像到图像变换的完整的目标。

在进一步方面,本发明涉及图像分析系统,所述图像分析系统包括一个或多个处理器和易失性或非易失性存储介质。存储介质包括采集到的图像。所述采集到的图像是已经由图像采集系统采集的图像。所述采集到的图像是以下类型之一:

-组织样品的数字图像,所述数字图像的像素强度值与所述组织样品的自发荧光信号的强度或x射线感生信号的强度相关;或者

-组织样品的数字图像,所述数字图像的像素强度值与非生物标记特异性染色剂的量相关;或者

-组织样品的数字图像,所述数字图像的像素强度值与第一生物标记特异性染色剂的量相关,所述第一生物标记特异性染色剂被适配用于选择性地染色所述组织样品中包含的第一生物标记。

存储介质进一步包括经训练的机器学习逻辑(mll)mll,其中,已经训练了mll以显式地或隐式地识别被预测包括第二生物标记的组织区域。根据优选实施方案,已经训练了mll以显式地或隐式地识别与所接收的采集到的图像(例如,自发荧光图像、具有x射线感生信号的图像、具有非生物标记特异性染色剂的信号的图像或者具有分别指示特定第一生物标的一种或多种第一生物标记特异性染色剂的信号的图像,由此第一生物标记都不是第二生物标记)类型相同的(多个)采集到的图像中的被预测包括第二生物标记的组织区域。

存储介质进一步包括程序逻辑,所述程序逻辑由一个或多个处理器执行,并且被配置用于将所接收的采集到的图像输入到mll中。

mll被配置用于将采集到的图像自动变换成输出图像。所述输出图像突出显示了被预测包括第二生物标记的组织区域。

在进一步方面,本发明涉及图像到图像转换方法。方法包括:通过图像分析系统接收第一类别数字病理学图像;以及通过经训练的机器学习逻辑(mll)将所述第一类别数字病理学图像自动变换为第二类别数字病理学图像,所述经训练的机器学习逻辑是经训练的gan网络。gan网络是循环生成对抗网络或具有条件gan架构的网络或具有disco-gan架构的网络。

根据图像到图像转换方法的实施方案,第一类别数字病理学图像是突出显示组织样品的第一区域的采集到的图像,其中,所述第一区域是自发荧光区域、发射x射线区域或x射线感生信号区域、被非生物标记特异性第一染色剂染色的区域或者包括一种或多种特异性染色的第一生物标记的区域。第二类别数字病理学图像是虚拟染色图像。所述虚拟染色图像突出显示了组织样品的第二区域,其中,所述第二区域是组织样品中的被预测包括第二生物标记的区域。

根据一些实施方案,虚拟染色图像突出显示了组织样品中的被预测包括第二生物标记的区域,并且另外突出显示了已经被预测包括特定类型的分子(例如,核酸、脂质、蛋白质、或者酸性分子或碱性分子)的组织区域,进而模拟一些通用染色剂(诸如选择性结合至细胞核的苏木精或者选择性结合至嗜酸性结构(诸如胞内蛋白、线粒体、光滑型内质网、胶原蛋白、角蛋白等)的曙红)。

根据一些其他实施方案,虚拟染色图像不突出显示组织样品中的被预测包括第二生物标记的第二区域,而是突出显示已经被预测包含特定类型的分子的组织区域。如本文所使用的“组织样品”是可以由本发明的方法分析的细胞的3d组件。3d组件可以是离体细胞块的组件(例如,组织样品)或者体内样本(特别是在x射线图像或x射线感生图像的情况下)。例如,样品可以由从患者、动物、真菌或植物中收集的组织中制备。替代性地,样品可以是含有诸如骨髓样品的生物样品的细胞,或者是由多个细胞制造的细胞系或细胞块。样品可以是显微镜载玻片上的全组织切片或tma切片。特别地在使用组织微阵列(tma)时,可以将样品布置为载玻片上的“斑点”或“组织斑点”,每个组织斑点对应于一个特定样本。用于制备固定组织样品的载玻片的这种方法是本领域众所周知的,并且适用于本发明。

可以使用任何试剂或生物标记示踪剂(诸如染料或染色剂、直接与特异性生物标记或与各种类型的细胞或细胞隔室反应的组织化学物或免疫组织化学物)对组织样品进行染色。并非所有的染色剂/试剂都兼容。因此,应当充分考虑所采用的染色剂的类型及其施加的顺序,但是所述类型和所述顺序可以由本领域技术人员容易地确定。这类组织化学物可以是通过透射显微镜可检测的生色团或可以通过荧光显微镜可检测的荧光团。通常,可以将包含细胞的样品与包括至少一种组织化学物的溶液一起温育,所述至少一种组织化学物将与靶标的化学基团直接反应或结合。一些组织化学物必须与媒染剂或金属一起温育,以允许染色。可以将含有细胞的样品与染色感兴趣的成分的至少一种组织化学物和用作复染并且结合所述感兴趣的成分外部区域的组织化学物的混合物一起温育。替代性地,可以在染色中使用多种探针的混合物,并且提供一种识别特定探针位置的方法。用于染色包含样品的细胞的方法是本领域众所周知的。用于x射线显微术兼容染色剂的实施例包括酶过氧化物酶(诸如hrp或apex)、光敏蛋白(诸如minisog)、以及与蛋白质或短肽相关联的光敏染料(诸如reash)。

如本文所使用的“图像分析系统”是被适配用于评估和处理数字图像,特别是组织样品的图像以便协助使用者评估或解释图像和/或以便提取所述图像中隐含的生物医学信息的例如计算机系统的系统。例如,计算机系统可以是标准桌上计算机系统或分布式计算机系统,例如云系统。

如本文所使用的表达“显式识别被预测包括第二生物标记的组织区域”意味着执行识别的算法确定图像中已经被预测包括第二生物标记的像素的位置,并且因此能够以坐标形式输出或实际输出所识别区域的位置。相反,“隐式识别”意味着执行变换的算法可以选择性地修改识别区域中的与不同区域中的像素不同的像素,但是不能输出图像中所述区域的坐标。它仅能够修改采集到的图像中的一些或全部像素,使得生成输出图像,其中,一些区域被突出显示,并且所述突出显示的区域表示被预测包括第二生物标记的区域。

“x射线显微镜”是被适配用于使用软x射线带中的电磁辐射以产生目标的放大图像的显微镜。由于x射线会穿透大多数目标,因此无需专门为x射线显微镜观察做准备。与可见光不同,x射线不易反射或折射,并且对人眼是不可见的。因此,x射线显微镜会曝光胶卷或者使用电荷耦合器件(ccd)检测器来检测穿过样本的x射线。这是一种对比成像技术,所述对比成像技术利用了水窗口区域中碳原子(组成活细胞的主要元素)和氧原子(水的主要元素)吸收软x射线(波长:2.34nm至4.4nm,能量:280ev至530ev)的差异。

如本文所使用的术语“数字病理学”是被设计用于对根据数字载玻片生成的数据进行信息管理的it环境。因此,“数字病理学图像”是数字图像,通常是描绘组织样品的图像,所述数字图像是在数字病理学it环境中生成、分析和/或修改的。因此,术语“数字病理学”应作广义解释。它不限于疾病的诊断和治疗,而是还可以包含例如出于研究目的而从健康生物体中提取的组织样品的数字图像。随着全载玻片成像技术的出现,数字病理学领域已经得到了迅猛发展,并且目前被认为是诊断医学最有希望的途径之一,以便实现更好、更快、更便宜的癌症及其他重要疾病的诊断、预后和预测。数字病理学还广泛用于药物研究和开发中,因为它可以帮助揭示药物的作用模式和在肿瘤微环境中所见的效应。由图像采集系统采集的或由计算装置虚拟生成的数字图像可以是例如单通道图像或多通道图像。在一些实施方案中,数字图像是rgb图像。

如本文所使用的“虚拟染色图像”或“被虚拟染色的图像”是数字图像,所述数字图像看起来像描绘组织样品(例如,已经根据特定染色规程染色,但是没有被图像采集系统采集的组织样品)的图像。相反,已经从零开始或者基于采集到的组织样品图像计算地生成了“被虚拟染色的图像”。

如本文所使用的“训练组织样品”是从其中采集一个或多个训练图像的组织样品,由此所述训练图像被用于提供被用于训练mll的训练数据集。根据情况的特殊性,在使用经训练的mll来将采集到的图像变换为输出图像之前,已经对mll训练了几个小时、几天、几周甚至一个月。因此,训练组织样品常常但非必需地源自另一个源,例如源自相同物种的另一个生物体,如采集到的图像中描绘的组织样品。

如本文所使用的“训练图像”是从训练组织样品中采集的图像。训练图像被用于训练mll的未训练版本,以生成经训练的mll,所述经训练的mll被适配用于将采集到的组织图像变换为突出显示特异性生物标记的输出图像,尽管所述组织样品并未被适于选择性染色所述生物标记的染色剂所染色。

“虚拟染色图像”是没有被图像采集系统捕获的图像,而是从头计算生成的或通过将采集到的组织样品图像变换成新图像而生成的图像。所述新图像看起来像已经根据特定规程染色的组织样品的图像,尽管在所述采集到的图像中描绘的组织标本(如果有的话)没有根据所述规程进行染色,虚拟染色图像源自所述采集到的图像。因此,像素强度和颜色值“模拟”了所述特定染色规程的效果。

如本文所使用的图像“突出显示”被预测包括第二生物标记的组织区域意味着设置所述区域内的像素的强度值和/或颜色,使得所述区域是所述图像内最亮或最暗的区域,或者是具有特定的颜色的区域。优选地,设置所述区域中和被预测不包括第二生物标记的其他图像区域中的像素强度值和/或颜色值,使得输出图像看起来像已经根据已知组织染色规程被一种或多种已知第二染色剂染色的真实组织样品的图像,每个第二染色剂被适配用于选择性地染色所述一种或多种生物标记中的相应的一种生物标记。如词语“染色”所意味的,由“真实”第二染色剂生成的颜色和强度值将适用于引起人们的注意,因为用第二种染色剂染色的区域将会明显更暗或明显更亮,或者将具有与不包括第二生物标记的其他组织区域明显不同的颜色。因此,第二染色剂被适配用于染色和“突出显示”包括特定第二生物标记的组织区域,并且训练mll以生成输出图像,所述输出图像包括图像区域中第二染色剂的模拟染色效果,所述图像区域描绘被预测包括所述第二生物标记的组织样品区域。输出图像中第二染色剂的这种模拟染色效果在本文中被称为所述输出图像的“突出显示”区域。

如本文所使用的术语“强度信息”或“像素强度”是在数字图像的像素上捕获的或由其表示的电磁辐射(“光”)的量的量度。如本文所使用的术语“强度信息”可以包括附加的相关信息,例如特定颜色通道的强度。mll可以使用该信息来计算地提取诸如包含在数字图像中的梯度或纹理之类的衍生信息,并且可以在训练期间和/或在经训练的mll的图像变换期间,从所述数字图像中隐式地或显式地提取所述衍生信息。例如,表达“数字图像的像素强度值与一种或多种特定染色剂的强度相关”可以意味着包括颜色信息的强度信息允许mll,并且还可以允许使用者识别组织样品中的已经被所述两种或多种染色剂中的特定一种染色剂染色的区域。例如,描绘样品的被苏木精染色的区域的像素在蓝色通道中可以具有高像素强度,描绘样品的被fastred染色的区域的像素在红色通道中可以具有高像素强度。

如本文所使用的“生成对抗网络”(gan)是在机器学习、特别是在非监督机器学习中使用的一种神经网络架构类型。gan是在零和游戏框架中相互竞争的两个神经网络的系统。gan是由iangoodfellow等人在2014年(goodfellow,ian;pouget-abadie,jean;mirza,mehdi;xu,bing;warde-farley,david;ozair,sherjil;courville,aaron;bengio,joshua:“generativeadversarialnetworks(生成对抗网络)”,a.rxiv:1406.2661https://arxiv.org/abs/1406.2661)中引入的。本发明的实施方案使用gan类型的mll用于根据采集到的图像计算地生成被虚拟染色的输出图像,由此所述虚拟染色图像通常看起来对人类观察者是真实的。

如本文所使用的“环状gan”是满足循环一致性的gan。周期一致性是一个标准,所述标准要求基于第一变换逻辑的输入数据到输出数据的变换可以由被适配用于将所述输出数据变换回所述输入数据的向后变换逻辑来逆转,使得由后向变换生成的输入数据基本上与原始输入数据相同或非常相似。输入数据可以是图像数据。循环gan需要前后一致性,并且使用循环一致性损失作为使用传递性来监督循环gan中包含的神经网络训练的方式。实现为循环gan的mll被适配用于学习甚至在没有输入训练图像和输出训练图像的清晰配对的情况下将输入图像变换成输出图像。将两个不同类别的训练图像(即,一组输入图像和一组输出图像)提供给未训练的mll就足够了。在训练期间,循环gan在没有如上面已经解释的成对实施例的情况下学习将图像从源域x变换为目标域y。经训练的mll将被适配用于执行非成对图像到图像变换。在训练数据集中没有成对图像的情况下,学习映射g:x→y以使得来自g(x)的图像的分布与使用对抗损失的y的分布难以区分。源域的图像x也可以被称为“第一训练图像”,并且目标域的图像y也可以被称为“第二训练图像”。因为在没有成对图像对准的情况下此映射受到高度约束,所以循环gan将此映射的学习与逆映射f:y→x的学习耦合并且引入循环一致性损失以强制执行f(g(x))≈x(反之亦然)。在训练期间,mll学习映射g:x→y,以使得输出x∈x与由对手训练以从y中分类出∈的图像y∈y难以区分。因此,根据本发明的实施方案的mll的训练包括运用转换应是“循环一致”的性质。

如本文中所使用的“全卷积神经网络”是由卷积层组成的神经网络,而通常在所述网络的末端没有任何完全连接的层或多层感知器(mlp)。全卷积网络是每一层的学习滤波器。甚至网络末端的决策层学习滤波器。全卷积网络试图学习表示并且基于本地空间输入做出决策。

根据实施方案,全卷积网络是仅具有以下形式的层的卷积网络:所述层的激活函数在满足以下特性的特定层中的位置(i,j)处生成输出数据矢量yij:

yij=fks({xsi+δi,sj+δj}0≤δi,δj≤k)

其中,xij是特定层中位置(i;j)处的数据矢量,并且yij是下面层中所述位置处的数据矢量,其中,yij是由网络的激活函数产生成的输出,其中k被称为内核大小、s为步幅(stride)因子或二次采样因子、以及fks确定层类型:用于卷积或平均池化的矩阵乘法、用于最大池化的空间最大值、或者用于激活函数的元素式的非线性,对于其他类型的层以此类推。该函数形式在组成上得以维护,同时内核大小和步幅遵循变换规则:

虽然通用深层网络计算通用非线性函数,但是仅具有这种形式的层的网络计算非线性滤波器,我们称其为深层滤波器或全卷积网络。fcn对任何大小的输入自然操作,并且产生对应的空间尺寸的(可能是重新采样的)输出。有关几个全卷积网络的特征的更详细描述,请参阅jonathanlong、evanshelhamer和trevordarrell:“fullyconvolutionalnetworksforsemanticsegmentation(用于语义分割的全卷积网络)”,cvpr2015。

如本文所使用的“机器学习逻辑(mll)”是程序逻辑,例如,像经训练的神经元网络或支持矢量机或像基于提供的训练数据在训练过程中已经训练并且在训练期间已经学习以执行一些预测和/或数据处理任务之类的一个软件。因此,mll可以是程序代码,所述程序代码至少部分不是由程序员显式地指定的,而是在根据样品输入建立一种或多种显式模型或隐式模型数的据驱动学习过程中被隐式地学习和修改。机器学习可以采用监督学习或非监督学习。有效的机器学习常常很困难,因为很难找到模式并且常常没有可用的足够训练数据。

如本文所使用的术语“生物标记”是可以在生物样品中测量的,作为组织类型、正常或致病过程或对治疗干预的反应的指示器的分子。在一个特定实施方案中,生物标记选自以下各项构成的组:蛋白质、肽、核酸、脂质和碳水化合物。更特别地,生物标记可以是蛋白质。某些标记是特定细胞的特征,而其他标记已经被识别为与特定疾病或状况相关联。

可以用作根据本发明的实施方案的第一生物标记或第二生物标记的已知预后标记的实施例包括诸如例如半乳糖基转移酶ii、神经元特异性烯醇酶、质子atpase-2、以及酸性磷酸酶之类的酶促标记。激素标记或激素受体标记包括人绒毛膜促性腺激素(hcg)、促肾上腺皮质激素、癌胚抗原(cea)、前列腺特异性抗原(psa)、雌激素受体、孕激素受体、雄激素受体、gc1q-r/p33补体受体、il-2受体、p75神经营养因子受体、pth受体、甲状腺激素受体、以及胰岛素受体。其他生物标记可以包括fap蛋白或分化簇(cd)标记,例如d1a、cd1b、cd1c、cd1d、cd1e、cd2、cd3delta、cd3epsilon、cd3gamma、cd4、cd5、cd6、cd7、cd8alpha、cd8beta、cd9、cd10、cd11a、cd11b、cd11c、cdw12、cd13、cd14、cd15、cd15s、cd16a、cd16b等。其他生物标记可以包括淋巴标记,例如α-1-抗胰凝乳蛋白酶、α-1-抗胰蛋白酶、b细胞标记、bcl-2、bcl-6、b淋巴细胞抗原36kd、bm1(骨髓标记)、bm2(骨髓标记)、半乳糖凝集素-3、颗粒酶b、hlai类抗原、hlaii类(dp)抗原、hlaii类(dq)抗原、hlaii类(dr)抗原、人中性粒细胞防御素、免疫球蛋白a、免疫球蛋白d、免疫球蛋白g、免疫球蛋白m、kappa轻链等。其他生物标记可包括肿瘤标记,例如甲胎蛋白、载脂蛋白d、bag-1(rap46蛋白)、ca19-9(sialyllewisa)、ca50(癌相关粘蛋白抗原)、ca125(卵巢癌抗原)、ca242(肿瘤相关粘蛋白抗原)、嗜铬粒蛋白a、簇蛋白(载脂蛋白j)、上皮膜抗原、上皮相关抗原、上皮特异性抗原、表皮生长因子受体、雌激素受体(er)、囊性病液蛋白15、肝细胞特异性抗原、her2、调蛋白、人胃粘蛋白、人乳脂肪球、mage-1、基质金属蛋白酶、酪氨酸酶、酪氨酸酶相关蛋白-1、维林、血管性血友病因子、cd34、cd34、ii类、cd51ab-1、cd63、cd69、chk1、chk2、claspinc-met、cox6c、creb、细胞周期蛋白d1、细胞角蛋白、细胞角蛋白8、dapi、肌间线蛋白、dhp(1-6二苯基-1,3,5-已三烯)等。其他生物标记可以包括与细胞周期相关联的标记,例如细胞凋亡蛋白酶激活因子-1、bcl-w、bcl-x、溴脱氧尿苷、cak(cdk激活激酶)、细胞凋亡易感蛋白(cas)、半胱天冬酶2等。其他生物标记可以包括神经组织和肿瘤标记,例如αb晶状体蛋白、α-互联蛋白、α突触核蛋白、直链淀粉样前体蛋白、β直链淀粉样蛋白、钙结合蛋白、胆碱酰基转移酶、兴奋性氨基酸转运蛋白1、gap43、神经胶质原纤维蛋白、谷氨酸受体2、髓磷脂碱性蛋白、神经生长因子受体(gp75)、神经母细胞瘤标记等。其他细胞标记包括着丝粒蛋白f(cenp-f)、巨蛋白、外皮蛋白、层粘连蛋白a&c[xb10]、lap-70、粘蛋白、核孔复合蛋白、p180层状体蛋白、ran、r、组织蛋白酶d、ps2蛋白、her2-neu、p53、s100、上皮标记抗原(ema)、tdt、mb2、mb3、pcna和ki67。

根据本发明的实施方案,“生物标记特异性染色剂”是对特定生物标记具有特异性亲和力的染色剂。例如,生物标记特异性染色剂可以是组织学和显微化学中通常(例如,通过将诸如抗体之类的染色剂偶联至特异性检测系统)用于识别特定生物标记的染色剂。相反,“非生物标记特异性染色剂”可以是例如对具有特定范围内的特定物理参数或化学参数(例如具有特定极性或ph值)的物质具有特定亲和力的染色剂。例如,曙红是一种酸性染料:它带负电,并且将基本(或嗜酸性)结构染成红色或粉红色。

附图说明

在本发明的以下实施方案中,仅通过举例的方式,参照附图更详细地解释,其中:

图1描绘了根据本发明的实施方案的方法的流程图;

图2描绘了多对采集到的输入图像和从其中生成的虚拟染色图像;

图3描绘了根据本发明的实施方案的图像分析系统的框图。

图1描绘了根据本发明的实施方案的识别组织样品中的生物标记的方法100的流程图。感兴趣的生物标记在下面也被称为“第二生物标记”。为了简单起见,本文描述的大多数实施方案仅提及单个第二生物标记,但是本发明可以同样地被用于生成和使用mll,所述mll被适配用于识别组织样品中包括两种或多种不同的感兴趣生物标记的区域。

在第一步骤102中,在图像分析系统中,接收组织样品的采集到的图像。例如,图像分析系统可以是如图3中所描绘的系统300。在下文中,还将参考图3的元素。

组织样品324可以是来自任何组织和任何生物体的组织样品。特别地,组织样品可以是源自人类或非人类动物的活组织检查的薄组织切片;所述组织样品可以是石蜡包埋的细胞块等切片。可以经由网络接口(例如,经由因特网或内联网)从云存储服务器或任何其他源接收图像。还可以从一种存储介质中读取图像,或者可以从图像采集系统320直接接收图像,所述图像采集系统可以可选地耦接到图像分析系统300。

所接收的采集到的图像中描绘的组织样品可以是例如所述组织样品的数字图像,所述数字图像的像素强度值与所述组织样品的自发荧光信号的强度或x射线感生信号的强度相关。在这种情况下,组织样品可以是完全未被染色的样品,或者可以被非生物标记特异性染色剂染色。所接收的采集到的图像中描绘的组织样品还可以被一种或多种第一生物标记特异性染色剂染色,所述一种或多种第一生物标记特异性染色剂选择性地染色第一生物标记,而不染色第二生物标记,所述第二生物标记的存在和定位应不是凭经验而是通过计算(“虚拟染色”)来确定。无论采集到的图像中描绘的组织样品是否被染色,都在组织的自发荧光信号是由图像采集系统捕获的最突出信号的条件下采集图像。因此,采集到的图像可以示出自发荧光信号和一些染色信号的混合,但是据此假设最突出的信号源自自发荧光。组织样品的自发荧光图像是由荧光显微镜捕获的图像的实施例。然而,自发荧光图像不是可以用于本发明的实施方案的采集到的图像的唯一可能类型。

例如,所接收的采集到的图像可以是x射线显微镜的图像,并且采集到的图像的像素强度可以对应于由x射线直接或间接感生的信号。例如,根据所使用的x射线显微镜的特定类型,由采集到的图像捕获的信号可能对应于散射的x射线或透射的x射线,或者可能对应于已经由x射线与样品中分子的相互作用所感生的荧光信号。再次,组织样品可以是未被染色的样品或已经被一种或多种染色剂染色(但是没有被适配用于结合至感兴趣的第二生物标记的生物标记特异性染色剂染色)的样品。

仍替代性地,在采集到的图像中描绘的组织样品可以是所述组织样品的数字图像,所述数字图像的像素强度值与非生物标记特异性染色剂(例如,h&e染色剂、giemsa染色剂等)的量相关。

仍替代性地,在采集到的图像中描绘的组织样品可以是已经被一种或多种第一生物标记特异性染色剂染色的组织样品。例如,组织样品可以已经被选择性结合cd3生物标记的第一荧光探针和选择性结合cd8生物标记的第一荧光探针染色。可选地,组织样品可以已经被如h&e的背景染色剂染色。然而,如果是按照惯例模拟生物标记foxp3染色的方法的任务,则组织样品尚未被任何被适配用于选择性结合感兴趣的生物标记的染色剂染色,此处为foxp3。

接下来在步骤104中,方法包括提供经训练的机器学习逻辑-mll308。mll可以是例如已经关于多个训练图像被训练以识别被预测包括第二生物标记(例如,foxp3)的组织区域的神经网络。

接下来在步骤106中,将所接收的采集到的图像输入到mll。尽管在本发明的各种实施方案中可以使用许多不同类型的采集到的图像,但是重要的是所使用的采集到的图像的类型与在mll的训练阶段期间使用的图像类型相同或非常相似。例如,如果采集到的图像是自发荧光图像,则要求也已经关于组织样品的自发荧光图像而不是x射线图像训练了mll。并且,如果所接收的采集到的图像描绘了已经被三种标记特异性第一染色剂a、b和c染色的组织样品,则要求对也关于已经被标记特异性第一染色剂a、b、c而不是d或e染色的组织样品的图像训练了mll。

接下来在步骤108中,mll将采集到的图像自动变换成输出图像。所述输出图像突出显示了被预测包括第二生物标记的组织区域。输出图像可以在例如lcd显示器的显示器304上显示给使用者,或者可以打印出通过任何其他方式提供给使用者的所有图像以用于进一步分析。

图2a描绘了采集到的明场显微镜输入图像202,所述输入图像描绘了已经被h&e染色剂染色的人肝组织样品,并且描绘了在图像变换操作中已经通过mll根据采集到的图像生成的对应的输出图像206。

在被h&e染色的组织样品图像中,细胞核染成蓝色/紫色、嗜碱性粒细胞被染成紫红色、细胞质被染成红色、肌细胞(如果有的话)被染成深红色、红细胞(如果有的话)被染成樱桃红色、胶原蛋白和线粒体被染成淡粉红色。

输出图像206是看起来与已经被苏木精(h)、被包括dab的ki67特异性棕色染色剂以及被包括fastred的cd3特异性红色染色剂染色的组织样品的明场图像相同或令人困惑地相似的虚拟染色图像。如通过图像202和图像206的比较可以推断的,与采集到的图像相比,在虚拟染色图像中不同的区域被(通过特别是深颜色)突出显示。这是因为在虚拟染色图像中,被预测包括第二生物标记ki67的组织区域被突出显示为棕色,并且被预测包括第二生物标记cd3的组织区域被突出显示为红色。然而,不仅图像的生物标记特定区域在图像变换期间改变了它们的强度:而且对应于未被预测包括第二生物标记的组织区域的背景像素的像素强度在变换过程中也已经改变并且与在采集到的图像202中相比,在输出图像206中已经变得明显更亮了。因此,尽管输入图像以及输出图像以蓝色突出显示了真实的或预测的含苏木精的细胞核区域,但是该苏木精蓝的亮度在两个图像中都不同。

图2b描绘了进一步采集到的输入图像204,所述输入图像描绘了已经被h&e染色剂染色的进一步人类肝脏组织样品,并且描绘了在图像变换操作中已经通过mll根据采集到的图像生成的对应的输出图像208。应当注意的是,虚拟染色图像206、虚拟染色图像208两者都被提供给病理学家,所述病理学家不能识别出输出图像206、输出图像208不是由图像采集系统采集的,而是通过计算生成的。

图2c描绘了采集到的输入图像210,所述输入图像描绘了已经被h&e染色剂染色的多个人肝脏组织样品,并且描绘了在图像变换操作中已经通过mll根据采集到的图像210生成的对应的输出图像212。输出图像看起来像(“模拟”)已经被h、被fap特异性染色剂(紫色)以及被与panck抗体结合的其他染色(黄色)染色的多个人肝组织样品,其中,panck抗体是被适配用于选择性结合人表皮细胞角蛋白的抗体。如可以源自图212的,mll能够基于输入图像210中的人眼不可见的图像特征,预测采集到的图像210中描绘的一些组织样品示出了强烈的细胞角蛋白表达,而其他组织样品没有。如在图像212中所描绘的,具有高细胞角蛋白表达的那些组织样品和组织区域被虚拟染色成特定颜色(例如,黄色),所述特定颜色在训练mll期间被用于染色感兴趣的生物标记。

图2d描绘了是图2c的输入图像210的(缩放)子区域的采集到的输入图像218,并且描绘了是图2c的输出图像212的(缩放)子区域的输出图像216。

图2e描绘了事实上被苏木精(h)和被fap特异性紫色染色剂以及被与panck抗体结合的黄色染色剂染色的组织切片的采集到的明场图像218。该组织切片源自从其中采集h&e图像210的相同组织样品。图像220是采集到的图像218的(缩放)子区域。因此,将采集到的图像218与被虚拟染色的图像212进行比较以及将缩放的采集到的图像220与缩放的被虚拟染色的图像216进行比较揭示了被虚拟染色的图像与事实上被相应染色剂染色的组织样品的图像难以区分。

fap蛋白被标记有ventana的发现紫色kit(discoverypurplekitofventana)的fap特异性抗体染色。细胞角蛋白被标记有ventana的d发现黄色kit(discoveryyellowkitofventana)的panck抗体染色。其他染色剂同样可以被用于染色感兴趣的生物标记以产生训练图像。

图2f描绘了采集到的明场显微镜输入图像222,所述输入图像描绘了已经被苏木精和被与pan-ck抗体偶联的黄色染色剂以及被与fap特异性抗体结合的紫色染色剂染色的人肝脏组织样品。fap区域显示为紫色线,被苏木精染色的细胞核显示为蓝色,以及被panck染色的区域显示为组织基质细胞的淡黄色环境。

图2g描绘了由mll根据采集到的图像产生的被虚拟染色的图像224,由此所述采集到的图像描绘了已经被包括dab的ki67特异性棕色染色剂和被包括fastred的cd8特异性红色染色剂(未示出)染色的人肝脏样品。被虚拟染色的图像244看起来高度相似于事实上已经被苏木精和被fap特异性紫色染色剂以及被与panck抗体结合的黄色染色剂染色的组织样品的明场图像。

图3描绘了根据本发明的实施方案的图像分析系统300的框图。

图像分析系统300包括一个或多个处理器302和易失性或非易失性存储介质306。例如,存储介质306可以是硬盘驱动器,例如电磁驱动器或闪存驱动器。它可以是基于磁性、半导体或光学数据的存储设备。存储介质可以是仅临时包括数据的易失性介质,例如主存储器。

存储介质包括一个或多个采集到的图像202、204、316。采集到的图像是已经由图像采集系统采集的图像。采集到的图像可能已经被计算地修改,例如用于改善对比度或用于消除一些伪影,但并不是完全由计算机生成/仿真的,而是由图像采集操作生成的。因此,采集到的图像是“经验图像”,而通过图像变换处理生成的输出图像318是基本上基于计算的(“虚拟”)图像。

在一些示例实施方案中,图像分析系统耦接至图像采集系统320(例如,明场显微镜、荧光显微镜或x射线显微镜),并且可以直接从图像采集系统接收采集到的图像。替代性地,可以经由网络接收,或者可以从存储介质306中或从另一个存储介质(例如,网络驱动器或云存储)中读取采集到的图像。如已经针对上述实施方案所解释的,采集到的图像可以是多种不同图像类型中的一种,例如组织样品的自发荧光图像,或者由x射线显微镜或由明场显微镜生成的组织样品图像。在采集到的图像中描绘的组织样品可以是未被染色的,或者可以被一种或多种非生物标记特异性染色剂染色,或者可以被一种或多种第一生物标记特异性染色剂染色。在任何情况下,在所接收的采集到的图像中描绘的组织样品还没有被生物标记特异性染色剂染色,所述生物标记特异性染色剂被适配用于选择性地结合一种或多种感兴趣的第二生物标记。

程序逻辑310,例如用java、python、c#或任何其他合适的编程语言编写的一种软件,被适配用于接收采集到的图像316,并且作为输入提供给已经关于图像分析系统300实例化的mll308。已经训练了mll以基于训练图像来识别被预测包括第二生物标记的组织区域,所述训练图像的类型与所接收的采集到的图像的类型相同。在一些实施方案中,图像分析系统的存储介质306包括分别已经关于不同类型(例如,自发荧光、明场、x射线显微镜、非生物标记特异性染色剂和/或第一生物标记特异性染色剂的各种组合)的训练图像训练的多个不同的mll308。因此,可以将许多不同类型的采集到的图像用作用于图像变换和用于生成被虚拟染色的输出图像的基础。

程序逻辑310触发mll以将已经作为输入提供的采集到的图像316自动地变换为输出图像206、输出图像208、输出图像318。输出图像可以具体地是如例如在图2中所描绘的虚拟染色图像206、虚拟染色图像208。所述输出图像突出显示了被预测包括第二生物标记的组织区域。

在一些实施方案中,使用多种不同的第一染色剂来特异性地染色相应数量的第一生物标记,并且用相应的可区分的荧光标记对其进行标记。不同的第一染色剂的色差提供了一种识别特定第一生物标记的位置的方法。在文献中广泛地描述了用于制备荧光团和被适配用于选择性结合特定蛋白的抗体的缀合物的多种规程,并且在此不需要例证。存在超过120000种可商购的被用于研究并且被用于诊断各种疾病的抗体,所述抗体包括例如抗雌激素受体抗体(乳腺癌)、抗孕激素受体抗体(乳腺癌)、抗p53抗体(多种癌症)、抗her-2/neu抗体(多种癌症)、抗egfr抗体(表皮生长因子、多种癌症)、抗组织蛋白酶d抗体(乳腺癌和其他癌症)、抗bcl-2抗体(凋亡细胞)、抗e-钙粘蛋白抗体、以及一些其他抗体。

可以与第一抗体缀合以使得提供第一染色剂或第二染色剂的荧光团包括但不限于以下各项:荧光素、若丹明、德克萨斯红、cy2、cy3、cy5、vector红、elftm(酶标记的荧光)、cy0、cy0.5、cy1、cy1.5、cy3、cy3.5、cy5、cy7、fluorx、钙黄绿素、钙黄绿素am、cryptofluortm、橙色(42kda)、柑桔黄酮(35kda)、金色(31kda)、红色(42kda)、深红色(40kda)、bhmp、bhdmap、br-oregon、荧光黄、alexa染料家族,n-[6-(7-硝基苯-2-乙二酸-1,3-二嗪农-4-yl)-氨基]己酰基](nbd)、bodipytm、二吡咯亚甲基二氟化硼、俄勒冈绿、mitotrackertm红、dioc7(3)、diic18、藻红蛋白、藻胆蛋白bpe(240kda)rpe(240kda)cpc(264kda)apc(104kda)、光谱蓝、光谱水族、光谱绿、光谱金、光谱橙、光谱红、nadh、nadph、fad、红外(ir)染料、循环gdp-核糖(cgdpr)、卡尔科弗卢尔白、丽丝胺、伞形酮、酪氨酸和色氨酸。各种各样的其他荧光探针可以从《fluorescentprobesandresearchproducts(荧光探针和研究产品手册)》第8版ed.(2001)中获得和/或被广泛描述,也可以从molecularprobes,eugene,oreg.以及许多其他制造商处获得。

例如,利用上述普通免疫组织化学技术,使用第一抗体的稀释系列之一将载玻片固定的组织样品染色。使用图像采集系统320对所得的染色样本进行一一成像,以观察可检测信号并且采集采集到的图像316,诸如染色的数字图像。因此,获得的图像然后被本发明的方法用于生成相应的输出图像318,所述输出图像分别突出显示了感兴趣的第二生物标记,之前没有在样品上施加用于所述第二生物标记的生物标记特异性染色剂。采集到的图像和相应的输出图像可以在显示器屏幕304上显示给使用者。

图像采集系统320可以是,例如任何光学图像采集系统或非光学图像采集系统,诸如直立光学显微镜或倒置光学显微镜、扫描共焦显微镜、相机、扫描或隧道电子显微镜、扫描探针显微镜和成像红外探测器等。

在一个实施方案中,成像装置是包括一个或多个照明源328的显微镜系统,所述照明源被配置用于照亮放置在载玻片326上的组织样品324。系统320可以进一步包括被配置用于产生被照亮的目标样品的放大图像的光学器件,以及被配置用于捕获放大图像的数字图像的检测器322,诸如数字相机。使用者可以将组织样品或组织微阵列放置在样品台上。使用者调整所述样品台,以使得第一个感兴趣区域位于视场的中心并且由ccd相机聚焦。应将物镜调整为适当的分辨率。然后,图像采集系统采集整个组织样品的或微阵列的图像,或者采集所述样品的部分(图块)的图像。然后,使用市售软件,计算机可以生成所述整个组织样品或微阵列的合成图像。

mll308例如可以被实现为包括在零和游戏框架中相互竞争的两个神经网络312、314的循环gan。在训练期间,第一网络312“学习”如何将采集到的训练图像变换成输出训练图像,所述输出训练图像突出显示包括一种或多种感兴趣的第二生物标记的组织区域,以使得第二网络314无法确定所述输出图像是采集到的第二类别训练图像(即,真实训练组织样品的采集到的图像已被一种或多种第二染色剂染色,所述一种或多种第二染色剂选择性地染色所述一种或多种感兴趣的第二生物标记)还是由第一神经元312通过计算已经生成的虚拟染色图像。进而,第二网络314“学习”如何将由第一神经元网络312生成的虚拟染色图像与“真实”的采集的第二类别图像区分开。在一些实施方案中,在训练阶段期间,第一神经元网络学习映射g:x→y,使得由来自g(x)的映射(也可以被成为“图像变换”)生成的虚拟染色图像的分布与使用对抗损失的分布y难以区分。第一类别的训练图像x也可以被称为“第一训练图像”,第二类别的图像y也可以被称为“第二训练图像”。此外,第一神经元网络学习逆映射(也可以称为逆图像变换)f:y→x并且评估循环一致性损失的量,以便修改变换g和逆变换f,以使得最小化或减少循环一致性损失。周期一致性是f(g(x))≈x的必要条件(反之亦然)。在训练期间,mll,特别是第一神经网络312,学习映射g:x→y以使得输出x∈x与由对手训练以从y中分类出的图像y∈y难以区分。因此,根据本发明的实施方案的mll的训练包括运用转换应是“循环一致”的性质并且采用两个互补的神经网络312、神经网络314的学习效果。

附图标记列表

102-108步骤

202采集到的图像

206输出图像

204采集到的图像

208虚拟染色图像

210采集到的被h&e染色的图像

212被虚拟染色的图像(h&e&fap&panck)

214采集到的被h&e染色的图像-缩放的

216被虚拟染色的图像(h&e&fap&panck)-缩放的

218被h&e&fap&panck染色的样品的采集到的图像

220图像218的缩放子区域

222被h&e&fap&panck染色的样品的采集到的图像

224根据采集到的被h&e&ki67&cd8染色的图像计计算出的h&e&fap&panck染色的样品的被虚拟染色的图像

300图像分析系统

302处理器

304显示器

306储存介质

308机器学习逻辑

310程序逻辑

312第一神经网络

314第二神经网络

316采集到的图像

318输出图像

320图像采集系统

322相机

324组织样品

326载玻片

328光源

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1