用于识别组织样品中的形态学模式的系统和方法与流程

文档序号:36006877发布日期:2023-11-16 22:23阅读:42来源:国知局
用于识别组织样品中的形态学模式的系统和方法与流程

本说明书描述了涉及在如空间布置的下一代测序数据等大型复杂的数据集中将模式可视化,并且使用所述数据将模式可视化的技术。


背景技术:

1、细胞与所述细胞在组织样品内的相对位置之间的关系对于理解疾病病理学可以是至关重要的。例如,此类信息可以解决关于淋巴细胞是否成功浸润肿瘤的问题,例如通过识别与淋巴细胞相关联的细胞表面受体。在这种情况下,淋巴细胞浸润将与有利的诊断相关联,然而淋巴细胞不能浸润肿瘤将与不利的诊断相关联。因此,异质组织中细胞类型的空间关系可以用于分析组织样品。

2、空间转录组学是允许科学家测量组织样品中的基因活性并且绘制基因活性发生的位置的技术。此技术已经导致了新的发现,所述发现将证明有助于帮助科学家更好地了解生物过程和疾病。

3、通过已经产生细胞群的丰富数据集来改进核酸测序使得空间转录组学变成可能。此类测序技术提供细胞群的数据,所述技术可以用于确定包含基因组拷贝数量变化的基因组异质性以及用于绘制克隆进化(例如,评估肿瘤的进化)。

4、然而,此类测序数据集是复杂的并且通常是庞大的,并且用于将基因表达定位到生物样品的具体区域的技术是劳动密集型的。

5、因此,需要另外的工具来启用可扩展的方法以允许经改进的和较少劳动密集型的分析的方式处理空间转录组学和空间蛋白质组学,以便确定如拷贝数量变化等基因组异质性,绘制克隆进化,检测抗原受体和/或识别形态学背景中的体细胞变异。


技术实现思路

1、在本公开中提供了用于解决数据集中发现模式的上述问题的技术解决方案(例如,计算系统、方法和非暂时性计算机可读存储介质)。出于组织学目的对组织切片(例如,新鲜冷冻的组织切片)进行成像,并且将其置于含有与rna结合的经条形编码的捕获探针的阵列上。组织被固定且透化以释放rna以与相邻的捕获探针结合,从而允许捕获了经条形编码的空间基因表达信息。然后从所捕获的rna合成空间经条形编码的cdna并且使用空间上经条形编码的整体制备测序文库。然后对文库进行测序并且将数据可视化以确定哪些基因被表达,和基因在哪里表达,以及有多少基因被表达。本公开提供了许多工具以用于处理大量测序数据,此类技术产生并且很好地作为工具以用于识别与特定生物条件相关联的下层组织样品中的形态学模式。

2、下文呈现了本公开的概述,以便提供对本公开的一些方面的基本理解。此概述不是本公开的广泛概要。此概述并不旨在识别本公开的关键/重要要素或描绘本公开的范围。此概述的唯一目的是以简化的形式呈现本公开的概念中的一些作为对之后所呈现的更加详细的说明的序言。

3、本公开的一方面提供了一种用于识别形态学模式的方法。所述方法包括:在包括一个或多个处理核、存储器和显示器的计算机系统处:获得与具有空间布置的多个探针斑点相关联的离散属性值数据集。所述多个探针斑点中的每个探针斑点分配有多个条形码中的唯一条形码,并且所述多个探针斑点包括至少25个、至少50个、至少100个、至少150个、至少300个、至少400个或至少1000个探针斑点。所述离散属性值数据集包括生物样品(例如,组织样品)的一个或多个空间投影。所述离散属性值数据集进一步包括所述一个或多个空间投影中的第一空间投影的一个或多个二维图像。所述一个或多个二维图像中的每个二维图像拍摄的是从所述生物样品获得的叠置在具有以所述空间布置而布置的所述多个探针斑点的基板上的第一组织切片(例如,载玻片、盖玻片、半导体晶圆、芯片等)上。而且,所述一个或多个二维图像中的每个二维图像包括至少100,000个像素值。所述离散属性值数据集进一步包括所述多个探针斑点中的每个相应探针斑点的从对所述第一组织切片的空间测序获得的对应多个离散属性值。所述对应多个离散属性值中的每个相应离散属性值针对多个基因座中的不同基因座。每个这种对应多个离散属性值包括至少500个离散属性值。

4、所述方法进一步包括获得所述离散属性值数据集的所述多个探针斑点中的每个相应探针斑点在多个簇中的对应簇分配。所述对应簇分配至少部分地基于所述相应探针斑点的所述对应多个离散属性值或至少部分地由所述相应探针斑点的所述对应多个离散属性值得出的对应多个降维成分。

5、所述方法进一步包括在所述显示器上的第一窗口中显示所述第一投影的所述一个或多个二维图像中的第一二维图像的全部或一部分的像素值。

6、所述方法进一步包括在所述第一二维图像上并且与所述第一二维图像共对齐地叠置(i)所述多个探针斑点中的每个探针斑点的已分配给所述多个簇中的第一簇的第一标记和(ii)所述多个探针斑点中的每个探针斑点的已分配给所述多个簇中的第二簇的第二标记,由此识别所述形态学模式。

7、在一些实施例中,所述一个或多个空间投影是所述生物样品的多个空间投影,所述多个空间投影包括所述生物样品的第一组织切片的所述第一空间投影,并且所述多个空间投影包括所述生物样品的第二组织切片的第二空间投影。在一些此类实施例中,所述第一空间投影的所述一个或多个二维图像包括第一多个二维图像,并且所述第二空间投影包括第二多个二维图像。

8、在一些实施例中,所述第一多个二维图像中的每个二维图像拍摄的是所述生物样品的所述第一组织切片,并且所述第二多个二维图像中的每个二维图像拍摄的是所述生物样品的第二组织切片。

9、在一些实施例中,所述第一多个二维图像中的每个二维图像被显示为与以下共对齐:(i)所述多个探针斑点中的每个探针斑点的已分配给所述第一簇的第一标记和(ii)所述多个探针斑点中的每个探针斑点的已分配给所述第二簇的第二标记。在一些此类实施例中,所述方法进一步包括响应于接收到用户显示指令而显示或取消显示显示所述第一多个二维图像中的一个或多个二维图像。

10、在一些实施例中,所述第一多个二维图像中的每个相应二维图像是使用不同波长或不同波段从所述第一组织切片获取的。

11、在一些实施例中,所述一个或多个空间投影是单个空间投影,所述第一空间投影的所述一个或多个二维图像是多个二维图像,所述多个二维图像中的第一二维图像是所述第一组织切片的明场图像,所述多个二维图像中的第二二维图像是所述第一组织切片的在第一波长或第一波长范围下拍摄的第一免疫组织化学(ihc)图像,并且所述多个二维图像中的第三二维图像是所述第一组织切片的在不同于所述第一波长或所述第一波长范围的第二波长或第二波长范围下拍摄的第二免疫组织化学(ihc)图像。在一些此类实施例中,所述第一二维图像是对所述生物样品使用以下来获取的:苏木素和伊红(hematoxylin andeosin)、过碘酸-希夫反应染液(periodic acid-schiff reaction stain)、马松三色染液(masson's trichrome stain)、阿尔新蓝染液(alcian blue stain)、范吉森染液(vangieson stain)、网状纤维染液、azan染液(azan stain)、吉姆萨染液(giemsa stain)、甲苯胺蓝染液(toluidine blue stain)、艾沙明蓝/伊红染液(isamin blue/eosin stain)、尼氏和亚甲基蓝染液(nissl and methylene blue stain)、苏丹黑和/或锇染色。

12、在一些实施例中,所述方法进一步包括:以第一模式存储所述第一二维图像,其中所述第一模式包括第一数量的图块;以及以第二模式存储所述第一二维图像,其中所述第二模式包括第二数量的图块,其中所述第二数量的图块少于所述第一数量的图块。在一些此类实施例中,响应于接收到用户的显示指令,所述方法进一步包括:从所述第一模式切换为所述第二模式以显示所述第一二维图像的全部或一部分,或者从所述第二模式切换为所述第一模式以显示所述第一二维图像的全部或一部分。在一些实施例中,所述第一数量的图块中的至少第一图块包括第一预定图块大小,所述第一数量的图块中的至少第二图块包括第二预定图块大小,并且所述第二数量的图块中的至少第一图块包括第三预定图块大小。

13、在一些实施例中,所述离散属性值数据集以压缩稀疏行格式和压缩稀疏列格式两者冗余地表示所述多个探针斑点中的每个探针斑点的所述多个基因座中的每个相应基因座的第一离散属性值以及所述一个或多个空间投影中的第一空间投影的所述多个探针斑点中的每个相应探针斑点的对应第二离散属性值,在所述压缩稀疏行格式和所述压缩稀疏列格式下,具有无效离散属性数据值的第一离散属性值和第二离散属性值被丢弃。

14、在一些实施例中,所述获得对应簇分配包括使用以多维向量的形式分配给所述一个或多个空间投影中的每个空间投影中的每个相应探针斑点的所述离散属性值跨所述一个或多个空间投影对所述多个探针斑点中的所有所述探针斑点或所述探针斑点的子集进行聚类,其中所述聚类被配置成在聚类期间将小于整个所述离散属性值数据集加载到非永久性存储器中,由此允许对大小超过非永久性存储器中的分配给所述离散属性值数据集的存储空间的所述离散属性值数据集的所述聚类。在一些实施例中,所述对所有所述探针斑点或所述探针斑点的子集进行聚类包括k均值聚类,其中k被设置为介于1与25之间的预定值。

15、在一些实施例中,所述多个簇中的每个相应簇由所述多个探针斑点的唯一子集组成。

16、在一些实施例中,所述多个探针斑点中的至少一个探针斑点以对应概率值分配给所述多个簇中的多于一个簇,所述对应概率值指示所述至少一个探针斑点属于所述多个簇中的相应簇的概率。

17、在一些实施例中,所述多个基因座中的每个基因座是多个基因中的相应基因,并且所述对应多个离散属性值中的每个离散属性值是映射到对应探针斑点并且还映射到所述多个基因中的相应基因的唯一分子识别符(umi)计数。在一些此类实施例中,所述离散属性值数据集表示以映射到所述多个基因的转录物读段的计数对基因表达进行定量的全转录组测序实验。在一些实施例中,所述离散属性值数据集表示以映射到所述多个探针中的探针的umi的计数对基因表达进行定量的靶向的转录组测序实验。

18、在一些实施例中,第一指示是第一图形或第一颜色,并且第二指示是第二图形或第二颜色。

19、在一些实施例中,所述多个基因座中的每个基因座是多个特征中的相应特征,所述对应多个离散属性值中的每个离散属性值是映射到对应探针斑点并且还映射到所述多个特征中的相应特征的umi计数,并且所述多个特征中的每个特征是开放阅读框、内含子、外显子、整个基因、mrna转录物、参考基因组的预定非编码部分、增强子、阻遏因子、对变体等位基因进行编码的预定序列或其任何组合。

20、在一些实施例中,所述多个基因座包括大于50个基因座、大于100个基因座、大于250个基因座、大于500个基因座、大于1000个基因座或者大于10000个基因座。

21、在一些实施例中,每个唯一条形码对选自以下集合的唯一预定值进行编码:{1,…,1024}、{1,…,4096}、{1,…,16384}、{1,…,65536}、{1,…,262144}、{1,…,1048576}、{1,…,4194304}、{1,…,16777216}、{1,…,67108864}或{1,…,1x1012}。

22、在一些实施例中,所述多个基因座包含第一染色体上的一个或多个基因座以及除所述第一染色体外的第二染色体上的一个或多个基因座。

23、在一些实施例中,所述第一组织切片中的映射到所述第一簇的所述探针斑点的细胞是第一细胞类型,并且所述第一组织切片中的映射到所述第二簇中的所述探针斑点的细胞是第二细胞类型。在一些此类实施例中,所述第一细胞类型是患病细胞,并且所述第二细胞类型是淋巴细胞。

24、在一些实施例中,所述第一组织切片中的映射到所述第一簇的所述探针斑点的细胞是第一组织类型,并且所述第一组织切片中的映射到所述第二簇中的所述探针斑点的细胞是第二组织类型。在一些此类实施例中,所述第一组织类型是健康组织,并且所述第二组织类型是患病组织。

25、在一些实施例中,所述形态学模式是分配给所述第一簇的探针斑点相对于分配给所述第二簇的探针斑点的空间布置。

26、在一些实施例中,所述方法进一步包括:响应于使用所述第一二维图像的所显示像素值对第一探针斑点子集的第一用户选择而将所述第一探针斑点子集分配给所述第一簇;以及响应于接收到使用所述第一二维图像的所述所显示像素值对第二探针斑点子集的第二用户选择而将所述第二探针斑点子集分配给所述第二簇。

27、在一些实施例中,所述方法进一步包括:响应于使用叠加在所述第一二维图像上的活跃基因列表的所显示离散属性值对第一探针斑点子集的第一用户选择而将所述第一探针斑点子集分配给所述第一簇;以及响应于使用叠加在所述第一二维图像上的活跃基因列表的所显示离散属性值对第二探针斑点子集的第二用户选择而将所述第二探针斑点子集分配给所述第二簇。

28、在一些实施例中,所述一个或多个空间投影是多个空间投影,所述离散属性值数据集进一步包括第二空间投影的一个或多个二维图像,所述第二空间投影的所述一个或多个二维图像中的每个二维图像(a)拍摄的是从所述生物样品获得的叠置在具有以所述空间布置而布置的所述多个探针斑点的基板上的第二组织切片,并且(b)包括至少100,000个像素值。进一步地,在一些此类实施例中,所述方法进一步包括:在所述显示器上的第二窗口中显示所述第二投影的所述一个或多个二维图像中的第一二维图像的全部或一部分的像素值。在一些此类实施例中,所述方法进一步包括在所述第一窗口与所述第二窗口之间链接簇选择、簇创建、基因座选择、簇成员关系或簇标记选择。

29、在一些实施例中,所述离散属性值数据集的文件大小大于100兆字节。

30、本公开的另一方面提供了一种计算系统,所述计算系统包括至少一个处理器和存储要由所述至少一个处理器执行的至少一个程序的存储器,所述至少一个程序包括用于通过上文所公开的任何方法识别形态学模式的指令。

31、本公开的仍另一方面提供了一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质存储用于识别形态学模式的一个或多个程序。所述一个或多个程序被配置成通过计算机执行。所述一个或多个程序共同对用于执行上文所公开的任何方法的计算机执行指令进行编码。

32、如本文所公开的,本文所公开的任何实施例在适用时可以应用于任何方面。

33、所附权利要求范围内的系统、方法和装置的各个实施例各自均具有若干个方面,其中并非仅靠任何单一方面来负责本文所描述的期望的属性。在不限制所附权利要求的范围的情况下,本文描述了一些突出的特征。在考虑了这一讨论之后,并且特别是在阅读了题为“具体实施方式”的部分之后,人们将理解如何使用各个实施例的特征。

34、通过引用并入

35、本说明书中所提到的所有公开、专利和专利申请通过引用整体并入本文中,其程度就如同明确且单独地指明了每一个单独的公开、专利或专利申请通过引用并入。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1