使用对基于细胞的数据的团分析将化合物与性质相关联的系统和方法与流程

文档序号:37259255发布日期:2024-03-12 20:36阅读:12来源:国知局
使用对基于细胞的数据的团分析将化合物与性质相关联的系统和方法与流程

本公开总体涉及用于分析扰动原(perturbagen)之间的相似性的系统和方法。更具体地,本发明涉及基于跨一系列细胞系与其他扰动原的相似性来预测扰动原的行为。


背景技术:

1、对细胞机制的研究对于理解疾病来说很重要。然而,组织是单个细胞的复杂生态系统,其中细胞状态的失调是疾病的基础。现有的药物发现努力试图表征导致细胞从健康状态转变为疾病状态的分子机制,并鉴定逆转或抑制这些转变的药理学方法。过去的努力还寻求鉴定表征这些转变的分子签名,以及鉴定逆转这些签名的药理学方法。

2、对扰动原的表型表征对于合理的药物发现和/或合理的药物设计至关重要。常规上,扰动原的表型表征包括评估细胞系暴露于扰动原后细胞系中的转录响应。然而,用扰动原在单个细胞系中和/或在单一暴露条件下引起的转录响应来表征该扰动原是低效的,因为扰动原可能在不同细胞类型中和在不同暴露条件下引起不同转录响应。这反映了这样的事实,即特定转录响应由特定细胞系的细胞编程和培养细胞系的环境条件的组合引起,还由扰动原的特定作用引起。这一点为解释响应特征(response signature)带来背景依赖性问题,因为它们在给定的环境条件下携带细胞类型和扰动两者的特征。因此,通过评估扰动原对其他细胞类型的影响来推断该扰动原在一种细胞类型中的影响会导致表现不佳。


技术实现思路

1、鉴于上述背景,本领域所需要的是用于合理的药物发现和药物设计的改进的系统和方法,其更好地模拟扰动原独立于特定细胞背景的作用。本公开解决了药物发现和设计的领域中的这些以及其他需求。

2、在一些实施例中,本文所描述的系统和方法将对扰动原攻击的表型响应与由其他扰动原跨不同细胞类型引起的表型响应相关。这样,跨一系列细胞系产生高度相关的响应的扰动原被分组为化合物聚类。此类化合物聚类提供数个优点并且实现有价值的下游应用。举例来说,本文所描述的化合物聚类方法对批次效应和技术/平台偏差更具适应性,因为它只需要实验的内部结构,该内部结构已经以测量系统为条件。其次,本文所描述的化合物聚类方法提供可以从经充分研究的/已知的扰动原传播到在一个或多个相同化合物聚类中识别的未知的/未表征的扰动原的机制解析。再次,对化合物聚类中的结构类似物的识别实现结构活性关系(sar)分析,该分析可以推广到结构行为关系分析,有利于合理设计具有期望性质的新化学实体。最后,了解化合物聚类内的一些扰动原的分子靶标有利于识别驱动细胞行为变化的动态因果子网络。

3、在一个方面,本公开提供了一种将测试化合物与化合物性质相关联的方法,其中该测试化合物在多种化合物中。该方法包括以电子形式获得一个或多个数据集,该一个或多个数据集包括或共同包括:对于多个细胞系中的每个相应的细胞系,其中该多个细胞系包括五个或更多个细胞系:对于多种化合物中的每种相应的化合物:对于一个或多个暴露条件中针对相应的化合物的每个相应的暴露条件:在相应的暴露条件下相应的细胞系中针对相应的化合物的对应的响应特征,该对应的响应特征包括相应的细胞系在相应的暴露条件下暴露于相应的化合物时,相应的细胞系跨多种生物标志物的对应的多个定量生物标志物测量结果,其中多种生物标志物包括一百种或更多种生物标志物。

4、对于多个细胞系中的每个相应的细胞系,对于多种化合物中的每个相应的化合物对,该方法包括对于针对相应的化合物对的相应的暴露条件的每个独特组合,确定相应的化合物对跨多种生物标志物的对应的多个定量生物标志物测量结果的对应的相关,从而确定相应的化合物对的一个或多个相关值。对于多种化合物中的每个相应的化合物对,该方法还包括根据相应的化合物对的一个或多个相关值来确定针对相应的化合物对的一个或多个权重。

5、该方法还包括形成多个化合物聚类,每个相应的化合物聚类表示多种化合物中的相应的化合物并且包括多种化合物中的对应的化合物子集,其中对应的化合物子集中的每种相应的化合物满足关于相应的化合物的一个或多个权重标准。

6、该方法还包括根据多个化合物聚类中含有测试化合物的一个或多个化合物聚类中的一种或多种化合物的一种或多种性质来识别测试化合物的化合物性质。

7、本公开的另一方面提供了一种将测试化合物与化合物性质相关联的方法。测试化合物在多种化合物中。该方法包括(例如,在包括存储器和一个或多个处理器的计算机系统处)(a)以电子形式获得一个或多个数据集。该一个或多个数据集包括或共同包括对于多个细胞系中的每个相应的细胞系,其中该多个细胞系包括五个或更多个细胞系,对于多种化合物中的每种相应的化合物,对于多个暴露条件中针对相应的化合物的每个相应的暴露条件:在相应的暴露条件下相应的细胞系中针对相应的化合物的对应的响应特征。此对应的响应特征包括相应的细胞系在相应的暴露条件下暴露于相应的化合物时,相应的细胞系跨多种生物标志物的对应的多个定量生物标志物测量结果。在一些实施例中,多种生物标志物包括10、20、50或一百种或更多种生物标志物。

8、该方法进一步包括(b)对于多个细胞系中的每个相应的细胞系,对于多种化合物中的每个相应的化合物对:(i)对于针对相应的化合物对的相应的暴露条件的每个独特组合,确定相应的化合物对跨多种生物标志物的对应的多个定量生物标志物测量结果的对应的相关,从而确定相应的化合物对的一个或多个相关值,以及(ii)根据相应的化合物对的一个或多个相关值来确定针对相应的化合物对的一个或多个权重。

9、该方法进一步包括(c)形成多个化合物聚类。每个相应的化合物聚类表示多种化合物中的不同化合物并且包括多种化合物中的对应的化合物子集。对应的化合物子集中的每种相应的化合物满足关于不同化合物的一个或多个权重标准。

10、该方法进一步包括(d)根据多个化合物聚类中含有测试化合物的一个或多个化合物聚类中的一种或多种化合物的一种或多种性质来识别测试化合物的化合物性质。

11、在一些实施例中,一个或多个权重标准包括以下要求:对应的独特化合物子集中的相应的化合物对跨多个细胞系的全部或子集具有相关值,该相关值在针对多种化合物跨多个细胞系识别的上相关界限的阈值百分比内。在一些此类实施例中,一个或多个权重标准为多个权重标准,并且多个权重标准进一步包括以下要求:多个细胞系的子集为至少五个不同细胞系。在一些此类实施例中,一个或多个权重标准为多个权重标准,并且多个权重标准进一步包括以下要求:多个细胞系的子集为至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60或100个不同细胞系。

12、在一些实施例中,阈值百分比介于百分之五与百分之五十之间。在一些实施例中,阈值百分比为百分之五、十、十五、二十、二十五、三十、三十五、四十、四十五或五十。

13、在一些实施例中,相对于相应的细胞系中的一个或多个对照基因的响应特征使每个对应的响应特征归一化。

14、在一些实施例中,多个细胞系包括3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60或100个不同细胞系。

15、在一些实施例中,多种化合物介于10种与1×108种化合物之间,介于100种与1×107种化合物之间,介于1000种与1×106种化合物之间,或介于10,000种与100,000种化合物之间。

16、在一些实施例中,相应的暴露条件为暴露的持续时间、相应的化合物的浓度、暴露的环境条件或其组合。

17、在一些实施例中,对于多种化合物中的相应的化合物对,针对相应的化合物对的一个或多个权重包括多个权重。在如此的一些实施例中,多个权重中的每个相应的权重对应于以下两者之间的比较:(i)与相应的化合物对中的第一相应的化合物在多个暴露条件中的相应的暴露条件下暴露于多个细胞系中的相应的细胞系相对应的相应的响应特征,以及(ii)与相应的化合物对中的第二相应的化合物在多个暴露条件中的相应的暴露条件下暴露于相应的细胞系相对应的每个相应的响应特征。在一些此类实施例中,对于多个权重中的相应的权重,该权重通过取针对相应的化合物对确定的对应的多个相关值的集中趋势的测度来确定。

18、在一些实施例中,相应的化合物对跨多种生物标志物的对应的多个定量生物标志物测量结果的对应的相关为皮尔逊(pearson)相关。

19、在一些实施例中,多个化合物聚类中含有测试化合物的一个或多个化合物聚类包括用于第一疾病指征的药物,并且该方法进一步包括使用根据多个化合物聚类中的一个或多个化合物聚类中的一种或多种化合物的一种或多种性质来识别测试化合物的化合物性质来将药物的用途改换为用于第二疾病指征。

20、在一些实施例中,测试化合物的化合物性质通过药效团分析根据多个化合物聚类中与测试化合物相关联的化合物聚类中的一种或多种化合物的一种或多种性质来确定。

21、在一些实施例中,测试化合物的化合物性质为作用机制注释。

22、在一些实施例中,多种生物标志物为核酸、核糖核酸、碳水化合物、脂质、表观遗传特征、代谢物、蛋白质、细胞形态特征或其组合。

23、在一些实施例中,该方法进一步包括使用测试化合物的化合物性质和多个化合物聚类中含有测试化合物的一个或多个化合物聚类中的一种或多种化合物的一种或多种性质来识别针对疾病指征的分子靶标。

24、在一些实施例中,对应的多个定量生物标志物测量结果中的每个定量生物标志物测量结果是比色测量结果、荧光测量结果、发光测量结果或共振能量转移(fret)测量结果。

25、在一些实施例中,该形成(c)包括对于多个化合物聚类中的每个相应的化合物聚类:对于多个化合物对的包括由相应的化合物聚类表示的对应的化合物的相应子集中的每个相应的化合物对,根据针对相应的化合物对的多个权重来确定针对多个细胞系中的每个相应的细胞系的对应的相关评分;并识别在多种化合物的相应子集中哪些相应的化合物对具有在跨多种化合物的相应子集的上相关评分界限的阈值百分比内的对应的相关评分。在一些此类实施例中,对于多个化合物对的相应子集中的每个相应的化合物对,相关评分通过以下来确定:从针对多个细胞系中的相应的细胞系确定的针对相应的化合物对的每组多个权重,选择多个权重的对应子集,其中多个权重的对应子集中的每个相应的权重满足一个或多个显著性标准,并对于多个细胞系中的每个相应的细胞系,根据多个权重的对应子集来确定针对相应的化合物对的对应的相关评分。在一些此类实施例中,针对相应的化合物对的对应的相关评分为相应的化合物对的多个权重的对应子集中的相应的权重跨多个细胞系中的每个相应的细胞系的集中趋势的测度。

26、在一些实施例中,根据多个化合物聚类中含有测试化合物的一个或多个化合物聚类中的一种或多种化合物的一种或多种性质来识别测试化合物的化合物性质包括:确定多个化合物聚类中含有测试化合物的一个或多个化合物聚类还包括与生理状况相关联的第一化合物。在一些此类实施例中,该方法进一步包括确认测试化合物也与生理状况相关联。在一些此类实施例中,生理状况为疾病并且其中第一化合物引起或预防该疾病。在一些此类实施例中,测试化合物的指纹与第一化合物的指纹之间的谷本(tanimoto)系数小于0.80,小于0.70,小于0.60,小于0.50,或小于0.40。在一些实施例中,测试化合物的指纹与第一化合物的指纹之间的谷本系数小于阈值(例如,其中阈值为介于0.30与0.99之间的预定值)。在一些此类实施例中,指纹为daylight指纹、smiles变换器指纹、ecfp4指纹、rnns2s指纹或graphconv指纹。

27、在一些实施例中,对应的多个定量生物标志物测量结果为使用相应的细胞系的细胞的针对多种生物标志物的基于细胞的测定丰度值。在一些此类实施例中,多种生物标志物中的每种生物标志物为多个基因中的不同基因。在一些此类实施例中,多种生物标志物包括10种生物标志物,包括100种生物标志物,包括1000种生物标志物,包括2000种生物标志物,包括3000种生物标志物,或包括5000种生物标志物。

28、在一些实施例中,多个细胞系中的每个细胞系是人的。在一些实施例中,多个细胞系中的每个细胞系是哺乳动物的。在一些实施例中,多个细胞系中的每个细胞系是真核生物的。

29、在一些实施例中,多个细胞系中的细胞系取自器官的细胞(例如,以来自器官的活组织检查的形式等)。在一些实施例中,器官为心脏、肝脏、肺、肌肉、脑、胰腺、脾脏、肾脏、小肠、子宫或膀胱。

30、在一些实施例中,多个细胞系中的细胞系取自组织。在一些此类实施例中,组织为骨骼、软骨、关节、气管、脊髓、角膜、眼睛、皮肤或血管。

31、在一些实施例中,多个细胞系中的细胞系取自多个干细胞。在一些此类实施例中,多个干细胞为多个胚胎干细胞、多个成体干细胞或多个诱导性多能干细胞(ipsc)。

32、在一些实施例中,多个细胞系中的细胞系取自多个原代人细胞。在一些此类实施例中,多个原代人细胞为多个cd34+细胞、多个cd34+造血干细胞、多个祖细胞(hspc)、多个t细胞、多个间充质干细胞(msc)、多个气道基底干细胞或多个诱导性多能干细胞。

33、在一些实施例中,多个细胞系中的细胞系取自脐带血中、外周血中或骨髓中的细胞。

34、在一些实施例中,多个细胞系中的细胞系取自实体组织。在一些此类实施例中,实体组织为胎盘、肝脏、心脏、脑、肾脏或胃肠道。

35、在一些实施例中,多个细胞系中的细胞系取自多个分化细胞。在一些此类实施例中,多个分化细胞为多个巨核细胞、多个成骨细胞、多个软骨细胞、多个脂肪细胞、多个肝细胞、多个肝间皮细胞、多个胆管上皮细胞、多个肝星状细胞、多个肝窦内皮细胞、多个库普弗细胞、多个隐窝细胞、多个血管内皮细胞、多个胰管上皮细胞、多个胰管细胞、多个腺腔中心细胞、多个腺泡细胞、多个朗格尔汉斯小岛、多个心肌细胞、多个纤维母细胞、多个角质形成细胞、多个平滑肌细胞、多个i型肺泡上皮细胞、多个ii型肺泡上皮细胞、多个克拉拉细胞、多个纤毛上皮细胞、多个基底细胞、多个杯状细胞、多个神经内分泌细胞、多个库尔契茨基细胞、多个肾小管上皮细胞、多个尿路上皮细胞、多个柱状上皮细胞、多个肾小球上皮细胞、多个肾小球内皮细胞、多个足细胞、多个血管系膜细胞、多个神经细胞、多个星形胶质细胞、多个小胶质细胞或多个少突胶质细胞。

36、在一些实施例中,对应的多个定量生物标志物测量结果为来自相应的细胞系的多个细胞的单细胞核糖核酸(rna)测序(scrna-seq)数据的针对多种生物标志物的基于细胞的测定丰度值。

37、在一些实施例中,对应的多个定量生物标志物测量结果为来自相应的细胞系的多个细胞的批量核糖核酸(rna)测序(scrna-seq)数据的针对多种生物标志物的基于细胞的测定丰度值。

38、在一些实施例中,相应的细胞系的对应的多个定量生物标志物测量结果包括特定基因、与基因相关联的特定mrna、碳水化合物、脂质、表观遗传特征、代谢物或蛋白质在相应的细胞系中的表达的定量测量结果。

39、在一些实施例中,多种生物标志物中的每种相应的生物标志物为特定基因、与基因相关联的特定mrna、碳水化合物、脂质、表观遗传特征、代谢物、蛋白质或其组合,并且

40、相应的生物标志物的对应的定量生物标志物测量结果通过以下来确定:单细胞核糖核酸(rna)测序(scrna-seq)、sctag-seq、使用测序针对转座酶可及性染色质进行的单细胞测定(scatac-seq)、cytof/scop、e-ms/abseq、mirna-seq、cite-seq或其任何组合。

41、在一些实施例中,测试化合物为具有小于2000道尔顿的分子量的有机化合物。

42、在一些实施例中,测试化合物为满足里宾斯基五规则标准中的每一个的有机化合物。

43、在一些实施例中,测试化合物为满足里宾斯基五规则标准中的至少三个标准的有机化合物。

44、在一些实施例中,该确定(b)(i)确定针对暴露条件的五个或更多个独特组合中的每一个、针对暴露条件的十个或更多个独特组合中的每一个、针对暴露条件的二十个或更多个独特组合中的每一个或针对暴露条件的四十个或更多个独特组合中的每一个的对应的相关。

45、本公开的另一方面提供了一种将测试化合物与化合物性质相关联的方法,其中该测试化合物在多种化合物中。该方法包括,在包括存储器和一个或多个处理器的计算机系统处:(a)以电子形式获得一个或多个数据集,该一个或多个数据集包括或共同包括:对于多个细胞系中的每个相应的细胞系,其中该多个细胞系包括五个或更多个细胞系:对于多种化合物中的每种相应的化合物:对于一个或多个暴露条件中针对相应的化合物的每个相应的暴露条件:在相应的暴露条件下相应的细胞系中针对相应的化合物的对应的响应特征。这里,对应的响应特征包括相应的细胞系在相应的暴露条件下暴露于相应的化合物时,相应的细胞系跨多种生物标志物的对应的多个定量生物标志物测量结果。在一些实施例中,多种生物标志物包括10、20、30、40、50、100、200、1000、2000或4000种或更多种生物标志物。该方法进一步包括(b)对于多个细胞系中的每个相应的细胞系,对于多种化合物中的每个相应的化合物对:(i)对于针对相应的化合物对的相应的暴露条件的每个独特组合,确定相应的化合物对跨多种生物标志物的对应的多个定量生物标志物测量结果的对应的相关,从而确定相应的化合物对在相应的细胞系中的相应的多个相关值,(ii)根据相应的化合物对在相应的细胞系中的一个或多个相关值来确定针对相应的化合物对在相应的细胞系中的相应的多个权重,以及(iii)识别相应的化合物对在相应的细胞系中的相应的多个权重的对应子集,其中多个权重的对应子集中的每个相应的权重满足一个或多个显著性标准。该方法进一步包括(c)对于多个化合物对中的每个相应的化合物对,根据相应的化合物对跨多个细胞系的多个权重的相应子集来确定对应的比较评分。该方法进一步包括(d)形成多个化合物聚类,多个化合物聚类中的每个相应的化合物聚类表示多种化合物中的相应的化合物并且包括多种化合物中的对应的化合物子集,其中对应的化合物子集中的每种相应的化合物满足关于相应的化合物的一个或多个比较评分标准。该方法进一步包括(e)根据多个化合物聚类中含有测试化合物的一个或多个化合物聚类中的一种或多种化合物的一种或多种性质来识别测试化合物的化合物性质。

46、本公开的另一方面提供了一种计算机系统。该计算机系统包括一个或多个处理器以及存储器。存储器存储用于进行将测试化合物与化合物性质相关联的方法的指令。测试化合物在多种化合物中。该方法包括(a)以电子形式获得一个或多个数据集,该一个或多个数据集包括或共同包括:对于多个细胞系中的每个相应的细胞系,其中该多个细胞系包括五个或更多个细胞系:对于多种化合物中的每种相应的化合物:对于多个暴露条件中针对相应的化合物的每个相应的暴露条件:在相应的暴露条件下相应的细胞系中针对相应的化合物的对应的响应特征。这里,对应的响应特征包括相应的细胞系在相应的暴露条件下暴露于相应的化合物时,相应的细胞系跨多种生物标志物的对应的多个定量生物标志物测量结果。在一些实施例中,多种生物标志物包括10、25、100、200、500、1000或2000种或更多种生物标志物。该方法进一步包括(b)对于多个细胞系中的每个相应的细胞系,对于多种化合物中的每个相应的化合物对:(i)对于针对相应的化合物对的相应的暴露条件的每个独特组合,确定相应的化合物对跨多种生物标志物的对应的多个定量生物标志物测量结果的对应的相关,从而确定相应的化合物对的一个或多个相关值,以及(ii)根据相应的化合物对的一个或多个相关值来确定针对相应的化合物对的一个或多个权重。该方法进一步包括(c)形成多个化合物聚类,每个相应的化合物聚类表示多种化合物中的不同化合物并且包括多种化合物中的对应的化合物子集,其中对应的化合物子集中的每种相应的化合物满足关于不同化合物的一个或多个权重标准。该方法进一步包括(d)根据多个化合物聚类中含有测试化合物的一个或多个化合物聚类中的一种或多种化合物的一种或多种性质来识别测试化合物的化合物性质。

47、本公开的另一方面提供了一种存储一个或多个计算机程序的非暂时性计算机可读介质,该一个或多个计算机程序由计算机可执行以用于将测试化合物与化合物性质相关联。测试化合物在多种化合物中。该计算机包括一个或多个处理器以及存储器。一个或多个计算机程序共同编码进行包括以下的方法的计算机可执行指令:(a)以电子形式获得一个或多个数据集,该一个或多个数据集包括或共同包括:对于多个细胞系中的每个相应的细胞系,其中该多个细胞系包括五个或更多个细胞系:对于多种化合物中的每种相应的化合物:对于多个暴露条件中针对相应的化合物的每个相应的暴露条件:在相应的暴露条件下相应的细胞系中针对相应的化合物的对应的响应特征,该对应的响应特征包括相应的细胞系在相应的暴露条件下暴露于相应的化合物时,相应的细胞系跨多种生物标志物的对应的多个定量生物标志物测量结果。多种生物标志物包括10、25、50、100、200或1000种或更多种生物标志物。该方法进一步包括(b)对于多个细胞系中的每个相应的细胞系,对于多种化合物中的每个相应的化合物对:(i)对于针对相应的化合物对的相应的暴露条件的每个独特组合,确定相应的化合物对跨多种生物标志物的对应的多个定量生物标志物测量结果的对应的相关,从而确定相应的化合物对的一个或多个相关值,以及(ii)根据相应的化合物对的一个或多个相关值来确定针对相应的化合物对的一个或多个权重。该方法进一步包括(c)形成多个化合物聚类,每个相应的化合物聚类表示多种化合物中的不同化合物并且包括多种化合物中的对应的化合物子集,其中对应的化合物子集中的每种相应的化合物满足关于不同化合物的一个或多个权重标准。该方法进一步包括(d)根据多个化合物聚类中含有测试化合物的一个或多个化合物聚类中的一种或多种化合物的一种或多种性质来识别测试化合物的化合物性质。

48、本公开的又一些方面包括用于进行本文所描述的方法的计算系统和非暂时性计算机可读存储介质,其中该非暂时性计算机可读存储介质存储指令,该指令当由计算机系统执行时,使计算机系统进行本公开中所描述的用于分析细胞的任何方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1