一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统

文档序号:36895944发布日期:2024-02-02 21:27阅读:12来源:国知局
一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统

本发明属于医学技术、信息,具体涉及一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统。


背景技术:

1、精准医学是一种将个体基因型与环境因素差异考虑在内的疾病预测、预防、干预和治疗的新策略,旨在对疾病进行精确分类及诊断,为患者提供个性化、针对性的预防和治疗措施。个性化医疗的一个重要环节是在正确的细胞环境中,例如器官、组织甚至是更加具体的细胞类型,进行精准干预,进而改善表型或者治疗疾病。但是,对于复杂表型或者疾病,表型相关的细胞环境是不知道的,这使得正确识别表型相关的细胞环境以实现更加精准的预防或者治疗成为精准医学研究和实践的一个重要的研究热点。

2、表型和疾病是由基因型和环境因素共同的复杂作用形成的。但是,微观分子层面的基因型并不是直接对宏观层面的表型和疾病产生作用的,而是通过多层次分子复杂的调控完成的。具体而言,基因型及其遗传变异会在调控元件上定位,进而对调控网络产生影响,而由于调控网络是在时空特异的细胞环境中才会有活性和功能,因此基因型和遗传变异是在特定的细胞环境中才会对调控产生影响进而影响表型和疾病。这里的细胞环境,既包含相对宏观层次上的器官或者组织,又包含相对微观层次的细胞类型。研究人员已经发现了大量基因型和遗传变异在特定细胞环境中影响表型的实例。特别的,一些表型相关的snp(single nucleotide polymorphisms,单核苷酸多态性)在特定的发育阶段起作用,例如与智力相关的表型的snp,在人脑发育的早期的染色质开放区域更加富集。一些遗传变异仅与特定的组织器官有关,例如,因为乳腺组织对性腺激素的敏感性,性腺激素受体(esr1)基因的突变仅在乳腺作用,突变的esr1基因会导致对雌激素的反应性发生变化,增加乳腺癌的风险。有很多遗传变异与特定的细胞类型有关,例如ews-fli1基因融合是原始神经外胚层瘤的典型遗传变异,该基因的融合只在神经干细胞中发挥作用,并导致该肿瘤的形成。这些实例说明,识别基因型和遗传变异影响表型起作用的细胞环境,尤其是细胞类型,是实现表型干预和疾病治疗的精准医学的重要步骤。

3、目前,已经有了许多方法去识别表型相关的细胞环境,但大多在组织器官的层次上进行识别。例如,rolypoly模型是基于各个组织的表达数据构建的,它用特异表达基因在各个组织中的表达值去回归snp效应分数,进而得到每个组织和该表型的关联性;coconet将特异性扩展到网络层次,它首先利用getx中各个组织的表达数据识别每个组织特异的基因共表达网络,然后基于基因共表达网络识别表型相关的组织;s-ldsc基于基因组注释区域或者多组织的染色质开放区域的功能区域建立snp的效应分数和其ld分数之间的回归方程计算表型的遗传力在每个功能区域的富集分数,作为表型和组织的关联性;s-ldsc随后被应用到多组织的表达数据中,ldsc-seg利用组织的特异表达基因的位置构建功能区域,并计算遗传力富集分数,从而识别表型相关的组织。但是这些方法的缺陷是均基于群体细胞(bulk)数据,只能识别组织器官层次上的表型相关的细胞环境,例如将糖尿病表型和胰腺组织相关联,但无法关联到胰腺内部多种细胞类型,例如胰岛的alpha细胞类型或者是beta细胞类型。

4、细胞类型层次上的细胞环境对表型遗传力的的解释能力更强。随着单细胞数据的出现和增长,最近也出现了一些识别表型相关细胞类型的方法。例如ldsc-seg或者magma可以很直接地扩展到单细胞数据中,通过单细胞数据识别出的细胞类型以及细胞类型特异表达的基因的位置作为调控功能区域,可以识别相关细胞类型。但是此类方法的缺点是只考虑了单细胞基因表达数据。为了考虑染色质开放数据,sclinker被开发出来,它首先利用单细胞基因表达数据识别细胞类型特异的基因程序,随后利用公开数据库中的增强子和基因联系识别其相关的调控元件,随后对特异基因程序及其增强子构成的功能区域计算遗传力富集分数,进而识别表型相关的细胞类型。但是此类方法只使用了公共的染色质开放数据,并没有考虑与单细胞表达数据匹配的单细胞染色质开放数据,利用单细胞多组学数据中蕴含的更丰富的信息,从构建调控网络图谱的角度来集成数据。

5、目前技术主要缺点:

6、(1)大部分识别表型相关细胞环境的方法均是基于群体细胞的多组学数据,这种数据大多在组织器官层次获得,因此只能识别组织器官层次上的细胞环境。

7、(2)单细胞数据的信息挖掘不充分。现阶段虽然有一些识别细胞类型的方法,但是其使用的数据往往只是一个局部范围的单细胞数据,并没有利用当前快速发展的单细胞图谱。

8、(3)当前对单细胞数据的使用,只使用了单细胞rna-seq数据,而没有考虑使用同样快速增长的匹配的单细胞atac-seq数据,以及整合单细胞多组学数据的调控网络。

9、(4)缺乏系统性集细胞类型匹配数据构造、细胞类型调控网络构建、识别表型相关相关细胞类型的平台。


技术实现思路

1、为了突破上述难点和痛点,本发明基于大量的单细胞rna-seq和单细胞atac-seq数据及其定义出的细胞类型,利用每个细胞类型的单细胞数据构建其调控网络,在细胞类型特异的调控网络上对遗传力富集进行建模并识别表型相关的细胞类型。

2、本发明采用的技术方案如下:

3、一种基于单细胞多组学数据识别表型相关细胞类型的方法,包括以下步骤:

4、获取人类的单细胞多组学数据;

5、利用获取的单细胞多组学数据建立细胞类型层面的匹配数据;

6、对于每个细胞类型,以建立的匹配数据为输入构建其调控网络;

7、利用每个细胞类型的调控网络构建调控功能区域,在所有细胞类型的调控功能区域上对遗传力进行建模,并定义表型与细胞类型的关联分数;

8、度量表型与细胞类型的关联分数的显著性,利用表型与细胞类型的关联分数的显著性识别表型相关的细胞类型。

9、进一步地,所述获取人类的单细胞多组学数据,包括:获取人类的多个组织或者器官的匹配的单细胞rna-seq和单细胞atac-seq数据。

10、进一步地,所述建立细胞类型层面的匹配数据,包括:

11、对于匹配的单细胞rna-seq和单细胞atac-seq数据,标注其细胞类型;

12、通过pseudo-bulk策略构建每个细胞类型的匹配的基因表达和染色质开放数据。

13、进一步地,所述通过pseudo-bulk策略构建每个细胞类型的匹配的基因表达和染色质开放数据,包括:

14、对于一个细胞类型,给定来自其单细胞rna-seq数据的包含c1个细胞和n个基因的单细胞基因表达矩阵e,以及来自单细胞atac-seq数据的包含c2个细胞和p个peak的单细胞染色质开放矩阵o,分别合并c1个和c2个细胞以得到第i个基因的表达pei和第k个peak的开放性pok:

15、

16、

17、其中,e是单细胞rna-seq数据的的rna片段总数目,o是单细胞atac-seq数据的dna片段总数目,eic是细胞c中第i个基因的表达,okc是细胞c中第k个peak的开放性;通过pok≥2的阈值选择开放的peak,从而构建该细胞类型的匹配的基因表达和染色质开放数据。

18、进一步地,所述调控网络以tf-re-tg三元组为基本单元,其中tf表示转录因子,tg表示目的基因,re表示调控元件;将匹配的基因表达和染色质开放数据输入到peca2模型中构建所述调控网络。

19、进一步地,所述利用每个细胞类型的调控网络构建调控功能区域,是对于每个细胞类型i,其调控网络中的re集合组成该细胞类型的调控功能区域ci;所述表型与细胞类型的关联分数通过整合遗传力富集分数τi及其统计显著性p值pi来定义:

20、ri=τi·(-log pi)

21、其中,ri表示表型与第i个细胞类型的关联分数;τi表示表型在ci中的遗传力富集分数;pi表示遗传力富集分数τi的显著性p值。

22、进一步地,使用block jackknife的方法来估计关联分数ri的标准误差、p值和fdr。

23、一种基于单细胞多组学数据识别表型相关细胞类型的系统,其包括:

24、数据获取模块,用于获取人类的单细胞多组学数据;

25、数学建模模块,用于利用获取的单细胞多组学数据建立细胞类型层面的匹配数据;对于每个细胞类型,以建立的匹配数据为输入构建其调控网络;利用每个细胞类型的调控网络构建调控功能区域,在所有细胞类型的调控功能区域上对遗传力进行建模,并定义表型与细胞类型的关联分数;度量表型与细胞类型的关联分数的显著性,利用表型与细胞类型的关联分数的显著性识别表型相关的细胞类型;

26、模型测试模块,用于获取给定表型或者疾病的全基因组关联分析gwas统计汇总数据,对数学建模模块得到的模型进行测试。

27、本发明公开了一种基于单细胞rna-seq和单细胞atac-seq数据,构建细胞类型层次的调控网络图谱,利用图谱识别表型相关细胞类型的方法,其优点和有益效果包括:

28、1.提出了更有效的基于单细胞数据构建细胞类型层面匹配多组学数据的方法。

29、2.提出了更有效的构建细胞类型的调控网络的方法。

30、3.提出了更准确的估计表型和细胞类型之间关联分数及其显著性的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1