专利名称:单细胞分类和筛选方法及其装置的制作方法
技术领域:
本发明涉及生物信息学,尤其涉及单细胞分类和筛选方法以及用于所述方法的装置。
背景技术:
不同个体之间,个体的不同组织之间,甚至同一组织的不同部位在基因表达、拷贝数变异、表观遗传等方面都存在显著差异。细胞之间也存在异质性,即使是体外培养遗传背景完全相同的细胞群体。对于干细胞或前体细胞,因为任何状态改变都是可遗传的,细胞异质性尤为明显。为了更好地研究细胞生物学,揭示细胞异质性的规律,非常需要开发应用于单个细胞研究的技术方法,因此有学者提出“单细胞分析(SCA) ”概念,从“组学(Omics)I度进行阐述。单细胞分类和筛选为单细胞分析提供了重要基础。
·
单细胞分类可以有效应用于各种干细胞分化过程的研究中,如肿瘤干细胞、胚胎干细胞的定向分化、造血干细胞的研究中,需要筛选不同分化阶段的干细胞,进行各种干细胞的检测。在耐药性研究中,需要对给药不同时期的细胞进行精确分类,从而进一步分析该细胞亚群的耐药性和耐药基因,例如可进行癌症病人的多药耐药性及多药耐药基因与药物滥用、药物耐受、药物依赖的关系的研究。同样地,在药物靶点基因的筛选中,由于药物与细胞,特别是敏感细胞相互作用,将引起细胞外部形态及内部正常代谢过程的一系列变化,因此筛选出敏感细胞是关键的第一步,为后期精确定位药物靶点基因提供重要基础。单细胞分类和筛选应用于建立药效筛选模型,为药物设计、靶点的选择和用药方案的确定提供理论依据,同时使药物筛选有了更高的特异性。目前,常用的筛选单细胞方法多为物理机械、化学或生物的方法,如流式细胞仪、磁性细胞分选仪等方法。一方面,这些技术采用表面活性剂、荧光染料、抗原抗体,细胞毒性大,只能对特异标记的或非特异标记的单细胞悬液进行分选,前期样本制备过程繁琐,且目前对众多荧光探针、单抗(包括细胞表面CD分子)的特异性争论较多,许多细胞亚群并无对应的特异性标记物/特异性抗原;另一方面,这些技术采用生物学、免疫学、化学方法,通过表型测定(包括细胞大小、细胞粒度、细胞表面积、核浆比例等),进行统计学分析,对于亚群分类、筛选和检测的灵敏度低,缺乏有效的准确性评估。
发明内容
在本发明中,除另有说明,否则本文中使用的科学和技术术语具有本领域技术人员所通常理解的含义。同时,为了更好地理解本发明,下面提供相关术语的定义和解释。术语“基因型的可能性文件”,是指利用SNP检测软件,设置先验概率参数利用贝叶斯公式计算出的样本目标区域可能的基因型的后验概率的数值集合;当利用的SNP检测软件是SOAPsnp时,生成的“基因型的可能性文件”即为CNS文件。如本文使用的,“基因型文件”是指选择上述“基因型的可能性文件”中概率最大的基因型作为每个细胞的一致基因型后,根据参考基因组SNP数据集位置信息,提取每个细胞基因型的相应位点,获得的群体SNP在各细胞相应位点的基因型集合。鉴于现有单细胞的分类和筛选方法存在的问题,本发明提出单细胞分类和筛选方法,以及所述方法的装置。本发明提出单细胞分类方法,包括以下步骤将每个单细胞样本经测序得到的reads (读段)结果与参考基因组序列进行比对,并将比对结果进行数据过滤;根据过滤后的数据确定每个单细胞样本的一致基因型(genotype),并将所有单细胞样本的一致基因型保存为SNP数据集; 从已保存的SNP数据集提取与参考基因组SNP数据集位置对应的位点的基因型文件;挑选细胞突变SNP位点,并根据细胞突变SNP位点的基因型文件,对细胞进行分类。本发明还提出单细胞分类装置,包括数据过滤模块,将每个单细胞样本经测序得到的reads与参考基因组序列进行比对,并将比对结果进行数据过滤;基因型确定模块,根据过滤后的数据确定每个单细胞样本的一致基因型,并将所有单细胞样本的一致基因型保存为SNP数据集;基因型文件提取模块,从已保存的SNP数据集提取与参考基因组SNP数据集位置对应的位点的基因型文件;分类模块,挑选细胞突变SNP位点,根据细胞群体突变SNP的基因型文件,对细胞进行分类。本发明还提出单细胞筛选方法,包括以下步骤得到已预测基因组中基因的起止位置;根据细胞分类结果获得已分类群体,计算每类群体中每个基因所有SNP位点的统计量,并累加统计量;对获得的统计量作差异检验,获得检验值;将已预测基因按统计量或检验值进行排序,筛选出统计量或检验值最高的基因。本发明还提出单细胞筛选装置,包括获取单元,得到已预测基因组中基因的起止位置;计算单元,根据细胞分类结果获得已分类群体,计算每类群体中每个基因所有SNP位点的统计量,并累加统计量;对获得的统计量作差异检验,获得检验值;排序单元,耦合于获取单元和计算单元,将已预测基因按统计量或检验值进行排序,筛选出统计量或检验值最闻的基因。本发明采用新一代测序技术(NGS),通过生物信息学方法,对单细胞基因组进行分析和研究,收集细胞亚群(或微粒)进行深入的后续研究。一方面,避免对细胞进行标记的操作,有效解决了传统的单细胞分类方法中某些细胞亚群无对应的特异性标记物而无法进行分类的问题;另一方面,全面完整地分析单细胞基因组的遗传变异信息,并设置多个对照样本,大大提高了细胞亚群分类的准确性。本发明还提出单细胞筛选方法,能够筛选出细胞亚群(或微粒),提高了细胞筛选的准确性。
图I为现有技术的重复片段(Duplication Reads)示意图;图2为现有技术的唯一比对上参考基因组的片段(Unique mapped reads)的示意图;图3为本发明单细胞分类和筛选的方法流程图;图4为本发明肾癌外显子组测序的N-J关系树;图5为本发明肾癌外显子组测序的最大似然关系树;图6为本发明肾癌外显子组测序PCA结果图,横坐标表示第一主成分向量,纵坐标·表不第二主成分向量;图7为本发明肾癌外显子组测序PCA结果图,横坐标表示第一主成分向量,纵坐标表不第三主成分向量;图8为本发明肾癌外显子组测序PCA结果图,横坐标表示第一主成分向量,纵坐标表不第四主成分向量;图9为本发明肾癌外显子组测序Structure结果图,其中“系列I”表示癌细胞群体,“系列2”表示癌旁细胞群体;图10为本发明53个癌细胞与8个正常细胞分类关系示意图;图11为本发明癌细胞与正常细胞聚类示意图,横坐标表示第一主成分向量,纵坐标表示第二主成分向量;图12为本发明单细胞分类装置示意图;图13为本发明单细胞分类装置中筛选模块示意图。
具体实施例方式本发明采用新一代测序技术(NGS),通过生物信息学方法,对单细胞基因组进行分析和研究,筛选和收集细胞亚群(或微粒)进行深入的后续研究。以更高效、方便地应用于临床诊断和治疗(如产前诊断、胚胎植入前遗传诊断、个体化治疗、多点图谱制作、精子和卵子的分型、遗传病诊断、肿瘤(如淋巴瘤、白血病)分型等)、医学研究(如自闭症、神经系统疾病和自体免疫性疾病的研究、基因组变异率研究、干细胞研究、耐药性研究、药物靶点基因的筛选、转录组检测、细胞模型研究、种群鉴定等)、考古学研究、法医学检测中。本发明中涉及的单细胞样本包括核酸(基因组DNA或RNA,如非编码RNA、mRNA);单细胞来自生物体,采用常规方法制备。特别的,DNA或RNA可由细菌、原生动物、真菌、病毒及高等生物/高等动植物,如哺乳动物,特别是人类的单细胞提取或扩增得到。单细胞可经过体外培养,或者从临床样本(包括血浆、血清、脊液、骨髓、淋巴液、腹水、胸腔积液、口腔液体、皮肤组织,呼吸道、消化道、生殖道、泌尿道,眼泪、唾液、血细胞、干细胞、肿瘤)中直接分离得到,胎儿细胞可来自胚胎(如一个或几个拟胚/胚胎)或母体血液,可来自活体或者死亡生物体。样本包括单细胞悬液、石蜡包埋组织切片、穿刺活检组织。样本可反映细胞特定状态,如细胞增殖、细胞分化、细胞凋亡/死亡、疾病状态、夕卜界刺激状态、发育阶段。
特别地,单细胞样本来自于哺乳动物,包括植入前胚胎、干细胞、疑似癌细胞、病源生物,甚至来自犯罪现场。例如分析人类卵裂球细胞(八细胞阶段胚胎及以后),可检测胎儿基因组是否出现遗传缺陷。下面结合图3,对本发明单细胞分类方法的具体实现过程进行详细说明。其中,图3示出了从(7)开始的流程。(I)分离单细胞采用物理机械、化学、生物的方法,如微流控、口吸分离、梯度稀释、低熔点琼脂糖固定等 方法,分离得到包含完整基因组的单个细胞。(2)裂解细胞对分离得到的单个细胞,采用去污剂法、煮沸法、碱变性法、溶菌酶法、有机溶剂法等方法,裂解细胞核,得到完整的细胞基因组DNA。(3)单细胞全基因组扩增(WGA)目前全基因组扩增有2种策略即基于PCR的扩增,如DOP-PCR、PEP-PCR、T-PCR,和线性DNA扩增,如OmniPlex WGA、多重置换扩增(MDA)。进行单细胞全基因组扩增,以达到新一代测序技术所要求的DNA起始量。(4)全基因组扩增产物定量采用凝胶电泳检测、Agilent 2100Bioanalyzer检测、Quant-iT dsDNA BR Assay Kit检测等方法对单细胞全基因组的扩增产物进行定量,结果显示为无降解、符合新一代测序技术所要求的DNA起始量的样本才可以继续DNA文库构建以及上机测序。(5)全基因组扩增产物检测采用STR检测、Housekeeping Gene检测等方法,对单细胞全基因组的扩增产物进行检测,结果显示为扩增产物在相应物种的染色体上均匀分布的样本才可以继续DNA文库构建以及上机测序。¢)DNA文库构建及上机测序采用常规的全基因组DNA文库构建或外显子组(Exome)序列捕获技术进行DNA文库构建,质检合格后,采用新一代测序技术进行单细胞基因组测序,如 Illumina HiSeq 2000 测序系统、Illumina Genome Analyzer II 测序系统、AB SOLiD 4. O 测序系统、Roche GS FLX Titanium System 等。(7) Reads 定位每个单细胞样本经测序得到的Reads结果用短序列比对软件(如SOAPaligner、BWA.Bowtie)与参考基因组序列(如人类基因组HG18、HG19)进行比对,并根据具体数据设置最优参数,以对Reads进行准确定位。(8)基本数据统计根据上述比对结果,计算出每个样本(单细胞或组织)相对于参考基因组序列的测序深度和覆盖度等结果。测序深度(sequencing depth)指一个基因组被测到的平均深度,计算方法为测序的总碱基数除以基因组的大小。覆盖度(sequencing coverage)指一个基因组中被测到的部分所占的大概比例,计算方法为基因组被覆盖到的位点除以基因组的有效长度。测序深度和覆盖度用来评价用于生物信息分析的数据量是否足够,测序是否均
O(9)数据过滤当存在多对重复双末端reads时,在多对reads的序列完全一致时随机选择一对reads,将所述多对reads中其他重复双末端reads去除;和/或去除未唯一比对上参考基因组序列的reads。根据数据特点挑选出每个DNA文库中重复双末端(pair-end)reads,比如,由于PCR扩增次数过多引起的重复双末端reads,当然,不限于PCR扩增,也可以是其他扩增方式导致具有多对重复的双末端reads。当存在多对重复双末端reads,且所述重复双末端reads的序列完全一致时,从中随机选择一对,将其他重复双末端reads去除。如图I所示,三对reads A、B、C序列完全一致并且比对到基因组上的起止位置也完全一致,起止位置完全一致即具有重复双末端。在这种情况下只随机保留其中一对reads,将其他重复的reads去除。为了确认数据的准确性,还可以去除未唯一比对上参考基因组序列的reads。以对 人类基因组进行外显子组测序为例,当然,并不限于此,比如对其他哺乳动物等进行测序,测序方式也不限于外显子组测序,比如全基因组测序等方式。考虑到人类外显子区域在基因组上并不可能有多个拷贝,即不可能是重复序列,所以外显子组测序得到的reads应大都唯一比对上人类参考基因组。为排除错误比对造成的影响,只挑选出唯一比对上参考基因组的reads进行分析(即hit数为I的reads),这样在极大程度上减少了错误比对造成的影响。如图2所示,Reads D比对上参考基因组的多个位置,而Reads E只比对上唯——个位置,由于外显子组在基因组上并不是重复区域,因此直接去除Reads D0(10)个体基因型(genotype)的判定我们充分考虑并利用参考基因组上的已有信息,用基因型判定软件(如SOAPsnp、SAMtooIs/PiIeup/MpiIeup),判定每个细胞样本目标区域的可能的基因型,以得到每个细胞样本的基因型的可能性文件。本发明中所测的是外显子区域的数据,在该实施例中,目标区域是外显子所在的区域。一般会指明所需测序和生物信息分析的特定区域如chrl 20038 20358chrl 58832 59992chrl 357410 358570......(I I) SNP 数据集由于每个细胞基因组存在一些低深度的区域,本发明综合所有细胞基因型的可能性文件,利用最大似然法(maximum likelihood approach)整合所有细胞的数据,产生包含所有样本每个位点的伪基因组(Pseudo-genome)。选择概率最大的基因型作为每个细胞的一致基因型,通过基因型和测序深度等信息检测出高质量的SNPs。得到样本的一致性序列后,结果保存为群体SNPs格式的SNP数据集。(12)群体SNP的基因型根据参考基因组SNP数据集位置信息,从基因型的可能性文件中提取每个细胞相应位点的基因型,得到群体SNP在各细胞相应位点的基因型文件。位点指SNP所在的位置(position)。
(13)挑选与细胞突变相关的SNP位点本发明主要在于寻找各细胞间的差异位点,因此须挑选出与细胞突变有关的位点。首先,去除非群体间的SNP位点。非群体间的SNP位点的定义所有个体碱基型都一样,且相对参考序列都是SNP,那么该位点是非群体间的SNP位点。例如,参考序列是A,所有个体在该位置都是杂合的碱基型R,该位点即是非群体间的SNP位点。如chrl 319660 RRRRRRRRRRRRRRR·
其次,还可以去除存在杂合丢失的位点。由于单细胞在WGA扩增时,存在只扩增出一对染色体中的一条的情况,导致等位基因丢失(Allele Dropout),所以检测出来的每个细胞在某些位点存在杂合丢失的现象。排除这一类位点的干扰。最后,去除已经公布的SNP位点,Itia,以人类为例,去除正常人的SNP位点,即去除人类基因组HG18的dbSNP、炎黄一号的SNP和千人基因组的SNP。上述的三个操作顺序不分先后,在执行完这三个操作之后,得到的SNP位点是细胞突变SNP位点。(14)群体结构分析根据细胞群体突变SNP位点的基因型文件,分别运用生物信息群体分析中常用的方法,如邻接N-J方法构树、MEGA软件、主成分分析(Principal Components Analysis,PCA)、群体结构(Group Structure)等对细胞进行分类。在进行细胞分类时,可以采用以上方法中的至少一种。作为本发明的一个实施例,采用以上全部方法,当各种方法的分类结果一致时,确认为最终的细胞分类结果。14-1、邻接N-J方法构树由于不同类别的细胞受到选择的程度不同,即单碱基的突变率不同,因此进化中的类别差异也在SNP上表现出来。两个细胞的差异程度可由SNP数据计算得到。经理论推算,得到如下公式Disij =
k=l上式中Disij表示细胞i和细胞j差异距离,其中η是SNP的总数目,而顿;表示
细胞i和细胞j在位点k的差异程度,其中定义
O基因型完全相同,如位置h细胞,_/+M diff;; =< I 基因型完全不同,如位置h细胞
[ο. 5基因型部分不同,如位置么细胞,_/+:Μ由于人类基因组是二倍体,A表示等位基因中的两个位点都是A,M是杂合位点,即是A和C组合。基于上述步骤(13)获得的细胞群体突变SNP位点的基因分型文件,统计所有单细胞样本两两对比的差别,得到一个目标区域两两对比的差异矩阵,将上述差异矩阵应用至丨J Fneighbor 程序(http://emboss, bioinformatics, nl/cgi-bin/emboss/help/fneighbor),该程序通过邻接(N-J)的方法可得到其进化树。
14-2、MEGA 软件利用MEGA 软件(http://www. megasoftware, net),将每个细胞所有 SNP 位点的基因型文件组成序列,一个细胞对应一个序列,作为MEGA的输入文件,MEGA根据各细胞序列上的差异,其中该软件有三种方法(Maximum likelihoods Least Squares和Maximumparsimony)构成关系树。14-3、PCA主成分分析在统计学中,主成分分析(Principal Components Analysis, PCA)是一种简化数据集的技术,是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大变量数在第一个坐标(称为第一主成分)上、第二大变量数在第二坐标(第二主成分)上,依次类推。主成分分析经常用于减少数据集的维数,同时保留对数据集贡献最大的特征变量。通过保留低阶主成分,忽略高阶主成分来实现的。这是由于低阶成分往 往能够保留数据集中最重要的方面。根据参考文献A tutorial on Principal Components Analysis. Lindsay ISmith, 2002-02和真实的SNP数据特点,首先将SNP数据转换成数字矩阵(与参考序列一致为0,相反为2,简并碱基为I)并作均一化。然后通过上述介绍的方法构建线性向量方程。妁=ai0+ UllXl + anx2t +.... + ^20Xi2'其中i从I到21表示第i个样本。应用R语言软件包强大的解方程能力,解得矩阵a,根据各细胞的数据特点提取前四个主成分向量,以向量作为坐标轴展示各细胞聚类情况。14-4、Structure 群体结构Structure 软件(http://pritch.bsd.uchicago.edu/software/structure2_l.html)基于SNP位点的基因分型数据,推断是否存在不同群体并判断每个个体所归属的群体。根据软件说明,将群体SNP的基因型文件转换格式,作为Structure输入文件并在混合模型中采用高达5万次模拟,假设多个群体存在时,计算每个细胞归属各类群体的概率。经过以上的方法流程,实现了对单细胞的分类。在分类的基础上,还可以进一步筛选单细胞,其流程如下(15)群体结构分析结果根据上述群体结构分析结果,实现了对单细胞的分类,提取每个细胞样本信息,剔除存在异议的细胞,比如分类不明确或明显离群样本。(16)筛选相关基因根据细胞群体的SNP,通过一系列统计和检验进行这些群体在基因组的比较,找出有明显差异的区域或者基因,即可筛选到相关系数较高的基因。以人类基因组为例,具体做法如下从人类基因组数据库中下载HG18对应的注释文件,得到目前已预测的人类基因组中30000多个基因的起止位置。根据分类结果获得已分类群体,计算每类群体中每个基因所有SNP位点的统计量,并累加统计量。这里所说的每个基因是指已预测的基因组中的基因。其中主要采用的计算统计量π的公式如下,π是衡量一个群体多态性高低的指标,a, b指某群体中两种碱基的样本数,公式可以为a^bπ 二
^a+b还可以对获得的统计量作差异检验,获得检验值。所采用的检验值至少为如下之一 Lod、Fst, Pbs0作为本发明的一个实施例,可以采用以上三种检验值,当以上三种检验值一致时,作为最终的检验值结果。将这30000多个基因按统计量和/或检验值进行排序,挑选出统计量和/或检验值最高的基因。也就是说,可以根据统计量进行排序、可以根据检验值进行排序、也可以根据统计量和检验值进行排序。作为本发明的一个实施例,可以采用最后一种方法,当根据统计量得到的排序结果与根据检验值得到的排序结果一致时,作为最终筛选出的基因。·
(17)基因功能分析查看筛选出的基因的功能,分别进行功能分析。判断这些基因是否在某些通路中受到影响,从而与某些疾病的发生机制相关。如图12所示,为本发明单细胞分类装置示意图。该装置包括数据过滤模块,将每个单细胞样本经测序得到的reads结果与参考基因组序列进行比对,并将比对结果进行数据过滤;基因型确定模块,与数据过滤模块耦合,根据过滤后的数据确定每个单细胞样本的一致基因型,并将所有单细胞样本的一致基因型保存为SNP数据集;基因型文件提取模块,与基因型确定模块耦合,从已保存的SNP数据集提取与参考基因组SNP数据集位置对应的位点的基因型文件;分类模块,与基因型文件提取模块耦合,挑选细胞突变SNP位点,根据细胞群体突变SNP的基因型文件,对细胞进行分类,采用的分类方法至少包括如下之一邻接N-J方法构树、MEGA软件、PCA主成分分析、Structure群体结构。在另一实施例中,还如图12所示,单细胞分类装置还包括筛选模块,与分类模块耦合,用于得到已预测基因组中基因的起止位置;根据分类结果获得已分类群体,计算每类群体中每个基因所有SNP位点的统计量,并累加统计量;对获得的统计量作差异检验,获得检验值;将已预测基因按统计量或检验值进行排序,筛选出统计量或检验值最闻的基因。筛选模块可以进一步包括以下单元,如图13所示,其中获取单元,得到已预测基因组中基因的起止位置;计算单元,根据细胞分类结果获得已分类群体,计算每类群体中每个基因所有SNP位点的统计量,并累加统计量;对获得的统计量作差异检验,获得检验值;排序单元,耦合于获取单元和计算单元,将已预测基因按统计量或检验值进行排序,筛选出统计量或检验值最闻的基因。本发明单细胞分类装置中各个模块执行的具体操作体现在上述方法流程中,也可以根据以下实施例看出各个模块的具体操作。下面通过具体实施例,对本发明作进一步说明。实施例一肾癌单细胞的分类1-1、Reads 定位每个单细胞样本经测序得到的reads结果用SOAPaligner比对软件(http://soap, genomics, org. cn/soapaligner. html)与参考基因组序列(人类基因组HG18)进行比对,由于人类SNP在千份之二并且Reads的读长为lOObp,所以SOAP比对时设置每条Reads最多有3个错误比对(Mismacth),不容Gap的参数,以确保可比对上的Reads的位置准确。1-2、基本数据统计
根据上述比对结果,计算出每个样本(单细胞或组织)相对于参考基因组序列的测序深度和覆盖度等结果,经统计得到全基因组测序且Mean Depth为3X附近时,由于PCR扩增存在一定的偏向性(Bias),所以样本的覆盖度在55-90%之间波动较大。表I肾癌单细胞样本全基因组测序的覆盖度和深度数据
单细胞样本ID覆盖度平均深度单细胞样本ID 覆盖度平均深度
RC-I83.24% 2.97RC-1264.75% 2.54
RC-266.69% 2.66RC-1354.37% 2.78
RC-362.43% 2.94RC-1467.36% 2.69
RC-467.18% 2.68RC-1561.15% 2.88
RC-572.12% 3.06RN-I83.38% 2.61
RC-684.21% 3.04RN-278.38% 2.44
RC-779.23% 3.20RN-364.56% 2.53
RC-875.01% 3.10RN-466.18% 2.84
RC-962.72% 3.21RN-582.99% 2.92
RC-1061.07% 2.87RN-T88.12% 2.71
RC-Il59.66% 2.84其中RC-I至RC-15表示肾癌单细胞,共有15个单细胞样本;RN_1至RN_5表示癌旁单细胞;RN-T表示正常组织直接提取DNA测序,以作为对照用于数据分析和评估。主要以癌旁单细胞作为对照样本。也存在以癌旁单细胞以及正常组织都同时作为对照样本,如在去除杂合丢失的位点时就用到上述两个对照样本。在外显子组测序中增加测序深度,当外显子目标区域的平均深度(Mean Depth)为30 X附近时,目标区域覆盖度达到80-96%。从统计学意义上看,一个位点有四条reads支持则可以判断该位点碱基的准确性达到99%,而统计得到测序深度为4的位点占外显子区域的比例达到60-90%,说明外显子组测序的数据比全基因组测序得到的数据更好。表2肾癌单细胞样本外显子组测序的覆盖度和深度数据
权利要求
1.单细胞分类方法,包括以下步骤 将每个单细胞样本经测序得到的reads结果与参考基因组序列进行比对,并将比对结果进行数据过滤; 根据过滤后的数据确定每个单细胞样本的一致基因型,并将所有单细胞样本的一致基因型保存为SNP数据集; 从已保存的SNP数据集提取与参考基因组SNP数据集位置对应的位点的基因型文件; 挑选细胞突变SNP位点,并根据细胞突变SNP位点的基因型文件,对细胞进行分类。
2.根据权利要求I所述单细胞分类方法,将比对结果进行数据过滤的操作,包括以下步骤 当存在多对重复双末端reads时,在多对reads的序列完全一致时随机选择一对reads,将所述多对reads中其他重复双末端reads去除;和/或去除未唯一比对上参考基因组序列的reads。
3.根据权利要求I或2所述单细胞分类方法,根据过滤后的数据确定每个单细胞样本的一致基因型的操作,包括以下步骤 根据过滤后的数据计算每个单细胞样本目标区域基因型的可能性文件; 根据基因型的可能性文件产生包含所有单细胞样本每个位点的伪基因组,从伪基因组中选择概率最大的基因型作为每个单细胞样本的一致基因型。
4.根据权利要求I或2或3所述单细胞分类方法,挑选细胞突变SNP位点的操作,包括以下步骤 去除非群体间的SNP位点、去除存在杂合丢失的位点和/或去除已经公布的SNP位点,得到细胞突变SNP位点。
5.根据权利要求4所述单细胞分类方法,去除存在杂合丢失的位点的操作中,去除满足以下条件的位点 当单细胞样本数为N时,N为自然数,正常组织直接提取DNA测序的最后一列为杂合位占. 其它N-I个单细胞样本中,杂合位点和数据丢失的样本数大于等于N-3。
6.根据权利要求I至5中任一所述单细胞分类方法,从已保存的SNP数据集提取与参考基因组SNP数据集位置对应的位点的基因型文件的操作,包括以下步骤 每个位点的一致性基因型的质量值不小于20,秩检验P值不小于I 对于杂合变异的SNPs :最好碱基型测序质量值不小于20、测序深度不小于6,次好碱基型测序质量值不小于20,测序深度不小于2,且两基因型测序深度的比值在O. 2-5范围内; 根据参考基因组SNP数据集位置信息确定位点,提取每个细胞每个位点的基因分型数据生成基因型文件。
7.根据权利要求I至6中任一所述单细胞分类方法,对细胞进行分类之后,还包括以下步骤 提取每个细胞样本信息,剔除存在异议的细胞。
8.根据权利要求I或7所述单细胞分类方法,对细胞进行分类之后,还包括以下步骤 得到已预测基因组中基因的起止位置; 根据分类结果获得已分类群体,计算每类群体中每个基因所有SNP位点的统计量,并累加统计量; 对获得的统计量作差异检验,获得检验值; 将已预测基因按统计量或检验值进行排序,筛选出统计量或检验值最高的基因。
9.单细胞分类装置,包括 数据过滤模块,将每个单细胞样本经测序得到的reads结果与参考基因组序列进行比对,并将比对结果进行数据过滤; 基因型确定模块,根据过滤后的数据确定每个单细胞样本的一致基因型,并将所有单细胞样本的一致基因型保存为SNP数据集; 基因型文件提取模块,从已保存的SNP数据集提取与参考基因组SNP数据集位置对应的位点的基因型文件; 分类模块,挑选细胞突变SNP位点,根据细胞群体突变SNP的基因型文件,对细胞进行分类。
10.根据权利要求9所述单细胞分类装置,其中 数据过滤模块在有多对重复双末端reads时,从序列完全一致的多对reads中随机选择一对reads,将所述多对reads中其他重复双末端reads去除;和/或去除未唯一比对上参考基因组序列的reads。
11.根据权利要求9或10所述单细胞分类装置,其中 基因型确定模块根据过滤后的数据计算每个单细胞样本目标区域基因型的可能性文件;根据基因型的可能性文件产生包含所有单细胞样本每个位点的伪基因组,从伪基因组中选择概率最大的基因型作为每个单细胞样本的一致基因型。
12.根据权利要求9或10或11所述单细胞分类装置,其中 分类模块去除非群体间的SNP位点;去除存在杂合丢失的位点;和/或去除已经公布的SNP位点,得到细胞突变SNP位点。
13.根据权利要求12所述单细胞分类装置,其中 分类模块去除的杂合丢失位点满足以下条件当单细胞样本数为N时,N为自然数,正常组织直接提取DNA测序的最后一列为杂合位点;其它N-I个单细胞样本中,杂合位点和数据丢失的样本数大于等于N-3。
14.根据权利要求9至13中任一所述单细胞分类装置,其中 基因型文件提取模块根据参考基因组SNP数据集位置信息确定位点,提取每个细胞每个位点的基因分型数据生成基因型文件; 每个位点的一致性基因型的质量值不小于20,秩检验P值不小于I 对于杂合变异的SNPs :最好碱基型测序质量值不小于20、测序深度不小于6,次好碱基型测序质量值不小于20,测序深度不小于2,且两基因型测序深度的比值在O. 2-5范围内。
15.根据权利要求9至14中任一所述单细胞分类装置,其中 分类模块提取每个细胞样本信息,剔除存在异议的细胞。
16.根据权利要求9或15所述单细胞分类装置,还包括 筛选模块,得到已预测基因组中基因的起止位置;根据分类结果获得已分类群体,计算每类群体中每个基因所有SNP位点的统计量,并累加统计量;对获得的统计量作差异检验,获得检验值;将已预测基因按统计量或检验值进行排序,筛选出统计量或检验值最高的基因。
17.单细胞筛选方法,包括以下步骤 得到已预测基因组中基因的起止位置; 根据细胞分类结果获得已分类群体,计算每类群体中每个基因所有SNP位点的统计量,并累加统计量; 对获得的统计量作差异检验,获得检验值; 将已预测基因按统计量或检验值进行排序,筛选出统计量或检验值最高的基因。
18.单细胞筛选装置,包括 获取单元,得到已预测基因组中基因的起止位置; 计算单元,根据细胞分类结果获得已分类群体,计算每类群体中每个基因所有SNP位点的统计量,并累加统计量;对获得的统计量作差异检验,获得检验值; 排序单元,耦合于获取单元和计算单元,将已预测基因按统计量或检验值进行排序,筛选出统计量或检验值最高的基因。
全文摘要
本发明提出单细胞分类和筛选的方法,以及用于所述方法的装置。将样本测序得到的reads与参考基因组进行比对,并将比对结果进行数据过滤;根据过滤后的数据确定每个单细胞样本的一致基因型,并将所有单细胞样本的一致基因型保存为SNP数据集;从已保存的SNP数据集提取与参考基因组SNP数据集位置对应的位点的基因型文件;挑选细胞突变SNP位点,并根据细胞突变SNP位点的基因型文件,对细胞进行分类及功能基因筛选。本发明避免对细胞进行标记的操作,解决了传统的单细胞分类方法中某些细胞亚群无对应的特异性标记物而无法分类的问题;另一方面,全面完整地分析单细胞基因组的遗传变异信息,大大提高了细胞亚群分类的准确性。
文档编号C12Q1/68GK102952854SQ20111024535
公开日2013年3月6日 申请日期2011年8月25日 优先权日2011年8月25日
发明者徐讯, 鲍莉, 何伟明, 侯勇, 陶晔 申请人:深圳华大基因科技有限公司, 深圳华大基因研究院