本申请涉及单细胞的混样拆分,具体是一种基于snp多态性的单细胞barcode身份识别方法。
背景技术:
1、目前单细胞的拆分,多使用细胞表面蛋白进行标记拆分,容易出现实验方面的认为干预导致的细胞拆分问题以及文库建库方面影响。
技术实现思路
1、本申请的目的在于提供一种基于snp多态性的单细胞barcode身份识别方法,以解决上述背景技术中提出的技术问题。
2、为实现上述目的,本申请公开了以下技术方案:
3、一种基于snp多态性的单细胞barcode身份识别方法,使用人类的snp变异位点数据库进行位点的确定进行验证和识别;具体包括:
4、s1:通过star将原始fastq数据的比对回基因组,通过k-mer标签,在参考基因组上快速定位可能的比对位置,获取比对bam文件;
5、s2:使用samtools的mpileup提取snp的位点信息,过滤低覆盖度低于20的位点,去除基因型0/1的杂合位点的信息,并计算该位点的基因型0/0和基因型1/1的比例;
6、s3:将基于所述s1和所述s2获取结果与人类的snp变异位点数据库进行同点位比较,获取权重值weight,其中,pl为人类的snp变异位点数据库中的基因型0/0、基因型1/0和基因型1/1的质量值,site-number为检测到的所有相同位点的数量,coverage为检测到该位点的覆盖率;
7、s4:获取每一个细胞对应的snp位点的权重值矩阵,使用sklearn的机器学习的梯度优化算法进行分类,最终获取每一个barcode最可能属于的供体。
8、有益效果:本申请的基于snp多态性的单细胞barcode身份识别方法,基于人单核苷酸多态性(snp)拆分多样本单细胞测序数据,snp能很好的在减少实验环节方面的干扰,通过不同人的snp位点直接在fastq层面识别差异,最终通过位点的差异权重进行身份的识别,很好的降低了人为的干扰,提高多样本的单细胞拆分的准确性。
1.一种基于snp多态性的单细胞barcode身份识别方法,其特征在于,使用人类的snp变异位点数据库进行位点的确定进行验证和识别;具体包括: