一种mhc补全数据库、其构建方法和应用_3

文档序号:9751168阅读:来源:国知局
-log(HWE)〈l,初步认为 genotyping 正确的样品,以及和 2500 个 LD = 0&&-log(HWE) = 600,初步认为 genotyping 错误的样品,进行对比,正确的点平均深度在12X以上,错误的点平均深度基本上在6X,7X 左右,而且通过手动检查10个初步认为genotyping错误位点的reads覆盖情况,发现多是 落在重复区域而且reads比对质量值并不是很好,因此,我们确定进一步的过滤标准:
[0062] d.在群体中LD = 0的位点;
[0063] e.在群体中log (HWE)彡600的位点;
[0064] 同时出现以上两种情况的位点被滤掉,剩下的位点构成了最终过滤后的genotype 数据集。
[0065] 需要说明的是,本例总共提出了五个过滤条件,但是每个条件具体的过滤参数只 是依据本申请所用到的样品的实际情况来界定的,并不对过滤参数作此限定,例如,本实施 例所用到样品的测序平均深度是50X,所以我们保留了群体中测序深度大于等于6的位点, 如果样品的测序深度提高到80X,也可以把过滤标准提高到测序深度大于等于10的位点. [0066] 本例采取了两步的过滤标准来对原始的数据集进行过滤,首次提出了用LD和HWE 这两个质控条件进行数据质控的方法,使得最终过滤获取的genotype数据集更加准确,为 最终构建完整的MHC补全数据库奠定了基础。
[0067] 实施例三MHC补全数据库
[0068] 1、genotype 数据集
[0069] 在实施例二中我们得到了 genotype数据集,只不过存储格式为genotype格式,我 们采用GT00LS软件将genotype文件转换成PLINK可以识别的ped和map格式。参数如 下:gtool-G-g sample, gen-s sample, sampleinfo-pedgenotype. ped-map genotype, map__snp
[0070] 2、HLA分型的型别数据集和分型对应的氨基酸改变信息数据集
[0071] 基于每个样品高深度的reads序列,我们采用华大基因开发的S0APHLA分型软件 对每个样品进行HLAtyping分型,得到每个样品的型别结果,把它存储为ped和map格式, 即HLA分型的型别数据集。针对型别结果,我们依据IMGT数据库找到每个型别对应的SNP, 和人类基因标准序列hgl8同样位置SNP作比较,如果两者不同,就把它翻译成对应的氨基 酸,从而得到型别对应的氨基酸改变信息数据集,也存储成ped和map格式。
[0072] 其中S0APHLA分型软件可以向华大基因获取,为公开使用软件,并且该软件公开 发表于:Cao H,Wu J, Wang Y, Jiang H, Zhang T,et al. An Integrated Tool to Study MHC Region:Accurate SNV Detection and HLA Genes Typing in Human MHC Region Using Targeted High-Throughput Sequencing. PLoS 0NE8,e69388 (2013).。本例米用的 IMGT 数 据库的网址为 http://www. ebi. ac. uk/ipd/imgt/hla。
[0073] 3、HLA单体型数据集
[0074] 本例所说的单体型是指把MHC区域五个经典的具有代表性的基因连接起来构成 的单体型,比如说 A*40:01-B*13:01-006:02-DRBl*07:02-DQBl*03:03。我们需要知道每个 基因的型别比如说A*40:01都是可以由一些特定的tag-SNP来代表的,即一些并不是随机 的自由组合,而是更加倾向于连在一起连锁不平衡的位点形成的区域,这个区域中比较有 代表性的单核苷酸多态性位点。所以本实施例的重点就是找到每个基因的特定的tag-SNP 数据集,即SNP区分数据集,然后把这些数据集连接起来构成由基因型别来组成的单体型。
[0075] tag-SNP数据集的挑选方法如下:
[0076] (1)从构建的HLA分型的型别数据集中提取五个基因 :HLA-A、HLA-B、HLA-C、 HLA-DRB1和HLA-DQB1的型别数据,然后根据IMGT数据库找到每个型别对应的SNP数据,构 建成每个型别对应的SNP数据集。
[0077] (2)针对每个基因的所有型别对应的SNP数据,找到一个最优的SNP数据集,这个 数据集要求SNP的个数最少,但是能够唯一区分每一个型别。
[0078] 为了便于描述,本例用一个例子说明,如表1所示例子,第一列"型别"是HLA型 另IJ,右边编号1、2、3. . . 10的列均是各型别对应的SNP,我们要挑选一个最佳的SNP数据集 来区分所有的型别,我们的这个型别数据集定义为一个集合R{A*40:01,A*58:01,A*13:01, A*01:01,A*02:01,A*03:01},我们的挑选原则类似贪心算法:首先会挑选第一个能最大 化区分所有型别的SNP,这样就首先找到了 SNP1,即编号1的列,因为这个SNP能最大化 把前3个型别和后3个型别区分开来,这样SNP1就使得R数据集就变成了 R1 {A*40:01, A*58:01,A*13:01}和 R2{A*01:01,A*02:01,A*03:01},接着往下,我们找到了 SNP3,即编 号3的列,这个SNP能最大化把R1和R2拆分开来,这样就得到了数据集Rll {A*40:01, A*58:01},R12{A*13:01},R21{A*01:01,A*02:01}和 R22{A*03:01},以此类推,我们第三个 就找到了 SNP7,即编号7的列,它可以把Rll分开,这样就变成了数据集Rill {A*40:01}, R112{A*58:01},R12{A*13:01},R21{A*01:01,A*02:01}和 R22{A*03:01},最后我们 找到了 SNP9,即编号9的列,可以把R21区分开来,最终可以把所有的型别区分开来得 到 R111{A*40:01}, R112{A*58:01}, R12{A*13:01}, R211{A*01:01}, R212{A*02:01}和 R22{A*03:01},最后的结果是我们找到了最佳SNP数据集,这个数据集包含4个SNP位点 {1,3, 7, 9},这个数据集包含的snp最少,而且最大化把所有的型别区分开。
[0079] 根据以上原则,我们用相同的方法找到了一个由27个SNP组成的最佳SNP数据 集,其中6个SNP能区分出所有HLA-A基因的型别,五个基因的详细信息见表2,这27个SNP 可以把我们8906个样品中的所有型别区分开来。然后对这27个最优组合的SNP数据集进 行phasing分析,进而判断型别得到单体型结果。最终,通过phasing我们得到了由HLA-A, HLA-B,HLA-C,HLA-DR,HLA-DQ这五个基因组成的中国人群单体型结果,用ped和map格式 存成单体型文件。其中phasing分析是指基于附近位点的LD信息把单体型连接起来的分 析方式。
[0080] 表1 SNP区分数据集获取示例
[0081]
[0082] 表2五个基因的SNP区分数据集^
' '
[0083]

[0084] 4、完整的MHC补全数据库
[0085] 上述三个步骤我们得到了四个数据集,分别是:genotype数据集、HLA分型的型 别数据集、氨基酸改变信息数据集和HLA单体型数据集。我们把这四个数据集用PLINK 的一merge命令把它合成一个最终的MHC补全数据集。本例构建的MHC补全数据库的基本 组成如表3所示。
[0086] 表3 MHC补全数据库基本组成
[0087]
[0088] 本实施例把四个数据集合并成一个完整的补全数据集,本例用一个简单易操作的 算法挑选出了最优的一个SNP数据集,然后再用这个数据集phasing得到MHC单体型信息, 相比于用整个SNP数据集进行phasing,这样做既减少了 CPU和内存,又节约了大量时间,最 主要的是能够使phasing得到的单体型结果更准确,从而使得我们构建的数据集更准确。 更加适合用于做GWAS疾病位点的补全分析(imputation)。
[0089] 实施例四数据库性能评估
[0090] 1、数据集
[0091] 参考数据集:本申请构建的含有8
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1