一种mhc补全数据库、其构建方法和应用_4

文档序号:9751168阅读:来源:国知局
906个样品的MHC补全数据库。
[0092] 验证集:从其它项目中挑选出1000个样品的只含有MHC少数SNP位点的数据集。
[0093] 2、方法
[0094] 把本申请构建的8906个样品的MHC补全数据库作为参考数据集,用它来补全1000 个样品中除验证集中记载的SNP以外的其它的genotype位点以及型别、单体型等信息。由 于我们有这1〇〇〇个样品正确的型别结果,所以我们拿补全后的型别结果和真实的型别结 果作比较,进而验证补全的正确性,以此来评估我们的MHC补全数据库补全其它缺少信息 的样品的准确性。
[0095] 3.评估结果
[0096] 1000个验证样品补全后的型别结果和真实的型别结果比较分析结果如表4所示。
[0097] 表4 MHC补全数据库评估结果
[0098]
[0099] 结果显示,采用本申请的构建方法所构建的MHC补全数据库对样品的平均补全准 确率达到96%以上,对两位型别的平均补全准确率达99%以上。
[0100] 实施例五MHC补全数据库的应用
[0101] 在本申请的MHC补全数据库的基础上,本例提供了 一种评价有效样品数目的方 法。该方法的原理是:因为我们构建了 8906个大样品数目的MHC补全数据库,可以说这个 数据库含有最全的MHC区域信息,但是通常情况下我们很难找到这么大的样品数目,所以 基于此考虑,本例提供一种方法,检测多少样品量,即有效样品数目,可以对群体的MHC区 域有很好的覆盖,让人们用相对合适的样品量也可以做到很好地研究MHC区域的特征。具 体操作方法如下:
[0102] (a)首先,我们定义数据库中的全部数据集的数量为Ta,即数据集包含8906个样 品的所有MHC区域信息;
[0103] (b)其次,我们从8906个样品中随机选择N个样品,这样这N个样品就包含有Na 个型别信息,然后定义Na个型别信息对总样品的覆盖率Cov = Na/Ta,其中N > 1 ;
[0104] (c)逐步增加随机抽取样品的数量,即逐步增大N值,直至N个样品的覆盖率 Cov大于或等于预设值,此时样品数量N即所述建库所需的有效DNA样品数量。假设我们 希望达到覆盖总样品95%的型别,这样Cov = 0. 95,然后我们逐渐增加样品的数目N = 100,. .,200,. .,300,..,直到挑选的样品数目使得其包含的型别数目Na占总型别数目Ta 的比例超过95%位置。则该样品数目就是有效样品数目。
[0105] 对五个基因分别按照上述方法做有效样品数目的统计,结果如表5所示。最终我 们得到205个有效样品可以对每个基因的覆盖率达到95%以上,基本可以满足使用。当有 效样品数目达到1066个时,对每个基因的覆盖率达到99%以上。有效样品数量与覆盖率的 关系如图5所示,从图5中可以明显看出,随着有效样品数目的增加,我们对群体型别的覆 盖率也逐渐增加。
[0106] 表5有效样品数目分析结果
[0107]
[0108] 本例创造性的将所构建的MHC补全数据库用于评估多少样品量可以很好的覆盖 群体的型别变异,实现用最少的样品量、最低的成本达到有效的研究群体特征的目的。这个 应用是本申请首次提出来的,连千人基因组(l〇〇〇genome project)工程和hapmap研究都 不曾做过类似的评估。
[0109] 以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申 请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱 离本申请构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本申请的保护 范围。
【主权项】
1. 一种MHC补全数据库的构建方法,包括: ⑴从人类基因组DNA样品中分离出MHC区域的片段,对分离的MHC片段进行测序,将 测序结果与人类基因标准序列比对,采用变异检测软件对比对结果进行检测校正,获得DNA 样品的变异基因型数据; (2) 按以下条件对步骤(1)获得的DNA样品变异基因型数据进行筛选, a. 在群体中测序深度彡X的位点,X彡6, b. 在群体中数据的缺失率〈0. 05的位点, c. 等位基因碱基型出现次数大于一次的位点, 获取满足以上三个条件的位点,然后过滤掉以下条件的位点, d. 在群体中连锁不平衡值LD = 0的位点, e. 在群体中哈温平衡指标log (HWE)彡600的位点, 剩下的位点组成genotype数据集; (3) 采用分型软件对步骤(2)获得的genotype数据集进行分析,得到每个DNA样品的 HLA分型的型别数据集; (4) 统计每个HLA分型的SNP,将统计的各个分型的SNP与IMGT数据库中相应分型的 SNP相比较,如果两者不同,则把统计的SNP翻译成氨基酸,从而得到每个分型对应的氨基 酸改变信息数据集; (5) 根据步骤(4)统计的每个HLA分型的SNP,比较各个HLA分型的SNP数据集,获得 数量最少的,且能够区分各个HLA分型的SNP区分数据集,对SNP区分数据集进行phasing 分析,获得每个分型的HLA单体型数据集; (6) 将所述genotype数据集、所述HLA分型的型别数据集、所述氨基酸改变信息数据集 和所述HLA单体型数据集合成为一个数据库,即MHC补全数据库。2. 根据权利要求1所述的构建方法,其特征在于:所述DNA样品包括采集自至少205个 个体的样品,优选的采集自至少1066个个体的样品。3. 根据权利要求1所述的构建方法,其特征在于:所述步骤(1)中的变异检测软件为 GATK、SAMT00LS或S0APSNP,优选的,变异检测软件为GATK。4. 根据权利要求1所述的构建方法,其特征在于:所述步骤(3)中的分型软件为 S0APHLA分型软件。5. 根据权利要求1所述的构建方法,其特征在于:所述步骤(6)中采用PLINK的merge 命令把所述genotype数据集、所述HLA分型的型别数据集、所述氨基酸改变信息数据集和 所述HLA单体型数据集合成为一个数据库。6. 根据权利要求1-5任一项所述的构建方法,其特征在于:所述人类基因标准序列为 hgl8〇7. -种MHC补全数据库,其特征在于:包括合成在一起的genotype数据集、HLA分型的 型别数据集、氨基酸改变信息数据集和HLA单体型数据集; 所述genotype数据集包含所有MHC区域的单核苷酸多态性位点和插入删除多态性位 点的信息; 所述HLA分型的型别数据集包含所有MHC区域的个体型别信息; 所述氨基酸改变信息数据集包含所有MHC区域的各个型别所对应的氨基酸的改变信 息; 所述HLA单体型数据集包含所有MHC区域的HLA单体型的信息。8. 根据权利要求7所述的MHC补全数据库,其特征在于:所述MHC补全数据库采用权 利要求1-6任一项所述的构建方法构建。9. 采用权利要求7或8所述的MHC补全数据库计算建库所需的有效DNA样品数量的方 法,包括: (a) 设定数据库中的全部数据集的数量为Ta ; (b) 从数据库的所有样品中随机抽取N个样品,N个样品包含的数据量为Na,N个样品 对数据库全部数据集Ta的覆盖率Cov = Na/Ta,其中N > 1 ; (c) 逐步增加随机抽取样品的数量,即逐步增大N值,直至N个样品的覆盖率Cov大于 或等于预设值,此时样品数量N即所述建库所需的有效DNA样品数量。10. 根据权利要求9所述的方法,其特征在于:所述预设值大于等于0. 95。
【专利摘要】本申请公开了一种MHC补全数据库及其构建方法和应用。本申请的MHC补全数据库包括合成在一起的genotype数据集、HLA分型的型别数据集、氨基酸改变信息数据集和HLA单体型数据集;该数据库的构建过程中首次采用LD和HWE进行变异结果的过滤,提高了数据准确性;采用简单易操作的方法获得一个数量最少的SNP区分数据集,然后在phasing分析得到MHC单体型信息,相比于用整个SNP数据集进行phasing,本申请的构建方法更节约时间、减少CPU和内存使用,并且得到的单体型信息更准确。本申请的MHC补全数据库,包含了MHC区域的多种数据集,能够有效的补全位点,为MHC区域的深入研究奠定了基础。
【IPC分类】C12Q1/68, G06F19/28
【公开号】CN105512514
【申请号】CN201410490501
【发明人】刘小敏, 曹红志, 刘晓, 张涛
【申请人】深圳华大基因股份有限公司
【公开日】2016年4月20日
【申请日】2014年9月23日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1