一种mhc补全数据库、其构建方法和应用_4

文档序号：9751168阅读：来源：国知局

906个样品的MHC补全数据库。
[0092] 验证集：从其它项目中挑选出1000个样品的只含有MHC少数SNP位点的数据集。
[0093] 2、方法
[0094] 把本申请构建的8906个样品的MHC补全数据库作为参考数据集，用它来补全1000 个样品中除验证集中记载的SNP以外的其它的genotype位点以及型别、单体型等信息。由于我们有这1〇〇〇个样品正确的型别结果，所以我们拿补全后的型别结果和真实的型别结果作比较，进而验证补全的正确性，以此来评估我们的MHC补全数据库补全其它缺少信息的样品的准确性。
[0095] 3.评估结果
[0096] 1000个验证样品补全后的型别结果和真实的型别结果比较分析结果如表4所示。
[0097] 表4 MHC补全数据库评估结果
[0098]
[0099] 结果显示，采用本申请的构建方法所构建的MHC补全数据库对样品的平均补全准确率达到96%以上，对两位型别的平均补全准确率达99%以上。
[0100] 实施例五MHC补全数据库的应用
[0101] 在本申请的MHC补全数据库的基础上，本例提供了一种评价有效样品数目的方法。该方法的原理是：因为我们构建了 8906个大样品数目的MHC补全数据库，可以说这个数据库含有最全的MHC区域信息，但是通常情况下我们很难找到这么大的样品数目，所以基于此考虑，本例提供一种方法，检测多少样品量，即有效样品数目，可以对群体的MHC区域有很好的覆盖，让人们用相对合适的样品量也可以做到很好地研究MHC区域的特征。具体操作方法如下：
[0102] (a)首先，我们定义数据库中的全部数据集的数量为Ta，即数据集包含8906个样品的所有MHC区域信息；
[0103] (b)其次，我们从8906个样品中随机选择N个样品，这样这N个样品就包含有Na 个型别信息，然后定义Na个型别信息对总样品的覆盖率Cov = Na/Ta，其中N > 1 ;
[0104] (c)逐步增加随机抽取样品的数量，即逐步增大N值，直至N个样品的覆盖率 Cov大于或等于预设值，此时样品数量N即所述建库所需的有效DNA样品数量。假设我们希望达到覆盖总样品95%的型别，这样Cov = 0. 95,然后我们逐渐增加样品的数目N = 100,. .，200,. .，300,..，直到挑选的样品数目使得其包含的型别数目Na占总型别数目Ta 的比例超过95%位置。则该样品数目就是有效样品数目。
[0105] 对五个基因分别按照上述方法做有效样品数目的统计，结果如表5所示。最终我们得到205个有效样品可以对每个基因的覆盖率达到95%以上，基本可以满足使用。当有效样品数目达到1066个时，对每个基因的覆盖率达到99%以上。有效样品数量与覆盖率的关系如图5所示，从图5中可以明显看出，随着有效样品数目的增加，我们对群体型别的覆盖率也逐渐增加。
[0106] 表5有效样品数目分析结果
[0107]
[0108] 本例创造性的将所构建的MHC补全数据库用于评估多少样品量可以很好的覆盖群体的型别变异，实现用最少的样品量、最低的成本达到有效的研究群体特征的目的。这个应用是本申请首次提出来的，连千人基因组（l〇〇〇genome project)工程和hapmap研究都不曾做过类似的评估。
[0109] 以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。
【主权项】
1. 一种MHC补全数据库的构建方法，包括： ⑴从人类基因组DNA样品中分离出MHC区域的片段，对分离的MHC片段进行测序，将测序结果与人类基因标准序列比对，采用变异检测软件对比对结果进行检测校正，获得DNA 样品的变异基因型数据； (2) 按以下条件对步骤（1)获得的DNA样品变异基因型数据进行筛选， a. 在群体中测序深度彡X的位点，X彡6， b. 在群体中数据的缺失率〈0. 05的位点， c. 等位基因碱基型出现次数大于一次的位点，获取满足以上三个条件的位点，然后过滤掉以下条件的位点， d. 在群体中连锁不平衡值LD = 0的位点， e. 在群体中哈温平衡指标log (HWE)彡600的位点，剩下的位点组成genotype数据集； (3) 采用分型软件对步骤（2)获得的genotype数据集进行分析，得到每个DNA样品的 HLA分型的型别数据集； (4) 统计每个HLA分型的SNP，将统计的各个分型的SNP与IMGT数据库中相应分型的 SNP相比较，如果两者不同，则把统计的SNP翻译成氨基酸，从而得到每个分型对应的氨基酸改变信息数据集； (5) 根据步骤（4)统计的每个HLA分型的SNP，比较各个HLA分型的SNP数据集，获得数量最少的，且能够区分各个HLA分型的SNP区分数据集，对SNP区分数据集进行phasing 分析，获得每个分型的HLA单体型数据集； (6) 将所述genotype数据集、所述HLA分型的型别数据集、所述氨基酸改变信息数据集和所述HLA单体型数据集合成为一个数据库，即MHC补全数据库。2. 根据权利要求1所述的构建方法，其特征在于：所述DNA样品包括采集自至少205个个体的样品，优选的采集自至少1066个个体的样品。3. 根据权利要求1所述的构建方法，其特征在于：所述步骤（1)中的变异检测软件为 GATK、SAMT00LS或S0APSNP，优选的，变异检测软件为GATK。4. 根据权利要求1所述的构建方法，其特征在于：所述步骤（3)中的分型软件为 S0APHLA分型软件。5. 根据权利要求1所述的构建方法，其特征在于：所述步骤（6)中采用PLINK的merge 命令把所述genotype数据集、所述HLA分型的型别数据集、所述氨基酸改变信息数据集和所述HLA单体型数据集合成为一个数据库。6. 根据权利要求1-5任一项所述的构建方法，其特征在于：所述人类基因标准序列为 hgl8〇7. -种MHC补全数据库，其特征在于：包括合成在一起的genotype数据集、HLA分型的型别数据集、氨基酸改变信息数据集和HLA单体型数据集；所述genotype数据集包含所有MHC区域的单核苷酸多态性位点和插入删除多态性位点的信息；所述HLA分型的型别数据集包含所有MHC区域的个体型别信息；所述氨基酸改变信息数据集包含所有MHC区域的各个型别所对应的氨基酸的改变信息；所述HLA单体型数据集包含所有MHC区域的HLA单体型的信息。8. 根据权利要求7所述的MHC补全数据库，其特征在于：所述MHC补全数据库采用权利要求1-6任一项所述的构建方法构建。9. 采用权利要求7或8所述的MHC补全数据库计算建库所需的有效DNA样品数量的方法，包括： (a) 设定数据库中的全部数据集的数量为Ta ; (b) 从数据库的所有样品中随机抽取N个样品，N个样品包含的数据量为Na，N个样品对数据库全部数据集Ta的覆盖率Cov = Na/Ta，其中N > 1 ; (c) 逐步增加随机抽取样品的数量，即逐步增大N值，直至N个样品的覆盖率Cov大于或等于预设值，此时样品数量N即所述建库所需的有效DNA样品数量。10. 根据权利要求9所述的方法，其特征在于：所述预设值大于等于0. 95。
【专利摘要】本申请公开了一种MHC补全数据库及其构建方法和应用。本申请的MHC补全数据库包括合成在一起的genotype数据集、HLA分型的型别数据集、氨基酸改变信息数据集和HLA单体型数据集；该数据库的构建过程中首次采用LD和HWE进行变异结果的过滤，提高了数据准确性；采用简单易操作的方法获得一个数量最少的SNP区分数据集，然后在phasing分析得到MHC单体型信息，相比于用整个SNP数据集进行phasing，本申请的构建方法更节约时间、减少CPU和内存使用，并且得到的单体型信息更准确。本申请的MHC补全数据库，包含了MHC区域的多种数据集，能够有效的补全位点，为MHC区域的深入研究奠定了基础。
【IPC分类】C12Q1/68, G06F19/28
【公开号】CN105512514
【申请号】CN201410490501
【发明人】刘小敏, 曹红志, 刘晓, 张涛
【申请人】深圳华大基因股份有限公司
【公开日】2016年4月20日
【申请日】2014年9月23日

完整全部详细技术资料下载

当前第4页1 2 3 4