一种检测外显子组单核苷酸覆盖率的方法

文档序号:6485739阅读:334来源:国知局
一种检测外显子组单核苷酸覆盖率的方法
【专利摘要】本发明公开了用于无偏的评估全基因组SNP芯片外显子组及基因覆盖率分析的方法和系统并可评估DNA片段的SNP覆盖率状况,在保持和现有评估方法优点的同时,可以减少现有方法的假阳性率和准确度。其技术方案为:方法包括:依据群体遗传学经典理论单倍型域和连锁不平衡原理构建模型;将构建好的数据模型载入到数据处理单元中;将待检测的数据集或序列位置信息进行处理输出图形结果及计算结果;将结果输入统计模块进行分析;根据图像信息和数据信息得到覆盖率情况注释和r2。
【专利说明】—种检测外显子组单核苷酸覆盖率的方法
【技术领域】
[0001]本发明涉及人类基因组单核苷酸标签覆盖率评估分析技术,尤其涉及利用单倍型域模型构建分析人类基因组的方法和系统。
【背景技术】
[0002]单核苷酸多态性(single nucleotide polymorphism, SNP)是人类基因组中最丰富的遗传变异,占人类基因组遗传多态性的90%以上。基因组上的SNP位点及其相应单体型的信息已经广泛地应用于疾病易感基因定位和药物基因组学研究。近来研究表明,许多SNP位点间存在着一定的关联性,小规模的SNP位点一标签SNP(tagSNP)就可以提供全体SNP的遗传模式信息。将标签SNP位点应用于复杂遗传疾病以及药物反应的关联分析中,可以极大地减少SNP基因分型的费用,提高关联分析的效率。
[0003]连锁不平衡是指基因组中不同位点间存在的非随机关联。它的存在,是进行基因型与表型间的关联分析和表型相关基因精细定位基本条件。单倍域的发现掀起了近年来连锁不平衡研究的热潮。仅用少数儿个位点作为标签就可以有效地对单倍域内常见单倍型进行区分。使用单倍型标签位点进行分型工作可以节约分型成本并提高关联分析的统计效力。
[0004]目前,用于评估人类基因组外显子被单核苷酸多态性标签及全基因组关联分析覆盖情况的方法大同小异,在算法上普遍存在假阳性率过高的问题。不能解释当前全基因组关联分析效力不高的原因。
[0005]全基因组关联分析(genomewide association study, GWAS)是应用人类基因组中数以百万计的单核苷酸多态性(single nucleotide polymorphism, SNP)为标记进行病例对照关联分析,以期发现影响复杂性疾病发生的遗传特征的一种新策略。近年来,随着人类基因组计划和基因组单倍体图谱计划的相继完成,人们已通过GWAS方法发现并鉴定了大量与人类性状或复杂性疾病关联的遗传变异,为进一步了解控制人类复杂性疾病发生的遗传特征提供了重要的线索。
[0006]国际人类基因组单体型图计划于2002年启动,2008年即已开始第三期的数据收集,标志着单体型研究已日趋成熟。单体型分析可减少关联研究中基因分型的工作量,提供比单个单核苷酸多态性(single nucleotide polymorp hism, SNP)更为丰富的信息,并且有助于对低频率变异(SNP等位基因频率〈10%)信息的利用。在对人群作单体型分型及其频率的推断是单体型研究的关键,而利用分子实验方法推断每一个个体的单体型,成本高且难度大,不利于大规模人群研究。因此,根据人群基因型数据,运用数理统计方法来构建单体型是目前可行的方法。
[0007]要计算正确的覆盖率,首先要考虑一组SNPs作为参照组(R),如可将HapMapPhaseII的数据集作为参照组。对于一组给定的TSNPs (T),一些SNPs或者因为包含在TSNPs内而被捕获,或者因为与T包含的某TSNPs强连锁(LD)而被捕获(称为L数据集)。于是,最简单的评估基因组所有SNP (称为G数据集)覆盖率的算法可由如下公式表示:
【权利要求】
1.一种检测人类外显子组单核苷酸(SNP)覆盖率的方法,包括:依据群体遗传学经典理论单倍型域和连锁不平衡原理构建模型;将构建好的数据模型载入到数据处理单元中;将待检测的数据集或序列位置信息进行处理输出图形结果及计算结果;将结果输入统计模块进行分析;根据图像信息和数据信息得到覆盖率情况注释和r2。
【文档编号】G06F19/10GK103455732SQ201210179369
【公开日】2013年12月18日 申请日期:2012年6月1日 优先权日:2012年6月1日
【发明者】钟庭艳, 董潇, 李碧清, 丁国徽, 李亦学 申请人:中国科学院上海生命科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1