目标区域测序中质控位点选取方法及装置的制作方法

文档序号:6434120阅读:271来源:国知局
专利名称:目标区域测序中质控位点选取方法及装置的制作方法
技术领域
本发明涉及基因工程技术领域,特别是涉及一种目标区域测序中质控位点选取方 法及装置。
背景技术
单核苷酸多态性(Single Nucleotide Polymorphisms,简称SNP)位点,是指在基 因组上单个核苷酸的变异形成的遗传标记,其数量很多,多态性丰富。单核苷酸多态性,主 要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的 变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均 每500 1000个碱基对中就有I个,估计其总数可达300万个甚至更多。
对目标区域应用第二代测序技术进行测序后,通过一定的算法或者软件运算可以 得到目标区域中潜在的SNP位点,所得到的这些SNP位点在实际应用中为了保证其准确性 以及评估目标区域测序好坏,通常会挑选一部分进行质控验证,如何从数以千计的SNP位 点中挑选较有代表性的一组SNP位点作为质控位点进行生物学实验验证是现在面临的一 个难题。发明内容
本发明主要解决的技术问题是提供一种目标区域测序中质控位点选取方法及装 置,能够从数以千计的SNP位点中挑选较有代表性的一组SNP作为质控位点进行生物学实 验验证。
为解决上述技术问题,本发明采用的一个技术方案是提供一种目标区域测序中 质控位点选取方法,包括以下步骤在测序得到的核酸序列中选取目标区域;对目标区域 中的各单核苷酸多态性位点,在数据库中提取各单核苷酸多态性位点对于所有个体的基因 型,得到第一位点数据,计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等 位基因频率;在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选 后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据,计算第二位 点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;选取在数据库及实验样 本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值 的一组单核苷酸多态性位点作为质控位点。
其中,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频 率的步骤之前,包括采用单核苷酸多态性位点预测软件预测实验样本中目标区域内的单 核苷酸多态性位点。
其中,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频 率的步骤之前,包括对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛 选,所述对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的条件参数 包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态性位点预测软件的得分。
其中,在对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的 步骤包括排除未出现在数据库中的单核苷酸多态性位点。
其中,在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据 库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤 之前,包括对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本 中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因 频率分别进行排序。
其中,在对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实 验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等 位基因频率分别进行排序之后,包括根据排序结果选取在数据库以及实验样本中的次等 位基因频率最接近O. 5且在数据库以及实验样本中的检出率大于O. 97的一组单核苷酸多 态性位点作为质控位点。
其中,在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据 库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤 之后,包括分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性,分 别得到数据库个体间以及实验样本个体间的一致度,所述一致度为拥有不同位点个数样本 对在总样本对中的比例。
其中,在分别计算所挑选的质控位点在数据库个体间以及实验样本个体间的一致 性的步骤之后,包括根据拥有不同位点个数样本对在总样本对中的比例确定第三阈值来 作为判断不同个体间所应有的位点差异数。
为解决上述技术问题,本发明采用的另一个技术方案是提供一种目标区域测序 中质控位点选取装置,所述装置包括选取模块,用于在测序得到的核酸序列中选取目标区 域;第一提取模块,用于对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核苷 酸多态性位点对于所有个体的基因型,得到第一位点数据;第二提取模块,用于在实验样本 中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目 标区域内的单核苷酸多态性位点,得到第二位点数据;第一计算模块,用于计算第一位点数 据中的各单核苷酸多态性位点的检出率以及次等位基因频率以及计算第二位点数据中的 各单核苷酸多态性位点的检出率以及次等位基因频率;取值模块,用于选取在数据库及实 验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二 阈值的一组单核苷酸多态性位点作为质控位点。
其中,预测模块,用于采用单核苷酸多态性位点预测软件预测实验样本中目标区 域内的单核苷酸多态性位点,并将预测结果发给筛选模块。
其中,筛选模块,用于对预测所得的实验样本中目标区域内的单核苷酸多态性位 点进行筛选,排除未出现在数据库中的单核苷酸多态性位点,并将筛选结果发给所述第二 提取模块,所述筛选模块对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行 筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态 性位点预测软件的得分。
其中,排序模块,用于对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本 中得到的次等位基因频率分别进行排序,并将排序结果发给取值模块。
其中,所述取值模块根据排序结果选取在数据库及实验样本中的次等位基因频率 最接近O. 5且在数据库及实验样本中的检出率大于O. 97的一组单核苷酸多态性位点作为 质控位点。
其中,第二计算模块,用于分别计算所选取的质控位点在数据库个体间以及实验 样本个体间的一致性,分别得到数据库个体间以及实验样本个体间的一致度,所述一致度 为拥有不同位点个数样本对在总样本对中的比例。
其中,确定模块,用于根据所述拥有不同位点个数样本对在总样本对中的比例确 定第三阈值来作为判断不同个体间所应有的位点差异数。
本发明的有益效果是区别于现有技术难以挑选到具有代表性的质控位点的缺 陷,本发明先对目标区域中的各SNP位点,在数据库中提取各SNP位点对于所有个体的基因 型,得到第一位点数据,计算第一位点数据中的各SNP位点的检出率(call rate)以及次等 位基因频率(maf);同时在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位 点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据, 计算第二位点数据中的各SNP位点的检出率以及次等位基因频率;然后选取在数据库及实 验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二 阈值的一组单核苷酸多态性位点作为质控位点。通过本发明,能从目标区域中数以千记的 SNP位点中挑选出一组SNP位点作为质控位点进行生物学实验验证,设定的第一阈值和第 二阈值能确保挑选出的一组SNP位点最有代表性;另外,本发明只需计算目标区域中各SNP 位点在数据库中的call rate和maf以及在实验样本中的call rate和maf,再根据call rate,maf以及设定的阈值来选取质控位点,因此该种质控位点选取方法简单易操作。


图1是本发明目标区域测序中质控位点选取方法实施例的步骤流程图2是本发明目标区域测序中质控位点选取装置实施例的原理框图。
具体实施方式
下面,结合具体实施例及附图,对本发明作出详细说明。
请参阅图1,本发明的目标区域测序中质控位点选取方法实施例中,包括以下步 骤
步骤101 :在测序得到的核酸序列中选取目标区域;
选择已完成测序的特定的基因组区域,如单核苷酸多态性位点区域,作为目标区 域。
步骤102 :对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核苷酸 多态性位点对于所有个体的基因型,得到第一位点数据,计算第一位点数据中的各单核苷 酸多态性位点的检出率以及次等位基因频率;在实验样本中,对预测所得的目标区域内的 各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位 点,得到第二位点数据,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;
其中,call rate的定义能够检测到基因型的个体数与总的个体数之商。maf的 定义为所有等位基因型中等位基因频率在特定群体中较低的等位基因的频率。
其中,得到的第二位点数据满足以下三个条件
I)测序数据唯一覆盖层数大于等于10层;
2)该位点附近区域拷贝数为I ;
3) SOAPsnp软件所得一致基因型质量值大于等于40。
当然,上述仅仅是对得到的第二位点数据所满足条件的一个例子的说明,因此,在 其他实施例中,测序数据唯一覆盖层数大于等于的层数不限于10层,而该位点附近区域拷 贝数也不限于1,SOAPsnp软件所得一致基因型质量值也不限于大于等于40。
步骤103 :选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数 据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。
其中,上述的数据库为人类基因组单体型图(Haplotype Map, HapMap)数据库。 HapMap数据库的定义国际人类基因组单体型图计划建立的一个免费向公众开放关于人 类疾病(及疾病对药物反应)相关基因的数据库,共有270个人的基因组中常见的SNP位 点数据以及由群体中频率大于1%的那些共同遗传的相邻SNP位点组合成的单体型数据。
为了从目标区域的各SNP位点中挑选出能作为质控位点的一组SNP位点,把一个 SNP位点在数据库及实验样本中的maf为O. 5定义为第一阈值,把该位点在HapMap数据库 及实验样本中的call rate为O. 97定义为第二阈值,则能作为质控位点的一组SNP位点中 的每一个SNP位点既要满足其在数据库及实验样本的maf最接近第一阈值又要满足其在 HapMap数据库及实验样本中的call rate大于第二阈值。
步骤102中,先对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核 苷酸多态性位点对于所有个体的基因型,得到第一位点数据,计算第一位点数据中的各单 核苷酸多态性位点的检出率以及次等位基因频率;然后在实验样本中,对预测所得的目标 区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多 态性位点,得到第二位点数据,计算第二位点数据中的各单核苷酸多态性位点的检出率以 及次等位基因频率,或者
先在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选 后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据,计算第二位 点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;然后对目标区域中的各 单核苷酸多态性位点,在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得 到第一位点数据,计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因 频率;
本发明通过选取目标区域,对目标区域中的各SNP位点,在HapMap数据库中提取 各SNP位点对于所有个体的基因型,得到第一位点数据,计算第一位点数据中的各SNP位点 的检出率以及次等位基因频率;在实验样本中,对预测所得的目标区域内的各SNP位点进 行筛选后,合并每个实验个体目标区域内的SNP位点,得到第二位点数据,计算第二位点数 据中的各SNP的检出率以及次等位基因频率;选取在数据库及实验样本中的次等位基因频 率最接近第一阈值且在HapMap数据库及实验样本中的检出率大于第二阈值的一组SNP位点作为质控位点。这样选取的一组SNP作为质控位点是较有代表性的,在本发明实施例中 甚至是最有代表性的,且该种质控位点的选取方法简单易操作。
在另一实施例中,在计算第二位点数据中的各SNP位点的call rate以及maf的 步骤之前,包括采用SNP位点预测软件(如SOAPSnp)预测实验样本中目标区域内的SNP 位点。SOAPSnp软件是一款华大基因自主研发的基于第二代测序技术数据的SNP位点检测 软件。所述 SOAPSnp 软件的下载地址http://soap. genomics, org. cn/soapsnp. html。当 然,预测实验样本中目标区域内的SNP位点的方法还有其它,在此不再赘述。本实施例中, 采用SOAPSnp软件预测实验样本中目标区域内的SNP位点,具有预测效率高、预测准确性较 高、预测全面的特点。
在另一实施例中,在计算第二位点数据中的各SNP位点的call rate以及maf的 步骤之前,包括对预测所得的实验样本中目标区域内的SNP位点进行筛选,所述对预测所 得的实验样本中目标区域内的SNP位点进行筛选的条件参数包括位点被测序数据覆盖的 层数、位点附近区域的拷贝数和SNP位点预测软件的得分。
在另一实施例中,在对预测所得的实验样本中目标区域内的SNP位点进行筛选 的步骤中,排除未出现在HapMap数据库中的SNP位点。本实施例中由于排除了未出现在 HapMap数据库中的SNP位点,因此提高了合并每个实验个体目标区域内的各SNP位点、得到 第二位点数据的效率。
在另一实施例中,在选取在HapMap数据库及实验样本中的maf最接近第一阈值且 在HapMap数据库及实验样本中的call rate大于第二阈值的一组SNP位点作为质控位点 的步骤之前,包括对各SNP位点在HapMap数据库中得到的call rate、在实验样本中得到 的call rate>HapMap在数据库中得到的maf以及在实验样本中得到的maf分别进行排序。 本实验例中通过对call rate以及maf分别进行排序,可以十分清楚地得知HapMap数据库 中的call rate大小顺序、实验样本中的call rate大小顺序、数据库中的maf大小顺序以 及实验样本中的maf的大小顺序,方便取值。
在另一实施例中,对各SNP位点在HapMap数据库中得到的call rate、在实验样本 中得到的call rate、HapMap在数据库中得到的maf以及在实验样本中得到的maf分别进 行排序的步骤之后,包括根据排序结果选取在HapMap数据库及实验样本中的maf最接近 O. 5且在HapMap数据库及实验样本中的call rate大于O. 97的一组SNP位点作为质控位 点。本实施例为了使所选取的质控位点在大部分个体中均能检测得到,选取在HapMap数据 库及实验样本中的检出率为O. 97以上的单核苷酸多态性位点,阈值O. 97可以根据实际情 况进行变动,但变动的底限为O. 90,即阈值可为O. 90,但不能低于O. 90 ;同时,为了使所选 质控位点有足够的多态性以至于在质控过程中被区分开,选取在HapMap数据库中及实验 样本中次等位基因频率最接近O. 5的若干SNP位点作为质控位点,所选SNP位点个数视实 际情况而定,一般为20个或以上。
在另一实施例中,在选取在HapMap数据库及实验样本中的maf最接近第一阈值 且在HapMap数据库及实验样本中的call rate大于第二阈值的一组SNP位点作为质控位 点的步骤之后,包括分别计算所选取的质控位点在HapMap数据库个体间以及实验样本 个体间的一致性,分别得到HapMap数据库个体间以及实验样本个体间的一致度,所述一致 度为拥有不同位点个数样本对在总样本对中的比例。本实施例中,通过对作为质控位点的SNP位点分别进行在HapMap数据库个体间以及实验样本个体间的一致性的计算,分别得到 HapMap数据库个体间以及实验样本个体间的一致度,一方面以确保所选取的质控位点具有 足够的代表性,能够区分开所有样本;另一方面,根据一致度,可以确定第三阈值来作为判 断不同个体间所应有的位点差异数。
在另一实施例中,在根据分别计算所挑选的质控位点在HapMap数据库个体间以 及实验样本个体间的一致性的步骤之后,包括根据拥有不同位点个数样本对在总样本对 中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。对于不同的实验样 本,一致度确定的第三阈值不同,在此不再一一赘述。
下面,提供一应用例对本发明进行更详细的说明。
步骤一在测序得到的核酸序列中选取9587个目标区域。
步骤二 对目标区域中的各SNP位点,在HapMap数据库中提取各SNP位点对于 HapMap数据库中所有个体的基因型,得到第一位点数据,所述第一位点数据包括下述文件 类型的数据
SNP编号、SNP位置信息、个体I基因型、个体2基因型......;
每一行代表一个位点,一共有2285个位点被选择。
步骤三采用SOAPSnp软件预测实验样本中目标区域内的SNP位点,得到实验样本 目标区域内的SNP位点预测结果;
步骤四对实验样本目标区域内的SNP位点预测结果进行筛选,筛选的条件为
I)测序数据唯一覆盖层数大于等于10层;
2)该位点附近区域拷贝数为I ;
3) SOAPsnp所得一致基因型质量值大于等于40。
并且为了提高效率,不在HapMap数据库中的SNP位点不作考虑,根据以上条件参 数,得到实验样本中目标区域内的SNP位点筛选结果。步骤五合并每个实验个体目标区域 内的各SNP位点,得到第二位点数据,所述第二位点数据包括下述文件类型的数据
SNP编号、SNP位置信息、个体I基因型、个体2基因型......;
每一行代表一个位点,一共有1834个位点被选择。
步骤六根据步骤二与步骤五所得到的结果,分别计算这些SNP位点在HapMap数 据库中以及实验样本中的call rate以及maf。
步骤七对各SNP位点在HapMap数据库中得到的call rate、在实验样本中得到 的call rate、在HapMap数据库中得到的maf以及在实验样本中得到的maf分别进行排序, 根据排序结果取在HapMap数据库及实验样本中的maf最接近O. 5并且在HapMap数据库及 实验样本中callrate尽可能高的SNP位点作为质控位点,在本应用例中,总共取31个SNP 位点作为质控位点,其在HapMap数据库及实验样本中的call rate均在O. 97以上,且在 HapMap数据库及实验样本中的maf均为O. 4以上。
步骤八分别计算所选取的质控位点在HapMap数据库个体间以及实验样本个体 间的一致性。在本应用例中从所得到的31个SNP位点中挑选其中次等位基因频率最高的 20个,计算得到这些SNP位点在HapMap数据库个体间以及实验样本个体间的一致度,一致 度为拥有不同位点个数样本对在总样本对中的比例。
步骤九根据拥有不同位点个数样本对在总样本对中的比例确定一个阈值(第三阈值)作为判断不同个体间所应有的位点差异数。如下表所示的实验样本个体间的一致性,当实验个体间不同位点少于8个时,差异个体对占所有成对样本数目的比例为少于 5%,即当一致度为少于5%时,确定第三阈值为8,由第三阈值可以推论得知,如果某个个体此20个不同位点中存在8个以上软件预测结果与质谱实验结果或其它方式验证SNP的实验结果不一致时,此个体将会被定义为测序数据不可靠。由下表可知,所挑选的20个SNP 位点能够明确区分开两个个体,具有代表性。
权利要求
1.一种目标区域测序中质控位点选取方法,其特征在于,包括以下步骤 在测序得到的核酸序列中选取目标区域; 对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得到第一位点数据,计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率;在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据,计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率; 选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。
2.根据权利要求1所述的目标区域测序中质控位点选取方法,其特征在于 计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率的步骤之前,包括采用单核苷酸多态性位点预测软件预测实验样本中目标区域内的单核苷酸多态性位点。
3.根据权利要求1所述的目标区域测序中质控位点选取方法,其特征在于 计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率的步骤之前,包括对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选,所述对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态性位点预测软件的得分。
4.根据权利要求3所述的目标区域测序中质控位点选取方法,其特征在于 在对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的步骤包括排除未出现在数据库中的单核苷酸多态性位点。
5.根据权利要求1 4任一项所述的目标区域测序中质控位点选取方法,其特征在于 在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤之前,包括对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序。
6.根据权利要求5所述的目标区域测序中质控位点选取方法,其特征在于 在对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序之后,包括根据排序结果选取在数据库以及实验样本中的次等位基因频率最接近O. 5且在数据库以及实验样本中的检出率大于O. 97的一组单核苷酸多态性位点作为质控位点。
7.根据权利要求1所述的目标区域测序中质控位点选取方法,其特征在于 在选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点的步骤之后,包括分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性,分别得到数据库个体间以及实验样本个体间的一致度,所述一致度为拥有不同位点个数样本对在总样本对中的比例。
8.根据权利要求7所述的目标区域测序中质控位点选取方法,其特征在于 在分别计算所挑选的质控位点在数据库个体间以及实验样本个体间的一致性的步骤之后,包括根据拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。
9.一种目标区域测序中质控位点选取装置,其特征在于,所述装置包括 选取模块,用于在测序得到的核酸序列中选取目标区域; 第一提取模块,用于对目标区域中的各单核苷酸多态性位点,在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得到第一位点数据; 第二提取模块,用于在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据; 第一计算模块,用于计算第一位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率以及计算第二位点数据中的各单核苷酸多态性位点的检出率以及次等位基因频率; 取值模块,用于选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。
10.根据权利要求9所述的目标区域测序中质控位点选取装置,其特征在于 预测模块,用于采用单核苷酸多态性位点预测软件预测实验样本中目标区域内的单核苷酸多态性位点,并将预测结果发给筛选模块。
11.根据权利要求9所述的目标区域测序中质控位点选取装置,其特征在于 筛选模块,用于对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选,排除未出现在数据库中的单核苷酸多态性位点,并将筛选结果发给所述第二提取模块,所述筛选模块对预测所得的实验样本中目标区域内的单核苷酸多态性位点进行筛选的条件参数包括位点被测序数据覆盖的层数、位点附近区域的拷贝数和单核苷酸多态性位点预测软件的得分。
12.根据权利要求9 11任一项所述的目标区域测序中质控位点选取装置,其特征在于 排序模块,用于对目标区域内的各单核苷酸多态性位点在数据库中得到的检出率、在实验样本中得到的检出率、在数据库中得到的次等位基因频率以及在实验样本中得到的次等位基因频率分别进行排序,并将排序结果发给取值模块。
13.根据权利要求9所述的目标区域测序中质控位点选取装置,其特征在于 所述取值模块根据排序结果选取在数据库及实验样本中的次等位基因频率最接近O. 5且在数据库及实验样本中的检出率大于O. 97的一组单核苷酸多态性位点作为质控位点。
14.根据权利要求9所述的目标区域测序中质控位点选取装置,其特征在于 第二计算模块,用于分别计算所选取的质控位点在数据库个体间以及实验样本个体间的一致性,分别得到数据库个体间以及实验样本个体间的一致度,所述一致度为拥有不同位点个数样本对在总样本对中的比例。
15.根据权利要求14所述的目标区域测序中质控位点选取装置,其特征在于确定模块,用于根据所述拥有不同位点个数样本对在总样本对中的比例确定第三阈值来作为判断不同个体间所应有的位点差异数。
全文摘要
本发明公开了一种目标区域测序中质控位点选取方法及装置,所述方法包括选取目标区域;在数据库中提取各单核苷酸多态性位点对于所有个体的基因型,得到第一位点数据,根据该数据计算检出率以及次等位基因频率;在实验样本中,对预测所得的目标区域内的各单核苷酸多态性位点进行筛选后,合并每个实验个体目标区域内的单核苷酸多态性位点,得到第二位点数据,根据该数据计算检出率以及次等位基因频率;选取在数据库及实验样本中的次等位基因频率最接近第一阈值且在数据库及实验样本中的检出率大于第二阈值的一组单核苷酸多态性位点作为质控位点。这样选取的一组单核苷酸多态性位点作为质控位点是较有代表性的,且该种质控位点选取方法简单易操作。
文档编号G06F19/20GK103020490SQ201110287949
公开日2013年4月3日 申请日期2011年9月26日 优先权日2011年9月26日
发明者蒋涛, 李英睿, 汪建, 王俊, 杨焕明 申请人:深圳华大基因科技有限公司, 深圳华大基因研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1