一种基于构建人群SNPs库的测序样本同源性检测方法及系统与流程

文档序号:33499347发布日期:2023-03-17 21:45阅读:68来源:国知局
一种基于构建人群SNPs库的测序样本同源性检测方法及系统与流程
一种基于构建人群snps库的测序样本同源性检测方法及系统
技术领域
1.本发明涉及测序样本检测技术领域,尤其涉及一种基于构建人群snps库的测序样本同源性检测方法及系统。


背景技术:

2.常见的ngs(next-generation sequencing technology,下一代测序技术)数据样本同源性检测方法有通过比较不同样本特定短片段重复序列str(short tandem repeat)的重复数判定样本同源性和通过计算不同样本特定snps(single nucleotide polymorphisms,单核苷酸多态性)突变频率的相关性判定样本同源性两种方式。第一种检测方法通过计算两个样本数据中多个str串联重复的次数,重复次数相同表明两个样本来源于同一个个体。第二种检测方法分别计算两个样本中特定snps的突变频率,再计算snps突变频率之间的相关性,相关性越强,表明样本之间的同源性越高。
3.然而目前的检测方法成本高昂,效率欠佳,大部分情况需要单独设计方案,增加设计成本和分析周期;ngs数据在连续重复区域和高gc含量(鸟嘌呤和胞嘧啶所占的比率)区域容易出现误差,存在于这些区域的str,会导致结果不准。此外,使用的snps指定,测序的panel不一定全部覆盖这些snps,计算结果不准确;使用范围局限,仅在固定的panel上准确。
4.随着人类基因组测序工作的完成,单核苷酸多态性已经成为遗传学研究的关键内容。人群snps数据库属于人类基因snp数据库的分支,是一个为科学数据共享而建立的生命科学数据库,其数据由开放的科研机构递交。snp主要是指在基因组水平上单核苷酸多态性。然而现有技术中还未有基于人群snps数据库进行测序样本同源性检测的成熟技术方案。


技术实现要素:

5.为了解决现有技术中存在的问题,本发明提供了如下技术方案,一种基于构建人群snps库的测序样本同源性检测方法及系统,该方法基于所构建的人群snps库,只需要两个样本使用相同的测序方法或两个样本之间存在大量重叠snps,就可直接使用ngs标准分析流程产生的vcf(variant call format)文件,结合参数评估就可以确定样本同源性分析结果。
6.本发明一方面提供了一种基于构建人群snps库的测序样本同源性检测方法,包括:
7.s1,构建人群snps库;其中所述人群snps库为胚系基因突变的人群频率库;
8.s2,获取两个基因文件,所述两个基因文件为vcf格式;根据预定过滤筛选条件分别对两个基因文件根据预定过滤筛选条件进行snps过滤筛选,获得两个基因文件对应第一样本和第二样本;
9.s3,将所述第一样本和第二样本对应的基因文件取交集获得第一交集数据,将所
述第一交集数据与所述人群snps库再次取交集获得第二交集数据;基于所述第二交集数据与所述第一交集数据的数量获得标准百分比p0;
10.s4,将所述两个样本对应的基因文件分别与所述人群snps库取交集获得第三交集数据和第四交集数据;基于所述第三交集数据和第一样本获得第一百分比p1;基于所述第四交集数据和第二样本获得第二百分比p2;
11.s5,基于所述标准百分比p0与所述第一百分比p1和第二百分比p2的关系确定所述测序样本是否同源。
12.优选的,所述s1所述构建人群snps库的步骤包括:
13.获取gnomad数据,包括分别下载基因组库和外显子组库中的数据;
14.基于gnomad数据形成基因文件;
15.基于第一数据过滤标准和第二数据过滤标准过滤基因组库对应的基因文件中的snps位点获得第一结果文件;
16.基于第一数据过滤标准和第二数据过滤标准过滤外显子组库对应的基因文件中的snps位点获得第二结果文件;
17.获取第一结果文件和第二结果文件的交集作为所述人群snps库。
18.优选的,所述第一数据过滤标准为所有人群频率ref≥0.01;所述第二数据过滤标准为东亚人群频率af_eas≥0.01。
19.优选的,所述s2中所述预定过滤筛选条件包括:第一条件、第二条件、第三条件和第四条件中的一个或多个,其中所述第一条件为删除测序总深度小于10x的snps;所述第二条件为删除性染色体上的snps;所述第三条件为保留杂合突变的snps;所述第四条件为保留支持reads数大于4条的snps。
20.优选的,所述s3包括:将所述两样本对应的基因文件取交集获得第一交集数据,将所述第一交集数据与所述人群snps库再次取交集获得第二交集数据;将所述第二交集数据与所述第一交集数据的数量比值作为标准百分比p0。
21.优选的,所述s4包括将所述第一样本和第二样本对应的基因文件分别与所述人群snps库取交集获得第三交集数据和第四交集数据;将所述第三交集数据与所述第一样本数据的比值作为第一百分比p1;将所述第四交集数据与所述第二样本数据的比值作为第二百分比p2。
22.优选的,所述s5包括:所述标准百分比p0同时大于第一百分比p1和第二百分比p2确定为所述测序样本为同源样本;所述标准百分比p0同时小于第一百分比p1和第二百分比p2确定所述测序样本为非同源样本;其他情况不确定所述测序样本是否为同源样本。
23.本发明的第二方面,提供一种基于构建人群snps库的测序样本同源性检测系统,包括:
24.snps建库模块,用于构建人群snps库;其中所述人群snps库为胚系基因突变的人群频率库;
25.样本获取模块,用于获取两个基因文件,所述两个基因文件为vcf格式;根据预定过滤筛选条件分别对两个基因文件根据预定过滤筛选条件进行snps过滤筛选,获得两个基因文件对应第一样本和第二样本;
26.第一计算模块,用于将所述第一样本和第二样本对应的基因文件取交集获得第一
交集数据,将所述第一交集数据与所述人群snps库再次取交集获得第二交集数据;基于所述第一交集数据与所述第二交集数据的数量获得标准百分比p0;
27.第二计算模块,用于将所述两个样本对应的基因文件分别与所述人群snps库取交集获得第三交集数据和第四交集数据;基于所述第三交集数据和第一样本获得第一百分比p1;基于所述第四交集数据和第二样本获得第二百分比p2;
28.同源检测模块,用于基于所述标准百分比p0与所述第一百分比p1和第二百分比p2的关系确定所述测序样本是否同源。
29.本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
30.本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
31.本发明提供的基于构建人群snps库的测序样本同源性检测方法、系统和电子设备,具有如下有益效果:
32.基于所构建的人群snps库,只需要两个样本使用相同的测序方法或两个样本之间存在大量重叠snps,就可直接使用ngs标准分析流程产生的vcf文件,根据不同文件自动获取动态snps,结合参数评估就可以确定样本同源性分析结果。
附图说明
33.图1为本发明所述的基于构建人群snps库的测序样本同源性检测方法流程示意图。
34.图2为本发明提供的基于构建人群snps库的测序样本同源性检测系统架构图。
35.图3为本发明提供的电子设备一种实施例的结构示意图。
具体实施方式
36.为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
37.本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
38.处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
39.存储器可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。存储器可用于存储指令、程序、代码、代码集或指令。
40.除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
41.实施例一
42.参照图1,本发明一方面提供了一种基于构建人群snps库的测序样本同源性检测
方法,包括:
43.s1,构建人群snps库;
44.本实施例中,所述人群snps库的构建参考基因组聚合数据库(genome aggregation database,gnomad)的数据;其中gnomad是一个从各种大规模测序项目中收集和协调外显子组和基因组测序数据的数据库。
45.所述人群snps库的构建的具体步骤包括:
46.获取gnomad数据。从gnomad官网http://www.gnomad-sg.org/下载基因组库和外显子组数据(v2.1.1,基于grch37);
47.基于gnomad数据形成基因文件;
48.基于第一数据过滤标准和第二数据过滤标准过滤基因组库对应的基因文件中的snps位点获得第一结果文件;
49.基于第一数据过滤标准和第二数据过滤标准过滤外显子组库对应的基因文件中的snps位点获得第二结果文件;获取第一结果文件和第二结果文件的交集作为所述人群snps库;
50.所述第一数据过滤标准为所有人群频率ref≥0.01;所述第二数据过滤标准为东亚人群频率af_eas≥0.01。
51.本实施例中,构建人群频率snps库解决了如何在数据库中对提交的不同形式和类型的科学数据进行整合,数据库主要收集两方面的数据,首先是实验发现的人类snp,其次是为了开展snp与测序样本同源性相关研究,大量收集的实验个体的基因型和表型数据。数据属于两种不同类型,数据提交存在的问题在于对数据的表达缺乏规范,数据库需要采用统一标准对数据整合。
52.本实施例中使用的gnomad数据库是目前最大的人群频率注释数据库,该数据库提供的数据集包括123136个样本的全外显子组测序数据和15496个样本的全基因组测序数据,这些数据来源于各种疾病研究项目及大型人群测序项目。数据库包含基因的基本信息(基因名称、包含的变异位点个数、其他数据库的链接等);覆盖度信息;变异位点的详细信息(变异位点的注释采用的是vep软件,官方下载地址gnomad.broadinstitute.org)。我们选择覆盖的人群包括全部人群和东亚人群。
53.s2,获取两个基因文件,所述两个基因文件为vcf格式;vcf是用于描述snp(单个碱基上的变异)、indel(插入缺失标记)和sv(结构变异位点)结果的文本文件。在gatk软件(the genome analysis toolkit,由broad institute开发,用于二代重测序数据分析)中得到最好的支持,通过samtools(用于操作sam和bam文件的工具合集)也可以得到vcf格式的文件;vcf文件分为两部分内容,以“#”开头的注释部分和没有“#”开头的主体部分;主体部分中每一行代表一个variant(变异体)的信息;其中variant的信息包括chrom(表示变异位点在哪个contig里被call获得,如果是人类全基因组则对应chr1,

chr22)、pos(变异位点相对于参考基因组所在的位置,如果是indel,就是第一个碱基所在的位置)、id(variant的id,如果call出来的snp存在于dbsnp数据库中,就会显示相应的dbsnp里的rs编号;如果没有,则用“,”表示其为一个novel variant)、ref和alt[在这个变异位点处,参考基因组中所对应的碱基和研究对象基因组(variant)中所对应的碱基]、qual[phred格式(phred_scaled)的质量值,可以理解为所call出来的变异位点的质量值,表示在该位点存在
variant的可能性,该值越高,则variant的可能性越大]、filter(使用上一个qual值来进行过滤的话不足够,理想情况下,qual值应该是用所有的错误模型计算,采用该值可以代表正确的变异位点,实际情况是需要对原始变异位点进一步的过滤,在filter一栏留下过滤记录,如果通过过滤标准,那么通过标准的好的变异位点的filter一栏会注释一个pass,如果没有通过过滤,就会在filter一栏显示除了pass之外的其他信息,如果概览是一个“.”,则表明没有进行过任何过滤)、info(表示variant的详细信息)。
[0054]
本实施例中以两个基因文件为例,分别基因文件一和基因文件二,本领域技术人员应当理解,基因文件的数量可以更多,但是需要同时遵循本发明的需要进行逻辑回归建模要求的情况下,以同时检验不多于四个基因文件同源性为最适宜的选择;
[0055]
根据预定过滤筛选条件分别对两个基因文件进行snps过滤筛选获得两个基因文件对应第一样本和第二样本。
[0056]
本实施例中,每个筛选结果最初均以向量表示,并且将向量表示的最初筛选结果经过筛除低频假点的预处理后获得最终的多个筛选结果;
[0057]
本实施例中,单核苷酸多态性snps是指在基因组水平上由单个核苷酸的变异所引起的dna序列多样性,作为遗传标记,具有已知性、可遗传性、可检测性,由于基因多态与疾病的相关性,可以用于疾病基因的定位、克隆和鉴定以及snps本身对机体的影响,这里我们着重用于样本同源性检测。
[0058]
作为优选的实施方式,所述预定过滤筛选条件包括:第一条件、第二条件、第三条件和第四条件中的一个或多个,其中所述第一条件为删除测序总深度小于10x的snps;所述第二条件为删除性染色体上的snps;所述第三条件为保留杂合突变的snps;所述第四条件为保留支持reads数大于4条的snps。
[0059]
s3,将所述第一样本和第二样本对应的基因文件取交集获得第一交集数据,将所述第一交集数据与所述人群snps库再次取交集获得第二交集数据;基于所述第二交集数据与所述第一交集数据的数量获得标准百分比p0;
[0060]
具体的,将所述两样本对应的基因文件取交集获得第一交集数据,将所述第一交集数据与所述人群snps库再次取交集获得第二交集数据;将所述第二交集数据与所述第一交集数据的数量比值作为标准百分比p0。
[0061]
s4,将所述两个样本对应的基因文件分别与所述人群snps库取交集获得第三交集数据和第四交集数据;基于所述第三交集数据和第一样本获得第一百分比p1;基于所述第四交集数据和第二样本获得第二百分比p2;
[0062]
具体的,将所述两个样本对应的基因文件分别与所述人群snps库取交集获得第三交集数据和第四交集数据;将所述第三交集数据与所述第一样本数据的比值作为第一百分比p1;将所述第四交集数据与所述第二样本数据的比值作为第二百分比p2。
[0063]
s5,基于所述标准百分比p0与所述第一百分比p1和第二百分比p2的关系确定所述测序样本是否同源。
[0064]
具体的,所述标准百分比p0同时大于第一百分比p1和第二百分比p2确定为所述测序样本为同源样本;所述标准百分比p0同时小于第一百分比p1和第二百分比p2确定所述测序样本为非同源样本;其他情况不确定所述测序样本是否为同源样本。
[0065]
实施例二
[0066]
参见图2,提供一种基于构建人群snps库的测序样本同源性检测系统,包括:
[0067]
snps建库模块101,用于构建人群snps库;其中所述人群snps库为胚系基因突变的人群频率库;
[0068]
样本获取模块102,用于获取两个基因文件,所述两个基因文件为vcf格式;根据预定过滤筛选条件分别对两个基因文件根据预定过滤筛选条件进行snps过滤筛选,获得两个基因文件对应第一样本和第二样本;
[0069]
第一计算模块103,用于将所述第一样本和第二样本对应的基因文件取交集获得第一交集数据,将所述第一交集数据与所述人群snps库再次取交集获得第二交集数据;基于所述第一交集数据与所述第二交集数据的数量获得标准百分比p0;
[0070]
第二计算模块104,用于将所述两个样本对应的基因文件分别与所述人群snps库取交集获得第三交集数据和第四交集数据;基于所述第三交集数据和第一样本获得第一百分比p1;基于所述第四交集数据和第二样本获得第二百分比p2;
[0071]
同源检测模块105,用于基于所述标准百分比p0与所述第一百分比p1和第二百分比p2的关系确定所述测序样本是否同源。
[0072]
该系统可实现上述实施例一提供的检测方法,具体的检测方法可参见实施例一中的描述,在此不再赘述。
[0073]
本发明还提供了一种存储器,存储有多条指令,指令用于实现如实施例一的方法。
[0074]
如图3所示,本发明还提供了一种电子设备,包括处理器301和与处理器301连接的存储器302,存储器302存储有多条指令,指令可被处理器加载并执行,以使处理器能够执行如实施例一的方法。
[0075]
具体应用场景下的实施例和验证例如下表1和表2所示。
[0076]
表1同源样本计算表
[0077]
[0078]
[0079][0080]
表2不同源样本计算表
[0081]
[0082]
[0083]
[0084]
[0085]
[0086][0087]
使用本发明所述方法分别对同源样本和不同源样本分别进行统计获得表3和表4。
[0088]
表3同源样本统计表
[0089]
同源组总数预测同源组数预测不确定组数预测非同源组数887693
[0090]
表4不同源样本统计表
[0091]
非同源组总数预测同源组数预测不确定组数预测非同源组数203026177
[0092]
通过表3和表4的计算,该方法在同源组检测中准确率达到86.4%,非同同源组中准确率达到87.2%。
[0093]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1