一种基于构建人群SNPs库的测序样本同源性检测方法及系统与流程

文档序号:33499347发布日期:2023-03-17 21:45阅读:来源:国知局

技术特征:
1.一种基于构建人群snps库的测序样本同源性检测方法,其特征在于,包括:s1,构建人群snps库;其中所述人群snps库为胚系基因突变的人群频率库;s2,获取两个基因文件,所述两个基因文件为vcf格式;根据预定过滤筛选条件分别对两个基因文件进行snps过滤筛选,获得两个基因文件对应的第一样本和第二样本;s3,将所述第一样本和第二样本对应的基因文件取交集获得第一交集数据,将所述第一交集数据与所述人群snps库再次取交集获得第二交集数据;基于所述第二交集数据与所述第一交集数据的数量获得标准百分比p0;s4,将所述第一样本和第二样本对应的基因文件分别与所述人群snps库取交集获得第三交集数据和第四交集数据;基于所述第三交集数据和第一样本获得第一百分比p1;基于所述第四交集数据和第二样本获得第二百分比p2;s5,基于所述标准百分比p0与所述第一百分比p1和第二百分比p2的关系确定所述测序样本是否同源。2.根据权利要求1所述的一种基于构建人群snps库的测序样本同源性检测方法,其特征在于,所述s1所述构建人群snps库的步骤包括:获取基因组聚合数据库gnomad数据,包括分别下载基因组库和外显子组库中的数据;基于基因组聚合数据库gnomad数据形成基因文件;基于第一数据过滤标准和第二数据过滤标准过滤基因组库对应的基因文件中的snps位点获得第一结果文件;基于第一数据过滤标准和第二数据过滤标准过滤外显子组库对应的基因文件中的snps位点获得第二结果文件;获取第一结果文件和第二结果文件的交集作为所述人群snps库。3.根据权利要求2所述的一种基于构建人群snps库的测序样本同源性检测方法,其特征在于,所述第一数据过滤标准为所有人群频率ref≥0.01;所述第二数据过滤标准为东亚人群频率af_eas≥0.01。4.根据权利要求3所述的一种基于构建人群snps库的测序样本同源性检测方法,其特征在于,所述s2中所述预定过滤筛选条件包括:第一条件、第二条件、第三条件和第四条件中的一个或多个,其中所述第一条件为删除测序总深度小于10x的snps;所述第二条件为删除性染色体上的snps;所述第三条件为保留杂合突变的snps;所述第四条件为保留支持reads数大于4条的snps。5.根据权利要求4所述的一种基于构建人群snps库的测序样本同源性检测方法,其特征在于,所述s3包括:将所述第一样本和第二样本对应的基因文件取交集获得第一交集数据,将所述第一交集数据与所述人群snps库再次取交集获得第二交集数据;将所述第二交集数据与所述第一交集数据的数量的比值作为标准百分比p0。6.根据权利要求5所述的一种基于构建人群snps库的测序样本同源性检测方法,其特征在于,所述s4包括:将所述第一样本和第二样本对应的基因文件分别与所述人群snps库取交集获得第三交集数据和第四交集数据;将所述第三交集数据与所述第一样本数据的比值作为第一百分比p1;将所述第四交集数据与所述第二样本数据的比值作为第二百分比p2。7.根据权利要求6所述的一种基于构建人群snps库的测序样本同源性检测方法,其特
征在于,所述s5包括:所述标准百分比p0同时大于第一百分比p1和第二百分比p2确定为所述测序样本为同源样本;所述标准百分比p0同时小于第一百分比p1和第二百分比p2确定所述测序样本为非同源样本;其他情况不确定所述测序样本是否为同源样本。8.一种基于构建人群snps库的测序样本同源性检测系统,用于实施权利要求1-7任一所述的检测方法,其特征在于,包括:snps建库模块(101),用于构建人群snps库;其中所述人群snps库为胚系基因突变的人群频率库;样本获取模块(102),用于获取两个基因文件,所述两个基因文件为vcf格式;根据预定过滤筛选条件分别对两个基因文件根据预定过滤筛选条件进行snps过滤筛选获得两个基因文件对应的第一样本和第二样本;第一计算模块(103),用于将所述第一样本和第二样本对应的基因文件取交集获得第一交集数据,将所述第一交集数据与所述人群snps库再次取交集获得第二交集数据;基于所述第一交集数据与所述第二交集数据的数量获得标准百分比p0;第二计算模块(104),用于将所述第一样本和第二样本对应的基因文件分别与所述人群snps库取交集获得第三交集数据和第四交集数据;基于所述第三交集数据和第一样本获得第一百分比p1;基于所述第四交集数据和第二样本获得第二百分比p2;同源检测模块(105),用于基于所述标准百分比p0与所述第一百分比p1和第二百分比p2的关系确定所述测序样本是否同源。9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1-7任一所述的检测方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1-7任一所述的检测方法。

技术总结
本发明公开一种基于构建人群SNPs库的测序样本同源性检测方法及系统,属于测序样本检测技术领域。方法包括:构建人群SNPs库;获取两个VCF格式基因文件;根据预定过滤筛选条件分别对两个基因文件进行SNPs过滤筛选获得两个样本;将两个样本对应的基因文件取交集获得第一交集数据,将第一交集数据与人群SNPs库再次取交集获得第二交集数据;基于第二交集数据与第一交集数据的比值获得百分比P0;将两个样本对应的基因文件分别与人群SNPs库取交集获得第三交集数据和第四交集数据;基于第三交集数据与第一样本数据的比值获得百分比P1;基于第四交集数据与第二样本数据的比值获得百分比P2;基于P0与P1和P2的关系确定测序样本是否同源。源。源。


技术研发人员:朱燕萍 谢剑邦 郑晖 林健 曹野
受保护的技术使用者:南京普恩瑞生物科技有限公司
技术研发日:2022.12.22
技术公布日:2023/3/16
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1