基因变异位点筛选方法及系统与流程

文档序号:20604513发布日期:2020-05-01 21:57阅读:来源:国知局

技术特征:

1.一种基因变异位点筛选方法,其特征在于,包括:

获取包含指定人群基因变异位点的第一数据集;

对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点;

对每簇中的基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。

2.根据权利要求1所述的基因变异位点筛选方法,其特征在于,获取包含指定人群基因变异位点的第一数据集,具体为:

获取指定人群的基因测序数据,提取基因测序数据中的基因变异位点,得到原始数据集;

利用预设筛选条件对所述原始数据集进行筛选,将筛选获得的基因变异位点记为第一基因变异位点;

将所述原始数据集中所述第一基因变异位点之外的基因变异位点作为所述第一数据集。

3.根据权利要求1所述的基因变异位点筛选方法,其特征在于,所述指定人群为中国人。

4.根据权利要求1所述的基因变异位点筛选方法,其特征在于,对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点,具体为:

获取所述第一数据集中基因变异位点的连锁不平衡值;

基于所述连锁不平衡值对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点。

5.根据权利要求4所述的基因变异位点筛选方法,其特征在于,获取所述第一数据集中基因变异位点的连锁不平衡值,具体为:

获取所述第一数据集中次等位基因频率大于等于3%的基因变异位点,组成聚类数据集;

获取所述聚类数据集中基因变异位点的连锁不平衡值。

6.根据权利要求5所述的基因变异位点筛选方法,其特征在于,所述聚类数据集中的基因变异位点的次等位基因频率大于等于5%。

7.根据权利要求6所述的基因变异位点筛选方法,其特征在于,获取所述聚类数据集中基因变异位点的连锁不平衡值,具体为:

获取所述聚类数据集中,每个基因变异位点与所述聚类数据集中的其他基因变异位点之间的皮尔逊相关系数rij,其中,0<i,j≤n,n为所述聚类数据集中基因变异位点的数量;

根据所述皮尔逊相关系数rij确定连锁不平衡值rij2

8.根据权利要求1~7任一项所述的基因变异位点筛选方法,其特征在于,所述对每簇中的基因变异位点进行评分,具体为:

获取经过湿测试的验证数据集;

判断每簇中的每个基因变异位点是否包含于验证数据集中,如果是,则基于验证数据集中的基因变异位点所使用的探针数量对簇中基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。

9.一种基因变异位点筛选系统,其特征在于,包括计算机系统,所述计算机系统被编程以执行权利要求1~8中任意一项所述的基因变异位点筛选方法的步骤。


技术总结
本申请公开了一种基因变异位点筛选方法及系统,其中,基因变异位点筛选方法,包括:获取包含指定人群基因变异位点的第一数据集;对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点;对每簇中的基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。本发明的基因变异位点筛选方法,更加合理、充分的利用了第一数据集中的基因变异位点,避免了有效基因变异位点的遗漏,使得制备的基因芯片中,包含了更加全面的基因变异位点。

技术研发人员:周凯欣;徐涛;王友;何顺民;郑丽;耿照旭
受保护的技术使用者:中国科学院大学
技术研发日:2019.12.18
技术公布日:2020.05.01
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1