1.一种基因变异位点筛选方法,其特征在于,包括:
获取包含指定人群基因变异位点的第一数据集;
对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点;
对每簇中的基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。
2.根据权利要求1所述的基因变异位点筛选方法,其特征在于,获取包含指定人群基因变异位点的第一数据集,具体为:
获取指定人群的基因测序数据,提取基因测序数据中的基因变异位点,得到原始数据集;
利用预设筛选条件对所述原始数据集进行筛选,将筛选获得的基因变异位点记为第一基因变异位点;
将所述原始数据集中所述第一基因变异位点之外的基因变异位点作为所述第一数据集。
3.根据权利要求1所述的基因变异位点筛选方法,其特征在于,所述指定人群为中国人。
4.根据权利要求1所述的基因变异位点筛选方法,其特征在于,对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点,具体为:
获取所述第一数据集中基因变异位点的连锁不平衡值;
基于所述连锁不平衡值对所述第一数据集中的基因变异位点进行聚类,获得多簇基因变异位点。
5.根据权利要求4所述的基因变异位点筛选方法,其特征在于,获取所述第一数据集中基因变异位点的连锁不平衡值,具体为:
获取所述第一数据集中次等位基因频率大于等于3%的基因变异位点,组成聚类数据集;
获取所述聚类数据集中基因变异位点的连锁不平衡值。
6.根据权利要求5所述的基因变异位点筛选方法,其特征在于,所述聚类数据集中的基因变异位点的次等位基因频率大于等于5%。
7.根据权利要求6所述的基因变异位点筛选方法,其特征在于,获取所述聚类数据集中基因变异位点的连锁不平衡值,具体为:
获取所述聚类数据集中,每个基因变异位点与所述聚类数据集中的其他基因变异位点之间的皮尔逊相关系数rij,其中,0<i,j≤n,n为所述聚类数据集中基因变异位点的数量;
根据所述皮尔逊相关系数rij确定连锁不平衡值rij2。
8.根据权利要求1~7任一项所述的基因变异位点筛选方法,其特征在于,所述对每簇中的基因变异位点进行评分,具体为:
获取经过湿测试的验证数据集;
判断每簇中的每个基因变异位点是否包含于验证数据集中,如果是,则基于验证数据集中的基因变异位点所使用的探针数量对簇中基因变异位点进行评分,筛选出评分大于预设阈值的基因变异位点。
9.一种基因变异位点筛选系统,其特征在于,包括计算机系统,所述计算机系统被编程以执行权利要求1~8中任意一项所述的基因变异位点筛选方法的步骤。