基于大数据人工智能算法的祖源多态性预测方法与流程

文档序号:23659170发布日期:2021-01-15 13:56阅读:96来源:国知局
基于大数据人工智能算法的祖源多态性预测方法与流程

本发明涉及大数据祖源多态性预测技术领域,尤其涉及基于大数据人工智能算法的祖源多态性预测方法。



背景技术:

现代生物理论认为,基因是遗传的基本单位,在人类繁殖的过程中,遗传特征通过基因传递给下一代,子代分别从父母双方各获得一套染色体,一方面完成了遗传信息从亲代到子代的传递,另一方面也丰富了子代的遗传特征多样性,在人类族群演化的过程中,dna中会累计多种遗传突变,也被称为单核苷酸多态性位点(snp),不同族群累积的突变位点也不尽相同,因此snp可以在一定程度上反应族群的遗传特征。

目前市场上的祖源分析技术多使用开源数据库,其中关于中国个体的样本量小,导致血统和单倍群分型不准确、分型不细致等,从而无法做到精确的追溯祖源。

基于此,本发明提出基于大数据人工智能算法的祖源多态性预测方法。



技术实现要素:

本发明的目的是为了解决现有技术中存在的缺点,而提出的基于大数据人工智能算法的祖源多态性预测方法,其通过使用微单倍型对人群基因进行检测分类,其具有较好的高度多态性、低突变率和长度优势,可以较好的对人群的基因以及来源地进行预测分析,准确率较高,通过根据信息度、固定指数和有效等位基因数等指标挑选出多个二等位基因snp位点、多个三等位基因snp位点和多个微单倍型位点来分别祖源的准确高。

为了实现上述目的,本发明采用了如下技术方案:

基于大数据人工智能算法的祖源多态性预测方法,包括如下步骤;

s1、选取千人基因组数据,并从千人基因组数据筛选出多个微单倍型,对这些千人基因组数据进行群体结构分析并进行分类;

s2、对部分不同人群中筛选多个微单倍型位点,根据不同人群的平均有效等位基因数进行大小分类;

s3、对部分不同人群进行群体结构分析,选用其中多个信息度大于0.2的位点,对着不同人群进行来源分类;

s4、根据信息度值和平均有效等位基因数值挑选出多个微单倍型位点,对部分不同人群进行祖源推断;

s5、对部分不同人群进行祖源推断进行标记,根据信息度、固定指数和有效等位基因数等指标挑选出多个二等位基因snp位点、多个三等位基因snp位点和多个微单倍型位点,进一步区分比较其祖源;

s6、基于部分不同人群构建多个微单倍型复合检测体系,其杂合度平均为0.5-0.6,以此对部分不同人群的的识别进行推断。

优选地,在所述步骤s1中,所述多个微单倍型数值为10-15,所述多个微单倍型的信息值均大于0.5。

优选地,在所述步骤s2中,部分不同人群的平均有效等位基因数大于2,且平均有效等位基因数大于2占用的微单倍型位点为总微单倍型位点的70%-80%,有30%-35%个微单倍型位点的平均有效等位基因数大于3,有5%-10%个微单倍型位点的平均有效等位基因数大于7。

优选地,在所述步骤s4中,所述平均信息度值为0.1-0.5,所述平均有效等位基因数值2.5-3.0。

优选地,在所述步骤s5中,多个二等位基因snp位点为千人基因组数据的25%-30%,多个三等位基因snp位点为千人基因组数据的1%-5%,多个微单倍型位点为千人基因组数据的10%-15%。

优选地,在所述步骤s3中,多个信息度大于0.2的位点为总人群的50%-60%。

本发明具有以下有益效果:

1、通过使用微单倍型对人群基因进行检测分类,其具有较好的高度多态性、低突变率和长度优势,可以较好的对人群的基因以及来源地进行预测分析,准确率较高;

2、通过根据信息度、固定指数和有效等位基因数等指标挑选出多个二等位基因snp位点、多个三等位基因snp位点和多个微单倍型位点来分别祖源,能够克服现有群体多态性方法对于遗传非常相近的群体,能够精确区分预测遗传度差异小的群体祖源多态性,对基因群体研究和某些群体关联疾病基因组片段定位起到重要作用。

附图说明

图1为本发明提出的基于大数据人工智能算法的祖源多态性预测方法的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。

需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

参照图1,基于大数据人工智能算法的祖源多态性预测方法,包括如下步骤;

s1、选取千人基因组数据,并从千人基因组数据筛选出多个微单倍型,对这些千人基因组数据进行群体结构分析并进行分类,群体结构是群体成员的构成,可以对千人基因组数据所代表的人群分为非洲、欧洲、东亚和南亚人群等等;

s2、对部分不同人群中筛选多个微单倍型位点,根据不同人群的平均有效等位基因数进行大小分类,有效等位基因数是理想群体中一个基因座上产生与实际群体中相同的纯合度所需的等位基因数,它等于实际群体的纯合度的倒数;

s3、对部分不同人群进行群体结构分析,选用其中多个信息度大于0.2的位点,对着不同人群进行来源分类;

s4、根据信息度值和平均有效等位基因数值挑选出多个微单倍型位点,对部分不同人群进行祖源推断;

s5、对部分不同人群进行祖源推断进行标记,根据信息度、固定指数和有效等位基因数等指标挑选出多个二等位基因snp位点、多个三等位基因snp位点和多个微单倍型位点,进一步区分比较其祖源,进一步的,固定指数是指衡量种群中基因型实际频率是否偏离遗传平衡理论比例的指标;

s6、基于部分不同人群构建多个微单倍型复合检测体系,其杂合度平均为0.5-0.6,以此对部分不同人群的的识别进行推断,进一步的,杂合度又称群体的平均杂合性,它是群体遗传变异的另一个度量参数,是指某一基因座上的等位基因是杂合体的频率。

需要说明的是,微单倍型是指在小于300bp的dna区段内,包含至少2个snp的多态性位点,在300bpdna片段长度范围内,微单倍型内部snp间的重组率几乎为0,一个微单倍型位点可视作一个独立基因座,其多态性由snp的特定组合所构成。

微单倍型兼具str和snp的优势:

1、高度多态性。通常snp位点仅有2个等位基因,若n个二等位基因的snp构成一个微单倍型位点,那么该微单倍型位点理论上最多有2n种snp的组合,即最多有2n个等位基因。

2、低突变率。微单倍型的突变率相当于snp的突变率,为10-9~10-8/代,是str突变率的百万分之一到十万分之一,在亲权鉴定中有独特优势。

3、检测无阴影带。基于电泳技术分型的str会产生阴影带,不利于复杂混合dna样本的分析,微单倍型通过测序手段检测,无阴影带,且二代测序具有高通量、高灵敏度的优点,在定量分析复杂混合dna中有很大潜力。

4、长度优势。str基因座的等位基因长度跨度很大,因此会产生扩增不平衡问题,而较长的等位基因在降解检材中极可能被破坏,得不到准确的分型结果,微单倍型长度相对均一,可减少因长度差异带来的扩增不平衡问题。

在步骤s1中,多个微单倍型数值为10-15,多个微单倍型的信息值均大于0.5。

在步骤s2中,部分不同人群的平均有效等位基因数大于2,且平均有效等位基因数大于2占用的微单倍型位点为总微单倍型位点的70%-80%,有30%-35%个微单倍型位点的平均有效等位基因数大于3,有5%-10%个微单倍型位点的平均有效等位基因数大于7。

在步骤s4中,平均信息度值为0.1-0.5,平均有效等位基因数值2.5-3.0。

在步骤s5中,多个二等位基因snp位点为千人基因组数据的25%-30%,多个三等位基因snp位点为千人基因组数据的1%-5%,多个微单倍型位点为千人基因组数据的10%-15%。

在步骤s3中,多个信息度大于0.2的位点为总人群的50%-60%。

本发明中,通过使用微单倍型对人群基因进行检测分类,其具有较好的高度多态性、低突变率和长度优势,可以较好的对人群的基因以及来源地进行预测分析,准确率较高,通过根据信息度、固定指数和有效等位基因数等指标挑选出多个二等位基因snp位点、多个三等位基因snp位点和多个微单倍型位点来分别祖源,能够克服现有群体多态性方法对于遗传非常相近的群体,能够精确区分预测遗传度差异小的群体祖源多态性,对基因群体研究和某些群体关联疾病基因组片段定位起到重要作用。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1