本发明涉及生物信息学技术领域,尤其涉及计算基因型对表型额外贡献的方法及装置。
背景技术:
基因(也叫做遗传因子)是产生一条多肽链或功能rna所需的全部核苷酸序列,它支撑着生命的基本构造和性能,是决定一切生物物种最基本的因子。基因决定人的生老病死,是生命的操纵者和调控者。因此,一切生命的存在与衰亡的形式都是由基因决定的。但是,由于环境的影响,基因在生物体上的表现千差万别。
全基因组关联分析(genome-wideassociationstudy,简称为gwas)是应用基因组中数以百万计的单核苷酸多态性(singlenucleotideploymorphism,简称为snp)为分子进行遗传标记,以及全基因组水平上的对照分析或相关性分析。随着基因组学研究以及基因芯片技术的发展,人们已经通过gwas方法发现并鉴定了大量与复杂性状相关联的遗传变异。由于复杂性状很大程度上是由数量性状的微效多基因决定的,snp位点可能通过影响基因表达量对这些数量性状产生轻微的作用,它们在rna的转录或翻译效率上发挥作用,可能在基因表达上产生短暂的或依赖时空的多种影响,刺激调节基因的转录表达或影响其rna剪接方式。但是,生物体的对外表现性状即基因型对表型额外贡献仍无法获得。
技术实现要素:
有鉴于此,本发明实施例的目的在于提供了计算基因型对表型额外贡献的方法及装置,通过预先计算平均贡献值以及之后对单个待测试物种进行基因多态性位点检测等,能够方便获得生物体的对外表现性状即基因型对表型的额外贡献。
第一方面,本发明实施例提供了计算基因型对表型额外贡献的方法,包括:
通过权威文献及生物数据库获取基因多态性位点信息,其中,基因多态性位点信息包括表型、基因型、基因频率和or值;
按照基因多态性位点信息对应的表型将物种细分为多个亚类;
根据基因频率和or值计算每种亚类中各个基因型的平均贡献值;
对单个待测试物种进行基因多态性位点检测,获取待测试物种的特定基因型;
根据or值和平均贡献值计算特定基因型的对表型额外贡献值。结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,根据基因频率和or值计算每种亚类中各个基因型的平均贡献值包括:
当位点处于未被检测状态时,以基因型、基因频率的数值计算出加权平均基因型来代替基因型;
在每种亚类中累乘各个位点的基因型的or值和基因频率,得到总贡献值;
对总贡献值进行几何平均,得到基因型的平均贡献值。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,根据or值和平均贡献值计算特定基因型的对表型额外贡献值包括:
计算单个待测试物种的平均贡献值;
通过sigmoid函数对单个待测试物种的平均贡献值和基因型的平均贡献值进行计算,得到特定基因型的对表型额外贡献值。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,计算单个待测试物种的平均贡献值包括:
当单个待测试物种中的位点处于未被检测状态时,以所述基因型、基因频率的数值计算出加权平均基因型来代替所述基因型;
在每种亚类中累乘各个位点的特定基因型的or值,得到总贡献值;
对总贡献值进行几何平均,得到特定基因型的平均贡献值。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,通过位点检测获取基因多态性位点信息,其中,基因多态性位点信息包括基因型、基因频率和or值步骤之前还包括:
预先收集包括多个物种的生物大数据资源;
通过位点检测获取生物大数据资源中的基因多态性位点信息。
第二方面,本发明实施例提供了计算基因型对表型额外贡献的装置,包括:
位点信息获取模块,用于通过权威文献及生物数据库获取基因多态性位点信息,其中,基因多态性位点信息包括表型、基因型、基因频率和or值;
细分模块,用于按照基因多态性位点信息对应的表型将物种细分为多个亚类;
平均贡献值计算模块,用于根据基因频率和or值计算每种亚类中各个基因型的平均贡献值;
单个测试模块,用于对单个待测试物种进行基因多态性位点检测,获取待测试物种的特定基因型;
额外贡献值计算模块,用于根据or值和平均贡献值计算特定基因型的对表型额外贡献值。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,平均贡献值计算模块包括:
代替单元,用于当位点处于未被检测状态时,以基因型、基因频率的数值计算出加权平均基因型来代替基因型;
累乘单元,用于在每种亚类中累乘各个位点的基因型的or值和基因频率,得到总贡献值;
几何平均单元,用于对总贡献值进行几何平均,得到基因型的平均贡献值。
结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第二种可能的实施方式,其中,额外贡献值计算模块包括:
平均值计算单元,用于计算单个待测试物种的平均贡献值;
额外贡献计算单元,用于通过sigmoid函数对单个待测试物种的平均贡献值和基因型的平均贡献值进行计算,得到特定基因型的对表型额外贡献值。
结合第二方面的第二种可能的实施方式,本发明实施例提供了第二方面的第三种可能的实施方式,其中,平均值计算单元包括:
代替子单元,用于当单个待测试物种中的位点处于未被检测状态时,以基因频率的数值来代替特定基因型的or值;
累乘子单元,用于在每种亚类中累乘各个位点的特定基因型的or值,得到总贡献值;
几何平均子单元,用于对总贡献值进行几何平均,得到特定基因型的平均贡献值。
结合第二方面,本发明实施例提供了第二方面的第四种可能的实施方式,其中,还包括:
资源收集模块,用于预先收集包括多个物种的生物大数据资源;
信息提取模块,用于通过位点检测提取生物大数据资源中的基因多态性位点信息。
本发明实施例提供的计算基因型对表型额外贡献的方法及装置,其中,该计算基因型对表型额外贡献的方法包括:首先,通过权威文献及生物数据库获取基因多态性位点信息,其中,基因多态性位点信息包括表型、基因型、基因频率和or值,之后,按照基因多态性位点信息对应的表型将物种细分为多个亚类,接着,根据基因频率和or值计算每种亚类中各个基因型的平均贡献值,然后,对单个待测试物种进行基因多态性位点检测,获取待测试物种的特定基因型,最后,根据or值和平均贡献值计算特定基因型的对表型额外贡献值,通过上述方法能够方便快捷的计算出基因型对表型的额外贡献,,可见通过上述处理过程,能在对单个待测试物种进行基因多态性位点检测之前,利用生物大数据资源预先计算每个亚类中各个基因型的平均贡献值,并运用平均贡献值、or值等来计算单个待测试物种中某个特定基因型的对表型额外贡献值,方便准确。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的计算基因型对表型额外贡献的方法的流程图;
图2示出了本发明实施例所提供的计算基因型对表型额外贡献的装置的连接图;
图3示出了本发明实施例所提供的计算基因型对表型额外贡献的装置的结构框架图;
图4示出了本发明实施例所提供的计算基因型对表型额外贡献的装置的结构连接图。
图标:1-位点信息获取模块;2-细分模块;3-平均贡献值计算模块;4-单个测试模块;5-额外贡献值计算模块;31-代替单元;32-累乘单元;33-几何平均单元;51-平均值计算单元;52-额外贡献计算单元。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
众所周知,生命的存在与衰亡的形式都是由基因决定的。但是,由于复杂环境的影响,基因最终在生物体上的表现各不一样。目前的生物信息学领域中,生物体的基因型对表型额外贡献的获得依然是个难题。
基于此,本发明实施例提供了计算基因型对表型额外贡献的方法及装置,下面通过实施例进行描述。
实施例1
参见图1,本实施例提出的计算基因型对表型额外贡献的方法具体包括以下步骤:
步骤s101:通过权威文献及生物数据库获取基因多态性位点信息,其中,基因多态性位点信息包括表型、基因型、基因频率和or值。
首先,需要先说明下,额外贡献是指的某个人相对于平均的人群来说,你的贡献是平均人的多少倍。比如,身高的决定有5个位点即snp来决定,那么,按照文献及数据库经过算法计算得到平均人群的贡献值,然后,对某人通过基因检测这5个位点,获得了该人的基因型,再经过算法得到该人相对与平均的人群的倍数,倍数的范围是在0到2之间的,并且,倍数在0-1说明该人的基因型对身高的贡献是负的,也就是说他的基因起到矮化作用,1-2说明起到增高作用。这些都是相对来说的,相对的是大众群体。
这里需要说明的是,在通过位点检测获取基因多态性位点信息,其中,基因多态性位点信息包括表型、基因型、基因频率和or值包括:预先收集包括多个物种的生物大数据资源,生物大数据资源的收集不仅数据量大、数据多样性广,而且,从统一收集出来的生物大数据资源中挖掘出来的信息价值高,通过计算机批量进行计算速度快,通过位点检测获取生物大数据资源中的基因多态性位点信息,即利用生物大数据资源确定各多态性基因型位点的基因型在特定物种中的频率等。
另外,可以在线检索到公开发表在国际知名期刊中某类型的基因多态性位点信息,这里,基因多态性位点信息包括基因型、基因频率和or值,基因多态性位点信息中还可以包括更为具体的信息,例如,期刊相关的文献信息(例如,pubmedid号、文献名、作者、联系方式、相关杂志等)、位点的snp号、类别等,便于进行其他运算时进行参考。
步骤s102:按照基因多态性位点信息对应的表型将物种细分为多个亚类。由于,生物物种的形状千差万别,在进行基因型对表型额外贡献的过程中,需要先将物种分门别类,再根据性状表型细分亚类,在单个亚类内进行研究才有意义。
步骤s103:根据基因频率和or值计算每种亚类中各个基因型的平均贡献值。具体的,首先,要在每种亚类中先定义输入参数:亚类别、基因型、基因频率和or值,这里,将亚类别作为输入参数的目的是为了使每种亚类下的计算的区分更加明显。
这里需要说明的是,有些情况下,为了计算出基因型对表型额外贡献需要检测性状相关联的一系列位点,而相邻位点的基因型对表型额外贡献相近,实际操作过程中,为了方便检测,会在相邻的位点中选取其中的几个位点进行检测,或者,因为其他原因,无法获得某些位点的检测数据。这种情况下,判定该位点为未被检测状态,当位点处于未被检测状态时,以基因频率的数值来代替or值。通常,or值,如果没有查到,默认取1。对于没有检测的基因位点,无法知晓其基因型,这个时候采用的是等位基因频率来加权计算的,比如某个位点的基因频率a是0.4,c是0.6,那么计算其贡献值的0.4*a的or值+0.6*c的or值。
其次,在每种亚类中累乘各个位点的基因型的or值,在具体实施过程中,可通过循环函数进行累乘,方便快速,在当前亚类的所有位点都累乘完毕后,得到该亚类下的总贡献值,当所有亚类下的位点都分别累乘完毕后,得到各个亚类下的总贡献值。
之后,对上述计算得出的总贡献值进行几何平均,得到基因型的平均贡献值。这里需要说明的是,需要在各个亚类下对总贡献值进行几何平均,以得到基因型的平均贡献值,并将平均贡献值向外输出。以上各个数据都是根据经验数据库(例如,已有的生物大数据资源等)得到。
步骤s104:对单个待测试物种进行基因多态性位点检测,获取待测试物种的特定基因型,当具体到某个待测试的物种时,首先要选取相应的位点进行基因多态性位点检测,并确定要计算对表型额外贡献值的特定基因型。
步骤s105:根据or值和平均贡献值计算特定基因型的对表型额外贡献值,包括:
(1)计算单个待测试物种的平均贡献值,这里的步骤与根据基因频率和or值计算每种亚类中各个基因型的平均贡献值的步骤类似,具体包括:
实际操作过程中为了方便检测,会筛选出部分位点进行检测,或者,因为某些其他原因,无法获得有些位点的检测数据。这样,当单个待测试物种中的位点处于未被检测状态时,以基因频率的数值来代替特定基因型的or值。这里需要说明的是,基因频率的数值多为临近位点的平均值。
为了进行精确细分,在每种亚类中累乘各个位点的特定基因型的or值,累乘的结果作为总贡献值,累乘的次数跟选出的位点的个数一致。
之后,对每种亚类中得到的总贡献值进行几何平均,得到特定基因型的平均贡献值。
(2)通过sigmoid函数对单个待测试物种的平均贡献值和基因型的平均贡献值进行计算,得到特定基因型的对表型额外贡献值。sigmoid函数是一个在生物学中常见的s型的函数,由于其单增以及反函数单增等性质,sigmoid函数常被用作神经网络的阈值函数,能够将变量映射到0和1之间。在本方法中,先用基因型的平均贡献值减去单个待测试物种的平均贡献值,之后,运用sigmoid函数对上述差值进行计算,之后,将得到的结果值除以0.5后作为特定基因型的对表型额外贡献值,并进行对外输出。
综上所述,本实施例提供的计算基因型对表型额外贡献的方法包括:首先,通过权威文献及生物数据库获取基因多态性位点信息,,其中,基因多态性位点信息包括表型、基因型、基因频率和or值,并且,按照基因多态性位点信息对应的表型将物种细分为多个亚类,这样,根据基因频率和or值计算每种亚类中各个基因型的平均贡献值,然后,当需要对单个待测试物种进行基因多态性位点检测,获取待测试物种的特定基因型,按照上述计算过程中得到的or值和平均贡献值来计算特定基因型的对表型额外贡献值,采用上述处理方法计算出的基因型对表型额外贡献准确便捷。
实施例2
参见图2、图3和图4,本实施例提供了计算基因型对表型额外贡献的装置包括:依次相连的位点信息获取模块1、细分模块2、平均贡献值计算模块3、单个测试模块4和额外贡献值计算模块5,使用时,位点信息获取模块1用来通过权威文献及生物数据库获取基因多态性位点信息,其中,基因多态性位点信息包括表型、基因型、基因频率和or值,细分模块2用来按照基因多态性位点信息对应的表型将物种细分为多个亚类,平均贡献值计算模块3用来根据基因频率和or值计算每种亚类中各个基因型的平均贡献值,单个测试模块4用来对单个待测试物种进行基因多态性位点检测,获取待测试物种的特定基因型,额外贡献值计算模块5用来根据or值和平均贡献值计算特定基因型的对表型额外贡献值。
并且,平均贡献值计算模块3包括:代替单元31用来当位点处于未被检测状态时,以基因频率的数值来代替or值,累乘单元32用来在每种亚类中累乘各个位点的基因型的or值,得到总贡献值,几何平均单元33用来对总贡献值进行几何平均,得到基因型的平均贡献值。
并且,额外贡献值计算模块5包括:平均值计算单元51用来计算单个待测试物种的平均贡献值,额外贡献计算单元52用来通过sigmoid函数对单个待测试物种的平均贡献值和基因型的平均贡献值进行计算,得到特定基因型的对表型额外贡献值。
另外,平均值计算单元51还包括:代替子单元用来当单个待测试物种中的位点处于未被检测状态时,以基因频率的数值来代替特定基因型的or值,累乘子单元用来在每种亚类中累乘各个位点的特定基因型的or值,得到总贡献值,几何平均子单元用来对总贡献值进行几何平均,得到特定基因型的平均贡献值。
计算基因型对表型额外贡献的装置中还包括:资源收集模块用来预先收集包括多个物种的生物大数据资源,信息提取模块用来通过位点检测提取生物大数据资源中的基因多态性位点信息。
综上所述,本实施例提供的计算基因型对表型额外贡献的装置包括:依次相连的位点信息获取模块1、细分模块2、平均贡献值计算模块3、单个测试模块4和额外贡献值计算模块5,使用时,位点信息获取模块1用来通过权威文献及生物数据库获取基因多态性位点信息,其中,基因多态性位点信息包括表型、基因型、基因频率和or值,细分模块2用来按照基因多态性位点信息对应的表型将物种细分为多个亚类,平均贡献值计算模块3用来根据基因频率和or值计算每种亚类中各个基因型的平均贡献值,单个测试模块4用来对单个待测试物种进行基因多态性位点检测,获取待测试物种的特定基因型,额外贡献值计算模块5用来根据or值和平均贡献值计算特定基因型的对表型额外贡献值,通过上述各个模块的设置,能够依照已存在的生物大数据资源有效便捷的计算出生物体中的某个特定基因型的对表型额外贡献值。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。