基因序列非比对方法、装置和电子设备

文档序号:29906559发布日期:2022-05-06 00:05阅读:107来源:国知局
基因序列非比对方法、装置和电子设备

1.本发明涉及基因组进化分析技术领域,尤其涉及一种基因序列非比对方法、装置和电子设备。


背景技术:

2.基因组进化分析一直是生物信息学研究中的一个重要问题,通过基因组进化分析的方式构建系统发育树,有助于人们了解生物的进化历史过程。
3.相关技术中,先基于传统k-mer算法确定基因序列中所有连续的k个碱基字符串的频数,再利用频数构成特征向量,以此计算出基因序列数据集中各个基因序列的特征向量,然后利用多个特征向量计算出每两个基因序列之间的欧式距离,最后基于距离矩阵构建进化树。
4.然而,由于相关技术中将基因序列划分为多个碱基字符串时直接基于每个碱基字符串的频数构成特征向量,从而导致基因组进化分析的运算耗时过长且准确率不高。


技术实现要素:

5.本发明提供一种基因序列非比对方法、装置和电子设备,用以解决现有技术中将基因序列划分为多个碱基字符串时直接基于每个碱基字符串的频数构成特征向量而导致的基因组进化分析的运算耗时过长且准确率不高的缺陷,实现通过无比对的基因组分类方式达到提高基因组进化分析的效率及准确率的目的。
6.本发明提供一种基因序列非比对方法,包括:
7.基于预设非比对原则,将参考基因序列转换为目标氨基酸序列;其中,所述预设非比对原则用于将所述参考基因序列划分为目标碱基组且基于所述目标碱基组确定所述目标氨基酸序列;
8.基于预设k-mer模型,确定所述目标氨基酸序列的目标k-mer特征向量;其中,所述预设k-mer模型用于基于所述目标氨基酸序列中连续k个目标氨基酸的频率确定所述目标k-mer特征向量;
9.根据所述目标k-mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树。
10.根据本发明提供的一种基因序列非比对方法,所述基于预设非比对原则,将参考基因序列转换为目标氨基酸序列,包括:
11.获取参考基因序列,所述参考基因序列包括n个碱基;
12.基于预设非比对原则,将所述n个碱基中每连续m个碱基分别转化为一个目标碱基组,从而得到包括多个所述目标碱基组的目标氨基酸序列;其中,n、m分别为大于1的整数且n》m。
13.根据本发明提供的一种基因序列非比对方法,所述基于预设非比对原则,将所述n个碱基中每连续m个碱基分别转化为一个目标碱基组,从而得到包括多个所述目标碱基组
的目标氨基酸序列,包括:
14.基于预设非比对原则,将所述n个碱基划分为n-2个目标碱基组;其中,所述n-2个目标碱基组中每个目标碱基组包括连续的m个碱基且所述n-2个目标碱基组的n-2个首碱基连续,n为大于2的整数;
15.基于所述n-2个目标碱基组,确定包括所述n-2个目标碱基组的目标氨基酸序列;其中,所述目标氨基酸序列包括n-2个目标氨基酸且每个所述目标氨基酸分别表征一个目标碱基组。
16.根据本发明提供的一种基因序列非比对方法,在所述基于预设k-mer模型,确定所述目标氨基酸序列的目标k-mer特征向量的步骤之前,所述方法还包括:
17.获取参数k值;
18.确定所述参数k值对应的预设k-mer模型。
19.根据本发明提供的一种基因序列非比对方法,所述参数k值的获取过程包括:
20.基于取值范围获取参数k值;其中,[
·
]表示
·
为闭区间,表示对
·
向下取整,log表示对数操作,min表示基因序列数据库中最短基因序列的长度,p表示氨基酸的种类数,q表示大于0的正整数。
[0021]
根据本发明提供的一种基因序列非比对方法,所述参考基因序列的数量为多个时,所述根据所述目标k-mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树,包括:
[0022]
计算不同所述目标k-mer特征向量之间的欧几里得距离;
[0023]
根据所述欧几里得距离,确定多个所述参考基因序列的距离矩阵。
[0024]
本发明还提供一种基因序列非比对装置,包括:
[0025]
转化模块,用于基于预设非比对原则,将参考基因序列转换为目标氨基酸序列;其中,所述预设非比对原则用于将所述参考基因序列划分为目标碱基组且基于所述目标碱基组确定所述目标氨基酸序列;
[0026]
确定模块,基于预设k-mer模型,确定所述目标氨基酸序列的目标k-mer特征向量;其中,所述预设k-mer模型用于基于所述目标氨基酸序列中连续k个目标氨基酸的频率确定所述目标k-mer特征向量;
[0027]
处理模块,用于根据所述目标k-mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树。
[0028]
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基因序列非比对方法的步骤。
[0029]
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基因序列非比对方法的步骤。
[0030]
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基因序列非比对方法的步骤。
[0031]
本发明提供的基因序列非比对方法、装置和电子设备,其中基因序列非比对方法,先通过基于预设非比对原则将参考基因序列转换为目标氨基酸序列,由于预设非比对原则
用于将参考基因序列划分为目标碱基组且基于目标碱基组确定目标氨基酸序列,因此能够减少目标氨基酸序列的长度,降低了运算时长;进一步的,通过基于预设k-mer模型,确定目标氨基酸序列的目标k-mer特征向量;由于预设k-mer模型用于基于目标氨基酸序列中连续k个目标氨基酸的频率确定目标k-mer特征向量,因此并不需要比对即能得到目标氨基酸序列的目标k-mer特征向量,以此使得后续通过目标k-mer特征向量确定参考基因序列的距离矩阵的方式构建发育树时能够大大提高发育树的准确度,从而也有效提高了基因组进化分析的效率及准确率。
附图说明
[0032]
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]
图1是本发明提供的基因序列非比对方法的流程示意图;
[0034]
图2是本发明提供的构造发育树的验证结果示意图;
[0035]
图3是使用本发明方法提供的氨基酸t之后可能出现的氨基酸类型示意图;
[0036]
图4是本发明提供的k-mer种类数与k值的关系比较曲线图;
[0037]
图5是本发明提供的基因序列非比对装置的结构示意图;
[0038]
图6是本发明提供的电子设备的结构示意图。
具体实施方式
[0039]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0040]
基因组进化分析是生物信息学研究中的一个重要问题。传统的研究是使用基于比对的方法,但是比对的方法运算耗时长,且对于大数据集的分析需要较大的内存。因此,人们越来越关注非比对的方法。
[0041]
与本发明方法最接近的非比对方法是“经典的k-mer方法”,使用经典的k-mer方法进行非比对的具体做法是:
[0042]
(1)对于基因序列s=s1s2,

,sn(si∈{a,t,c,g},i=1,2,

,n),计算基因序列中所有连续的k字符串(k-mer)的频数,k取正整数,一般为k=ceil(log4max),max表示基因序列数据集中最长基因序列的长度,ceil表示取整操作,log表示对数操作;比如,设定第一条基因序列s1=atctcg,当k=2时,s1共有5个2-mers,分别为at、tc、ct、tc、cg,且at、ct、cg的频数都是1,tc的频数是2。
[0043]
(2)利用频数构成特征向量,s1的特征向量是(1,1,1,2),不同基因序列的特征向量的元素顺序应保持一致。
[0044]
(3)计算出基因序列数据集中所有基因序列的特征向量,利用特征向量计算出每两个基因序列之间的欧氏距离。设另一条基因序列为s2=atctca,则s1和s2的特征向量计算
过程如下:
[0045][0046][0047]
(4)计算出所有基因序列之间的欧氏距离,将欧氏距离矩阵代入分子进化遗传分析软件构建进化树。
[0048]
通过比对方法以及使用经典的k-mer方法进行非比对的过程可以看出,基于比对的方法运算耗时过长,经典的k-mer方法也存在运算耗时长且准确率不高的缺点。
[0049]
基于上述问题,本发明提供了一种基因序列非比对方法,该基因序列非比对方法的执行主体可以是基因序列非比对装置,基因序列非比对装置可以通过软件、硬件或者软硬件结合的方式实现成为终端设备的部分或者全部。可选的,终端设备可以为个人计算机(personal computer,pc)、便携式设备、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等其它电子设备。本发明对终端设备的具体形式不作限定。
[0050]
需要说明的是,下述方法实施例的执行主体可以是上述终端设备的部分或者全部。下述方法实施例以执行主体为终端设备为例进行说明。
[0051]
图1为本发明提供的基因序列非比对方法的流程示意图,如图1所示,该基因序列非比对方法,包括以下步骤:
[0052]
步骤110、基于预设非比对原则,将参考基因序列转换为目标氨基酸序列。
[0053]
其中,所述预设非比对原则用于将所述参考基因序列划分为目标碱基组且基于所述目标碱基组确定所述目标氨基酸序列;并且,参考基因序列可以为基因序列数据库中的基因序列。
[0054]
具体的,终端设备针对参考基因序列,可以利用预设非比对原则对参考基因序列进行转换,以得到相比较于参考基因序列长度变短的目标氨基酸序列,从而实现通过将参考基因序列的长度变短的方式达到降低运算时长的目的。
[0055]
步骤120、基于预设k-mer模型,确定所述目标氨基酸序列的目标k-mer特征向量。
[0056]
其中,所述预设k-mer模型用于基于所述目标氨基酸序列中连续k个目标氨基酸的频率确定所述目标k-mer特征向量。
[0057]
具体的,针对目标氨基酸序列中的目标氨基酸,基于预设k-mer模型先确定目标氨基酸序列中每k个目标氨基酸的频数,再进一步基于每k个目标氨基酸的频数确定目标氨基酸序列的目标k-mer特征向量。比如,当目标氨基酸序列包括rdisqsaqka这10个目标氨基酸且k=4时,每4个目标氨基酸别为rdis、disq、isqs、sqsa、qsaq、saqk和aqka,rdis、disq、isqs、sqsa、qsaq、saqk和aqka的频数分别为1,那么目标氨基酸序列的目标k-mer特征向量则为(1,1,1,1,1,1,1)。
[0058]
步骤130、根据所述目标k-mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树。
[0059]
具体的,当参考基因序列的数量为多个时,步骤130具体可以为:基于步骤110和步骤120的方法将每个参考基因序列分别确定对应的目标氨基酸序列,并分别确定每个目标氨基酸序列的目标k-mer特征向量,然后计算不同目标k-mer特征向量之间的欧几里得距离,再进一步根据欧几里得距离,确定多个参考基因序列的距离矩阵,从而构建发育树。
[0060]
在实际处理过程中,为了验证本发明方法的有效性及优势,针对4个不同参考基因序列且4个不同参考基因序列为新型冠状病毒(sars-cov-2)、细菌(bacteria)、丙型肝炎病毒(hepatitis c virus,hcv)和人鼻病毒(human rhinovirus,hrv),可以使用本发明方法和传统muscle序列比对方法构造发育树,当参数k值不同且参考基因序列不同时,使用本发明方法和传统muscle序列比对方法可以有不同的运行时间,比如,针对sars-cov-2,当参数k值为4时本发明方法的运行时间为14.97秒,当参数k值为7时本发明方法的运行时间为77.02秒;针对bacteria,当参数k值为2时本发明方法的运行时间为272.18秒,当参数k值为9时本发明方法的运行时间为30.62分钟;针对hcv,当参数k值为4时本发明方法的运行时间为18.72秒,当参数k值为6时本发明方法的运行时间为43.88秒;针对hrv,当参数k值为2时本发明方法的运行时间为1.72秒,当参数k值为6时本发明方法的运行时间为57.19秒;但针对sars-cov-2,不论参数k值为4或者7,使用传统muscle序列比对方法的运行时间均耗时太长且无法统计;针对bacteria,不论参数k值为2或者9,使用传统muscle序列比对方法的运行时间也均耗时太长且无法统计;针对hcv,不论参数k值为4或者6,使用传统muscle序列比对方法的运行时间均会超过30分钟;针对hrv,不论参数k值为2或者6,使用传统muscle序列比对方法的运行时间也均会超过30分钟;基于此,可以得到如图2所示的验证结果,在图2中,(a)是使用传统方法构造发育树时的结果示意图,(b)是使用本发明方法构造发育树时的结果示意图。由图2可知,使用本发明方法明显比使用传统muscle序列比对方法所得的的结果更加具体和准确,精度更高且效果更好。
[0061]
本发明提供的基因序列非比对方法,先通过基于预设非比对原则将参考基因序列转换为目标氨基酸序列,由于预设非比对原则用于将参考基因序列划分为目标碱基组且基于目标碱基组确定目标氨基酸序列,因此能够减少目标氨基酸序列的长度,降低了运算时长;进一步的,通过基于预设k-mer模型,确定目标氨基酸序列的目标k-mer特征向量;由于预设k-mer模型用于基于目标氨基酸序列中连续k个目标氨基酸的频率确定目标k-mer特征向量,因此并不需要比对即能得到目标氨基酸序列的目标k-mer特征向量,以此使得后续通过目标k-mer特征向量确定参考基因序列的距离矩阵的方式构建发育树时能够大大提高发育树的准确度,从而也有效提高了基因组进化分析的效率及准确率。
[0062]
可选的,步骤110可以通过下述过程实现:
[0063]
首先获取参考基因序列,所述参考基因序列包括n个碱基;然后基于预设非比对原则,将所述n个参考基因中每连续m个碱基分别转化为一个目标碱基组,从而得到包括多个所述目标碱基组的目标氨基酸序列;其中,n、m分别为大于1的整数且n》m。
[0064]
具体的,终端设备获取到参考基因序列时,可以先确定其长度为n且n个碱基为s1s2,

,si,

,sn,si∈{a,t,c,g},i=1,2,

,n;然后,将n个碱基s1s2,

,si,

,sn中每连续m个碱基sis
i+1
,

,s
m-1+i
转化为第i'个目标碱基组也即i'的初始值为1,且每确定出1个目标碱基组时令i'的值加1;当i的值为从1遍历至n时,即可确定出包括多个目标碱基组的目标氨基酸序列。
[0065]
需要说明的是,每个目标碱基组可以为一个目标氨基酸,因此每个目标碱基组i'=1,2,

,n-2。
[0066]
本发明提供的基因序列非比对方法,通过将参考基因序列包括的n个碱基中每连续m个碱基分别转化为一个目标碱基组的方式,快速实现得到长度变短的目标氨基酸序列的目的,不仅转换方法简单易操作,而且也能进一步降低运算时长。
[0067]
可选的,所述基于预设非比对原则,将所述n个碱基中每连续m个碱基分别转化为一个目标碱基组,从而得到包括多个所述目标碱基组的目标氨基酸序列,包括:
[0068]
首先,基于预设非比对原则,将所述n个碱基划分为n-2个目标碱基组;其中,所述n-2个目标碱基组中每个目标碱基组包括连续的m个碱基且所述n-2个目标碱基组的n-2个首碱基连续,n为大于2的整数;然后,基于所述n-2个目标碱基组,确定包括所述n-2个目标碱基组的目标氨基酸序列;其中,所述目标氨基酸序列包括n-2个目标氨基酸且每个所述目标氨基酸分别表征一个目标碱基组。
[0069]
具体的,设定n=12,参考基因序列包括的12个碱基为s1s2s3s4s5s6s7s8s9s
10s11s12
且s1s2s3s4s5s6s7s8s9s
10s11s12
=cgatcagcaagc,每个碱基分别为一个核苷酸,那么,当m=3时,可以将12个碱基中每连续的3个核苷酸分别构成一个密码子,也即基于预设非比对原则,可以分别将s1s2s3=cga转化为第1个目标碱基组p1且将第1个目标碱基组p1记为第1个目标氨基酸p1=r,将s2s3s4=gat转化为第2个目标碱基组p2且将第2个目标碱基组p2记为第2个目标氨基酸d,将s3s4s5=atc转化为第3个目标碱基组p3且将第3个目标碱基组p3记为i,将s4s5s6=tca转化为第4个目标碱基组p4且将第4个目标碱基组p4记为s,将s5s6s7=cag转化为第5个目标碱基组p5且将第5个目标碱基组p5记为q,将s6s7s8=agc转化为第6个目标碱基组p6且将第6个目标碱基组p6记为s,将s7s8s9=gca转化为第7个目标碱基组p7且将第7个目标碱基组p7记为a,将s8s9s
10
=caa转化为第8个目标碱基组p8且将第8个目标碱基组p8记为q,将s9s
10s11
=aag转化为第9个目标碱基组p9且将第9个目标碱基组p9记为k,将s
10s11s12
=agc转化为第10个目标碱基组p
10
且将第10个目标碱基组p
10
记为s,此时的10个目标碱基组中,第1个目标碱基组的首碱基为c,第2个目标碱基组的首碱基为g,第3个目标碱基组的首碱基为a,第4个目标碱基组的首碱基为t,第5个目标碱基组的首碱基为c,第6个目标碱基组的首碱基为a,第7个目标碱基组的首碱基为g,第8个目标碱基组的首碱基为c,第9个目标碱基组的首碱基为a,第10个目标碱基组的首碱基为a,因此10个目标碱基组的10个首碱基连续;并且,此时得到的目标氨基酸序列包括p1p2p3p4p5p6p7p8p9p
10
这10个目标碱基组且可将该10个目标碱基组记为目标氨基酸序列,也即p1p2p3p4p5p6p7p8p9p
10
=rdisqsaqka,由此可知,目标氨基酸序列比参考基因序列的长度少了2个碱基。因此,可以将目标氨基酸序列认为是一个特定的氨基酸序列,目标氨基酸序列中的每个目标氨基酸可以是一个特定的氨基酸。
[0070]
需要说明的是,本发明方法的转化过程与生物学中的转录及翻译过程是不同的,差别在于每次移动核苷酸的数目。
[0071]
本发明方法提供的基因序列非比对方法,基于预设非比对原则,将参考基因序列中的n个碱基划分为n-2个目标碱基组,由于n-2个目标碱基组中每个目标碱基组包括连续的m个碱基且n-2个目标碱基组的n-2个首碱基连续,因此基于n-2个目标碱基组确定的包括n-2个目标氨基酸的目标氨基酸序列更加可靠,大大降低了特征向量的维度,从而为后续构造准确的发育树提供有力依据。
[0072]
可选的,在步骤120之前,所述方法还包括:
[0073]
首先,获取参数k值;然后,确定所述参数k值对应的预设k-mer模型。
[0074]
具体的,获取参数k值的过程包括:基于取值范围获取参数k值;其中,[
·
]表示
·
为闭区间,表示对
·
向下取整,log表示对数操作,min表示基因序列数据库中最短基因序列的长度;p表示氨基酸的种类数且其取值可以为20;q表示大于0的正整数且其取值为2。进一步的,当确定参数k值时,可以确定预设k-mer模型,从而大大提升了运算效率。
[0075]
本发明提供的基因序列非比对方法,通过先获取参数k值、后确定参数k值对应的预设k-mer模型的方式,不仅提高了确定预设k-mer模型的灵活性和可靠性,也为后续确定目标基因序列的可靠性和精确性提供保障,避免了现有技术中直接使用基因序列数据库中最长基因序列的长度确定k值所导致的基因组进化分析的运算耗时过长且准确率不高的缺陷,从而进一步提升了基因组进化分析的效率及准确率。
[0076]
需要说明的是,本发明方法的主要目标是开发一种独特的无比对的基因组分类技术且可以称之为核苷酸-氨基酸k-mer向量(naakv)方法,naakv方法在全基因组数据集上得到了正确的进化结果,包括sars-cov-2、登革热病毒(denv)、人乳头瘤病毒(human papilloma virus,hpv)、hcv、hrv和乙型肝炎病毒(hepatitis b,hbv)等基因组数据集上得到了正确的进化结果。最重要的发现之一是,本发明方法使用的参数k值通常很小(比如参数k值范围为2~4),较小的k值大大降低了计算时的内存需求,计算效率显著提升。
[0077]
进一步的,naakv方法中特定的氨基酸序列的总k-mer类型少于标准的氨基酸序列,这一结论更适用于大型基于序列数据集,究其原因,很大程度上是因为大多数可能的k-mer不会出现在特定的氨基酸序列中。比如,四个密码子(act、aca、acc、acg)可以编码苏氨酸(t),根据naakv的编码原理,其后面的下一个密码子可能有4*4=16种类型。然而,如图3所示氨基酸t之后可能出现的氨基酸类型,许多不同的密码子可能编码相同的氨基酸。因此,在特定的氨基酸序列中,苏氨酸之后只有l、p、h、q和r这5种类型会出现,远远少于16种。
[0078]
在图3中,l、p、h、q、r和t分别代表亮氨酸、脯氨酸、组氨酸、谷氨酰胺、精氨酸和苏氨酸,codon代表密码子,amino代表氨基h2n—,acid代表酸,l behind t代表tl,p behind t代表tp,h behind t代表th,q behind t代表tq,r behind t代表tr。
[0079]
在实际处理过程中,将本发明提供的naakv方法分别与现有传统基于经典k-mer的非比对方法及基于比对的方法相比所具备的优势包括以下几点:
[0080]
(1)naakv方法在五个全基因组数据集上得到了正确的进化结果,包括新型冠状病毒(sars-cov-2),登革热病毒(dengue virus),hpv,hcv和hbv等数据集;
[0081]
(2)naakv方法与普通的氨基酸序列相比的优势:naakv方法中参数k值很小,计算占用内存少,准确率高,每一个基因数据集都得到了完美的进化树;而普通的氨基酸序列不存在上述优势;
[0082]
(3)naakv方法与传统muscle序列比对方法(传统muscle序列比对方法是广泛使用的进化分析工具,准确率较高)相比的优势:基因序列数据集越大,传统muscle序列比对方法计算占用内存越高,因此利用muscle序列比对方法需要的成本很高且耗时很长。而本发明提供的naakv方法是方便快捷的进化分析算法;
[0083]
(4)使用本发明提供的naakv方法得到的特定的氨基酸序列中的k-mer类型总数远远少于普通的氨基酸序列,因此使用naakv方法能够大大提高效率,并且在基因序列数据集越大时,提高效率的优势就越明显。
[0084]
为了进一步验证naakv方法的优势,可以利用细菌数据集,针对使用naakv方法得到的特定的氨基酸序列和传统标准的氨基酸序列k-mer种类数的差异进行比较,可以得到如图4所示的比较结果曲线图,在图4中,paas指代特殊的氨基酸序列(particular amino acid sequence),standardaminoacidsequence指代标准氨基酸序列(saas),numberofk-mertypes指代k-mer种类数,kvalue指代k值。由图4所示,比较细菌数据集中特定的氨基酸序列和传统标准氨基酸序列的k-mer类型可知,当k的值为3时,传统标准氨基酸序列的k-mer类型的总数可能为203=8000。然而,使用naakv方法得到的特定的氨基酸序列中只有448,以此说明使用naakv方法所得到的特定的氨基酸序列中的k-mer种类数远远少于标准的氨基酸序列中的种类数,从而能够大大降低运算耗时,也能大大提升运算效率,使得基因组进化分析的分析效率和准确率也能大大提升。
[0085]
下面对本发明提供的基因序列非比对装置进行描述,下文描述的基因序列非比对装置与上文描述的基因序列非比对方法可相互对应参照。
[0086]
图5示例了一种基因序列非比对装置,如图5所示,该基因序列非比对装置500,包括:转化模块510,用于基于预设非比对原则,将参考基因序列转换为目标氨基酸序列;其中,所述预设非比对原则用于将所述参考基因序列划分为目标碱基组且基于所述目标碱基组确定所述目标氨基酸序列;确定模块520,用于基于预设k-mer模型,确定所述目标氨基酸序列的目标k-mer特征向量;其中,所述预设k-mer模型用于基于所述目标氨基酸序列中连续k个目标氨基酸的频率确定所述目标k-mer特征向量;处理模块530,用于根据所述目标k-mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树。
[0087]
可选的,转化模块510,具体可以用于获取参考基因序列,所述参考基因序列包括n个碱基;基于预设非比对原则,将所述n个碱基中每连续m个碱基分别转化为一个目标碱基组,从而得到包括多个所述目标碱基组的目标氨基酸序列;其中,n、m分别为大于1的整数且n》m。
[0088]
可选的,转化模块510,具体还可以用于基于预设非比对原则,将所述n个碱基划分为n-2个目标碱基组;其中,所述n-2个目标碱基组中每个目标碱基组包括连续的m个碱基且所述n-2个目标碱基组的n-2个首碱基连续,n为大于2的整数;基于所述n-2个目标碱基组,确定包括所述n-2个目标碱基组的目标氨基酸序列;其中,所述目标氨基酸序列包括n-2个目标氨基酸且每个所述目标氨基酸分别表征一个目标碱基组。
[0089]
可选的,所述装置还可以包括获取模块,具体用于获取参数k值;确定所述参数k值对应的预设k-mer模型。
[0090]
可选的,获取模块,具体还可以用于基于取值范围获取参数k值;其中,[
·
]表示
·
为闭区间,表示对
·
向下取整,log表示对数操作,min表示基因序列数据库中最短基因序列的长度,p表示氨基酸的种类数,q表示大于0的正整数。
[0091]
可选的,处理模块530,具体还可以用于计算不同所述目标k-mer特征向量之间的欧几里得距离不;根据所述欧几里得距离,确定多个所述参考基因序列的距离矩阵。
[0092]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备600可以包括:处理器(processor)610、通信接口(communicationsinterface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基因序列非比对方法,该方法包括:
[0093]
基于预设非比对原则,将参考基因序列转换为目标氨基酸序列;其中,所述预设非比对原则用于将所述参考基因序列划分为目标碱基组且基于所述目标碱基组确定所述目标氨基酸序列;
[0094]
基于预设k-mer模型,确定所述目标氨基酸序列的目标k-mer特征向量;其中,所述预设k-mer模型用于基于所述目标氨基酸序列中连续k个目标氨基酸的频率确定所述目标k-mer特征向量;
[0095]
根据所述目标k-mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树。
[0096]
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0097]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基因序列非比对方法,该方法包括:
[0098]
基于预设非比对原则,将参考基因序列转换为目标氨基酸序列;其中,所述预设非比对原则用于将所述参考基因序列划分为目标碱基组且基于所述目标碱基组确定所述目标氨基酸序列;
[0099]
基于预设k-mer模型,确定所述目标氨基酸序列的目标k-mer特征向量;其中,所述预设k-mer模型用于基于所述目标氨基酸序列中连续k个目标氨基酸的频率确定所述目标k-mer特征向量;
[0100]
根据所述目标k-mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树。
[0101]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基因序列非比对方法,该方法包括:
[0102]
基于预设非比对原则,将参考基因序列转换为目标氨基酸序列;其中,所述预设非比对原则用于将所述参考基因序列划分为目标碱基组且基于所述目标碱基组确定所述目标氨基酸序列;
[0103]
基于预设k-mer模型,确定所述目标氨基酸序列的目标k-mer特征向量;其中,所述
预设k-mer模型用于基于所述目标氨基酸序列中连续k个目标氨基酸的频率确定所述目标k-mer特征向量;
[0104]
根据所述目标k-mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树。
[0105]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0106]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0107]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1