一种基因表达预测方法及装置

文档序号:31458746发布日期:2022-09-07 15:23阅读:174来源:国知局
一种基因表达预测方法及装置

1.本发明涉及计算机技术领域,尤其涉及一种基因表达预测方法及装置。


背景技术:

2.基因预测是利用现有理论和已知的基因序列等信息,通过计算机模拟和计算对未知序列的基因结构及其功能进行预测。基因预测可以应用于农业、医疗和生物学等多个领域,对社会发展具有重要作用。
3.现有技术中的基因预测方法主要包括同源预测和从头预测。同源预测需要对目标基因序列进行多次访问以达到匹配参考基因的目的,时间耗费较大。从头预测是根据给定的序列特征来预测,目前现有的基于对基因数据提取特征进行基因预测的方法,存在准确率较低的问题。


技术实现要素:

4.本发明提供一种基因表达预测方法,用以解决现有技术中基因预测准确率低的缺陷,提高基因预测的准确率。
5.第一方面,本发明提供一种基因表达预测方法,包括:
6.获取待预测基因序列片段;
7.将所述待预测基因序列片段输入至预测模型,获得所述预测模型输出的预测结果;
8.其中,所述预测模型是基于多头自注意力机制构建的,所述预测模型是基于基因序列片段样本和预测标签训练得到的,所述预测标签为所述基因序列片段样本对应的核苷酸。
9.可选地,所述将所述待预测基因序列片段输入至预测模型,获得所述预测模型输出的预测结果,包括:
10.对所述待预测基因序列片段进行特征提取,获得标准基因特征;
11.对所述标准基因特征进行多头自注意力权重计算,获得注意力表示;
12.基于所述注意力表示对所述待预测基因序列片段进行预测,获得所述预测结果,所述预测结果包括核苷酸类型以及与所述核苷酸类型对应的概率。
13.可选地,所述对所述标准基因特征进行多头自注意力权重计算,获得注意力表示,包括:
14.基于所述标准基因特征和预先存储的历史基因特征获得拼接表示;
15.基于所述标准基因特征和所述拼接表示,获得与所述标准基因特征对应的查询向量、键向量和值向量;
16.基于所述查询向量、所述键向量和所述值向量,获得初始注意力表示;
17.对所述初始注意力表示进行标准化操作,获得所述注意力表示。
18.可选地,所述对所述待预测基因序列片段进行特征提取,获得标准基因特征,包
括:
19.对所述待预测基因序列片段进行编码,获得编码表示;
20.对所述编码表示进行初始特征提取,获得初始基因特征;
21.对所述初始基因特征进行最大池化操作,获得池化基因特征;
22.对所述池化基因特征进行标准化操作,获得标准基因特征。
23.可选地,所述进行标准化操作,包括:
24.基于预设批标准化公式进行批标准化操作;
25.所述预设批标准化公式为:
[0026][0027]
其中,xi为待批标准化数据,μ为均值参数,σ2为方差参数,所述均值参数和所述方差参数是基于所述基因序列片段样本确定的,∈为超参数,a为第一模型参数,b为第二模型参数。
[0028]
可选地,所述方法还包括:
[0029]
基于所述预测结果和所述待预测基因序列片段进行算数编码,获得压缩基因序列。
[0030]
可选地,所述方法还包括:
[0031]
基于所述预测结果对所述压缩基因序列进行算数据解码,获得解码后的基因序列。
[0032]
第二方面,本发明还提供一种基因表达预测装置,包括:
[0033]
获取单元,用于获取待预测基因序列片段;
[0034]
预测单元,用于将所述待预测基因序列片段输入至预测模型,获得所述预测模型输出的预测结果;
[0035]
其中,所述预测模型是基于多头自注意力机制构建的,所述预测模型是基于基因序列片段样本和预测标签训练得到的,所述预测标签为所述基因序列片段样本对应的核苷酸。
[0036]
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述基因表达预测方法。
[0037]
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述基因表达预测方法。
[0038]
本发明实施例提供的基因表达预测方法及装置,通过基于多头自注意力机制构建的预测模型对基因表达进行预测,不需要参考基因,对目标基因序列也只需要一次访问即可,降低基因预测时间,提高基因预测效率;并且,多头自注意力机制是将至少两个单头自注意力机制连接起来,从至少两个方向对基因数据提取特征,自注意力机制能够通过计算核苷酸之间的互相影响,获得基因序列中的多个核苷酸之间的联系,从而提高对下一个核苷酸的预测准确率。
附图说明
[0039]
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]
图1是本发明实施例提供的基因表达预测方法的流程示意图之一;
[0041]
图2是本发明实施例提供的基因表达预测方法的流程示意图之二;
[0042]
图3是本发明实施例提供的基因表达预测方法的流程示意图之三;
[0043]
图4是本发明实施例提供的基因表达预测方法的流程示意图之四;
[0044]
图5是本发明实施例提供的基因表达预测装置的结构示意图;
[0045]
图6是本发明实施例提供的电子设备的结构示意图。
具体实施方式
[0046]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]
下面对本发明涉及的技术术语作一介绍:
[0048]
基因压缩:将基因序列编码为所需存储空间更小的数据并能够解码为原基因序列的技术。
[0049]
核苷酸:核酸包括核糖核酸(rna)和脱氧核糖核酸(dna),大多数生物dna为遗传物质,rna行使多重复杂功能。组成核酸的单体称为核苷酸,而核苷酸又根据其五碳糖脱氧与否分为脱氧核糖核酸和核糖核苷酸。
[0050]
脱氧核苷酸:脱氧核苷酸(deoxynucleotide)是脱氧核糖核酸(deoxyribonucleicacid,简称dna)的基本单位,是一类由嘌呤或嘧啶碱基、脱氧核糖以及磷酸三种物质组成的小分子化合物,是构成生物体遗传物质dna的物质基础。决定生物的多样性的就是脱氧核苷酸中四种碱基腺嘌呤(adenine,缩写为a)、胸腺嘧啶(thymine,缩写为t)、胞嘧啶(cytosine,缩写为c)和鸟嘌呤(guanine,缩写为g)排列顺序的不同。四种碱基沿着dna长链排列在内侧,其排列顺序储存着遗传信息。
[0051]
嵌入(embedding):embedding就是从原始数据提取出来的特征,也就是那个通过神经网络映射之后的低维向量。
[0052]
编码器(encoder):encoder顾名思义就是对输入数据进行编码,将输入数据通过非线性变换转化为中间表示。
[0053]
注意力(attention):attention是一个非常常见,但是又会被忽略的事实。例如天空一只鸟飞过去的时候,往往人类的注意力会追随着鸟儿,天空在人类的视觉系统中,自然成为了背景(background)信息。计算机视觉中的注意力机制的基本思想是想让系统学会把注意力放在感兴趣的地方,忽略背景信息而关注重点信息。
[0054]
对于同源预测的基因预测方法,需要对目标基因序列进行多次访问以达到匹配参考基因的目的,时间耗费较大。对于从头预测的基因预测方法,如基于lstm模型的基因预测
方法或基于双向lstm模型的基因预测方法,由于模型的复杂度不够,仅仅能从一个方向或两个方向观察到基因序列的特征。实验证明在相同的条件下本方案提出的解决方法在性能上已经能够超越基于lstm的模型。
[0055]
为了解决上述问题,本发明实施例提出了一种基因表达预测方法,基于多头自注意力机制对基因序列进行预测,不需要参考基因,缩短基因表达预测时间的同时,实现基因表达预测准确率的提高。
[0056]
下面结合图1-图4描述本发明实施例提供的基因表达预测方法。
[0057]
图1是本发明实施例提供的基因表达预测方法的流程示意图之一,如图1所示,本发明实施例提供一种基因表达预测方法,包括:
[0058]
步骤110,获取待预测基因序列片段;
[0059]
具体地,待预测基因序列片段可以为双链dna中一条单链中的连续n个核苷酸构成的基因序列,其中,n为正整数。如,待预测基因序列片段包括10个连续的脱氧核苷酸:actgagtccg。可选地,n为64。
[0060]
应理解,本发明实施例对于待预测基因序列片段的具体获取方式不做限定,例如,待预测基因序列片段可以存储在设定区域(如数据库)中,通过访问设定区域即可获取待预测基因序列片段。在另一些实施例中,可以通过基因采集装置获取待预测基因序列片段,基因采集装置可以包括血液采集器、唾液采集器和皮肤采集器等。本领域技术人员也可以采用其他的方式来获取待预测基因序列片段,此处不再赘述。
[0061]
步骤120,将所述待预测基因序列片段输入至预测模型,获得所述预测模型输出的预测结果;
[0062]
其中,所述预测模型是基于多头自注意力机制构建的,所述预测模型是基于基因序列片段样本和预测标签训练得到的,所述预测标签为所述基因序列片段样本对应的核苷酸。
[0063]
具体地,预测结果可以为待预测基因序列片段的下一核苷酸。基因序列片段样本是指预先获得的、已知下一个核苷酸的基因序列片段,预测标签即基因序列片段样本的下一个核苷酸。示例性地,已知一段长度为126(包含126个连续核苷酸)的基因序列,可以以第0个脱氧核苷酸至第63个脱氧核苷酸作为第一个基因序列片段样本,以第64个脱氧核苷酸作为第一个基因序列片段样本对应的预测标签;以第1个脱氧核苷酸至第64个脱氧核苷酸作为第二个基因序列片段样本,以第65个脱氧核苷酸作为第二个基因序列片段样本对应的预测标签,依此类推,可以基于长度为126的基因序列获得多个基因序列片段样本。
[0064]
自注意力机制是注意力机制的变体,自注意力机制能够捕捉数据的内部相关性,将自注意力机制应用于基因预测中,能够通过计算核苷酸之间的互相影响,获得基因序列中的多个核苷酸之间的联系。多头自注意力机制是将至少两个单头自注意力机制连接起来,从至少两个方向对基因数据提取特征。
[0065]
应理解,可以将同一待预测基因序列片段及其预测结果循环输入至预测模型中,直至获得完整的基因序列。一个实施例中,第一个待预测基因序列片段包括第0个脱氧核苷酸至第63个脱氧核苷酸,将第一个待预测基因序列片段输入至预测模型,获得第一个待预测基因序列片段对应的预测结果,即第64个脱氧核苷酸;下一轮次中,将第1个脱氧核苷酸至第64个脱氧核苷酸作为第二个待预测基因序列片段,输入至预测模型,获得第二个待预
测基因序列片段对应的预测结果,即第65个脱氧核苷酸;直至获得完整的基因序列。
[0066]
本发明实施例提供的基因表达预测方法,通过基于多头自注意力机制构建的预测模型对基因表达进行预测,不需要参考基因,对目标基因序列也只需要一次访问即可,降低基因预测时间,提高基因预测效率;并且,能够从多个方向对基因数据提取特征,并且获取待预测基因序列片段中核苷酸之间的联系,从而提高对下一个核苷酸的预测准确率。
[0067]
下面,对上述步骤在具体实施例中的可能的实现方式做进一步说明。
[0068]
可选地,所述将所述待预测基因序列片段输入至预测模型,获得所述预测模型输出的预测结果,包括:
[0069]
步骤121,对所述待预测基因序列片段进行特征提取,获得标准基因特征;
[0070]
在获取到待预测基因序列片段之后,可以对待预测基因序列片段的基因序列进行特征提取操作,获得基因特征。可选地,对基因特征进行标准化,标准化是指对于训练集中的样本(即训练过程中使用的全部或部分基因序列片段样本),基于列统计信息将数据除以方差或者将数据减去其均值(结果是方差等于1,数据在0附近)。标准化可以在训练阶段提升模型优化阶段的收敛速度,还可以避免方差很大的样本对模型训练产生过大的影响。
[0071]
步骤122,对所述标准基因特征进行多头自注意力权重计算,获得注意力表示;
[0072]
具体地,多头自注意力权重计算是指通过多头自注意力机制(multi-headed-self attention机制)计算得到的标准基因特征对应的权重。multi-headed-self attention是指从多个方向,对每个特征元素都寻找其对应的注意力权重。注意力表示是指对标准基因特征使用多头自注意力权重进行加权后得到的特征。
[0073]
步骤123,基于所述注意力表示对所述待预测基因序列片段进行预测,获得所述预测结果,所述预测结果包括核苷酸类型以及与所述核苷酸类型对应的概率。
[0074]
具体地,可以使用全连接层作为分类器,将注意力表示输入至全连接层后,再通过softmax层生成下一个核苷酸的概率。
[0075][0076][0077]
其中,代表经过全连接层分类后的注意力表示,zi表示第i个核苷酸在注意力表示中对应的向量,wj代表一维卷积核的矩阵,bj代表偏置的矩阵,
[0078]
示例性地,将待预测基因序列片段输入至预测模型,得到的预测结果为:a,80%;t,14%;c,4%;g,2%。
[0079]
可选地,通过限定窗口结束基因表达预测,即通过限定要输入到模型中的基因序列片段就可以实现结束基因表达预测,示例性地,若是让装置停在某一个核苷酸,即将该核苷酸的前64个核苷酸输入到窗口之后就不再输入即可。
[0080]
本发明实施例提供的基因表达预测方法,通过基于多头自注意力机制构建的预测模型对基因表达进行预测,不需要参考基因,对目标基因序列也只需要一次访问即可,降低基因预测时间,提高基因预测效率;并且,能够从多个方向对基因数据提取特征,并且获取待预测基因序列片段中核苷酸之间的联系,从而提高对下一个核苷酸的预测准确率;通过标准化可以避免方差很大的样本对模型产生过大的影响;通过全连接层和softmax层可以
得到预测的核苷酸类型以及与所述核苷酸类型对应的概率,预测的核苷酸类型以及与所述核苷酸类型对应的概率可以用于进行基因序列压缩。
[0081]
图2是本发明实施例提供的基因表达预测方法的流程示意图之二,结合图2对上述步骤在具体实施例中的可能的实现方式做进一步说明。
[0082]
可选地,所述对所述标准基因特征进行多头自注意力权重计算,获得注意力表示,包括:
[0083]
步骤1221,基于所述标准基因特征和预先存储的历史基因特征获得拼接表示;
[0084]
拼接过程可以如下式所示:
[0085][0086]
h为所述标准基因特征,表示当前时刻输入的待预测基因序列片段对应的表示;sg(
·
)表示stop gradient;
°
表示通道维度上的拼接运算;m为历史基因特征,表示前一时刻输入的历史基因序列片段对应的表示;为拼接表示。
[0087]
示例性地,在第一轮次中,当前时刻输入为第一轮次的待预测基因序列片段对应的标准基因特征,即第0个核苷酸至第63个核苷酸对应的基因特征,由于是第一轮次基因表达预测,因此历史基因序列片段可以为空;在第二轮次中,当前时刻输入为第二轮次的待预测基因序列片段对应的标准基因特征,即第1个核苷酸至第64个核苷酸对应的基因特征,历史基因特征为上一轮次中输入的第0个核苷酸至第63个核苷酸对应的基因特征,应理解,可以在当前时刻调用前一时刻输入时保存的历史基因特征。
[0088]
步骤1222,基于所述标准基因特征和所述拼接表示,获得与所述标准基因特征对应的查询向量、键向量和值向量;
[0089]
过程可以如下式所示:
[0090][0091][0092][0093]
其中,q表示查询向量,k表示键向量,v表示值向量;wq表示用于生成查询向量的矩阵,wk表示用于生成键向量的矩阵,wv表示用于生成值向量的矩阵。
[0094]
步骤1223,基于所述查询向量、所述键向量和所述值向量,获得初始注意力表示;
[0095]
过程可以如下式所示:
[0096][0097]
其中,r
i-j
是相对位置编码,相对位置关系用一个位置编码矩阵来表示,第i行表示相对位置间隔为i的位置向量,采用正弦函数生成。a
i,j
表示位置编码后的结果。
[0098]
应理解,相对位置编码是指,根据基因序列中各个核苷酸之间的相对位置(如隔了几个核苷酸这种关系)来决定其编码。示例性地,当前处理数据为核苷酸a对应的向量,第i行表示与a相对位置间隔i个位置(间隔了i个核苷酸)的核苷酸对应的向量。
[0099]
步骤1224,对所述初始注意力表示进行标准化操作,获得所述注意力表示。
[0100]
可选地,标准化操作为批标准化。
[0101]
批标准化过程可以如下式所示:
[0102][0103]
其中,μ为通道维度上的均值,即μ为均值参数;σ2为通道维度上的方差,即方差参数;应理解,所述均值参数和所述方差参数是基于所述基因序列片段样本确定的,在训练过程中,所述均值参数和所述方差参数通过所有训练样本中的一个子训练集(batch)确定,在训练后的模型中,所述均值参数和所述方差参数通过所有训练样本确定。
[0104]
可选地,可以将标准化后的初始注意力表示输入至全连接层,获得全连接层输出的注意力表示。全连接层可以提高预测模型的非线性表达能力,从而提高模型的学习能力和表达能力。
[0105]
一个实施例中,将标准基因特征输入至transformer-xl的encoder编码器中,transformer-xl的encoder可以由两个部分构成,自注意力模块和全连接层。
[0106]
其中,自注意力模块的过程如下所示:
[0107][0108][0109][0110][0111][0112][0113]
h为所述标准基因特征,表示当前时刻输入的待预测基因序列片段对应的表示;sg(
·
)表示stop gradient;
°
表示通道维度上的拼接运算;m为历史基因特征,表示前一时刻输入的历史基因序列片段对应的表示;为拼接表示;q表示查询向量,k表示键向量,v表示值向量;wq表示生成查询向量的矩阵,wk表示生成键向量的矩阵,wv表示生成值向量的矩阵w
k,r
表示基于位置的向量;r
i-j
是相对位置编码,相对位置关系用一个位置编码矩阵来表示,第i行表示相对位置间隔为i的位置向量,采用正弦函数生成。a
i,j
表示位置编码后的结果。μ为通道维度上的均值,即μ为均值参数;σ2为通道维度上的方差,即方差参数;∈为超参数,∈取值非常非常小,取值范围可以为1e-04至1e-06,可选地,∈取值为1e-05;a为第一模型参数,b为第二模型参数,a和b通过模型训练过程更新。表示a
i,j
经过层归一化处理的结果,即标准化后的初始注意力表示。
[0114]
全连接层即含有一个隐藏层的全连接层,使数据的embedding在通道维度上进行变换,增强模型表达能力。
[0115]
过程如下式所示:
[0116]zi,j
=δ(wj⊙
[ai,a
i+1
,

,a
i+k-1
]+bj)
[0117]
其中,z
i,j
为注意力表示,ai表示第i个核苷酸在标准化后的初始注意力表示中对
应的向量;δ表示激活函数,可选地,δ可以为rule函数,wj代表一维卷积核的矩阵,bj代表偏置的矩阵。
[0118]
应理解,在本发明实施例的基础上,通过调整transformer-xl编码器内部结构的方法,如:调整全连接层的节点个数,多头注意力的个数等等,或更换transformer-xl为其他类似的transformer的变体,如:vanilla transformer,compressive transformer等等,也应在本发明的保护范围内。
[0119]
本发明实施例提供的基因表达预测方法,通过基于多头自注意力机制构建的预测模型对基因表达进行预测,获取待预测基因序列片段中核苷酸之间的联系,并且通过标准化避免方差很大的样本对模型产生过大的影响,另外通过全连接层提高模型的表达能力,从而提高对下一个核苷酸的预测准确率。
[0120]
可选地,所述对所述待预测基因序列片段进行特征提取,获得标准基因特征,包括:
[0121]
步骤1211,对所述待预测基因序列片段进行编码,获得编码表示;
[0122]
具体地,待预测基因序列片段可以为fasta格式。示例性地,从fasta格式的基因序列文件中读取待预测基因序列片段如:ggcta
……
等,经过独热码编码,获得编码表示。
[0123]
示例性地,编码方式如下所示:a:{1,0,0,0};c:{0,1,0,0};g:{0,0,1,0};t:{0,0,0,1}。应理解,以上是为便于理解本发明进行的实例,不应对本发明构成任何限定,如,也可以将上述示例中的对应关系进行置换,只要能实现通过编码区分atcg四种核苷酸即可。
[0124]
步骤1212,对所述编码表示进行初始特征提取,获得初始基因特征;
[0125]
可选地,将编码表示通过一维卷积,进行特征提取,映射到高维空间中。设表示独热码编码后的编码表示,则经过一维卷积处理后的基因序列,即初始基因特征为:
[0126]oi,j
=δ(wj⊙
[xi,x
i+1
,

,x
i+k-1
]+bj);
[0127]
其中,o
i,j
表示初始基因特征,wj代表一维卷积核的矩阵,bj代表偏置的矩阵,δ是激活函数用于在网络中增添非线性变换,可选地,在本发明实施例中使用的relu函数,在输入小于0时输出0,在输入大于等于0时输出原值,xi指的是待预测基因序列片段中的第i个核苷酸。
[0128]
步骤1213,对所述初始基因特征进行最大池化操作,获得池化基因特征;
[0129]
具体地,将经过一维卷积处理后得到的初始基因特征,通过最大池化层保留最明显的特征,得到池化基因特征,池化基因特征相比于初始基因特征数据长度变小,从而能够使得模型的计算复杂度减少。
[0130]
步骤1214,对所述池化基因特征进行标准化操作,获得标准基因特征。
[0131]
标准化操作和批标准化操作参照步骤121和步骤1221中的介绍,此处不再赘述。
[0132]
可选地,所述方法还包括:
[0133]
基于所述预测结果和所述待预测基因序列片段进行算数编码,获得压缩基因序列。
[0134]
图3是本发明实施例提供的基因表达预测方法的流程示意图之三,如图3所示,一个实施例中,基因表达预测方法应用于编码过程可以包括模型训练、推理和算数编码三个部分。
[0135]
模型训练:收集和待预测基因序列片段相关的基因序列数据(如,与待预测基因序列片段相同的物种的基因序列)作为数据集,并处理为fasta格式,按照比例7:2:1划分训练集,验证集和测试集。使用训练集训练构建好的深度学习模型,使其在训练集上收敛,在验证集上表现良好。
[0136]
推理:将预测目标核苷酸的前一小段基因序列(即待预测基因序列片段)作为输入,通过训练好的预测模型预测待预测基因序列片段的下一个核苷酸的类型及每种类型对应的概率,从而计算出当前已知所有核苷酸构成的基因序列的出现概率。
[0137]
算术编码:最终得到的概率即为该段基因序列算术编码后的结果。
[0138]
本发明实施例提供的基因表达预测方法,通过基于多头自注意力机制的预测模型,使得模型能够对下一个核苷酸类型的预测准确率更高,并且基因序列编码后的表示长度更短,压缩比更高。
[0139]
可选地,所述方法还包括:
[0140]
基于所述预测结果对所述压缩基因序列进行算数据解码,获得解码后的基因序列。
[0141]
图4是本发明实施例提供的基因表达预测方法的流程示意图之四,如图4所示,一个实施例中,基因表达预测方法应用于解码过程可以包括推理和算术解码两个部分。
[0142]
推理:将下一核苷酸的前一小段序列(即待预测基因序列片段)作为输入,通过训练好的深度学习模型预测下一核苷酸出现概率。
[0143]
算术解码:根据模型计算的概率,解码当前下一位置的核苷酸。
[0144]
本发明实施例提出的基于预测模型的基因压缩方法,能够有效提升基因序列的压缩效果。表1是本发明实施例提供的实验结果,如表1所示,实验证明,本发明实施例提出的解决方法在相同条件下,能够使bpb达到0.011,低于基于lstm或双向lstm的基因压缩方法。
[0145][0146]
下面对本发明提供的基因表达预测装置进行描述,下文描述的基因表达预测装置与上文描述的基因表达预测方法可相互对应参照。
[0147]
图5是本发明实施例提供的基因表达预测装置的结构示意图,如图5所示,本发明实施例提供的基因表达预测装置,包括获取单元510和预测单元520:
[0148]
获取单元510,用于获取待预测基因序列片段;
[0149]
预测单元520,用于将所述待预测基因序列片段输入至预测模型,获得所述预测模型输出的预测结果;
[0150]
其中,所述预测模型是基于多头自注意力机制构建的,所述预测模型是基于基因序列片段样本和预测标签训练得到的,所述预测标签为所述基因序列片段样本对应的核苷酸。
[0151]
可选地,所述预测单元520,用于将所述待预测基因序列片段输入至预测模型,获得所述预测模型输出的预测结果,包括:
[0152]
预测单元520,用于对所述待预测基因序列片段进行特征提取,获得标准基因特征;
[0153]
预测单元520,用于对所述标准基因特征进行多头自注意力权重计算,获得注意力表示;
[0154]
预测单元520,用于基于所述注意力表示对所述待预测基因序列片段进行预测,获得所述预测结果,所述预测结果包括核苷酸类型以及与所述核苷酸类型对应的概率。
[0155]
可选地,所述预测单元520,用于对所述标准基因特征进行多头自注意力权重计算,获得注意力表示,包括:
[0156]
预测单元520,用于基于所述标准基因特征和预先存储的历史基因特征获得拼接表示;
[0157]
预测单元520,用于基于所述标准基因特征和所述拼接表示,获得与所述标准基因特征对应的查询向量、键向量和值向量;
[0158]
预测单元520,用于基于所述查询向量、所述键向量和所述值向量,获得初始注意力表示;
[0159]
预测单元520,用于对所述初始注意力表示进行标准化操作,获得所述注意力表示。
[0160]
可选地,所述预测单元520,用于对所述待预测基因序列片段进行特征提取,获得标准基因特征,包括:
[0161]
预测单元520,用于对所述待预测基因序列片段进行编码,获得编码表示;
[0162]
预测单元520,用于对所述编码表示进行初始特征提取,获得初始基因特征;
[0163]
预测单元520,用于对所述初始基因特征进行最大池化操作,获得池化基因特征;
[0164]
预测单元520,用于对所述池化基因特征进行标准化操作,获得标准基因特征。
[0165]
可选地,所述预测单元520,用于进行标准化操作,包括:
[0166]
预测单元520,用于基于预设批标准化公式进行批标准化操作;
[0167]
所述预设批标准化公式为:
[0168][0169]
其中,xi为待批标准化数据,μ为均值参数,σ2为方差参数,所述均值参数和所述方差参数是基于所述基因序列片段样本确定的,∈为超参数,a为第一模型参数,b为第二模型参数。
[0170]
可选地,所述基因表达预测装置还包括:
[0171]
编码单元,用于基于所述预测结果和所述待预测基因序列片段进行算数编码,获得压缩基因序列。
[0172]
可选地,所述基因表达预测装置还包括:
[0173]
解码单元,用于基于所述预测结果对所述压缩基因序列进行算数据解码,获得解码后的基因序列。
[0174]
在此需要说明的是,本发明实施例提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
[0175]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(communications interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行一种基因表达预测方法,包括:获取待预测基因序列片段;将所述待预测基因序列片段输入至预测模型,获得所述预测模型输出的预测结果;其中,所述预测模型是基于多头自注意力机制构建的,所述预测模型是基于基因序列片段样本和预测标签训练得到的,所述预测标签为所述基因序列片段样本对应的核苷酸。
[0176]
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0177]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种基因表达预测方法,包括:获取待预测基因序列片段;将所述待预测基因序列片段输入至预测模型,获得所述预测模型输出的预测结果;其中,所述预测模型是基于多头自注意力机制构建的,所述预测模型是基于基因序列片段样本和预测标签训练得到的,所述预测标签为所述基因序列片段样本对应的核苷酸。
[0178]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的一种基因表达预测方法,包括:获取待预测基因序列片段;将所述待预测基因序列片段输入至预测模型,获得所述预测模型输出的预测结果;其中,所述预测模型是基于多头自注意力机制构建的,所述预测模型是基于基因序列片段样本和预测标签训练得到的,所述预测标签为所述基因序列片段样本对应的核苷酸。
[0179]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0180]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0181]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1