本技术涉及计算机,具体提供预测信号肽的方法、预测模型构建方法、装置和计算设备。
背景技术:
1、自从谷歌团队在2017年首次提出自注意力机制并且在此基础上创造了全新的自然语言处理模型transformer之后,诞生了大量的以transformer架构为基础的各种强大的通用模型架构来进行表征学习或者作为生成式模型。transformer主要由多个编码器(encoder)和多个解码器(decoder)堆叠而成,而根据transformer演化出目前最主流的框架bert(bidirectional encoder representations from transformers)和gpt(generative pre-trained transformer),分别采用了transformer中的编码器部分和解码器部分。bert和gpt框架最大的区别是bert采用transformer中的编码器部分是多头自注意力机制,可以并行计算,而gpt采用transformer中的解码器部分是掩盖多头注意力,在生成文本的时候,模型只能看到前面的输入,后面的输入被掩盖,所以只能从前到后逐步解码。bert在预训练的时候,会随机掩盖一些输入的文字,然后让模型根据前后的文本预测这些被掩盖的文字,此类模型也称为掩码语言模型,具有双向编码的能力,不过生成文本能力较弱。而gpt在预训练的时候,采用单向编码的方式,只能根据上文预测下文,此类模型也称为生成式语言模型。
2、信号肽是蛋白质n端的一段编码长度一般为15~30个氨基酸的短肽序列,用于引导新合成蛋白质的分泌和移动,在蛋白质完成转运后,信号肽酶将信号肽剪除。在工业界,在进行目标蛋白表达前,要生产的目标蛋白往往并无天然信号肽或者其天然信号肽的表达量较低,通常需要进行信号肽的删除、替换或者添加,一般是通过筛选同类物种或者演化亲近的信号肽,以提高目标蛋白的表达量。目前关于信号肽生成的研究较少。
3、因此,在上述背景下,如何能利用下文的蛋白质序列生成上文的信号肽序列并提高有效率,是有待解决的技术问题。
技术实现思路
1、本技术提供预测信号肽的方法、预测模型构建方法、装置和计算设备,可以实现利用下文的蛋白质序列生成上文的信号肽序列。
2、为了实现上述目的,本技术特采用如下技术方案:
3、本发明的第一方面提供了一种预测信号肽的方法,包括:
4、获取目标蛋白质序列;
5、用所述目标蛋白质序列生成第一输入序列输入预测模型,得到预测的信号肽序列;所述第一输入序列包括表示所述目标蛋白质序列的下文;
6、其中,所述预测模型是利用训练集对预训练语言模型进行训练得到的,所述训练集包括第二输入序列;所述第二输入序列包括表示信号肽序列的上文和表示蛋白质序列的下文。
7、对于目前生成式语言模型为单向生成,只能根据上文预测下文,不能根据下文预测上文,本技术在已标注的上下文数据(信号肽序列和蛋白质序列对)较少的情况下,利用少量已标注数据对含有大量无标签数据的预训练语言模型进行微调,增加模型利用下文的信息生成上文的能力,实现在保持输入文本结构不变的情况下,能够直接利用下文的信息生成上文。并且,本技术为首次将此方法及系统应用于信号肽的生成任务中。
8、作为第一方面的一种可能的实现方式,所述预训练语言模型包括预训练后的双向掩码语言模型。
9、作为第一方面的一种可能的实现方式,所述上文的词节长度与所述下文的词节长度分别为定长。
10、作为第一方面的一种可能的实现方式,所述第二输入序列中的所述上文用所述信号肽序列基于右对齐的补齐或截断方式生成;和/或,
11、所述第二输入序列中的所述下文用所述蛋白质序列基于左对齐的补齐或截断方式生成;和/或,
12、所述第一输入序列中的所述下文用所述目标蛋白质序列基于左对齐的补齐或截断方式生成。
13、作为第一方面的一种可能的实现方式,该方法还包括:对所述第二输入序列中的所述上文中的部分序列进行掩码操作。
14、作为第一方面的一种可能的实现方式,对预训练语言模型进行训练所使用的损失函数包括:
15、
16、其中,xi表示第二输入序列中的第i个序列,s表示上文序列对应的信号肽序列的实际词节长度,k表示所设定的上文序列的词节长度。
17、作为第一方面的一种可能的实现方式,所述用所述目标蛋白质序列生成第一输入序列输入预测模型,得到预测的信号肽序列,包括:
18、根据所述目标蛋白质序列生成表示所述目标蛋白质序列的下文;
19、在所述下文前添加使用掩码表示的上文,形成所述第一输入序列;
20、将所述第一输入序列输入所述预测模型,得到预测的信号肽序列。
21、本技术第二方面提供了一种预测信号肽的方法,包括:
22、获取目标蛋白质序列;
23、根据所述目标蛋白质序列生成表示所述目标蛋白质序列的下文,得到第一输入序列;
24、将所述第一输入序列输入预测模型,得到预测的信号肽序列;
25、所述预测模型是利用训练集对预训练语言模型进行训练得到的,所述训练集包括第二输入序列;所述第二输入序列包括表示信号肽序列的上文和表示蛋白质序列的下文,同时表示信号肽序列的上文中的部分序列采用掩码操作;
26、对预训练语言模型进行训练所使用的损失函数包括:
27、
28、其中,xi表示第二输入序列中的第i个序列,s表示上文序列对应的信号肽序列的实际词节长度,k表示所设定的上文序列的词节长度;
29、所述预训练语言模型包括预训练后的双向掩码语言模型;
30、所述上文的词节长度与所述下文的词节长度分别为定长;
31、所述第二输入序列中的所述上文用所述信号肽序列基于右对齐的补齐或截断方式生成;和/或,
32、所述第二输入序列中的所述下文用所述蛋白质序列基于左对齐的补齐或截断方式生成;和/或,
33、所述第一输入序列中的所述下文用所述目标蛋白质序列基于左对齐的补齐或截断方式生成。
34、本技术第三方面提供了一种预测模型的构建方法,包括:
35、获取由信号肽序列和蛋白质序列构成的序列对;
36、根据所述信号肽序列和蛋白质序列构成的序列对生成第二输入序列;所述第二输入序列包括表示信号肽序列的上文和表示蛋白质序列的下文;
37、利用训练集对预训练语言模型进行训练得到预测模型,所述训练集包括所述第二输入序列。
38、作为第三方面的一种可能的实现方式,所述预训练语言模型包括预训练后的双向掩码语言模型。
39、作为第三方面的一种可能的实现方式,所述上文的词节长度与所述下文的词节长度分别为定长。
40、作为第三方面的一种可能的实现方式,所述第二输入序列中的所述上文用所述信号肽序列基于右对齐的补齐或截断方式生成;和/或,
41、所述第二输入序列中的所述下文用所述蛋白质序列基于左对齐的补齐或截断方式生成。
42、作为第三方面的一种可能的实现方式,该方法还包括:对所述第二输入序列中的所述上文中的部分序列进行掩码操作。
43、作为第三方面的一种可能的实现方式,对预训练语言模型进行训练所使用的损失函数包括:
44、
45、其中,xi表示第二输入序列中的第i个序列,s表示上文序列对应的信号肽序列的实际词节长度,k表示所设定的上文序列的词节长度。
46、本技术的第四方面提供一种预测信号肽的装置,包括:
47、获取单元,用于获取目标蛋白质序列;
48、处理单元,用于将所述目标蛋白质序列生成第一输入序列输入预测模型,得到预测的信号肽序列;所述第一输入序列包括表示所述目标蛋白质序列的下文;
49、其中,所述预测模型是利用训练集对预训练语言模型进行训练得到的,所述训练集包括第二输入序列;所述第二输入序列包括表示信号肽序列的上文和表示蛋白质序列的下文。
50、作为第四方面的一种可能的实现方式,所述预训练语言模型包括预训练后的双向掩码语言模型。
51、作为第四方面的一种可能的实现方式,所述上文的词节长度与所述下文的词节长度分别为定长。
52、作为第四方面的一种可能的实现方式,所述第二输入序列中的所述上文用所述信号肽序列基于右对齐的补齐或截断方式生成;和/或,
53、所述第二输入序列中的所述下文用所述蛋白质序列基于左对齐的补齐或截断方式生成;和/或,
54、所述第一输入序列中的所述下文用所述目标蛋白质序列基于左对齐的补齐或截断方式生成。
55、作为第四方面的一种可能的实现方式,该方法还包括:对所述第二输入序列中的所述上文中的部分序列进行掩码操作。
56、作为第四方面的一种可能的实现方式,对预训练语言模型进行训练所使用的损失函数包括:
57、
58、其中,xi表示第二输入序列中的第i个序列,s表示上文序列对应的信号肽序列的实际词节长度,k表示所设定的上文序列的词节长度。
59、作为第四方面的一种可能的实现方式,所述将所述目标蛋白质序列生成第一输入序列输入预测模型,得到预测的信号肽序列,包括:
60、根据所述目标蛋白质序列生成表示所述目标蛋白质序列的下文;
61、在所述下文前添加使用掩码表示的上文,形成所述第一输入序列;
62、将所述第一输入序列输入所述预测模型,得到预测的信号肽序列。
63、本技术的第五方面提供一种构建预测模型的装置,包括:
64、获取单元,用于获取由信号肽序列和蛋白质序列构成的序列对;
65、序列生成单元,用于根据所述信号肽序列和蛋白质序列构成的序列对生成第二输入序列;所述第二输入序列包括表示信号肽序列的上文和表示蛋白质序列的下文;
66、训练单元,用于利用训练集对预训练语言模型进行训练得到预测模型,所述训练集包括所述第二输入序列。
67、作为第五方面的一种可能的实现方式,所述预训练语言模型包括预训练后的双向掩码语言模型。
68、作为第五方面的一种可能的实现方式,所述上文的词节长度与所述下文的词节长度分别为定长。
69、作为第五方面的一种可能的实现方式,所述第二输入序列中的所述上文用所述信号肽序列基于右对齐的补齐或截断方式生成;和/或,
70、所述第二输入序列中的所述下文用所述蛋白质序列基于左对齐的补齐或截断方式生成。
71、作为第五方面的一种可能的实现方式,该方法还包括:对所述第二输入序列中的所述上文中的部分序列进行掩码操作。
72、作为第五方面的一种可能的实现方式,对预训练语言模型进行训练所使用的损失函数包括:
73、
74、其中,xi表示第二输入序列中的第i个序列,s表示上文序列对应的信号肽序列的实际词节长度,k表示所设定的上文序列的词节长度。
75、本技术的第六方面提供一种计算设备,包括:
76、处理器,以及
77、存储器,其上存储有程序指令,所述程序指令当被所述处理器执行时使得所述处理器执行第一方面的任一所述预测信号肽的方法或第二方面所述预测信号肽的方法,或所述程序指令当被所述处理器执行时使得所述处理器执行第三方面的任一所述预测模型的构建方法。
78、本技术的第七方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行第一方面的任一所述预测信号肽的方法、或第二方面所述预测信号肽的方法、或第三方面的任一所述预测模型的构建方法。
79、本技术的第八方面提供一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现第一方面的任一所述预测信号肽的方法、或第二方面所述预测信号肽的方法、或第三方面的任一所述预测模型的构建方法。