本申请涉及生物信息,特别涉及一种预测结果的生成方法、装置、设备、存储介质及程序产品。
背景技术:
1、基于基因片段序列信息的研究可以分为基于统计学习的研究方法和基于机器学习的研究方法,由于对基因片段序列信息的深入研究,设计多种多样的研究任务。
2、相关技术中,通过采用基于非预训练深度学习的研究方法,针对不同的任务设计训练不同的深度学习模型。
3、然而,上述需要针对不同的任务类型特别设计对应的模型,模型对于任务的泛化性较差,预测效率较低。
技术实现思路
1、本申请实施例提供了一种预测结果的生成方法、装置、设备、存储介质及程序产品,能够提高模型的任务泛化性。所述技术方案如下。
2、一方面,提供了一种预测结果的生成方法,所述方法包括:
3、获取基因片段序列和任务指令,所述基因片段序列包括蛋白组片段序列和转录组片段序列中的至少一种,所述任务指令用于指示多种预测任务类型中的至少一种;
4、对所述基因片段序列和所述任务指令进行编码融合,得到第一编码序列,所述第一编码序列中包括所述基因片段序列对应的基因编码序列,以及所述任务指令对应的任务编码序列;
5、通过预先训练的基因语言模型对所述第一编码序列进行预测,得到预测结果,所述基因语言模型用于生成与所述任务指令中的至少一种预测任务类型对应的预测结果;
6、对所述预测结果进行解码,得到目标结果,所述目标结果是按所述至少一种预测任务类型对所述基因片段序列进行预测得到的结果。
7、另一方面,提供了一种预测结果的生成装置,所述装置包括:
8、获取模块,用于获取基因片段序列和任务指令,所述基因片段序列包括蛋白组片段序列和转录组片段序列中的至少一种,所述任务指令用于指示多种预测任务类型中的至少一种;
9、处理模块,用于对所述基因片段序列和所述任务指令进行编码融合,得到第一编码序列,所述第一编码序列中包括所述基因片段序列对应的基因编码序列,以及所述任务指令对应的任务编码序列;
10、所述处理模块,还用于通过预先训练的基因语言模型对所述第一编码序列进行预测,得到预测结果,所述基因语言模型用于生成与所述任务指令中的至少一种预测任务类型对应的预测结果;
11、所述处理模块,还用于对所述预测结果进行解码,得到目标结果,所述目标结果是按所述至少一种预测任务类型对所述基因片段序列进行预测得到的结果。
12、另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的预测结果的生成方法。
13、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的预测结果的生成方法。
14、另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的预测结果的生成方法。
15、本申请实施例提供的技术方案带来的有益效果至少包括:
16、通过获取基因片段序列和任务指令,基因片段序列中包括蛋白组片段序列和转录组片段序列中的至少一种,任务指令用于指示多种预测任务类型中的至少一种,对基因片段序列和任务指令进行编码融合,得到第一编码序列,第一编码序列中包括基因片段序列对应的基因编码序列,以及任务指令对应的任务编码序列,通过预先训练的基因语言模型对第一编码序列进行预测,得到预测结果,基因语言模型用于生成与任务指令中的至少一种预测任务类型对应的预测结果,对预测结果进行解码,得到目标结果,目标结果是按至少一种任务类型对基因片段序列进行预测得到的结果,通过该基因语言模型实现了基于不同的任务编码序列直接生成对应的任务结果,能够适应于多种不同的预测任务类型,提高了模型对于预测任务的泛化性,提高了预测效率。
1.一种预测结果的生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过预先训练的基因语言模型对所述第一编码序列进行预测,得到预测结果,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述基因片段序列和所述任务指令进行编码融合,得到第一编码序列,包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述多个单位基因片段序列和所述任务指令进行编码融合,得到所述第一编码序列,包括:
5.根据权利要求1至4任一所述的方法,其特征在于,所述通过预先训练的基因语言模型对所述第一编码序列进行预测,得到预测结果之前,还包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述第j个预测结果和所述第j+1个样本基因编码序列中的差异确定第j个第一预测损失,包括:
7.根据权利要求5所述的方法,其特征在于,所述通过候选基因语言模型基于第j个样本基因编码序列,生成第j个预测结果之前,还包括:
8.根据权利要求1至4任一所述的方法,其特征在于,
9.一种预测结果的生成装置,其特征在于,所述装置包括:
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行以实现如权利要求1至8任一所述的预测结果的生成方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段计算机程序,所述至少一段计算机程序由处理器加载并执行以实现如权利要求1至8任一所述的预测结果的生成方法。
12.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一所述的预测结果的生成方法。