本技术涉及信息处理,具体而言,本技术涉及一种信息处理方法、装置、电子设备及计算机可读存储介质。
背景技术:
1、核糖核酸(ribonucleic acid,rna),是存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。rna由核糖核苷酸经磷酸二酯键缩合而成长链状分子。一个核糖核苷酸分子由磷酸,核糖和碱基构成。rna的碱基主要有4种,即a(腺嘌呤)、g(鸟嘌呤)、c(胞嘧啶)、u(尿嘧啶)。核糖核酸在体内的作用主要是引导蛋白质的合成。
2、目前,相关技术中已解决蛋白质的向量表示的问题,但是,针对rna序列的向量表示的问题,相关解决方案的向量表示能力有待提升。
技术实现思路
1、本技术的目的旨在至少能解决上述的技术缺陷之一,特别是向量表示能力低的技术缺陷。
2、根据本技术的一个方面,提供了一种信息处理方法,该方法包括:
3、获取目标核糖核酸序列的第一子序列特征及第二子序列特征;
4、其中,所述第一子序列特征为基于第一段序列确定的,所述第二子序列特征为基于第二段序列确定的;所述第一段序列包括一个碱基,所述第二段序列包括至少两个碱基,所述目标核糖核酸序列中包括多个碱基;
5、通过第一预训练模型,对所述第一子序列特征、所述第二子序列特征进行信息处理,得到所述目标核糖核酸序列的序列表示向量。
6、可选的,所述通过第一预训练模型,对所述第一子序列特征、所述第二子序列特征进行信息处理,得到所述目标核糖核酸序列的序列表示向量,包括:
7、对所述第一子序列特征及所述第二子序列特征进行融合处理,得到所述目标核糖核酸序列对应的融合特征;
8、将所述融合特征输入所述第一预训练模型,得到所述目标核糖核酸序列的序列表示向量;其中,所述第一预训练模型对所述融合特征中的目标碱基对应的特征部分进行掩盖处理得到掩码特征,并根据所述掩码特征预测得到所述目标核糖核酸序列。
9、可选的,所述方法还包括:
10、对预设自然语言处理模型进行掩码训练,得到所述第一预训练模型。
11、可选的,所述对预设自然语言处理模型进行掩码训练,得到所述第一预训练模型,包括:
12、获取训练样本集,所述训练样本集中的每个训练样本包括样本核糖核酸序列;
13、对于每个所述样本核糖核酸序列,获取所述样本核糖核酸序列对应的样本融合特征;
14、对所述样本融合特征中的样本目标碱基对应的特征部分进行掩盖处理,得到样本掩码特征;
15、将所述样本掩码特征输入所述预设自然语言处理模型,得到预测核糖核酸序列;
16、根据所述样本核糖核酸序列以及所述预测核糖核酸序列,确定训练总损失值;
17、基于所述样本核糖核酸序列以及所述样本核糖核酸序列对应的训练总损失值,对所述预设自然语言处理模型进行重复训练,直至得到符合训练结束条件的所述第一预训练模型。
18、可选的,所述将所述样本掩码特征输入所述预设自然语言处理模型,得到预测核糖核酸序列,包括:
19、将所述样本掩码特征输入所述预设自然语言处理模型,得到每个所述样本核糖核酸序列对应的预测结果,所述预测结果包括:所述样本核糖核酸序列中每个样本目标碱基对应的预测类型的预测概率;
20、基于所述预测结果,确定所述预测核糖核酸序列。
21、可选的,所述确定训练总损失值,包括:
22、根据所述样本目标碱基的输入类型以及所述预测结果中的预测类型,确定第一损失值;
23、根据所述样本核糖核酸序列的结构信息,以及所述预测核糖核酸序列的结构信息,确定第二损失值;
24、根据所述第一损失值以及所述第二损失值,确定所述训练总损失值。
25、可选的,所述根据所述样本目标碱基的输入类型以及所述预测结果中的预测类型,确定第一损失值,包括:
26、根据所述样本目标碱基的输入类型、所述预测结果中的预测类型以及第一数据关系,得到所述第一损失值;
27、其中,所述第一数据关系为:
28、
29、其中,lossseq表示所述第一损失值;
30、p表示所述样本目标碱基的预测类型对应的矩阵;
31、p[i]表示第i个所述样本目标碱基的预测类型对应的矩阵;
32、n表示所述训练样本的数量与所述样本核糖核酸序列的长度的乘积;
33、y表示所述样本目标碱基的真实类型对应的矩阵;
34、y[i]表示y矩阵中第i个位置的索引值。
35、可选的,所述根据所述样本核糖核酸序列的结构信息,以及所述预测核糖核酸序列的结构信息,确定第二损失值,包括:
36、根据所述样本核糖核酸序列的原始结构信息,以及所述预测核糖核酸序列的第一结构信息,确定所述第二损失值;
37、所述第一结构信息为对所述预测核糖核酸序列进行预测得到的。
38、可选的,所述根据所述样本核糖核酸序列的原始结构信息,以及所述预测核糖核酸序列的第一结构信息,确定所述第二损失值,包括:
39、根据所述样本核糖核酸序列的原始结构信息、所述预测核糖核酸序列的第一结构信息以及第二数据关系,得到所述第二损失值;
40、其中,所述第二数据关系为:
41、
42、其中,lossss表示所述第二损失值;
43、sgn(ρ,σ)为符号函数;
44、n表示所述样本核糖核酸序列的长度;
45、c表示所述预测核糖核酸序列第i个位置的第一结构信息的预测可靠度;
46、表示所述样本核糖核酸序列第i个位置的原始结构信息;
47、表示所述预测核糖核酸序列第i个位置的第一结构信息。
48、可选的,所述根据样本核糖核酸序列的结构信息,以及所述预测核糖核酸序列的结构信息,确定第二损失值,包括:
49、根据所述样本核糖核酸序列的第二结构信息,以及所述预测核糖核酸序列的第一结构信息,确定所述第二损失值;
50、所述第一结构信息为对所述预测核糖核酸序列进行预测得到的,
51、所述第二结构信息为对所述样本核糖核酸序列进行预测得到的。
52、可选的,所述根据所述样本核糖核酸序列的第二结构信息,以及所述预测核糖核酸序列的第一结构信息,确定所述第二损失值,包括:
53、根据所述样本核糖核酸序列的第二结构信息、所述预测核糖核酸序列的第一结构信息以及第三数据关系,得到所述第二损失值;
54、其中,所述第三数据关系为:
55、
56、其中,lossss表示所述第二损失值;
57、n表示所述样本核糖核酸序列的长度;
58、表示所述样本核糖核酸序列第i个位置的第二结构信息的预测可靠度;
59、表示所述预测核糖核酸序列第i个位置的第一结构信息的预测可靠度;
60、表示所述样本核糖核酸序列第i个位置的第二结构信息;
61、表示所述预测核糖核酸序列第i个位置的第一结构信息。
62、可选的,所述方法还包括:
63、获取目标蛋白质的蛋白表示向量;
64、对所述序列表示向量及所述蛋白表示向量进行拼接处理,得到拼接向量;
65、将所述拼接向量输入第二预训练模型,得到识别表征结果,所述识别表征结果指示所述序列表示向量与所述蛋白表示向量是否发生相互作用。
66、可选的,所述原始结构信息包括所述样本核糖核酸序列的原始的二级结构信息;
67、所述第一结构信息包括所述预测核糖核酸序列的预测的二级结构信息;
68、所述第二结构信息包括所述样本核糖核酸序列的预测的二级结构信息。
69、根据本技术的另一个方面,提供了一种信息处理装置,该装置包括:
70、获取模块,用于获取目标核糖核酸序列的第一子序列特征及第二子序列特征;
71、其中,所述第一子序列特征为基于第一段序列确定的,所述第二子序列特征为基于第二段序列确定的;所述第一段序列包括一个碱基,所述第二段序列包括至少两个碱基,所述目标核糖核酸序列中包括多个碱基;
72、处理模块,用于通过第一预训练模型,对所述第一子序列特征、所述第二子序列特征进行信息处理,得到所述目标核糖核酸序列的序列表示向量。
73、根据本技术的另一个方面,提供了一种电子设备,该电子设备包括:
74、一个或多个处理器;
75、存储器;
76、一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行本技术第一方面任一项所述的信息处理方法。
77、例如,本技术的第三方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
78、存储器用于存放至少一可执行指令,可执行指令使处理器执行如本技术的第一方面所示的信息处理方法对应的操作。
79、根据本技术的再一个方面,提供了一种计算机可读存储介质,所述计算机程序被处理器执行时实现本技术第一方面任一项所述的信息处理方法。
80、例如,本技术实施例的第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本技术第一方面所示的信息处理方法。
81、根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面的各种可选实现方式中提供的方法。
82、本技术提供的技术方案带来的有益效果是:
83、本技术实施例通过获取目标核糖核酸序列的第一子序列特征及第二子序列特征;通过第一预训练模型,对所述第一子序列特征、所述第二子序列特征进行信息处理,得到所述目标核糖核酸序列的序列表示向量,由于第一子序列特征基于包含一个碱基的段序列确定,第二子序列特征基于包含至少两个碱基的段序列确定,因此,第一子序列特征和第二子序列特征中分别反应了目标核糖核酸序列的不同特点,这样,通过第一子序列特征及第二子序列特征确定目标核糖核酸序列的序列表示向量,所确定的序列表示向量的特征表示能力得到了提升。