核酸结合位点的检测方法及装置与流程

文档序号:32750925发布日期:2022-12-31 00:44阅读:25来源:国知局
核酸结合位点的检测方法及装置与流程

1.本技术实施例涉及数据处理领域,具体而言,涉及一种核酸结合位点的检测方法及装置。


背景技术:

2.蛋白质是细胞的功能分子,由α-氨基酸残基长链条组成,参与许多生命活动,例如激素调节、代谢、感知、细胞转录和复制等。通常蛋白质并不是“孤军奋战”,绝大多数蛋白质会与其他生物分子(蛋白质、dna(deoxyribo nucleic acid,脱氧核糖核酸)、rna(ribo nucleic acid,核糖核酸)等),或者金属离子(mg2+,zn2+,fe3+,ca2+等)相互作用,一起参与生命的过程。其中和dna或rna的相互作用的蛋白质包括组蛋白、转录因子、甲基化酶和染色质重塑复合物等,控制了dna或rna剪切、dna或rna复制、dna或rna转录的过程,是基因转录调控的关键,影响细胞的分裂和蛋白质的生成,可以说是一切生命活动的基础。因此研究蛋白质-dna或rna相互作用具有重要的意义。
3.当前,在预测整个蛋白质是否能和dna或rna发生相互作用时大多先使用滑动窗口的方法提取残基特征,再对残基一个一个的进行预测,预测该残基与dna或rna的相互作用可能性,这种方式一方面效率比较低,每次只能检测一个残基,另一方面,由于蛋白质的螺旋状空间结构的复杂性,可能会出现检测出的结果并不准确,偏离实际情况。


技术实现要素:

4.本技术实施例提供了一种核酸结合位点的检测方法及装置,以至少解决相关技术中存在的蛋白质中的核酸结合位点检测效率较低的问题。
5.根据本技术的一个实施例,提供了一种核酸结合位点的检测方法,包括:获取目标蛋白质的目标属性信息,其中,所述目标属性信息用于指示所述目标蛋白质的空间结构;根据所述目标属性信息确定所述目标蛋白质中所包括的氨基酸序列的全局特征,其中,所述全局特征用于表征所述氨基酸序列中氨基酸之间的关联关系;从所述全局特征中提取目标局部特征,其中,所述目标局部特征用于表征所述氨基酸序列中所存在的氨基酸残基之间的关联关系;根据所述目标局部特征检测所述目标蛋白质中的核酸结合位点,得到目标核酸结合位点。
6.可选的,所述根据所述目标属性信息确定所述目标蛋白质序列的全局特征,包括:将所述目标属性信息输入至目标特征生成网络,其中,所述目标特征生成网络用于根据所述氨基酸序列中氨基酸之间的位置信息生成所述氨基酸序列中氨基酸之间的关联关系;获取所述目标特征生成网络输出的所述全局特征。
7.可选的,所述将所述目标属性信息输入至目标特征生成网络,包括:将所述目标属性信息输入至目标位置编码层,得到目标位置特征,其中,所述目标特征生成网络包括所述目标位置编码层和多头注意力编码层,所述目标位置编码层用于在输入的属性信息中添加氨基酸位点之间的位置信息得到位置特征;将所述目标位置特征输入所述多头注意力编码
层,其中,所述多头注意力编码层输出所述全局特征,所述多头注意力编码层用于通过多头注意力编码生成氨基酸之间的关联关系。
8.可选的,所述将所述目标属性信息输入至目标位置编码层,得到目标位置特征,包括:通过所述目标位置编码层对所述目标属性信息中包括的所述目标蛋白质上每个氨基酸位点的位点信息进行正余弦位置编码,得到每个所述氨基酸位点的参考位置特征;通过所述目标位置编码层将全部所述氨基酸位点的参考位置特征以及所述目标属性信息相加,得到所述目标位置特征。
9.可选的,所述从所述全局特征中提取目标局部特征,包括:将所述全局特征输入至目标卷积网络,其中,所述目标卷积网络用于从所述全局特征中筛选出所述目标局部特征;获取所述目标卷积网络输出的所述目标局部特征。
10.可选的,所述将所述全局特征输入至目标卷积网络,包括:通过所述目标卷积网络使用目标卷积核对所述全局特征进行卷积运算,得到参考局部特征;通过所述目标卷积网络使用门控线性单元glu对所述参考局部特征进行筛选,得到所述目标局部特征。
11.可选的,在根据所述目标属性信息确定所述目标蛋白质中所包括的氨基酸序列的全局特征之前,所述方法还包括:构建初始检测模型,其中,所述初始检测模型包括依次连接的初始特征生成网络,初始卷积网络和初始全连接网络;使用标注了核酸结合位点的蛋白质样本对所述初始检测模型进行训练,得到目标检测模型,其中,所述目标检测模型包括依次连接的目标特征生成网络,目标卷积网络和目标全连接网络,所述目标特征生成网络用于根据所述目标属性信息确定所述全局特征,所述目标卷积网络用于从所述全局特征中提取所述目标局部特征,所述目标全连接网络用于根据所述目标局部特征检测所述目标蛋白质中的核酸结合位点得到目标核酸结合位点。
12.可选的,所述使用标注了核酸结合位点的蛋白质样本对所述初始检测模型进行训练,得到目标检测模型,包括:将所述蛋白质样本输入所述初始检测模型,得到所述初始检测模型输出的检测结果;根据所述检测结果和所述蛋白质样本所标注的核酸结合位点对所述初始检测模型中初始层的模型参数进行调整,直至所述初始检测模型收敛,得到所述目标检测模型,其中,所述初始层包括:所述初始特征生成网络所包括的初始位置编码层和初始多头注意力编码层,以及,所述初始卷积网络所包括的初始卷积核和初始门控线性单元。
13.可选的,所述获取目标蛋白质的目标属性信息,包括:分别获取所述目标蛋白质的位置特异性打分矩阵,以及,所述目标蛋白质中每个氨基酸的理化特征和二级结构信息,其中,所述二级结构信息用于指示所述目标蛋白质中每个氨基酸位点上的氨基酸形成蛋白质二级结构的概率值;分别将每个氨基酸的所述理化特征和所述二级结构信息添加至所述位置特异性打分矩阵中与所对应的氨基酸位点对应的位置上,得到目标矩阵作为所述目标属性信息。
14.根据本技术的另一个实施例,提供了一种核酸结合位点的检测装置,包括:获取模块,用于获取目标蛋白质的目标属性信息,其中,所述目标属性信息用于指示所述目标蛋白质的空间结构;确定模块,用于根据所述目标属性信息确定所述目标蛋白质中所包括的氨基酸序列的全局特征,其中,所述全局特征用于表征所述氨基酸序列中氨基酸之间的关联关系;提取模块,用于从所述全局特征中提取目标局部特征,其中,所述目标局部特征用于表征所述氨基酸序列中所存在的氨基酸残基之间的关联关系;检测模块,用于根据所述目
标局部特征检测所述目标蛋白质中的核酸结合位点,得到目标核酸结合位点。
15.根据本技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
16.根据本技术的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
17.通过本技术,由于目标蛋白质的目标属性信息用于指示目标蛋白质的空间结构,因此,根据该属性信息就能够得到目标蛋白质中包括的氨基酸序列的全局特征,在这个全局特征中,能够表征出氨基酸序列中的氨基酸之间的关联关系,进而再从全局特征中提取出表征氨基酸序列中存在的氨基酸残基之间的关联关系的目标局部特征,进而使用该目标局部特征就能够对整个氨基酸序列上的核酸结合位点进行检测,由于在检测核酸结合位点是对整个目标蛋白质的氨基酸序列进行的,并且每个目标局部特征能够表征出氨基酸序列上氨基酸残基之间的关联关系,进而在目标蛋白质上确定出的每个核酸结合位点都考虑了氨基酸序列上其他氨基酸残基的影响,进而确定出的目标核酸结合位点更加准确,因此,可以解决相关技术中存在的蛋白质中的核酸结合位点检测效率较低的问题,达到提高蛋白质中的核酸结合位点检测效率的效果。
附图说明
18.图1是根据本技术实施例的核酸结合位点的检测方法流程图;
19.图2是根据本技术实施例的一种可选的目标特征生成网络示意图;
20.图3是根据本身请实施例的一种可选的目标卷积网络示意图;
21.图4是根据本技术实施例的一种可选的卷积运算示意图;
22.图5是根据本技术实施例的一种可选的初始检测模型的训练流程图;
23.图6是根据本技术实施例的一种可选的目标检测模型示意图;
24.图7是根据本技术实施例的一种可选的核酸结合位点的检测流程图;
25.图8是根据本技术实施例的核酸结合位点的检测装置的结构框图。
具体实施方式
26.下文中将参考附图并结合实施例来详细说明本技术的实施例。
27.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
28.在本实施例中提供了一种核酸结合位点的检测方法,图1是根据本技术实施例的核酸结合位点的检测方法流程图,如图1所示,该流程包括如下步骤:
29.步骤s102,获取目标蛋白质的目标属性信息,其中,所述目标属性信息用于指示所述目标蛋白质的空间结构;
30.步骤s104,根据所述目标属性信息确定所述目标蛋白质中所包括的氨基酸序列的全局特征,其中,所述全局特征用于表征所述氨基酸序列中氨基酸之间的关联关系;
31.步骤s106,从所述全局特征中提取目标局部特征,其中,所述目标局部特征用于表
征所述氨基酸序列中所存在的氨基酸残基之间的关联关系;
32.步骤s108,根据所述目标局部特征检测所述目标蛋白质中的核酸结合位点,得到目标核酸结合位点。
33.通过上述步骤,由于目标蛋白质的目标属性信息用于指示目标蛋白质的空间结构,因此,根据该属性信息就能够得到目标蛋白质中包括的氨基酸序列的全局特征,在这个全局特征中,能够表征出氨基酸序列中的氨基酸之间的关联关系,进而再从全局特征中提取出表征氨基酸序列中存在的氨基酸残基之间的关联关系的目标局部特征,进而使用该目标局部特征就能够对整个氨基酸序列上的核酸结合位点进行检测,由于在检测核酸结合位点是对整个目标蛋白质的氨基酸序列进行的,并且每个目标局部特征能够表征出氨基酸序列上氨基酸残基之间的关联关系,进而在目标蛋白质上确定出的每个核酸结合位点都考虑了氨基酸序列上其他氨基酸残基的影响,进而确定出的目标核酸结合位点更加准确,因此,可以解决相关技术中存在的蛋白质中的核酸结合位点检测效率较低的问题,达到提高蛋白质中的核酸结合位点检测效率的效果。
34.其中,上述步骤的执行主体可以为服务器、终端等,但不限于此,比如,在终端或者服务器上运行上述核酸结合位点的检测方法的程序,从而实现对目标蛋白质中核酸结合位点的高效率检测。
35.在上述步骤s102提供的技术方案中,目标属性信息可以是从多个维度指示目标蛋白值空间结构的属性信息,目标属性信息可以但不限于包括蛋白质的位置特异性打分矩阵pssm(position-specific scoring matrix)、目标蛋白质中每个氨基酸的理化特征、目标蛋白质中每个氨基酸的二级结构信息等等,其中,位置特异性打分矩阵表示氨基酸序列第j个位置上的氨基酸在进化过程中突变成第i个氨基酸的可能性,理化特征包括:疏水性、侧链的体积、极性、极化性、溶剂可及表面积,二级结构信息表述目标蛋白质中每个氨基酸位点上的氨基酸形成蛋白质二级结构的概率值。
36.可选地,在本实施例中,目标蛋白质的属性信息可以是预先设置好的,或者还可以是根据目标蛋白质的氨基酸序列生成的,比如,位置特异性打分矩阵可以使用多序列比对工具psi-blast对目标蛋白质的氨基酸序列进行计算得到的。
37.在上述步骤s104提供的技术方案中,确定目标蛋白质包括的氨基酸序列的全局特征可以是使用经过训练样本训练的网络模型生成的,该网络模型能够根据蛋白质的属性信息自动发掘出蛋白质中的氨基酸之间在不同向量空间中的关联关系,比如transformer、cnn、rnn等等,或者,目标蛋白质包括的氨基酸序列的全局特征还可以是使用数学算法对氨基酸序列中每个氨基酸的目标属性信息进行编辑得到的,从而得到目标蛋白质的全局特征。
38.可选地,在本实施例中,氨基酸之间的关联关系可以但不限于包括氨基酸的位置、氨基酸之间的距离、氨基酸之间的连接关系、氨基酸之间的相互影响关系等等,本方案对此不作限定。
39.在上述步骤s106提供的技术方案中,从全局特征中提取目标局部特征可以是通过使用训练样本训练得到的网络模型,该网络模型能够从输入的全局特征中自动提取出目标局部特征,该网络模型可以但不限于包括卷积层或者其他相关的网络层,或者,从全局特征中提取目标局部特征还可以是通过特征识别算法从全局特征中提取出能够表征氨基酸残
基之间关联关系的目标局部特征。
40.可选地,在本实施例中,目标局部特征可以是对全局特征中包括的全部参考局部特征进行筛选得到的,比如,全局特征中包括不同维度参考局部特征,因此,通过对全局特征中包括的参考局部特征进行筛选,从而筛选出能够表征氨基酸残基之间关联关系的局部特征,或者,全局特征中包括多个参考局部特征,这些参考局部特征都能够反映氨基酸残基之间的关系,但是这些参考局部特征中有的局部特征的明显度大于设定阈值(即特征明显度较高),有的明显度低于设定阈值(即特征明显度较低),因此,通过对参考局部特征进行筛选,从而在全局特征中筛选出特征明显度较高的目标局部特征。
41.可选地,在本实施例中,氨基酸残基之间的关联关系可以但不限于包括氨基酸残基之间的距离、氨基酸残基之间的影响关系、氨基酸残基之间的空间关系等等,本方案对此不作限定。
42.在步骤s108提供的技术方案中,根据目标局部特征检测核酸结合位点可以是通过训练过的网络模型,该网络模型中包括全连接层等功能层,进而该网络模型能够根据输入的局部特征自动确定出蛋白质中的目标核酸结合位点。
43.可选地,在本实施例中,根据目标局部特征检测核酸结合位点还可以是通过比较目标局部特征和预设特征的相似度的方式,预设特征是预设蛋白质的局部特征,并且设定好了蛋白质中的核酸结合位点,进而,通过比较目标局部特征和预设特征的相似度,从而确定出目标蛋白质和预设蛋白质之间的相似度,并且在相似度值大于或者等于目标相似度值的情况下,将预设蛋白质的核酸结合位点确定为目标核酸结合位点。
44.可选地,在本实施例中,核酸可以是脱氧核糖核酸(即dna),核糖核酸(即rna)。
45.作为一种可选的实施例,所述根据所述目标属性信息确定所述目标蛋白质序列的全局特征,包括:
46.将所述目标属性信息输入至目标特征生成网络,其中,所述目标特征生成网络用于根据所述氨基酸序列中氨基酸之间的位置信息生成所述氨基酸序列中氨基酸之间的关联关系;
47.获取所述目标特征生成网络输出的所述全局特征。
48.可选地,在本实施例中,目标特征生成网络是具有生成氨基酸之间关联关系的网络模型,其可以是使用蛋白质样本对具有考虑特征关联关系(或者向量空间关系)功能的特征生成网络模型进行训练得到的,比如,可以但不限于是cnn(convolutional neural network,卷积神经网络)、rnn(recurrent neural network,循环神经网络)模型,或者还可以是对已有的网络模型进行改进或者对多个网络模型的功能层进行拼接,从而得到具有考虑特征关联关系(或者向量空间关系)功能的初始特征生成网络,并使用蛋白质训练样本对初始特征生成网络进行训练,从而得到目标特征生成网络,比如,对传统的transformer网络模型进行修改,保留transformer网络模型的编码模块,并在编码模块前增加氨基酸位置向量编码模块(从而在目标属性信息中添加氨基酸的位置关系),得到初始特征生成网络,进而,该特征生成网络不但能够发掘氨基酸属性信息之间的关联网关,还考虑了氨基酸的位置关系。
49.可选地,在本实施例中,目标特征生成网络是使用带有标签的蛋白质样本对初始特征生成网络进行训练得到的,其中,标签标注的内容和初始特征生成网络训练方式设定
的,比如,若直接对初始特征生成网络进行训练,样本的标签就为对应的全局特征,即标注了蛋白质样本具有什么样的全局特征,若是使用其他辅助网络模型辅助初始特征生成网络的训练,则蛋白质样本的标注内容可以是辅助网络模型的功能确定的,比如,辅助网络模型设置在初始特征生成网络后,用于根据初始特征生成网络输出的全局特征确定蛋白质序列中的核酸结合位点,因此,蛋白质训练样本的标注内容可以是蛋白质训练样本上的核酸结合位点信息。
50.通过上述步骤,目标特征生成网络具有根据氨基酸序列中氨基酸之间的位置信息生成氨基酸序列中氨基酸之间的关联关系的功能,通过将目标属性信息输入值目标特征生成网络,从而能够得快速准确的得到用于表征氨基酸序列中氨基酸之间的关联关系的全局特征,从而提高全局特征的确定速度和准确率。
51.作为一种可选的实施例,所述将所述目标属性信息输入至目标特征生成网络,包括:
52.将所述目标属性信息输入至目标位置编码层,得到目标位置特征,其中,所述目标特征生成网络包括所述目标位置编码层和多头注意力编码层,所述目标位置编码层用于在输入的属性信息中添加氨基酸位点之间的位置信息得到位置特征;
53.将所述目标位置特征输入所述多头注意力编码层,其中,所述多头注意力编码层输出所述全局特征,所述多头注意力编码层用于通过多头注意力编码生成氨基酸之间的关联关系。
54.可选地,在本实施例中,目标位置编码层可以是使用训练样本进行训练得到的网络模型,或者还可以是目标公式,该目标公式可以但不限于是正余弦位置编码公式。
55.可选地,在本实施例中,目标特征生成网络中可以但不限于包括一个或者多个多头注意力编码层,在目标特征生成网络中包括多个多头注意力编码层时,多个多头注意力编码层是依次连接的,后一个多头注意力编码层根据前一个多头注意编码层输出的特征进行进一步处理,最终得到更准确的全局特征。
56.可选地,在本实施例中,一个多头注意力编码层可以但不限于包括多个多头注意力子层,以及前馈子层,每个多头注意力子层用于发掘样本在对应的向量空间中特征向量。图2是根据本技术实施例的一种可选的目标特征生成网络示意图,如图2所示,该目标特征生成模型中包括h个多头注意力编码层,第一个多头注意力编码层的输入为目标位置特征(包括目标属性信息和每个氨基酸的参考位置特征)的表示向量矩阵,后续多头注意力编码层的输入是前一个多头注意力编码层的输出,最后一个多头注意力编码层输出的矩阵就是全局特征,在每个多头注意力编码层中有两个子层,分别是多头注意力子层和前馈子层,其中,一个多头注意例子层中包括multi-head attention层和add&norm层,multi-head attention层是由多个self-attention组合形成的,add&norm层由add和norm两部分组成,add指将multi-head attention的结果结合,是一种残差连接,通常用于解决多层网络训练的问题,可以让网络只关注当前差异的部分,norm指layer normalization(层归一),通常用于rnn结构,layer normalization会将每一层神经元的输入都转成均值方差都一样的,这样可以加快收敛。前馈子层包括feed forward层和add&norm层,feed forward层比较简单,是一个两层的全连接层,第一层的激活函数为relu,第二层不使用激活函数。对于第一个多头注意例编码层来说,输入linear(线性变换层)中的值为目标位置特征(包括目标属
性信息和每个氨基酸的参考位置特征),本图中,q,k,v分别是query,key,value的矩阵。
57.通过以上步骤,通过在目标特征生成网络中设置目标位置编码层和多头注意力层,从而实现全局特征能够表征氨基酸之间的关联关系,并且全局特征中的特征维度更加丰富,从而提高使用全局特征确定出的核酸结合位点的准确率。
58.作为一种可选的实施例,所述将所述目标属性信息输入至目标位置编码层,得到目标位置特征,包括:
59.通过所述目标位置编码层对所述目标属性信息中包括的所述目标蛋白质上每个氨基酸位点的位点信息进行正余弦位置编码,得到每个所述氨基酸位点的参考位置特征;
60.通过所述目标位置编码层将全部所述氨基酸位点的参考位置特征以及所述目标属性信息相加,得到所述目标位置特征。
61.可选地,在本实施例中,正余弦位置编码可以是使用公式1和公式2进行的:
[0062][0063][0064]
其中,e
pos
为参考位置特征,pos是蛋白质序列中残基的位置,i表示氨基酸属性的第i个维度,d
model
表示氨基酸属性的维度,比如,氨基酸的目标属性信息中包括氨基酸的五大理化特征(疏水性、侧链的体积、极性、极化性、溶剂可及表面积),则d
model
取值为5。
[0065]
可选地,在本实施例中,目标位置特征中既包括参考位置特征又包括目标属性信息,比如,目标属性信息为氨基酸的5大理化特征,是一个(l,5)的矩阵的行驶,l是氨基酸序列的长度,在该矩阵中的每一列对应氨基酸序列中的一个氨基酸位点,每一行对应一个氨基酸理化特征的取值,则目标位置特征就是一个(l,6)的矩阵,即在每个氨基酸位点上增加了对应的参考位置特征。
[0066]
作为一种可选的实施例,所述从所述全局特征中提取目标局部特征,包括:
[0067]
将所述全局特征输入至目标卷积网络,其中,所述目标卷积网络用于从所述全局特征中筛选出所述目标局部特征;
[0068]
获取所述目标卷积网络输出的所述目标局部特征。
[0069]
可选地,在本实施例中,目标卷积网络中可以但不限于包括目标卷积核和门控线性单元,该目标卷积层用于将全局特征变为参考局部特征,门控线性单元用于从参考局部特征中筛选出目标局部特征。图3是根据本身请实施例的一种可选的目标卷积网络示意图,如图3所示,目标卷积网络的数量可以是n个,并且是依次连接的关系,对于每个目标卷积矩阵中包括layernorm(层归一)、3
×
3conv(目标卷积层)和glu(门控线性单元),其中layernorm(层归一)用于进行归一化,目标卷积和用于提取出全局特征中的参考局部特征,glu(门控线性单元)用于从参考局部特征中筛选出目标局部特征。
[0070]
可选的,在本实施例中,目标卷积网络可以是使用训练样本对初始卷积网络进行训练得到的,可以是使用蛋白质训练样本对初始卷积网络进行训练,此时,需要对蛋白质训练样本进行预处理,得到蛋白质训练样本的全局特征,使用全局特征的训练样本对初始卷积网络进行训练,或者还可以是将初始卷积网络和目标特征生成网络对应的初始特征生成网络同时进行训练。
[0071]
作为一种可选的实施例,所述将所述全局特征输入至目标卷积网络,包括:
[0072]
通过所述目标卷积网络使用目标卷积核对所述全局特征进行卷积运算,得到参考局部特征;
[0073]
通过所述目标卷积网络使用门控线性单元glu对所述参考局部特征进行筛选,得到所述目标局部特征。
[0074]
可选地,在本实施例中,目标卷积和的数量可以是一个或者多个,每个目标卷积和用于提取不同特征维度的参考局部特征,或者每个目标卷积和用于提取不同向量空间的参考局部特征。
[0075]
可选地,在本实施例中,卷积运算是使用目标卷积和对全局特征进行遍历提取,从而提取出目标全局特征中的全部参考局部特征,图4是根据本技术实施例的一种可选的卷积运算示意图,如图4所示,全局特征是一个5
×
6大小的矩阵,目标卷积核是一个3
×
3大小的目标卷积核,通过使用目标卷积核对全局特征中依次遍历(如图中全局特征中的阴影部分),从而得到一个局部特征,基于这种方式,使用目标卷积核对全局特征进行遍历提取,从而得到全局特征中的全部局部特征。
[0076]
作为一种可选的实施例,在根据所述目标属性信息确定所述目标蛋白质中所包括的氨基酸序列的全局特征之前,还包括:
[0077]
构建初始检测模型,其中,所述初始检测模型包括依次连接的初始特征生成网络,初始卷积网络和初始全连接网络;
[0078]
使用标注了核酸结合位点的蛋白质样本对所述初始检测模型进行训练,得到目标检测模型,其中,所述目标检测模型包括依次连接的目标特征生成网络,目标卷积网络和目标全连接网络,所述目标特征生成网络用于根据所述目标属性信息确定所述全局特征,所述目标卷积网络用于从所述全局特征中提取所述目标局部特征,所述目标全连接网络用于根据所述目标局部特征检测所述目标蛋白质中的核酸结合位点得到目标核酸结合位点。
[0079]
可选地,在本实施例中,目标全连接层需要输出和蛋白质序列长度一样的结果,每一位表示该位置上的残基能否和dna或rna相互作用结合,输出维度为(l,1)。
[0080]
可选地,在本实施例中,蛋白质训练样本可以是从pdb数据库(预设蛋白质数据库)中提取出来的,在进行训练时,可以对蛋白质数据库中存储的蛋白质数据进行处理,从而得到用于训练的训练集和测试集,比如,首先从pdb上收集了7186个有清晰注释的结合dna的蛋白,为了去冗余,在数据集上用了cd-hit,其中要求数据的序列一致性要低于30%,最终得到了584个蛋白质。之后将其分为包含543个蛋白质的pdna-543和包含41个蛋白质的pdna-41,作为训练集和测试集。表1是根据本实施例的训练集和测试集详细情况表,如表1所示:
[0081]
表1
[0082]
数据集序列数阳性数阴性数比率pdna-54354395491349957.07pdna-4141734140215.24
[0083]
在表1中,序列数为数据集中蛋白质序列的数目,阳性数为与dna结合的残基数目,阴性数为未与dna结合的残基数目,比率为dna结合的残基数目占总残基数目的比例。在使用上述训练集合测试集对初始检测模型训练时可以采用十折较差验证方法训练。
[0084]
可选地,在本实施例中,初始检测模型中包括依次连接的初始特征生成网络,初始
卷积网络和初始全连接网络,在训练时,将这三个网络作为一个整体进行训练,从而避免了对三个网络模型分三次进行训练,提高了对模型的训练效率,并且,由于在训练时是作为一个整体进行训练的,从而保证模型之间的契合度,为蛋白质中核酸结合位点的准确检测提供保障。图5是根据本技术实施例的一种可选的初始检测模型的训练流程图,如图5所示,至少包括如下步骤:
[0085]
s501,获取标注了核酸结合位点的蛋白质样本,其中,蛋白质样本中包括的属性信息(包括:蛋白质位置特异性打分矩阵,以及蛋白质中每个氨基酸的二级结构信息和理化特征信息);
[0086]
s502,将蛋白质样本的属性信息输入至初始特征生成网络,该初始特征生成网络用于根据蛋白质属性信息确定蛋白质中氨基酸之间的关联关系,该初始特征生成网络可以是依次连接的位置编码模块以及transformer编码模块,位置编码模块通过使用正余弦位置编码的方式将氨基酸位置进行编码,并将编码结构和蛋白质的属性合并,得到目标位置特征,该transformer编码模块由于其中包括的多头注意力层,能够发掘特征在不同向量空间中的位置关系,从而得到表征氨基酸之间关联关系的全局特征;
[0087]
s503,初始卷积网络中包括卷积层,卷积层中包括卷积核,在全局特征输入到初始卷积网络的卷积层中后,通过卷积核对全局特征进行卷积处理,得到局部特征;
[0088]
s504,初始全连接网络中包括全连接层,全连接层把卷积处理得到全部局部特征连接起来,并通过激励函数对局部特征进行结果分类,得到最终的结构,即氨基酸残基是否能够与核酸结合;
[0089]
s505,使用损失函数计算全连接网络输出的检测结果和样本标识信息之间的损失值,并根据该损失值对transformer编码模块中的参数q,k,v(分别是query,key,value的矩阵),初始卷积层中的卷积核参数以及初始全连接层中的权重参数进行调节,制止最终的损失函数趋近于一个固定值时,确定模型收敛,停止训练过程,将得到的检测模型作为目标检测模型。
[0090]
作为一种可选的实施例,所述使用标注了核酸结合位点的蛋白质样本对所述初始检测模型进行训练,得到目标检测模型,包括:
[0091]
将所述蛋白质样本输入所述初始检测模型,得到所述初始检测模型输出的检测结果;
[0092]
根据所述检测结果和所述蛋白质样本所标注的核酸结合位点对所述初始检测模型中初始层的模型参数进行调整,直至所述初始检测模型收敛,得到所述目标检测模型,其中,所述初始层包括:所述初始特征生成网络所包括的初始位置编码层和初始多头注意力编码层,以及,所述初始卷积网络所包括的初始卷积核和初始门控线性单元。
[0093]
可选地,在本实施例中,根据检测结果和样本上标注的核酸结合位点对初始模型中模型参数进行调整的方式可以但不限于是使用目标损失函数计算检测结果和样本上标注的核酸结合位点之间的损失值,确定与损失值对应的调节幅度,按照该调节幅度对初始层的模型参数进行调整,其中,目标损失函数可以但不限于是ghm损失函数、sigmoid_cross_entropy损失函数等等。
[0094]
图6是根据本技术实施例的一种可选的目标检测模型示意图,如图6所示,该目标检测模型至少包括:positional encoding(位置编码模块,相当于上文中的目标位置编码
层),transformer encoding block(transformer模型编码模块,相当于上文中的多头注意力编码层),feature merging(特征融合模块),feature extracting block(特征提取模块,相当于上文中的目标卷积网络),decoder block(解码模块,相当于上文中的目标全连接网络);对于位置编码模块,由于transformer模型编码模块因为基于注意力机制本身不包含位置信息,但蛋白质序列中残基的顺序显然很重要。为了更好的保留输入的信息,使用位置编码(公式1和公式2)用残基的位置信息对氨基酸序列中的每个残基进行二次表示,得到参考位置特征,并将参考位置特征和目标蛋白质属性相加,得到目标位置特征;transformer模型编码模块:是整个编码模块的一个部分,主要提取长程特征;特征融合模块:使用2d卷积层将transformer模块得到的输出的维度变为特征提取模块可以处理的维度;特征提取模块蛋白质序列中相近的残基一般具有相似的性质,因此抽取局部特征也很重要,通过使用目标卷积网络抽取局部特征,从而使得输出结果既包含transformer模块抽取的全局特征,又包含卷积模块抽取的局部特征;解码模块:这一模块需要输出和蛋白质序列长度一样的结果,每一位表示该位置上的残基能否和dna相互作用结合,因此这一模块使用全连接层,输出维度为(l,1)。
[0095]
作为一种可选的实施例,所述获取目标蛋白质的目标属性信息,包括:
[0096]
分别获取所述目标蛋白质的位置特异性打分矩阵,以及,所述目标蛋白质中每个氨基酸的理化特征和二级结构信息,其中,所述二级结构信息用于指示所述目标蛋白质中每个氨基酸位点上的氨基酸形成蛋白质二级结构的概率值;
[0097]
分别将每个氨基酸的所述理化特征和所述二级结构信息添加至所述位置特异性打分矩阵中与所对应的氨基酸位点对应的位置上,得到目标矩阵作为所述目标属性信息。
[0098]
可选地,在本实施例中,位置特异性打分矩阵pssm(position-specific scoring matrix)是一个l行20列的矩阵,其中,元素p
i,j
的数值表示序列第j个位置上的氨基酸在进化过程中突变成第i个氨基酸的可能性,若值为正就表示,可能性越大,反之,值为负则表示可能性越小。pssm可以使用多序列比对工具psi-blast对uniprot数据库进行搜索得到,之后再使用公式3进行归一化,将pssm矩阵中的数值大小变换到(0,1)区间。
[0099][0100]
其中,x是原始pssm分数,y是归一化处理后的分数。如果蛋白质序列的长度为l,则pssm特征的维度为(l,20)。
[0101]
可选地,在本实施例中,氨基酸的理化特征可以但不限于包括:疏水性、侧链的体积、极性、极化性、溶剂可及表面积,表2是20中氨基酸理化特征表,如表2所示:
[0102]
表2
[0103][0104][0105]
在表2中,h为(hydrophobicity,疏水性);vsc为(volume of side chains,侧链的体积);p1为(polarity,极性);p2为(polarizability,极化性);sasa为(solvent accessible surface area,溶剂可及表面积),如表2所示,都按照公式3进行归一化。如果蛋白质序列的长度为l,理化特征的维度为(l,5)。
[0106]
可选地,在本实施例中,蛋白质的二级结构可以但不限于包括卷曲螺旋、α-螺旋和β-折叠,本实施例中,氨基酸的二级结构信息可以是使用psipred进行预测。psipred是一种简单而准确的蛋白质二级结构预测工具,它结合两个前馈神经网络,对psi-blast结果进行分析处理,最终每一个氨基酸残基得到一个对应的三维结果,数值在[0,1]范围内,表示每
一个氨基酸所形成的二级结构的概率。如果蛋白质序列的长度为l,二级结构特征的维度为(l,3)。
[0107]
可选地,在本实施例中,目标矩阵中包括pssm、二级结构和理化特征,其为(l,28)的输入特征。
[0108]
通过以上步骤,通过获取pssm、二级结构和理化特征,并将这些信息作为模型的输入信息,从而使得模型输出的全局特征中包含的蛋白质的信息更加全面,进一步,使得确定出的目标蛋白质的核酸结合位点更加准确。
[0109]
图7是根据本技术实施例的一种可选的核酸结合位点的检测流程图,如图7所示,至少包括如下步骤:
[0110]
s701,获取待检测核酸结合位点的目标蛋白质,进而能够确定出该目标蛋白质中的氨基酸序列;
[0111]
s702,使用多序列比对工具psi-blast确定该氨基酸序列的pssm(位置特异性打分矩阵),该矩阵维数为(l,20)的矩阵(l为氨基酸序列长度),该矩阵中包括多个数字元素,元素p
i,j
的数值表示序列第j个位置上的氨基酸在进化过程中突变成第i个氨基酸的可能性,若值为正就表示,可能性越大,反之,值为负则表示可能性越小;
[0112]
s703,获取氨基酸序列中每个氨基酸的理化特征,包括:疏水性、侧链的体积、极性、极化性、溶剂可及表面积,并合并成一个维数为(l,5)的理化特征矩阵,每个一个氨基酸序列上的氨基酸对应5个理化特征值;
[0113]
s704,使用psipred预测每个氨基酸的二级结构信息,该二级结构信息用于指示该氨基酸形成蛋白质的二级结构(包括:卷曲螺旋、α-螺旋和β-折叠)的概率值,并合并成一个维数为(l,3)的二级结构信息矩阵;
[0114]
s705,将位置特异性打分矩阵、理化特征矩阵以及二级结构信息矩阵进行合并,得到一个维数为(l,28)的目标属性信息的矩阵;
[0115]
s706,使用上文中的公式3对目标属性信息矩阵中的数值进行归一化处理从而将矩阵中的数值的取值变换到(0,1)内,并使用上文中的公式1和公式2对氨基酸序列进行编码,得到一个用于表示氨基酸序列中氨基酸位置的位置向量,并将该位置向量与归一化后的目标属性信息矩阵进行合并,得到一个维数为(l,29)的特征矩阵;
[0116]
s707,将维数为(l,29)的特征矩阵输入至目标特征生成网络,从而在目标特征生成网络中输出用于标识氨基酸序列之间的关联关系的目标全局特征,该目标生成网络可以是transformer编码模块,该transformer编码模块包括依次设置的多个多头注意力编码层,每个多头注意力编码层用于输出不同向量空间中的特征向量,一个多头注意例子层中包括multi-head attention层和add&norm层,multi-head attention层是由多个self-attention组合形成的,add&norm层由add和norm两部分组成,add指将multi-head attention的结果结合,是一种残差连接,通常用于解决多层网络训练的问题,可以让网络只关注当前差异的部分,norm指layer normalization(层归一),layer normalization会将每一层神经元的输入都转成均值方差都一样的,这样可以加快收敛。前馈子层包括feed forward层和add&norm层,feed forward层比较简单,是一个两层的全连接层,第一层的激活函数为relu,第二层不使用激活函数,其中,维数为(l,29)的特征在输入到multi-head attention层,multi-head attention层中的多个自注意力网络确定维数为(l,29)的特征
在不同向量空间中的特征情况,即不同氨基酸之间的关联关系,multi-head attention层输出的结果经过add&norm层的归一合并,从而使得得到的特征向量中融合了各个向量空间的结果,进而在经过前馈子层的前馈处理,得到目标蛋白质的全局特征;
[0117]
s708,目标特征生成网络输出的全局特征是一个向量矩阵的形式,进而该全局特征通过目标卷积网络进行局部特征提取,该卷积网络中包括一个3
×
3的目标卷积核以及门控线性单元,通过该目标卷积核对全局特征的向量矩阵进行遍历提取,得到全局特征中的全部参考局部特征,该参考局部特征是一个向量值,并使用目标门控线性单元对参考局部特征进行筛选,从而得到目标局部特征,该目标局部特征是用于表征氨基酸残基之间关联关系的特征;
[0118]
s709,最后,将目标局部特征输入至目标全连接网络,目标全连接网络中包括一个全连接层,用于将全部目标局部特征连接起来,并通过激励函数确定出每个氨基酸残基为目标氨基酸结合位点的概率值,最终,目标全连接网络输出一个维数为(l,1)的矩阵,比如,该矩阵可以是(1 0 1 0 1 1 1),其中,这七个字符分别对应氨基酸序列中的7个残基能否与核酸结合,字符“0”表示该氨基酸残基不能和核酸结合,字符“1”表示该氨基酸残基能和核酸结合。
[0119]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
[0120]
在本实施例中还提供了一种核酸结合位点的检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0121]
图8是根据本技术实施例的核酸结合位点的检测装置的结构框图,如图8所示,该装置包括:获取模块82,用于获取目标蛋白质的目标属性信息,其中,所述目标属性信息用于指示所述目标蛋白质的空间结构;确定模块84,用于根据所述目标属性信息确定所述目标蛋白质中所包括的氨基酸序列的全局特征,其中,所述全局特征用于表征所述氨基酸序列中氨基酸之间的关联关系;提取模块86,用于从所述全局特征中提取目标局部特征,其中,所述目标局部特征用于表征所述氨基酸序列中所存在的氨基酸残基之间的关联关系;检测模块88,用于根据所述目标局部特征检测所述目标蛋白质中的核酸结合位点,得到目标核酸结合位点。
[0122]
通过上述步骤,由于目标蛋白质的目标属性信息用于指示目标蛋白质的空间结构,因此,根据该属性信息就能够得到目标蛋白质中包括的氨基酸序列的全局特征,在这个全局特征中,能够表征出氨基酸序列中的氨基酸之间的关联关系,进而再从全局特征中提取出表征氨基酸序列中存在的氨基酸残基之间的关联关系的目标局部特征,进而使用该目标局部特征就能够对整个氨基酸序列上的核酸结合位点进行检测,由于在检测核酸结合位点是对整个目标蛋白质的氨基酸序列进行的,并且每个目标局部特征能够表征出氨基酸序
列上氨基酸残基之间的关联关系,进而在目标蛋白质上确定出的每个核酸结合位点都考虑了氨基酸序列上其他氨基酸残基的影响,进而确定出的目标核酸结合位点更加准确,因此,可以解决相关技术中存在的蛋白质中的核酸结合位点检测效率较低的问题,达到提高蛋白质中的核酸结合位点检测效率的效果。
[0123]
可选的,所述确定模块,包括:第一输入单元,用于将所述目标属性信息输入至目标特征生成网络,其中,所述目标特征生成网络用于根据所述氨基酸序列中氨基酸之间的位置信息生成所述氨基酸序列中氨基酸之间的关联关系;第二获取单元,用于获取所述目标特征生成网络输出的所述全局特征。
[0124]
可选的,所述第一输入单元,用于:将所述目标属性信息输入至目标位置编码层,得到目标位置特征,其中,所述目标特征生成网络包括所述目标位置编码层和多头注意力编码层,所述目标位置编码层用于在输入的属性信息中添加氨基酸位点之间的位置信息得到位置特征;将所述目标位置特征输入所述多头注意力编码层,其中,所述多头注意力编码层输出所述全局特征,所述多头注意力编码层用于通过多头注意力编码生成氨基酸之间的关联关系。
[0125]
可选的,所述第一输入单元,用于:通过所述目标位置编码层对所述目标属性信息中包括的所述目标蛋白质上每个氨基酸位点的位点信息进行正余弦位置编码,得到每个所述氨基酸位点的参考位置特征;通过所述目标位置编码层将全部所述氨基酸位点的参考位置特征以及所述目标属性信息相加,得到所述目标位置特征。
[0126]
可选的,所述提取模块,包括:第二输入单元,用于将所述全局特征输入至目标卷积网络,其中,所述目标卷积网络用于从所述全局特征中筛选出所述目标局部特征;第二获取单元,用于获取所述目标卷积网络输出的所述目标局部特征。
[0127]
可选的,所述第二输入单元,用于:通过所述目标卷积网络使用目标卷积核对所述全局特征进行卷积运算,得到参考局部特征;通过所述目标卷积网络使用门控线性单元glu对所述参考局部特征进行筛选,得到所述目标局部特征。
[0128]
可选的,所述装置还包括:构建模块,用于在根据所述目标属性信息确定所述目标蛋白质中所包括的氨基酸序列的全局特征之前,构建初始检测模型,其中,所述初始检测模型包括依次连接的初始特征生成网络,初始卷积网络和初始全连接网络;训练模块,用于使用标注了核酸结合位点的蛋白质样本对所述初始检测模型进行训练,得到目标检测模型,其中,所述目标检测模型包括依次连接的目标特征生成网络,目标卷积网络和目标全连接网络,所述目标特征生成网络用于根据所述目标属性信息确定所述全局特征,所述目标卷积网络用于从所述全局特征中提取所述目标局部特征,所述目标全连接网络用于根据所述目标局部特征检测所述目标蛋白质中的核酸结合位点得到目标核酸结合位点。
[0129]
可选的,所述训练模块,包括:第三输入单元,用于将所述蛋白质样本输入所述初始检测模型,得到所述初始检测模型输出的检测结果;调整单元,用于根据所述检测结果和所述蛋白质样本所标注的核酸结合位点对所述初始检测模型中初始层的模型参数进行调整,直至所述初始检测模型收敛,得到所述目标检测模型,其中,所述初始层包括:所述初始特征生成网络所包括的初始位置编码层和初始多头注意力编码层,以及,所述初始卷积网络所包括的初始卷积核和初始门控线性单元。
[0130]
可选的,所述获取模块,包括:第三获取单元,用于分别获取所述目标蛋白质的位
置特异性打分矩阵,以及,所述目标蛋白质中每个氨基酸的理化特征和二级结构信息,其中,所述二级结构信息用于指示所述目标蛋白质中每个氨基酸位点上的氨基酸形成蛋白质二级结构的概率值;添加单元,用于分别将每个氨基酸的所述理化特征和所述二级结构信息添加至所述位置特异性打分矩阵中与所对应的氨基酸位点对应的位置上,得到目标矩阵作为所述目标属性信息。
[0131]
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
[0132]
本技术的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0133]
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
[0134]
本技术的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0135]
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0136]
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
[0137]
显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
[0138]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1