本发明涉及生物信息学,尤其是指一种全基因组核小体密度预测方法、系统及电子设备。
背景技术:
1、核小体密度预测是指使用计算方法对每个碱基位点的核小体信号强度进行预测,从而得出基因组上连续的核小体密度。核小体作为染色质的基本单位,是遗传过程中的关键参与者,它的精确位置可以调节基因组对dna结合蛋白的可及性,从而实现对基因表达、dna复制和修复的调节。因此识别基因组上的核小体位置可以帮助人们深入研究各种生物过程。
2、在过去的研究中,已经提出了许多基于dna序列的计算方法来判断dna序列中的核小体位置,例如:
3、(1)inuc-pseknc:核小体定位方法。输入长度为147bp的dna序列,提取包含6个局部dna结构特性的伪k元组核苷酸组成的特征向量,然后将这些特征输入到svm分类器中预测序列是否为核小体序列。
4、(2)dlnn:核小体定位方法。输入长度为147bp的dna序列,编码成ont-hot形式,使用卷积网络和循环网络对序列进行建模分析,预测序列是否为核小体序列。
5、(3)routhier等人:核小体密度预测方法。以滑动窗口的形式获取整条染色体上的dna序列,使用三个顺序堆叠的卷积层,预测输入序列中心位点的核小体密度。
6、现有技术中,核小体定位方法只能捕获147bp内的上下文信息,无法学习到碱基间的长程相互作用关系,并且不能快速地对整条染色体序列进行预测分析。
7、而routhier等人提出了基于深度学习的核小体密度预测方法识别精度较低,预测性能仍有改进空间。
技术实现思路
1、为此,本发明所要解决的技术问题在于克服现有技术中核小体密度预测方法识别精度较低的问题。
2、为解决上述技术问题,本发明提供了一种全基因组核小体密度预测方法,包括:
3、步骤s1:获取全基因组染色体的dna序列并分别进行第一编码和第二编码,得到第一编码序列和第二编码序列;
4、同时构建并训练deepndp模型,得到训练好的deepndp模型;
5、步骤s2:将所述第一编码序列和第二编码序列输入训练好的deepndp模型进行预测,得到全基因组核小体密度结果;
6、其中,所述deepndp模型包括依次连接的特征提取网络、concatenate层、transformer层、flatten层和两个全连接层;
7、所述特征提取网络用于提取第一编码序列的第一局部特征、以及提取第二编码序列的第二局部特征;所述concatenate层用于将所述第一局部特征和第二局部特征进行拼接,得到拼接特征;所述transformer层用于提取所述拼接特征的全局特征;所述flatten层用于改变transformer层输出的维度;所述全连接层用于预测全基因组核小体密度。
8、在本发明的一个实施例中,所述步骤s2中的特征提取网络包括特征提取模块resnet和特征提取模块cnnnet,所述特征提取模块resnet用于提取第一编码序列的第一局部特征,所述特征提取模块cnnnet用于提取第二编码序列的第二局部特征。
9、在本发明的一个实施例中,所述特征提取模块resnet包括依次连接的第一cnn层、三个resblock层、第二cnn层、第三cnn层和第一reshape层,所述第一reshape层用于改变第三cnn层输出的维度。
10、在本发明的一个实施例中,所述resblock层包括第一列cnn单元和第二列cnn单元;
11、所述第一列cnn单元包括依次连接的第四cnn层、第五cnn层和第六cnn层,其中,所述第四cnn层、第五cnn层和第六cnn层采用的卷积核大小依次为5、16和16;
12、所述第二列cnn单元包括依次连接的第七cnn层、第八cnn层和第九cnn层,其中,所述第七cnn层、第八cnn层和第九cnn层采用的卷积核大小依次为3、8和8;
13、其中,所述第六cnn层的输出、第九cnn层的输出和当前resblock层的输入进行相加操作。
14、在本发明的一个实施例中,所述特征提取模块resnet中所有的cnn层之后均连接有relu激活函数。
15、在本发明的一个实施例中,所述特征提取模块cnnnet包括依次连接的第十cnn层、第十一cnn层、第十二cnn层和第二reshape层,所述第二reshape层用于改变第十二cnn层输出的维度。
16、在本发明的一个实施例中,所述步骤s1中获取全基因组染色体的dna序列并分别进行第一编码和第二编码,得到第一编码序列和第二编码序列的方法为:
17、获取全基因组染色体的dna序列;
18、对所述全基因组染色体的dna序列进行one-hot编码,得到one-hot编码序列,并同时对所述全基因组染色体的dna序列进行核苷酸化学性质编码,得到核苷酸化学性质编码序列,其中,所述one-hot编码序列为第一编码序列,所述核苷酸化学性质编码序列为第二编码序列。
19、为解决上述技术问题,本发明提供了一种全基因组核小体密度预测系统,包括:
20、编码与构建模块:用于获取全基因组染色体的dna序列并分别进行第一编码和第二编码,得到第一编码序列和第二编码序列;
21、同时用于构建并训练deepndp模型,得到训练好的deepndp模型;
22、预测模块:用于将所述第一编码序列和第二编码序列输入训练好的deepndp模型进行预测,得到全基因组核小体密度结果;
23、其中,所述deepndp模型包括依次连接的特征提取网络、concatenate层、transformer层、flatten层和两个全连接层;
24、所述特征提取网络用于提取第一编码序列的第一局部特征、以及提取第二编码序列的第二局部特征;所述concatenate层用于将所述第一局部特征和第二局部特征进行拼接,得到拼接特征;所述transformer层用于提取所述拼接特征的全局特征;所述flatten层用于改变transformer层输出的维度;所述全连接层用于预测全基因组核小体密度。
25、为解决上述技术问题,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述全基因组核小体密度预测方法的步骤。
26、为解决上述技术问题,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述全基因组核小体密度预测方法的步骤。
27、本发明的上述技术方案相比现有技术具有以下优点:
28、本发明通过将dna序列编码成两种形式,使得构建的深度学习模型可以从中学习到更多的信息,本方法可以更加高效且准确地对全基因组的核小体分布进行识别,无需费时费力且成本高昂的生物实验;
29、本发明提出的deepndp模型可以用于不同的物种之间,具有很强的泛化能力,省去了多个物种多个模型的繁杂;
30、本发明的deepndp模型可以用于生物研究中对核小体分布的检测,进而帮助研究者深入研究基因表达、dna复制和修复等各种生物过程。