基于剪枝预训练模型与人工特征编码融合的4mC位点识别算法

文档序号:36386557发布日期:2023-12-15 01:07阅读:47来源:国知局
基于剪枝预训练模型与人工特征编码融合的

本发明属于深度学习与生物信息结合领域,更具体地,涉及一种基于剪枝预训练模型与人工特征编码融合的4mc位点识别算法。


背景技术:

1、近些年来,在生物医药领域,表观遗传学是一个非常受关注的学科。表观遗传学是指表观遗传变化(dna甲基化、组蛋白修改以及mirnas等非编码rnas)来调节某些表观基因组基因序列的正常表达,这种被调控并且完全不需要依赖的基因组顺序上的结构变化过程也就可以遗传。而其中dna甲基化是目前应用最广泛的dna修饰技术。其中n6-甲基腺嘌呤(6ma)、n4-甲基胞嘧啶(4mc)等基因修饰是当前比较常见的一种现象。其中对于4mc位点而言,其修饰位点能有效地纠正dna的复制,调控dna的复制,调控细胞的循环。而到目前为止,广大研究者们对4mc位点修饰的识别和对其作用的理解仍然存在值得研究的地方,特别是在现有的数据有限的情况下。因此,现急需要能够有效识别或预测4mc位点的算法。

2、传统的通过生物反应去检测主要是利用质谱、luma(luminometric methylationassay),single-molecule real-time(smrt)等测序方法,之后yu等人提出了4mc tet辅助亚硫酸氢盐测序(4mc tab seq)进一步扩充了测序方法,但面对规模庞大的4mc位点数据库,也难以准确找到其4mc全基因组中的位置。随着高通数据的累计,ye等人首次建立了一个名为methsmrt的数据库,该数据库smrt测序数据从geo和sra中得到,目前的版本囊括了156种物种,包括7种真核生物和149种原核生物。所有的数据统一使用pacbio smrt数据分析平台处理。

3、随着人工智能的兴起,使得在dna-4mc位点预测识别领域中,使用机器学习的方法去替代人工的研究得到展开,例如陈等人从methsmrt数据库中通过划窗法的形式构建了高质量数据集,利用训练svm方法提出一种预测4mc修饰位点的预测算法idna4mc;由于深度学习可以自动地学习特征表征,减少了对特征工程的需求,从而一些基于深度学习技术识别4mc位点的预测方法也逐渐被提出;徐等人总结先前在4mc识别领域的传统机器学习算法,重新收集整理数据集并构建一个具有四个代表性特征的卷积神经网络的deep4mc预测算法;刘等人在具有多尺度感受野的卷积操作基础上,解决了如何在dna序列中一定范围内不同元素中间的关系表示的问题,提出了msnet-4mc的神经网络模型;雷等人提出了一种dcnn-4mc识别算法,利用卷积神经网络(cnn)的技术同时引进具有跳跃连接性质的模块层,能学习到不同物种的基因组学特征,更全面地表征了dna序列。

4、然而在训练的过程中,存在着对dna序列特征表征能力不足以及在小数据集上也存在着过拟合,计算耗费资源的问题,影响方法的预测准确性。


技术实现思路

1、本发明提供了基于剪枝预训练模型与人工特征编码融合的4mc位点识别算法,更准确地预测4mc位点识别。

2、为解决上述的技术问题,本发明的技术方案如下:

3、基于剪枝预训练模型与人工特征编码融合的4mc位点识别算法,其需要包括以下步骤:

4、s1:获取dna-4mc的核苷酸序列集l,通过kmer编码将序列集l转化为数值向量集m;

5、s2:将预训练模型dnabert进行剪枝压缩操作得到的模型dnabert-pruning作为基准模型,训练得到序列集l的深层特征信息;

6、s3:根据cksnap编码特征方式扩充各核苷酸在序列集l中的特征表示空间,通过双向lstm网络训练得到序列集l的浅层特征信息;

7、s4:将上述训练得到的浅层信息与深层信息特征同时输入到特征融合注意力模块中,得到更为准确的融合特征表征;

8、s5:对融合后的表征特征使用前馈神经网络和sigmoid函数输出识别预测,计算其分类评分;

9、优选地,其步骤s1中所提及的dna-4mc的核苷酸序列集l,其具体的生成方式为:

10、从methsmrt数据库中收集了6个相关物种基因组中4mc位点作为dna-4mc位点识别数据集,其中这六个不同物种分别是大肠杆菌(e.coli)、地杆菌(g.pickeringii)、地碱杆菌(g.subterraneus)、秀丽隐杆线虫(c.elegans)、拟南芥(a.thaliana)和黑腹果蝇(d.melanogaster);序列长度取41bp,根据甲基组分析技术注释,所有4mc位点的修饰置信度必须为30或更高,同时排除了那些序列相似度超过70%的4mc位点,使用cdhit软件计算相似度得分。在这些质量检查步骤之后,获得了一个非冗余的、经实验鉴定的核苷酸序列集l;对于序列中的除a,t,c,g的未知碱基采取删除这个序列的方式得到实验所需的数据集,同时还保证独立测试集中的样本序列并不会出现在训练数据集中;

11、优选地,其步骤s1中提及的kmer编码,可以将核苷酸片段映射成数字向量,具体为:

12、kmer(k核苷酸频率编码)是指将所研究的核苷酸序列分成包含k个碱基的字符串,一般长短为m的核苷酸序列可以分成(m-k+1)个kmers,例如,如果k=2,则计算的为双核苷酸频率(即aa、at、ag、ac、……tt),具体定义为:

13、

14、其中n(t)是kmer编码后t的次数,n是核苷酸序列的长度;通过kmer编码将原始的dna核苷酸序列集l转化成计算其核苷酸频率数值变量的形式来组成数字向量集m;

15、优选地,其步骤s2中提及的预训练模型dnabert,可具体为:

16、预训练模型dnabert将数字向量集m映射成序列特征数字向量的形式,从而将每个序列表示成特征矩阵;通过预测是否相邻下一句的训练任务、调整序列长度来使模型能够在dna序列场景中更好地进行连续k(kmer编码中的k值)个标记核苷酸片段的预测,对于每个子序列,随机屏蔽构成序列15%的k个连续标记的区域,并让dnabert模型基于剩余顺序预测屏蔽序列,确保足够的训练示例;

17、优选地,其步骤s2中提及的剪枝预训练模型dnabert-pruning获取深层特征,具体为:

18、采用剪枝压缩的技术去对原始dnabert预训练模型进行操作,修剪部分不必要的神经元或者整个神经元层来减少复杂性,同时也能够避免性能衰减,减少其训练成本,利用它对定长的dna序列进行预训练,提取基因组序列中的深层机器特征信息。

19、优选地,其步骤s3中的cksnap编码特征,具体为:

20、cksnap(composition of k-spaced nucleic acid pairs)编码包含由任意k个核苷酸(k=0,1…5)隔开的核苷酸对的出现情况。k间隔核苷酸对的组成特征包括16个核苷酸对(aa,ag,…,tg,tt)。以k=1为例,k间隔核苷酸对的组成可以如下指定:

21、

22、其中,*表示(a、g、c和t),ny*z表示序列中y*z核苷酸对的数量,ntotal表示序列中单间隔核苷酸对的总数;对于k=0、1、2,ntotal的值分别为p-1,p-2,p-3,p表示核苷酸序列的长度;

23、优选地,其步骤s3中人工编码特征模块的构建,具体为:

24、利用k间隔核苷酸组成编码(cksnap)对序列中间隔k个核苷酸kmer核苷酸对重新排列,使用embedding层将其从原先所属的空间映射到新的多维空间中去进一步的特征表示,同时利用双向lstm网络解决序列在训练过程中的梯度消失和梯度爆炸问题,得到所构建的人工编码特征模块去提取基因组序列中的浅层机器特征信息;

25、其中lstm网络引入了细胞状态来维护前后时刻的信息传递,通过三个“门”结构来去除或增加信息进行维护的;“门”是一种让信息选择式通过的方法,三个“门”结构分别为遗忘门,输入门和输出门;

26、遗忘门是通过上一时刻的隐状态ht-1与当前时刻的输入χt来决定需要保留多少上一时刻的细胞状态信息,具体定义为:

27、ft=σ(wf·[ht-1,xt]+bf)

28、其中,ft来表示上一时刻学到的信息保留程度,wf表示网络模型权重,bf为偏置项,ht-1为上一时刻的隐状态,χt为当前时刻的输入,σ(·)为激活函数,将隐状态与输入向量的变换结果映射到(0,1)范围之内;

29、输入门具体定义为:

30、it=σ(wi·[ht-1,χt]+bi)

31、

32、其中,wi,wc表示网络模型权重,bi,bc为偏置项,ht-1为上一时刻的隐状态,χt为当前时刻的输入,it为更新的信息权重,tanh为双曲正切激活函数,用来进行非线性变换创建一个新的候选向量

33、最终通过结合遗忘门与输入门选取信息进行细胞状态的更新,具体定义如下:

34、

35、此时ct即为下一时刻的细胞状态;最终利用上一时刻的隐状态ht-1与当前时刻的输入χt来计算出需要更新的信息权重ot来决定需要保留多少细胞状态,同时基于当前时刻的细胞状态ct决定输出值,即隐状态ht。具体定义如下:

36、ot=σ(wo[ht-1,χt]+bo)

37、ht=ot·tanh(ct)

38、其中ot为更新的信息权重,bo为偏置项,σ(·)为激活函数,wo表示网络模型权重;

39、lstm网络通过三个“门”结构之间的累加来维护细胞状态的更新,最终控制隐状态的输出来解决梯度消失导致的长期依赖问题;

40、优选地,步骤s4中的采用了注意力融合的方法,具体定义为:

41、所述步骤s2和s3中的所训练完的特征准确地融合两者之间的语义和尺度;其中注意力融合策略使用具有不同尺度的两个分支提取通道注意力权重的模块,一个分支使用globalavgpooling来提取全局特征的注意力,另一个分支直接使用逐点卷积来提取局部特征的注意力;注意力融合策略用公式表示为:

42、z=m(x+y)*x+(1-m(x+y))*y

43、公式中x,y分别是预训练模块的特征和人工编码模块所训练出的特征,m(x)表示通过不同尺度的分支后产生的注意力权重,“+”表示初始特征集成,“*”表示按元素乘法使得网络能够在x和y之间进行软选择或加权平均,融合权重m(x+y)由0和1之间的实数组成,最终得到融合特征z;

44、优选地,步骤s5中对融合后的表征特征使用前馈神经网络和sigmoid函数输出识别预测;其中前馈神经网络具体定义为:

45、z(l)=w(1)a(l-1)+b(l)

46、a(l)=f1(z(l))

47、其中l表示神经网络的层数,w(l)为第l-1层到第l层的权重矩阵,a(l)表示第l层神经元的输出,b(l)表示第l层到第l-1层的偏置,f1()表示第l层神经元的激活函数。

48、其中sigmoid函数具体定义为:

49、

50、前馈神经网络将输入数据映射到相应的类别,再通过sigmoid函数将其映射到0和1之间的概率值,输出值大于或等于0.5可以被解释为正类,小于0.5可以被解释为负类,实现最终的分类效果;

51、优选地,步骤s5中计算分类评分,为了对结果进行优化,采用了交叉迭代熵作为损失函数,计算预测结果与真实值的loss。通过adam作为梯度优化器,优化全局的网络参数。

52、与现有技术相比,本发明技术方案的有益效果是:

53、本发明通过将预训练模型dnabert进行剪枝预训练,以准确地获取其序列中的深层机器特征表征。同时为弥补此在浅层特征表征不足的问题,利用cksnap编码方式构建人工编码模块学习序列中的浅层实际信息并通过注意力融合模块去辅助剪枝后的预训练模型,得到更为强大的特征表征能力,能更为准确地去识别4mc位点。在六个基准独立的测试数据集上获得了优异的性能,在各个物种上都优于目前一些先进的模型,从而突出了其提取用于识别4mc位点的重要和相关特征的有效性,实现了更加准确的4mc位点预测识别。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1