一种基于双向门控循环神经网络的沉默子预测算法

文档序号:31053161发布日期:2022-08-06 08:50阅读:来源:国知局

技术特征:
1.一种基于双向门控循环神经网络的沉默子预测算法,其特征在于,包括以下步骤:s1,收集数据集;s2,基于步骤1中收集的所述数据集进行双向门控循环神经网络模型的构建;s3,对步骤2中构建的模型进行训练并验证;s4,根据步骤3中训练好的所述模型进行沉默子概率的预测。2.根据权利要求1所述的算法,其特征在于,所述步骤1中收集数据集的步骤包括:sa1,从已知数据库中下载沉默子序列并收集已有的机器学习模型的数据集;sa2,对步骤a1中下载的沉默子序列中的正样本使用组间打乱的方法并去重得到对应的负样本。3.根据权利要求2所述的算法,其特征在于,步骤a2中所述负样本的构建使用的所述组间打乱的方法的步骤包括:sa21,将正样本分割为多个片段,切割步长为1,且每个片段的长度为k,若正样本的序列长度不能被k整除,最后一个片段的长度为该正样本的序列长度除以k的余数;sa22,对步骤a21中每一条正样本产生的片段进行排列组合,得到一个新的序列。4.根据权利要求1所述的算法,其特征在于,步骤2中构建所述双向门控循环神经网络模型的步骤包括:sb1,对步骤1中收集到的数据集中的数据进行预处理;sb2,将含有特征提取功能的卷积神经网络cnn以及双向门控循环单元bigru作为特征提取器,实现对目标数据集的特征提取;具体来说,先使用cnn对数据进行卷积操作,其中卷积层采用并联的方式,卷积核的大小依次增大,再将卷积后的数据输入到双向门控循环单元bigru并得到输出,最终得到序列的特征信息;sb3,采用多头自注意力机制进行信息捕捉,其中多头表示多个不同的表征子空间,根据head
i
=attention(qw
iq
,kw
ik
,vw
iv
),其中w是三个不同的权值训练矩阵,q、k、v是初始化向量,最后再把所有的信息捕捉结果拼接起来,通过一个全连接层得到最终的全局信息;sb4,将步骤b3中得到的全局信息进行目标分类,具体是将上层的输出输入到全连接层,选择交叉熵损失函数进行二分类任务。5.根据权利要求4所述的算法,其特征在于,所述步骤b1中对数据进行预处理的目的是将核苷酸序列数据转换为可输入到特征提取器中的数字化数据,所述预处理的步骤包括:sb11,词典编码——将所述数据集中的每一个序列包含的16种核苷酸分别转化为1、2、3、
……
、16;sb12,序列补齐——由于cnn输入需为长度固定的序列,所以将所述数据集中的序列长度采用补零法将每天序列用数字0补齐到数据集中最长序列的长度;sb13,词嵌入——由于数字表示并不能反映序列中每个元素之间的位置关系,词嵌入将词语转换为向量的形式,能够正确的表示序列中每个元素之间的联系。6.根据权利要求1所述的算法,其特征在于,所述步骤3中对所述模型的训练并验证的方法包括:将数据集按照五折交叉验证的方式划分训练集和验证集,训练集用于对双向门控循环神经网络模型进行构建与训练,验证集用于进行模型的参数调整,最终获取最优的模型。7.根据权利要求1所述的算法,其特征在于,所述步骤4中的预测方法包括:当外部数据
要进行预测时,直接将序列数据输入到训练完成的双向门控循环神经网络模型中进行预测,获得其为免疫细胞沉默子的概率。8.一种计算机可读存储介质,其特征在于:介质上存有计算机程序,计算机程序运行后,执行如权利要求1至7中任一项所述的基于双向门控循环神经网络的沉默子预测算法。9.一种计算机系统,其特征在于:包括处理器、存储介质,存储介质上存有计算机程序,处理器从存储介质上读取并运行计算机程序以执行如权利要求1至7中任一项所述的基于双向门控循环神经网络的沉默子预测算法。

技术总结
本发明公开了一种基于双向门控循环神经网络的沉默子预测算法,其中算法包括以下步骤:S1,收集数据集;S2,基于步骤1中收集的所述数据集进行双向门控循环神经网络模型的构建;S3,对步骤2中构建的模型进行训练并验证;S4,根据步骤3中训练好的所述模型进行沉默子概率的预测。本发明对训练集数据采用多次训练,构建出最优的模型对沉默子预测与分类,为后续沉默子的预测发展做出了贡献。默子的预测发展做出了贡献。默子的预测发展做出了贡献。


技术研发人员:郑春厚 江林杰 魏丕静 苏延森 夏俊峰
受保护的技术使用者:安徽大学
技术研发日:2022.03.30
技术公布日:2022/8/5
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1