本发明属于计算机算法领域,涉及了一种基于transformer的纳米孔序列识别网络结构。
背景技术:
1、纳米孔检测技术是最近兴起的大分子传感和识别技术,可以实现dna(或rna)和其他分子的测序、甲基化的检测,甚至数据的存储。因为其读取时间长,单碱基分辨率高,它被公认为最先进的第三代检测平台。纳米孔检测技术在整个人类基因组的测序中起着至关重要的作用。然而不幸的是,纳米孔检测技术产生的序列不可避免地都存在着信号的失真,因此仅通过人工处理就更难分析序列数据。幸运的是,随着计算能力和机器学习(如卷积神经网络、支持向量机或随机森林)的进步,分析读长长的纳米孔序列已经成为可能。用于纳米孔领域的机器学习算法可分为传统方法和深度学习方法。
2、这些机器学习算法在分析纳米孔检测应用于各种生物任务方面取得了前所未有的突破。与传统的机器学习方法相比,深度学习方法在性能上取得了巨大成功。然而,当深度学习处理序列数据时,输入到模型中的序列数据长度必须严格匹配。当纳米孔检测单个分子时,每个分子的检测持续时间不同,也就是说,此时生成的纳米孔数据存在长度不等的问题。对于牛津纳米孔设备生成的八类编码分类任务,由于序列之间的长度差较小,因此可以通过插值技术将其转换为等长序列。然而,对于rna类别识别数据集,不同序列之间的长度差异可以达到100000,这很难通过插值技术进行处理。为了将深度学习技术应用于此类纳米孔数据,需要仔细设计保留重要序列特征的序列转换模块。因此,在此基础上设计一种基于transformer的纳米孔序列识别算法。在牛津纳米孔编码数据集上进行了实验。
技术实现思路
1、发明目的:本发明的目的在于提供了一种基于transformer的纳米孔序列识别网络结构,具备预测速度快精度高等优点。解决了现在纳米孔序列使用深度学习无法解决的序列长度不等的问题,使得纳米孔序列无法使用深度学习技术,往往得不到快速的发展,影响纳米孔序列的识别精度。
2、技术方案:本发明所述的一种基于transformer的纳米孔序列识别网络结构,,所述的纳米孔序列识别网络结构是针对于纳米孔序列不等长度所提出的高精度识别,
3、所述纳米孔序列识别网络结构包括相互连接的序列转图像模块(1)及序列转图像网络(2);
4、所述的序列转图像网络(2)包括相互连接的transformer结构(3)及分类层(4);
5、所述transformer结构(3)包括编码器(5)、解码器(6)及多头注意力机制模块(7)。
6、进一步的,所述序列转图像模块(1)的输入端接入输入序列发送的一维纳米孔序列,后将一维纳米孔序列转换为二维图像再传入至序列转图像网络(2)中。
7、进一步的,所述序列转图像网络(2)的输入端将输入序列通过序列转图像模块(1)后转化的输出图像进行深度学习,从而确定其输出的类别。
8、进一步的,所述transformer结构(3)是序列转图像网络(2)中的一部分,其将序列转图像模块(1)输入的图像进行注意力特征识别;
9、所述分类层(4)是序列转图像网络(2)中的另一部分,其将识别的注意力特征进行分类。
10、进一步的,所述编码器(5)是transformer结构(3)中的第一部分,将输入图像进行特征转码。
11、进一步的,所述解码器(6)是transformer结构(3)中的第二部分,其将编码器(5)转码的特征进行解码。
12、进一步的,所述多头注意力机制模块(7)是transformer结构(3)中的第三部分,其将特征中的关键部分进行注意力关注,实现高精度的分类。
13、有益效果:本发明与现有技术相比,本发明的特点是:1)、能够利用现有的纳米孔数据训练一个专用于纳米孔序列高精度识别的深度网络模型;通过使用序列转图像模块,序列转图像网络,transformer模块,编码器和解码器五个模块组成的网络模型实现了对纳米孔序列的特征提取到最终分类;最终期望测试集的预测精度能够达到97%以上,并且实现了现有的纳米孔序列不等长仍然可以使用深度学习模型训练的目标;2)、对于现有的数据集能实现精准预测,同时对于其他设备采集的纳米孔序列同样适用。
1.一种基于transformer的纳米孔序列识别网络结构,其特征在于:所述的纳米孔序列识别网络结构是针对于纳米孔序列不等长度所提出的高精度识别,
2.根据权利要求1所述的一种基于transformer的纳米孔序列识别网络结构,其特征在于,
3.根据权利要求1所述的一种基于transformer的纳米孔序列识别网络结构,其特征在于,
4.根据权利要求1所述的一种基于transformer的纳米孔序列识别网络结构,其特征在于,
5.根据权利要求1所述的一种基于transformer的纳米孔序列识别网络结构,其特征在于,
6.根据权利要求1所述的一种基于transformer的纳米孔序列识别网络结构,其特征在于,
7.根据权利要求1所述的一种基于transformer的纳米孔序列识别网络结构,其特征在于,