一种基于双向门控循环神经网络的沉默子预测算法

文档序号:31053161发布日期:2022-08-06 08:50阅读:235来源:国知局
一种基于双向门控循环神经网络的沉默子预测算法

1.本发明涉及生物信息计算领域,特别涉及一种基于双向门控循环神经网络的沉默子预测算法。


背景技术:

2.在生物信息学中,沉默子是一段非编码区的dna序列,与增强子对dna转录的加强作用相反,沉默子则会抑制基因的表达过程。dna上基因序列是信使rna合成的模板,信使rna最终会被翻译成蛋白质。而当沉默子存在时,阻遏蛋白与沉默子序列结合,会阻碍rna聚合酶转录dna序列,从而阻碍rna翻译为蛋白质的过程。沉默子作用在于阻碍基因的表达。比如:10号染色体上药物转运基因abcc2和abcg2相关的沉默区的缺失使转运药物的通道关闭导致了化疗耐药性。现有的沉默子机器学习预测模型gkm-svm是使用mpra分析后的数据进行训练得到的。在随着生物信息技术的发展,研究沉默子对基因的表达的影响也越来越凸显重要性。数据样本量的逐渐增加,机器学习方法的泛化能力比较低。因此为了解决这种技术问题,亟需提出一种新的技术手段。


技术实现要素:

3.为了解决现有问题,本发明提供了一种基于双向门控循环神经网络的沉默子预测算法,具体方案如下:
4.一种基于双向门控循环神经网络的沉默子预测算法,包括以下步骤:
5.s1,收集数据集;
6.s2,基于步骤1中收集的所述数据集进行双向门控循环神经网络模型的构建;
7.s3,对步骤2中构建的模型进行训练并验证;
8.s4,根据步骤3中训练好的所述模型进行沉默子概率的预测。
9.优选的,所述步骤1中收集数据集的步骤包括:
10.sa1,从已知数据库中下载沉默子序列并收集已有的机器学习模型的数据集;
11.sa2,对步骤a1中下载的沉默子序列中的正样本使用组间打乱的方法并去重得到对应的负样本。
12.优选的,步骤a2中所述负样本的构建使用的所述组间打乱的方法的步骤包括:
13.sa21,将正样本分割为多个片段,切割步长为1,且每个片段的长度为k,若正样本的序列长度不能被k整除,最后一个片段的长度为该正样本的序列长度除以k的余数;
14.sa22,对步骤a21中每一条正样本产生的片段进行排列组合,得到一个新的序列。
15.优选的,步骤2中构建所述双向门控循环神经网络模型的步骤包括:
16.sb1,对步骤1中收集到的数据集中的数据进行预处理;
17.sb2,将含有特征提取功能的卷积神经网络cnn以及双向门控循环单元bigru作为特征提取器,实现对目标数据集的特征提取;具体来说,先使用cnn对数据进行卷积操作,其中卷积层采用并联的方式,卷积核的大小依次增大,再将卷积后的数据输入到双向门控循
环单元bigru并得到输出,最终得到序列的特征信息;
18.sb3,采用多头自注意力机制进行信息捕捉,其中多头表示多个不同的表征子空间,根据headi=attention(qw
iq
,kw
ik
,vw
iv
),其中w是三个不同的权值训练矩阵,q、k、v是初始化向量,最后再把所有的信息捕捉结果拼接起来,通过一个全连接层得到最终的全局信息;
19.sb4,将步骤b3中得到的全局信息进行目标分类,具体是将上层的输出输入到全连接层,选择交叉熵损失函数进行二分类任务。
20.优选的,所述步骤b1中对数据进行预处理的目的是将核苷酸序列数据转换为可输入到特征提取器中的数字化数据,所述预处理的步骤包括:
21.sb11,词典编码——将所述数据集中的每一个序列包含的16种核苷酸分别转化为1、2、3、
……
、16;
22.sb12,序列补齐——由于cnn输入需为长度固定的序列,所以将所述数据集中的序列长度采用补零法将每天序列用数字0补齐到数据集中最长序列的长度;
23.sb13,词嵌入——由于数字表示并不能反映序列中每个元素之间的位置关系,词嵌入将词语转换为向量的形式,能够正确的表示序列中每个元素之间的联系。
24.优选的,所述步骤3中对所述模型的训练并验证的方法包括:将数据集按照五折交叉验证的方式划分训练集和验证集,训练集用于对双向门控循环神经网络模型进行构建与训练,验证集用于进行模型的参数调整,最终获取最优的模型。
25.优选的,所述步骤4中的预测方法包括:当外部数据要进行预测时,直接将序列数据输入到训练完成的双向门控循环神经网络模型中进行预测,获得其为免疫细胞沉默子的概率。
26.本发明还揭示了一种计算机可读存储介质,介质上存有计算机程序,计算机程序运行后,执行上述的基于双向门控循环神经网络的沉默子预测算法。
27.本发明还揭示了一种计算机系统,包括处理器、存储介质,存储介质上存有计算机程序,处理器从存储介质上读取并运行计算机程序以执行上述的基于双向门控循环神经网络的沉默子预测算法。
28.本发明的有益效果在于:
29.本发明对训练集数据采用多次训练,构建出最优的模型对沉默子预测与分类,为后续沉默子的预测发展做出了贡献。
附图说明
30.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
31.图1是本发明的总体框架流程示意图;
32.图2是双向门控循环神经网络模型示意图;
33.图3为本发明数据集说明表;
34.图4为本发明数据集一上深度学习与机器学习方法的对比表;
35.图5为本发明数据集二上深度学习与机器学习方法的对比表;
36.图6为本发明数据集三上深度学习与机器学习方法的对比表。
具体实施方式
37.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
38.如图1,一种基于双向门控循环神经网络的沉默子预测算法,包括以下步骤:
39.s1,收集数据集。
40.具体地,如图3,数据集包括数据集一、数据集二以及数据集三。其中,数据集一为收集2020年发表于nature communication上的candidate silencer elements for the human and mouse genomes一文中用于训练gkm-svm的k562癌细胞沉默子数据,正负样本各2000条,长度每条200bp;数据集二为从数据库sliencedb下载免疫t细胞沉默子序列,对正样本使用组间打乱方法进行构造,去重得到对应的负样本,长度150bp;数据集三为从数据库sliencedb下载人体细胞沉默子序列,仍然对正样本使用组间打乱方法进行构造,去重得到对应的负样本,长度150bp。最终得到多个正负样本比例1:1的序列数据。
41.综上,步骤1中收集数据集的步骤包括:
42.sa1,从已知数据库中下载沉默子序列并收集已有的参考文献提供的机器学习模型的数据集;
43.sa2,对步骤a1中下载的沉默子序列中的正样本使用组间打乱的方法并去重得到对应的负样本。
44.其中,步骤a2中负样本的构建使用的组间打乱的方法的步骤包括:
45.sa21,将正样本分割为多个片段,切割步长为1,且每个片段的长度为k,若正样本的序列长度不能被k整除,最后一个片段的长度为该正样本的序列长度除以k的余数;
46.sa22,对步骤a21中每一条正样本产生的片段进行排列组合,得到一个新的序列。编码方式选择重叠分割,k=2。例如:atcg....分割为(at)(tc)(cg)...。
47.s2,基于步骤1中收集的数据集进行双向门控循环神经网络模型的构建。如图2,是双向门控循环神经网络模型示意图。
48.其中构建双向门控循环神经网络模型的步骤包括:
49.sb1,数据预处理——对步骤1中收集到的数据集中的数据进行预处理;预处理的目的是将核苷酸序列数据转换为可输入到特征提取器中的数字化数据,预处理的步骤包括:
50.sb11,词典编码——将数据集中的每一个序列包含的16种核苷酸(aa、at、ac、ag、ta、tc、tg、ca、ct、cc、cg、ta、tt、tc、tg)分别转化为1、2、3、
……
、16;
51.sb12,序列补齐——由于卷积神经网络cnn输入需为长度固定的序列,所以将数据集中的序列长度采用补零法将每天序列用数字0补齐到数据集中最长序列的长度;
52.sb13,词嵌入——由于数字表示并不能反映序列中每个元素之间的位置关系,词嵌入将词语转换为向量的形式,能够正确的表示序列中每个元素之间的联系。
53.sb2,特征提取——将含有特征提取功能的卷积神经网络cnn以及双向门控循环单元bigru作为特征提取器,实现对目标数据集的特征提取;具体来说,先使用cnn对数据进行卷积操作,其中卷积层采用并联的方式,卷积核的大小依次增大,再将卷积后的数据输入到双向门控循环单元bigru并得到输出,最终得到序列的特征信息;
54.sb3,序列特征捕捉——采用多头自注意力机制进行信息捕捉,其中多头表示多个不同的表征子空间,其中多头表示多个不同的表征子空间,比如在自然语言处理中,类似于apple拥有水果的含义,同时也有商标的含义,不同的含义由不同的表征子空间学习。根据headi=attention(qw
iq
,kw
ik
,vw
iv
),其中w是三个不同的权值训练矩阵,q、k、v是初始化向量,最后再把所有的信息捕捉结果拼接起来,通过一个全连接层矩阵变换得到最终的全局信息;
55.sb4,目标分类——使用分类器对目标域和多源域特征数据进行分类,具体地,将步骤b3中得到的全局信息进行目标分类,具体是将上层的输出输入到全连接层,选择交叉熵损失函数进行二分类任务。
56.s3,对步骤2中构建的模型进行训练并验证;其中训练并验证的方法包括:将数据集按照五折交叉验证的方式划分训练集和验证集,按照4:1划分,训练集用于对双向门控循环神经网络模型进行构建与训练,验证集用于进行模型的参数调整,最终获取最优的模型。
57.s4,根据步骤3中训练好的模型进行沉默子概率的预测。其中预测方法包括:当外部数据要进行预测时,直接将序列数据输入到训练完成的双向门控循环神经网络模型中进行预测,获得其为免疫细胞沉默子的概率。
58.本发明的参数指标如下:
59.我们使用的验证标准包括召回率recall、精确度precision-pre、正确率accuracy-acc、auc(area under curve),其计算方式如下:
[0060][0061][0062][0063][0064]
其中,tp-true positive表示真阳性数目,即真实的免疫细胞沉默子序列被正确预测为沉默子序列的数目,tn-true negative表示真阴性数目,即真实的非沉默子序列被正确预测为非免疫细胞子序列的数目,fp-false positive是假阳性的数目,即原本并不是免疫细胞沉默子序列而被预测为免疫细胞沉默子序列的数目,fn-false negative是假阴性数目,即原本是免疫细胞沉默子序列而被预测为非免疫细胞沉默子序列的数目。除此之外,我们在本次实验中还采用了auc和acc来衡量模型的整体性能。一般情况下,上述公式中给出的四种指标会受到阈值的影响,即大于或等于阈值时被预测为正样本,而小于阈值时被认为是负样本,阈值的默认值为0.5,但是可手动进行调整。而auc和acc是不受阈值影响的,范围为0到1之间,越接近1代表模型整体性能越好,因此常被认为是更加重要的评价指
标。
[0065]
具体地,为了验证双向门控循环神经网络模型较目前机器学习模型gkm-svm的优越性,我们使用三个数据集进行三组实验,其中公开数据集一:正负样本各2000条,序列长度200bp;数据集二:正样本为免疫t细胞沉默子7142条,长度150bp;数据集三:人体免疫细胞沉默子正样本8000条,长度150bp;如图4、图5以及图6展示了基于4种评价指标(recall、precision、acc、和auc)的两个模型性能比较,从表中可以发现,目前在两个数据集深度学习模型都能够较机器学习模型有较大的提升。
[0066]
本发明对训练集数据采用多次训练,构建出最优的模型对沉默子预测与分类,为后续沉默子的预测发展做出了贡献。
[0067]
本发明还揭示了一种计算机可读存储介质,介质上存有计算机程序,计算机程序运行后,执行上述的基于双向门控循环神经网络的沉默子预测算法。
[0068]
本发明还揭示了一种计算机系统,包括处理器、存储介质,存储介质上存有计算机程序,处理器从存储介质上读取并运行计算机程序以执行上述的基于双向门控循环神经网络的沉默子预测算法。
[0069]
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
[0070]
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如dsp与微处理器的组合、多个微处理器、与dsp核心协作的一个或多个微处理器、或任何其他此类配置。
[0071]
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中或在这两者的组合中体现。软件模块可驻留在ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在asic中。asic可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
[0072]
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括ram、rom、
eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、dsl、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(cd)、激光碟、光碟、数字多用碟(dvd)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
[0073]
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。
[0074]
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1