一种基于双路径并行集成决策的DHSs识别预测方法

文档序号:33893899发布日期:2023-04-21 03:32阅读:59来源:国知局
一种基于双路径并行集成决策的DHSs识别预测方法

本发明涉及位点预测,尤其涉及一种基于双路径并行集成决策的dhss识别预测方法。


背景技术:

1、遗传学中,对dnase i核酸内切酶的切割过敏的特定染色质区域被称为dnase i超敏位点(dhss),dhss能够提供哺乳动物中转录调控元件和染色质状态的重要信息,多年来,dhss为确定启动子、增强子、抑制子和基因组控制区等转录调控元件的精确位置担任了可靠的路标;此外,全基因组关联研究(gwas)确定了许多与癌症、心血管疾病等疾病和性状相关的非编码变体。而这些变体集中在dhss标记的调节dna中,因此,准确识别dhss有助于进一步探究基因的调控与常见疾病的致病机制;

2、dnase i超敏位点(dhs)是对dnase i酶的切割表现出超敏反应的染色质区域,它是调节dna的通用标记,并且与多种疾病和表型性状的遗传变异相关,然而,常规的实验方法识别dhss耗时且昂贵,而在小鼠不同发育阶段的基因上的dhss是动态变化的,不同组织的序列也有很大的差异性,单一模型往往难以实现对多类型数据的准确识别,因此,本发明提出一种基于双路径并行集成决策的dhss识别预测方法以解决现有技术中存在的问题。


技术实现思路

1、针对上述问题,本发明的目的在于提出一种基于双路径并行集成决策的dhss识别预测方法,该基于双路径并行集成决策的dhss识别预测方法通过bigru-attention模型和msfrn模型的双模型训练的方式可以捕获到不同层次的重要信息,减少信息丢失,构成的双路径idhs-dppe模型识别预测,能够有效提升泛化能力和鲁棒性,可以适应小鼠不同组织和发育阶段dhs的变化,同时能够有效、准确的识别dhss。

2、为实现本发明的目的,本发明通过以下技术方案实现:一种基于双路径并行集成决策的dhss识别预测方法,包括以下步骤:

3、步骤一、数据集处理,获取idhs-deep基准数据集中小鼠基因组的dhs序列,再利用cd-hit对其进行处理后划分获得训练集和测试集;

4、步骤二、模型建立,建立包含特征提取模块、双路径集成模块和输出模块的idhs-dppe模型,其中双路径集成模块包含bigru-attention模型和msfrn模型;

5、步骤三、训练集和测试集统一化处理,将训练集和测试集中的序列长度进行扩充处理,获得统一长度的序列并按照滑动窗口拆分为2-mers,获得扩增后的训练集和测试集;

6、步骤四、特征提取,将扩增后的训练集序列特征作为输入经过idhs-dppe模型的特征提取模块进行特征提取,获得提取特征;

7、步骤五、双路径并行训练,将获得的提取特征作为输入分别导入包含bigru-attention模型和msfrn模型的双路径集成模块中进行训练,并结合特征提取模块和输出模块获得训练后的idhs-dppe模型;

8、步骤六、模型测试,将扩增后的测试集同样经过步骤四的特征提取处理,并将获得的提取特征输入训练后的idhs-dppe模型进行模型测试,获得测试后的idhs-dppe模型;

9、步骤七、模型识别预测,将待测数据经过步骤三和步骤四的处理后输入测试后的idhs-dppe模型,并由其输出识别预测结果。

10、进一步改进在于:所述步骤一中获取的小鼠基因组的dhs序列包含小鼠不同组织和发育阶段的dhs综合图谱,选择50~301bp长度的dhs序列作为阳性样本,选择特定的dna片段作为阴性样本,然后利用cd-hit消除相似度阈值为0.8的序列,最后将不同细胞类型和发育阶段的样本中70%作为训练集,30%作为独立的测试集。

11、进一步改进在于:所述步骤二中特征提取模块包含嵌入层、卷积层和池化层,所述输出模块将双路径集成模块输出的决策集成得到综合评估的结果输出并进行dhss的识别。

12、进一步改进在于:所述步骤二中bigru-attention模型包含bigru和多头注意力层,利用bigru捕获远程依赖,利用多头注意力层选择关键特征信息,所述msfrn模型包含进行级联的六个卷积核为64的不同尺度的卷积层以及一个卷积核为192的卷积层进行特征的残差连接融合。

13、进一步改进在于:所述步骤三中扩充处理具体为当序列长度不足301bp时,在序列尾部添加“n”,将长度不足的序列统一扩充至最大长度301bp,然后进行拆分获得2-mers,然后再将不同的核苷酸映射为0~20内范围不同的值,则扩充序列被编码为长度300的数字向量,作为特征提取模块的输入。

14、进一步改进在于:所述步骤五中模型训练的输出利用g值来衡量置信度,g值的计算公式如下

15、g=abs(2cp-1),cp∈[0,1]

16、其中cp为置信概率,则当置信概率cp越高,g至越大,则判定模型的判断可靠,当cp≥0.5时,模型判断输入序列为dhss,相反则输入序列不是dhss。

17、本发明的有益效果为:本发明通过bigru-attention模型和msfrn模型的双模型训练的方式可以捕获到不同层次的重要信息,减少信息丢失,构成的双路径idhs-dppe模型识别预测,能够有效提升泛化能力和鲁棒性,可以适应小鼠不同组织和发育阶段dhs的变化,同时能够有效、准确的识别dhss,为dhss识别提供了一种高效可靠的方法。



技术特征:

1.一种基于双路径并行集成决策的dhss识别预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于双路径并行集成决策的dhss识别预测方法,其特征在于:所述步骤一中获取的小鼠基因组的dhs序列包含小鼠不同组织和发育阶段的dhs综合图谱,选择50~301bp长度的dhs序列作为阳性样本,选择特定的dna片段作为阴性样本,然后利用cd-hit消除相似度阈值为0.8的序列,最后将不同细胞类型和发育阶段的样本中70%作为训练集,30%作为独立的测试集。

3.根据权利要求1所述的一种基于双路径并行集成决策的dhss识别预测方法,其特征在于:所述步骤二中特征提取模块包含嵌入层、卷积层和池化层,所述输出模块将双路径集成模块输出的决策集成得到综合评估的结果输出并进行dhss的识别。

4.根据权利要求1所述的一种基于双路径并行集成决策的dhss识别预测方法,其特征在于:所述步骤二中bigru-attention模型包含bigru和多头注意力层,利用bigru捕获远程依赖,利用多头注意力层选择关键特征信息,所述msfrn模型包含进行级联的六个卷积核为64的不同尺度的卷积层以及一个卷积核为192的卷积层进行特征的残差连接融合。

5.根据权利要求1所述的一种基于双路径并行集成决策的dhss识别预测方法,其特征在于:所述步骤三中扩充处理具体为当序列长度不足301bp时,在序列尾部添加“n”,将长度不足的序列统一扩充至最大长度301bp,然后进行拆分获得2-mers,然后再将不同的核苷酸映射为0~20内范围不同的值,则扩充序列被编码为长度300的数字向量,作为特征提取模块的输入。

6.根据权利要求1所述的一种基于双路径并行集成决策的dhss识别预测方法,其特征在于:所述步骤五中模型训练的输出利用g值来衡量置信度,g值的计算公式如下


技术总结
本发明公开一种基于双路径并行集成决策的DHSs识别预测方法,包括步骤一、数据集处理获得训练集和测试集,步骤二、建立iDHS‑DPPE模型,步骤三、训练集和测试集统一扩增处理,步骤四、扩增后的训练集序列特征做为输入进行特征提取,步骤五、双路径并行训练处理获得训练iDHS‑DPPE模型,步骤六、利用扩增后的测试集进行模型测试处理,步骤七、模型识别预测并输出结果;本发明通过BiGRU‑Attention模型和MSFRN模型的双模型训练的方式可以捕获到不同层次的重要信息,减少信息丢失,构成的双路径iDHS‑DPPE模型识别预测,能够有效提升泛化能力和鲁棒性,同时能够有效、准确的识别DHSs。

技术研发人员:吕学平
受保护的技术使用者:安徽大学
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1