一种基于迁移学习的非编码变异预测方法

文档序号:34257099发布日期:2023-05-25 03:40阅读:55来源:国知局
一种基于迁移学习的非编码变异预测方法

本发明属于生物信息学领域,涉及一种基于迁移学习的非编码变异预测方法,包括迁移学习,随机森林和支持向量机等技术。


背景技术:

1、非编码变异在许多生物过程中发挥关键作用,例如:基因调控、转录因子结合等。因此,查明上下文特定的功能性非编码变异是十分重要的。例如疾病或者性状相关的致病变异,组织或者细胞类型特异性调控变异。总之,鉴定更多的非编码变异将有助于更快速、更全面地了解人类特征和疾病。

2、高通量功能分析的发展促进了实验验证的功能性非编码变异的发现,通过实验的方法检测非编码变异技术困难且成本昂贵,而且在实验上评估所有的6亿个变异是不可行的。随着大规模并行测序技术的快速发展,可以获得不同层面的多组学数据,如全基因组测序数据、转录组的rna测序数据、表观遗传组的染色质免疫沉淀测序数据和染色质相互作用数据。这些多组学数据提供了一种定义非编码变异功能的方法:评估在等位基因改变下,组学注释的富集或组学注释的变化。通常使用生物信息学工具对基因组变异进行注释,然后利用统计学方法比较注释结果中每个生物学特征或功能的富集程度,以确定哪些特征或功能与变异相关性最强,以确定它们之间是否存在统计显著的差异,以及这些差异是否与基因的生物学功能相关联。

3、尽管多组学数据和功能性非编码变异的综合建模推动了多种计算方法的发展。但是训练集使用的变异可能并不是真正的上下文特定的功能性非编码变异,而是由连锁不平衡而导致的伪因果关系。连锁不平衡是指在同一染色体上两个或多个基因组位置之间存在非随机关联的现象,这种关联可能会导致某些标记位点和真正的功能位点高度关联,从而难以确定是否为真正的上下文功能性非编码变异。为了避免连锁不平衡的影响,直接使用实验验证的功能性非编码变异作为训练集开发监督机器学习模型预测特定上下文功能的非编码变异是理想和最佳的。然而这种方法需要大量的训练样本才能实现模型的稳定预测。

4、本发明最重要的创新点是提出了一种基于小样本数据来稳健预测功能性非编码变异的方法,即通过迁移学习来进行预训练,使得模型可以提取更丰富的低级特征。借助随机森林计算每个特征的重要性分数,筛选最重要的特征。使用支持向量机预测,让模型获得更好的泛化能力。在面对小样本量的挑战时,提高模型预测功能性非编码变异的性能。


技术实现思路

1、一种基于迁移学习的非编码变异预测方法,包括如下步骤:

2、首先,在大规模通用非编码变异数据基础上,使用卷积神经网络进行预训练,获得预训练模型;其次,提取预训练模型的卷积核,用该卷积核提取上下文特定的功能性非编码变异数据的特征;特定的功能性非编码变异数据是指那些出现在非编码dna区域中,且在特定上下文,对基因表达和调控产生影响的变异,将变异作中点,向上游和下游延伸500个碱基作为变异数据;然后,使用随机森林对提取的特征进行选择,剔除不重要的特征;最后,利用所选特征训练支持向量机进行预测;

3、其具体步骤如下:

4、步骤1、为了获得稳定的非编码变异低级特征表示,需要使用卷积神经网络在通用功能非编码变异数据集上进行预训练,来学习共享的低级特征;因此,需要首先在大规模数据集上进行预训练,获得预训练模型;

5、步骤2、将预训练模型的卷积核参数冻结作为特征提取器,迁移到小规模数据集上进行特征提取;

6、步骤3、把步骤2中提取的特征使用随机森林进行特征选择,将选择后的特征作为小规模数据集最终的特征表示;

7、步骤4、使用步骤3中提取的特征数据来训练一个支持向量机模型;

8、步骤5、使用步骤4中保存好的模型来基于输入的dna序列数据预测非编码变异。

9、 一种基于迁移学习的非编码变异预测方法,步骤1的实现过程如下:在大规模数据集上进行预训练,所述的大规模数据是通用功能非编码变异,从致病性变异和调控变异的综合集合中收集。将获得的大规模功能非编码变异进行独热编码,形成大规模数据集。将大规模数据集作为卷积神经网络的输入,训练一个卷积神经网络。预训练的卷积神经网络包括一个隐藏层、两个全连接层和一个输出层;隐藏层的卷积核大小是(32, 32),使用relu激活函数,最大池化层的窗口大小是(4, 4),两个全连接层的节点数分别是128和64,使用relu激活函数,并且全连接层的输出以0.5的概率进行dropout操作;输出层有2个节点,使用softmax激活函数。

10、一种基于迁移学习的非编码变异预测方法,步骤2的实现过程如下:

11、使用步骤1中产生的预训练模型,在给定卷积层冻结的情况下,迁移到小规模数据集上进行特征提取。所述的小规模数据集来源于特定于上下文的功能非编码变异,包括特定于细胞类型的调控变异、特定于疾病的易感性变异等。将特定于上下文的功能性非编码变异进行独热编码,形成小规模数据。将小规模数据作为冻结参数的卷积层的输入,提取特征数据。

12、一种基于迁移学习的非编码变异预测方法,步骤3的实现过程如下:

13、把步骤2中提取的特征数据,使用随机森林进行特征选择,根据每个特征在树中出现的频率计算其特征重要性分数,按照重要性分数对特征进行排序,将特征重要性得分阈值设置为0,然后剔除不重要的特征,保留大于阈值的特征。

14、一种基于迁移学习的非编码变异预测方法,步骤4的实现过程如下:

15、使用步骤3中处理好的特征数据作为输入,训练一个支持向量机模型。其中惩罚参数c设置为1,核函数使用rbf函数,其他参数使用默认参数。训练过程中支持向量机将处理好的数据特征投影到高维空间,通过构建一个决策边界(或决策函数),将不同类别的数据分隔开来,使得相同类别的数据尽可能靠近,不同类别的数据尽可能远离,让距离不同类别的数据点的最小距离最大化,从而实现分类。

16、一种基于迁移学习的非编码变异预测方法,步骤5的实现过程如下:

17、保存步骤4中训练好的支持向量机模型,用于预测来自相同上下文的功能性非编码变异的序列数据。在预测过程中支持向量机将提取的输入数据的特征投影到同样的高维空间中,根据保存的模型学习到的决策边界,将新数据点归类到不同的类别中;上下文相同的非编码变异数据使用的是mpra 数据集,是经过验证具有较小规模的非编码调控变异。数据由基因组解释的关键评估(cagi, critical assessment of genome interpretation)提供,可在cagi 官网上获取。



技术特征:

1.一种基于迁移学习的非编码变异预测方法,包括如下过程:

2.根据权利要求1所述的一种基于迁移学习的非编码变异预测方法,步骤1的实现过程如下:

3.根据权利要求1所述的一种基于迁移学习的非编码变异预测方法,步骤2的实现过程如下:

4.根据权利要求1所述的一种基于迁移学习的非编码变异预测方法,步骤3的实现过程如下:


技术总结
本发明属于生物信息学领域,涉及一种基于迁移学习的非编码变异预测方法,其中包括迁移学习,随机森林和支持向量机等技术,旨在提高深度学习模型对非编码DNA预测性能。包括如下步骤:首先,在大规模通用非编码变异数据基础上,使用卷积神经网络进行预训练,获得预训练模型;其次,提取预训练模型的卷积核,用该卷积核提取上下文特定的功能性非编码变异数据的特征;然后,使用随机森林对提取的特征进行选择,剔除不重要的特征;最后,利用所选特征训练支持向量机进行预测。本方法可以准确预测特定背景下的功能性非编码变异。

技术研发人员:李铭烈,周树森,王庆军,柳婵娟,臧睦君,刘通
受保护的技术使用者:鲁东大学
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1