一种基于集成学习的circRNA-miRNA相互作用关系预测方法

文档序号:26501225发布日期:2021-09-04 02:34阅读:1002来源:国知局
一种基于集成学习的circRNA-miRNA相互作用关系预测方法
一种基于集成学习的circrna

mirna相互作用关系预测方法
技术领域
1.本发明涉及一种机器学习方法,具体是一种基于集成学习的circrna

mirna相互作用关系预测方法。


背景技术:

2.circrna是一类具有生物功能的 rna,在前体 mrna 剪接过程中,外显子的5

端和3

端通过共价连接形成环结构。尽管大多数 circrna 的功能仍不完全明确,已有研究表明,circrna 具有mirna 海绵且可能成为rbp海绵。circrna 也参与转录调控和选择性剪接,甚至可能具有翻译功能。circrna与疾病的发生发展有着密切的联系,可能成为疾病的生物标志物。但是,目前我们对circrna在疾病的功能的了解仍然有限。
3.目前,circrna 的功能验证方法主要分为三类,包括构建circrna缺陷性突变体、circrna 过表达载体和rna干扰。circrna的功能检测存在一定的技术难度。以抑制策略为例,通常使用功能缺失(或获得)来注释基因的功能。该技术靶向circrna的特效性与准确性有待提高。利用计算机辅助预测circrna与mirna的互作关系对深入了解其功能有着重要的意义。高通量测序技术与生物信息学快速发展,为研究 circrna 的相互作用网络提供了数据资源。基于此,研究者开发了若干数据库可用于分析circrna与mirna的互作关系,如encori数据库。近年来,有研究者运用机器学习协助预测circrna的调控关系。


技术实现要素:

4.本发明实施例所要解决的技术问题在于,提供一种基于集成学习的circrna

mirna相互作用关系预测方法。可克服通过生化实验进行circrna功能检测费时费力并且检测精度不理想的缺陷。
5.为了解决上述技术问题,本发明实施例提供了一种基于集成学习的circrna

mirna相互作用关系预测方法,其特征在于,包括以下步骤:s1:构建包含正样本和负样本的数据集:从encori数据库获取能与mirna相互作用的circrna数据,作为正样本;从所述encori数据库获取无法与mirna产生相互作用的circrna数据,作为负样本,根据包括circrna的染色体号、序列起始位置以及正负链标记的信息,将其映射到人类基因组上,获得circrna序列信息;s2:提取序列衍生特征:提取circrna的四类序列衍生特征:序列基本特征、图特征、基因组上下文特征和调控信息特征;s3:构建基于集成学习的circmi模型预测circrna

mirna的相互作用关系,将所提取的序列衍生特征分别输入分类器:lightgbm,svm(support vector machine,支持向量机),gbdt(gradient boosting decision tree,梯度提升迭代决策树gradient boosting decision tree, gbdt),rf(random forest,随机森林),sgd(stochastic gradient descent,随机梯度下降stochastic gradient descent),xgboost和gnb(gaussian naive bayes,高斯朴素贝叶斯gaussian naive bayes)进行训练,将上述7个分类器的结果进行投
票,得到最终的分类结果;s4:使用二步法对所述四类序列衍生特征进行优化;s5:针对独立测试集,提取步骤s4最佳特征子集所对应的序列衍生特征,输入已训练的circmi模型进行预测,分析circrna与mirna是否会产生相互作用。
6.其中,所述步骤s4具体包括:运用顺序向前搜索算法,按重要性排序逐个加入特征构建特征集,输入circmi模型进行训练,计算mcc值随引入特征个数变化的曲线,选取使得mcc值最大的特征集合作为最佳特征子集。
7.其中,所述四类序列衍生特征的特征维度分别为71,101,7和3。
8.实施本发明实施例,具有如下有益效果:本发明利用不同的工具提取circrna序列衍生特征,输入7种机器学习模型分别进行预测,将得到的结果进行投票从而判断circrna与mirna是否产生相互作用,本发明结合机器学习辅助预测circrna与mirna的相互作用,避免了circrna功能检测方法存在操作繁琐、费用高等缺点,circmi促进了计算机辅助circrna功能解析研究进展。
附图说明
9.图1是本申请中circmi预测方法流程图。
10.图2是本申请中按重要性逐个加入特征训练circmi模型得到的mcc值的变化曲线。
11.图3是本申请中circmi在独立测试集上预测的结果。以 has_circ_0033725 为例,circmi模型预测该环状rna与mirna产生相互作用。依据encori数据库检索结果可知,has_circ_0033725能够与16个mirna产生相互作用,图中has

mir

xx表示不同的mirna,其命名规则为:mirna成熟体简写成mir,再根据其物种名称,及被发现的先后顺序加上阿拉伯数字,数字后小写英文字母代表高度同源的mirna。
具体实施方式
12.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
13.本发明实施例的一种基于集成学习的circrna

mirna相互作用关系预测方法,能准确地预估circrna能否与mirna产生相互作用。本发明公开的方法在使用circmi预测circrna是否与mirna产生相互作用之前,需要对circmi进行训练。因此,本发明分两部分,第一部分是训练模型,第二部分是测试circrna是否与mirna产生相互作用。主要流程参考图1,按重要性逐个加入特征训练circmi模型得到最优特征子集的结果如参考图2,在独立测试集上的测试结果实例如图3。具体实施步骤如下:(1)构建包含正样本和负样本的数据集:从encori数据库获取能够与mirna产生相互作用的circrna数据,作为正样本,并从该数据库获取无法与mirna产生相互作用数据circrna,作为负样本。剔除长度短于200bp的转录本,根据circrna的染色体号、序列起始位置以及正负链标记等信息,将其映射到人类基因组上,获得circrna序列信息。
14.(2)提取序列衍生特征,利用不同的工具,提取circrna的四类序列衍生特征,包括序列基本特征、图特征、基因组上下文特征和调控信息特征,特征维度分别为71,101,7和3。
其中,序列基本特征包括64种三核苷酸和其他序列组成特征,包括序列长度、gc含量、ag、gt、aggt、gtag的频率和重复序列特征。图特征通过利用graphprot 1.0.1工具提取 rna 序列 32768 维的图特征。为了去除冗余特征,运用随机森林将所提取的高维图特征按重要性排序,选取前101个特征作为circrna序列的图特征。基因组上下文特征计算每个转录本保守分数。具体做法为:从加州大学洛杉矶分校数据库下载 placent_phylop46文件提取。根据转录本每个碱基的phylop保守分数计算保守分数的平均值和标准差。根据circrna的序列信息,利用不同的工具,提取其alu,snp密度和a

to

i、反向剪接连接特征、mirna结合位点个数等序列衍生特征。从ucsc下载带有注释的alu重复位点,计算每个转录本的alu重复数。使用tandem repeat finder提取串联重复序列。开放阅读框长度由ucsc的txcdspredict提取。snp数据来源于国际千人基因组计划,并计算每个转录本的snp密度。a

to

i 注释数据来源于从radar数据库。a

to

i 密度定义为 a

to

i 数量占整个转录本的序列长度的比例。运用iresfinder工具提取rna序列的ires信息。调控信息主要来源于trcirc数据库。
15.(3)构建基于集成学习的circmi模型预测circrna

mirna的相互作用关系,将所提取的序列衍生特征分别输入lightgbm,svm,gbdt,rf,sgd,xgboost和gnb模型进行训练与预测,通过调整参数,得到上述7个子模型的最优参数,并且得到所分析的circrna与mirna是否产生相互作用。采用投票的方法得到最终的分类结果。
16.(4)采用二步法优化特征子集,首先,运用最小冗余最大相关算法对所提出的四类序列衍生特征按重要性进行排序;其次,运用顺序向前搜索算法,按重要性排序逐个加入特征构建特征集,输入circmi模型进行训练,计算mcc值(matthews correlation coefficient,马修斯相关系数)随引入特征个数变化的曲线。选取重要性前21位的特征集合作为最佳特征子集。
17.(5)针对独立测试集中的每一个样本,利用步骤2所提及的工具提取步骤4最佳特征子集所对应的序列衍生特征,输入已训练的circmi模型进行预测,分析circrna与mirna是否会产生相互作用。通过计算敏感性、特异性、f1分数、acc和mcc等评估指标,分析circmi在独立测试集的预测性能。以 has_circ_0033725为例,circmi预测该circrna与mirna互作。依据encori数据库检索结果可知,has_circ_0033725与16个mirna互作。
18.以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1