一种基于集成特征重要性和鸡群算法的基因调控网络构建方法与流程

文档序号:16813666发布日期:2019-02-10 14:02阅读:266来源:国知局
一种基于集成特征重要性和鸡群算法的基因调控网络构建方法与流程

本发明涉及一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,属于生物信息学领域,涉及集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行重要性分值排序及鸡群优化选择算法,筛选出最优的调控者子集,建立基因调控网络。



背景技术:

随着生物信息技术的快速发展,基因组数据引起了研究者的关注,目的是希望以系统的角度理解维持生物生命活动的复杂生命过程,在这种背景下,系统生物学得到了快速发展。在系统生物学领域,挑战之一就是基因调控网络的构建,基因调控网络以图形化的方式描述了基因之间的相互作用,通过逆向工程构建出基因调控网络可以帮助我们更好的理解当环境条件发生波动时生物体内仍能保持稳定的分子机制。随着dna微阵列技术的发展,快速积累的基因表达数据,出现了大量的构建基因调控网络的方法。此外,基因序列数据和功能注释数据等也在不断涌现。不同类型数据往往提供了不同的信息,如何有效的利用多种数据源之间的互补性,对于准确构建基因调控网络至关重要。

针对基因调控网络构建过程中基因调控网络构建的不足,即往往仅给出网络中每条潜在边的重要性评分,而没有确定一个合适的阈值将排序结果转化为网络结构,针对基于基因表达数据进行改进。



技术实现要素:

本发明的目的是针对基因调控网络构建过程中基因调控网络构建的不足,提供一种基于集成特征重要性和鸡群算法的基因调控网络构建方法。

本发明的目的是这样实现的:提供一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,所述方法包括如下步骤:

步骤一:对于目标基因网络中的基因,获得其基因表达数据集;

步骤二:利用集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行一个重要性分值并排序,该重要性分值代表在该调控基因和目标基因间存在真实调控关系的可信度;

步骤三:将得到的重要性较高的调控者利用鸡群算法筛选出最优的调控者子集,建立基因调控网络;

步骤四:在逆向工程评估与方法对话数据集上的实验结果验证该方法的有效性。

在一个实施方案中,本发明的方法还包括这样一些特征:

1.步骤二中首先将基因表达数据集定义为学习样本(learningsample,ls),该学习样本是一个s×g的矩阵,每行代表一条样本,每条样本是全部g个基因在该样本中的表达值,x代表基因g在样本s中的表达值,将该学习样本和可选的调控因子列表作为输入,输出是一个有向完全图,每个节点代表一个基因,从节点i指向节点j,的边表示基因i调控基因j的表达,对于网络中每一条边,都有一个分值标识这条边真实存在的可能性。

2.步骤二中给目标基因的潜在调控因子提供排序,流程如下:

①对于基因i,i=1,2,…,i

(a)对学习样本ls-t和目标向量lst进行无放回的采样,得到一个样本容量(行)为x的子学习样本ls-t_x以及目标向量lst_x,样本容量x是一个均匀随机产生的介于xmin和xmax之间的整数,xmin是学习子样本的容量最小值,xmax是学习子样本的容量最大值。

(b)对学习子样本ls-t_x进行进一步删减,对所有可能的基因(列)进行无放回的采样得到y个候选基因,得到学习样本ls-t_x_y,候选基因个数y是一个均匀产生的介于ymin和ymax之间的整数,ymin是候选基因个数的最小值,ymax是候选基因个数的最大值。

(c)对学习子样本ls-t_x_y和目标向量lst_x利用特征选择方法对y个候选基因进行排序,预测能力越高的候选基因排名越靠前。

(d)根据选定的参数z,对排名前z的候选基因赋予分值l,其余的赋予分值0,得到一个结果矩阵mr×t,r是调控因子的个数,t是目标基因的个数,矩阵元素mi,j的取值为1或0,即在本次回归分析中调控因子i是否调控目标基因j。

②将步骤1经过n次迭代计算后得到n个结果矩阵,将所有的结果矩阵进行相加作为最终的结果矩阵m,矩阵元素m代表了调控因子i调控目标基因j的可能性,值越大则该调控关系越可靠。

3.步骤三中利用鸡群算法筛选出最优的调控者子集,建立基因调控网络,流程如下:

对每个目标基因选取可信度较高的调控因子,利用鸡群算法对选取的调控因子集合进行进一步筛选,选择最优的特征子集作为最终的该目标基因的调控基因。对每个目标基因,鸡群算法首先生成初始种群,种群中的个体是一条0.1字符串,每条个体都代表了算法的一种可能解,即为目标基因选取的最终的调控因子情况,下标i的元素值为1表示第i个调控因子调控目标基因,否则不存在调控关系。利用下述公式建立统计模型模拟目标基因i的表达值和每条个体中选中的调控者表达值()的关系

4.步骤四中在逆向工程评估与方法对话(dialogueforreverseengineeringassessmentsandmethods,dream)数据集上的实验结果验证,包括如下几方面:

预测结果可以分为四类:真阳类(truepositive,tp),真阴类(truenegative,tn)、假阳类(falsepositive,fp)和假阴类(falsenegative,fn)。利用三个指标评估efi-cso算法的性能:准确率(precision)、召回率(recall)和f值。

其中,

与现有技术相比,本发明的有益效果是:本发明通过逆向工程评估与方法对话对该方法的可行性进行了验证。结果表明集成特征选择算法和鸡群算法结合后,可以得到比仅仅利用集成特征选择方法预测基因调控关系更高的平均准确率,更低的平均召回率,而平均f值也要高于或接近集成特征选择方法的平均f值。由于f值能更平衡的评估算法的预测能力,因此在保持f值或更高f值的基础上,得到更高的准确率更有意义。在基因调控网络的构建过程中考虑多集成特征重要性算法有助于提高建网的准确率。

附图说明

图1是学习样本图;

图2是efi-cso算法流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

在基因调控网络构建过程中仅给出每条潜在边的重要性评分,而没有确定一个合适的阈值将排序结果转化为网络结构,针对基于基因表达数据,本发明人利用特征选择方法进行改进。本发明提出了集成特征重要性鸡群算法(ensemblefeatureimportance.chickenswarmoptimizationalgorithm,efi,cso),结合集成特征选择算法和鸡群算法构建基因调控网络。首先利用集成特征选择方法为目标基因的每个潜在调控者计算一个重要性分值,该分值表示在该调控基因和目标基因间存在真实调控关系的可信度。然后利用鸡群算法在具有较高可信度的调控者中筛选出最优的调控者子集。在逆向工程评估与方法对话数据集上进行实验,对该方法进行验证。

在本发明中,目标基因网络中的基因根据所感兴趣的基因进行选择。基因网络可以来自于dream数据集,该数据集旨在为调控网络构建的研究者提供基因表达数据集和对应的基准网络去验证算法的有效性。

本发明包括如下步骤:

步骤一:对于目标基因网络中的基因,获得其基因表达数据集。对于目标基因网络中的基因,设计芯片,提取不同的样本进行基因芯片测定,获得其基因表达数据集。

步骤二:利用集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行一个重要性分值并排序,该重要性分值代表在该调控基因和目标基因间存在真实调控关系的可信度,利用集成特征重要性算法可以得到比单一特征重要性算法鲁棒性更好、稳定性更佳的特征排序结果;

首先将基因表达数据集定义为学习样本(learningsample,ls),该学习样本是一个s×g的矩阵,每行代表一条样本,每条样本是全部g个基因在该样本中的表达值,x代表基因g在样本s中的表达值。将该学习样本和可选的调控因子列表作为输入,输出是一个有向完全图,每个节点代表一个基因,从节点i指向节点j,的边表示基因i调控基因j的表达,对于网络中每一条边,都有一个分值标识这条边真实存在的可能性。

目标基因的潜在调控因子提供排序,流程如下:

①对于基因i,i=1,2,…,i

(a)对学习样本ls-t和目标向量lst进行无放回的采样,得到一个样本容量(行)为x的子学习样本ls-t_x以及目标向量lst_x,样本容量x是一个均匀随机产生的介于xmin和xmax之间的整数,xmin是学习子样本的容量最小值,xmax是学习子样本的容量最大值;

(b)对学习子样本ls-t_x进行进一步删减,对所有可能的基因(列)进行无放回的采样得到y个候选基因,得到学习样本ls-t_x_y,候选基因个数y是一个均匀产生的介于ymin和ymax之间的整数,ymin是候选基因个数的最小值,ymax是候选基因个数的最大值;

(c)对学习子样本ls-t_x_y和目标向量lst_x利用特征选择方法对y个候选基因进行排序,预测能力越高的候选基因排名越靠前;

(d)根据选定的参数z,对排名前z的候选基因赋予分值l,其余的赋予分值0,得到一个结果矩阵mr×t,r是调控因子的个数,t是目标基因的个数,矩阵元素mi,j的取值为1或0,即在本次回归分析中调控因子i是否调控目标基因j;

②将步骤1经过n次迭代计算后得到n个结果矩阵,将所有的结果矩阵进行相加作为最终的结果矩阵m,矩阵元素m代表了调控因子i调控目标基因j的可能性,值越大则该调控关系越可靠。

步骤三:将得到的重要性较高的调控者利用鸡群算法筛选出最优的调控者子集,建立基因调控网络;

对每个目标基因选取可信度较高的调控因子,利用鸡群算法对选取的调控因子集合进行进一步筛选,选择最优的特征子集作为最终的该目标基因的调控基因,对每个目标基因,鸡群算法首先生成初始种群,种群中的个体是一条0.1字符串,每条个体都代表了算法的一种可能解,即为目标基因选取的最终的调控因子情况,下标i的元素值为1表示第i个调控因子调控目标基因,否则不存在调控关系,利用下述公式建立统计模型模拟目标基因i的表达值和每条个体中选中的调控者表达值()的关系

步骤四:在逆向工程评估与方法对话(dialogueforreverseengineeringassessmentsandmethods,dream)数据集上的实验结果验证该方法的有效性;

预测结果可以分为四类:真阳类(truepositive,tp),真阴类(truenegative,tn)、假阳类(falsepositive,fp)和假阴类(falsenegative,fn)。利用三个指标评估efi-cso算法的性能:准确率(precision)、召回率(recall)和f值

其中,

在dream数据集上的结果如表1所示。表中加粗内容为结合集成特征选择算法和鸡群算法之后的特征选择算法在3个基因表达数据集上的平均性能指标,可以看出在保持f值增高或持平的情况下,集成特征选择算法和鸡群算法结合后,可以得到比仅仅利用集成特征选择方法预测基因调控关系更高的平均准确率,更低的平均召回率,而平均f值也要高于或接近集成特征选择方法的平均f值。由于f值能更平衡的评估算法的预测能力,因此在保持f值或更高f值的基础上,得到更高的准确率更有意义。

表1.不同基因调控方法在不同数据集上的性能

以上所述具体实例,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质上对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1