一种基于基因通路识别小分子核糖核酸的方法与流程

文档序号:15020381发布日期:2018-07-25 00:33阅读:219来源:国知局

本发明涉及计算机技术领域,尤其涉及一种基于基因通路识别小分子核糖核酸的方法。



背景技术:

miRNA(小分子核糖核酸)是一类小(~22nt)非编码调控RNA,通常在转录后期抑制其靶基因的表达。积累证据表明,miRNA是细胞内最重要的分子成分之一,在许多生物过程中起着关键作用,如发育,增殖,分化,细胞凋亡,信号转导,病毒感染等,其可调节多达200个基因,相互之间的关系在各种生物过程中起关键作用。

在现有技术中,考虑到miRNA是基因表达的调节因子,李等基于miRNA和基因的调控关系提出了一种预测miRNA的方法,先找到异常表达的基因然后通过miRNA和基因的调控关系找出相关的miRNA。最近,赵等提出了一种基于基因表达谱数据和通路来预测相关miRNA的新方法,先确定每个miRNA的可能跟癌症相关的靶基因簇,如果这些基因簇富集在功能失调的通路中,则认为调控这些基因的miRNA就是需要识别的。

然而,发明人发现,上述方法所找到的miRNA准确度不高,且寻找过程较复杂。



技术实现要素:

本发明实施例的目的在于提供一种基于基因通路识别小分子核糖核酸的方法,能降低寻找过程复杂度,快速准确的找到小分子核糖核酸miRNA。

为了解决上述技术问题,本发明实施例提供了一种基于基因通路识别小分子核糖核酸的方法,所述方法包括以下步骤:

步骤S1、确定基因表达谱数据和通路数据,并根据所述确定的基因表达谱数据和通路数据,通过最小生成树的方法找到功能异常的子通路;

步骤S2、在所述确定的基因表达谱数据中,筛选出所述功能异常的子通路所对应的差异表达基因,并将所筛选出的差异表达基因作为候选基因;

步骤S3、通过预设的小分子核糖核酸和基因关系,确定所述候选基因所对应的小分子核糖核酸,并运用预设的小分子核糖核酸功能相似网络构建相似度公式来二次筛选所述候选基因的小分子核糖核酸。

其中,所述步骤S1具体包括:

确定基因表达数据库,并从所述基因表达数据库中,提取基因表达数据后用多阵列平均方法对数据做归一化处理,且进一步确定所述归一化处理后的基因表达数据的通路数据;

根据所述通路数据来构建无向图,且将每一无向图中的节点均设置为酶,若两个酶在同一反应中对应同一个化合物,则这两个节点之间连接一条边,并根据酶与酶之间距离的相似性采用k-clique聚类算法,将有相同功能的酶聚类在一起,计算所得的每个k-clique则为代谢通路的子通路;其中,所述子通路内任意两节点之间的距离不大于k;k为正整数;

在每一个子通路中,计算每两个差异节点的最短路径,并筛选出包含所计算的出的最短路径小于或者等于预设值的两个差异节点所对应的子通路作为功能异常的子通路,且进一步将所筛选出两个差异节点间的非差异节点添加到集合里面作为每个功能异常的子通路的节点。

其中,所述步骤S2具体包括:

根据所述功能异常的子通路,重构从信号通路的基因网络;

将差异基因映射在所述重构的基因网络中,并在所述确定的基因表达谱数据中,定位及评估所述功能异常的子通路的统计量和扰动意义来筛选出差异表达异基因,并将所筛选出的差异表达异基因作为候选基因。

其中,所述步骤S3中“运用预设的小分子核糖核酸功能相似网络构建相似度公式来二次筛选所述候选基因的小分子核糖核酸”的具体步骤包括:

运用预设的小分子核糖核酸功能相似网络构建相似度公式计算候选基因的小分子核糖核酸的相关分数,分数Rh越大越表明候选基因的小分子核糖核酸就是所需的;其中,sim(Ri,Rh)表示一对候选基因的小分子核糖核酸Ri和Rh的相似程度;N为筛选小分子核糖核酸的种子数。

实施本发明实施例,具有如下有益效果:

本发明基于最小生成树的方法找到功能异常的子通路,并筛选出差异表达异基因作为候选基因,且进一步利用小分子核糖核酸功能相似网络构建相似度公式来对候选基因打分,通过这个打分机制计算分数并对他们进行排名,从而快速准确的找到所需的小分子核糖核酸miRNA,降低了计算复杂度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的一种基于基因通路识别小分子核糖核酸的方法的流程图;

图2为本发明实施例提供的一种基于基因通路识别小分子核糖核酸的方法的步骤图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1-2所示,为本发明实施例中,提出的一种基于基因通路识别小分子核糖核酸的方法,包括步骤:

步骤S1、确定基因表达谱数据和通路数据,并根据所述确定的基因表达谱数据和通路数据,通过最小生成树的方法找到功能异常的子通路;

具体过程为,使用国家生物信息技术中心NCBI的综合基因表达数据库,确定基因表达数据库,并从基因表达数据库中,提取基因表达数据后用多阵列平均方法对数据做归一化处理,且进一步确定归一化处理后的基因表达数据的通路数据;

根据通路数据来构建无向图,且将每一无向图中的节点均设置为酶,若两个酶在同一反应中对应同一个化合物,则这两个节点之间连接一条边,并根据酶与酶之间距离的相似性采用k-clique聚类算法,将有相同功能的酶聚类在一起,计算所得的每个k-clique则为代谢通路的子通路;其中,所述子通路内任意两节点之间的距离不大于k;k为正整数;应当说明的是,参数k用于约束子图边缘的密度,k值越大,子图的密度越大。

在每一个子通路中,计算每两个差异节点的最短路径,并筛选出包含所计算的出的最短路径小于或者等于预设值的两个差异节点所对应的子通路作为功能异常的子通路,且进一步将所筛选出两个差异节点间的非差异节点添加到集合里面作为每个功能异常的子通路的节点。

作为一个例子,在一给定的无向图G=(V,E)中,(u,v)代表连接顶点u与顶点v的边,而w(u,v)代表此边的权重,若存在T为E的子集且为无循环图,使得w(T)最小,则此T为G的最小生成树。最小生成树其实是最小权重生成树的简称,具体如下公式(1):

首先对于每个通路来说,我们计算每两个差异节点的最短路径。然后,如果这个在这个差异节点之间的最短路径小于或者等于ns+1,那么就把那些处在差异节点间的不差异的节点添加到这些相同的点的集合里面。参数ns表示在差异节点中的最短路径中的最大允许的非差异的节点,随着参数ns的变化,子通路的结构也会发生变化,参数ns的值越小意味着那些距离相似性的节点被加到了对应的子通路中,可以比较一下参数ns的大小的子通路的变化,如果非显著地节点非常少量的能够帮助去增加在定位的子通路中的差异节点的百分比。使用参数ns=4,基于差异基因来定义最小生成树。最后,使用了Kruskal的最小生成树的算法来去查找所有对应的子通路,规定每个子通路至少包括5个节点。

步骤S2、在所述确定的基因表达谱数据中,筛选出所述功能异常的子通路所对应的差异表达异基因,并将所筛选出的差异表达异基因作为候选基因;

具体过程为,根据功能异常的子通路,重构从信号通路的基因网络;

将差异基因映射在所述重构的基因网络中,并在确定的基因表达谱数据中,定位及评估功能异常的子通路的统计量和扰动意义来筛选出差异表达基因,并将所筛选出的差异表达基因作为候选基因。

作为一个例子,应用graphite的生物信息学包来重构通路的基因网络;然后通过R语言的limma包把差异表达的基因(DEGs)被注释映射到每个基因网络上;接着,应用sub_SPIA方法使用最小生成树算法检测相关功能异常的子通路。为了检测功能异常的子通路的显著性,在p值上使用1%的显着阈值去修正错误发现率(FDR);最后,把这些基因看作候选基因。

步骤S3、通过预设的小分子核糖核酸和基因关系,确定所述候选基因所对应的小分子核糖核酸,并运用预设的小分子核糖核酸功能相似网络构建相似度公式来二次筛选所述候选基因的小分子核糖核酸。

具体过程为,从miRBase数据库下载所有候选小分子核糖核酸集合,通过小分子核糖核酸和基因关系,把候选基因的小分子核糖核酸提取出来,通过小分子核糖核酸功能相似性网络和已知的小分子核糖核酸种子去计算候选小分子核糖核酸的相关分数。

作为一个例子,运用小分子核糖核酸功能相似网络构建相似度公式计算候选基因的小分子核糖核酸的相关分数,分数Rh越大越表明候选基因的小分子核糖核酸就是所需的;其中,sim(Ri,Rh)表示一对候选基因的小分子核糖核酸Ri和Rh的相似程度;N为筛选小分子核糖核酸的种子数。

将所提出的miR_SubPath应用于四个类型的八个数据集上。对于每个数据集,随机产生N个种子以计算所有候选miRNA的分数。每个候选miRNA的最终得分是1000次随机测试的平均值,并根据前100个miRNA的结果将所得结果与miR_Path进行比较,具体如下表1所示:

表1

表1所示了8个数据集中的精度,召回率,F1分数。使用HMDD和miR2Disease合并的数据库作为黄金标准来验证。通过将种子数分别设置为N=10,20和30来实现miR_SubPath。由于miR_SubPath对N>10的8个数据集上的结果没有明显的差异,我们只给出了表2中N=10的8个数据集的两种方法的精确度,召回率,F1和平均值。

miR_SubPath在8个数据集上的精度均高于miR_Path。然而除了数据集GSE10072和GSE9348之外,miR_SubPath的召回率也同样都高于miR_Path。一方面,八个数据集上的miR_SubPath的平均F1得分比miR_Path高出大约17%。另一方面,在同一类型的两个不同数据集中的F1得分非常接近,而在一些数据集中,miR_Path的F1得分可能会有很大差异。据观察结果表明,当我们仅仅使用很少数量的一些已知的癌症相关miRNA作为种子时,miR_SubPath表现比miR_Path更好,鉴定出潜在miRNA的数量也增加了不少。

实施本发明实施例,具有如下有益效果:

本发明基于最小生成树的方法找到功能异常的子通路,并筛选出差异表达基因作为候选基因,且进一步利用小分子核糖核酸功能相似网络构建相似度公式来对候选基因打分,通过这个打分机制计算分数并对他们进行排名,从而快速准确的找到所需的小分子核糖核酸miRNA,降低了计算复杂度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1