基于复杂生物网络集的频繁模式挖掘基因功能的预测方法与流程

文档序号:12365076阅读:来源:国知局

技术特征:

1.一种基于复杂生物网络集的频繁模式挖掘基因功能的预测方法,其特征在于,所述预测方法包括:

第一步、寻找频繁稠密点集无贡献的不相关的边:

步骤S11、获取多个基因表达数据转换成生物网络后形成的初始图集D={Gi=(V,Ei)}(1≤i≤m),并确定最小稠密度阈值δ、最小频繁支持度阈值k和用户自定义参数f,p,q分别对应的数值;其中,所述初始图集由多个均具有相同点集的子图Gi形成,且不同子图Gi之间至少存在一条相异的边;

步骤S12:确定每一个子图Gi的每条边,在所述初始图集中出现的次数均大于最小频繁支持度阈值k和图集大小m的乘积的最小正整数值;

步骤S13、删除所述初始图集中每一个子图Gi中均满足稠密度系数EDe<δ/f的边;

步骤S14、构建出与所述初始图集中每一个子图Gi具有相同点集的摘要图,且所述初始图集对应的摘要图中每条边均需满足稠密度系数

步骤S15、对所述初始图集对应的摘要图中每条边均做边聚类系数,删除所述初始图集对应的摘要图中边聚类系数ECe<q的边并更新;

步骤S16、将所述更新后的初始图集对应的摘要图与所述每一个子图Gi的边进行一一对比,删除每一个子图Gi中不存在于所述更新后的初始图集对应的摘要图中的边并更新;

步骤S17、重复步骤S13至步骤S16,直到所述更新后的初始图集对应的摘要图中的边不在发生变化为止;

第二步、确定候选网络子集:

步骤S21、给所述边不在发生变化的摘要图中每条边的边向量均赋予一个权值,并确定所述赋值的每条边对应边支持向量的汉明值,且进一步将汉明值满足筛选条件的边向量并到集合A中,将汉明值不满足筛选条件的边向量并到集合B中;

步骤S22、分别对所述集合A和所述集合B中的边向量进行归并,把重复的边向量删除,仅保留一个并更新边向量对应的权值;

步骤S23、设置种子向量,并根据所述设置的种子向量,调整集合A和集合B中的边向量;其中,所述种子向量为权重最大的边;

步骤S24、按照最大边向量相似度的准则,把所述调整后的集合B中的边向量均映射到所述调整后的集合A中,并待映射结束后,将所述完成映射后的集合A中的边向量进行聚类运算,形成聚类中心集合;

步骤S25:删除聚类中心集合中,1的个数出现的频率小于k与图集大小乘积的下取整数的聚类中心;

第三步、获取摘要图集:

步骤S31、根据所述形成的聚类中心集合,在所述初始图集D={Gi=(V,Ei)}(1≤i≤m)中,提取分别与所述聚类中心集合中每一向量相一致的子图,形成多个新图集;

步骤S32、根据所述确定的最小稠密度阈值δ、最小频繁支持度阈值k和用户自定义参数f,p,q分别对应的数值,删除所述每一新图集中均满足稠密度系数EDe<δ/f的边;

步骤S33、分别构建出与所述每一新图集中具有相同点集的摘要图,且所述每一新图集的摘要图中每条边均需满足稠密度系数

步骤S34、对所述每一新图集的摘要图中每条边均做边聚类系数,删除所述每一新图集的摘要图中边聚类系数ECe<q的边并更新;

步骤S35、将所述更新后的每一新图集的摘要图分别与对应的新图集的边进行一一对比,删除每一新图集中不存在于其相对应的摘要图中的边并更新;

步骤S36、重复步骤S32至步骤S35,直到所述更新后的每一新图集的摘要图中的边不在发生变化为止,得到摘要图集;

第四步、查找稠密子图,并确定频繁稠密点集:

步骤S41、在所述得到的摘要图集中,根据所述更新后的初始图集对应的摘要图,查找与所述更新后的初始图集对应的摘要图中边集相一致的稠密子图,并根据所述查找到的稠密子图,确定频繁稠密点集,且进一步将所述确定的频繁稠密点集进行归并后,作为共表达的基因团输出。

2.如权利要求1所述的预测方法,其特征在于,所述用户自定义参数f取值范围为[4,10];参数p取值范围为[0.1,0.2];参数q取值为0.334。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1