一种针对多视图数据融合的蛋白质功能模块挖掘方法

文档序号:6518055阅读:277来源:国知局
一种针对多视图数据融合的蛋白质功能模块挖掘方法
【专利摘要】本发明属于数据挖掘领域,公开了一种针对多视图数据融合的蛋白质功能模块挖掘方法。首先,量化多个数据源对蛋白质相互作用的强弱描述,形成多视图数据;进而,利用本发明提出的聚合非负矩阵算法对多视图数据进行一致矩阵分解,通过得到对多视图信息的最优近似,确定蛋白质的功能模块。本发明提出一种针对多视图数据融合的蛋白质功能模块挖掘方法,着眼于同时分析多生物数据,包括基因共表达、GO注释和PPIN,从多视图中提取聚合特征最为一致的蛋白质功能模块。本发明尤其适用于蛋白质相互作用网络和生物数据,同时可应用于社交复杂网络、通讯网络的社区挖掘问题。
【专利说明】一种针对多视图数据融合的蛋白质功能模块挖掘方法
【技术领域】
[0001]本发明属于数据挖掘领域,涉及一种融合多种生物数据源和蛋白质相互作用网络(Protein-protein interaction network, PPIN)的蛋白质功能模块检测方法。
【背景技术】
[0002]基于蛋白质相互作用网络分析蛋白质的具体功能是目前生物信息学研究中的一大热点。蛋白质相互作用(Protein-protein interaction, PPI)描述的是两个蛋白质间的物理直接连接,或者具有一致功能的两个蛋白质的间接连系。PPIN以每个蛋白质为结点,两个蛋白质间的相互关系作为两结点的边,形成一无向图。在生物体内,多数蛋白质通过相互作用形成功能意义上紧密联系的集合,也就是功能模块,从而共同执行相应的一种或多种生命活动,因此分析PPI功能意义是了解和掌握生命活动的分子机制的基础。至今,学术各界已提出多种聚类方法用来检测PPIN中的功能模块,其中基于非监督学习的聚类方法是最常用的PPI模块挖掘方法。然而,由于PPI数据的高噪声和不完整性,聚类结果大多不能令人满意。有学者证实酵母双杂交实验(Yeast Two-Hybrid)所检测到的PPI的误报率(False Positive)可达50%。基于如此大噪声比例的数据,单纯依据PPIN的拓扑特征不能保证得到可靠的功能模块检测结果。。这也是之前一些传统功能模块挖掘方法,如MC0DE, CFinder,马尔科夫聚类(Markov Clustering, MCL)等方法的一大掣肘。
[0003]近年来生物数据收集方法日新月异,结合多种数据对PPI进行研究成为可能。首先,基因表达数据被用于寻找共表达的基因和基因产物。这一方法的基本假设是,在一段生命过程中表达模式相似的基因(或基因产物)倾向具有相同的功能,同时在PPIN中也更倾向于相互联系形成密集功能模块。Segal等人依据基因共表达的模式特征来提取功能模块;Li和Wu将基因共表达作为PPIN权重进行网络分析。另一方面,Cho等人利用基因本体注释信息(Gene Ontology, GO)计算蛋白质相似度,并据此构建了蛋白质功能流在网络中的传输模型,功能流所到之处被划分为同一功能模块。这一方法体现了蛋白质功能在网络中的动态传递概念,并解决了多功能蛋白质的多功能模块从属,即功能模块的重叠问题。
[0004]这些方法均达到一定程度的成功。然而不同的数据各有倾向:基因共表达倾向于检测细胞生命过程中表达模式一致的蛋白质群,而GO则是静态描述的功能信息。同时,二者各有弊端:首先,基因表达数据在收集过程中,实验本身引入的噪声不可避免;其次,由于人类技术所限,还有丰富的基因功能特质依然未知,GO注释信息也仍在不断完善。将每个角度所获得的数据看做一个视图。如何从多视图中提取出最准确的信息是生物信息学及数据挖掘界一直面临的难题。

【发明内容】

[0005]针对蛋白质相互作用数据的高噪声问题,提出一种针对多视图数据融合的蛋白质功能模块挖掘方法。本方法着眼于同时分析多生物数据,包括基因共表达、GO注释和PPIN,从多视图中提取聚合特征最为一致的蛋白质功能模块。该方法尤其适用于蛋白质相互作用网络和多生物数据的融合分析,同时可应用于社交复杂网络、通讯网络的社区挖掘问题。
[0006]本发明所采取的技术方案是:首先,量化多个数据源对蛋白质相互作用的强弱描述,形成多视图数据;进而,利用本发明提出的聚合非负矩阵算法对多视图数据进行一致矩阵分解,通过得到对多视图信息的最优近似,确定蛋白质的功能模块。
[0007]—种针对多视图数据融合的蛋白质功能模块挖掘方法,包括以下步骤:
[0008]步骤1:构建蛋白质相互作用网络的邻接矩阵A。 [0009]每个结点顺序编号并标记为(1,2,…,N) ,N为结点总数。结点1、j间的边记为eg,且0〈1〈队0〈」^;忽略自相关关系,4的对角线元素全部设定为0。由于相互作用无方向指向,因此A为对称矩阵。 [0010]步骤2:计算基因表达模式的相似程度。
[0011]采用Pearson相关系数计算基因表达模式的相似程度,并归一化至[0,I]。
[0012]步骤3:计算基因表达谱上的相似矩阵。
[0013]将基因共表达相关系数作为eij的权重,与PPIN结合,获得基因表达谱上的相似矩阵 wCO:
[0014]WCOij = CoExpijXAij
[0015]其中,CoExp为基因共表达相关系数;X代表元素相乘。
[0016]步骤4:提取蛋白质所对应的基因本体标注。
[0017]选择GO的三个不同知识体系当中的生物过程(Biological Process, BP)体系,并选择在BP标注体系中每个蛋白质的GO注释条目,用以计算步骤5、6中基因及基因生成物的相似度。
[0018]步骤5:计算两注释条目的功能相似度。
[0019]采用基于信息量(Information Content, IC)的方法,即测量比较任意两条目间共同的信息量大小,计算两注释条目的功能相似度,方法如下:
[0020]给定BP注释体系中任一个条目(:,Φ为BP中从属于c的所有子条目的集合,p(C)表示一个基因被Φ中任一条目所注释的概率,并以负对数形式表示该条目所包含的信息量,即-log (p (c))。计算两个条目的功能相似度,即二者最低层的共有父条目结点的信息量大小,公式如下:
【权利要求】
1.一种针对多视图数据融合的蛋白质功能模块挖掘方法,其特征在于包括以下步骤: 步骤1:构建蛋白质相互作用网络PPIN的邻接矩阵A ; 每个结点顺序编号并标记为(1,2,…,N),N为结点总数;结点1、j间的边记为,且.0〈i〈N,0〈j〈N ;忽略自相关关系,A的对角线元素全部设定为O ;相互作用无方向指向,A为对称矩阵; 步骤2:计算基因表达模式的相似程度; 采用Pearson相关系数计算基因表达模式的相似程度,并归一化至[0,I]; 步骤3:计算基因表达谱上的相似矩阵; 将基因共表达相关系数作为的权重,与PPIN数据结合,获得基因表达谱上的相似矩阵 wCO:
WCOij = CoExpij X Aij 其中,CoExp为基因共表达相关系数;X代表兀素相乘; 步骤4:提取蛋白质所对应的基因本体标注; 选择基因本体注释信息GO的三个不同知识体系当中的生物过程体系,并选择在生物过程标注体系中每个蛋白质的GO注释条目,用以计算步骤5、6中基因及基因生成物的相似度; 步骤5:计算两注释条目的功能相似度; 给定生物过程BP注释体系中任一个条目C,Φ为BP中从属于c的所有子条目的集合,P(c)表示一个基因被Φ中任一条目所注释的概率,并以负对数形式表示该条目所包含的信息量,即_log(p(C));计算两个条目的功能相似度,即二者最低层的共有父条目结点的信息量大小,公式如下:
【文档编号】G06F19/24GK103559426SQ201310545984
【公开日】2014年2月5日 申请日期:2013年11月6日 优先权日:2013年11月6日
【发明者】贾克斌, 张媛 申请人:北京工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1