一种基于随机聚类森林的全基因组蛋白质功能预测方法

文档序号:10512557阅读:360来源:国知局
一种基于随机聚类森林的全基因组蛋白质功能预测方法
【专利摘要】本发明公开了一种基于随机聚类森林的全基因组蛋白质功能预测方法。该方法将已注释功能的蛋白质按功能分别进行聚类,将具有同一种功能的蛋白质划分为若干个簇,并计算每个簇的中心;所有的簇中心组成蛋白质新的特征向量,使用蛋白质原有的多组特征向量将每个蛋白质转换为只具有一组特征向量的对象;将完成特征转换的蛋白质作为数据集,使用已注释功能的蛋白质训练多棵随机聚类树,构建随机聚类森林作为全基因组蛋白质的功能预测模型,并使用该模型预测未注释的全基因组蛋白质的功能。本发明提高了蛋白质预测的效率,也提高了蛋白质功能的注释准确率。
【专利说明】
一种基于随机聚类森林的全基因组蛋白质功能预测方法
技术领域
[0001] 本发明涉及生物信息及数据挖掘领域,特别涉及一种预测蛋白质功能的方法。
【背景技术】
[0002] 蛋白质功能预测是生命科学研究的重要组成部分。随着人类基因组计划的完成, 研究发现有限的基因数量、相对稳定的基因结构和生命活动的复杂性、多变性之间似乎存 在这巨大反差,而蛋白质是生命活动的主要执行者。各大数据库中存有海量的蛋白质序列 信息,仅靠人工完成对所有蛋白质功能的注释是不可能的,使用计算的方法预测蛋白质的 功能协助完成蛋白质功能注释成为研究热点。
[0003] 预测蛋白质功能的计算方法已经有很多。其中,随机森林是组合多棵较弱的分类 器,提高整体的分类准确率。随机森林中决策树的建立方法直接影响整个森林的分类效果。 针对随机森林的特点,该方法先使用聚类的方法重新建立蛋白质数据集的特征向量,强化 蛋白质之间的联系;然后使用随机的方法选取决策树的节点的划分特征,最大化建立随机 森林的随机性。

【发明内容】

[0004] 本发明的目的是提供一种基于随机聚类森林的全基因组蛋白质功能预测方法,克 服现有技术存在的上述不足。
[0005] 本发明的目的可以通过采取如下技术方案实现。
[0006] -种基于随机聚类森林的全基因组蛋白质功能预测方法,其包括如下步骤:
[0007] S1、将已注释功能的蛋白质按功能分别进行聚类,将具有同一种功能的蛋白质划 分为若干个簇,并计算每个簇的中心;
[0008] S2、所有的簇中心组成蛋白质新的特征向量,使用蛋白质原有的多组特征向量将 每个蛋白质转换为只具有一组特征向量的对象;
[0009] S3、将完成特征转换的蛋白质作为数据集,使用已注释功能的蛋白质训练多棵随 机聚类树,构建随机聚类森林作为全基因组蛋白质的功能预测模型,并使用该模型预测未 注释的全基因组蛋白质的功能。
[0010] 作为一种具体的实施方案,步骤S1中,所述的计算每个簇的中心的方法具体为:
[0011] S21、在具有同一种功能的蛋白质中随机选取k个蛋白质作为初始的簇中心;
[0012] S22、使用Hausdorff距离计算每个具有该功能的蛋白质与簇中心对象的距离;
[0013] S23、根据步骤S22计算的距离矩阵,将具有该功能的所有蛋白质划分为k个簇;
[0014] S24、重新计算每个簇的中心对象;
[0015] S25、重复步骤S21-S24,直到每个簇的中心对象不再改变。
[0016] 作为一种具体的实施方案,步骤S2中,所述的蛋白质新的特征向量建立方法具体 如下:
[0017] S31、计算每个蛋白质与每个簇中心的Hausdorff距离H(Xi,Mj);
[0018] S32、计算每个蛋白质的特征值,其计算公式如下:
[0020]其中乂1和…分别是指第i个蛋白质和第j个簇中心,偏差〇由簇中心两两间 Hausdorff距离的平均值决定,具体计算方法如下:
[0022] 其中m为所有簇中心的数量,μ为转换系数,μΕ (〇,1)。
[0023] 作为一种具体的实施方案,步骤S3中,所述的随机聚类树的建立方法具体如下:
[0024] S41、对随机聚类树的每个节点,随机选取一组特征向量{fj| 1 < j 和其对应的 任意阈值{Θ」11 < j ;
[0025] S42、对当前节点D。中的蛋白质进行划分,如果蛋白质的特征f』的值大于则该蛋 白质划分到当前节点的右子节点Dr;否则,该蛋白质划分到当前节点的左子节点D 1;
[0026] S43、计算特征灼的划分值,计算公式如下:
[0028]其中|Dd是指节ADi中蛋白质的个数,InfWDO是指节ADi的信息增益;
[0029] S44、重复步骤S42-S43,找到对当前节点划分值最高的特征fj和其阈值0j;
[0030] S45、重复步骤S41-S44,保留每个节点的划分特征fj和其阈值Θ」,建立一棵随机聚 类树。
[0031] 与现有技术相比,本发明具有如下优点和技术效果:
[0032] 该方法使用聚类的方法将蛋白质原有的多组特征向量转换为一组特征向量,使用 随机选取和精确计算的方法,随机选取随机聚类树中每个节点的划分特征候选集,精确计 算每个特征的划分值,选取划分值最大的特征划分当前节点。该方法不仅提高了蛋白质预 测的效率,也提高了蛋白质功能的注释准确率。
【附图说明】
[0033] 图1为本发明实施例1的一种基于随机聚类森林的全基因组蛋白质功能预测方法 的流程图。
[0034] 图2为本发明实施例1的随机聚类树的生成过程示意图。
【具体实施方式】
[0035]
[0036]下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限 于此。
[0037] 实施例1:
[0038]如图1所示,本实施例1的一种基于随机聚类森林的全基因组蛋白质功能预测方 法,包括以下步骤:
[0039] S1、将已注释功能的蛋白质按功能分别进行聚类,将具有同一种功能的蛋白质划 分为若干个簇,并计算每个簇的中心;
[0040] S2、所有的簇中心组成蛋白质新的特征向量,使用蛋白质原有的多组特征向量将 每个蛋白质转换为只具有一组特征向量的对象;
[0041] S3、将完成特征转换的蛋白质作为数据集,使用已注释功能的蛋白质训练多棵随 机聚类树,构建随机聚类森林作为全基因组蛋白质的功能预测模型,并使用该模型预测未 注释的全基因组蛋白质的功能。
[0042] 所述的计算每个簇的中心的方法具体为:
[0043] S21、在具有同一种功能的蛋白质中随机选取k个蛋白质作为初始的簇中心,作为 举例,k通常为具有该功能的所有蛋白质数量的1/10;
[0044] S22、使用Hausdorff距离计算每个具有该功能的蛋白质与簇中心对象的距离;
[0045] S23、根据步骤S22计算的距离矩阵,将具有该功能的所有蛋白质划分为k个簇;
[0046] S24、重新计算每个簇的中心对象;
[0047] S25、重复步骤S21-S24,直到每个簇的中心对象不再改变。
[0048]所述的蛋白质新的特征向量建立方法具体如下:
[0049] S31、计算每个蛋白质与每个簇中心的Hausdorff距离H(Xi,Mj),具体计算公式如 下:
[0051] 其中Xi和Mj分别是指第i个蛋白质和第j个簇中心,X是蛋白质Xi的一组特征向量;
[0052] S32、计算每个蛋白质的特征值,其计算公式如下:
[0054]其中乂:和…分别是指第i个蛋白质和第j个簇中心,偏差〇由簇中心两两间 Hausdorff距离的平均值决定,具体计算方法如下:
[0056] 其中m为所有簇中心的数量,μ为转换系数,μ e (〇,1)。
[0057] 如图2所示,本发明实施例1的一种基于随机聚类森林的全基因组蛋白质功能预测 方法,所述的随机聚类树的生成过程具体如下:
[0058] S41、对随机聚类树的每个节点,随机选取一组特征向量{fj| 1 < j 和其对应的 任意阈值{Θ」11 < j ;
[0059] S42、对当前节点D。中的蛋白质进行划分,如果蛋白质的特征f』的值大于则该蛋 白质划分到当前节点的右子节点Dr;否则,该蛋白质划分到当前节点的左子节点D1;
[0000] S43、计算特征fj的划分值,计算公式如下:
[0062]其中|DC|是指节点Dc中蛋白质的个数,Inf〇(D c)是指节ADi的信息增益,计算公式 如下:
[0064] S44、重复步骤S42-S43,找到对当前节点划分值最高的特征fj和其阈值0j;
[0065] S45、重复步骤S41-S44,保留每个节点的划分特征fj和其阈值Θ」,建立一棵随机聚 类树。
[0066] 其中,随机聚类树建立的终止条件是,节点中的蛋白质具有的功能一样。图2中,节 点中蛋白质具有的功能一样,且A中蛋白质的功能继承了根节点的功能,中蛋 白质的功能继承了节点B的功能。需要说明的是,图2中根节点被分为两个子节点,在该方法 的具体实施过程中,根节点可能被划分到两个以上的节点。
[0067] 由多棵随机聚类树构建的随机聚类森林蛋白质功能预测模型,使用投票原则预测 为注释的蛋白质的功能。
[0068] 综上所述,本发明使用聚类的方法将蛋白质原有的多组特征向量转换为一组特征 向量,使用随机选取和精确计算的方法,随机选取随机聚类树中每个节点的划分特征候选 集,精确计算每个特征的划分值,选取划分值最大的特征划分当前节点。
[0069] 以上所述,仅为本发明专利优选的实施例,但本发明专利的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技 术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
【主权项】
1. 一种基于随机聚类森林的全基因组蛋白质功能预测方法,其特征在于包括以下步 骤: 51、 将已注释功能的蛋白质按功能分别进行聚类,将具有同一种功能的蛋白质划分为 若干个簇,并计算每个簇的中心; 52、 所有的簇中心组成蛋白质新的特征向量,使用蛋白质原有的多组特征向量将每个 蛋白质转换为只具有一组特征向量的对象; 53、 将完成特征转换的蛋白质作为数据集,使用已注释功能的蛋白质训练多棵随机聚 类树,构建随机聚类森林作为全基因组蛋白质的功能预测模型,并使用该模型预测未注释 的全基因组蛋白质的功能。2. 根据权利要求1所述的一种基于随机聚类森林的全基因组蛋白质功能预测方法,其 特征在于步骤S1所述的计算每个簇的中心的方法具体为: 521、 在具有同一种功能的蛋白质中随机选取k个蛋白质作为初始的簇中心; 522、 使用Hausdorff距离计算每个具有步骤S21所述同一种功能的蛋白质与簇中心对 象的距离,得到距离矩阵; 523、 根据步骤S22计算的距离矩阵,将具有步骤S21所述同一种功能的所有蛋白质划分 为k个簇; 524、 重新计算每个簇的中心对象; 525、 重复步骤S21-S24,直到每个簇的中心对象不再改变。3. 根据权利要求1所述的一种基于随机聚类森林的全基因组蛋白质功能预测方法,其 特征在于步骤S2所述的蛋白质新的特征向量建立方法具体如下: 531、 计算每个蛋白质与每个簇中心的Hausdorf f距离H(Xi,Mj); 532、 计算每个蛋白质的特征值,其计算公式如下:其中分别是指第i个蛋白质和第j个簇中心,偏差〇由簇中心两两间Hausdorff距 离的平均值决定,具体计算方法如下:其中m为所有簇中心的数量,μ为转换系数,μ e (〇,1)。4. 根据权利要求3所述的一种基于随机聚类森林的全基因组蛋白质功能预测方法,其 特征在于步骤S3所述的随机聚类树的建立方法具体如下: 541、 对随机聚类树的每个节点,随机选取一组特征向量{fj 11 < j 和其对应的任意 阈值<m}; 542、 对当前节点D。中的蛋白质进行划分,如果蛋白质的特征f』的值大于则该蛋白质 划分到当前节点的右子节点Dr;否则,该蛋白质划分到当前节点的左子节点D 1; 543、 计算特征fj的划分值,计算公式如下:其中|Di I是指子节点Di中蛋白质的个数,:tnfo(Di)是指子节点Di的信息增益,Info(Dc) 是当前节点D。的信息增益; 544、 重复步骤S42-S43,找到对当前节点划分值最高的特征f j和其阈值Θ j; 545、 重复步骤S41-S44,保留每个节点的划分特征f j和其阈值θ」,建立一棵随机聚类树。
【文档编号】G06F19/18GK105868581SQ201610171048
【公开日】2016年8月17日
【申请日】2016年3月23日
【发明人】吴庆耀, 谭明奎, 陈健, 牟帅, 韩超
【申请人】华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1