一种基于AP聚类和ISA双向聚类的双向聚类方法与流程

文档序号:12964182阅读:388来源:国知局
本发明属于数据处理
技术领域
,尤其涉及一种基于ap聚类和isa双向聚类的双向聚类方法。
背景技术
:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能的小。不同于分类,聚类所要划分的类是未知的。在聚类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。目前,聚类的方法有很多种,根据聚类方向的不同,大致可以将聚类方法分为单路聚类方法和双向聚类方法。单路聚类方法,即传统聚类方法,将矩阵的行或列作为处理对象,并且一次只能从一个方向对矩阵进行聚类,通常以对象间的距离来指定划分的标准,距离的计算方法常用的有:欧氏距离、马氏距离、皮尔逊相关系数等。常用的单路聚类方法有:ap(affinitypropagation)聚类、k-means、层次聚类、自组织神经网络(som)等。一般情况下的聚类分析单路聚类方法都可以解决,但是存在以下缺陷:(1)传统的聚类方法结果中一个特征或样本不可能同时出现在两个类当中,即聚类得到的多个类间不允许有重复信息。(2)由于一次只能从一个方向上聚类的特性,关注的只是全局信息,而忽略了局部信息的重要性,即一次只能得到样本或者特征的聚类结果。为了克服传统单路聚类的不足,双向聚类算法应运而生,双向聚类允许同时从行、列两个方向进行聚类,来发现子矩阵或稳定的类,这些子矩阵允许有重复的行或列,这种方法从很大程度上克服了传统聚类的弊端。迭代签名算法(isa,iterativesignaturealgorithm)就是其中应用较为广泛的一种,尤其在基因表达数据处理上显示出较强的优势,它能够发现基因表达矩阵一个共调解的基因子集和其相匹配的样本子集,并将这一子类称作转录模块(tm,transcriptionmodules)。但isa方法同时也存在一些缺陷:(1)种子的选择对聚类结果影响很大,在没有先验知识的情况下,每次随机选择的种子的不同有可能导致最终结果组成和大小的不同。(2)isa算法阈值的设定可以设定为单一值或者阈值向量,而在没有先验知识的情况下,一般isa算法的阈值设置为单一值,导致最终的双向类的大小相似,便失去了聚类的实际意义。综上所述,现有技术存在的问题是:目前的聚类方法存在结果中一个特征或样本不可能同时出现在两个类当中,忽略了局部信息的重要性;在没有先验知识的情况下,每次随机选择的种子的不同有可能导致最终结果的不同;isa算法的阈值设置为单一值,导致最终的双向类的大小相似。技术实现要素:针对现有技术存在的问题,本发明提供了一种基于ap聚类和isa双向聚类的双向聚类方法。本发明是这样实现的,一种基于ap聚类和isa双向聚类的双向聚类方法,所述基于ap聚类和isa双向聚类的双向聚类方法包括:(1)应用ap聚类对需要聚类的样本进行初步归类,接着随机产生10000个0/1稀疏向量,其中向量的长度等于样本数量;(2)利用ap聚类的结果对稀疏向量进行分类,将向量中非零元素所对应的样本在ap聚类结果的同一类中的向量聚为一类,并将不属于任何一类的向量去掉,将向量进行归类;(3)将分类后的向量作为isa双向聚类的输入,并为每一个向量设置相对应的阈值,应用isa双向聚类进行处理,最后得到多个双向类,每一双向类包括一个样本子集和一个特征子集。进一步,所述基于ap聚类和isa双向聚类的双向聚类方法包括如下步骤:步骤一,对矩阵数据进行预处理:矩阵为e(m×n),其中m和n分别为样本和特征数量;对矩阵e中的缺省值采用k邻近法进行填充;步骤二,使用ap聚类对数据的样本方向进行聚类,聚类前通过设定聚类个数k来调节聚类结果的个数,将样本分为k个类别,标记为si(i=1,2…,k);步骤三,随机产生10000个0/1稀疏向量,每一个向量大小为m,将向量中非零元素所对应的样本在ap聚类结果同一类中的向量聚为一类,并将不在任意一类中的向量去掉,即将所有向量分为k类,记为ci(i=1,2…,k),作为isa输入,执行步骤四;步骤四,将筛选过后的种子矩阵c=c1∪c2∪…∪ck和矩阵e作为isa双向聚类算法的输入,种子的个数为d,按照阈值设置规则为每个种子设置行阈值tc和列阈值tg;对于每一个种子c0(c0∈c),使用isa双向聚类算法,得到种子c0所对应的一个双向类;步骤五,根据得到的所有种子c所对应的d个双向类,将这d个双向类中样本和特征的差异性在阈值r以上的双向类保留下来,得到最终的双向类。进一步,所述步骤二中ap聚类的具体实现方法为:计算矩阵e的相似性矩阵,相似性度量采用皮尔逊相关系数,两个样本点i和k,这两个样本点通过传递信息响应性和适用性来判断哪个样本点作为聚类中心,具体更新公式如下:其中,s(i,k)代表i和k两个样本点的相似性,r(i,k)是由样本点i发给候选聚类中心k的,用来表明与其他候选聚类中心k’相比,样本点k适合作为样本点i的聚类中心所积累的证据;a(i,k)是由候选聚类中心k传递给样本点i的,用来表明考虑到其他样本点i’对样本点k成为聚类中心的支持度上,样本点i挑选样本点k作为聚类中心的累积合适程度,a(i,k)初始值为0;根据最大化每个样本点两个变量之和来判断当前样本点是一个聚类中心,还是隶属于其他的聚类中心。进一步,所述步骤四中阈值设置规则是为每一个种子均设置阈值,但属于同一种类型的种子间阈值相同。进一步,所述步骤四中isa算法的具体执行方法包括:计算矩阵e的行标准矩阵ec和列标准矩阵eg,标准化后矩阵中的向量都具有零均值和单位长度为1的特性;对于初始种子c0来说,isa算法通过以下更新公式来求取代表双向类中样本和特征的向量:其中cn和gn代表第n次迭代更新后的向量,向量中的非零元素分别用来挑选样本和特征;直到cn-1和cn、gn-1和gn非常接近时,迭代终止,cn和gn向量中非零元素所对应的样本和特征就组成了一个双向类。进一步,所述步骤五中阈值r取值为70%。本发明的优点及积极效果为:将ap聚类和isa双向聚类有机结合起来,发挥各自的优势,达到识别不同大小双向类的目的,提高矩阵数据中局部信息的识别能力。本发明综合考虑数据中局部信息的重要性和不同类别间的样本比例差异,能够处理疾病基因表达数据,进而发现疾病相关亚型,对复杂疾病的基因表达模式研究和临床中疾病的诊断和预防都具有重要的意义;将可能存在不同类别信息的数据进行聚类研究,识别数据中具有不同模式的样本及其对应的特征集合,可用于疾病基因表达数据的处理,发现疾病亚型,从而阐释复杂疾病亚型的基因表达模式。本发明综合考虑ap聚类和isa双向聚类的优点,在寻找局部信息的同时,利用ap聚类的结果为isa种子选择提供参考,考虑到了双向类可能存在的规模差异,使得聚类结果更具有现实意义。本发明利用isa双向聚类算法,使得结果允许两个双向类之间有重叠,应用起来更加灵活,例如该算法在基因表达数据上的应用,重叠的部分正好证实了一个基因可能同时参与多个调控通路。附图说明图1是本发明实施例提供的基于ap聚类和isa双向聚类的双向聚类方法流程图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。下面结合附图对本发明的应用原理作详细的描述。如图1所示,本发明实施例提供的基于ap聚类和isa双向聚类的双向聚类方法包括以下步骤:s101:应用ap聚类对需要聚类的样本进行初步归类,接着随机产生10000个0/1稀疏向量,其中向量的长度等于样本数量;s102:利用ap聚类的结果对稀疏向量进行分类,将向量中非零元素所对应的样本在ap聚类结果的同一类中的向量聚为一类,并将不属于任何一类的向量去掉,将向量进行归类;s103:将分类后的向量作为isa双向聚类的输入,并为每一个向量设置相对应的阈值,应用isa双向聚类进行处理,最后得到多个双向类,每一双向类包括一个样本子集和一个特征子集。下面结合具体实施例对本发明的应用原理作进一步的描述。本发明实施例提供的基于ap聚类和isa双向聚类的双向聚类方法具体包括以下步骤:步骤一,对矩阵数据进行预处理:设矩阵为e(m×n),其中m和n分别为样本和特征数量。对矩阵e中的缺省值采用k邻近法进行填充,如果数据的范围较大,可以通过取对数将范围控制在一定范围内,以便观察。步骤二,通过ap聚类对样本方向进行聚类:使用ap聚类对数据的样本方向进行聚类,聚类前可以通过设定聚类个数k来调节聚类结果的个数,最终将样本分为k个类别,将其标记为si(i=1,2…,k)。步骤三,根据ap聚类结果对种子进行分类:随机产生10000个0/1稀疏向量,每一个向量大小为m,将向量中非零元素所对应的样本在ap聚类结果同一类中的向量聚为一类,并将不在任意一类中的向量去掉,即将所有向量分为k类,记为ci(i=1,2…,k),将其作为isa输入,执行步骤四。步骤四,将分好类的种子以及矩阵数据作为输入,执行isa双向聚类算法:将步骤三中筛选过后的种子矩阵c=c1∪c2∪…∪ck和矩阵e作为isa双向聚类算法的输入,设其中种子的个数为d,之后按照阈值设置规则为每个种子设置行阈值tc和列阈值tg。对于每一个种子c0(c0∈c),使用isa双向聚类算法,得到种子c0所对应的一个双向类。这样一来,可以得到所有种子c所对应的d个双向类,将这d个双向类中样本和特征的差异性在r%以上的双向类保留下来,得到最终的双向类。一般情况下,r值取为70%。下面结合实验对本发明的应用效果作详细的描述。实验1:真实的基因表达数据中亚型的识别真实的数据选用tcga(thecancergenomeatlasnetwork)发表的乳腺癌基因表达数据,数据中包括547个样本,其中包括522个原发性肿瘤杨本、3个转移肿瘤样本和22个癌旁组织的正常样本,基因共17815个。从这些基因中挑选中在配对标本之间差异不明显而在不同肿瘤之间具有明显差异的“固有基因”,共1906个。在该数据上具体实施步骤如下:1、对初识乳腺癌基因表达数据矩阵e进行预处理,m为547个样本,n为1906个基因,使用k邻近法进行缺失值的填充。2、由于目前公认的乳腺癌亚型有五类且其中luminal亚型样本占大多数,所以设定k值为5,并在基因表达数据上从样本方向进行ap聚类,最终将样本划分为5类,记为si(i=1,2…,5)。3、随机产生10000个0/1稀疏向量,大小为样本数量m=547,将向量中非零元素所对应的样本在ap聚类结果的同一类中的向量分为一类,最终将向量分为k=5类,记为ci(i=1,2…,5)。4、将筛选过后的种子矩阵c=c1∪c2∪c3∪c4∪c5和基因表达数据矩阵e作为isa双向聚类算法的输入。根据阈值设定规则为每一个种子设定阈值,但每一类中种子阈值相同,分别为5类种子设置的行阈值tc为:1、1.4、0.9、1.4、2,列阈值tg均设置为1.6,然后执行isa双向聚类算法,将结果双向类中样本和特征的差异性在r=70%以上的双向类保留下来。表1是本发明方法在乳腺癌基因表达数据中识别得到的9个显双向类的样本和基因组成。将表1的结果与原始文献中使用pam50预测的结果进行对比发现,本发明的方法准确地识别出已经得到公认的basal-like(bicluster4)、her2+(bicluster3)、normal-like(bicluster1)三类亚型,而将luminal亚型的样本进一步划分成了四类,分别为bicluster5、bicluster6、bicluster7和bicluster9,这与luminal亚型可变性强相符。本发明除了将样本进行了聚类,同时还得到了各亚型相关的基因,除了得到一些目前已知的基因之外,本发明聚类结果还得到了一些表现明显但目前研究较少的基因,例如,basal-like亚型中的fabp7、crabp1和ropn1基因;her2+亚型中fgfr4和tcap基因;luminal亚型中,bicluster5中的pvalb、cga和trh基因,bicluster6中的gria2和cyp2a7基因,由此也验证了本发明的有效性。表2中将本发明得到的结果与原始文献中分类结果进行了对比,发现basal-like(bicluster4)、her2+(bicluster3)、normal-like(bicluster1)三类通过本发明聚类结果与原始分类差别不大,而将luminal进行了细分,包括luminala和luminalb亚型混合组成的bicluster5、bicluster6、bicluster7三类和主要由luminala样本组成的bicluster9类。对各个双向类的临床结果进行对分析,发现各个亚型之间在雌激素受体(estrogenreceptor,er)和孕激素受体(progesteronereceptor,pr)表现上具有明显的差异。同时通过go和kegg富集分析发现,与癌症相关的通路,如:wnt信号通路、ppar信号通路和p53信号通路等等均在富集结果中出现,但各个类的富集结果有明显差异。对于luminal亚型来说,由luminala主导的bicluster5,6,9三个双向类在细胞毒t细胞成熟生物过程上有显著富集,而在luminalb主导的bicluster7中并未富集,由此也看出这四类luminal亚型之间也存在明显差异性。除此之外,由表1中各双向类中样本大小可以看出,本发明能够考虑到现实中各亚型患者数量比例情况。根据真实数据的运行结果,可以验证本发明方法在识别乳腺癌亚型上的有效性。表1双向类样本个数基因个数所对应的亚型bicluster130101normal-likebicluster22272-bicluster35570her2+bicluster49170basal-likebicluster55981luminalbicluster64977luminalbicluster75979luminalbicluster89288-bicluster911793luminal表2basal-likeher2+luminalaluminalbnormal-liketotalnumbicluster100602430bicluster25491322bicluster304258055bicluster490100091bicluster5003325159bicluster6003117049bicluster7032233159bicluster837162214392bicluster90097190117以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1