一种用于芯片数据分析的可视化分析和展示方法

文档序号:6555567阅读:272来源:国知局
专利名称:一种用于芯片数据分析的可视化分析和展示方法
技术领域
本发明涉及一种基因芯片数据分析的数椐展示方法,尤其涉及一种大规模基 诏芯片数据集分析中妁可视化分析和展示方法。
背景技术
基因芯片的出现是近年来高新技术领域中极具时代特征的重大进展,是物理 学、微电子学与分子生物学综合交叉形成的高新技术。基因芯片技术是一种高通量
的技术,其基本原理是通过微加工工艺在厘米见方的芯片上集成有数以万计的DNA 探针,来实现对mRNA和DNA序列进行高效快捷的定量检测,在基因功能的阐述、 疾病原因及机理的探索、可能的诊断及治疗靶点的发现等应用领域,基因芯片正发 挥着越来越大的用途。
随着基因芯片技术的进步,该技术被越来越多应用到科研和实践中去,大规 模涉及基因芯片的研究也变得可行,因而出现了许多单项研究中包括数百张芯片的 情况。这些研究产生的高维度大内容的数据对试图挖掘其中内涵和有价值的表达模 式(pattern)的研究人员来说是一个很大的挑战。
由于基因芯片技术的高通量的特性产生大规模的数据,深入挖掘内在信息的 芯片数据分析成为了研究中最关键的步骤之一,而用图表等相关技术展示数据更有 助于研究人员特别是生物技术人员和临床医师在复杂的数据中直观地发现一些对 象相互间的关系或者表达模式,而无须深入了解计算机和数学知识,因此也可以说 是数据分析的第一步。目前常用的芯片可^L化分析方法有群集固(Clustergram)、 平行坐标(Parallel Coordinates )、热图(Heat Maps )、散点图(Sca上ter Plots )、 柱状图(Histograms)等等。在一些情况下这些工具相当有用,但当面对极大规模 的芯片数据集来说,就显得有些力不从心,无法表现出数据中所有潜在的^^勾和模 式。因为这些常用工具并不是专门用来解决大规^^芯片数据分析的-问题,有着许多 难以克服的缺陷,比如,热点图(Heat Maps)被广泛的应用于工业界的财务与生 命科学领域,是一类基于等级分类(hierarchical clustering)的展示数据集中
每一个数据点的方法,透—过颜色来表示是否为特定基因的上调和下调,这才羊当数据 样本很多时造成树状图的上千个节点,让人觉得多得无从下手。平行坐标(Para 11 el Coordinates)应用在大规;^lt据集上则显得杂乱无章—,难-以揭示其中的内在。
因此,由于芯片凄战可視化分析和展示方法在基因芯片省史据分析技术领域的 重要性以及现有方法的缺陷,建立一种新的更完善的适合f大规模芯片数据分析的 可视化分析和展示方法,是基因芯片技术领域急需解决的问题。

发明内容
本发明的目的在于解决上述问题,提供了一种基因芯片数据的可视化分析和 展示方法,它能提供直观的芯片可视化方法,能方{緣示大规模的芯片数据,可以 方便生物信息和统计专业人士快速了解数据的结构特性,从而为后续的数学建模分 析提供依据。
本发明的技术方案为 一种用于芯片数据分析的可视化分析和展示方法,其 中,所述方法包括
(1 ) 一次利用自组织映射的神经网络来模拟和学习芯片数据; (2)利用组成分平面来展示步骤(1)得到的单个芯片/样本的数据,将所述 神经网络中的多维神经元载体的单个组成分分离出来,同时用二维平面 展示经步骤(1)学习到的数据结构; (3 )第二次利用自组织映射的神经网络来学习多个样本之间的关系,并利用 最佳匹配单元原理将学习到的组平面/样本关系投射到二维空间,同时 展示数据中样本和基因之间的关系。 上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(l)进一步 包括
(1. 1 )构建自组织映射神经网络;
(1. 2 )所述自组织映射神经网络读取预处理好的各组芯片数据;
(1.3) 找出和当前这组芯片数据最近的神经元,即为最佳匹配单元;
(1.4) 所有在所述网络的拓朴结构中与步骤(1.3)的最佳匹配单元相邻的 神经元象数据点进行移动;
(1. 5 )以下一组芯片数据取代当前这组芯片数据并重复步骤(1. 3 ) - ( 1. 4 ),
直到所有的神经元都训练完毕。 (1.6)输出神经元的结果。 上述的用于芯片数据分析的可视化分析和展示方法,其中,所述步骤(1.3)
中,根据公式llx - mcll = mini(llx - rail |}来寻找最佳匹配单元,其中x 代表输入样本向量,m代表神经元的模式向量,c代表最佳匹配单元,i代M i个神经元,I !. 1 l表示一种计算距离的方法,t代表任一时间。
上述的用于芯片数据分析的可视化分析和展示方法,其中,所述步骤(1. 4 ) 中,根据7i^式mi(t+l) = mi + a(t) hci(r(t)) [i(t) - mi (t)]对神经元象 数据点进行移动,其中x代表输入样本向量,m代表神经元的模式向量,mi(t+l) 代表单元i的加权向量,t代表任一时间,a(t)代表邻近核心函数,其为一 递减函数且介于0与1之间,主要是用来对最佳匹配单元的所有邻近点作调整, hci(r(t))代表最佳匹配单元c附近的邻近核心,r(t)代表邻近半径。
上述的用于芯片数据分析的可4见化分析和展示方法,其中,步骤(1. 1 )进一 步包括
设定输入栽体和输出载体,每个神经元在自组织网络中有原型载体和网络载 体两个位置,原型载体和网络载体分别为自组织网络训练样本的输入变量和输出结 果,同时设定神经元数目;
设定拓朴结构和网络连接,所述网络连接为相邻神经元之间的关系。 上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(2)进一步 包括
(2. 1)将神经元每一维的数值投射到平面上;
(2.2)用图形表示自组织映射的神经网络的拓朴结构,每个神经元用与拓朴 结构对应的图形表示,神经元每个维度的数值用颜色来编码; (2. 3)组成分平面展示结果。
上述的用子芯片数据分析的可视化分析和展示方法,其中,步骤(3)进一步 包括
(11)构建另一自组织映射的神经网络,并将步骤(2)中的每个组成分/样 本的数值构成一个载体;
(3.2)进行第二次自组织映射神经网络的学习;
(3. 3 )通过步骤(3. 2 )的学习找出每个组成分/样本在第二次自组织映射神 经网络的神经元中所对应的最佳匹配单元;
(1 4 )将每个组成分/样本投射到自组织映射神经网络图谱中,该组成分平面 的位置为步骤(3. 3 )得到的该图谱中相应的最佳匹配单元神经元的位置;
(3. 5 )将步骤(2 )的每个组成分/样本的可4见化展示代入;
(3. 6 )在一幅自组织映射神经网络图语中展f最终结果。 上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(3. 4)中, 当相同的样本投射到同 一单元时,匹配值最低的样本将投射到第二匹配单元。
本发明对比现有技术有如下的有益效果本发明的方法可以在一副图镨(map) 中展示所有的芯片数据,同时能准确的将生物芯片数据的重要特征/结构展示出来。 这种分析方法可以直接应用到生物芯片整合平台的制造以及生物芯片数据分析系 统的开发中。同时,将使生物芯片数据分析技术变得直观,克服了生物芯片技术中 的一个重,颈,因此将有易于生物芯片技术的推广和普及。


图1是本发明方法较佳实施例的总流程图。
图2是本发明方法中SOM训练方法的流程图。
图3是本发明方法中组成分平面展示方法的流程图。
图4是本发明方法中平面组分映射到单独图表方法的流程图。
图5是应用本发明的一个实施例的结果示意图。
图6是应用本发明的另一实施例的结果示意图。
具体实施例方式
下面结合附图和实施例对本发明作进一步的描述。
图1示it!了本发明方法的总流程。请参见图1所示,下面是对流程中每一步 骤的详细描述。
步骤S1:第一次利用自组织映射(Self-Organizing Map, S0M)的神经网络 来模拟和学习芯片数据。这种技术利用模拟神经元(neuron )来代替原始数据,是 基于一种称为非监督式(Non-supervi sed )自组织网络映射的神经网络算法基础上
提出的,模拟脑神经元细胞在大脑中的4殳射,可以达到JC低数据密度,减少数据噪 音的目的,同时也使后续的数据展示变得更容易。
图2示出了该步骤的子流程。请参见图2所示,下-面的步骤Sll - S16是对这 些子流程的详细描述。
步骤S11:构建自组织映射神经网络。构建过程主要如下 (1 )设定输入载体和输出载体。每个神经元在自组织网络中都有两个位置-原型载体和网络载体,原型载体为自组织网络训练样本的输入变量,网络载体为网 络的输出结果。它们的维数与生物芯片数据芯片维数相同,它们的神经元数目依据 生物芯片具体数据来决定。
(2) 设定拓朴结构。为了便于进一步展示,本实施例中的拓朴结构为二维的 六边形结构,即每个神经元周围有六个相邻的神经元。
(3) 设定网络连接。网络连接为相邻神经元之间的关系,本实施例中选用高 斯函数来表示,其公式为exp(- II r。-ri II 2/2ci2(t))。
步骤S12:自组织映射神经网络分组读取预处理好的基因芯片数据。将芯片数 据分组,以一次一組的形式读入神经网络。
步骤S13:找出和当前这组芯片数据最近的神经元,即为最佳匹配单元(Best Match Unit, BMU)。
在自组织映射神经网络中,每一项原始数据中具有许多属性,所有的原始 数据均被视为由属性值所构成的输入向量,而被投射的二维平面则由许多的神 经元(neuron)所构成,每一神经元同才羊是由向量所构成,构成神经元的向量称 为模式向量。在学习的过程中,平面中的神经元会与所有的输入向量进行比较, 最接近输入向量的神经元称为最佳匹配单元。
在本实施例中是根据公式l lx - mcll = fflini(IU - raill)来寻找最佳匹 配单元,其中x代表输入样本向量,m代表神经元的模式向量,c代表最佳匹配 单元,i代表第i个神经元,I I. I l表示一种计算距离的方法,通常是欧式距离, t代表任一时间。当前这组芯片数据的最佳匹配单元就是满足上面公式的c。
步骤Sl4:所有在该网络的拓朴结构中与步骤Sl3中找到的最佳匹配单元相邻 的神经元象数据点进行移动。
调整最佳匹配单元的神经元使其与输入向量更加接近,同时也对最佳匹配单
元所有邻近的点进行调整,使得分群中的相似数据更加接近。具体是根据公式
mi(t+l) -迈i + a(t)hci (r (t)) [i (t)-mi (t)]对神经元象数振点进行移动,其冲 x代表输入样本向量,m代表神经元的模式向量,mi(t+l)代表单元i的加权向量, t代表任一时间,a(t)代表邻近核心函数,其为一递减函数且介于0与1之间, 主要是用来对最佳匹配单元的所有邻近点作调整,常用的有泡沫函数(bubb 1 e ) 和高斯函数(gaussian)两种,hci(r(t))代表最佳匹配单元c附近的邻近核 心,r(t)代表邻近半径。
受调整的神经元的调整范围及调整率,为与最佳匹配单元间的距离。 一般所 采用的距离计算式如下式exp(-llr「rillV2cj2(t)),其中r。代表神经元在自组 织图中的位置,sigraa(t)是在t时刻的邻近半径。
步骤S15:判断当前处理的这组芯片数据是否为最后一组。如果是,则转入下 一步,否则将下一组芯片数据取代当前这组数据并转入步骤Sl 3进行相同的处理。
步骤S16:输出神经元的结果。
步骤S2:利用组成分平面来展示单张芯片/样本的数据。其原理是将上述的多 维神经元载体(neuron vector)的单个组分分离出来,同时用二维的平面展示自 组织网络学习到的数据结构。图3示出了组成分平面展示的子流程。请参见图3 所示,下面的步骤S21-S23是对这些子流程的详细描述。
步骤S21:将第一次SOM的神经元每一维的数值投射到平面上。
步骤S22:用-图形表示自组织映射神经网络的拓朴结构,每个神经元用与拓朴 结构对应的图形表示,神经元每个维度的数值用颜色来编码。
在本实施例中,由于拓朴结构采用的是六边形结构,故用包含六边形的图谱 来展示自组织网络的拓朴结构,即组平面是由六边形组成的,每个六边形代表自组 织网络中的一个神经元。六边形的数值代表神经元在输出空间中的单个组成分(维 度的数值),这些数值用颜色矩阵来表示,在本实施例中红色表示高值,蓝色表示 低值。因此,每个组成分展示了自组织网络学习到的每个样本/芯片的数据特性。
步骤S23:组成分平面展示结果。
步骤S3:第二次利用自组织映射神经网络来学习多个样本之间的关系,并利用最佳匹配单-元原理将学习到的组平面/样本关系投射到二维空间,确定平面組分 在展示图中的位置,同时展示数据中样本和基因之间的关系。
掛4示出了该步骤S3的子流程。i青参见图3所示,下面的步骤S31 - S36是 对这些子流程的详细描述。
步骤S31:构建第二个自组织映射的神经网络,并将步骤S2中的每个组成分/ 样本的数值构成一个载体。
为了减少数据的计算量,第二次自组织网络学习是建立在第一次自组织网络 之上。在构建第二次自组织网络中,模拟神经元载体的维数等于第一次自组织网络 中包含的神经元的数目,模拟神经元的数目将设置成大于组平面的数目。而第二次 自组织网络用的距离公式与第一次不同,第一次采用欧式距离,第二次采用共相关 系数来计算数据点之间的距离。
—步骤S32:进行第二次自组织映射神经网络的学习。其学习过程与第一次自组 织映射神经网络学习类同,在此不再重复描述。
步骤S33:通过步骤S32的学习找出每个组成分/样本在第二次自组织映射神 经网络的神经元中所对应的最佳匹配单元。最佳匹配单元的寻找和处理方法类似步 骤S13-S14。
步骤S34:将每个组成分/样本投射到自组织映射神经网络图镨中,该组成分 平面的位置为步骤S33得到的该图i脊中相应的最佳匹配单元神经元的位置。如果遇 到相同的样本投射到同 一单元,则匹配值最低的那个样本将会投射到第二匹配单元 (next-best-matching)。所谓第二匹配单元,是指平面中的神经元与所有的 输入向量进行比较后第二接近输入向量的神经元。
步骤S35:将步骤2中的每个组成分/样本的可视化展示代入。 步骤S36:在所有组成分/样本都处理完毕后,这幅自组织映射神经网络图谱 将展示最终结果。
图5示出了本发明方法的一个应用实施例。请参见图5,应用本方法,按照不 同^)表达模式,在图中分开明显的三个区域,分别为All-T (T cell acute lymphoblastic leukemia, T型急性淋巴白血病)、ALL—B (B cell acute lymphoblastic leukemia, B'型急性淋巴白血病)、AML( acute myeloid leukemia,
急性粒细胞白血病-)。通过分析結果可知,该图谱可以作为用来实现下列目标的有
效工具。(1)为整个芯片数据提供一个鸟瞰图,以便于寻找数据中一些大规模的 特性。比如在卧5中,AML和ALL样本可以由它们各自在图中的位置和组成分的花 式(pattern)轻易的分别开来。AML和ALL在图中各自聚集在一起。同时通过观 察图5,可以发现ALL样本中间有一条清晰的,由空网格隔开的边界,这暗示着ALL 类别中可能存在亚类。检视原始数据提供的病人样本信息可以发现,这两类样本分 别为T细胞来源的ALL和B细胞来源的ALL。T细胞来源的ALL和B细胞来源的ALL 在生物学上和临床治疗上有很大的区别。因此,它们在转录表达水平上的不同,暗 示着它们可能为ALL的两个亚类。由上述分析可知,我们的结果能展示芯片数据中 大尺度的特性,为进一步挖掘样本之间的关系提供便利。(2)可以用来寻找样本 局部的联系,这些联系能提供宝贵的信息。进一步的观察T-ALL和B-ALL的基因表 达谱不难发现在所有的T-ALL组成分平面的右下角的基因跟B-ALL表达转况有很
大的区别。这些区别表现在这些基因在T-ALL样本中,相对与B-ALL样本具有高水 平的表达。暗示着这些基因可能代表了 T-ALL和B-ALL的表达差异,它们可能用做
区分这两类样本的标记基因(marker gene)。
图6示出了本发明方法的另一应用实施例。请参见图6,应用本方法,按照不
同的表达模式,将样品中不同组织或者器官映射到各自的区域,各个区域具有明显
的表达特征,聚集在一起的都为相同的组织样本,它们的表达谙具有相同的花式 (pattern)和特性,图中也直观的反映了这些组织的的起源关系。因此,在我们
的分析中证^了该方法非常利于观察复杂数据的结构,有利于研究人员快速寻找数
据中感兴趣的特征。
综上,本发明利用SOM (Self-organizing Map,自组织映射)向量映射的特 性,应用组分平面展示技术将高维的芯片表达数据转化为二维的带色彩的模式,在 可视化分析生物样本之间的联系方面非常有用。然而在处理大规模数据时,组分之 间寻找相似性和区别仍然十分麻烦。因此将平面组分组织并把它们映射到一个新的
单独的图表上,使^寻能够:^示和便利挖掘庞大数据集中基因和样品各自的自然类别
和相关联的表达模式。对于生物技术研发人员和临床医师,使用本发明的方法不需 要专业的数学和计算机知识,同时提供可靠的分析结果.该方法由于使用了先进的 神经网络技术,使得生物芯片数据处理系统的处理能力大大增强,原本在大型机完
成的任务,能轻松在个人PC机完.成。因此本方法将有利于芯片分析平台和软件的 研制,节省建立平台的成本,也有利于生物芯片产品的普及。
上述实施例是提供给本领域普通」技术人员来实现或使用本发明的,本领域普 通技术人员可在不脱离本发明的发明思想的情况下,对上逸实施例做出种种修改或 变化,因-而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提 到的创新性特征的最大范围。
权利要求
1一种用于芯片数据分析的可视化分析和展示方法,其特征在于,所述方法包括(1)第一次利用自组织映射的神经网络来模拟和学习芯片数据;(2)利用组成分平面来展示步骤(1)得到的单个芯片/样本的数据,将所述神经网络中的多维神经元载体的单个组成分分离出来,同时用二维平面展示经步骤(1)学习到的数据结构;(3)第二次利用自组织映射的神经网络来学习多个样本之间的关系,并利用最佳匹配单元原理将学习到的组平面/样本关系投射到二维空间,同时展示数据中样本和基因之间的关系。
2.根据权利要求1所述的用于芯片数据分析的可视化分析和展示方法,其特 征在于,步骤(1)进一步包括(1.1)构建自组织映射神经网络;(1. 2 )所述自组织映射神经网络读取预处理好的各组芯片数据;(1.3) 找出和当前这组芯片数据最近的神经元,即为最佳匹配单元;(1.4) 所有在所述网络的拓朴结构中与步骤(1.3)的最佳匹配单元相邻的 神经元象数据点进行移动;(1. 5 )以下一组芯片数据取代当前这组芯片数据并重复步骤(1. 3) - (1. 4 ), 直到所有的神经元都训练完毕。 (1.6)输出—神经元的结果。
3.根据权利要求2所述妁用于芯片数据分析妁可视化分析和展示方法,其特 征在于-,所述步骤(1. 3)中,根据公式l lx - mcl I = mini {| |x - mi | |}来 寻找最佳匹配单元,其中x代表输-入样本向量,m代表神经元的模式向量,c 代表最佳匹配单元,i代表第i个神经元,II. ll表示一种计算距离的方法,t 代表任一时间。
4.根据权利要求2所述的用于芯片数据分析的可#见化分析和展示方法,其特征在于,所述步骤(l.斗)中,賴4居/>式—迈i (t + l) =mi-+ a(t) hci(r(t)) [x(t) -坦i(t)]对神经-元象数据点进行移动,其中x代表输入样本向量,m代表神经 元的模式向量,mi(t+l)代表单元i的加权向量,t代表任一时间,a(t)代表 邻近核心函数,其为一递减函数且介于0与1之间,主要是用来对最佳匹配单 元的所有邻近点作调整,hci (r(t))代表最佳匹配单元c附近的邻近核心,r (t) 代表邻近半径。
5.根据权利要求2所述的用于芯片数据分析的可视化分析和展示方法,其特 征在于,步骤(1. 1)进一步包括设定输入栽体和输出载体,每个神经元在自组织网络中有原型载体和网络载 体两个位置,原型载体和网络载体分别为自组织网络训练样本的输入变量和输出结 果,同时设定神经元数目;设定拓朴结构和网络连接,所迷网络连接为相邻神经元之间的关系。
6.根据权利要求l所述的用于芯片数据分析的可视化分析和展示方法,其特 征在于,步骤(2)进一步包括(2. 1)将神经元每一维的数值投射到平面上;(2. 2)用图形表示自组织映射的神经网络的拓朴绪构,每个神经元用与拓朴 结构对应的-图形表示,神经元每个维度的数值用颜色来编码; (2. 3)组成分平面展示结果。
7.根据权利要求1所述的用于芯片数据分析的可视化分析和展示方法,其特 征在于,步骤(3)进一步包括(3.1)构建另一自组织映射的神经网络,并将步骤(2)中的每个组成分/样 本的数值构成一个载体;(3. 2 )进行第二次自组织映射神经网络的学习;(3. 3)通过步骤(3. 2 )的学习拔化每个组成分/样本在第二次自组织映射神 经网络的神经元中所对应的最佳匹配单元; (3. O将每个组成分/样本投射到自ia织映射神经网络图谱中,该组成分平面 的位置为步骤(3. 3)得到的该圓谦中相应妁最佳匹私单元神经元的位置; (3, 5 )将步骤-(2 )的每个组成分/样本的可视化展示代入; (3. 6 )在一幅自组织映射神经网络图谪呻展示最终结果。征在于,步骤(3.4)中,当相同的样本投4t到同一单元时,匹配值最低的样本将 投射到第二匹配单元。
全文摘要
本发明公开了一种基因芯片数据的可视化分析和展示方法,它能提供直观的芯片可视化方法,能方便展示大规模的芯片数据。其技术方案为该方法包括(1)第一次利用自组织映射的神经网络来模拟和学习芯片数据;(2)利用组成分平面来展示步骤(1)得到的单个芯片/样本的数据,将所述神经网络中的多维神经元载体的单个组成分分离出来,同时用二维平面展示经步骤(1)学习到的数据结构;(3)第二次利用自组织映射的神经网络来学习多个样本之间的关系,并利用最佳匹配单元原理将学习到的组平面/样本关系投射到二维空间,同时展示数据中样本和基因之间的关系。本发明应用于大规模基因芯片数据分析技术领域。
文档编号G06F17/00GK101097585SQ200610028348
公开日2008年1月2日 申请日期2006年6月29日 优先权日2006年6月29日
发明者超 王, 谢松旻, 刚 金 申请人:中国科学院上海生命科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1