基因分类方法、基因分类程序以及基因分类装置的制作方法

文档序号:575196阅读:236来源:国知局
专利名称:基因分类方法、基因分类程序以及基因分类装置的制作方法
技术领域
本发明涉及基因分类方法、基因分类程序以及基因分类装置,
更具体地,涉及利用由使用生物鉴定基盘(bioassay bed)获得的 基因表达水平(gene expression level)的技术领域。
背景技术
过去,已知使用通过从样本细胞中提取出的mRNA或其cDNA以及 核酸探针形成的互补链的量作指标来测量在样本细胞中所表示的基因的 基因表达水平的技术(例如,参见JP-A-2008-82876 )。
在不同的4Hf下,在不同细胞间或在不同的时间处对基因表达水平进 行比较,并提取和分析其差异,从而显示出其有用性。然而,作为分析基 因表达水平的 一个方面,存在基于基因表达水平的时间变化对基因进行分 类的需要。

发明内容
然而,目前并没有针对用于将基因分为多类的基因表达水平的时间变 化的标准。即使存在标准^数万个基因中比较出两个不同的基因,应该 比较所有可能的组合,这样效率是非常低的。
因此,期望提供可以基于基因表达水平的时间变化简单地对基因进行 分类的基因分类方法、基因分类程序和基因分类装置。
本发明的实施例的目的在于可以解决上述问题的第一基因分类方法、 第一基因分类程序、第一基因分类装置、第二基因分类方法、第二基因分 类程序和第二基因分类装置。
本发明一个实施例的第一基因分类方法包括步骤:在多个观测点获取 多个基因的表达水平;对于每个基因,通it^t观测点的时间经过方向上取 表达水平的正差或负差来生成二进制串;以及基于二进制串能够具有的所有正和负的模式以及生成的二进制串iM"基因进行分类。
本发明一个实施例的第一基因分类程序使计算机执行:在多个观测点 获取多个基因的表达水平;对于每个基因,通it^观测点的时间经过方向
上M达水平的正差或负差来生成二进制串;以及基于二进制串能够具有 的所有正和负的模式以及生成的二进制串来对基因进行分类。
本发明一个实施例的第一基因分类装置包括获取装置,用于在多个 观测点获取多个基因的表达水平;生成装置,用于对于每个基因,通it4 观测点的时间经过方向上M达水平的正差或负差来生成二进制串;以及 分类装置,用于基于二进制串能够具有的所有正和负的模式以及生成的二 进制串来对基因进行分类。
本发明一个实施例的第二基因分类方法包括以下步骤在多个观测点 获取多个基因的表达水平;检测每个基因的最大表达水平和最小表达水 平;以及基于包括由两个观测点构成的对的组合模式以及所检测的最大和 最小表达水平的观测点对基因进行分类。
本发明一个实施例的第二基因分类程序使计算机执行:在多个,见测点 获取多个基因的表达水平;检测每个基因的最大表达水平和最小表达水 平;以及基于包括由两个观测点构成的对的组合模式以及所检测的最大和 最小表达水平的观测点对基因进行分类。
本发明一个实施例的第二基因分类装置包括获取装置,用于在多个 观测点获取多个基因的表达水平;检测装置,用于检测每个基因的最大表 达水平和最小表达水平;以及分类装置,用于基于包括由两个观测点构成 的对的组合模式以及由检测装置所检测的最大和最小表达水平的观测点 对基因进行分类。
根据本发明实施例的第一基因分类方法、第一基因分类程序和第一基 因分类装置,通过基于取决于观测点的时间变化的表达水平"增加"或"减 小"的改变将观测点的表达水平转换为二进制数值的串(二进制串),必 然可以获得二进制串可具有的模式(正模式和负模式)。因此,根据本发 明的实施例,可以基于表达水平的时间改变来简单地对基因进行模式化。
此外,与使用观测点的表达水平而不转换为二进制数值的字串(二进 制串),基于数万个基因中的两个不同基因可具有的所有组合将基因分类 为模式的情^U目比,可以进一步大大地减小分类所需的时间(负荷)。
根据第二基因分类方法、第二基因分类程序和第二基因分类装置,通过仅在多个观测点获取多个基因的表达水平,必然有可能获得具有由两个 观测点构成的对的组合模式。因此,根据本发明的实施例,可以基于基因 表达水平达到最大或最小的时间来简单地对基因进行模式化。
此外,不同于第一基因分类方法、第一基因分类程序以及第一基因分 类装置,由于将基因分为基于观测数目必然获得的组合模式而不转换为二 进制串,所以可以大大减小分类所需的时间(负荷)。然而,处理时间的 减少不是用于确定分类能力的优劣的因素。


图1是示意性示出根据本发明实施例的基因分析系统的整体结构的 示图。
图2是示意性示出核酸芯片中的杂化的示图,
图3是示意性示出在观测点处获取目标细胞中的基因表达水平的示图.
图4是示出基因分类装置的结构的框图。
图5是示出用于执行基因分类处理的CPU的功能结构(1)的框图。
图6是示意性示出基因表达水平的时间序列二进制化的示图。
图7是示意性示出当观测点的数量为6个时表达变化模式的示图。
图8A和图8B是示出测试结果1的图表。
图9是示出测试结果2的图表。
图10是示出测试结果3的图表。
图IIA和图11B是示出测试结果4的图表。
图12是示意性示出当观测点的数量为5个时表达变化模式的示图。
图13是示出第一基因分类处理的;綠的流程图14是示出用于执行基因分类处理的CPU的功能结构(2 )的框图。
图15是示意性示出当观测点的数量为5个时包括成对的两个观测点 的组合模式的示图。
图16A和图16B是示出测试结果5的图表。图17A和图17B是示出测试结果6的图表。
图18是示出第二基因分类处理的流程的流程图。
图19是示出第三基因分类处理的^^呈的流程图。
具体实施例方式
以下,将描#发明的优选实施例。将以以下顺序进行描述。
1. 基因分析系统的结构
2. 基因分类装置的电路结构
3. 基因分类处理 3-l.第一基因分类处理 3-1-1.功能结构 3-1-2.基因分类处理的流程 3-1-3.优点及其他 3-2.第二基因分类处理 3-2-1.功能结构
3-2-2.基因分类处理的流程 3-2-3.优点及其他
4. 其他实施例 l.基因分析系统的结构。
图1示出了根据本发明实施例的基因分析系统1的整体结构。基因分 析系统1包括荧光强度测量装置3和基因分类装置4。
荧光强度测量装置3包括测量级,并且核酸芯片CP被设置在测量级 上。核酸芯片CP是其上排列有与目标细胞中的基因相对应的核酸探针的 基盘。200910168503.9
说明书第5/22页
例如,在核酸芯片CP中,如图2所示,从目标细胞中提取出的并向 其添加了标识物质(由黑色圆團表示的部分)的目标核酸(由短波浪线表 示的部分)被分配给核酸探针(由长波浪线表示的部分),并在其上执行 互4hM形成反应(下文称为"杂化(hybridization)")。
核酸探针通常被设计为对于特定基因来说在特定的多个碱基序列部 分中成对的核苷酸片段(下文称为"探针组"),而未被设计为在特定基因 中的所有碱基序列中成对的核苷酸。还设计了探针组的控制。探针组和控 制排列在为核酸芯片CP分配的预定区域中。具体地,约18 60[mer(单 体单元)]的DNA (脱氧核糖核酸)片段、cDNA (互补DNA)片段或 PNA (肽核酸)被用作探针片段。
另一方面,目标核酸是将与核酸探针杂化的单链核苷酸。 一般地, mRNA (包括pre-mRNA)或其片段本身不被用作目标核酸,但使用通过 逆转录酶转换mRNA或其片段的产物。
标识物质通常是诸如生物素或FITC (异硫氰酸荧光素)的荧光染料。 然而,标识物质不限于荧光素染料,而是可以釆用例如放射性同位素。
当给出测量指示时,荧光强度测量装置3 (参见图1)将来自添加至 目标核酸的标识物质的^JL光施加给设置在测量级上的核酸芯片CP。当
时,添加至目标核酸的标识物质利用激发光而发光。发射强度与由目标核 酸和核酸探针形成的互补链的量相关联。即,随着与核酸^^针形成互^h^ 的目标核酸的量的增加,发射强度也增大。
荧光强度测量装置3在向核酸探针和控制施加^L光之后测量来自 核酸探针和控制的发射强度,并输出表示所测量的发射强度的数据(下文 称为"荧光强度数据")。
例如,如图3所示,基因分类装置4根据在每个预定的观测时刻从连
的杂化结果(荧光强度数据),来获取在每个观测点tm(其中m是自然数)处的目标细胞中的基因Gn (其中n为自然数)的表达水平GEn。
然后,基因分类装置4基于表达水平GEn的时间变化来对基因Gn进
行分类。
2. 基因分类装置的电路结构
现在描述基因分类装置4的结构。如图4所示,基因分类装置4通过 将各种硬件连接至控制整个基因分类装置4的CPU (中央处理单元)10 来构成.
具体地,例如,ROM (只读存储器)11、用作CPU 10的工作区的 RAM (随M取存储器)12、操作单元13、存储单元14、接口 15和显 示单元16经由总线17连接。
在ROM 11中存储用于测定基因表达水平的程序(下文还称作"基 因分类程序")。接口 15可以以有线或无线方式向/从荧光强度测量装置3 传输/接收数据。
当在RAM 12中扩展存储在ROM 11中的基因分类程序时,CPU 10 基于基因分类程序适当地控制存储单元14、接口 15和显示单元16,以执 行基因分类处理。
3. 基因分类处理
现在将参照两个实例具体描逸基因分类处理。 3-l.第一基因分类处理 3-1-1.功能结构
在第一基因分类处理中,如图5所示,CPU10用作荧光强度获取部 21、表达水平计算部22、 二进制化部23和分类部24。
荧光强度获取部21等待来自^Mt单元13的对于核酸芯片CP的荧光 强度测量请求,并且当接收到测量请求时,请求连接至接口 15的荧光强 度测量装置3通过接口 15进行测量。
例如,当响应于测量请求从荧光强度测量装置3获取荧光强度数据时,荧光强度获取部21生成获取日期和获取号作为核酸芯片CP的识别lt据(下文称为"芯片识别数据")。
当荧光强度获取部21获取荧光强度数据时,表达水平计算部22基于荧光强度数据计算每个探针組的基因表达水平,使表示所计算的每个探针组的表达水平的数据(下文称为"表达7jC平数据")与芯片识别数据相关,
并将所得到的数据存储在存储单元14中。
基因表达水平是表示目标细胞中表达的基因的推定水平,例如,该水平被计算为该发射强度与和目标核酸和核酸探针形成的互补链的量相关的发射强度的比率。
在该实施例中,通过使用由Affymetrix公司制造的称作MAS( MicroArray Suite)的数据分析软件的版本5来计算基因表达水平。
这里,将着重于单个探针组简要描述MAS5。在MAS5中,(1)从探针组中的每个探针片段的发射强度中排除局部的物理影响(背景),(2 )根据探针片段和对应的片段控制(称为"失配探针")之间的差异适当地校正每个探针片段(称为"精确匹配探针")的发射强度,以及(3 )每个探针片段(称为"精确匹配探针")的发射强度通过代数变换被计算为基因表达水平。
在MAS5中,对不同探针组的缩放进行标准化,以使其具有与基准探针组相同的平均荧光强度。具体地,MAS5的处理细节可以参考由I.S.Kohane/A.T. Kho/A.J. Butte和Hosida Arihito所著并由日本Springer出版的"Micro Array Data Analysis for Combined Genomics", 58 ~ 74页。
二进制化部23等待基因分类请求,并且当接收到分类请求时,基于存储在存储单元14中的芯片识别数据和表达水平数据辨别在观测点tm处的基因表达水平GEn。
这里,当仅辨别出在单个观测点^处的基因表达水平GEi时,意味着没有获取到关于目标细胞中基因表达水平的时间变化的信息,因此,不能基于基因表达水平的时间变化对基因进行分类。在这种情况下,二进制化部23例如使用显示单元16来通知这个事实。
相反,当辨别出两个或更多个以上的观测点U处的基因表达水平GEn时,二进制化部23通过在观测点tm的时间经过方向上取基因表达水平
GEn的正差或负差来生成二进制串(以下称为"表达水平二进制串")。
在图3所示的实例中,如图6所示,通过当观测点(时间上相邻)之
间的间隔内基因表达7jC平GEn的时间经过方向的差小于0时将二进制串
设置为负(负号)而当差大于o时将二进制串设置为正(正号),由时间
序列基因表达水平GEn生成表达水平二进制串。图6中的基因表达水平
GEn的值只是为了方便的目的而表示,并不是实际的数值。
通过使用从观测点tm的数目中减去"r而获得的数值作为指数并将
2设置为最小值来计算表达水平二进制串可以具有的不同正负模式(下文
称为"表达变化模式")的总数。
具体地,例如,当观测点、的总数为6时,如图6所示,表达变化
模式具有25种类型。在图6中,为了方《更,示出在左侧和右侧具有对称
特性的表达变化模式。
分类部24根据观测点tm的数目辨别出2 (m-"个表达变化模式,并基于表达变化模式和由二进制化部23生成的表达水平二进制串对基因Gn进行分类。
具体地,例如,诸如数字的标识符为分配给2^"个表达变化模式,
并将由每个基因Gn的表达水平二进制串所表示的表达变化模式的标识符
添加至对应的表达水平lt据。
此外,分类部24使分类为多个表达变化模式的基因Gn中被分类为具
有反转关系的表达变化模式的基因成对。
例如,在图7所示的表达变化模式中,当存在分类为"1"的两个基因G2和G38且存在分类为"17"的两个基因Gu和Gn时,生成表示四对G2和Gu、G2和Gn、G38和Gu以及G38和Gn是具有模式"l"(即,"+++++")和模式"17"(即,"—")的基因对的数据。在图8A和图8B中示出了测试结果。图8A和图8B示出了当4吏用 E-GEOD-6013作为样本给出石棉作为对A549细胞的刺激物时,在观测 点tm处在观测点间隔内具有正变化的基因个数(图8A)和具有负变化的 基因个数(图8B)。
该测试中的观测点是0、 1、 6、 24和48小时和7天的时间点。因此, 水平轴上的"1"表示0和1小时之间的间隔,"2"表示1~6小时之间的 间隔,以及"5"表示48小时和7天之间的间隔。该测试中的基因个数为 16896。
如图8A和图8B所示,具有正变化的基因个数和具有负变化的基因 个数在各个观测点间隔内是相等的。在图8A和图8B所示的测试结果中, 具有正变化的基因个数占总基因个数的50.1%,而具有负变化基因个数占 总基因个数的49.9%。
在图9中示出了在如图8A和图8B所示相同的4H^下通过将基因分 类为图7所示的表达变化模式所获得的测试结果。如图9所示,具有对称 特性的表达变化模式的个数是相等的,并且该分布的相关性为"0.98"。
关于基因Gn的表达水平二进制串,根据图8A和图8B以及图9的测 试结果确认具有正变化的基因个数和具有负变化的基因个数具有对称特 性,并且在具有反转的正负变化的模式中的基因个数具有对称特性。
当建立了具有正变化的基 因个数和具有负变化的基因个数是对称的 第一对称特性时,还可以证明具有反转的正负变化的模式中的基因个数也
具有对称性的第二对称特性。
即,可通过以下表达式定义2 个二进制串(表达水平二进制串)。
{A1,A2, ...,Am},(Ak={+,-}, l^m)... (1)
由于应该证明第二对称特性,因此建立以下表达式。
{A1,A2,…,Am)的个数- {Al, A2,…,Am》的个数 假设Ak=+,则Ak二 …(2)加l,证明利用元素的数量建立第二对称特性。
首先,作为第一步,当元素的数量为l (即,m=l)时,获得以下表达式,由此第一对称特性和第二对称特性彼此等价。因此,具有第一对称特性的事物可以说成是具有第二对称特性。
{八1}的个数=(au的个数 …(3)
作为第二步,当元素的数量为2 (即,m=2)时,第一对称特性(具有正变化的基因个数和具有负变化的基因个lbi对称的)可变为"最后的元素和先前的元素的符号序列^Ul转的二进制串的个数相同"。即,最后的元素为正而先前的元素为负的二进制串的个数等于最后的元素为负而先前的元素为正的二进制串的个数,或者最后的元素为正且先前的元素为正的二进制串的个数等于最后的元素为负且先前的元素为负的二进制串
的个数。因此,当元素的数量为2时,具有第一对称特性的事物可以i兌成是具有第二对称特性。
作为第三步,当元素的数量为t+l (即,m=t+l)时且假设当元素的数量m等于t时已建立第二对称特性,获得以下表达式。由于符号排列类型的数量在m=t时为2、因此表达式(4)的类型数为2"。
{Al, A2,…,At〉的个数{Al, A2,…,At》的个数 …(4)
通过考虑m-t+l的符号排列并使用在第二步中使用的"最后的元素及其先前的元素的符号排列^L^转的二进制串的个数相等"的思想,m=l和m=t+l的符号排列M转的二进制串的个数彼此相等。
由于m-t和m=t+l的符号排列相等的二进制串的类型个数为2",所以类型总数为m=t和m=t+l的符号排列相等的二进制串的总数,^示为X。
另一方面,由于m=t和m=t+l的符号排列^Ul转的二进制串的类型个数为2",所以类型总数为m=t和m=t+l的符号排列M转的二进制串的总数,^示为y。 X和Y彼jM目等。当元素的数量等于t时,已建立第二对称特性。因此,在2"种二进 制串类型中,m=t和m=t+l的符号排列^L^转的二进制串的个数相等。 因此,当元素的数量m等于t+l时,建立第二对称特性。即,建立表达 式(2)。
如上所证明,具有第一对称特性的表达水平二进制串的排列不能被说 成是具有与实际数据相同的个数或趋势的第二对称特性,但具有第一对称 特性的排列可以说成是具有第二对称特性。
在图10以及图IIA和图11B中示出了除图9所示测试结果之外的第 二对称特性的测试结果。在图10中,基因被分类为图7所示的表达变化 模式,其中,除石棉没有被应用为刺激物之外,其他条件与图9所示的相 同。在这种情况下,图10中的基因个数为16453。
另一方面,图IIA示出了当使用E-GEOD-6013作为样本将石棉应用 为对Beas2A细胞的刺激物时将在观测点、处的观测点间隔内具有变化的 基因分类为表达变化模式,以及图11B示出了当没有将石棉应用为刺激物 时将在观测点tm处的观测点间隔内具有变化的基因分类为图7所示的表 达变化模式。
图11A和图11B中的观测点是0、 6、 12、 24和72小时的时间点, 其不同于图10 (图9)所示的观测点。在这种情况下,图11A中的基因 个数为16896,图11B中的基因个数为18159。由于图IIA和图11B中的 观测点tm的个数为5,所以如图12所示,表达变化模式的类型个数为图 12中所示的2(")个。
根据图10以及图IIA和图IIB所示的测试结果,确认无论"细胞类 型"、"剌激物的存在"和"观测点之间的间隔"如何,都没有改变正负被 反转的模式中基因个数对称的第二对称特性。
在图10以及图IIA和图IIB所示的测试结果中,还确认具有正变化 的基因个数以及具有负变化的基因个数对称的第一对称特性。这与上述证 明相一致。还确^人第一和第二对称特性没有改变。因此,与被分类部24分为具有反转关系的表达变化模式的基因对相 关的基因组可以被说成是对多面分析来说是可靠指标的有用信息。例如, 当观测点tm的个数增加时,要被检测的基因会变得范围缩小。因此,尤 其可以期望用于检测在相反方向上变化的基因(例如,miRNA)的有用 成果。例如,当以恒定的间隔选择观测点tm时,可以检测到表达水平从 减小(增加)变为增加(减小)的时间点,由此,可以获^L基因的时间变 化的具体特性。
3-1-2.基因分类处理的流程
将参照图13所示的流程图描述笫一基因分类处理的流程。
即,例如,CPU10使用通电操作作为触发来开始基因分类处理的流 程,在步骤SP1中等待核酸芯片CP中的荧光强度测量请求,以及在步骤 SP2中等待基因分类请求。
当接收到荧光强度测量请求时,在步骤SP3中,CPU10用作荧光强 度获取部21 (图5 ),使荧光强度测量装置3 (图1)开始其测量,以及等 待来自荧光强度测量装置3的测量结果。当接收到作为测量结果的荧光强 度数据时,CPU 10用作表达水平计算部22 (图5 )。在这种情况下,CPU 10根据荧光强度数据生成表示基因表达水平的表达水平数据,将该表达 水平数据存储在存储单元14中,然后再次执行步猓SP1的处理。当在荧 光强度测量装置3 (图1)开始测量之后,在预定时间内没有接收到荧光 强度数据时,CPU 10再次执行SP1的处理而不生成表达水平lt据。
另一方面,当接收到基因分类请求时,在步骤SP4中,CPU10用作 二进制化部23 (图5 ),并基于存储在存储单元14中的数据确定在存储单 元14中是否存在两条或更多条表达水平数据。
这里,当确定在存储单元14中不存在两条或更多条表达水平数据时, 在步骤SP5中,CPU 10通知不能基于基因表达水平的时间变化对基因进 行分类,并再次执行步骤SP1的处理。
相反,当确定在存储单元14中存在两条或更多条表达水平数据时,的时间序 列生成表达水平二进制串(图6 )。在步骤SP7中,CPU 10用作分类部24 (图5 ),并基于观测点tm的 个数辨别出2^-"个表达变化模式。然后,CPU10基于基因Gn的表达水 平二进制串将基因Gn分类为2(m")个表达变化模式(图7 )。在步骤SP8中,CPU IO使在分类为多个表达变化模式的基因Gn中 的、被分类为具有反转关系的表达变化模式的基因成对,然后结束基因分 类处理的流程。这样,CPU10根据基因分类程序执行基因分类处理。3-1-3.优点及其他至此,已经描述了第一基因分类处理的流程。即,基因分类装置4 对于每个基因Gn,通过在观测点tm的时间经过方向上取基因表达水平 GEn的正差或负差来生成二进制串(表达水平二进制串)(图6 )。基因分类装置4基于表达水平二进制串可具有的所有不同的正负模 式(表达变化模式(图7))以;SJ^每个基因Gn生成的表达水平二进制串 对基因Gn进行分类。这样,通过注意观测点U的时间经过方向上的"增大"或"减小" 的变化,将观测点U处的表达水平GEn转换为二进制串(表达水平二进 制串),基因分类装置4必然能够获取表达水平二进制串可具有的模式(表 达变化模式)。因此,基因分类装置4可以基于基因Gn的时间变化简单地模式化基因Gn的变化。此外,与基于数万个基因中两个不同基因的所有组合将基因Gn分类为模式而没有注意观测点u的时间经过方向上"增大"或"减小"的变化将观测点U处的表达水平GEn转换为二进制串(表达水平二进制串)的情;;W目比,可以大大减小分类所需的时间(负荷)。基因分类装置4使被分类为反转了二进制串的表达变化模式的基因 成对。如图9至图11B所示,基因个数与"细胞类型"、"剌激物的存在"和"观测点之间的间隔"无关。
因此,基因分类装置4可以以预定精度简单地指定以相反方式作用的 基因,这可以被用作对多面分析来说具有较高可靠性的指标。it^分析在 相反方向上变化的基因的细节(例如,miRNA的检测)来说尤其有用。
在第一基因分类处理中,通过基于对每个基因Gn在观测点U的时间 方向上取基因表达水平GEn的正差或负差获取的二进制串(表达水平二 进制串)对基因Gn进行分类,可以简单地基于基因表达水平的时间变化 对基因进行分类。
3-2.第二基因分类处理
3-2-1.功能结构
在第二基因分类处理中,如图14所示,根据基因分类程序,CPU 10 用作荧光强度获取部21、表达水平计算部22、最大和最小检测部123以 及分类部124,其中,由相同的参考标号表示与图5所示相同的元件。
如图14所示,在第二基因分类处理中,第一基因分类处理中的二进 制化部23和分类部24 (图5)被最大和最小检测部123以及分类部124 所取代。
具体地,在第 一基因分类处理中基于基因表达水平的时间变化对基因 进行分类,但在第二基因分类处理中,基于基因表达水平达到最大或最小 的时刻对基因进行分类。
最大和最小检测部123等待基因分类请求,并且当接收到基因分类请 求时,基于存储在存储单元14中的芯片识别数据和表达水平数据辨别观 测点U处的基因表达水平GEn。
这里,当仅辨别出单个观测点^处的基因表达水平GEi时,意味着 不能指定目标细胞中的基因表达水平达到最大或最小的时刻。在这种情况 下,最大和最小检测部123例如使用显示单元16通知这个事实。
相反,当辨别出两个或更多个的观测点U处的基因表达水平GEn时,最大和最小检测部123对每个基因Gn检测具有最大值的基因表达水平
GE和具有最小值的基因表达水平GE。
在图3所示的实例中,对于基因G"观测点tm处的基因表达水平 GE被检测为最大,而观测点t2处的基因表达水平GE被检测为最小。对 于基因G2,观测点t2处的基因表达水平GE被检测为最大,而观测点tt 处的基因表达水平GE被检测为最小。
分类部124基于两个观测点t m成对的组合模式(下文称为"观测点 组合模式")和由最大和最小检测部123检测的基因表达水平GE的时间 (观测点)对基因Gn进行分类。
观测点处的最大值和最小值的组合模式(观测点組合模式)的个数为 观测点tm的个数x (观测点的个数-1 ),例如,当观测点tm的个数为5时, 如图15所示,为5x (5-1) =20。
在图3所示的观测点L的个数为5的实例中,在观测点ts处具有最 大值且在观测点t2处具有最小值的基因G,被分类为图15所示"8"的观
测组合模式(t2, t5)。在观测点t2处具有最大值且在观测点t4处具有最小
值的基因G2被分类为图15所示"7"的观测组合模式(t2, t4)。
具体地,如图15所示,向观测点组合模式分配诸如数字的标识符, 并将每个基因Gn的最大和最小表达水平的观测点组合的标识符添加至对 应的表达水平数据。
此外,分类部124使被分类到相同观测点组合模式中的、最大和最小 值的顺序M转的基因成对。
例如,当被分类为图15所示的观测点组合模式"1"的基因是G2和
G38时,基因G2在观测点t处具有最大值而在观测点t2处具有最小值, 以及基因G38在观测点^处具有最小值而在观测点t2处具有最大值,生成 表示基因G2和G38具有最大值和最小值的顺序^L^转的关系的数据。
这里,在图16A和图16B以及图17A和图17B中示出了测试数据。 图16A和图16B示出了当使用E-GEOD-6013作为样本将石棉应用为对A549的刺激物时(图16A)以及当没有将石棉应用为刺激物时(图16B) 具有在观测点s处具有最大值且在观测点u处具有最小值的表达水平的基 因的个数以及具有在观测点u处具有最大值且在观测点s处具有最小值的 表达水平的基因的个数。在这种情况下,图16A和图16B所示测试结果 中的观测点个数、时间和基因个数与图7所示的测试结W目同。
另一方面,图17A和图17B示出了当使用E-GEOD-6013作为样本 将石棉应用为对Beas2A细胞的刺激物时(图17A)以及当没有将石棉应 用为刺激物时(图17B)具有在观测点s处具有最大值且在观测点u处具 有最小值的表达水平的基因的个数以及具有在观测点u处具有最大值且 在观测点s处具有最小值的表达水平的基因的个数。在这种情况下,图 17A和图17B所示测试结果中的观测点个数、时间和基因个数与图10所 示的测试结^目同。
根据图16A和图16B以及图17A和图17B的测试结果,确认无论"细 胞类型"、"刺激物的存在"和"观测点之间的间隔"如何,表达水平在观 测点s处具有最大值且在观测点u处具有最小值的基因的个数和表达水平 在观测点u处具有最大值且在观测点s处具有最小值的基因的个数具有对 称特性。
表达水平在观测点s处具有最大值且在观测点u处具有最小值的基因 的个数和表达水平在观测点u处具有最大值且在观测点s处具有最小值的 基因的个数的分布的相关程度在图16A中为"0.984",在图16B中为 "0.963",该相关程度在图17A中为"0.958",在图17B中为"0.856"。
因此,与第一基因分类处理中的对类似地,包M分类为相同观测点 组合模式的、最大值和最小值的顺序^L^转的基因对的基因组是作为多面 分析的可靠指标的有用信息和来自除第一基因分类处理之外的其他观点 的信息。
在笫二基因分类处理中,不执行第一基因分类处理的特^进制化处 理,并且可以M过检测最大和最小表达水平对基因进行分类,从而与第 一基因分类处理相比进一步简化第二基因分类处理。然而,处理时间的减2
少不是用于确定分类能力的优劣的因素。
3-2-2.基因分类处理的流程
现在,将参照图18所示的流程图描述第二基因分类处理的基因分类 处理流程,其中,由相同的参考标号表示与图13所示相同的元素。
即,CPU10在步骤SP2中接收基因分类请求,并在步骤SP4中确认 在存储单元14中存在了两个或更多个的表达水平数据时执行步骤SP106 的处理。
在步骤SP106中,CPU 10用作最大和最小检测部123 (图14),并 检测每个基因Gn的最大基因表达水平GE和最小基因表达水平GE。
然后,在步骤SP107中,CPU 10用作分类部124 (图14 ),并基于 成对的两个观测点U可以具有的观测点组合模式(图15)以及由最大和 最小检测部123检测到最大和最小基因表达水平GE的时刻(观测点t) 对基因Gn进行分类。
在步骤SP108中,CPU 10使分类为相同观测点组合模式的基因中最 大值和最小值的顺序^L^转的基因成对,并结束基因分类处理流程。
以这种方式,CPU10根据基因分类程序执行基因分类处理。
3-2-3.优点及其他
至此已经描述了第二基因分类处理。即,基因分类装置4检测每个基 因Gn的最;t^因表达水平GE和最小基因表达水平GE。
然后,基因分类装置4基于成对的两个观测点、可以具有的组合模 式(观测点组合模式(图15))以及由最大和最小检测部123检测到最大 和最小基因表达水平GE的时刻(观测点t), ;M"基因Gn进行分类。
由于基因分类装置4将基因分类为根据观测点的个数所必要获取的 组合模式(观测点组合模式(图15))而不像第一基因分类处理一样转换 为二进制串,所以与第一基因分类处理相比,可以大大减少分类所需的时 间(负荷)。然而,处理时间的减少不是用于确定分类能力优劣的因素。此外,可使用除第一基因分类处理的分类标准之外的标准(基因表达 水平达到最大或最小的时间点)来对基因Gn进行模式化。
基因分类装置4使分类到相同观测点组合模式的基因中、最大值和最
小值的顺序^A转的基因成对。如图16A和图16B以及图17A和图17B 所示,无论"细胞类型"、"刺激物的存在"和"观测点之间的间隔"如何, 都不改变基因的个数。
因此,根据与第一基因分类处理不同的视点,基因分类装置4可以简 单地以预定精度指定具有最大值的观测点和具有最小值的观测点的基因 对,并且可以将该基因对用作对多面分析来说具有高可靠性的指标。i^J" 分析在相反方向上变化的基因的细节(例如,miRNA的检测)来说尤其 有用。
根据第二基因分类处理,通过将基因Gn分类为具有最大值的观测点 和具有最小值的观测点的组合模式,可以简单地基于基因表达水平达到最 大值或最小值的时间将基因分类为各个模式。
4.其他实施例
在上述实施例中,通过根据由荧光强度测量装置3测量的荧光强度计 算基因表达水平来获^L多个观测点tm处的多个基因Gn的基因表达水平 GEn。然而,本发明不限于这些实施例。
例如,可通过提取在目标细胞中表达的mRBA并使用实时PCR (聚 合,反应)将mRBA培养到预定量来直接地获取基因表达水平。
例如,可通过从数据存储介质中读M示荧光强度的数据并根据读取 的数据计算表达水平数据来获取表达水平数据。例如,可以从数据存储介
质中获M示基因表达水平的数据。可以组合这些获取方法。当从数据存 储介质中获取数据时,例如,可以将从位于远程处的各个实验地点获得的 数据进行相互比较,由此可以执行进一步的多面分析。
数据存储介质的实例包^T如软盘、CD-ROM (压缩盘-只读存储器) 和DVD (数据通用盘)的封装介质、或者临时或永久M储数据的半导体存储器或磁盘。可以使用诸如局域网、互联网或数字卫星广播的有线或 无线通信1^质。
在上述实施例中,通过在观测点U的时间经过方向上取基因表达水 平GEn的正差或负差所得到的二进制串^4示为正或负。然而,表示二 进制串的这种方法不限于正或负,还可以应用诸如"0"或"1"的表达的 各种不同方法。
在上述实施例中,使被分类为二进制串#^转的表达变化模式的基因 或者具有最大值的观测点和具有最小值的观测点的组合#^转的基因成 对。在这种成对之外或代替这种成对,可以执行另一种相关。作为相关的 具体实例,使应用于目标细胞的刺激物与大多数基因被分类至其中的表达 变化模式或观测点组合模式相关联。这仅仅是实例,并且可以根据分析细 节进行各种相关。
可衫L相关的项目可以被记录在数据库中,并且可以4^^H殳定来自数据 库的将被相关的项目的设定步骤。代替设定来自数据库的项目,可以从操
作单元13接收将被相关的项目,并且可以设定从操作单元13输入的项目。
在上述实施例中,使用第二对称特性(在正负^L^转的模式中的基因 个ltA对称的)或具有最大值的观测点和具有最小值的观测点的组合^t^ 转的基因个数为对称的特性(以下称为"第三对称特性")使目标基因成 对而相关。可以4吏用第二对称特性或第三对称特性或第一对称特性来鉴定
将M取的基因表达水平是好还是坏(即,所获取的基因表达7jC平是好还
是坏)。
具体地,当使用第一对称特性时,例如,在步骤SP6和SP7之间设 置以下步骤如图7所示,基于在步骤SP6中生成的二进制串,检测观 测点U和观测点"+1之间具有正变化的基因个数和具有负变化的基因个 数,当表示个数之间相关性的值等于或大于阈值时,确定基因表达水平的 可靠性很差,并且通知应该丢弃观测点、+1处的基因表达水平GEn或校
正基因表达7jC平。该校正可以采用发明人建议的、例如在日本专利申请第
2008-212625号中描述的标准化技术。可以在校正之后执行鉴定步骤。在日本专利申请第2008-212625号所描述的标准化技术中,将观测点 tm处的基因表达水平GEn转换为例如观测点仫处的表达水平的比率, 并校正基因表达水平GEn,使得比率的频率分布的峰值与参考比率平行地 移动,
另一方面,当4吏用第二对称特性时,例如,在步骤SP8之后,设置 以下步骤检测被分类为二进制串^L^转的正模式和负模式的基因个数, 当表示个数之间的相关性的值等于或大于阈值时,确定基因表达水平的可 靠性很差,并通知应该重新获^5见测点U处的基因表达水平GEn或者在 校正基因表达水平之后对基因进行重新分类。
另一方面,当使用第三对称特性时,例如,在步骤SP4或步骤SP108 之后,设置以下步骤检测具有最大值的观测点和具有最小值的观测点的 组合^L^转的基因个数,当表示个数之间的相关性的值等于或大于阈值 时,确定基因表达水平的可靠性很差,并通知应该重新获,测点U处 的基因表达水平GEn或者在校正基因表达水平之后对基因进行重新分类。
如上所述,第二对称特性和第三对称特性不被"细胞类型"、"刺激物 的存在"和"观测点之间的间隔"所影响。由于如上所述第一对称特性与 第二对称特性相关,所以上M于第二对称特性的i兑法适用于第一对称特 性。因此,第一对称特性、第二对称特性或第三对称特性的破坏意味着基 因表达水平GED与真实值不同。
换句话说,第一对称特性、第二对称特性或第三对称特性的破坏意味 着存在对将被提取的样本细胞的外部压力或者用于从样本细胞中提取 mRNA的条件或技能的差异,并且由于这种差异而引起的成分被包括在 基因表达水平GEn中。即,第一对称特性、第二对称特性或第三对称特 性用作具有用于鉴定基因分类的好坏的很好的可靠性的指标。这拔良明人 所确认,并且还在日本专利申请第2008-212625号中被公开。
在上述实施例中,执行第一和第二基因分类处理中的一个,但是可以 执行两个处理。在这种情况下,如图19所示,CPU 10在步骤SP4M 执行步骤SP200的处理,其中,由相同的参考标号表示与图13和图18所示相同的元素。
在步骤SP200中,CPU10用作处理选择部,并例如通过使用显示单 元16的GUI功能使用户选择基因表达水平的时间变化和基因表达7JC平达 到最大或最小的时刻中的一个作为在对基因进行分类中需要注意的项目。
这里,当选择基因表达水平的时间变化作为在对基因进行分类中需要 注意的项目时,CPU10执行步骤SP6至SP8的处理。另一方面,当选择 基因表达水平达到最大或最小的时刻作为在对基因进行分类中需要注意 的项目时,CPU10执行步骤SP106至SP108的处理。
因此,根据两个视点,CPU10可以以预定精度对基因进行简单地分 类,由此,可以将结果用作多面分^f的可靠指标。
在上述实施例中,由目标核酸和核酸探针形成的互#^的量被光学地 测量为发射强度。然而,测量方法不限于该实施例。例如,可以电磁地使 用电量或阻抗。可以使用由目标核酸和核酸探针形成的并由用于感测预定 物理量的传感器所感测的互#^的量。例如,可以将由Affymetrix公司 制造的Stanford类型用作核酸芯片CP,或者可以采用其他类型。
在上述实施例中,核酸芯片CP被用作由目标核酸和核酸探针形成的 互#^的形成位置。然而,形成位置不限于核酸芯片。例如,可以将组织 切片或试管用作形成位置,或者可以采用其他形成位置。
在上述实施例中,采用MAS来计算基因表达水平。然而,计算方法 不限于该方法,而是可以采用任意计算方法,只要其包括围绕参考值对所 有值进行比例调整的标准化处理。包括围绕参考值对所有值进行比例调整 的标准化处理的原因是基于mRNA的总量是生物上恒定的思想。例如, 在曰本专利申请第2008-212625号中描述了其细节。
例如,在日本专利申请第2008-212625号中使用的相对于平均对所有 值进行比例调整的MAS或标准化被用作相对于基准值对所有值进行比例 调整的标准化处理。
本发明在诸如基因测试、医药的创制和制备或患者跟踪观察的生物产业领域是可用的。
本发明包含关于分别于2008年8月21日和2008年12月19日向日 本知识产权局提交的日本优先权专利申请JP 2008-213112和JP 2008-324244中所公开的主题,其内容结合于此作为参考。
本领域的技术人员应理解,根据设计要求和其他因素,可以有多种修 改、组合、再组合和改进,均应包含在随附权利要求或其等同物的范围之 内。
权利要求
1.一种基因分类方法,包括以下步骤在多个观测点处获取多个基因的表达水平;对于每个基因,通过在所述观测点的时间经过方向上取所述表达水平的正差或负差来生成二进制串;以及基于所述二进制串能够具有的所有正模式和负模式以及所生成的二进制串来对所述基因进行分类。
2. 根据权利要求l所述的基因分类方法,还包括以下步猓在被分类为正模式和负模式的基因中,使被分类为所述二进制串具有 彼此反转的关系的正模式和负模式的基因成对而相关。
3. 根据权利要求l所述的基因分类方法,还包括以下步猓检测每个基因的最大表达水平和最小表达水平;以及选择所述表达水平的时间变化以及所i^达水平达到最大值或最小 值的时刻中的一个作为在对所逸基因进行分类中应该注意的项目,其中,当选择所述时刻时,开始检测每个基因的所述最;^达水平和 所述最小表达水平的步骤,其中,当选择所述变化时,开始生成所述二进制串的步骤,以及其中,对所述基因进行分类的步骤包括当开始检测所述最大表达水 平和所述最小表达水平的步骤时,基于具有由两个观测点构成的对的组合 模式以及所检测的最大表达水平和最小表达水平的观测点来对所述基因 进行分类,以及当开始生成所述二进制串的步骤时,基于所述二进制串能 够具有的所有正模式和负模式和所生成的二进制串来对所述基因进行分 类。
4. 根据权利要求2所述的基因分类方法,还包括以下步骤基于所 生成的二进制串,根据所获取的表达水平的好坏对所获取的表达水平进行 分类。
5. 根据权利要求3所述的基因分类方法,其中,对所述表达水平进 行分类的步骤包括基于在观测点处具有正变化的基因和具有负变化的基 因之间个数的相关程度,根据所获取的表达水平的好坏对所获取的表达水 平进行分类。
6. 根据权利要求3所述的基因分类方法,其中,对所述表达水平进 行分类的步骤包括:基于被分类为所述二进制串具有反转关系的正模式和 负模式的基因之间个数的相关程度,根据所获取的表达水平的好坏对所获 取的表达水平进行分类。
7. —种基因分类程序,用于使计算机执行 在多个观测点处获取多个基因的表达水平;对于每个基因,通过在所述观测点的时间经过方向上取所述表达水平 的正差或负差来生成二进制串;以及基于所述二进制串能够具有的所有正模式和负模式以及所生成的二 进制串iMt所i^因进行分类。
8. —种基因分类装置,包括获取装置,用于在多个观测点处获取多个基因的表达水平;生成装置,用于对于每个基因,通过在所述观测点的时间经过方向上 取所述表达水平的正差或负差来生成二进制串;以及分类装置,用于基于所述二进制串能够具有的所有正模式和负模式以 及由所述生成装置所生成的二进制串来对所述基因进行分类。
9. 一种基因分类方法,包括以下步骤在多个观测点处获取多个基因的表达水平;检测每个基因的最大表达水平和最小表达水平;以及基于包括由两个观测点构成的对的组合模式以及所检测的最大和最 小表达水平的观测点对所述基因进行分类。
10. 根据权利要求9所述的基因分类方法,还包括以下步骤使被分 类为相同组合模式的基因中、所述最大表达水平和所述最小表达水平的顺 序M转的基因成对。
11. 根据权利要求9所述的基因分类方法,还包括以下步骤对于每个基因,通过在所述观测点的时间经过方向上取所^A达7jc平 的正差或负差来生成二进制串;选择所述表达水平的时间变化以及所述表达水平达到最大值或最小 值的时刻中的一个作为在对所逸基因进行分类中应该注意的项目,其中,当选择所述时刻时,开始检测每个基因的所述最大表达水平和 所述最小表达水平的步骤,其中,当选择所述变化时,开始生成所述二进制串的步骤,以及其中,对所述基因进行分类的步骤包括当开始检测所述最大表达水 平和所述最小表达水平的步骤时,基于具有由两个观测点构成的对的組合 模式以及所检测的最大和最小表达水平的观测点对所逸基因进行分类,以 及当开始生成所述二进制串的步骤时,基于所述二进制串能够具有的所有 正模式和负模式和所生成的二进制串对所U因进行分类。
12. 根据权利要求9所述的基因分类方法,其中,基于被分类为相同 组合模式的基因中、所述最大表达水平和所述最小表达水平的顺序^L^转 的基因之间个数的相关程度,根据所获取的表达水平好坏对所获取的表达 水平进行分类。
13. —种基因分类程序,用于使计算机执行在多个观测点处获取多个基因的表达水平;检测每个基因的最大表达水平和最小表达水平;以及基于包括由两个观测点构成的对的組合模式以及所检测的最大和最 小表达水平的观测点对所述基因进行分类。
14. 一种基因分类装置,包括获取装置,用于在多个观测点处获取多个基因的表达水平;检测装置,用于检测每个基因的最大表达水平和最小表达水平;以及分类装置,用于基于包括由两个观测点构成的对的组合模式以及由所 述检测装置检测的最大和最小表达水平的观测点对所逸基因进行分类。
15. —种基因分类装置,包括获取单元,被配置为在多个观测点处获取多个基因的表达水平;生成单元,被配置为对于每个基因,通过在所述观测点的时间经过方 向上取所述表达水平的正差或负差来生成二进制串;以及分类单元,被配置为基于所述二进制串能够具有的所有正模式和负模 式以及由所述生成单元生成的所述二进制串来对所述基因进行分类。
16. —种基因分类装置,包括获取单元,被配置为在多个观测点处获取多个基因的表达7jC平;检测单元,被配置为检测每个基因的最大表达水平和最小表达水平;以及分类单元,被配置为基于包括由两个观测点构成的对的组合模式以及 由所述检测单元检测的最大和最小表达水平的观测点对所述基因进行分类。
全文摘要
公开了一种基因分类方法、基因分类程序以及基因分类装置。基因分类方法包括以下步骤在多个观测点处获取多个基因的表达水平;对于每个基因,通过在观测点的时间经过方向上取表达水平的正差或负差来生成二进制串;以及基于二进制串可以具有的所有正模式和负模式以及所生成的二进制串来对基因进行分类。
文档编号C12M1/34GK101671732SQ20091016850
公开日2010年3月17日 申请日期2009年8月21日 优先权日2008年8月21日
发明者佐塚直也, 浅川刚 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1