信息处理装置、信息处理方法和程序的制作方法

文档序号:6424867阅读:158来源:国知局
专利名称:信息处理装置、信息处理方法和程序的制作方法
技术领域
本发明涉及信息处理装置、信息处理方法和程序。
背景技术
在具有外源基因的插入的遗传工程中,为了保持宿主功能,应避免抑制位于外源基因的插入位置周围的操纵子(由一对启动子和终止子转录控制的多个连续基因簇)的控制。因此,必须识别启动子区域、增强子区域和终止子区域。用于提取并分析这些元的软件和服务器是可获得的。可以基于候选插入位置周围的局部序列的数据来识别这些区域。除了以上区域的识别以外,之前必须检查在细胞中承载遗传信息的基因组上的不稳定区域,即,可能产生基因组重排的区域。这是因为,外源基因插入不稳定区域中可能导致染色体重排,例如,缺失、变异和复制。作为与染色体组重排相关的分子机制,存在一种称为“同源(homologous)重组” 的现象,当比对(align)两个同源DNA片段时,产生此现象。当同源DNA片段存在于相同方向上时,一个DNA分子分裂或两个DNA分子熔合。当同源DNA片段存在于相反的方向上时, 同源DNA片段之间的区域调换。当关注这种同源重组的可能性时,期望外源基因和与外源基因同源的基因彼此不靠近。通过同源重组而产生的DNA的分裂和整合导致产生这样的分子在染色体上调换、移动并寄生所述分子,将所述分子调换、移动并寄生入或离开染色体,或在细胞(例如,转位子、质粒和噬菌体)之间调换、移动并寄生所述分子。除了每个基因中的突变以外, 考虑通过这些移动分子的核酸序列的获得、损失和变异在适应环境、多样化和生物的进化中起着重要作用。通过研究细胞中目前是否存在这些调换、移动并寄生的分子、或是否存在作为过去出现的形迹的分子残骸、或在分子残骸中是否观察到系统发育特性(phylogenetic properties),揭示了当前染色体上的不稳定区域和过去的染色体重排的变迁。对系统发育特性和对于不同菌株或类型的移动分子的结构化的研究产生了对生物进化的阐明。可以通过分析这样的数据来揭示生物进化的关系,从而可以产生称作系统树的示图。例如,日本专利申请公开第5-128171号提出了用于使用由预先获得的排列之间的相似性形成的相似性矩阵产生系统树信息的装置。自从大约38亿年前地球上开始出现生命开始,已经确定了 160万种生物。尽管估计存在100万至1000万种细菌(包括真细菌和古细菌),但是,所确定的细菌仅有大约1万种。曾经,根据形态学、生境和交配方式定义了生物的种类。已经在很长一段时间内使用五种类别动物、植物、真菌、原生动物和原核生物。然而,近来已经基于使用保存于所有诸如 IBSrRNA的生物中的基因序列的分子系统发育分析提出了三种域古细菌(Archaea)、真细菌和真核生物(Eukarya)。真细菌(Eubacteria)具有小于IOMbp的小染色体且它们的16S rRNA序列彼此高度同源。尽管保存了许多公共基因,它们在染色体上的排列彼此非常不同。即使存在这样的事实大约500万年前从同一祖先分支的人类和黑猩猩的染色体之间的基因信息中的差异仅为1.23% (大约3700万碱基),但存在结构和排列上具有明显差异的区域。将由重复序列的异常复制或变异所导致的染色体重排(包括在人类染色体上的大约120万个位置上分布的微随体)认为是病变的原因,其用于对遗传获得的癌症、精神病、免疫异常、代谢异常等的诊断。

发明内容
如上所述,近来使用基于诸如16S rRNA的基因序列上的改变的系统发育分析技术已经促进了生物进化的研究,并且,为该技术开发的系统发育分析软件是可用的。搜索彼此相邻的简单重复元和连续重复元,以编制数据库。然而,迄今为止,尚未开发从同源域(homologous domain)的分布和系统发育 (phylogeny)的观点看用于获取整个基因组的结构并估计染色体重排的变迁和不稳定区域的程序和分析工具。考虑到此,期望提供能够通过对基因组的结构进行一般的分析而不基于特定基因序列上的改变来估计染色体重排的变迁和不稳定区域的信息处理装置、信息处理方法和程序。为了解决以上问题,根据本发明的一个实施方式,提供了一种信息处理装置,包括数据获取单元获取代表一个以上字符的串(string)的串数据;以及系统发育分析单元,分析由数据获取单元获取的串数据以在由串数据表示的串中提取同源串片段,并基于所提取的同源串片段的当前位置和同源关系执行系统发育分析。优选地,系统发育分析单元可以进一步包括序列比对单元,对多个串数据执行序列比对并计算串数据之间的相似性测度;同源域提取单元,使用序列比对单元的序列比对结果提取同源域,所述同源域包括表示同源串片段的部分的同源部分信息和通过使用同源串片段的部分的方向和相似度中的至少一个所表示的同源关系信息;同源组分析单元,分析分散地存在于相同串数据中或不同串数据之间的同源域,并将在同源域中具有共同的同源部分信息的同源域分组成同源组;区域组分析单元,分析分散地存在于相同串数据中或不同串数据之间的同源域,并产生表示同源域之间的包含和重叠关系的区域组;以及族分析单元,基于与由同源组分析单元分组的同源组相关的信息和与由区域组分析单元产生的区域组相关的信息分析同源串片段的族。区域组分析单元可以将通过对同源串片段的部分的两端增加预定长度的余量部分而获得的区域设置为小区域,将不包括在其他小区域中的小区域设置为中区域,并将重叠的中区域的集合设置为大区域。族分析单元可以分析由区域组分析单元产生的小区域、中区域和大区域,并估计表示小区域的族的小区域族、表示中区域的的族中区域族以及表示大区域的族的大区域族。系统发育分析单元可以进一步包括细分大区域族的族细分单元。系统发育分析单元可以进一步包括方向确定单元,确定在属于小区域、中区域和大区域的同源串片段的部分中属于相同同源组和相同族的同源串片段的部分的比对方向。信息处理装置可以进一步包括功能分析单元,其基于系统发育分析单元的分析结果分析同源域的功能。系统发育分析单元可以进一步对表示所提取的同源串片段的系统发育分析结果的串数据执行系统发育分析。为了解决以上问题,根据本发明的另一实施方式,提供一种包括以下步骤的信息处理方法获取表示一个以上字符的串的串数据;分析所获取的串数据以在由串数据表示的串中提取同源串片段;并基于所提取的同源串片段的当前位置和同源关系执行系统发育分析。为了解决以上问题,根据本发明的另一实施方式,提供一种用于使得计算机实现以下功能的程序数据获取功能,用于获取代表一个以上字符的串的串数据;以及系统发育分析功能,用于分析由数据获取功能获取的串数据,在由串数据表示的串中提取同源串片段,并基于所提取的同源串片段的区域关系和同源关系执行系统发育分析。根据上述本发明的实施方式,可通过从同源域的分布和系统发育的观点分析基因组结构,来估计染色体重排的变迁和不稳定区域。


图1是用于说明同源重组的示图;图2是示出了根据本发明的第一实施方式的信息处理装置的构造的框图;图3A至图3D是用于说明根据第一实施方式的同源域功能分析处理的示图;图4是示出了根据第一实施方式的同源域系统发育分析单元的构造的框图;图5A是用于说明根据第一实施方式的同源域系统发育分析处理的示图;图5B是用于说明根据第一实施方式的同源域系统发育分析处理的示图;图5C是用于说明根据第一实施方式的同源域系统发育分析处理的示图;图5D是用于说明根据第一实施方式的同源域系统发育分析处理的示图;图5E是用于说明根据第一实施方式的同源域系统发育分析处理的示图;图6是示出了根据第一实施方式的同源域系统发育分析处理的流程的流程图;图7是示出了根据第一实施方式的同源域功能分析处理的流程的流程图;图8是示出了根据第一实施方式的用于用同源域系统发育分析处理和同源域功能分析处理来分析基因组结构的软件的实例的示图;图9是示出了根据本发明实施方式的信息处理装置的硬件构造的框图;图IOA是示出了根据本发明的第一实施方式的信息处理装置的应用实例的示图;图IOB是示出了根据第一实施方式的信息处理装置的应用实例的示图;图IlA是示出了根据第一实施方式的信息处理装置的应用实例的示图;图IlB是示出了根据第一实施方式的信息处理装置的应用实例的示图;图IlC是示出了根据第一实施方式的信息处理装置的应用实例的示图;图IlD是示出了根据第一实施方式的信息处理装置的应用实例的示图;图12A是示出了根据第一实施方式的信息处理装置的应用实例的示图;图12B是示出了根据第一实施方式的信息处理装置的应用实例的示图;图13是示出了根据第一实施方式的信息处理装置的应用实例的示图;图14是示出了根据第一实施方式的信息处理装置的应用实例的示图。
具体实施例方式在下文中,将参考附图详细地描述本发明的优选实施方式。注意,在本说明书和附图中,用相同的参考数字表示具有基本上相同的功能和结构的结构元,并省略这些结构元的重复说明。另外,将以以下顺序给出说明。(1)同源重组(2)第一实施方式(2-1)信息处理装置的构造(2-2)同源域系统发育的分析方法的流程(2-3)同源域功能的分析方法的流程(2-4)用于分析基因组结构的软件的一个实例(2-5)第一变形实例(3)根据本发明的实施方式的信息处理装置的硬件构造(4)应用实例(5)总结(同源重组)在说明根据本发明的实施方式的信息处理装置和系统发育的分析方法之前,将参考图1简要地说明同源重组的现象。图1是用于说明同源重组的示图。如图1所示,作为与染色体组重排相关的分子机制,存在一种称为“同源重组”的现象,当比对两个同源DNA片段时,产生此现象。这里,“同源DNA片段”意味着它们的DNA 序列是相似的,这是因为它们具有共同的进化起源。由于这种同源DNA片段具有相似的碱基序列,所以,它们在许多情况下具有彼此相似的功能。当同源DNA片段存在于相同方向上时,一个DNA分子分裂或两个DNA分子融合。此情况对应于图I(A)所示的情况。在图KA)中,在存在同源DNA片段的区域中出现DNA片段的重组。结果,将一个DNA分子分成两个DNA分子。像图I(B)所示的实例那样,当同源 DNA片段存在于相反的方向上时,同源DNA片段之间的区域倒转。因此,由这样的同源重组产生的重组的部分中的序列与重组之前的序列不同。对应于产生重组的区域的DNA序列可能具有与重组之前不同的功能,或可能失去重组之前具有的功能。反之考虑,在同源DNA片段彼此靠近的区域中,存在DNA序列通过上述同源重组而改变的很大的可能性。因此,优选的是,当将外源基因插入某一基因中时,将外源基因插入其附近不存在与外源基因同源的基因的区域中,以防止通过同源重组而使外源基因出现任何变化。这里,简要地讨论基因序列中的术语“附近”包括什么样的范围。圆形DNA分子处于超螺旋状态,在该状态中,DNA分子多次扭曲而使得自由能最小。因此,甚至当与圆形DNA 分子同源的基因位于离序列上的圆形DNA分子最远的地方(例如,环的相对侧)时,基因也可能在处于超螺旋状态中的圆形DNA分子的附近。当不同的圆形DNA分子移入细胞中时, 其可能彼此相邻。因此,可以假设上述同源重组可能出现在所有细胞内核酸分子上。
如图1所示,通过同源重组而产生的DNA的分裂和整合导致产生这样的分子在染色体上调换、移动并寄生所述分子,将所述分子调换、移动并寄生入或离开染色体,或在细胞(例如,转位子、质粒和噬菌体)之间调换、移动并寄生所述分子。在1940年,Barbara McClintock首先发现了在染色体上被调换并被称为黄色色素控制元(maize pigment controlling element)的转位子。DNA类型的转位子具有处于端部的反向重复元(inverse repetitive element)以及在转位子的端部之间的用于称为转座酶(transposase)的酶的遗传密码。这种酶在识别两端处的重复元、重组这些元、将转位子与染色体上的当前位置分开以及将其插入另一位置的过程中起着重要作用。因此,转位子的插入抑制了插入位置处的基因和相关基因的表现。在1946年,Joshua Lederberg在大肠杆菌中发现了一种移入或移出染色体从而在细菌之间移动的质粒。除了主染色体以外,大肠杆菌在细胞中还具有F和R因子质粒。 这些因子没有细胞生长所必需的基因。然而,这些因子具有单链DNA的形成和接合所必需的基因,例如ssb (单链DNA结合蛋白质)基因。因此,这些因子通过作为单链DNA的性纤毛移入其他细胞,并且,通过在这些因子已经被转移到其中的细胞中的回转机制(rolling cycle mechanism)将它们复制为双链DNA片段。存在两种类型的F因子典型地与染色体分开的F+因子和插入染色体的Hfr因子。R因子具有耐药基因。移入或移出细菌的噬菌体是对细菌有传染性的病毒。存在两种噬菌体保持在侵入细菌之后结合到宿主的染色体中的溶原性细菌状态的噬菌体,以及保持在染色体外增殖的细胞溶解状态并杀死宿主细胞的破坏性噬菌体。对大肠杆菌有传染性的λ噬菌体属于前者,并且,通过噬菌体序列上的attP和细菌染色体上的attB的两个特定同源序列的重组,噬菌体结合到染色体中。PCC6803(其是蓝细菌的菌株)保持多个复制的3. 5Mbp的主染色体,并进一步具有各种质粒,例如,pSYSM(120kbp), pSYSX(106kbp), pSYSA(103kbp), pSYSG(44kbp), pCC5. 2(5. 2kbp)、pCA2. 4(2. 4kbp)和 pCB2. 4(2. 4kbp)。大肠杆菌 F 因子的 ssb 基因的同源编码区域存在于PCC6803的主染色体上,并存在于pSYSA质粒上。主染色体和质粒通过回转机制被旋转复制,并且它们可通过接合在细胞之间交换。这意味着染色体重排的变迁和可能性。近些年来,已经揭示了 PCC6803基因组上存在移动性的插入元。通过研究细胞中目前是否存在这些调换、移动并寄生的分子、或是否存在作为过去存在的形迹的分子残骸、或在分子残骸中是否观察到系统发育特性,可以揭示当前染色体上的不稳定区域和过去的染色体重排的变迁。期望对系统发育特性和对于不同菌株或类型的移动分子的结构化的研究能够获得对生物进化的阐明。本申请发明人对同源串片段(homologous string piece)进行了深入的研究。结果,他们已经基于串片段的系统发育分析得到了用来表征串的结构的同源域系统发育的分析方法。将在后面说明的同源域系统发育的分析方法包括以下步骤分析目标串,在以同源性的关系(同源关系)连接的部分(同源部分)中提取一对序列,并用提取的结果分析串的系统发育。将在后面说明的同源域系统发育的分析方法的使用允许通过对整个基因组的结构的一般和整体的分析而不集中在特定基因序列上的改变来估计染色体重排的变迁和不稳定区域。
将在后面说明的同源域系统发育的分析方法不仅可以用于基因序列的系统发育分析,而且是一种包括以下步骤的方法提取与一般串阵列(对应于同源串片段)相似的部分,并分析该相似部分的系统发育。以下将用基因序列的系统发育分析作为一个实例进行说明。(第一实施方式)<信息处理装置的构造>首先,将参考图2详细描述根据本发明的实施方式的信息处理装置的构造。图2 是示出了根据实施方式的信息处理装置10的构造的框图。在随后描述的同源域系统发育的分析方法中,首先将目标串与其本身比对,并提取以同源性的关系(同源关系)连接的部分(同源部分)中的一对序列。然后,在分析方法中,提取以一个或多个同源关系的链连接的同源部分中的束(同源组),并提取同源部分局部地彼此相邻或彼此重叠的区域(区域组),并且,将同源组和区域组的组合的组定义为一个族。然后,在分析方法中,根据属于该族的同源域的区域构造来细分每个族,以构造系统树。在下文中,将同源部分和同源区域统称为同源域。根据本实施方式的信息处理装置10是能够执行同源域系统发育的分析方法的设备,并主要包括数据获取单元101、同源域系统发育分析单元103、同源域功能分析单元 105、分析结果输出单元107和存储器109,如图2所示。例如,用CPU(中央处理器)、R0M(只读存储器)、RAM(随机存取存储器)、输入装置、通信装置来实现数据获取单元101。数据获取单元101获取作为同源域系统发育的分析方法的目标的串数据。数据获取单元101可以从各种经由网络(例如,因特网和本地网)连接的设备获取串数据,或可以从各种经由有线或无线与信息处理装置10直接连接的设备获取串数据。 数据获取单元101也可以使用由用户经由各种输入装置(例如,键盘和触摸面板)直接输入至信息处理装置10的数据作为串数据。数据获取单元101将所获取的串数据输出至后述的同源域系统发育分析单元 103。数据获取单元101可以将所获取的串数据和与获取串数据时的时间相关的时间项相关联以将其存储在存储器109(将在随后描述)中。例如,用CPU、ROM、RAM和通信装置来实现同源域系统发育分析单元103。同源域系统发育分析单元103分析从数据获取单元101输出的串数据,提取由串数据表示的串中的同源串片段,并执行所提取的同源串片段的系统发育分析。当完成基于同源域的系统发育分析处理时,同源域系统发育分析单元103将所获得的结果输出至后述的同源域功能分析单元105和分析结果输出单元107。同源域系统发育分析单元103可以将所获得的分析结果存储在后述的存储器109中。可通过(例如)以类似于数据库的形式存储所获得的分析结果,从而当再次参考分析结果时可以容易地获取分析结果。所获得的分析结果记录于其中的数据库可用于新的系统发育分析处理的过程, 使得可实现分析处理的高效率以及分析结果的高精度。下面将描述同源域系统发育分析单元103的详细构造和功能。例如,用CPU、ROM、RAM和通信装置来实现同源域功能分析单元105。同源域功能分析单元105具有基于由同源域系统发育分析单元103得到的分析结果来分析所提取的同源域的功能。当执行同源域功能分析处理时,同源域功能分析单元105可以参考各种存在于网络(例如,因特网)上的功能数据库。从同源域系统发育分析单元103输出的分析结果中包括关于同源域功能的数据(功能数据)。功能数据中可以包括外部参考的对象以及外部参考数据中的ID和功能ID。同源域功能分析单元105可以使用这样的各种ID搜索存在于网络上的各种功能数据库。例如,如图3所示,将讨论这样的情况外部参考对象存在于属于所关注的族的同源域HD的周围。如图3A所示,外部参考对象可以是与比所关注的同源域HD更宽的范围上的位置相关的对象,或如图3B所示,可以是与包括在所关注的同源域HD中的范围上的位置相关的对象。如图3C和图3D所示,外部参考对象可以是处于对象的一部分与所关注的同源域HD重叠的位置中的对象。同源域功能分析单元105用来对在整个族中收集的功能数据进行分类,并估计与族相关的功能。可以通过执行这样的处理来估计由同源域系统发育分析单元103提取的同源域的功能。这允许深度解释由同源域系统发育的分析方法获得的分析结果。同源域功能分析单元105将所获得的结果输出至后述的分析结果输出单元107。 同源域功能分析单元105可以将所获得的分析结果存储在后述的存储器109中。可以通过例如以数据库的形式存储所得的分析结果,从而当再次参考分析结果时可以容易地获取分析结果。所获得的分析结果记录于其中的数据库可用于新的系统发育分析处理的过程, 从而可以实现分析处理的高效率以及分析结果的高精度。例如,用CPU、ROM、RAM、输出装置和通信装置来实现分析结果输出单元107。分析结果输出单元107输出通过用同源域系统发育分析单元103进行分析而获得的分析结果和通过用同源域功能分析单元105进行分析而获得的分析结果。在这种情况下,分析结果输出单元107可以使由此获得的各种分析结果可视化,以将它们显示在包括在信息处理装置 10中的输出装置(例如,显示器)上。分析结果输出单元107可以经由输出装置(例如,打印机)输出由此获得的各种分析结果,以用它们作为文字信息。分析结果输出单元107可以向与信息处理装置10连接的各种可移动记录介质或外部连接设备输出表示所获得的分析结果的数据。分析结果输出单元107可以经由通信装置向外部网络输出表示所获得的分析结果的数据。当输出所获得的分析结果时,分析结果输出单元107可以使用已知的数据库以及各种工具和程序。存储器109是包括在根据本实施方式的信息处理装置10中的存储装置的一个实例。可以将经过同源域系统发育分析处理的串数据和通过分析所获得的各种分析结果存储在存储器109中。可以将各种历史信息(例如,关于同源域系统发育分析处理的执行的历史信息和关于串数据的获取的历史信息)记录在存储器109中。将在根据本实施方式的信息处理装置10执行任何处理时所保存的各种参数、处理过程中的中间结果或各种数据库和程序适当地记录在存储器109中。每个包括在根据本实施方式的信息处理装置10中的处理单元能够自由地对存储器109读取和写入数据。[同源域系统发育分析单元的构造]
随后,将参考图4更详细地描述根据本实施方式的同源域系统发育分析单元103 的构造。图4是示出了根据实施方式的同源域系统发育分析单元103的构造的框图。如图4所示,同源域系统发育分析单元103进一步包括序列比对单元131、同源域提取单元133、同源组分析单元135、区域组分析单元137、族分析单元139、族细分单元141 和方向确定单元143。例如,用CPU、ROM和RAM来实现序列比对单元131。序列比对单元131对从数据获取单元101输出的多个串数据执行序列比对,并计算串数据之间的相似性测度(或相异性测度)。更具体地,序列比对单元131基于已知方法对从数据获取单元101输出的串数据中选择两个串数据而成的所有组合执行序列比对,并计算组成相应串数据的元(例如,组成串数据的数字和字母)之间的相似性测度(或相异性测度)。这里,序列比对单元131可以计算表示两个串数据之间的相似性的程度的相似度或分值以作为表示相似性测度的量。序列比对单元131可以计算表示两个串数据之间的相异度的各种距离度量以作为表示相异性测度的量。例如,当计算两个串数据之间的距离度量时,序列比对单元131可计算诸如 Hamming距离、Levenshtein距离、Smith-Waterman距离的各种距离度量、或者是使用这些距离度量与熵或N克分析法结合而成的距离度量等已知的距离度量。当计算两个串数据之间的分值时,序列比对单元131可以使用已知的计算方法。这里,所关注的每个串数据被称为模块Mi,并且,根据本实施方式的同源域系统发育的分析方法所应用的系统G由所关注的串数据的集合{MJ (1 ^ i ^ N)表示。每个模块Mi包括关于线体序列的信息Si (序列信息)和关于功能的信息Ci (功能数据)。当从数据获取单元101输出N个模块Mi时,根据本实施方式的序列比对单元131 基于对于每个模块Mi的序列数据Si (1 < i < N),比对Si对Si ( S卩,每个对其本身)的N种组合以及兴j)的[{N (N-I)}/2]种组合。换句话说,序列比对单元131以循环的方式对所关注的N个模块执行序列比对。表示由序列比对单元131产生的序列比对结果的信息存储在存储器109中,并且, 其用于同源域系统发育分析单元103所包括的每个处理单元中的处理。例如,用CPU、R0M和RAM来实现同源域提取单元133。同源域提取单元133使用由序列比对单元131产生的序列比对结果,从所关注的串数据(模块)提取关于同源域的信息(同源域数据)。这里,同源域信息包括表示同源串片段的部分的同源部分的信息Li (同源部分信息)和表示作为一对的信息Li和同源部分信息Lj之间的同源关系(比对)的信息Ak (同源关系信息)。并不特别地限制从序列比对结果提取同源部分(在下文中,简称为“部分”)的方法,可以使用各种方法。例如,同源域提取单元133参照表示序列比对结果的信息来提取其表示上述相似性测度的值大于预定值的部分(例如,其相似度大于等于预定阈值或距离度量小于等于预定阈值的部分)作为同源部分。这里,同源部分信息Li是由同源部分所属于的模块M上的同源部分的起点s和终点e的组合所表示的信息。在下文中,同源部分信息Li由Li= (M:s,M:e)表示。同源部分信息的集合为L = {LJ。
同源关系信息Ak是由两个同源部分1^和1^.、方向性d(= 1或-1)以及同源率r(0 1)的组合所表示的信息。在下文中,同源关系信息Ak由Ak= (Li5LjjCljr)表示。同
源关系信息的集合为A = {AJ。由同源域提取单元133提取的同源域信息存储在存储器109中,并且用于同源域系统发育分析单元103所包括的每个处理单元的处理中。将参考图5A描述同源部分和同源关系的具体实例。图5A是用于说明同源域系统发育分析处理的示图。图5A示出了存在三个作为用于同源域系统发育的分析方法的模块的模块Ml M3 的情况。通过这些模块Ml M3上的序列比对来提取九个同源部分Ll L9。这里,同源部分Ll L4存在于模块Ml上,同源部分L5 L8存在于模块M2上,同源部分L9存在于模块M3上。这里,通过同源关系Al将同源部分Ll与同源部分L3连接,部分Ll的方向与部分 L3的方向相同。类似地,通过同源关系A2将同源部分L2与同源部分L4连接。部分L2的方向与部分L4的方向相同。通过同源关系A3将同源部分L5与同源部分Ll连接,部分Ll 的方向与部分L5的方向相同。通过同源关系A4将同源部分L4与同源部分L7连接,部分 L4的方向与部分L7的方向相反。通过同源关系A5将同源部分L6与同源部分L8连接,部分L6的方向与部分L8的方向相同。通过同源关系A6将同源部分L8和同源部分L9连接, 部分L8的方向与部分L9的方向相反。同源域提取单元133被构造为分析由序列比对单元131产生的处理结果,以提取以上同源域信息。例如,用CPU、R0M和RAM来实现同源组分析单元135。同源组分析单元135分析分散地存在于同一串数据中或存在于不同串数据之间的同源域(更具体地,同源关系信息), 以将同源域中的具有共同同源部分信息的域分组成同源组(束)。因此,当同源串片段分散在系统G中时,将一组同源对象(同源组)组合成“束”。这里,用一对共享的同源部分集合{LJ和同源关系集合{AJ来表示束&。因此, 4为({LJ,{Ak})。特别地,同源组分析单元135参考每个同源关系信息Ak( = (Li,L2,d,r)),以提取这样的信息,在该信息中,存在同源关系信息中的部分Ll或部分L2。然后,当部分Ll或部分L2均不属于任何束时,同源组分析单元135将({Li,L2},{Ak})记录成新的串。当部分Ll已经属于束&而部分L2不属于任何束时,同源组分析单元135在束&中追加记录同源部分L2和同源关系Ak。当部分Ll和L2为相反的情况时(即,部分L2已经属于一个束,且部分Ll不属于任何束),执行相同的处理。存在这样的情况部分Ll已经属于束Bl =({LJ,{AJ),且部分L2已经属于束B2 = ({Lj},{Aj)。在这种情况下,同源组分析单元 1;35将束Bl与束B2组合得到Bl = ({Lj U {L」},{Aj U {Aj),并删除束B2。关于由同源组分析单元135形成的同源组(束)的信息存储在存储器109中,并且用于同源域系统发育分析单元103所包括的每个处理单元的处理中。在图5A所示的实例的情况下,通过同源关系Al将同源部分Ll与部分L3连接,并通过同源关系A3将同源部分Ll与部分L5连接。因此,两个同源关系共享同源部分Li。因此,同源部分Li、L3和L5形成束Bi。类似地,通过同源关系A2将同源部分L2与部分L4连接,并通过同源关系A4将同源部分L4与部分L7连接。因此,两个同源关系共享同源部分L4。因此,同源部分L2、L4和L7形成束B2。通过同源关系A5将同源部分L6和部分L8 连接,并通过同源关系A6将同源部分L8和部分L9连接。因此,两个同源关系共享同源部分L8。因此,同源部分L6、L8和L9形成束B3。例如,用CPU、ROM和RAM来实现区域组分析单元137。区域组分析单元137分析分散地存在于同一串数据中或存在于不同串数据之间的同源域,以产生表示同源域之间的包含和重叠关系的区域组。尽管在序列比对结果中意味着几乎相同的同源部分,但是,根据它们比对的对应区域,存在稍微不同地比对的区域。因此,在一些情况下,检测到处于在起点和终点处存在稍多的碱基或存在稍少的碱基的状态下的多个不同长度的同源部分。为了将多个末端稍微不同的同源部分组合在一起,引入在其中对同源部分的末端增加余量的区域的概念。为了表示区域之间的包含和重叠关系,在本实施方式中,将包括同源部分和加到同源部分的两端的余量部分的预定长度的区域设置为小区域(区域)。在本实施方式中,将不包括在其他小区域中的小区域定义为中区域(ceiling),并将重叠的中区域的集合设置为大区域(域)。将各个区域统称为区域组。区域组分析单元137首先用起始中点S、末端中点e、余量率m,以及属于小区域的同源部分L的集合来产生小区域(区域)氏。在下文中,由氏=(s,e,m,{Lj)表示区域氏。区域组分析单元137基于λκ= |e-s+l| (其为小区域的中间部分的总长度)将λ = (λ KXm)/100确定为余量长度,将由[s- λ,s+ λ ]表示的部分确定为有效起始部分,并将由 [e-λ, e+λ]表示的部分确定为有效末端部分。这里,所示出的是以百分比给出余量率时的余量常数,然而,当以小数表示余量率时,用λ = XKXm表示余量长度。区域组分析单元137适当地设置余量率m的值。设定值可以是用户在同源域系统发育分析处理开始处设置信息时所获得的值,或者可以是提前设置的设定值。区域组分析单元137可以动态地改变余量率m的值。随后,对于每个同源部分Li = (Si, e,),区域组分析单元137确定是否存在小区域, 其有效起始部分包括同源部分Li的起点,并且,其有效末端部分包括同源部分Li的终点。 当存在满足条件的小区域时,区域组分析单元137对所检测的小区域的同源部分集合增加所关注的同源部分L”另一方面,当不存在满足条件的小区域时,区域组分析单元137将所关注的同源部分的起点确定为起始中点,将同源部分的终点确定为末端中点,并将(Si,ei; m,{LJ)记录为新的小区域。区域组分析单元137重复以上过程,使得可以为每个同源部分Li指定一个该同源部分Li所属于的小区域。区域组分析单元137参考诸如每个小区域氏的有效起始部分[s-λ,s+λ]和有效末端部分[e-λ,e+λ]的值,以分析小区域之间的包含和重叠关系。作为分析的结果,当存在处于包含关系中的小区域和具有重叠区域的小区域时,区域组分析单元137彼此参考相关的小区域来进行设置。然后,区域组分析单元137对于小区域Ri来确定是否存在不包括在任何其他小区域中的小区域。当存在这种小区域时,区域组分析单元137将不包括在任何其他小区域中的小区域设置为中区域(Ceiling)Cit5
区域组分析单元137确定对于每个中区域Ci是否存在相互重叠的区域。当存在相互重叠的中区域时,区域组分析单元137将一组中区域Ci设置为大区域(域)Dh= ICJ。这里,两个大区域Dh和Dk(h兴k)彼此不重叠。一个小区域属于一个或多个中区域,然而,一个小区域仅属于一个大区域。区域组分析单元137执行以上处理,从而可以产生表示同源域之间的包含和重叠关系的区域组。关于由区域组分析单元137产生的区域组的信息存储在存储器109中,并且用于同源域系统发育分析单元103所包括的每个处理单元的处理中。在下文中,将参考图5B具体地说明同源部分和小区域之间的关系。图5B是用于说明同源域系统发育分析处理的示图。如图所示,图5B所示的小区域Rl是这样的区域,其包括对应于同源部分Ll的区域和设置在对应于同源部分Ll的区域的两端的余量部分。这里,由设置于同源部分Ll的左侧的白色矩形所表示的区域是由[s-λ,s]表示的区域,并且,由设置于同源部分Ll的右侧的白色矩形所表示的区域是由[θ,θ+λ]表示的区域。因此,有效起始部分[s-λ,S+λ]的范围为从小区域Rl的左端到向右2λ,如图5Β所示。类似地,有效末端部分[e-λ,e+λ] 的范围为从小区域的右端到向左2 λ,如图5Β所示。除了同源部分Ll以外,将讨论检测到如图所示的同源部分L2的情况。如从图5Β 中显而易见的,同源部分L2的起点位于有效起始部分内,且同源部分L2的终点位于有效末端部分内。因此,区域组分析单元137确定同源部分Ll和同源部分L2属于相同的小区域 Rl。随后,将参考图5C具体地说明小区域、中区域和大区域的关系。图5C是用于说明同源域系统发育分析处理的示图。图5(所示的实例示出在某一模块11上存在五个同源部分1^11丄21丄31丄32和1^41 的情况。在这种情况下,区域组分析单元137对各同源部分的两端增加以上描述的余量部分,并设置五个小区域Rll、R21、R31、R32和R41,如图所示。如从图5C中显而易见的,小区域R11、R21、R31和R41未包括在其他小区域中。因此,将四个小区域分别设置为中区域 C1、C2、C3和C4。另一方面,从图中可以清楚地看到,小区域R32包括在小区域R31中。因此,未将小区域R32识别为中区域。当关注中区域C1、C2、C3和C4的范围时,中区域Cl的一部分与中区域C2和C4重叠,并且中区域C3的一部分与中区域C2重叠。因此,区域组分析单元137将一组中区域Cl、C2、C3和C4设置为大区域Dl。如图5D所示,通过区域组分析单元137将存在于图5A所示的实例中的模块Ml上的同源部分Li、L2和L3识别为包括余量部分的小区域Rl、R2和R3,并且根据重叠关系形成大区域D1。类似地,通过区域组分析单元137将存在于模块M2上的同源部分L6、L7和 L8识别为包括余量部分的小区域R6、R7和R8,并且根据重叠关系形成大区域D4。例如,用CPU、ROM和RAM来实现族分析单元139。族分析单元139基于与由同源组分析单元135产生的同源组相关的信息和与由区域组分析单元137产生的区域组相关的信息来分析同源部分的族。在某一串A中的不同位置的片段B和C以及其同源片段B’和C’在系统中是分散的。这里,在片段B’和C’之间不存在同源关系的片段B’和C’的原始片段B和C组成串 A。根据本实施方式的同源域系统发育的分析方法中的族的概念在于块B’和C’已经从占据一个区域的串A衍生或已经构成串A。因此,根据本实施方式的族分析单元139指定族由同源组和区域组组成。尽管衍生和构成意味着顺序相反的现象,但是,在根据本实施方式的同源域系统发育的分析方法中,同源关系被处理为没有方向性的关系。因此,将避免关于衍生或构成的描述。如上所述,族分析单元139将同源组B = {BJ和区域组X = (Xj)的组合的组处理为一个族BXFi= (BjX)0族分析单元139首选关注束集合{BJ (属于每个小区域氏的同源部分集合ILJ中的每个部分属于束集合{BJ),并搜索任何束所属于的族。当检测到这种族时,族分析单元139将小区域氏追加至族BRFi = (B,R)的区域组R。当未检测到这种族时,族分析单元139将具有作为区域组的小区域Ri的束集合{BJ和作为区域组的{RJ的族BRFi = ({BJ, {RJ)记录为新族。类似地,族分析单元139分析所有中区域Ci中的族BCFi和所有大区域Di中的族 BDFi。族分析单元139执行以上处理,从而可以产生包括同源组和区域组的族。与由族分析单元139产生的每个族相关的信息存储在存储器109中,并且用于同源域系统发育分析单元103所包括的每个处理单元的处理中。然后,将参考图5E具体地说明根据本实施方式的族。图5E是用于说明同源域系统发育分析处理的示图。如图5E所示,根据地理上相邻的关系,图5A所示的实例中的属于束Bl的同源部分Ll和L3以及属于束B2的同源部分L2形成大区域D1。根据地理上相邻的关系,属于束 B2的同源部分L7以及属于束B3的同源部分L6和L8形成大区域D4。因此,根据束B1、B2 和B3以及属于其的大区域形成一个大族BDFl = ({B1,B2,B3},{Dl,D2,D3,D4,D5})。和大区域一样,小区域和中区域也形成族。当将同源部分Ll L9的小区域定义为Rl R9并将中区域定义为Cl C9时,存在作为小族的三个族BRFl = ({Bi},{Rl,R3, R5}), BRF2 = ({B2},{R2, R4,R7})和 BRF3 = ({B3},{R6, R8, R9})。类似地,存在作为中族的三个族 BCFl= ({Bi}, {Cl, C3, C5}),BCF2 = ({B2},{C2,C4,C7})和 BCF3 = ({B3}, {C6, C8, C9})。例如,用CPU、ROM和RAM来实现族细分单元141。族细分单元141分别细分由族分析单元139产生的大区域族和中区域族,以产生大区域子族和大区域次子族。根据以上族的概念,当某一串中的同源片段为分散的时,各区域上彼此相邻的所有同源域包括在一个大族中。在这种情况下,考虑到在根据本实施方式的同源域系统发育的分析方法中,与同源关系相比,地理上相邻的关系较弱。因此,基于区域结构的层级来细分大区域族。组成每个属于大区域族BDFi = ({B},{D})的大区域01的中区域{Cj的中区域族的集合{BCFJ,是大区域族的子集的联合。当一个或多个大区域共享中区域族的子集时,族细分单元141将中区域族的子集定义为大区域子族BDCFi = ({BCFJ, {DJ)。族细分单元141如下所述地搜索大区域子族。对于每个大区域,族细分单元141首先确定形成大区域的中区域的集合,并搜索与每个中区域所属的中区域族的集合相匹配的子族BDCFitl当检测到这种子族时,族细分单元141将大区域追加到所检测的子族。当未检测到这种子族时,族细分单元141将包括{DJ的大区域子族BDCFi = ({BCFJ, {DJ)新纪录为区域组。类似地,包括在每个属于中区域族BCFi = ({B}, {C})的中区域(;中的小区域 {RJ的小区域族的集合{BRFJ,是中区域族的子集的联合。当一个或多个中区域共享小区域族的子集时,族细分单元141将小区域族的子集定义为大区域次子族BDCRFi = ({BRFJ, 恥})。族细分单元141如下所述地搜索大区域次子族。对于每个大区域子族BDCFi,族细分单元141首先确定属于大区域子族的各个大区域、形成各个大区域的各个中区域、包括在各个中区域中的各个小区域,并搜索与每个小区域所属的小区域族BRFi的集合相匹配的大区域次子族BDCRFit5当检测到这种次子族时,族细分单元141将大区域追加到所检测的次子族。当未检测到这种次子族时,族细分单元141 将包括{DJ的大区域次子族BDCRFi = ({BRFJ, (Dj)新纪录为区域组。族细分单元141执行以上处理,从而可分级地细分大区域族。关于由族细分单元 141产生的子族和次子族的信息存储在存储器109中,并且用于同源域系统发育分析单元 103所包括的每个处理单元的处理中。在图5E 所示的实例中,对于大族 BDFl = ({B1,B2,B3},{Dl,D2,D3,D4,D5}),通过族细分单元141检测以下五个大区域子族。大区域子族BDCFll = ({BCF1,BCF2},{D1})BDCFl2 = ({BCF2},{D2})BDCFl3 = ({BCF1},{D3})BDCF14 = ({BCF2,BCF3},{D4})BDCFl5 = ({BCF3},{D5})通过族细分单元141检测以下五个大区域次子族。大区域次子族BDCRFl 11 = ({BRF1,BRF2},{D1})BDCRFl21 = ({BRF2},{D2})BDCRFl31 = ({BRF1},{D3})BDCRF141 = ({BRF2,BRF3},{D4})BDCRFl51 = ({BRF3},{D5})例如,用CPU、ROM和RAM来实现方向确定单元143。例如,DNA以反向互补的方式由双链形成。考虑到通常的回文包括反向阅读的可能性,确定元的标准方向是优选的,从而将在其中同源部分、小区域、中区域和大区域用束连接并且其属于相同的族的元称作处于一致的比对方向上。然后,方向确定单元143确定属于小区域、中区域和大区域的同源串片段的部分中属于相同同源组和相同同源族的同源串片段的部分的比对方向(标准方向)。方向确定单元143基于以下优先顺序,通过探索式方法确定用来确定束上的同源部分的方向的顺序。当尚未确定存在于束上的任何同源部分的方向时,方向确定单元143通过以下步骤来确定比对方向。
(a)当确定所关注的同源部分所属的区域组(小区域、中区域和大区域)的方向时,方向确定单元143将区域的方向确定为同源部分的方向。(b)当基因(编码区域)存在于所关注的同源部分周围(同源部分的内部、外部或末端)时,方向确定单元143根据基因(编码区域)的方向来确定同源域的方向。(c)方向确定单元143将具有最大数量的同源关系并被估计为束的中心的同源部分的方向确定为法线方向(方向性d = 1)。方向确定单元143确定束上的第一同源部分的方向,并将所确定的方向传送至具有所确定的方向的同源部分所属的区域(小区域、中区域和大区域)。方向确定单元143将所确定的方向传送至束上的其他同源部分。方向确定单元143可以通过执行这种处理来确定同源部分的比对方向。如上所述,根据本实施方式的同源域系统发育的分析方法包括以下步骤关注从串的比对而获得的同源域,并将同源组(其是一组物理上分散的同源域)与区域组(其是一组地理上相邻的同源域)组合,以形成一个族。然后,根据区域构造来细分所获得的族, 并对所关注的串进行分类。换句话说,同源域系统发育的分析方法是一种包括以下步骤的方法关注被称为同源域的相似串片段,并根据地理结构估计地理上分散的同源域在被结构化或片段化的同时被传送的过程。最终,其还是一种包括以下步骤的方法从出现在串上的相似串片段的系统发育和出现模式的方面来表征所关注的这些串数据之间的相似度。例如,在音乐领域中, 重复地出现在音乐片段中的旋律使得该音乐片段给人留下深刻的印象,或者通过使某一旋律的改编形式出现在每个乐章中来表达整个音乐片段的主旋律。该分析方法的使用允许用户对数据的主观和直觉印象的精确表达和量化,使得“这些数据看起来是相似的”。上述每个处理单元执行每个处理,从而根据本实施方式的同源域系统发育分析单元103可以通过关注彼此相似的串片段(S卩,同源域)的分布和结构,来分析同源域的系统发育。如上所述,已经参考图4至图5E详细地说明了根据本实施方式的同源域系统发育分析单元103的构造和功能。如上所述,已经描述了根据本实施方式的信息处理装置10的功能的一个实例。可以通过使用通用部件或电路来构造每个组成元件,或者可以通过专具有每个组成元件的功能的硬件来构造每个组成元件。此外,可以完全通过CPU等来实现每个组成元件的功能。因此,当执行本实施方式时,可以根据可用的技术水平来适当地改变所用的构造。可以制作用于实现根据本实施方式的上述信息处理装置的功能的计算机程序,并且,可以在个人计算机等上执行该计算机程序。此外,可以设置存储这种计算机程序的计算机可读记录介质。记录介质的实例包括磁盘、光盘、磁光盘和闪存。此外,例如,可能通过网络来分发上述计算机程序而不使用记录介质。以上已经描述了根据本实施方式的信息处理装置10包括同源域功能分析单元 105的情况,然而,本发明不具体限于该实例。信息处理装置10并非必须包括同源域功能分析单元105。<同源域系统发育的分析方法的流程>随后,将参考图6描述根据本实施方式的同源域系统发育的分析方法的流程。图6是示出了根据本实施方式的同源域系统发育的分析方法的流程的流程图。在以下描述之前,假设一种包括经受同源域系统发育的分析方法的串(模块)的系统,将对于每个包括在系统中的模块Mi的序列信息Si和功能数据Ci从数据获取单元101 输入至同源域系统发育分析单元103。这里,参数i是表示组成系统的模块的数量的参数 (其中,1彡i彡N)。首先,同源域系统发育分析单元103的序列比对单元131以循环方式对所有输入模块执行序列比对(步骤S101)。因此,序列比对单元131产生每个模块对其本身的N种序列比对结果(Si对Si的序列比对结果)以及Si对Φ j)的[{N (N-I)}/2]种序列比对结果。随后,同源域提取单元133使用由序列比对单元131产生的序列比对结果,提取对应于同源部分的串片段及其同源关系(步骤103)。结果,产生包括同源部分信息和同源关系信息的同源域信息。然后,同源组分析单元135分析由同源域提取单元133产生的同源域信息,以产生与同源组(束)相关的信息(步骤S105)。区域组分析单元137分析由同源域提取单元133产生的同源域信息,以确定区域组(步骤S107)。结果,产生地理上相邻的同源域的组,例如,小区域、中区域和大区域。然后,族分析单元139分析由同源组分析单元135产生的同源组和由区域组分析单元137产生的区域组,以确定同源域的族(步骤S109)。因此,族分析单元139产生关于大区域族、中区域族和小区域族的信息。其后,族细分单元141基于区域结构将由族分析单元139产生的大区域族和中区域族细分(步骤sill)。结果,产生了在其中大区域族被细分的大区域子族和在其中大区域族被进一步细分的大区域次子族。随后,方向确定单元143确定元的标准方向,从而使得其中同源部分、小区域、中区域和大区域通过束连接并且属于相同的族的元被参照为处于一致的比对方向上(步骤 S113)。在以上过程之后,同源域系统发育分析单元103将所获得的分析结果输出至分析结果输出单元107。分析结果输出单元107经由各种输出装置输出由同源域系统发育分析单元103产生的分析结果,从而允许将分析结果通报给用户。这里,由分析结果输出单元 107输出的分析结果包括,例如,所有分析结果的文档信息和所有分析结果的可视化信息, 如图6所示。<同源域功能的分析方法的流程>随后,将参考图7描述根据本实施方式的同源域功能的分析方法的流程。图7是根据本实施方式的同源域功能的分析方法的流程的流程图。在以下描述之前,将与通过同源域系统发育分析而获得的同源域的族相关的信息 (同源域族信息)以及所关注的每个模块Mi中的外部参考对象的功能数据Ci,输入至同源域功能分析单元105。同源域功能分析单元105收集位于属于每个族的每个同源域周围的外部参考对象的功能数据(步骤S151)。然后,同源域功能分析单元105参考包括在外部参考对象的所收集的功能数据中的注释信息,并基于包括在注释信息中的功能ID搜索功能数据库(步骤S153)。由同源域功能分析单元105参考的功能数据库可以设置在根据本实施方式的信息处理装置10中或可以是由与通信网络(例如,因特网)连接的各种服务器管理的数据库。然后,同源域功能分析单元105将在整个族上获得的搜索结果进行分类(步骤 S155)。通过执行上述处理,同源域功能分析单元105可以使用具有外部元功能的功能作为一种方式来估计被认为是包括在族中的同源域的功能的功能。在以上过程之后,同源域功能分析单元105将所获得的分析结果输出至分析结果输出单元107。分析结果输出单元107经由各种输出装置输出由同源域功能分析单元105 产生的分析结果,从而允许将分析结果通报给用户。这里,由分析结果输出单元107输出的分析结果包括,例如,所有分析结果的文档信息和所有分析结果的可视化信息,如图7所<用于分析基因组结构的软件的一个实例>使用如上所述的同源域系统发育的分析方法开发了一种用于分析基因组结构的软件。在下文中,首先将参考图8描述所开发的软件的构造。图8是示出了用于使用根据本实施方式的同源域系统发育分析处理和同源域功能分析处理来分析基因组结构的软件的一个实例的示图。如图8所示,用于分析基因组结构的所开发的软件使用各种现有数据库。此外,用现有的工具来显示分析结果。将在下文中描述的用于分析基因组结构的软件的构造完全是一个示例。用于使用根据本实施方式的同源域系统发育的分析方法来分析基因组结构的软件并不限于以下实例。这里,图8中的“基因提取器”对应于根据本实施方式的信息处理装置10的数据获取单元101,并获取各种输入信息,例如,待分析的碱基序列信息和基因相关信息。此外, 图8中的模块“基因座比对提取器”提取同源部分和同源关系,模块“HD族提取器”分析所关注的碱基序列的族。这两个模块对应于根据本实施方式的信息处理装置10的同源域系统发育分析单元103。图8中的模块“观测仪”对应于根据本实施方式的分析结果输出单元 107,模块“功能分析器”对应于根据本实施方式的同源域功能分析单元105。在根据本实施方式的用于分析基因组结构的软件中,以下信息用作输入信息。输入信息(1)包含具有基于基因信息数据库(Genbank(http://WWW.ncbi.nlm.nih. gov/ Genbank/),由属于国家卫生研究所(NIH)的生物技术信息国家中心(NCBI)出版)的gb形式被分析的染色体(或质粒)的基因和编码区域的注释的核酸序列信息的Ascii文件。(2)包含从用于核酸和氨基酸序列的比对分析的公共软件输出的同源序列信息的 Ascii 文件由 NCBI 提供的 BLAST(http//www. ncbi. nlm. nih. gov/blast/Blast. cgi)。(3)表示小区域的余量率的变元(余量余量长度/总长X 100) (% ) (MARGIN = 数值)。(4)表示调试方式开关的变元(如果DEBUG是1,那么调试方式开启;如果DEBUG 是0或未指定,那么调试方式断开)。在根据本实施方式的用于分析基因组结构的软件中,用以下信息作为输出信息。
输出信息(1)包含所有分析信息的文本(Ascii),所述分析信息包括基因(编码区域)的位置和功能、同源域的位置、系统发育、分布、周围基因簇、相关功能以及统计信息。(2)线性物理(或比例图)图谱,其中,用颜色来可视化染色体的基因(编码区域) 的位置和方向,以及同源域的位置、方向和系统发育(SVG语言文件和用于调用SVG语言文件的html语言文件)(注解1)。(3)布局图(Scheme diagram),其中,用颜色来可视化同源域的内部结构的系统发育(中间输出是DOT语言文件;最终输出是用公共工具Graphviz产生的gif/jpg文件) (注解2)。(4)布局图,其中,可视化同源域的系统树(中间输出是DOT语言文件;最终输出是用Graphviz产生的gif/jpg文件)。(5)布局图,其中,基于顺序和系统发育,自动地比对并用颜色来可视化包含染色体的基因分子上的同源域(中间输出是DOT语言文件;最终输出是用Graphviz产生的gif/ jpg文件)(注解3)。(6)图表,其中,可视化与属于同源域族的同源域的长度和分布相关的统计信息 (最终输出是由gnuplot提供的ps/pdf形式的文件,gnuplot是GNU环境的一部分)。(注解1)当直接输出可视化的信息(例如,物理分布图,包括基因同源域的分布图)时, 从一般性、高功能性和可扩展性考虑,将可视化的信息输出为可缩放矢量图形(Salable Vector Graphics, SVG)语言文件。SVG语言是被开发为以XML语言(XML语言形式是一种用来产生网页的标准语言)形式描述二维图形的通用语言并且不仅允许可视化还允许输入功能。可以从万维网联盟(World Wide Web Consortium) (W3C) (2003)获得说明书。可以使用已知的软件来可视化SVG语言文件。此外,可以通过将用于SVG解释的预定插件结合在与XML兼容的因特网浏览器中,来将其可视化。对于后者,输出具有对象的SVG语言文件以及用于启动的html语言文件。(注解2)首先,将不仅包括物理距离而且包括相关距离的可视化信息(例如,同源域的内部结构的布局图、同源域系统树(family tree,系谱)和同源域排列图)输出为DOT语言文件(Gansner等,2006),并用已知的公共软件Graphviz将其自动地展示。然后,获得作为最终输出的gif (或jpg)文件。Graphviz软件具有五种不同的布局算法dot (用于有向图)、 neato (用于无向图)、twopi (用于径向布局)、circo (用于圆形布局)以及fdp (用于无向分层图)。用fdp算法自动地展示同源域的内部结构的布局图,用neato算法展示同源域系统树,并用dot算法展示同源域排列图。(注解3)在可视化过程中,对小区域、中区域和大区域的各个族自动地上色。色环(RGB)的十六进制数值表示为(#000000-#FFFFFF)。将N个族的第i个族的颜色设置为#FFFFFFX i/ (N+1)。在下文中,将描述根据本实施方式的用于分析基因组结构的软件的执行环境的实例。以下执行环境完全是一个示例。根据本实施方式的用于分析基因组结构的软件的执行环境并不限于以下实例。执行环境(1)程序被构造为在具有GNU的Linux/Unix的执行环境下运行。(2)使用gawk脚本语言描述分析程序。gawk语言处理器是作为GNU的一部分嵌入的脚本语言。(3)构造为使得软件执行从用于启动的外壳(shell)脚本开始。(4)在所公布的基因序列的分析中,使用由隶属于国家卫生研究所的NCBI提供的核酸数据库=GenBankt5(5)使用用于核酸和氨基酸序列的比对分析的公共软件由NCBI提供的BLAST,来提取同源序列。在这种情况下,可以使用NCBI的Web服务器。(6)在同源域相关功能的分析中,在系统中结合并使用三种基因功能数据库的所公布的原始文件以用于使用由京都大学提供的KEGG (http://www. genome, jp/kegg/),由 Wellcome Trust Sanger Institute 提供白勺 Pfam(http://pfam. sanger. ac. uk/)以及由 Gene Ontology Consortium 提供的 GO (http://www. geneontology. org)。(7)为了可视化可缩放矢量图形(SVG)语言文件(W3C 2003),使用解释SVG语言的已知的图形软件或与XML/SVG语言形式兼容的因特网浏览器插件。(8)用公共软件Graphviz (http://www. graphviz. org/)用作程序中的网络自动布局工具。在下文中,将通过应用实例再次详细地描述通过使用用于分析基因组结构的软件而获得的各种分析结果。<第一变形实例>将简要地描述根据本实施方式的信息处理装置和信息处理方法的第一变形实例。根据本实施方式的信息处理装置和信息处理方法例如包括以下步骤关注诸如基因序列的串,比对这些串,提取这些串的所有相似部分(即,同源域),并根据所提取的同源域的相似性关系和地理结构将所提取的同源域分类成多个族。对于由根据本实施方式的信息处理装置和信息处理方法获得的同源域的族,可以将诸如标识号(ID)的识别信息应用到每个所提取的族。然后,根据本变形实例的同源域系统发育分析单元103使用分配给所提取的族的ID产生表示族的出现顺序的串,并进一步对出现顺序的串应用同源域系统发育的分析方法。这允许分析更高等级的族。此外,并不具体地限制同源域系统发育的分析方法的应用等级的数量,而是可以根据目标串和分析条件来适当地进行设置。在这种情况下,同源域系统发育分析单元103可以适当地使用之前示出的已知的一般的距离度量,而不用将用于在标识号的串(数字序列)上执行序列比对的距离度量限制为特定的距离度量,例如专门用于基因序列的比对的距离度量。因此,当分等级地应用同源域系统发育的分析方法时,可更具体地揭示同源域族 (它们在进化过程中通过许多的元的插入而分离并且在第一级(即,同源域系统发育的分析方法对基因序列的第一应用)中并不显著)的关系和结构。结果,可以搜索最初存在的串结构的原始形式,使得可更具体地揭示染色体重排的变迁。将通过应用实例更具体地描述上述同源域分析方法的分级应用。(硬件构造)
然后,将参考图9详细地描述根据本发明的实施方式的信息处理装置10的硬件构造。图9是用于说明根据本发明的实施方式的信息处理装置10的硬件构造的框图。信息处理装置10主要包括CPU 901、ROM 903和RAM 905。此外,信息处理装置10 包括周线907、桥接器909、外部总线911、接口 913、输入装置915、输出装置917、存储装置 919、驱动器921、连接口 923以及通信装置925。CPU 901用作处理和控制单元,并且,其根据存储于ROM 903、RAM905、存储装置 919或可移动记录介质927中的各种程序来控制信息处理装置10中的全部或部分操作。 ROM 903存储将由CPU 901使用的程序、处理参数等。RAM 905主要存储在CPU 901执行中使用的程序、在执行过程中适当地变化的参数等。CPU 901、ROM 903和RAM 905通过周线 907(其为诸如CPU总线的内部总线)彼此连接。周线907经由桥接器909与外部总线911(例如,外设部件互连/接口(PCI)总线)连接。输入装置915是由用户操作的操作机构,例如鼠标、键盘、触摸面板、按钮、开关或控制杆。例如,输入装置915可以是具有红外线或另一无线电波的远程控制机构(成为远程控制),或者是与信息处理装置10的操作兼容的外部连接装置929,例如,手机或PDA。此外,例如,输入装置915包括基于由用户使用以上操作机构输入的信息来产生输入信号并将输入信号输出到CPU901的输入控制电路。通过操作输入装置915,信息处理装置10的用户可输入各种数据或对信息处理装置10给出处理操作的指令。输出装置917包括能够可视地或可听地对用户通报所获得的信息的设备。这种设备的实例包括显示装置(例如,CRT显示装置、液晶显示装置、等离子体显示装置、EL显示装置)或灯、音频输出装置(例如,扬声器或耳机),或打印机、手机或传真。例如,输出装置 917输出通过由信息处理装置10进行的各种处理所获得的结果。特别地,显示装置将通过信息处理装置10的各种处理而获得的结果显示为文本或图像。音频输出装置将包含再生的音频数据、声音数据等的音频信号转换成模拟信号,并将其输出。存储装置919是用于数据存储的装置,其被构造为信息处理装置10的存储单元的一个实例。存储装置919包括诸如硬盘驱动器(HDD)的磁存储装置、半导体存储装置、光存储装置、磁光存储装置等。该存储装置919存储将由CPU 901执行的程序、各种数据或各种从外部获取的数据。驱动器921是用于记录介质的读取器/写入器,其嵌入在信息处理装置10中或附接至信息处理装置10。驱动器921读取记录在可移动记录介质927中的信息并将信息输出至RAM 905,可移动记录介质927例如为附接至驱动器921的磁盘、光盘、磁光盘或半导体存储器。此外,驱动器921可以将信息写入到可移动记录介质927中,可移动记录介质927 例如为附接至驱动器921的磁盘、光盘、磁光盘或半导体存储器。可移动记录介质927的实例包括DVD介质、HD-DVD介质和蓝光介质。另外,可移动记录介质927的实例包括压缩闪存(注册商标)(CF)、闪存,以及安全数字(SD)存储卡。此外,可移动记录介质927可以是配置有无接触IC芯片或电子设备的集成电路(IC)卡。连接口 923是用于将装置与信息处理装置10直接连接的端口。连接口 923的实例包括通用串行总线(USB)端口、IEEE 1394端口以及小型计算机系统接口(SCSI)端口。 另外,连接口 923的实例包括RS-232C端口、光声终端以及高分辨率多媒体接口(HDMI)端口。通过将外部连接装置9 连接至连接口 923,信息处理装置10可从外部连接装置9 直接获取各种数据,或对外部连接装置9 提供各种数据。例如,通信装置925是由用于与通信网络931连接的通信装置等组成的通信接口。通信装置925可以是用于有线或无线局域网(LAN)的通信卡、蓝牙(注册商标)或无线USB(WUSB)。可选地,通信装置925可以是用于光通信的路由器、用于非对称数字用户线路(ADSL)的路由器或用于每种类型的通信的调制解调器。例如,通信装置925可以按照规定协议(例如,因特网上TCP/IP)或者与其他通信装置传输和接收信号等。此外,与通信装置925连接的通信网络931包括有线或无线网络等,并且,可以为因特网、家庭LAN、红外数据通信、无线电波通信、卫星通信等。在上文中已经描述了能够实现根据本发明的每个实施方式的信息处理装置10的功能的硬件构造的实例。各组成元件可以由通用部件来构成,或者可以用对每个组成元件具有专门功能的硬件来构成。因此,当执行该实施方式时,可以根据可用的技术水平来适当地改变所用的构造。(应用实例)用于使用分析同源域系统发育的方法来分析基因组结构的软件被用来执行各种分析。在下文中,将描述所执行的分析和结果。<应用实例1 蓝细菌PCC6803的基因组结构的分析>使用用于分析基因组结构的软件来分析蓝细菌集胞藻(Synechocystis sp.) PCC6803(Kaneko et al. ,DNA Research, 3 :109-136(1996),Kaneko et al. ,DNA Research, 10 :221-228(2003))的基因组(所有主染色体和内生质粒(endogenous plasmid))。分析对象作为基因组序列信息,在分析中使用了表1所示的八种类型的DNA中的全部序列(第1至第7序列),其已从PCC6803菌株中发现并公布。已经用所公布的比对软件 BLAST,对这7个序列执行7种自-自组合和21种自-它组合的序列比对,并将被组合成大约2. 6MB的文本数据的输出结果作为用于同源域系统发育分析的对象。将3%的区域余量率(MARGIN = 3)作为变元。[表 1]
权利要求
1.一种信息处理装置,包括数据获取单元,获取表示一个以上字符的串的串数据;以及系统发育分析单元,分析由所述数据获取单元获取的串数据,以在由所述串数据表示的串中提取同源串片段,并基于所提取的同源串片段的位置关系和同源关系执行系统发育分析。
2.根据权利要求1所述的信息处理装置,其中,所述系统发育分析单元进一步包括序列比对单元,对多个所述串数据执行序列比对,并计算所述串数据之间的相似性测度,同源域提取单元,使用所述序列比对单元的序列比对结果来提取同源域,所述同源域包括表示同源串片段的部分的同源部分信息和通过使用所述同源串片段的部分的方向和同源程度中的至少一个表示的同源关系信息,同源组分析单元,分析分散地存在于同一串数据中或不同串数据之间的同源域,并将同源域中具有共同的同源部分信息的同源域分组成同源组;区域组分析单元,分析分散地存在于同一串数据中或不同串数据之间的同源域,并产生表示同源域之间的包含和重叠关系的区域组,以及族分析单元,基于与由所述同源组分析单元分组的同源组相关的信息和与由所述区域组分析单元产生的区域组相关的信息来分析同源串片段的族。
3.根据权利要求2所述的信息处理装置,其中,所述区域组分析单元将通过对所述同源串片段的部分的两端增加预定长度的余量部分而获得的区域设置为小区域,将不包括在其他小区域中的小区域设置为中区域,并将重叠的中区域的集合设置为大区域。
4.根据权利要求3所述的信息处理装置,其中,所述族分析单元分析由所述区域组分析单元产生的所述小区域、所述中区域和所述大区域,并估计表示所述小区域的族的小区域族、表示所述中区域的族的中区域族以及表示所述大区域的族的大区域族。
5.根据权利要求1所述的信息处理装置,其中,所述系统发育分析单元进一步包括细分所述大区域族的族细分单元。
6.根据权利要求1所述的信息处理装置,其中,所述系统发育分析单元进一步包括方向确定单元,所述方向确定单元确定属于小区域、中区域和大区域的同源串片段的部分中属于相同同源组和相同族的同源串片段的部分的比对方向。
7.根据权利要求1所述的信息处理装置,进一步包括功能分析单元,所述功能分析单元基于所述系统发育分析单元的分析结果来分析同源域的功能。
8.根据权利要求1所述的信息处理装置,其中,所述系统发育分析单元进一步对表示所提取的同源串片段的系统发育分析结果的所述串数据执行系统发育分析。
9.一种信息处理方法,包括以下步骤获取表示一个以上字符的串的串数据;分析所获取的串数据,以在由所述串数据表示的串中提取同源串片段;以及基于所提取的同源串片段的位置关系和同源关系执行系统发育分析。
10. 一种用于使得计算机实现以下功能的程序 数据获取功能,用于获取表示一个以上字符的串的串数据;以及系统发育分析功能,用于分析由所述数据获取功能获取的所述串数据,在由所述串数据表示的串中提取同源串片段,并基于所提取的同源串片段的区域关系和同源关系执行系统发育分析。
全文摘要
提供了信息处理装置、信息处理方法和程序。一种根据本发明的信息处理装置,包括数据获取单元,获取表示一串一个以上字符的串数据;以及系统发育分析单元,分析由数据获取单元获取的串数据以在由串数据表示的串中提取同源串片段,并基于所提取的同源串片段的位置关系和同源关系执行系统发育分析。
文档编号G06F19/14GK102279907SQ20111013775
公开日2011年12月14日 申请日期2011年5月25日 优先权日2010年5月25日
发明者吉田芳 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1