便于对与多个序列间的突变区与相似区有关的信息进行存取的序列显示方法及同源搜索方法

文档序号:6421120阅读:171来源:国知局
专利名称:便于对与多个序列间的突变区与相似区有关的信息进行存取的序列显示方法及同源搜索方法
技术领域
本发明涉及对同源的核苷酸序列或氨基酸序列进行搜索。
背景技术
实质上已解码出人类的基因序列(所有的人类DNA序列),并且由诸如NLM(美国国家医学图书馆)的NCBI(国家生物技术资讯中心)、属于美国NIH(国家卫生研究院)的一机构、日本的遗传学国家学会及东京大学的医学研究所、及欧洲的EBI(欧洲生物资讯研究所)和EMBL(欧洲分子生物学实验室)这样的组织建造了用于对DNA序列及来源于DNA序列的氨基酸序列进行存储的数据库(DB)。
除人类之外的诸如小鼠、大鼠、河豚、斑马鱼、果蝇、及线虫这样的其他种类的有机物的基因序列正处于被解码的处理过程中或已被解码。
此外,在下一阶段中,工作正处于调查个人之间的基因序列的差异。
这些情况加重了对已知序列与在生物学和医学的研究过程中所发现的核苷酸序列或氨基酸序列之间的同源性进行比较的极端重要性。例如,如果在研究的过程中一研究人员获得了一序列,该序列具有与另一研究员所注册的核苷酸序列或氨基酸序列非常高的同源性,那么在某种程度上已对其起源于那序列的生物机能进行了分析,因此该研究员必须改变他或她的研究方向。另一方面,如果具有与另一研究员已注册的核苷酸序列或氨基酸序列非常高同源性的一序列仍未注册,那么根据已知序列也可预测起源于在研究的过程中所获得的核苷酸序列或氨基酸序列的生物机能。
BLAST(基本局部比对搜索工具(Basic Local Alignment SearchTool),http//www.ncbi.nlm.nih.gov/blast/)是对由NCBI(例如参看分子生物学杂志(Journal of Molecular Biology),215,第403-410页(1990))所研发的核苷酸序列及氨基酸序列的同源性进行搜索的一系统。通过使用BLAST,可从诸如Entrez(http//www.ncbi.nlm.nih.gov/entrez)中获得具有高度同源性的序列,该Entrez是由NCBI所提供的有关核苷酸序列及氨基酸序列的一DB。因此全世界的生物学和医学研究员每日都使用该数据库。
除BLAST之外,FSATA(快速比对,Fast Alignment)是对核苷酸序列及氨基酸序列的同源性进行搜索的一系统(例如,参考Doolittle(Ed.),Methods in Enzymology,Academic Press,183,pp.63~08(1990))。
除NCBI之外的序列数据库包括由日本的遗传学国家学会所管理的DDBJ(日本的DNA数据库银行)以及由EBI/EMBL所管理的核苷酸序列及氨基酸序列数据库。此外,根据不同组织的目标而为不同的目的建造了诸如JSNPs这样的各种核苷酸序列和氨基酸序列数据库,JSNPs是日本东京大学医疗研究所的人类基因的单核苷酸多态性数据库,并且根据每个研究员的目的来使用这些数据库。
当在上述任一种序列数据库中对核苷酸序列或氨基酸序列的同源性进行搜索时,研究员通常使用上述BLAST或FASTA系统。
另外,采用同源搜索来进行序列分析通常需要这样一种功能,即根据同源性来比对三个或多个核苷酸序列的相应部分(在下文中被称为多序列比较或多序列比对)。用于执行多序列比对的软件包括例如由EBI/EMBL所开发的Clustal W和Clustal X。许多其他类型的多序列比较软件也可被适用并被研究员所使用,其包括有日本所开发的软件。
在核苷酸序列或氨基酸序列的同源搜索过程中,提交给序列数据库的一查询是以用户的输入所提供的一核苷酸序列或氨基酸系列,或者该查询是根据以用户的输入所提供的信息而获得的核苷酸序列或氨基酸系列,并且对相似的序列进行搜索。在搜索结果中最重要的点就是核苷酸或氨基酸的相异点(在下文中称为突变)以及在查询中所提交的核苷酸序列或氨基酸序列与存在相应的同源现象的区域中的搜索结果的核苷酸系列或氨基酸系列之间的相同点(在下文中称为相似)。
当使用BLAST或FASTA时,在获得与突变点有关的信息以及与相似点有关的信息的过程中,会遇到这样几个问题1、因为成对的显示在查询中所提交的序列以及所搜索的序列,因此用户必须相互对照所有对的比较结果,以便获得大量序列间的诸如突变频率或突变区这样的重要信息。
2、因为通过切断仅具有高度同源性的那部分而显示了部分搜索结构,因此很难了解所显示的是整个序列的哪一部分。
3、当对其部分进行比较的核苷酸或氨基酸是相同时,显示“|”或“.”,因此很难即刻就理解该结果。
4、因为仅以简单的文本格式来显示搜索结果,因此很容易漏看突变点。
综述上述要点,具有搜索结果显示问题的BLAST或FASTA系统很难存取用户最需要的诸如序列间的突变区或相似区这样的重要信息。
作为上述问题的对策,研究员经常执行多序列比对。然而,当利用上述软件来执行多序列比对时,不能充分的克服上述问题。
作为一例子,上述Clustal X具有可彩色显示氨基酸的突变区这样的一功能。然而,色彩的标准是不固定的并且色彩除使突变显著之外没有什么意义。
此外,根据所使用的软件,确定同源性的方法不同于BLAST或FASTA的方法。因此,当根据BLAST或FASTA的搜索结果来执行多序列比对时,相应氨基酸位置经常偏移。在这种情况下,因此必需这样的一过程,即利用BLAST所获得的搜索结果作为一标准来比对相应的氨基酸位置。
另外,当通过利用该软件来寻找同源性时,必须预先汇集将被比较的所有序列。如果大量的序列要比较,因此核实未遗漏序列的过程使研究员具有很大的重担。

发明内容
因此本发明的一个目的就是提出了一种序列显示方法及同源搜索方法,上述方法便于对与序列间的突变区及相似区有关的信息进行存取,并且还可使得显示所搜索到的所有序列。
为实现上述目的,本发明的序列显示方法根据多个相似核苷酸序列或氨基酸序列中的突变和/或相似来增加视觉特性。
将视觉特性添加到多个相似核苷酸序列或氨基酸序列中的突变区和/或相似区上。
另外,根据多个相似核苷酸序列或氨基酸序列中的突变程度和/或相似程度来添加视觉特性。
更进一步,根据多个相似核苷酸序列或氨基酸序列中的突变区的突变频率来添加视觉特性。
根据上述方面,用户可立即获得诸如突变和相似这样的重要信息,而无需用户他自己或她自己来执行相互对照。
此外,当将核苷酸系列转换成氨基酸系列时,根据氨基酸信息来添加视觉特性,该氨基酸信息包括与核苷酸序列中的突变区的密码相对应的氨基酸的名称和特性。因此有可能在产生氨基酸时估算核苷酸的突变效果。
借助于显示色彩、显示色彩的变化、或字符的种类来体现出这些视觉特性。
此外,利用每个已比对序列中的相应核苷酸或氨基酸来显示多个相似核苷酸序列或氨基酸序列。因此用户可很容易的理解与多序列比对结果中的核苷酸或氨基酸的突变或相似有关的区域、程度、及频率。
另外,提供了与多个相似核苷酸序列或氨基酸序列有关的信息的链接。因此显示信息包括其包含在同源搜索结果中的信息项间的链接以及其包含在同源搜索结果中的信息与诸如因特网上的信息这样的外部信息之间的链接,并且所提供的链接信息便于相互对照或观看参照信息。
本发明的同源搜索方法包括步骤对以用户输入所提供的生物信息数据库所进行的一查询进行分析;根据该查询的分析结果,产生了适合于生物信息数据库的搜索条件并且对生物信息数据库进行搜索;分析该搜索结果;并且利用该搜索结果以及上述序列显示方法来显示搜索结果。借助于该方法,作为一单元来执行从搜索到显示的步骤。其结果是,即使在执行多序列比对时,也可减轻用户要核实是否忽略了某些已汇集序列的重担。
此外,同源搜索设备中具有一控制单元,该控制单元用于控制上述每个步骤的处理。
上述所述的本发明具有下述效果首先,无需要求用户相互对照或复查即可获得具有诸如核苷酸序列和氨基酸序列的同源搜索结果中的突变频率和突变区这样的特定意义的信息。因为以输入的方式提供了包括有多个相似核苷酸序列或氨基酸序列的同源搜索结果,并且此后将其作为显示信息,根据多个相似核苷酸序列或氨基酸序列中的突变和相似而将视觉特性添加到上述显示信息上,因此可获得该效果。
第二,即刻就可理解其作为同源搜索结果的多个序列中的突变区。因为以输出的方式提供了包括有与多个相似核苷酸序列或氨基酸序列中的突变区有关的视觉特性的显示信息,因此可获得该效果。
第三,即刻就可理解作为同源搜索结果的多个序列中的相似区。因为以输出的方式提供了包括有与多个相似核苷酸序列或氨基酸序列中的相似区有关的视觉特性的显示信息,因此可获得该效果。
第四,可一同显示具有高度同源性的区域以及其作为同源搜索结果的多个序列的全部。因为本发明所显示的信息包括整个序列,因此可获得该效果。
第五,可显示该结果,同时去除了多序列比对结果中的核苷酸位置的偏移。因为以下述方式而提供了所显示的信息,该方式即就是根据核苷酸和氨基酸的位置关系来进行比对,因此可获得该效果。
第六,预先汇集了所要比较的序列信息,或当所希望的序列信息不在手边时,通过利用与诸如基因、氨基酸、疾病、蛋白质的名称这样的序列相关的信息来获得序列信息。因为包含有用于将搜索条件信息传送到多个序列数据库的装置,因此可获得该效果。
第七,该显示可使得立刻理解作为同源搜索结果及多序列比对结果的序列突变区和相似区。因为本发明结合了上述第一至第六效果,因此可获得该效果。
第八,可减少在获得同源搜索结果的过程中由用户所必须执行的操作,因此减少了用户的重担。因为在多序列比对中不需要定位,因为在包括有在显示信息中相互对照这样的过程中使用了链接,并且因为与序列有关的信息被用于获得序列信息,因此可获得该效果。
第九,当搜索条件被改变而执行重复的搜索时,研究员不必改变条件且不必重复搜索,由此可有效的执行同源搜索。因为包括有一控制单元以控制一搜索的一系列操作,因此可获得该效果。包含该类控制单元可控制将一查询提交给公众序列数据的时间,由此本发明还具有可减小公众序列数据库服务器的重担这样一个效果。
参照随后的附图,从下述说明书中可显而易见的得出本发明的上述和其他目的、特性、及优点。附解说明了本发明的例子。


图1给出了本发明第一实施例的同源搜索设备的方框图;图2给出了查询分析单元11中的处理流程图;图3给出了通信单元12中的处理流程图;图4给出了结果分析单元13中的处理流程图;图5给出了显示单元14中的处理流程图;图6给出了核苷酸序列的同源搜索中的输入屏的一示例;图7给出了核苷酸序列的同源搜索中的结果屏示例的一部分;图8给出了核苷酸序列的同源搜索中的结果屏示例的另一部分;图9给出了氨基酸序列的同源搜索中的输入屏的一示例;图10给出了氨基酸序列的同源搜索中的结果屏的一示例;图11给出了氨基酸传输矩阵BLOSUM62;图12给出了现有技术的BLAST搜索结果的一示例;以及图13给出了本发明第二实施例的同源搜索设备的结构。
具体实施例方式
参考图1,根据本发明第一实施例的同源搜索设备10包括查询分析单元11、通信单元12、结果分析单元13、及显示单元14。
查询单元11接收以用户输入所提供的对序列数据库22的查询,执行分析,并将序列的搜索条件作出输出而提供给通信单元12。作为输入的所接收到的一查询包括一核苷酸序列或氨基酸序列、或存取数、实验数据、或作为主信息的文档。该查询进一步包括序列数据库22的名称、用于限制结果的生物种类、在核苷酸的情况下是否转化为氨基酸、以及在氨基酸的情况下是否使用PSI-BLAST(位置特异性叠代基本局部比对搜索工具,Position Specific Iterative Basic LocalAlignment Search Tool)。
通信单元12接受来自查询分析单元11的搜索条件并经由服务器21而将搜索条件传送到序列数据库22。通信单元12此后接收经由服务器21而来自序列数据库22的搜索结果,并将搜索结果和搜索条件作出输出提供给结果分析单元13。
结果分析单元13接收来自通信单元12的搜索条件和搜索结果并执行对搜索结果的分析。搜索结果的分析包括产生诸如突变的区域、频率、程度这样的信息。此后结果分析单元13将这些结果提供给显示单元14。
显示单元14接收来自结果分析单元13的分析结果,并根据包含在分析结果中的诸如突变的区域、频率、程度这样的信息来添加视觉信息(例如,改变特性的颜色或种类),并且进一步产生并提供显示信息。
参考附图对同源搜索设备10的操作进行详细的描述。
首先参考附图2,给出了用于说明查询分析单元11中的处理流程的流程图。
在步骤S201,首先根据以输入而接收到的一查询来确定是否执行同源搜索。当该查询是一序列或一登录号时,设置一标记以便执行同源搜索。当查询指示了一搜索结果文件时,设置一标记以便不执行同源搜索。
在步骤S202,设置一标记,该标记表示是否根据以输入而接收到的查询而将包含在查询中的信息转换成一序列。例如,如果该查询包括一登录号,则在步骤S203将序列信息转换标记值设置为真。
在步骤S204,根据以输入而接收到的一查询来确定所接收到的序列或由所接收到的信息所标识的序列是否是一核苷酸系列或一氨基酸序列。
如果在步骤S204中确定出该序列是一核苷酸序列,则可在步骤S205获得与用户将其指定为核苷酸序列数据库的数据库有关的信息。核苷酸序列数据库包括例如nr(非丰余序列,即一标准的非丰余序列数据库),EST(已表达序列标识,即已表达基因序列数据库),及SNPs(单核苷酸多态性,即单核苷酸多态性序列数据库)。
在步骤S206,根据以输入而接收的查询来确定是否将所接收到的核苷酸序列或由所接收到的信息所标识的核苷酸序列转换成一氨基酸序列并进一步对其进行分析。如果对该序列进行了转换,则在步骤207将氨基酸转换标记值设置为真。
如果在步骤204中确定出所接收到序列或由所接收到的信息所标识的序列是一氨基酸序列,则在步骤208获得了与用户所指定的氨基酸序列数据库有关的信息。氨基酸序列数据库包括例如nr(非丰余序列,即一标准的非丰余序列的数据库),PDB(蛋白质数据库,即蛋白质的三维结构数据库),swissprot(氨基酸序列数据库),专利(专利的序列的数据库),yeast(酵母序列数据库),及month(最近所增加的序列的数据库)。
在步骤209,根据以输入而接收到的查询来确定是否执行PSI-BLAST(位置特异性叠代基本局部比对搜索工具)。如果执行PSI-BLAST,则在步骤210将PSI-BLAST标记值设置为真。
在步骤211,根据以输入而接收到的查询来确定该搜索结果是否受限于生物种类。这里生物种类是指例如病毒、细菌、真菌、真核生物、哺乳动物、啮齿类动物、阿拉伯芥、枯草杆菌、线虫、斑马鱼、果蝇、大肠杆菌、人、小鼠、大鼠、或非洲的爪蛙。当用户指定了限制时,在步骤212将生物种类信息标记值设置为真。
参考图3,对通信单元12中的处理流程的流程图进行详细的描述。
在步骤301,确定在步骤205或步骤208所指定的序列数据库的位置。
在很普通的作法中,将序列数据库的位置划分成仅为本地、本地与互联网、及仅为互联网。在这种情况下,本地位置表示其包括有同源搜索设备10本身和LAN(本地网)的范围。互联网表示WAN的范围(广域网,其采用了诸如电话线这样的连接)。
如果位置仅限于本地,则在步骤302中由所接收到的来自分析接收单元11的搜索条件产生了与序列数据库相对应的一查询。
在步骤303,将步骤302中所产生的查询转送到本地服务器并执行同源搜索。
在步骤304,综合步骤303所执行的同源搜索结果。
当该位置既处于互联网又处于本地时,则在步骤305根据所接收到的来自查询分析单元11的搜索条件而产生了与序列数据库相对应的一查询。
在步骤306,将步骤305所产生的查询传送到本地服务器,并执行同源搜索。
在步骤307,将步骤305所产生的查询传输到互联网的服务器上,并执行同源搜索。
在步骤308,综合步骤306和307所执行的同源搜索结果。
当位置仅处于互联网时,则在步骤309根据所接收到的来自查询分析单元11的搜索条件而产生了与序列数据库相对应的一查询。
在步骤310,将步骤309所产生的查询传送到互联网的本地服务器上,并执行同源搜索。
在步骤311,综合步骤310所产生的同源搜索结果。
在步骤312,保存步骤304、308、或311所综合的同源搜索结果。
参考图4,对结果分析单元13中的处理流程的流程图进行详细的描述。
在步骤401,取出所接收到的来自通信单元12的搜索结果。当不执行同源搜索时,取回用户所指定的文件。
在步骤402,对步骤401所取出的搜索结果进行分析,确定所查询的序列的突变区,并获得了这些突变区的信息。
在步骤403,对步骤402所获得的突变点的信息进行综合,并计算在比较的过程该序列出现突变的频率。
在步骤404,计算步骤403所获得的突变区中的突变程度。如果所查询的序列是核苷酸序列并且如果在用于将核苷酸序列转换成氨基酸序列并对其进行分析的图2的步骤207中设置了一标识,则将以输入而接收到的核苷酸序列以及所搜索的核苷酸序列均转换成氨基酸序列,并且此后对这些氨基酸序列进行比较。
这里所描述的突变程度指的是例如在核苷酸序列的情况下是否出现了氨基酸置换,或在氨基酸序列的情况下诸如疏水程度或酸性程度/碱性程度这样的特性出现了多大变化。在氨基酸序列或其被转换成氨基酸序列的核苷酸序列的情况下,借助于例如被称为BLOSUM62的信息矩阵来计算该特性的近似度。然而,这仅仅是示例性的,并且根据,但不局限于酸性、疏水程度、和/或等电点来进行该计算。
在步骤405,将分析结果提供给显示单元14。
参考图5,对显示单元14中的处理流程的流程图进行详细的描述。
在步骤501,对序列进行重新排序以便根据图4中的步骤402所分析的突变区的信息来比对相应区。
在步骤502,根据图4中的步骤402所分析的突变区的信息来确定突变区的视觉特性(例如文本的颜色或文本的类型)。
视觉特性在这里指的是包括诸如字体、大写字母或小写字母,及文本颜色;以及颜色、图案、纹理、背景动画。然而,这仅仅是示例性的,并且视觉特性还包括例如文本的字号、粗细、下划线、斜体、闪烁、阴影、轮廓、边框。
在步骤503,根据与图4中的步骤403所分析的突变频率有关的信息来确定突变频率的视觉特性(例如背景颜色)。这里,最好是利用显示颜色的变化来体现出该频率。显示颜色的变化是指例如色彩的色调(shade)或色度(hue)的变化(例如,从红到兰的变化)。
在步骤504,根据与图4的步骤404所分析的突变程度有关的信息来确定突变程度的视觉特性(例如,背景颜色)。这里,利用显示颜色的变化来体现出该程度。显示颜色的变化是指例如色彩的色调或色度的变化(例如,从红到兰的变化)。
在步骤505,通过链接来连接其包含在同源搜索结果中的信息。
在步骤506,根据输出并基于图5的步骤501至505所适用的视觉特性的信息来将其转换成适当的显示格式。这里所指的输出例如可以是屏幕输出或打印机输出,并且显示格式可以是例如HTML(超文本标记语言)、XML(扩展标记语言)。然而,这仅仅是示例性的,并且显示格式还可以是TeX,bmp,gif,jpeg,PNG,TIFF,PICT,PDF(可携式电子文件格式),或PostScript。
下面参考附图对第一实施例的同源搜索设备的操作这样一个例子进行详细的描述。在下述说明中,将图2至图5的流程图所给出的每个步骤转换成计算机程序格式,该计算机程序记录在记录介质中并且个人计算机用作同源搜索设备10以使其读取改记录介质并由此进行操作。
现在参考附图6,给出了用于引导对核苷酸序列进行同源搜索的一输入屏。这里,用户执行输入核苷酸序列(输入你的查询)、标识执行搜索的序列数据库(所选择的数据库)、标识是否将核苷酸序列转换成氨基酸并对其进行分析(显示所转换的密码)、标识其可限制搜索结果的生物种类(通过entrez查询来限制)、并标识仍未被分析的搜索结果文件(输入查询文件)。
在用户通过在核苷酸序列输入格中输入而提供了核苷酸序列(输入你的查询)之后,用户点击提交按钮,由此查询分析单元11接收核苷酸序列。此后如前面所描述的每个单元执行每个处理。
在该示例中,用户可指明是否将核苷酸序列转换成氨基酸并对其进行分析。将该标识另存为氨基酸转换标记。如果该标记是真,将以输入所接收的核苷酸序列转换成氨基酸序列,并且通过考虑氨基酸序列来计算突变程度。按照这种方式,用户可很容易理解核苷酸的突变是否伴随有氨基酸的置换,并且可获得一标识,该标识是有关与是否必须通过实验操作将该突变恢复为其最初状态。
在该实施例中,此外,用户可标识所要搜索的序列数据库。因此可根据已保存的序列数据库信息来分布配置该查询。例如,如果用户标识了进行查询的核苷酸序列并且将nr和EST指定为序列数据库,则在每个nr和EST中执行对核苷酸序列的同源搜索。因此,用户不仅能通过指明序列数据库的数目而获得在内的所需信息,还可通过选择与搜索目的一致的序列数据库而除去了多余的搜索结果,并且由此获得了其很容易被理解的搜索结果。
在该示例中,此外,用户可标识搜索结果是否受限于生物种类。该标识位于生物种类信息标记中。如果标记为真,则只显示与所标识的生物种类的序列进行比较的结果。例如,用户指明人、小鼠、大鼠作为生物种类,由此用户可除去多余的搜索结果并由此获得了其很容易被理解的搜索结果。
此外,在该示例中,用户可把在以前的同源搜索结果中所获得的结果选为分析的对象。例如,可指定其仍未被分析的一文件。在这种情况下,设置一标记以便对结果只进行分析而无需进行同源搜索。其结果是,用户可利用在本发明中所使用的分析来更好的理解未被本发明所导出的搜索结果。
参考图7,给出了当对核苷酸序列进行同源搜索时的结果屏的一部分。图7给出了所提交的进行查询的核苷酸序列。由红字标识了所提交的进行查询的核苷酸序列的突变区。对核苷酸序列以下的相应氨基酸序列进行详细的描述。尤其是,由小写字母标识了其伴随有氨基酸置换的核苷酸序列的突变区。按照这种方式,用户可很容易理解核苷酸的不同之处是否伴随有氨基酸的置换并且可判断是否通过实验操作将该不同之处恢复为其最初状态。
此外,将与多序列比对比较的详细结果的链接(将在图8的有关部分进行说明)加入到每个突变区,由此用户可相互对照所提交的进行查询的序列的不同之处的所有状态及每个不同之处的详细情况。
现在参考图8,给出了当对核苷酸序列进行同源搜索时的显示屏的另一部分。图8是多序列比对比较的结果屏。位于上部的序列是如图7所示的所提交的对其进行查询的序列并且之下的序列同源搜索的结果。将该序列划分成60个字符的组。字符的数目可以是例如90个字符、120个字符、或是可所显示的最多字符。在该示例中,考虑到将三个核苷酸转换成与一个氨基酸相对应,并且因此将字符划分成其数目可被3整数的这么多个组,并且此外为使用户便于理解,将字符划分成其数目可被10整除的这么多个组,例如30的倍数。
在突变区中,尤其是在已知道插入有核苷酸的区域中,使背景色彩为黄色以增加特别的强调。该强调表明插入了或遗漏了核苷酸并意味着该区域上的氨基酸序列发生了彻底的变化,对于研究员而言这是非常重要的信息。
另外,在每个突变区,背景色彩的色调标识了出现突变的频率。用户因此可得到该突变是否是在实验中是不能避免的,是否是为序列所特有的特征(例如,当该突变是由特别的疾病引起的),或者是否是必须通过实验操作而恢复为其最初状态的一标识。
此外,通过根据同源性来比对相应部分而显示序列。
另外,为图12的现有序列比较结果的链接附加上信息。用户通过指明哪一个核苷酸序列是用户想要看的而可显示该区域中的序列比较。按照这种方式,用户可在内的相互对照突变信息。
参考图9,给出了用于执行氨基酸序列的同源搜索的一输入屏。这里,用户执行输入氨基酸序列(输入你的查询)、标识执行搜索的序列数据库(所选择的数据库)、标识是否执行PSI-BLAST(PSI-BLAST重复)、标识其可限制搜索结果的生物种类(通过entrez查询来限制)、并标识仍未被分析的搜索结果文件(输入查询文件)。
在用户按照输入氨基酸序列的形式而输入了氨基酸序列(输入你的查询)之后,用户点击提交按钮,由此查询分析单元11接收氨基酸序列。此后如前面所描述的每个单元执行每个处理。
在该示例中,用户可标识是否利用PSI-BLAST而获得了搜索结果。将该标识保存为PSI-BLAST标记。用户因此可使用PSI-BLAST作为用于获得搜索结果的方式,并可对除PSI-BLAST之外的方法均不能获得其同源性的一序列进行比较。
此外,用户可标识是否由生物种类来限制结果。将该标识保存为生物种类标记。
用户可进一步把在以前的同源搜索中所获得的结果选为分析的对象。
参考图10,给出了在对氨基酸序列进行同源搜索的情况下的一结果屏。图10的上部是所提交的进行查询的氨基酸序列,该氨基酸序列与图7中的核苷酸序列相对应。图10的下部是多序列比对的比较结果并且与图8的核苷酸序列相对应。
由红色字母标识了以输入所提供的核苷酸序列的突变区,由此用户可容易理解所提交的进行查询的序列的突变区的所有状态。
此外,将多序列比对的每个序列划分为60个字符的单元。
利用基于同源性所比对的相应部分来显示该序列。
在每个不同之处,由背景色彩的色调来标识其差别度。
此外,当察看多插入的氨基酸时,将背景色彩高亮显示为黄色。
二十类氨基酸被用于有机体中,并且为每个氨基酸确定了诸如疏水程度或酸度/碱度这样的特性。当这些特性与不同之处同时变化时,预知所有序列的特性会发生变化,并且此外,当差别点位于活性酶的中心位置时,将会丧失酶的功能。根据该事实,其描述了氨基酸间的特性差别的变换矩阵被用于计算氨基酸间的特性近似度,并通过改变背景色彩的色调来体现出该值。在该示例中,图11所示的变换矩阵BLOSUM62被用作该变换矩阵。
在图10中,附加了与图12的现有序列比较结果相链接的信息。通过指明哪一个核苷酸序列是他或她想要查看的,用户可显示相关区域,由此用户可在内的相互对照该突变信息。
参考图13,根据本发明第二实施例的同源搜索设备与第一实施例的同源搜索设备的不同之处在于其包括控制单元15,并且下述说明因此限控制单元15。
控制单元15控制查询分析单元11、通信单元12、结果分析单元13、及显示单元14的操作。所提供的控制单元15可通过监控分析结果的产生并当执行连续的查询处理或当搜索多个序列数据库时监控通信电路中的阻塞状态来控制每个单元的处理时序。
控制单元15接收来自查询分析单元11、通信单元12、结果分析单元13、及显示单元14的处理状态通知;并根据这些通知来进行有效控制以便连续的执行每个单元的处理。其结果是,第二实施例的查询分析单元11、通信单元12、结果分析单元13、及显示单元14具有这样的能力,即一完成处理就向控制单元15报告结束控制,并根据控制单元15的操作控制进行操作。其结果是,当用户想要执行自动搜索并对大量的查询进行分析时,用户不必输入每个查询,并且由此极大的减轻了用户的负担。
虽然利用专用名词对本发明的优选实施例进行了详细的描述,但是这些描述仅仅是示例性的,并且应该理解的是在不脱离随后权利要求的精神和范围的情况下可对其作出修改和变化。
权利要求
1.一种序列显示方法,包括第一步骤,由序列显示设备接受与多个相似核苷酸序列或氨基酸序列的突变或相似有关的信息;第二步骤,根据所述突变或相似来添加视觉特性,并显示所述多个相似核苷酸序列或氨基酸序列。
2.根据权利要求1的序列显示方法,其中将所述视觉特性添加到所述多个相似核苷酸序列或氨基酸序列中的突变区和/或相似区上。
3.根据权利要求1的序列显示方法,其中根据所述突变程度和/或相似程度来添加所述视觉特性。
4.根据权利要求2的序列显示方法,其中根据所述突变区中的突变频率来添加所述视觉特性。
5.根据权利要求2的序列显示方法,其中根据包含氨基酸名称和特性的氨基酸信息来添加所述视觉特性,该氨基酸与所述多个相似核苷酸序列中的密码相对应。
6.根据权利要求1的序列显示方法,其中利用显示色彩来显示所述视觉特性。
7.根据权利要求1的序列显示方法,其中利用显示色彩的变化来显示所述视觉特性。
8.根据权利要求1的序列显示方法,其中利用字符的变化来显示所述视觉特性。
9.根据权利要求1的序列显示方法,其中在所述第二步骤中,以比对的方式显示每个序列中的相应核苷酸或氨基酸。
10.根据权利要求1的序列显示方法,其中进一步包括一第三步骤,用于添加所述多个相似核苷酸序列或氨基酸序列间的链接和/或与相关信息的链接。
11.一种序列显示设备,包括第一装置,接受与多个相似核苷酸序列或氨基酸序列的突变和/或相似有关的信息;第二装置,根据所述突变和/或相似来添加视觉特性,并显示所述多个相似核苷酸序列或氨基酸序列。
12.根据权利要求11的序列显示设备,其中所述第二装置将所述视觉特性添加到所述多个相似核苷酸序列或氨基酸序列中的突变区和/或相似区上。
13.根据权利要求11的序列显示设备,其中所述第二装置根据所述突变程度和/或相似程度来添加所述视觉特性。
14.根据权利要求12的序列显示设备,其中所述第二装置根据所述突变区中的突变频率来添加所述视觉特性。
15.根据权利要求12的序列显示设备,其中所述第二装置根据包含氨基酸名称和特性的氨基酸信息来添加所述视觉特性,该氨基酸与所述多个相似核苷酸序列中的密码相对应。
16.根据权利要求11的序列显示设备,其中所述第二装置利用显示色彩来代表所述视觉特性。
17.根据权利要求11的序列显示设备,其中所述第二装置利用显示色彩的变化来代表所述视觉特性。
18.根据权利要求11的序列显示设备,其中所述第二装置利用字符的变化来代表所述视觉特性。
19.根据权利要求11的序列显示设备,其中该第二装置以比对的方式显示每个序列中的相应核苷酸或氨基酸。
20.根据权利要求11的序列显示设备,进一步包括一第三装置,用于添加所述多个相似核苷酸序列或氨基酸序列间的链接和/或与相关信息的链接。
21.一序列显示程序产品,用于使计算机执行权利要求1至10任一个权利要求中所描述的每个步骤。
22.一种记录介质,该记录介质上记录了一序列显示程序,该序列显示程序可使计算机执行权利要求1至10任一个权利要求中所描述且能够被计算机读取的每个步骤。
23.一种同源搜索方法,包括第四步骤,对由用户的输入所提交的对序列数据库所进行的一查询进行分析;第五步骤,根据所述第四步骤中的分析结果来产生适合于所述序列数据库的搜索条件,并且对所述序列数据库进行搜索;第六步骤,对所述第五步骤的搜索结果进行分析,并且产生与多个相似核苷酸序列或氨基酸序列中的突变和/或相似有关的信息;以及第七步骤,利用在所述第六步骤中所产生的信息以及在权利要求1至10任一权利要求中所描述的序列显示方法,显示所述第五步骤的搜索结果。
24.一种同源搜索设备,包括第四装置,对由用户的输入所提交的对序列数据库所进行的一查询进行分析;第五装置,根据所述第四装置所产生的分析结果来产生适合于所述序列数据库的搜索条件,并且对所述序列数据库进行搜索;第六装置,对所述第五装置所产生的搜索结果进行分析,并且产生与多个相似核苷酸序列或氨基酸序列中的突变和/或相似有关的信息;以及第七装置,利用第六装置中所产生的信息以及在权利要求11至20任一权利要求中所描述的序列显示设备,显示由所述第五装置产生的搜索结果。
25.根据权利要求24的同源搜索设备,进一步包括一第八装置,该第八装置对第四装置、第五装置、第六装置、及第七装置的操作进行控制。
26.一种同源搜索程序产品,该程序产品可使计算机执行权利要求23中所描述的每个步骤。
27.一种记录介质,该记录介质上记录了一同源搜索程序,该同源搜索程序可使计算机执行权利要求23中所描述的且能够被计算机读取的每个步骤。
全文摘要
本发明的用于显示序列的方法根据多个相似核苷酸序列或氨基酸序列中的突变或相似来添加视觉特性。将这些视觉特性添加到突变区和/或相似区上,并且此外,根据突变区的突变程度和/或相似程度并根据突变区中的突变频率来添加这些视觉特性,并且根据其包含在氨基酸名称和特性中的氨基酸信息来添加该视觉特性,上述氨基酸与所述多个相似核苷酸序列中的密码相对应。提供了与和多个相似核苷酸序列或氨基酸序列有关的信息的链接。本发明的同源搜索方法使用该序列显示方法来显示搜索结果。
文档编号G06F19/22GK1506880SQ20031012043
公开日2004年6月23日 申请日期2003年12月10日 优先权日2002年12月10日
发明者宫川知也, 仲里猛留, 留, 稔, 麻生川稔, 久, 剑持聪久 申请人:日本电气株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1