病原体基因组序列数据库系统的制作方法

文档序号:6437639阅读:960来源:国知局
专利名称:病原体基因组序列数据库系统的制作方法
技术领域
本发明主要涉及到一个统一了几种不同类型的病原体序列信息的数据库系统,并在此基础上发展的一个对病原体进行遗传学、基因组学和系统发育研究的分析平台。所涉及到的病原体主要包括:细菌、真菌、病毒、原生动物、寄生虫。
背景技术
病原体(pathogen)是能引起疾病的微生物和寄生虫的统称。其中微生物占绝大多数,包括病毒、衣原体、立克次体、支原体、细菌、螺旋体和真菌。高致病性病原体的感染与爆发能给人类造成巨大的伤害,如近年来新发现的一个高致病性的禽流感病毒H5N1造成了 100多人的死亡并使得在亚洲、欧洲和非洲数以百万计的禽类被屠宰(世界卫生组织报道),而对高致病性病原体迁移和进化模式进行严谨的监视和跨学科研究是防止人类和其他物种被伤亡的关键。病原体的基因组序列给我们提供了很多可用于病原体发病机理研究、诊断和治疗上的有效信息。现阶段在世界范围内有许多的基因组序列信息数据库,如美国国家生物技术信息中心(NCBI)内的RefSeq数据库和EMBL中的Ensembl Genomes库中提供了很多分类的基因组DNA序列和注释信息,但是,由于在这两个数据库中的有些数据是来源于直接提交上去的序列信息,所以对这些数据库中的病原体基因组序列数据进行提取、校正、确证和分类,建立一个专门的包含病原体基因组序列数据库是非常必要的。在病原体检测诊断方面,目前临床上常用的病原微生物检测诊断方法有PCR技术、培养技术、免疫酶技术(EIA)、酶联免疫吸附试验(ELISA)等。这些技术在临床诊断中已发挥了巨大的作用,但仍存在一些缺点。虽然PCR技术本身的优越性是无可厚非的,但由于使用不当,很容易引起交叉污染,出现假阳性,如果反应条件控制不好也可能出现假阴性;培养技术繁琐而费时;免疫技术大多需要在抗体出现后才能确定病原微生物。这些缺点需要利用一种新的技术去弥补。随着病原微生物基因组计划的进展,使基因诊断病原微生物感染成为可能,近几年发展起来的生物芯片技术为病原微生物诊断提供了一种强有力的手段。生物芯片技术和其他检测诊断技术相比有许多优点,如高通量、快速、准确、灵敏和对未知病原体的可检测性等。在生物芯片的设计中,从病原体基因组序列出发,进行探针设计,中间往往需要对基因组序列信息进行大量复杂的处理,如提取、校正和分析等,这些过程往往给探针设计增加了一些不必要的时间,因此,为了适应于高通量检测诊断病原体的生物芯片技术的飞速发展,建立一个适用于下游探针设计的序列信息数据库就显得格外重要了。为了从各方面对病原体基因组进行分析研究,国内外许多学者从一级数据库出发,构建了各种病原体二级数据库。如Suhua Chang等建立了一个流感病毒基因组序列数据库IVDB。Adams等从NCBI出发,建立了一个广泛的植物和真菌病毒基因和基因组数据库DPAweb。Hirahata等在此基础上从DDBJ出发建立了一个包含所有病毒基因组序列信息的数据库GIB-V,并整合了几种常见的数据分析工具。为了衔接病毒基因组和蛋白质组信息,更全面的对病毒的科和属进行区分,Hulo等建立了一个广泛的病毒基因组和蛋白质组数据库ViralZone。而为了增强对抗原变异的理解,Hayes等建立了一个包含了 27个科,42个种的病原物序列信息数据库varDB。综上所述,这些数据库都是针对某一种或几种病原物和特定的目标功能而建立的,都是在一级数据库基础上进行的序列信息提取、筛选和重组,能够在一定程度上解决一些生物学问题。但是这些数据库也存在着以下几点不足:1)数据库所包含的病原物种类单一,如IVDB、DPAweb、GIB-V、ViralZone只包含了病毒的信息;2)就varDB而言,包含了多种病原物的基因组序列和蛋白质序列的信息,但是这种序列信息也还是需要进一步大量而复杂的处理和筛选,才能进一步的进行下游生物芯片探针设计。

发明内容
近年来,随着DNA测序技术的高速发展,人类已知的DNA核酸序列不断增长,而伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的二级生物学数据库,如雨后春笋般迅速出现和成长,而这些生物学数据库往往是针对某种特定的功能而建立。本发明在整合各种一级数据库和二级数据库的基础上,进行了有针对性的改进,建立了一个病原物基因组序列信息数据库,并将涉及到的谱系信息和基因组信息中的编码区进行了注释。能够实现原始序列的收集、查询、下载和分析,并在此基础上整合了一些常规的数据分析工具,如调用Blast对一对或一组序列进行序列比对、调用ClustalW进行多序列的比对、调用Phylip等工具进行序列进化树的构建和编辑等工作、调用软件进行序列间共进化信息的分析、调用R语言的相关统计工具,实现一些常规的统计分析功能等。本发明还在原始序列信息数据的基础上,兼顾下游探针设计的需要,并针对于不同的病原物种类,对原始的基因组序列数据进行了进一步的筛选、加工和处理,产生了一个适用于下游探针设计的数据库资源。


图1为数据库的总体系统架构图。图2为数据库系统中对数据进行采集、分类、加工以及重组的流程图。图3为网络版数据库的网页截图。图4为使用数据库系统中的分析工具对序列进行分析的实例。
具体实施例方式下面结合具体的实例及附图,从数据库系统架构,数据库的构建,数据的采集、分类、加工及重组,数据库查询和管理功能的实现四个方面对本发明作进一步说明。一、数据库系统架构我们采用的Web框架包括=Linux操作系统,Apache网络服务器,MySQL数据库管理系统,Perl和HTML编程语言(图1)。在本发明中,我们采用自定义安装Apache服务器、MySQL服务器和PERL,然后手动配置环境,初步搭建了一个数据库网站的平台。二、数据库的构建本数据库是基于关系数据库模式而构建的。
从总体上来看,在数据库中最终包含的信息有:谱系中各个等级的注释;按照宿主进行划分了的病毒基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;按照病原体种类进行划分了的病原体基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;各基因组序列的 CDS、3,UTR、5,UTR、LTR、18s rRNA,5.8s rRNA 和 28s rRNA(对于细菌来说,后三类除外)序列信息(fasta格式);细菌的16s rRNA,5s rRNA和23s rRNA序列信息;便于探针设计的序列信息(新fasta格式)。数据的采集、分类、加工及重组(图2)1、谱系注释信息的采集、分类、校正分析及重组。NCBI中提供了一个广泛的、综合的、非冗余的谱系注释信息,因此,我们选择了这个数据库作为谱系分类注释信息的来源。从这个数据库中下载总的谱系注释信息,然后按照病原体的种类进行分类和校正分析,最后将结果存入到数据库中。2、前期参考信息的获取。ICTV 数据库(international committee on taxonomy of viruses)提供了一个基于病毒分类信息的病毒描述链接,在此数据库中,将病毒依据宿主种类划分为9种,包括藻类病毒、古细菌病毒、细菌病毒、真菌病毒、非脊椎动物病毒、植物病毒、原生动物病毒、脊椎动物病毒和未分类的病毒,这种按照宿主种类进行划分的信息给我们提供了一种很好的构建病毒库的信息。从ICTV中分别按照宿主种类下载病毒属的物种名信息,并整理成表格,以便于下游病毒库的设计。从NCBI数据库中下载taxid与其上一级的taxid的关系表nodes, dmp、taxid与其对应的学名及同义字关系表names, dmp、并依据物种分类表(division, dmp)将这两个关系表划分为10类,包括细菌、非脊椎动物、哺乳动物、植物、灵长类动物、啮齿动物、病毒、脊椎动物、环境样本、未分类和综合类。我们对每一个分类的names, dmp和nodes, dmp表进行处理,生成taxid与其对应的所有物种名(包括学名与同义字)之间的关系表taxid.synonym。然后,我们对真菌、细菌的nodes, dmp与names, dmp表进行如下处理:从nodes,dmp中查找得到属以下等级的taxid,并进行此taxid对应的属和种的信息的查找。在此过程中,我们获得了每个分类下属以下等级的taxid和学名与其对应的属和科的taxid和学名之间的关系表taxid.family。3、病毒库的构建。依据ICTV库的信息,将病毒库中的序列信息依据宿主种类划分为9种,以便于下游的信息下载和分析。由于ICTV的数据更新比NCBI中的数据更新慢,所以,首先我们需要依据NCBI中的信息对ICTV中属的信息进行校正,步骤如下:将ICTV中获得的属的物种名信息按照宿主进行分类,对每个分类进行如下处理:依据names, dmp对这些信息进行校正,最终校正的属的学名以names, dmp中的名称为准,同时生成属的taxid与属的学名之间的关系表;依据nodes, dmp对属的taxid进行分支信息的查找,即查找各属以下等级的物种信息,并生成taxid和其学名与其所对应的属的taxid和学名之间的关系表。在此过程中,我们获得了按照宿主进行分类了的所有病毒的taxid和学名及其对应的属的taxid和学名之间的关系表taxid.genus。然后,从EMBL中下载得到病毒的基因组序列(EMBL格式),然后依据文件中的taxid信息和关系表taxid.genus将病毒按照宿主划分为9种,并将其各自存入到ourDB中。在此过程中,我们还将基因组序列通过Pfam数据库进行蛋白质产物和结构域的注释,并将此注释信息也存入到ourDB中。随后,我们对各类病毒基因组序列进行如下处理:依据关系表taxid.genus和文件中的taxid信息对基因组序列中的信息进行提取,将提取到的信息划分为CDS、3’ UTR、5’ UTR、LTR四类,并以fasta格式存入到ourDB中。在此过程中,我们还发展了一种适合于下游探针设计的序列格式,并将其也存入到数据库中,序列格式以fasta格式为基础,但在“>”后主要包含以下信息:taxid对应种的学名信息、taxid对应属的学名信息及序列本身的taxid,这种序列格式有助于在下游从种上进行病毒诊断检测的生物芯片的探针设计。综上所述,此病毒库中主要包含了以下信息:按照宿主进行划分了的病毒基因组序列(EMBL格式)及其蛋白质产物与结构域的注释,基因组序列的⑶S、3’ UTR、5’ UTR和LTR序列信息(fasta格式)以及便于下游探针设计的序列信息(新fasta格式)。4、便于下游探针设计的细菌16s rRNA库的构建从RDP库中下载得到细菌的16s rRNA序列信息(fasta格式)并将其存入到ourDB中,此信息分为两类:古细菌和真细菌。我们从此fasta格式的文件中提取出每条序列所对应的物种名,并与细菌的taxid.synonym表中的各个名字进行匹配,并在此过程中依据细菌的taxid.family表进行序列信息的处理,最后生成新fasta格式的文件,在“>”后主要包含以下信息:taxid对应的属的学名信息、taxid对应的科的学名信息、序列本身的taxid和原文件中的头部信息,将这种新fasta格式的文件同样存入到ourDB中。这种序列格式有助于在下游从属上进行细菌诊断检测的生物芯片的探针设计。综上所述,此数据库主要包含以下信息:原始的古细菌和真细菌的16srRNA序列信息(fasta格式),便于下游探针设计的序列信息(新fasta格式)。5、真菌、原生动物,寄生虫及细菌的基因组序列的采集、加工及重组EMBL的Ensembl Genomes库中包含了大量的真菌、原生动物,寄生虫及细菌的基因组序列数据,其中,有些数据是由一些独立的数据库维护支持的,这些数据往往只在那些独立的数据库中被维护,而在EMBL中则缺少更新,因此,我们在ourDB中还包含了一些专门的数据库项目中的数据。首先,我们从EMBL,PlasmoDB,GiardiaDB和EuPathDB中下载得到各个病原体的基因组序列数据,然后我们对这些数据进行合并、去冗余和分类,再将按照病原体种类进行划分了的基因组数据各自存入到ourDB中,在此过程中,我们同样的将基因组序列通过Pfam数据库进行蛋白质产物和结构域的注释,并将此注释信息也存入到ourDB中。随后,我们对各个分类了的基因组序列进行如下处理:对基因组序列中的信息进行提取,将提取到的信息划分为 CDS、3,UTR、5,UTR、LTR、18s rRNA,5.8s rRNA 和 28s rRNA 八类(对于细菌来说,后三类除外),并以fasta格式存入到ourDB中;对细菌的基因组序列中的信息进行提取,将提取到的信息划分为两类5s rRNA和23srRNA,将这些信息与上游的细菌的16s rRNA序列信息进行合并,并以fasta格式存入到ourDB中;依据各病原体种类的taxid.family表,在此过程中发展了一种适合于下游探针设计的序列格式,并将其也存入到ourDB中,序列格式以fasta格式为基础,但在“>”后主要包含以下信息:taxid对应的属的学名信息、taxid对应的科的学名信息及序列本身的taxid,这种序列格式有助于在下游从属上进行病原体诊断检测的生物芯片的探针设计。综上所述,在此步骤中获得的信息有:按照物种进行划分了的病原体基因组序列(EMBL格式)及其蛋白质产物与结构域的注释,基因组序列的⑶S、3’ UTR、5’ UTR、LTR、18srRNA,5.8s rRNA和28s rRNA (对于细菌来说,后三类除外)序列信息(fasta格式),细菌的5s rRNA,23s rRNA和16s rRNA序列信息(fasta格式)以及便于探针设计的序列信息(新fasta格式)。四、数据查询和管理功能的实现利用peri和CGI (公用网关接口 )技术开发一个可通过web对数据库进行查询的系统,并动态生成界面友好的查询页面。用户可以通过网页浏览器实现数据的访问、查询、分析和下载等功能。
权利要求
1.根据库的构建。本数据库是基于关系数据库模式而构建的。
从总体上来看,在数据库中最终包含的信息有:谱系中各个等级的注释;按照宿主进行划分了的病毒基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;按照病原体种类进行划分了的病原体基因组序列(EMBL格式)及其蛋白质产物与结构域的注释;各基因组序列的 CDS、3,UTR、5,UTR、LTR、18s rRNA、5.8s rRNA 和 28s rRNA(对于细菌来说,后三类除外)序列信息(fasta格式);细菌的16s rRNA,5s rRNA和23s rRNA序列信息;便于探针设计的序列信息(新fasta格式)。
2.根据采集、分类、加工及重组的实现 1)、谱系注释信息的采集、分类、校正分析及重组。NCBI中提供了一个广泛的、综合的、非冗余的谱系注释信息,因此,我们选择了这个数据库作为谱系分类注释信息的来源。从这个数据库中下载总的谱系注释信息,然后按照病原体的种类进行分类和校正分析,最后将结果存入到数据库中。
2)、前期参考信息的获取。ICTV数据库(international committee ontaxonomy ofviruses)提供了一个基于病毒分类信息的病毒描述链接,在此数据库中,将病毒依据宿主种类划分为9种,包括藻类病毒、古细菌病毒、细菌病毒、真菌病毒、非脊椎动物病毒、植物病毒、原生动物病毒、脊椎动物病毒和未分类的病毒,这种按照宿主种类进行划分的信息给我们提供了一种很好的构建病毒库的信息。从ICTV中分别按照宿主种类下载病毒属的物种名信息,并整理成表格,以便于下游病毒库的设计。
从NCBI数据库中下载taxid与其上一级的taxid的关系表nodes, dmp、taxid与其对应的学名及同义字关系表names, dmp、并依据物种分类表(division, dmp)将这两个关系表划分为10类,包括细菌、非脊椎动物、哺乳动物、植物、灵长类动物、啮齿动物、病毒、脊椎动物、环境样本、未分类和综合类。我们对每一个分类的names, dmp和nodes, dmp表进行处理,生成taxid与其对应的所有物种名(包括学名与同义字)之间的关系表taxid.synonym。然后,我们对真菌、 细菌的nodes, dmp与names, dmp表进行如下处理:从nodes, dmp中查找得到属以下等级的taxid,并进行此taxid对应的属和种的信息的查找。在此过程中,我们获得了每个分类下属以下等级的taxid和学名与其对应的属和科的taxid和学名之间的关系表 taxid.family。
3)、病毒库的构建。依据ICTV库的信息,将病毒库中的序列信息依据宿主种类划分为9种,以便于下游的信息下载和分析。
由于ICTV的数据更新比NCBI中的数据更新慢,所以,首先我们需要依据NCBI中的信息对ICTV中属的信息进行校正,步骤如下:将ICTV中获得的属的物种名信息按照宿主进行分类,对每个分类进行如下处理:依据names, dmp对这些信息进行校正,最终校正的属的学名以names, dmp中的名称为准,同时生成属的taxid与属的学名之间的关系表;依据nodes, dmp对属的taxid进行分支信息的查找,即查找各属以下等级的物种信息,并生成taxid和其学名与其所对应的属的taxid和学名之间的关系表。在此过程中,我们获得了按照宿主进行分类了的所有病毒的taxid和学名及其对应的属的taxid和学名之间的关系表taxid.genus ο 然后,从EMBL中下载得到病毒的基因组序列(EMBL格式),然后依据文件中的taxid信息和关系表taxid.genus将病毒按照宿主划分为9种,并将其各自存入到ourDB中。在此过程中,我们还将基因组序列通过Pfam数据库进行蛋白质产物和结构域的注释,并将此注释信息也存入到ourDB中。随后,我们对各类病毒基因组序列进行如下处理:依据关系表taxid.genus和文件中的taxid信息对基因组序列中的信息进行提取,将提取到的信息划分为CDS、3,UTR、5,UTR、LTR四类,并以fasta格式存入到ourDB中。在此过程中,我们还发展了一种适合于下游探针设计的序列格式,并将其也存入到数据库中,序列格式以fasta格式为基础,但在“>”后主要包含以下信息:taxid对应种的学名信息、taxid对应属的学名信息及序列本身的taxid,这种序列格式有助于在下游从种上进行病毒诊断检测的生物芯片的探针设计。
4)、便于下游探针设计的细菌16srRNA库的构建。从RDP库中下载得到细菌的16srRNA序列信息(fasta格式)并将其存入到ourDB中,此信息分为两类:古细菌和真细菌。我们从此fasta格式的文件中提取出每条序列所对应的物种名,并与细菌的taxid.synonym表中的各个名字进行匹配,并在此过程中依据细菌的taxid.family表进行序列信息的处理,最后生成新fasta格式的文件,在“>”后主要包含以下信息:taxid对应的属的学名信息、taxid对应的科的学名信息、序列本身的taxid和原文件中的头部信息,将这种新fasta格式的文件同样存入到ourDB中。这种序列格式有助于在下游从属上进行细菌诊断检测的生物芯片的探针设计。
5)、真菌、原生动物,寄生虫及细菌的基因组序列的采集、加工及重组。首先,我们从EMBL,PlasmoDB, GiardiaDB和EuPathDB中下载得到各个病原体的基因组序列数据,然后我们对这些数据进行合并、去冗余和分类,再将按照病原体种类进行划分了的基因组数据各自存入到ourDB中,在此过程中,我们同样的将基因组序列通过Pfam数据库进行蛋白质产物和结构域的注释,并将此注释信息也存入到ourDB中。随后,我们对各个分类了的基因组序列进行如下处理:对基因组序列中的信息进行提取,将提取到的信息划分为CDS、3’ UTR、5’UTR、LTR、18s rRNA、5.8s rRNA和28s rRNA八类(对于细菌来说,后三类除外),并以fasta格式存入到ourDB中;对细菌的基因组序列中的信息进行提取,将提取到的信息划分为两类5s rRNA和23s rRNA,将这些信息与上游的细菌的16s rRNA序列信息进行合并,并以fasta格式存入到ourDB中;依据各病原体种类的taxid.family表,在此过程中发展了一种适合于下游探针设计的 序列格式,并将其也存入到ourDB中,序列格式以fasta格式为基础,但在“>”后主要包含以下信息:taxid对应的属的学名信息、taxid对应的科的学名信息及序列本身的taxid,这种序列格式有助于在下游从属上进行病原体诊断检测的生物芯片的探针设计。
3.根据查询和管理功能的实现。利用peri和CGI (公用网关接口)技术开发一个可通过web对数据库进行查询的系统,并动态生成界面友好的查询页面。用户可以通过网页浏览器实现数据的访问、查询、分析和下载等功能。
全文摘要
本发明主要涉及到一个统一了几种不同类型的病原体序列信息的数据库系统,并在此基础上发展的一个对病原体进行遗传学、基因组学和系统发育研究的分析平台。所涉及到的病原体主要包括细菌、真菌、病毒、原生动物、寄生虫。本发明有效地整合了各种来源的病原体基因组信息,能够实现数据分析与统计,原始数据及加工数据的查询和下载三者间的有机结合,并可实时地对各种病原体基因组数据进行收集、处理、分析和整合,从而建立了一个统一、稳定、高效的数据平台。
文档编号G06F19/28GK103093123SQ201110348760
公开日2013年5月8日 申请日期2011年11月8日 优先权日2011年11月8日
发明者张鑫磊, 蒋小云, 肖琛 申请人:北京健数通生物计算技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1