基于元基因组学的未知病原快速鉴定系统及分析方法

文档序号:6355090阅读:863来源:国知局
专利名称:基于元基因组学的未知病原快速鉴定系统及分析方法
技术领域
本发明涉及未知病原的分析,具体涉及一种基于元基因组学的未知病原分析系统及分析方法。
背景技术
由于气候、生态和人类行为等各方面因素的变化,出现了许多未知的病原体引发的传染病,例如尼帕病毒、SARS等。甚至在常见的传染病爆发时,仍有相当一部分病人无法确定病原。因此,快速检测未知病原的平台显得尤为重要,它能在传染病爆发的早期帮助确定或者是缩小可疑病原微生物的范围,以便更迅速做出反应,部署有针对性的防控措施,减少疾病流行对社会和经济造成的损失。相对于目前已有的病原检测方法,用元基因组学的方法来推断微生物的组成,显著的特点是不依赖于培养技术和对微生物的先验知识。在自然界中,不能培养的微生物占绝大多数,因此元基因组学方法有希望揭示真实的微生物群落组成和各微生物之间相互作用。随着核酸测序技术和生物信息学的发展,用基于元基因组学的方法来快速鉴定样本的物种组成的技术逐渐成熟,使得基于元基因组学的未知病原寻找系统成为可能。关于Meta-All分析系统,主要包括以下功能单元,测序数据的两种处理方式之一Meta-All,该方式是基于测序序列与已知基因组序列比对得到结果;测序数据的另一种处理方式Meta-BinG,该方式是分析测序数据的K-mer组成得到结果,基于比对的方式针对常见的两种不同测序技术应用不同的序列比对程序,solexa序列用Bowtie做比对,基于比对的方式针对常见的两种不同测序技术应用不同的序列比对程序,454序列用Blat做比对,比对结果修正单元,若为16s rRNA则基于拷贝数进行修正,若为全基因组WGS则基于基因组大小进行修正,结果统计输出单元,在门、纲、目、科、属、种这6个层次输出相应的物种组成表和饼图

发明内容
本发明的第一目的是提供一种基于元基因组的未知病原快速鉴定系统。本发明的第二目的是提供一种基于元基因组的未知病原快速鉴定系统的分析方法。—种基于兀基因组的未知病原快速鉴定系统,其包括:质量控制系统:对测序数据进行质量分析,把测序质量不合要求的部分去除;Meta-All分析系统:本系统的主体部分;NeSSM第二代测序模拟系统:独立部分,可以产生模拟的测序数据;数据库更新组件:自动更新Meta-All分析系统需要用到的数据库资源;病原组成比较分析单元:根据物种组成表,比较不同来源的元基因组病原组成的异同,找出与疾病相关性高的病原。进一步地,所述数据库更新组件包括以下单元:
下载单元:查询公共数据库里新增和修改过的数据,并下载到本地;数据处理单元:把已下载的数据根据类型整理并转化为本地数据库需要的格式;数据记录单元:把格式化后的数据写入对应的本地数据库,把更新时间记入日志;更新控制单元:检查日志文件,判断是否需要下载数据更新本地数据库。一种使用如所述的基于元基因组的未知病原快速鉴定系统的未知病原分析方法,所述方法包括如下步骤:首先,利用数据库更新组件进行以下数据更新步骤通过下载单元,查询公共数据库里新增和修改过的数据,并下载到本地;通过数据处理单元,把已下载的数据根据类型整理并转化为本地数据库需要的格式;通过数据记录单元,把格式化后的数据写入对应的本地数据库,把更新时间记入曰志;通过更新控制单元,检查日志文件,判断是否需要下载数据更新本地数据库。然后,进行以下分析步骤 步骤1:质量控制;用测序质量值Q表示某个碱基测序质量,若该碱基的错误概率P,P为(0,I)之间的一个实数,则Q为P的一个整数映射,使用Q值作为质量控制的依据,设定碱基水平和序列水平的质量控制的阈值Q均为20,所对应的碱基错误概率P大约为0.01 ;步骤11:物种分析;经过质量控制的序列即可进行下一步的物种分析,这里的物种分析基于序列相似性的分析;其中包括:对比:米用了Bowtie 作为 Meta-All 的比对软件,Bowtie 米用了 Burrows-Wheeler转换方法来处理基因组序列,可以快速地将短序列比对到基因组上;物种注释:将短序列和基因组序列用bowtie比对,比对结果中包含着基因组序列的核酸GI号,GI号可以唯一地映射到一个NCBI的物种号,在NCBI的Taxonomy数据库中可以得到该物种号在门纲目科属种等不同层次上的物种名称,GI号和物种号的映射关系以及物种号的注释信息都可以在NCBI的FTP下载;步骤II1:元基因组模拟测序系统;设计一个元基因组学模拟测序系统来产生模拟的元基因组学测序数据,模拟测序系统的基础是目前已经被完整测序的细菌基因组,给定细菌的组成(细菌的名称和细菌在种群中所占的百分比)、测序方式(全基因组/16S)、测序技术(454/Solexa)和测序数量,模拟测序系统会产生对应的模拟测序数据集;步骤IV:基于16S核糖体RNA基因序列的物种分析的校正;对于元基因组学16S基因序列的物种分析结果需要考虑不同基因组的16S拷贝数差异:
权利要求
1.一种基于元基因组的未知病原快速鉴定系统,其特征在于,包括: 质量控制系统:对测序数据进行质量分析,把测序质量不合要求的部分去除; Meta-All分析系统:本系统的主体部分,从测序数据分析元基因组的物种组成结构; NeSSM第二代测序模拟系统:独立部分,可以产生模拟的测序数据; 病原数据库系统:病原分析相关的Meta-All分析系统需要用到的数据库资源,包括数据库自动更新组件; 病原组成比较分析单元:根据物种组成表,比较不同来源的元基因组病原组成的异同,找出与疾病相关性高的病原。
2.根据权利要求1所述的基于元基因组的未知病原快速鉴定系统,其特征在于,所述病原数据库系统包括以下单元: 下载单元:查询公共数据库里新增和修改过的数据,并下载到本地; 数据处理单元:把已下载的数据根据类型整理并转化为本地数据库需要的格式; 数据记录单元:把格式化后的数据写入对应的本地数据库,把更新时间记入日志; 更新控制单元:检查日志文件,判断是否需要下载数据更新本地数据库。
3.一种使用如权利要求1所述 的基于元基因组的未知病原快速鉴定系统的未知病原分析方法,其特征在于:所述方法包括如下步骤: 首先,利用数据库更新组件进行以下数据更新步骤; 通过下载单元,查询公共数据库里新增和修改过的数据,并下载到本地; 通过数据处理单元,把已下载的数据根据类型整理并转化为本地数据库需要的格式; 通过数据记录单元,把格式化后的数据写入对应的本地数据库,把更新时间记入日志; 通过更新控制单元,检查日志文件,判断是否需要下载数据更新本地数据库; 然后,进行以下分析步骤 步骤1:质量控制; 用测序质量值Q表示某个碱基测序质量,若该碱基的错误概率P,P为(O,I)之间的一个实数,则Q为P的一个整数映射,使用Q值作为质量控制的依据;设定碱基水平和序列水平的质量控制的阈值Q均为20,所对应的碱基错误概率P大约为0.01 ;去掉所有质量值低于20的喊基; 步骤I1:物种分析; 经过质量控制的序列即可进行下一步的物种组成分析,这里的物种组成分析是基于序列相似性的分析;其中包括: 序列比对:米用了 Bowtie作为Meta-All的比对软件,Bowtie米用了 Burrows-Wheeler转换方法来处理基因组序列,可以快速地将短序列比对到基因组上; 物种注释:将短序列和基因组序列用bowtie比对,比对结果中包含着基因组序列的核酸GI号,GI号可以唯一地映射到一个NCBI的物种号,在NCBI的Taxonomy数据库中可以得到该物种号在门纲目科属种等不同层次上的物种名称,GI号和物种号的映射关系以及物种号的注释信息都可以在NCBI的FTP下载; 步骤IV:16S核糖体RNA基因序列的物种分析的校正; 对于元基因组学16S基因序列的物种分析结果需要考虑不同基因组的16S拷贝数差异 .
4.根据权利要求3的未知病原分析方法,其特征在于,在步骤II和步骤VI之间,还可以包括如下步骤: 步骤II1:元基因组模拟测序系统; 设计一个元基因组学模拟测序系统来产生模拟的元基因组学测序数据,模拟测序系统的基础是目前已经被完整测序的细菌基因组,给定元基因组的组成结构(包括细菌的名称和细菌在种群中所占的百分比)、测序方式(全基因组/16S rRNA)、测序技术平台(454/Solexa)和测序数量,模拟测序系统会产生对应的模拟测序数据集;
5.根据权利要求3的未知病原分析方法,其特征在于,在步骤VII多样本物种比较中,具体包括: 种群自身复杂程度比较; 种群自身的复杂程度属于α-多样性的范畴,常用的α-多样性的研究方法是计算种群的Shannon系数:
全文摘要
本发明提供一种基于元基因组学的未知病原的快速鉴定系统及分析方法,运用元基因组学的方法进行未知病原鉴定及分析包括测序质量控制系统对测序数据进行质量分析,把测序质量不合要求的部分去除;Meta-All分析系统本系统的主体部分,从测序数据分析元基因组中的物种组成结构;NeSSM第二代测序模拟系统独立部分可以产生模拟的测序数据;病原数据库系统自动更新Meta-All分析系统需要用到的数据库资源;病原组成比较分析单元根据物种组成表比较不同来源的元基因组病原组成结构的异同,找出与疾病相关性高的病原。本发明的优点在运行元基因组学的方法可以迅速缩小未知病原鉴定的范围,从而加速鉴定的速度,同时对完全未知的病原可以从相似病原进行分析。
文档编号G06F19/22GK103186716SQ20111045266
公开日2013年7月3日 申请日期2011年12月29日 优先权日2011年12月29日
发明者韦朝春, 蔡锴晔, 宣黎明, 贾鹏, 刘雷, 李亦学 申请人:上海生物信息技术研究中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1