检测染色体异常的方法_3

文档序号:9252013阅读:来源:国知局
6 (10),1146-1153)。在 还一个实施方案中,所述基于纳米孔的方法学包括使用由金属、聚合物或塑料材料构建的 纳米孔。
[0038] 在一个实施方案中,所述下一代测序平台选自LifeTechnologies'IonTorrent 平台或Illumina'sMiSeq。该实施方案的下一代测序平台两者尺寸小,具有快速转换率的 特征,但提供有限的数据通量。
[0039] 在又一实施方案中,所述下一代测序平台是个人基因组机器(PGM),其是Life Technologies,IonTorrentPersonalGenomeMachine(IonTorrentPGM)〇IonTorrent装置使用类似于通过合成的测序(SBS)的策略,但通过核苷酸掺入期间DNA聚合酶活性 所导致的氢离子释放来检测信号。本质上,IonTorrent芯片是非常灵敏的pH计。每个 ion芯片含有数百万个离子-灵敏的场效应晶体管(ISFET)传感器,其允许平行检测多个 测序反应。ISFET装置的使用是本领域技术人员众所周知的并且完全在可用于获得本发 明方法所需的序列数据的技术范围内(Prodromakis等人(2010)IEEEElectronDevice Letters31(9), 1053-1055;Purushothaman等人(2006)SensorsandActuatorsB 114, 964-968;Toumazou和Cass(2007)Phil.Trans.R.Soc.B, 362, 1321-1328 ;W0 2008/107014(DNAElectronicsLtd) ;W0 2003/073088 (Toumazou);US2010/0159461 (DNAElectronicsLtd);每个测序方法学都通过引用结合到本文中)。
[0040] 454和IonTorrent两者使用的SBS化学还有利于较长的阅读。IonTorrent 目前受限于片段比Roche454的短的多,但用未来的版本可能有改进。Roche454和Ion Torrent平台都具有均聚物序列误差的共同问题,表现为假插入或缺失(indel)。据信 Roche将采取与IonTorrent类似的检测方法,通过来自DNAElectronics的许可,这可能 使454和IonTorrent平台基本相同。
[0041] 在一个实施方案中,所述序列数据是通过测序平台而获得,其包括使用离子(例如 氢离子)的释放。该实施方案提供许多关键优势。例如,IonTorrentPGM描述于Quail等 人(2012;出处同上),作为市场上的最便宜的个人基因组机器(即大约$80, 000)。此外,Loman等人(2012 ;出处同上)描述IonTorrentPGM为产生最快通量(80-100Mb/h)和最 短运行时间(~3h)。然而,充分记录了IonTorrentPGM的特征在于频繁的indel误差。 例如,Loman等人(2012;出处同上)描述IonTorrentPGM产生最短的阅读和最差的均聚 物相关的indel误差率。高误差率的问题在IlluminaMiSeq和IonTorrentPGM之间的比 车交中被进一步证实(http://www.illumina.com/documents/analysis_of_inaccuracies_ in_ion_torrent_long_read_application.pdf),其声称MiSeq总误差率大大低于PGM总 误差率。IonTorrentPGM误差率相关的这些不利特性在例如以下的独立博客地址中有讨 论:http://omicsomics.blogspot.co.uk/ 和http://pathogenomics.bham.ac.uk/blog/ author/nick/〇
[0042] 可以理解,后代IonTorrent装置也可在本发明中找到用途,例如在一个实施方案 中,所述序列数据通过基于LifeTechnologies'IonTorrent平台(例如带有PI或PII芯 片的IonProton)以及其进一步的衍生装置及组分的多元能力迭代而获得。
[0043] 此外,本发明的发明人已经分析了当依照本发明用IonTorrentPGM进行获得序 列数据的步骤时所存在的indel数,结果概述于表1 : 表1显;^Indel的分子频率
表1显示来自4份母体血浆DNA样品的数据并概述了来自依照本发明所获得、测序和 与染色体位置匹配的一组母体血浆DNA分子的具有1或更多或者2或更多indel的分子频 率。大部分作图的序列阅读显示至少一个indel。这些数据是指按照本发明的方法学而获 得的匹配的序列阅读("良好命中(goodhit)")。
[0044] 因此,技术人员显而易见的是,IonTorrent平台、或甚至其它个人基因组机器,对 于诊断染色体异常的关键性技术而言将是不合适的一一尤其是当结果可能最终决定是否 终止胎儿时。相比之下,Illumina基因组分析仪和更近来的HiSeq2000已经建立了标准, 用于高通量大规模平行测序(Quail等乂2012,BMCGenomics,13(341)),尽管这样的装置 更昂贵和耗时。
[0045] 然而,本发明的方法结合了易出现误差的装置例如IonTorrent装置的有利特性 (即成本、速度和通量),具有低严格性匹配分析,其惊人地克服了高误差率的劣势。
[0046] 重复消除 Prinseq用作宏基因组工具,用于监测IonTorrentPGM测序数据的质量和特征(Schmieder和Edwards, 2011,Bioinformatics27,863-864)。它提供原始序列数据的 概括统计学,其涉及碱基组成、长度分布、碱基质量访问(call)、二核苷酸频率和重复序列。
[0047] 因为染色体匹配比例涉及到诊断,所以一个重要的统计学是数据中的准确重复数 量;另外,天然出现在母体血浆中的准确重复序列的机会是低的;它们的出现是意外的人 为产物。因此,通过进行准确重复序列消除(collapse)步骤而去除重复序列,被认为是重 要的预处理步骤。
[0048] 因此,在一个实施方案中,本发明的方法额外地包括在匹配分析步骤之前从所得 的序列数据中消除重复阅读的步骤。
[0049] 技术人员显而易见的是如何可以进行消除重复序列。例如,在FASTX-Toolkit内 的FASTQ/A Collapser软件提供将相同序列消除为单个序列同时维持准确的阅读计数数量 的能力。
[0050] 图1显示序列重复分布的实例并显示重复的总阅读的百分率(在该具体实例中为 10%)。FASTX-Toolkit用于消除准确重复序列(全长中的相同序列)。
[0051] 匹配分析 非侵入性非整倍性的先前应用(Chiu等人,2008,ProcNatlAcadSciUSA105, 20458-20463)使用Solexa/Illumina短阅读测序技术。这些阅读长度都为36bp,并且它们 使用严格性阅读进行基因组作图程序,试图解释基因组重复和拷贝数变异。它们将阅读作 图到重复屏蔽的基因组并统计仅在整个阅读长度中以100%同一性作图到基因组中的一个 位置的阅读。
[0052] 相比之下,当将IonTorrentPGM用于本发明方法时,产生不同长度的序列,从大 约 20 至 260bp。
[0053] 在如前所述的准确重复阅读消除之后,然后本发明的方法进行匹配分析。这样的 匹配分析典型地包括生物信息学分析,其在无屏蔽的参考基因组上使用合适的软件来进 行。
[0054]在一个实施方案中,使用Bowtie2 或BWA-SW(Li和Durbin(2010)Bioinformat ics,Epub)比对软件或使用最大准确匹配技术的比对软件例如BWA-MEM(Ih31h3. users.sourceforge.net/download/mem_poster.pdf)或CUSHAW2 (http: //cushaw2. sourceforge.net/)软件,进行所述匹配分析。在又一实施方案中,使用Bowtie2软件,进行 所述匹配分析。在还一个实施方案中,Bowtie2软件是Bowtie2 2. 0? 0_beta7。
[0055] 在替代的实施方案中,使用采用最大准确匹配(MEM)技术的比对软件,例如 BWA-MEM(lh31h3.users.sourceforge.net/download/mem-poster.pdf)或CUSHAW2 (http://cushaw2.sourceforge.net/)软件,进行所述匹配分析。MEM算法据信具有提供更 大准确率的优势。
[0056] 使用比Solexa/Illumina数据所用的更长阅读长度的优势是,阅读可以被温和剪 除(softclipped)并且发现在作图之前无需重复屏蔽。
[0057] 对于将序列作图到独特染色体位置,indel/错配成本加权必须被参数化从而在该 分析中降低。使用这些先决条件,决定非严格性片段-长度匹配。使用该生物信息学方法, 典型地将大约95%的样品阅读作图到基因组。如果阅读匹配到基
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1