利用来自细菌基因组和质粒的全部基因信息集用于改善的基因抗性测试的制作方法

文档序号:17580686发布日期:2019-05-03 20:55阅读:1035来源:国知局

抗生素抗性是药物抗性的一种形式,借此微生物亚群如细菌物种的菌株,尽管暴露于抗生素类药物,但也可存活并增殖。这是重要的公共健康问题,也是对于个体患者而言的严重的健康问题。细菌感染的及时治疗需要分析获自患者的临床分离物的抗生素抗性,以选择有效的疗法。通常,出于此目的,将鉴定的抗性与某一微生物(即id)关联是必要的。

抗菌药物抗性(adr)代表了主要的健康负担。如同所假设的,针对活性剂的细菌抗性的存在和发生正在更加快速地获得重视。增加使用可用药物产生了多抗性细菌,这进而需要甚至更困难的医疗处理。根据世界卫生组织关于监督的抗微生物抗性全球报告,adr在欧洲每年导致25,000例死亡,在美国每年导致23,000例死亡。在欧洲,额外的250万住院日导致15亿欧元的社会成本。在美国,2百万病例的直接费用导致200亿美元的直接费用。总费用估计高得多,使国内生产总值(gdp)降低高达1.6%。

一般而言,细菌针对抗微生物治疗的抗性机制很大一部分依赖于生物体的遗传。相应的基因或分子机制在细菌基因组中编码或者在可在不同细菌之间互换的质粒上编码。最常见的抗性机制包括:

1)外排泵是位于膜内的高亲和力反向运输系统,其将抗生素运输至细胞外,例如针对四环素的抗性。

2)特定的酶以使抗生素丧失其活性的方式对抗生素进行修饰。在链霉素的情况下,抗生素被化学修饰,以使其不再结合核糖体阻止蛋白合成。

3)产生降解抗生素的酶,从而使其失活。例如,青霉素酶是一组剪切青霉素分子的β内酰胺环的β-内酰胺酶。

此外,一些病原体显示出针对药物的天然抗性。例如,生物体可以缺乏针对抗生素的运输系统,或者生物体中不存在抗生素分子的靶标。

原则上对药物敏感的病原体可以通过既有遗传物质的修饰(例如,抗生素抗性的自发突变,其在感染中以约1/1亿个细菌的频率发生)或者从其它来源获得新的遗传物质而变得具有抗性。一个实例是水平基因转移,其是这样的过程:dna小包中包含的遗传物质可在同一物种的个体细菌之间,甚至在不同物种之间转移。水平基因转移可以通过转导、转化或接合发生。通常,赋予抗性的标志物的表达仅由药物的存在诱导。

通常,通过在不同浓度的这些试剂中培养微生物来进行针对抗微生物剂的敏感性/抗性的测试。

简言之,将琼脂平板接种患者样品(例如,尿液、痰、血液、粪便)过夜。在第二天,通过培养或者利用质谱法,各个集落被用于鉴定生物体。基于生物体的身份,接种含有增加浓度的用于处理这些生物体的药物的新平板,并另外生长12-24小时。使用抑制生长的最低药物浓度(最小抑菌浓度-mic)以确定对所测试的药物的敏感性/抗性。该过程耗费至少2至3个工作日,在这过程中凭经验对患者进行治疗。自动化系统来自几个公司,例如biomeriux(vitek)、beckmancoulter(microscan)。尤其是在患有危及生命的疾病的患者中为了克服抗生素的广泛滥用,需要显著降低的结果效率(time-to-result)。

较新的方法专注于病原体的基因组成,并且跨越来自对单抗性标志物在小型专用板的低重测试的整个谱和将富集的测序靶向至细菌的整个基因组测序。这些方法已经证实了使对患有传染性疾病的患者的护理发生变革的显著可能性。

近期的发展包括用于快速细菌鉴定的基于pcr的测试试剂盒(例如,biomerieuxbiofiretests,curetisunyverotests)。利用这些测试,对于非常有限数目的药物而言,检测所选择的抗性基因座是可能的,但是不能给出与基于培养的ast的关联。质谱法越来越多地用于鉴定临床样品中的病原体(例如,brukerbiotyper),并且正在进行研究以建立检测针对抗生素的敏感性/抗性的方法。

使用用于直接检测mrsa的分子技术已经变得越来越普通,尤其对于筛选目的而言。对甲氧西林的抗性由mec操纵子介导,该操纵子为葡萄球菌的盒染色体mec(sccmec)的一部分。最近引入的pcr测试基于检测sccmec的右末端序列,并结合金黄色葡萄球(s.aureus)特异性标志物。存在描述基于培养物的敏感性报道的初始报道,尽管检测到赋予抗性的基因的存在。

已知药物抗性可与基因修饰如多态性或基因重复/缺失相关。这适用于病毒,其中在临床实践中建立了抗性测试(例如,hiv基因型分型)。最近,已显示,抗性在细菌甚至更高级生物体(如人类)中也具有遗传原因,其中肿瘤对某些细胞抑制剂的抗性可与基因组突变相关。

wozniak等人(bmcgenomics2012,13(增刊7):s23)公开了基于基因型和表型数据,金黄色葡萄球菌(staphylococcusaureus)中药物抗性的基因决定因子。stoesser等人公开了利用全基因组序列数据,对大肠杆菌(escherichiacoli)和肺炎克雷伯氏菌(klebsiellapneumonia)分离株的抗微生物敏感性的预测(jantimicrobchemother2013;68:2234-2244)。

chewapreecha等人(chewapreecha等人(2014)comprehensiveidentificationofsinglenucleotidpolymorphismsassociatedwithbeta-lactamresistancewithinpneumococcalmosaicgenes.plosgenet10(8):e1004547)利用可比较的方法鉴定出革兰氏阳性肺炎链球菌(streptococcuspneumonia)中的突变。

然而,对具有抗微生物药物抗性的微生物,特别是细菌种类的感染存在改善的检测需求,并且改善的对抗细菌疗法的应答的预测仍代表高度未满足的临床需求。

发明概述

尽管现有技术的其他方法通常聚焦于点突变,但较早的发现表明可以以两种方式获得对抗性的改善的预测性能:

a)机器学习方法可以用于组合单点突变的预测能力。这些弱的学习者位于细菌染色体上。

b)对于一些药物,点突变不产生高的预测能力。因此,我们增加了较大的结构变体诸如存在或不存在的基因以提高分类精度。

除了染色体之外,基因抗性信息还可以编码在细菌质粒上。这些例如利用水平的基因转移在不同的菌株之间交换。本申请的发明人因此扩展了先前集中在染色体基因的分析,并首次限定了泛基因组。这些含有来自染色体和质粒的全部基因集合。在第一方面,上文描述的a)点得到加强。通过使用更多的基因变体,通常会获得更好的性能。

作为分析的结果,本申请的发明人发现,核酸序列的至少两个基因变异的组合检测能够提高针对抗微生物药物(例如抗生素药物)的抗性/敏感性微生物,尤其是细菌微生物的诊断,所述基因变异包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异。

根据第一方面,本发明涉及确定微生物的抗微生物药物抗性谱的方法,其包括:

-获得或者提供微生物的多个临床分离物的核酸序列的第一数据集,其中将所述第一数据集的核酸序列的至少一部分组装;和/或获得或者提供微生物的多个临床分离物的核酸序列的第一数据集并将所述第一数据集的核酸序列与至少一个参照序列进行比对;

-分析所述第一数据集的核酸序列中所述核酸序列的至少两个基因变异以获得结构变体的第三数据集,所述基因变异包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异;

-提供所述微生物的多个临床分离物的抗微生物药物(例如抗生素)抗性和/或敏感性的第二数据集;

-将所述第三数据集与所述第二数据集关联,并对所述关联进行统计学分析;以及

-确定所述微生物的核酸序列中与抗微生物药物(例如抗生素)抗性相关的基因变异。

此外,在第二方面中,公开了确定患者感染了具有抗微生物药物抗性的微生物的(例如诊断)方法,其包括下述步骤:

a)获得或提供来自所述患者的含有或疑似含有微生物的样品;

b)如通过第一方面所述的方法所确定的,确定包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异的至少两个核酸序列基因变异的存在,其中存在所述包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异的至少两个核酸序列基因变异表明所述患者感染了具有抗微生物药物抗性的微生物。

此外,在第三方面,公开了选择对患有可能具有抗微生物药物抗性的微生物感染的患者的治疗的方法,其包括下述步骤:

a)获得或提供来自所述患者的含有或疑似含有微生物的样品;

b)如通过第一方面所述的方法确定的,确定核酸序列的至少两个基因变异的存在,其中存在所述核酸序列的至少两个基因变异表明对一种或多种抗微生物药物的抗性,所述至少两个基因变异包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异。

c)鉴定所述至少一种或多种抗微生物药物;以及

d)选择不同于步骤c)中所鉴定的药物并且适用于治疗微生物感染的一种或多种抗微生物药物。

在另一方面,本发明涉及计算机程序产品,其包含计算机可执行的指令,所述指令被执行时实施第一、第二和第三方面中任一方面所述的方法。

从属权利要求公开了本发明的其它方面和实施方案,并且其可以从下述描述和实施例中得出,但不限于此。

本发明的详细描述

定义

除非另外限定,否则本文使用的技术和科学术语与本发明所属领域普通技术人员通常所理解的具有相同的含义。

本文的敏感性意指分离株被某浓度的抗微生物剂抑制,而抗性意指分离株不被抑制。

本发明中的“抗微生物药物”指一组药物,其包括抗生素、抗真菌剂、抗原生动物剂和抗病毒剂。根据某些实施方案,抗微生物药物是抗生素。

术语“核酸分子”指包含核苷酸的大分子,尤其是具有确定序列的多核苷酸分子。它包括dna分子、rna分子、核苷酸类似物分子及其组合和衍生物,如掺入核苷酸类似物的dna分子或rna分子或者cdna。

术语“核酸序列信息”涉及可来源于核酸分子的序列即核酸序列的信息,所述核酸序列例如序列自身或者与参照序列相比的序列上的变异。基因序列由此可以涵盖编码以及非编码部分。微生物的整个基因材料由此构成基因组。

术语“基因变异”,也被称为“突变”,涉及与一个参照序列或多个参照序列相比的序列上的变异。此类参照序列可以是例如在主要的野生型生物体或者另一参照生物体(例如限定的且已知的细菌株或亚株)中确定的序列。例如,突变是一个或多个核苷酸的缺失、一个或多个核苷酸的插入、或者一个或多个核苷酸的取代、一个核苷酸或多个核苷酸的序列的重复、一个或多个核苷酸的序列的易位,例如还有单核苷酸多态性(snp)。术语“单核苷酸多态性”(snp)由此与术语“单核苷酸变体”(snv)同义,并且二者指代相同的事物。

在本发明的背景下,“样品”是包含来自细菌微生物的至少一种核酸分子的样品。样品的实例是:细胞、组织、活检标本、体液如血液、尿液、唾液、痰、血浆、血清、细胞培养上清液、拭子样品等。根据某些实施方案,样品是患者样品(临床分离物)。

被称为下一代测序的新的且高效的核酸测序方法已开启了大规模基因组分析的可能性。术语“下一代测序”或“高通量测序”指实现更高通量的测序的方法,例如将测序过程并行,一次产生数千条或数百万条序列的高通量测序技术,或者产生更长读取并且更快读出的方法。实例包括大规模平行标签测序(mpss)、聚合酶克隆测序(polonysequencing)、454焦磷酸测序、illumina(solexa)测序、solid测序、离子半导体测序、dna纳米球测序、helioscope(tm)单分子测序、单分子smrt(tm)测序、单分子实时(rnap)测序、纳米孔dna测序、通过杂交进行的测序、扩增子测序、gnubio。

在本发明的描述中,术语“微生物(microorganism)”包含术语微生物(microbe)。除非另外指明或者显而易见,微生物的类型没有特别限制,并且其例如包括细菌、病毒、真菌、微小的藻类和原生动物及其组合。根据某些方面,微生物指一种或多种革兰氏阳性或革兰氏阴性的细菌,例如一种或多种不动杆菌如鲍氏不动杆菌(acinetobacterbaumannii)、埃希氏杆菌如大肠杆菌、肠杆菌、克雷伯氏菌如产酸克雷伯氏菌(klebsiellaoxytoca)和/或肺炎克雷伯氏菌(klebsiellapneumoniae)、变形杆菌如奇异变形杆菌(proteusmirabilis)、假单胞菌、沙门氏菌、沙雷氏菌如粘质沙雷氏菌(serratiamarcescens)、志贺氏菌和/或葡萄球菌。

本发明的描述中提及微生物包括提及一种微生物以及多种微生物,例如两种、三种、四种、五种、六种或者更多种微生物。

本发明中的脊椎动物指具有椎骨的动物,其包括哺乳动物-包括人类、鸟类、爬行动物、两栖动物和鱼类。因此本发明不仅适用于人类医学,还适用于兽医学。

根据某些实施方案,本发明的方法中的患者是脊椎动物,更优选哺乳动物,并且最优选人类患者。

在示例性地详细描述本发明之前,应当理解,本发明不限于本文所述的方法的过程步骤的具体组成部分,因为此类方法可以改变。还应当理解,本文使用的技术仅出于描述具体实施方案的目的,并且其不意图具有限制性。必须注意,除非上下文另外明确规定,如说明书和所附权利要求中所使用的,单数形式“一个/一种(a)”、“一个/一种(an)”和“所述(the)”包括单数和/或复数指示物。例如,本文使用的术语“一个/一种”可以理解为一个单个的实体或者意味着“一个或多个/一种或多种”实体。还应当理解,除非上下文另外明确规定,复数形式包括单数和/或复数指示物。此外,应当理解,如果给出由数值限定的参数范围,则认为所述范围包含这些限制值。

关于抗微生物药物,例如抗生素类药物的剂量,其参照人类和兽医学中建立的药理学原理。例如,forth,henschler,rummel″allgemeineundspeziellepharmakologieundtoxikologie″,第9版,2005,pp.781-919,其可用作指南。关于即用型药物的配制,参照″remington,thescienceandpractice.ofpharmacy″,第22版,2013,pp.777-1070。

核酸(如基因)序列的组装可以通过任何已知的方法进行,并无特别限定。

根据某些实施方案,利用比对所发现的突变即基因变异也可用无比对的方法进行比较或匹配,例如,用于检测单个碱基交换,例如基于通过组装发现的重叠群。例如,可将获自测序的读取组装成重叠群并可将重叠群彼此比较。

在本说明书中,术语“结构变异”与术语“结构变化”等同使用,并且二者均指本发明范围的同一现象。

包含核酸序列中含有一个以上碱基的改变的结构变异是指微生物的核酸序列中相邻的至少两个碱基,优选至少四个碱基改变的结构变异,并且可以指例如多个(2个,例如4个或更多个)核苷酸的缺失、多个(2个,例如4个或更多个)核苷酸的插入、多个(2个,例如4个或更多个)核苷酸的取代、多个(2个,例如4个或更多个)核苷酸的序列的重复、或者多个(2个,例如4个或更多个)核苷酸的序列的易位。根据某些实施方案,结构变异影响至少约50个碱基、优选至少约100个碱基、更优选至少约1kb(=1000个碱基)的序列长度。根据某些实施方案,结构变异影响至多300mb(兆碱基=1000000个碱基),例如至多30mb,例如至多3mb的序列长度。如果术语“结构变异”指4个或更多个碱基,例如至少约50个碱基,优选至少约100个碱基,更优选至少约1kb的核酸序列中的变化,则术语单核苷酸多态性可以被理解为还包括多达至多3个碱基,例如多达2个碱基的小插入缺失(插入或缺失)。根据某些实施方案,结构变异可以包括核酸序列的较大部分,例如微生物的核酸序列中的至少一个完整基因,甚至是开放阅读框中的更多基因。根据某些实施方案,结构变异是指包含重复元件、拷贝数变异(单个基因或染色体更大部分的获得和丢失)、基因融合、易位和其他更稀少的事件。根据某些实施方案,在本文方法中,至少一个重复元件包含、一个拷贝数变异(单个基因或染色体更大部分的获得和丢失)、一个基因融合、和/或单个基因或染色体更大部分的易位被观察为结构变异。结构变异可以例如包括重复元件的包含、拷贝数变异(单个基因或染色体的更大部分的获得和丢失)、基因融合、易位、包含/添加新基因,以及其他更稀少的事件。

单核苷酸多态性(snp)在本发明的范围内是指核酸序列内的单个核苷酸的变异,其可以由例如单个核苷酸的添加、缺失、取代、插入或易位导致。

在本发明中,参照序列没有特别限制,只要其可用作一个或多个样品中的一个或多个未知核酸序列的参照即可。其可以是例如一个或多个参照核酸序列,例如参照基因组、泛基因组或一个或多个质心(eentroids)。泛基因组也被称为超基因(supra-genome),可以描述进化枝如某种细菌中的基因(其可以在相关菌株间改变)的全互补物。根据某些实施方案,参照序列包含一个或多个质心,其中质心是例如微生物的基因组的基因组/家族/簇的代表。质心可以例如从数据库metaref(http://metaref.org/)中提取。提取之后,来自metaref数据库的数据可以持续更新用于进一步的实验。可以提取一列质心单独或整体地用于各生物体。例如用于注释的质心信息可以从像img(http://img.jgi.doe.gov/)(如在本发明的情况下)或者ncbi那样的数据库中提取。根据某些实施方案,利用泛基因组进行比对。

根据第一方面,本发明涉及确定微生物的抗微生物药物抗性谱的方法,其包括:

-获得或者提供微生物的多个临床分离物的核酸序列的第一数据集,其中将所述第一数据集的核酸序列的至少一部分组装;和/或获得或者提供微生物的多个临床分离物的核酸序列的第一数据集并将所述第一数据集的核酸序列与至少一个参照序列进行比对;

-分析所述第一数据集的核酸序列中的所述核酸序列的至少两个基因变异以获得结构变体的第三数据集,所述至少两个基因变异包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异;

-提供所述微生物的多个临床分离物的抗微生物药物(例如抗生素)抗性和/或敏感性的第二数据集;

-将所述第三数据集与所述第二数据集关联,并对所述关联进行统计学分析;以及

-确定所述微生物的核酸序列中与抗微生物药物(例如抗生素)抗性相关的基因变异。

在本方法以及本发明的其他方法中,多个临床分离物的核酸(例如基因,也可以是非编码)序列的第一数据集可以以任何方式,优选非入侵方式提供或获得,并且可以例如由体外样品提供。

在本文方法中,与确定仅在染色体核酸序列或仅在质粒核酸序列中的至少两个基因变异相比,确定包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异的至少两个核酸序列基因变异,产生改善的结果。

在本文方法中,确定包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异的至少两个核酸序列基因变异,即微生物的染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异。质粒由此是细胞内,例如微生物中与染色体核酸物理分离的小核酸分子。根据某些方面,确定染色体中的一个以上,例如两个、三个、四个、五个、六个、七个、八个、九个、十个、十一个、十二个或者更多个基因变异和/或至少一个质粒中的一个以上,例如两个、三个、四个、五个、六个、七个、八个、九个、十个、十一个、十二个或者更多个基因变异。可以在一个质粒或一个以上例如两个、三个、四个、五个、六个、七个、八个、九个、十个或者更多个质粒中确定质粒中的基因变异。根据某些实施方案,关联和统计学分析甚至可以涵盖这样的技术,其中考虑染色体和质粒核酸序列中的全部基因变异,然后优化用于获得微生物的核酸序列中与抗微生物药物如抗生素抗性相关的基因变异,其具有改善的统计学相关性,例如能够获得更高的与抗微生物药物如抗生素抗性相关的概率。根据某些实施方案,可以利用像决策树、随机森林、神经网络、贝叶斯分类、支持向量机等的分类方式/方法,进行统计学分析,其中首先确定单核苷酸多态性和/或结构变异的存在,例如决策树,其中在决策树中,首先确定单核苷酸多态性和/或结构变异的存在。可以适当地选择和应用分类方法,例如决策树可以利用例如统计学分析范围的已知的方法来产生,并且在其他方面均未特别限制。根据某些实施方案,可以对应于统计学分析利用决策树确定微生物的抗性。

根据某些实施方案,本方法以及本发明的其他方法中的多个临床分离物的核酸(例如基因,也可以是非编码)序列的获得或者提供可以包括以下:

例如提供或者获得脊椎动物(例如人类)的样品,以及通过用于记录核酸的已知方法(其没有特别限制)来记录核酸序列(例如dna或rna序列)。例如,可以通过测序方法记录核酸,其中任何测序方法均适合,尤其是这样的测序方法:可在短时间内分析例如血液样品中大量样品成分的核酸和/或核酸片段和/或其部分,包括至少一种目标微生物,尤其是细菌微生物的核酸和/或核酸片段和/或其部分。例如,可以利用聚合酶链式反应(pcr),尤其是多重pcr或高通量测序或下一代测序,优选利用高通量测序进行测序。对于测序,优选使用体外样品。

核酸序列的获得或提供由此包括获得或提供染色体核酸序列以及质粒核酸序列,特别是微生物如细菌微生物的全部核酸序列。

通过测序获得的数据可以为任何形式,并且然后可以用于通过已知的方法,例如指纹方法,比较核酸序列例如基因组和/或与一种或多种目的微生物的至少一种或多种参照序列(染色体和质粒序列)如参照基因组和/或质心比对等,鉴定待鉴定的微生物的核酸,形成微生物的任选比对的核酸序列如基因的第三数据集-丢弃来自其他来源如脊椎动物的其他数据。对于本方法,还可以使用原始数据和/或组装物至少部分地可用于形成第三数据集。因此,根据某些实施方案,可以组装第一数据集的核酸(如基因)序列的至少一部分,其中组装可以通过任何已知的方法进行,其没有特别的限制。此外,来自已知物种的,例如来自利用像metaref(其可以提供泛基因组)的数据库和/或在ncbi已知的细菌种类的参照序列(例如质心和/或基因组)的数据,可以用于第一数据集和/或评估第一数据集。为了构建泛基因组,还可以使用组装的数据,例如通过样品测序获得的核酸序列数据可以被组装并利用例如roary(快速大规模原核生物泛基因组分析(bioinformatics2015nov15;31(22):3691-3.doi:10.1093/bioinformatics/btv421.epub2015jul20.pageaj,cumminsca,etal.)计算。

泛基因组由此可以提供这样的优势,即它们含有染色体核酸序列以及质粒核酸序列,即与泛基因组比较能够快速且完整地分析基因变异的第一数据集。此外,泛基因组还允许更完整地分析基因变异,因为泛基因组还允许密切相关的菌株之间的基因含量的变异。

对于一些生物体,在全基因组相关研究中,使目标点(例如,结构变异和/或snp)参照一个恒定参照,以提高标准化可能是有用的。在个体之间具有高的基因组一致性和99%相同的序列的人类的情况下,这是简单的,并且代表了标准,因为相应的参照基因组可获自数据库。

然而,在引发传染性疾病的生物体(例如,细菌和病毒)的情况下,这要困难的多,尤其是当将序列数据与参照核酸序列例如参照基因组比对时,不在基因特别是已知基因上的如结构变异和/或snp的基因变异可能错过。克服此问题的一种可能性是依靠包含某种属的全部序列的虚拟的泛基因组或者进行参照自由变异识别(referencefreevariationcalling)。另一可能性是分析大量的参照序列(例如利用metaref),甚至是所有可获得的参照,这要复杂的多。其中从数据库(例如,refseq)提取全部n个参照,并将其与新测序的细菌核酸序列如基因组k进行比较。此后,可以应用矩阵(定位的读取%,覆盖的核酸序列如基因组%),并可以将数据与几种参照序列进行比较。在这种情况下,进行nxk个完全比对。有大量的参照,可获得稳定的结果。

在本发明的方法中,还可以根据利用已知方法的某些实施方案,例如通过重新组装或者定位组装、参照引导的组装来至少部分组装第一数据集的核酸(例如基因,也可以是非编码的)序列。序列组装没有特别限制,并且可以使用任何已知的核酸序列组装程序,例如基于sanger、454、solexa、illumina、solid技术等,及其杂交物/混合物。

根据某些实施方案,可在鉴定目标核酸之后,移出与目标微生物(例如细菌微生物)不同来源的核酸的数据,例如通过过滤数据。此类数据可以,例如包括患者例如脊椎动物(如人类)和/或其它微生物的核酸等。这可以通过例如meyerson等人2002年开发的计算减法完成。为此,与脊椎动物等的核酸序列如基因组进行比对也是可能的。对于比对,数种比对工具都是可用的。以这种方式可以大幅减少来自样品的原始数据量。

在此类“过量”数据移除之后,也可以如上文和下文所述针对微生物如细菌微生物实施获得第三数据集。

利用这些技术,可以获得不同物种的目标微生物(例如细菌微生物)的核酸序列(包括染色体核酸序列以及质粒核酸序列)如基因序列中的结构变异和snp。

例如在吸收有抗微生物药物如抗生素的板上利用标准培养方法,测试这些相同物种对多种抗微生物药物如抗生素的抗微生物药物如抗生素的敏感性时,例如,如下所述,这些抗微生物药物如抗生素敏感性测试的结果然后可与各自微生物的核酸序列中的结构变异相互参考/关联。利用相同或不同的微生物物种的一些,例如50或超过50、100或超过100、200或超过200、400或超过400、500或超过500、800或超过800、900或超过900、1000或超过1000、或者1100或超过1100种不同的分离株,可以利用已知的方法,对获得的这些微生物的基因变异与抗微生物药物(例如抗生素)的敏感性之间的相互参考数据进行统计学分析。

关于培养方法,对此没有限制,可将微生物样品例如培养过夜。在第二天,可以通过培养或者利用质谱法将各个集落用于微生物鉴定。基于生物体的身份,接种含有增加浓度的用于处理这些生物体的抗生素的新平板,并另外生长12-24小时。可以使用抑制生长的最低药物浓度(最小抑菌浓度-mic)确定对所测试的抗生素的敏感性/抗性。

此外,可以通过确定例如不同分离株(像在甲氧西林抗性金黄色葡萄球菌(mrsa)和甲氧西林敏感性金黄色葡萄球菌(mssa)的情况下)中的已知抗性基因,来进行抗性测试。为了确定抗性,各自的敏感性,可以使用来自培养方法和/或来自确定已知的抗性基因的数据,以及以不同方式(例如基于质谱(可能还结合培养))获得的数据。

可以以常规方式进行基因变异与抗微生物药物(例如抗生素)抗性的关联,并且没有特别限制。例如,可以将抗性与各微生物的全部核酸序列或仅其一部分例如仅核酸序列的编码部分中的结构变异和/或snp关联。在一些情况下,甚至可以仅确定基因变异,即具有某些核酸序列的核酸分子(例如基因,例如某些基因)中的结构变异和/或snp,或者具有某些核酸序列的核酸分子(例如基因)的某些突变。关联之后,可以进行统计学分析。用染色体核酸序列和质粒核酸序列进行关联。

根据某些实施方案,例如当确定结构变异时,可以在针对泛基因组和/或参照基因组进行可能的注释并与抗性/敏感性数据关联之前,过滤第一数据集的数据,尤其是基因变异,尤其是结构变异和/或snp。

例如,为了减少对于基因变异例如对于结构变异和/或snp的相似注释的数量,可以通过以下的一项或多项来过滤和聚集它们:

·只有对于所考虑的基因变异例如结构变异和/或snp依赖于蛋白的注释可以保留并丢弃另外数据

·只有不含“假设蛋白”的注释可以保留

·可以通过基因变异例如snp和/或结构变异以及核酸序列例如基因产物的识别号(id)来存储注释

·对于唯一的id对和核酸序列例如基因产物,只有首次注释可以保留,例如在基因组中的多个核酸序列如编码某些基因的情况下。

此外,根据某些实施方案,可以排除以下基因变异例如结构变异和/或snp:

1.可以去除恒定的特征和表型(相同的数值或只有na(不适用))(例如所有样品中均存在的质心或者对于所有样品具有结果“抗性”的表型

2.还可以去除几乎恒定的特征和表型,例如可以去除其最频繁的数值在所有样品的大于或等于95%中的特征,而忽略na值(例如,质心存在于所有样品的大于或等于95%中)

。还可以去除其最频繁的数值在所有样品的大于或等于90%中的的表型,而忽略na值(例如所有样品的大于或等于90%是抗性的)

3.此外,可以仅保留对于至少10%的样品具有非错失数据的药物

4.没有任何注释或突变的基因变异例如snp和/或结构变异,例如所有注释均含有标志“同义”的snp和/或结构变异可以被去除,使得仅考虑具有至少一个非同义注释例如非同义编码的突变,例如snp和/或结构变异。

统计学分析没有特别的限制并且可以被适当地进行。基因的(例如基因)变异与抗微生物药物(例如抗生素)抗性的关联的统计学分析没有特别的限制并且可以依赖于例如数据量,以不同的方式(例如利用方差分析(anova)、学生t-检验或费希尔精确检验,例如利用样本尺寸n为50、100、200、300、400、500、600、800、1000或1100以及显著水平(α-误差水平)为例如0.05或更小,例如0.05,优选0.01或更小)来进行。根据某些实施方案,本文方法中的统计学分析可以利用费希尔检验-或者类似的检验-以p<10-3,优选p<10-6,更优选p<10-9来进行。针对核酸序列即染色体和质粒核酸序列中的各核酸/基因序列的各基因变异例如结构变异和/或snp,以及所测试的所有抗生素、一组抗生素或一种抗生素,可以获得统计值。如果需要,也可以针对统计误差调整获得的p值。

为了统计学上合理的结果,应当抽取大量个体,其中n=50、100、200、300、400、500、600、800、1000或1100或更高,以及显著性水平(α-误差-水平)为,例如0.05或更小,例如0.05,优选0.01或更小。根据某些实施方案,对于n=200、300、400、500、600或更多,可以获得尤其显著的结果。

为了统计学上合理的结果,应当抽取大量个体,其中n=50或更多、100或更多、200或更多、300或更多、400或更多、500或更多、600或更多、800或更多、1000或更多、或者1100或更多,以及显著性水平(α-误差-水平)为,例如0.05或更小,例如0.05,优选0.01或更小。根据某些实施方案,对于n=200或更多、300或更多、400或更多、500或更多、600或更多、800或更多、1000或更多、或者1100或更多,可以获得尤其显著的结果。

对于统计学分析,可以应用费希尔精确双侧检验,以及随后的利用例如族系误差率(fwer)或fdr(错误发现率)以及0.01的p-值阈值(对应于10-2,分别为1e-2)在所有表型内的p-值调整。此外,可以通过单独地排列各表型并将费希尔精确检验应用于例如质心存在矩阵和排列的表型来进行10次排列检验。关于质心,结果然后通过质心注释进一步过滤,即

1.无基因产物名称的质心可以被任选地去除

2.其基因产物名称含有“推定的”、“预测的”或“假设的”质心可以被去除

3.如果存在具有相同基因产物名称和基因符号的质心,仅第一个可以被保留

4.无genebank登录的质心可以被去除

尽管可选地或者另外,还可以进行其他统计学分析。

根据某些实施方案,基因变异例如结构变异和/或snp可以针对微生物的泛基因组来注释和/或针对微生物的一个或多个参照序列例如质心来注释。泛基因组的构建没有特别的限制并且可以利用已知的方法来进行。举例来说,例如微生物的若干个,例如100个以上、200个以上或300个以上的单个样品的组装数据可以用于构建泛基因组,例如通过样品测序获得的核酸序列数据可以被组装,然后例如利用roary(快速大规模原核生物泛基因组分析(bioinformatics2015nov15;31(22):3691-3.doi:10.1093/bioinformatics/btv421.epub2015jul20.pageaj,cumminsca,etal.)来计算。根据某些实施方案,基因变异例如结构变异和/或snp可以针对微生物的泛基因组来注释。然而,其他合适的参照基因组可以在公众可利用的数据库像在ncbi或从metaref找到。

当提及第二数据集时,其中所述第二数据集例如包括,分别是多种临床分离物的一组抗微生物药物(例如抗生素)抗性,在本发明的范围内,这还可以指自我学习数据库,不管何时分析新样品,所述数据库均可以将该样品列入第二数据集,从而扩展其数据库。因此第二数据集不必是静止的,并且由于自我学习,其可以通过外部输入或者通过并入新数据来扩展。但是,这不局限于本发明的第一方面,反而适用于本发明提及第二数据集的其它方面,其不一定必须指抗微生物药物抗性。在适用的情况下,这同样适用于例如在第一方面中的第一数据集。

根据第一方面的某些实施方案,可以无比对地检测基因变异例如snp和/或结构变异。根据某些实施方案,将基因变异例如snp和/或结构变异针对微生物的泛基因组来注释和/或针对一个或多个参照序列来注释。

本发明第一方面的方法以及相关方法,例如根据第二和三方面的方法,包括将不同的基因变异彼此相互关联。这样,可以实现更高的统计学显著性。具体地,通过关联染色体核酸序列和质粒核酸序列中的基因变异来获得改善的数据。

根据第一方面的方法以及如上所述的相关方法的某些实施方案,可以通过在提供有不同浓度的抗微生物药物(例如抗生素)的合适平板如琼脂板上培养微生物的临床分离物提供第二数据集,以及可以通过采用抑制各微生物生长的平板的最小浓度来获得第二数据。

根据某些实施方案,抗微生物药物如抗生素药物选自β-内酰胺、β-内酰胺抑制剂、喹诺酮及其衍生物,例如氟喹诺酮类、氨基糖苷类、糖肽类、林可酰胺类、大环内酯类、硝基呋喃类、恶唑烷酮类、聚酮类、各四环素类、以及叶酸合成抑制剂如苯衍生的/磺胺类抗生素。根据某些实施方案,抗微生物药物如抗生素药物选自阿莫西林/克拉维酸钾(aug)、氨苄西林(am)、氨曲南(azt)、头孢唑林(cfz)、头孢吡肟(cpe)、头孢噻肟(cft)、头孢他啶(caz)、头孢曲松(cax)、头孢呋辛(crm)、头孢噻吩(cf)、环丙沙星(cp)、厄他培南(etp)、庆大霉素(gm)、亚胺培南(imp)、左氧氟沙星(lvx)、美罗培南(mer)、哌拉西林/他唑巴坦(p/t)、氨苄西林/舒巴坦(a/s)、四环素(te)、妥布霉素(to)以及甲氧苄啶/磺胺甲恶唑(t/s)。根据某些实施方案,微生物是革兰氏阳性细菌或革兰氏阴性细菌,例如革兰氏阴性细菌。

在本发明的方法中,可以确定微生物尤其是细菌微生物对一种或多种抗微生物(例如抗生素)药物的抗性。

根据某些实施方案,确定微生物尤其是细菌微生物对1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、11种、12种、13种、14种、15或16种、17种、18种、19种、20种、21种或更多种抗生素药物的抗性。根据某些实施方案,确定微生物尤其是细菌微生物对1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、11种、12种、13种、14种、15或16种、17种、18种、19种、20种或21种抗生素药物的抗性。

本发明的第二方面涉及确定患者感染了具有抗微生物药物抗性的微生物的方法,例如诊断方法,其包括下述步骤:

a)获得或提供来自所述患者的含有或疑似含有微生物的样品;

b)如通过第一方面所述的方法确定的,确定核酸序列的至少两个基因变异的存在,其中存在所述核酸序列的至少两个基因变异表明所述患者感染了具有抗微生物药物抗性的微生物,所述至少两个基因变异包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异。

根据某些实施方案,步骤a)中的微生物是对抗微生物药物治疗可能具有抗性的细菌微生物。

患者感染了对抗微生物药物治疗可能具有抗性的微生物,优选细菌微生物,例如不动杆菌、埃希氏杆菌如大肠杆菌、肠杆菌、克雷伯氏菌、变形杆菌、假单胞菌、沙门氏菌、沙雷氏菌、志贺氏菌和/或葡萄球菌中的一种或多种在本文意指,患者感染了微生物,优选细菌微生物,尤其是上文所示的那些,其中不清楚微生物,优选细菌微生物是否对利用特定的抗微生物治疗的治疗敏感或者是否对所述抗微生物药物有抗性。

利用该方法,可以确定微生物例如细菌微生物,例如具有微生物(尤其是细菌微生物)未知株的临床分离物的核酸序列中与抗微生物药物(例如抗生素)抗性相关的任何基因变异/突变,并且可以建立完全的抗微生物药物(例如抗生素)抗性谱,包括结构变异以及snp。

此外,在此可以如本发明第一方面所述,实施不同的步骤。

根据该方面,患者感染了微生物,尤其是细菌微生物可以利用染色体和质粒核酸序列的测序方法来确定,以及与常规方法相比,可以在少量的时间内确定微生物对抗微生物药物如抗生素的抗性,并且与仅确定染色体核酸序列中的结构变异和/或snp或仅在质粒核酸序列中的结构变异和/或snp相比,更全面的诊断是有可能的,从而产生改善的用于确定微生物,尤其是细菌微生物的抗性和/或敏感性的结果。

在第三方面,本发明涉及选择对感染了可能具有抗微生物药物抗性的微生物的患者的治疗的方法,其包括下述步骤:

a)获得或提供来自所述患者的含有或疑似含有微生物的样品;

b)如通过第一方面所述的方法确定的,确定核酸序列的至少两个基因变异的存在,其中存在所述核酸序列的至少两个基因变异表明对一种或多种抗微生物药物的抗性,所述至少两个基因变异包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异;

c)鉴定所述至少一种或多种抗微生物药物;以及

d)选择不同于步骤c)中所鉴定的药物,并且适用于治疗微生物感染的一种或多种抗微生物药物。

可以与本发明的第二方面中的方法相类似地进行本方法,并且其能够成为针对未知微生物尤其是细菌微生物的任何感染来选择合适的抗生素治疗的快速方式,其与确定仅染色体核酸序列的结构变异和/或snp或仅在质粒核酸序列中的结构变异和/或snp相比,具有改善的结果。

在该方法以及类似的方法中,比对不是必要的,因为在产生核酸序列之后,未知样品可以与第二数据集直接相关,并且因此可以确定基因变异和抗微生物药物(如抗生素)抗性。第一数据集可以例如利用已知技术来组装。

根据某些实施方案,本方法中的统计学分析利用费希尔检验,p<10-3,优选p<10-6,优选p<10-9来进行。此外,根据某些实施方案,该方法还包括将不同的基因位点彼此关联。

根据某些方面,以本发明的任何方法,确定染色体核酸序列和/或质粒核酸序列中各序列的至少2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个或更多个位置(例如各序列的至少2个位置或各序列的至少3个位置)中的基因变异例如结构变异和/或snp。代替仅测试单个位置和/或序列,若干个基因变异例如变体位置和/或序列的组合,能够提高预测精度并进一步降低受其他因素影响的假阳性发现。因此,特别优选的是确定2、3、4、5、6、7、8、9、10、11、12(或更多)条序列中结构变异和/或snp的存在。

步骤c)中的至少一种或多种抗微生物(例如抗生素)药物的鉴定然后基于步骤b)中获得的结果,并且对应于与结构变异和snp相关的抗微生物(例如抗生素)药物。一旦排除这些抗微生物药物例如抗生素,则可以在步骤d)中将剩余的抗微生物药物例如抗生素类药物/抗生素选择为适用于治疗。

根据第二或第三方面的某些实施方案,可以利用如决策树、随机森林、神经网络、贝叶斯分类、支持向量机等的分类方式/方法进行步骤b),其中首先确定单核苷酸多态性和/或结构变异的存在),例如决策树,其中在决策树中,首先确定单核苷酸多态性和/或结构变异的存在。可以适当地选择和应用分类方法,例如决策树可以利用例如统计学分析范围的任何已知的方法来产生,并且在其他方面均未特别限制。根据某些实施方案,可以利用对应于统计学分析的决策树确定微生物的抗性。这种方式可以优化抗性微生物例如细菌微生物的诊断。

根据某些实施方案,本文方法中的确定核酸序列信息或基因变异的存在包括利用例如如上文提到的下一代测序或高通量测序方法。

根据本发明的任一方面的某些实施方案,微生物属于不动杆菌属,尤其是鲍氏不动杆菌,并且药物选自cp、imp和/或lvx,和/或微生物是埃希氏杆菌属,尤其是大肠杆菌,并且药物是crm,和/或微生物是克雷伯氏菌属,尤其是产酸克雷伯氏菌,并且药物是cp,和/或微生物是克雷伯氏菌属,尤其是肺炎克雷伯氏菌,并且药物选自a/s、azt、caz、crm和/或gm,和/或微生物是变形杆菌属,尤其是奇异变形杆菌,并且药物选自am、a/s、cp、lvx和/或t/s,和/或微生物是沙雷氏菌属,尤其是粘质沙雷氏菌,并且药物选自azt、cax、caz和/或cft。

根据本发明的任一方法的某些实施方案,基因变异选自核酸序列的结构变异和单核苷酸多态性(snp)的至少一种,所述结构变异包括核酸序列中含有一个以上碱基的至少一个改变。

本发明的第四方面涉及针对微生物尤其是细菌微生物的临床分离物确定微生物的核酸序列的至少两个基因变异的方法,所述至少两个基因变异包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异,所述方法包括:

获得或提供微生物尤其是细菌微生物的临床分离物的核酸(例如基因)序列;以及

如通过第一方面所述的方法确定的,确定微生物尤其是细菌微生物的临床分离物的核酸(例如基因)序列中包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异的至少两个核酸序列基因变异的存在。

利用该方法,可以确定微生物尤其是细菌微生物的未知分离物的抗微生物药物如抗生素抗性。

本方面中所描述的用于诊断测试的简单的读取概念可以如下。

来自患者的样品如血液例如利用下一代测序(ngs)用于分子测试,然后采集分子指纹,例如在ngs的情况下,组装所选的基因组/质粒区的序列或整个核酸序列如基因组。然后将其与含有一些参照序列的参照文库和/或泛基因组进行比较,即将所选的序列或整个序列与一个或多个参照序列和/或泛基因组比较,并且将染色体核酸序列和质粒核酸序列中的结构变异(序列/基因添加/缺失等)和snp与参照文库的参照序列的敏感性/抗性谱关联。本文的参照文库含有多条核酸序列和/或一个或多个泛基因组,并且不同于参照基因组。然后报告结果,其可以包含id(病原体识别),即样品中鉴定的所有(病原性)物种的列表,以及ast(抗微生物敏感性测试),即包括基于基因变异列出的所有物种的敏感性/抗性谱的列表。

根据某些实施方案,本文方法中的统计学分析利用费希尔检验,p<10-3,优选p<10-6,优选p<10-9来进行。此外,根据某些实施方案,该方法还包括将不同的基因位点彼此关联。

此外,在第二、第三和第四方面,本文的不同的步骤可以结合本发明的第一方面所描述来进行。

根据某些实施方案,本发明的方法中获得或提供来自患者的含有或疑似含有至少一种微生物,优选细菌微生物(例如不动杆菌、埃希氏杆菌如大肠杆菌、肠杆菌、克雷伯氏菌、变形杆菌、假单胞菌、沙门氏菌、沙雷氏菌、志贺氏菌和/或葡萄球菌的一种或多种)的样品可以包括以下:

例如提供或者获得脊椎动物(例如人类)的样品,以及通过用于记录核酸的已知方法(其没有特别限制)来记录核酸序列(例如dna或rna序列)。例如,可以通过测序方法记录核酸序列,其中任何测序方法均适合,尤其是这样的测序方法:可在短时间内对例如血液样品中大量样品成分包含的核酸和/或核酸片段和/或其部分进行分析,包括微生物的核酸和/或核酸片段和/或其部分。例如,可以利用聚合酶链式反应(pcr),尤其是多重pcr或高通量测序或下一代测序,优选利用高通量测序进行测序。对于测序,优选使用体外样品。

通过测序获得的数据可以为任何形式,并且可以结合本发明的第一方面至第四方面所描述来进行分析。

在第五方面,本发明涉及一个或多个计算机程序产品,其包含计算机可执行的指令,所述指令被执行时实施本发明第一至第四方面任一方面所述的方法。

在某些实施方案中,计算机程序产品是这样的产品,其上存储了用于执行所述方法的计算机程序的程序指令或程序代码。根据某些实施方案,计算机程序产品是存储介质。如上所示,本发明的计算机程序产品可以是自我学习的,例如对于第一和第二数据集而言。

为了从高度复杂的基因数据中获得最可能的信息并开发用于诊断和治疗用途以及本发明方法的可稳定适用于临床常规过程的最优模型,全面的计算机模拟分析可能是必要的。所提出的原则是基于不同方法的组合,例如微生物的核酸(如基因)序列和/或基因组的组装,至少部分地并且任选地将序列针对一个或多个参照序列和/或一个或多个泛基因组来注释,和/或将待确定的临床分离物的序列数据与一个或多个参照序列和/或一个或多个泛基因组比对,以及将例如来自各患者的各样品(分别为未知的临床分离物)中发现的染色体和质粒核酸序列中的结构变异和/或snp,与所有参照和药物如抗生素、或者只有其中的一种或一些相关联,并寻找对于一种或数种药物出现且在一种或数种菌株中发生的染色体和质粒核酸序列中的结构变异和/或snp。

利用以上步骤,产生了一列染色体和质粒核酸序列中相对于一个或多个参照序列和/或一个或多个泛基因组的结构变异和/或snp。这可以储存在数据库中,并且统计模型可以源自所述数据库。统计模型可以基于染色体和质粒核酸序列中的至少一个或多个结构变异和/或至少一个或多个snp。可以自结构变异、snp和/或序列合成可训练的统计模型。可以产生此类模型的算法的实例是关联规则、支持向量机、决策树、决策森林、判别分析、聚类方法(cluster-method)以及更多算法。

训练的目标是在常规程序期间允许可再现的、标准化的应用。

为此,例如,可将来自待诊断患者的核酸如基因序列或其部分进行测序。然后,可从序列数据得到核心特征,其可用于预测抗性。这些是用于最终模型的数据库中的点,即染色体和质粒核酸序列中的至少一个结构变异和/或一个snp,以及一个或多个结构变异和/或一个或多个snp的组合等。

可将对应的特征用作统计模型的输入,从而使得能够进行新患者的预后。不仅可将关于所有微生物针对所有或仅一些或一种药物(例如抗生素)的所有抗性的信息整合进计算机决策支持工具中,还可将对应的指令(例如eucast)整合进计算机决策支持工具中,以便仅给出与指令一致的治疗建议。

本发明的第六方面涉及根据第五方面所述的计算机程序产品的用途,例如用于本发明第四方面中确定微生物的临床分离物的微生物染色体和质粒核酸序列中的结构变异和/或snp的用途,和/或用于本发明的第二方面的诊断方法的用途,和/或用于本发明的第三方面的选择治疗的用途,和/或在本发明的第一方面的方法中。

本发明的第七方面涉及治疗感染了具有抗微生物药物如抗生素抗性的微生物,优选细菌微生物(例如不动杆菌、埃希氏杆菌如大肠杆菌、肠杆菌、克雷伯氏菌、变形杆菌、假单胞菌、沙门氏菌、沙雷氏菌、志贺氏菌和/或葡萄球菌的一种或多种)的患者的方法,其包括以下步骤:

a)获得或提供来自所述患者的含有或疑似含有至少一种微生物优选细菌微生物的样品;

b)如通过第一方面所述的方法确定的,确定核酸序列的至少两个基因变异的存在,其中存在所述核酸序列的至少两个基因变异表明对一种或多种抗微生物药物的抗性,所述至少两个基因变异包含染色体中的至少一个基因变异和至少一个质粒中的至少一个基因变异;

c)鉴定所述至少一种或多种抗微生物药物,例如抗生素类药物;

d)选择不同于步骤c)中所鉴定的药物,并且适用于治疗微生物优选细菌微生物感染的一种或多种抗微生物药物,例如抗生素类药物;以及

e)用所述一种或多种抗微生物药物,例如抗生素类药物治疗患者。

在本文中,步骤a)至d)可以结合第四方面所描述来进行。可以充分实施步骤e)而不受限制,并且可以例如无创地实施。

实施例

现在将参考本发明的一些实施例详细描述本发明。但是这些实施例是说明性的,并且不限制本发明的范围。

为了分析考虑用于确定抗微生物抗性的染色体和质粒核酸的作用,实施例中考虑了不同属的六种不同的细菌菌株以证明该作用不限于特定的菌株或属。此外,为了更容易分析,在以下所示的实施例中仅考虑了snp,尽管对于考虑了结构变体的实施例中也获得了以下所示的类似作用。

考虑以下菌株/物种,并且每种情况下的各样品的数量提供在表1中。

表1:用于每一菌种的样品数量

除了经典的抗微生物剂敏感性测试之外,还对相同分离物进行核酸测序。这允许进行全基因组相关性研究,以找到核酸序列中与针对一种或数种药物的抗性显著相关的基因变体(例如,点突变、小的插入和缺失、较大的结构变体、质粒拷贝数增加、基因剂量效应)。该方法还允许将基因组中的相关位点相互比较。

为了确定质粒上的基因变体,构建了泛基因组。为了构建泛基因组,将通过如下详述的对样品的测序所获得的数据组装,并利用roary(快速大规模原核生物泛基因组分析(bioinformatics2015nov15;31(22):3691-3.doi:10.1093/bioinformatics/btv421.epub2015jul20.pageaj,cumminsca,etal.)进行计算。利用spades(3.0.0版,bankevicha,nurks,antipovd,etal.spades:anewgenomeassemblyalgorithmanditsapplicationstosingle-cellsequencing.journalofcomputationalbiology.2012;19(5):455-477.doi:10.1089/cmb.2012.0021)构建了重新组装物,参数为-t20-m256-k21,33,55,77--careful-1fp.fastq.gz-2rp.fastq.gz。为了确定组装物的质量,我们运行了quast(2.3版),最小长度阈值为500bp。突出了与refseq组装物质量标准(n50>5000,l50<20,#重叠群<1000)不相匹配的得到的矩阵值。

在该方法中,涵盖了与结构变异相关的基因抗性的不同来源以及细菌如何能够变得具有抗性的不同方式。通过测量在辽阔的地理区域内并经过三十年的宽时间跨度收集的临床分离菌,试图产生远超出实验室产生的抗性机制的人工步骤的全貌。

为此,将一组具有5种不同作用模式的21种临床相关抗微生物剂放在一起,并测量21种药物对分离菌的最小抑菌浓度(mic)。

以下给出了详细步骤:

细菌菌株

本申请的发明人从siemenshealthcarediagnostics(westsacramento,ca)的微生物菌株保藏中心选择了菌株用于敏感性测试和核酸测序。

抗微生物剂敏感性测试(ast)板

按照临床实验室标准协会(clsi)推荐规范准备冷冻参照ast板。板中包含下述抗微生物剂(其中括号内显示μg/ml浓度):阿莫西林/克拉维酸钾(0.5/0.25-64/32)、氨苄西林(0.25-128)、氨苄西林/舒巴坦(0.5/0.25-64/32)、氨曲南(0.25-64)、头孢唑林(0.5-32)、头孢吡肟(0.25-64)、头孢噻肟(0.25-128)、头孢他啶(0.25-64)、头孢曲松(0.25-128)、头孢呋辛(1-64)、头孢噻吩(1-64)、环丙沙星(0.015-8)、厄他培南(0.12-32)、庆大霉素(0.12-32)、亚胺培南(0.25-32)、左氧氟沙星(0.25-16)、美罗培南(0.12-32)、哌拉西林/他唑巴坦(0.25/4-256/4)、四环素(0.5-64)、妥布霉素(0.12-32)以及甲氧苄啶/磺胺甲恶唑(0.25/4.7-32/608)。在使用临床分离菌之前,用qc菌株对ast板进行测试。当qc结果符合clsi16所述的qc范围时,认为ast板对于用临床分离菌进行测试是可接受的。

接种物制备

在含有5%羊血(bbl,cockeysville,md.)的胰蛋白酶解酪蛋白大豆琼脂上培养分离菌,并将其在35±1℃的环境空气中孵育18-24h。将分离的集落(4-5个大集落或者5-10个小集落)转移至3ml无菌接种水(siemens)中,并乳化至0.5mcfarland标准品的最终浊度。向含有普朗尼克-f(siemens)的25ml接种水(siemens)中添加2ml的该悬液。利用专门用于冷冻ast板的接种器(siemens),将5μl的细胞悬液转移至ast板的各个孔中。将接种的ast板在35±1℃的环境空气中孵育16-20h。板的结果可以目测读取,并且确定最小抑菌浓度(mic)。

dna提取

在含有5%羊血的胰蛋白酶解酪蛋白大豆琼脂上培养各个革兰氏阴性细菌分离物的四条划线,以及在含有50μl无核酸酶的水(am9930,lifetechnologies)的1.5ml无菌收集管中制备细胞悬液。将细菌分离株样品在-20℃下保存直至核酸提取。使用组织制备系统(tps)(096d0382-02_01_b,siemens)和组织制备试剂(tpr)试剂盒(10632404b,siemens)从这些细菌分离株中提取dna。在提取之前,将细菌分离株在室温解冻,并在2000g下沉淀5秒。在4小时内,将dna提取方案dnaext用于48种分离株样品的全部核酸提取,以及各自50μl的洗脱物。然后将总核酸洗脱物转移至96孔qpcr检测板(401341,agilenttechnologies)内,用于rna酶a消化、dna定量以及板dna浓度标准化过程。向50μl的总核酸洗脱物中添加根据制造商的说明书稀释于无核酸酶的水中的rna酶a(am2271,lifetechnologies),最终工作浓度为20ug/ml。利用siemens扩增和检测设备将消化酶和洗脱物的混合物在37℃孵育30分钟。利用quant-ittmpicogreendsdnaassay(p11496,lifetechnologies),根据分析试剂盒的说明书定量来自rna酶消化的洗脱物的dna,以及在siemens扩增和检测设备上测定荧光。利用excel2007进行数据分析。在文库制备之前,将25μl定量的dna洗脱物转移至新的96孔pcr板中用于板dna浓度标准化。使用来自tpr试剂盒的洗脱缓冲液调整dna浓度。然后将标准化的dna洗脱物板在-80℃保存直至文库制备。

下一代测序

在文库制备之前,利用qubit2.0荧光计(qubitdsdnabrassay试剂盒,lifetechnologies)和agilent2200tapestation(genomicdnascreentape,agilenttechnologies)对分离的细菌dna进行质量控制。根据制造商的说明书,利用nexteraxtdna样品制备试剂盒和96indexes的nexteraxtindex试剂盒(illumina),制备96孔形式的ngs文库。利用kapasybrfastqpcrmastermix试剂盒(peqlab)在viia7实时pcr系统(lifetechnologies)上,以基于qpcr的方法定量所得到的测序文库。利用truseqpeclusterv3和truseqsbsv3测序化学(illumina),在inuminahiseq2000或hiseq2500测序仪上,每道合并96个样品用于配对末端测序(2x100bp)。利用用于高通量序列数据的fastqc质量控制工具(babrahambioinformaticsinstitute)确定基础的测序质量参数。

然后,将数据定位并差别分析用于仅考虑染色体核酸序列的模型(下文中还称为染色体模型),以及用于考虑染色体和质粒核酸序列的模型(下文中还称为pg模型)。

定位(mapping):

针对上文给出的泛基因组的模型和随后的序列方案来进行定位。

对于染色体模型,此外还针对仅考虑染色体上的核酸序列的特定参照基因组进行定位,所述特定参照基因组显示在随后的序列方案中并且如下:seqidno1显示了鲍氏不动杆菌的参照基因组(如ncbi所注释的nc_017847),seqidno2显示了大肠杆菌的参照基因组(如ncbi所注释的cp000948),seqidno3显示了肺炎克雷伯氏菌的参照基因组(如ncbi所注释的nc_009648),seqidno4显示了产酸克雷伯氏菌的参照基因组(如ncbi所注释的nc_016612),seqidno5显示了奇异变形杆菌的参照基因组(如ncbi所注释的nc_010554),并且seqidno6显示了粘质沙雷氏菌的参照基因组(如ncbi所注释的nc_020211)。

在此通过将数据与泛基因组中所用的所有染色体参照基因组相关联并选择最合适的来选择每一菌种的参照基因组。

鲍氏不动杆菌菌株nc_017847的参照序列(http://www.ncbi.nlm.nih.gov/nuccore/nc_017847)

locusnc_0178473964912bpdnacircularcon01-mar-2015

定义鲍氏不动杆菌mdr-tj,完整基因组.

登录号nc_017847nz_aeoe01000000nz_aeoe01000001nz_aeoe01000002

nz_aeoe01000003nz_aeoe01000004

版本nc_017847.1gi:387122089

dblinkbioproject:prjna224116

biosample:samn02603104

assembly:gcf_000187205.2

关键字refseq.

来源鲍氏不动杆菌mdr-tj

生物体鲍氏不动杆菌mdr-tj

细菌;变形菌门;丙型变形菌纲;假单胞菌目;莫拉氏菌科;不动杆菌属;醋酸钙不动杆菌/鲍氏不动杆菌复合体.

参考文献1(碱基1至3964912)

作者huang,h.,yang,z.l.,wu,x.m.,wang,y.,liu,y.j.,luo,h.,lv,x.,gan,y.r.,song,s.d.andgao,f.

题目completegenomesequenceofacinetobacterbaumanniimdr-tjandinsightsintoitsmechanismofantibioticresistance

期刊j.antimicrob.chemother.67(12),2825-2832(2012)

pubmed22952140

参考文献2(碱基1至3964912)

作者gao,f.,wang,y.,liu,y.j.,wu,x.m.,lv,x.,gan,y.r.,song,s.d.andhuang,h.

题目genomesequenceofacinetobacterbaumanniimdr-tj

期刊j.bacteriol.193(9),2365-2366(2011)

pubmed21398552

参考文献3(碱基1至3964912)

作者huang,h.,yang,z.-l.,wu,x.-m.,wang,y.,liu,y.-j.,luo,h.,lv,x.,gan,y.-r.,song,s.-d.andgao,f.

题目directsuhmission

期刊submitted(06-apr-2012)departmentofphysics,tianjinuniversity,no.92,weijinroad,nankaidistrict,tianjin300072,china

大肠杆菌菌株k-12亚株dh10b的参照序列:

locuscp0009484686137bpdnacircularbct05-jun-2008

定义大肠杆菌菌株k-12亚株dh10b,完整基因组.

登录号cp000948

版本cp000948.1gi:169887498

dblinkbioproject:prjna20079

关键字.

来源大肠杆菌菌株k-12亚株dh10b

生物体大肠杆菌菌株k-12亚株dh10b

细菌;变形菌门;丙型变形菌纲;肠杆菌目;肠杆菌科;埃希氏杆菌属.

参考文献1(碱基1至4686137)

作者durfee,t.,nelson,r.,baldwin,s.,plunkett,g.iii,burland,v.,mau,b.,petrosino,j.f.,qin,x.,muzny,d.m.,ayele,m.,gibbs,r.a.,csorgo,b.,posfai,g.,theinventorsinstock,g.m.andblattner,f.r.

题目thecompletegenomesequenceofescherichiacolidh10b:insightsintothebiologyofalaboratoryworkhorse

期刊j.bacteriol.190(7),2597-2606(2008)

pubmed18245285

参考文献2(bases1to4686137)

作者plunkett,g.iii.

题目directsubmission

期刊submitted(20-feb-2008)departmentofgeneticsandbiotechnology,

universityofwisconsin,425ghenrymall,madison,wi53706,usa

注释dh10b和dh10b-t1r可购自invitrogencorporation

(http://www.invitrogen.com).

产酸克雷伯氏菌菌株nc_016612的参照序列(http://www.genomejp/dbget-bin/www_bget?refseq+nc_016612)

locusnc_0166125974109bpdnacircularcon07-feb-2015

定义产酸克雷伯氏菌kctc1686,完整基因组.

登录号nc_016612

版本nc_016612.1gi:375256816

dblinkbioproject:prjna224116

biosample:samn02603580

assembly:gcf_000240325.1

关键字refseq.

来源产酸克雷伯氏菌kctc1686

生物体产酸克雷伯氏菌kctc1686

细菌;变形菌门;丙型变形菌纲;肠杆菌目;肠杆菌科;克雷白氏杆菌属.

参考文献1(碱基1至5974109)

作者shin,s.h.,kim,s.,kim,j.y.,lee,s.,um,y.,oh,m.k.,kim,y.r.,lee,j.andyang,k.s.

题目completegenomesequenceofklebsiellaoxytocakctc1686,usedinproductionof2,3-butanediol

期刊j.bacteriol.194(9),2371-2372(2012)

pubmed22493189

参考文献2(碱基1至5974109)

作者shin,s.h.,kim,s.,kim,j.y.,yang,k.-s.andseo,j.-s.

题目directsubmission

期刊submitted(21-dec-2011)lifescienceinstitute,macrogeninc.,10f,worldmeridiancenter,60-24,gasan-dong,kumchun-gu,seoul153-781,republicofkorea

肺炎克雷伯氏菌菌株nc_009648的参照序列(http://www.genome.jp/dbget-bin/www_bget?refseq+nc_009648)

locusnc_0096485315120bpdnacircularcon07-feb-2015

定义肺炎克雷伯氏菌亚种肺炎链球菌mgh78578,完整序列.

登录号nc_009648

版本nc_009648.1gi:152968582

dblinkbioproject:prjna224116

biosample:samn02603941

assembly:gcf_000016305.1

关键字refseq.

来源肺炎克雷伯氏菌亚种肺炎链球菌mgh78578

生物体肺炎克雷伯氏菌亚种肺炎链球菌mgh78578

细菌;变形菌门;丙型变形菌纲;肠杆菌目;肠杆菌科;克雷白氏杆菌属.

参考文献1(碱基1至5315120)

作者mcclelland,m.,sanderson,e.k.,spieth,j.,clifton,w.s.,latreille,p.,sabo,a.,pepin,k.,bhonagiri,v.,porwollik,s.,ali,j.andwilson,r.k.

consrtmtheklebsiellapneumoniagenomesequencingproject

题目directsubmission

期刊submitted(06-sep-2006)genetics,genomesequencingcenter,4444forestparkparkway,st.louis,mo63108,usa

奇异变形杆菌菌株nc_010554的参照序列(http://www.genome.jp/dbget-bin/www_bget?refseq+nc_010554)

locusnc_0105544063606bpdnacircularcon07-feb-2015

定义奇异变形杆菌菌株hi4320,完整基因组.

登录号nc_010554

版本nc_010554.1gi:197283915

dblinkbioproject:prjna224116

assembly:gcf_000069965.1

关键字refseq;完整基因组.

来源奇异变形杆菌hi4320

生物体奇异变形杆菌hi4320

细菌;变形菌门;丙型变形菌纲;肠杆菌目;肠杆菌科;变形杆菌属.

参考文献1

作者pearson,m.m.,sebaihia,m.,churcher,c.,quail,m.a.,seshasayee,a.s.,luscombe,n.m.,abdellah,z.,arrosmith,c.,atkin,b.,chillingworth,t.,hauser,h.,jagels,k.,moule,s.,mungall,k.,norbertczak,h.,rabbinowitsch,e.,walker,d.,whithead,s.,thomson,n.r.,rather,p.n.,parkhill,j.andmobley,h.l.

题目completegenomesequenceofuropathogenicproteusmirabilis.amasterofbothadherenceandmotility

期刊j.bacteriol.190(11),4027-4037(2008)

pubmed18375554

参考文献2(碱基1至4063606)

作者sebaihia,m.

题目directsubmission

期刊submitted(18-feb-2008)sebaihiam.,sulstonlaboratories,wellcometrustsangerinstitute,wellcometrustgenomecampus,hinxton,cambridge,cb101sa,unitedkingdom

粘质沙雷氏菌菌株nc_020211的参照序列(http://www.genome.jp/dbget-bin/www_bget?refseq+nc_020211)

locusnc_0202115241455bpdnacircularcon07-feb-2015

定义粘质沙雷氏菌ww4,完整基因组.

登录号nc_020211

版本nc_020211.1gi:448239774

dblinkbioproject:prjna224116

biosample:samn02602965

assembly:gcf_000336425.1

关键字refseq.

来源粘质沙雷氏菌ww4

生物体粘质沙雷氏菌ww4

细菌;变形菌门;丙型变形菌纲;肠杆菌目;肠杆菌科;沙雷氏菌属.

参考文献1(碱基1至5241455)

作者kuo,p.a.,kuo,c.h.,lai,y.k.,graumann,p.l.andtu,j.

题目phosphatelimitationinducestheintergenericinhibitionofpseudomonasaeruginosabyserratiamarcescensisolatedfrompapermachines

期刊femsmicrobiol.ecol.84(3),577-587(2013)

pubmed23398522

参考文献2(碱基1至5241455)

作者chung,w.c.,chen,l.l.,lo,w.s.,kuo,p.a.,tu,j.andkuo,c.h.

题目completegenomesequenceofserratiamarcescensww4

期刊genomeannounc1(2),e0012613(2013)

pubmed23558532

评论公开状态:仅在线公开

参考文献3(碱基1至5241455)

作者chung,w.-c.,chen,l.-l.,lo,w.-s.,kuo,p.-a.,tu,j.andkuo,c.-h.

题目directsubmission

期刊submitted(26-nov-2012)instituteofplantandmicrobialbiology,academiasinica,128sec.2,academiard.,taipei115,taiwan

利用bwa0.6.1.20,将样品的原始配对末端测序数据针对各自的泛基因组定位。将得到的sam文件分类,转换为bam文件,并利用picard工具包1.104(http://picard.sourceforge.net/)标记pcr副本。

数据分析

对于染色体模型,分析如下:

使用genomeanalysistoolkit3.1.1(gatk)以召集200种样品组的snp以及插入缺失(参数:-倍性1-glmboth-stand_call_conf30-stand_emit_conf10)。将vcf文件合并为单个文件,并进行snp(qd<2.0||fs>60.0||mq<40.0)以及插入缺失(qd<2.0||fs>200.0)的质量过滤。利用snpeff22对检测的变体进行注释,以预测编码效应。

为了匹配获得的参照基因组中的snp与泛基因组,进行了以下分析:

1.鉴定含有变体的基因(对应的参照基因组的genbank文件的基因条目),即变体的基因组位置必须位于基因起始和终止区间内。含有变体的子序列的起始和终止位置如下确定:起始设定至(变体的基因组位置-250个碱基),并且终止设定至(变体的基因组位置+250个碱基)。如果起始/终止位置超过基因起始/终止,则将它们设定至基因的起始/终止位置。

2.利用blastn将提取的含有变体的子序列针对对应物种的泛基因组比对。

3.过滤blastn结果:只有序列同一性>=80%且对齐>=80%的含有变体的子序列的匹配被保留。

4.对于剩余的匹配的每一个,确定变体在泛基因组基因内的位置。

5.在对应的过滤的vcf文件(即含有分析的变体的vcf(variantcallformat)文件)中寻找这些位置。为了更容易分析,仅考虑了在snp分析中具有最佳p-值的50种snp。仅考虑了能被定位至泛基因组并存在于对应的vcf文件中的变体:它们被编码为二进制变量:0=无参照等位基因,1=参照等位基因,na=丢失。

用w.r.t.eucastmic断点指南(v.4)确定抗性谱。所考虑的样品仅为过滤w.r.t.组装质量和分类分配之后的样品。为了获得优化模型,如下进行决策树分析:

模型:来自r-包rpart的决策树;最大深度=5,其他参数设定至“推动”含有多个特征的更复杂的树;设定的参数影响模型中特征的数量。

对于pg模型,分析如下:

进行重复10次的5-倍交叉验证。在每倍中,通过利用gwas(全基因组关联研究)方法与pca(主成分分析)调整对它们进行排列来选择特征。由交叉验证的最常发生的特征建立最终的模型。为了获得优化模型,如下进行决策树分析:

模型:来自r-包rpart的决策树;最大深度=5,缺省参数,修剪(减小树尺寸以避免过度拟合;设定的参数影响模型中特征的数量。

由于对于一方面仅分析染色体核酸序列和另一方面同时分析染色体和质粒核酸序列采用了不同的方法,数据集的比较在一些情况下实际上是非常困难的,因此只有选择的情况显示在下文中。

不同物种的选择的结果提供在表2至7中。在表格中,列“药物”是指每一示例性分析中使用的各抗生素,列2和3是指仅使用染色体核酸序列的模型,列4和5是指同时考虑染色体和质粒核酸序列的模型(称为“pg模型”)。此外,术语“b_acc”是指平衡精度,术语“特征”是指针对表2至7中的各模型所获得的决策树中使用的不同的snp。

平衡精度由此用于分析数据,因为如在下文中所解释的,其给出更平衡的结果。

平衡精度被定义为灵敏度和特异性的算术平均数=(灵敏度+特异性)/2,其中灵敏度=tp/(tp+fn),且特异性=tn/(tn+fp)。

·tn=真阴性=敏感的且推测为敏感的

·tp=真阳性=抗性的且推测为抗性的

·fn=假阴性=抗性,推测为敏感的

·fp=假阳性=敏感的,推测为抗性

在失衡数据集的情况下,例如如果存在比非抗性样品多得多的抗性样品,或者反之亦然,比精度有较好的表现预期((tp+tn)/(样品数))。在这种情况下,精度可能高,尽管“较小的”类别无法被正确预期,如在以下的示例性数值情况中所看到的-平衡精度较少被数据失衡偏移。

示例性的数值情况:11个样品为抗性的,51个为敏感的,且tp=50,tn=1,fn=1,fp=10。则精度=(50+1)/62=82.26%,且平衡精度为((50/51)+(1/11))/2=53.57%。

如果两种模型具有至少2种独特的变体,两种模型的比较仅显示在随后的表格中。

表2:针对鲍氏不动杆菌的实施例结果

表3:针对大肠杆菌的实施例结果

表4:针对产酸克雷伯氏菌的实施例结果

表5:针对肺炎克雷伯氏菌的实施例结果

表6:针对奇异变形杆菌的实施例结果

表7:针对粘质沙雷氏菌的实施例结果

如从表格中所见的,同时利用来自染色体和质粒的核酸信息,平衡精度-以及因此抗生素抗性的预测-对于针对所有不同的细菌种类的不同测试药物均提高。

注意到表格中用于实现平衡精度中的最佳结果的特征数常改变,这是用于实现这些结果的本文模型中使用的优化方法的结果,并且其不限于实现决策树中的某些可比较的特征数。显而易见的是,尽管特征数的变化在两个方向,即有时在仅利用染色体核酸序列的模型中获得更多的特征数,以及有时在pg模型中获得更多的特征数,这表明对于更高的特征数在任何模型中均没有偏差。此外,对于奇异变形杆菌,药物a/s的数据对于两种模型实际上具有相同的特征数,这表明影响还不依赖于特征数并且可以针对至少两个特征的组合而获得。还应当注意到,在这种情况下,两种模型中的特征也不同。总的来说,当考虑质粒核酸序列时,观察到性能的改善。

继续表格中的结果,它还再次证实,一个以上例如i(为自然数)个变体的组合表现显著比单个变体好。在数据中还观察到,如果选择来自不同基因的变体,预测基因抗性的能力增加。

尽管在第一步中,全部i个变体在理论上能够从同一基因选择,但是当选择的j(也为自然数)个变体来自至少两个不同的基因时,性能增加。此外,如在以上表格中所见的,当突变选自染色体和质粒时,获得改善的结果。

在实施例中,证实了如果使用来自染色体和质粒的所有基因的全部集合,预测细菌抗性的性能进一步增加。通过使用可用的全部基因集合,我们胜过了仅基于细菌染色体的结果,这证明增加质粒信息并将其与染色体基因组合是有助于改善预测细菌抗性的重要步骤。

如同上文所阐述的,显而易见的是,本文描述的信息不仅仅指单个变体(snp)和它们的组合。它也适用于上文提到的较大的结构变异;还有在这种情况下,与来自染色体的单个基因或来自细菌染色体的基因的组合的性能相比,如果在生物信息学分析中包括来自细菌染色体和质粒的基因,则性能会变得更好。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1