类风湿性关节炎的生物标记物及其用途的制作方法

文档序号:11632866阅读:420来源:国知局
类风湿性关节炎的生物标记物及其用途的制造方法与工艺
相关申请的交叉参考无本发明涉及生物医学领域,且特别地涉及用于预测与微生物群有关的疾病,特别是类风湿性关节炎(ra)的风险的生物标记物和方法。
背景技术
:类风湿性关节炎(ra)是影响全球数千万人口的使人衰弱的自身免疫性疾病并增加了患有其心血管和其它全身性并发症的患者的死亡率,但ra的病因仍不清楚。传染性病原体一直与ra有牵连。然而,ra相关的病原体的特征和致病性很大程度上是不清楚的,而最近确定人体是寄宿数以万亿计的有益以及有害微生物的超级有机体(super-organism)使问题进一步复杂化。尽管使用疾病缓解性抗风湿药(dmard)成功减轻了许多ra患者的状态,但是对触发或促进疾病的因素的不充分认识阻碍了开发特异性和更有效的治疗方法。对微生物的调查研究也揭示了预防或减轻ra的益生菌。认为在关节炎症发病前ra在某些其它身体部位发起并潜伏了数年。肠道微生物群是人类健康的关键环境因素,在肥胖、糖尿病、结肠癌等中具有确定的作用。除了在营养和异生物代谢方面起作用外,末端肠道中的微生物还与神经-免疫-内分泌系统和血流相互作用以影响整个人体。肠微生物群与给定个体稳定相关,增加了其在疾病相关研究中的价值。人群中肠道微生物群的异质性表明,疾病的治疗应该根据肠道微生物群个体化,其在药物激活或失活、免疫调节等中的作用很大程度上仍然不清楚。与道微生物群相比,口腔微生物群相对地处于研究中,其中人类微生物群计划(hmp)仅采集了约100名健康个体用于wgs(humanmicrobiomeprojectconsortium.aframeworkforhumanmicrobiomeresearch.nature486,215–21(2012),通过引用并入本文)。尽管事实上牙齿和唾液样本在门诊治疗中比粪便样本更容易获得,但是一直以来缺乏对口腔微生物群在疾病中作用的宏基因组分析粪便。还未知的是口腔和肠道微生物疾病标记物在它们的特性或功能方面一致到何种程度。技术实现要素:本公开的实施方式旨在至少在一定程度上解决现有技术中存在的问题的至少之一。本发明是基于本发明人的以下发现:肠道微生物的评估和表征已经成为包括类风湿性关节炎(ra)的人类疾病的主要研究领域。为了对ra患者的肠道微生物内容物进行分析,本发明人基于对来自212个个体的微生物dna进行深度鸟枪法测序进行了宏基因组关联分析(metagenome-wideassociationstudy,mgwas)(qin,j.等人.ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes.nature490,55–60(2012),通过引用并入本文)的方案。本发明人基于ra-相关的基因标记物通过随机森林模型鉴定出并证实了肠道/牙齿/唾液标记物组(29个肠道mlg\28个牙齿mlg\19个唾液mlg)。为了基于这些29个肠道mlg\28个牙齿mlg\19个唾液mlg直观地评估ra疾病的风险,本发明人基于训练集中的mlg标记物的相对丰度谱通过随机森林模型分别计算了疾病的概率。本发明人的数据提供了对与ra风险相关的肠道/牙齿/唾液宏基因组的特征的深入理解,对将来研究肠道/牙齿/唾液宏基因组在其它相关疾病中的病理生理学作用提供了范例,以及提供了基于微生物群的用于评估个体有风险患有这种疾病的方法的潜在用途。据认为,由于以下原因,ra-相关的肠道微生物群(29个肠道mlg\28个牙齿mlg\19个唾液mlg)对在早期阶段增加ra检测是有价值的。第一,本发明的标记物具有特异性和灵敏性。第二,粪便的分析保证准确性、安全性、可负担性和患者依从性。并且粪便的样本是可运输的。基于聚合酶链反应(pcr)的试验舒适且无创,所以人们会更容易参与给定的筛选程序。第三,本发明的标记物还可以用作用于对ra患者进行治疗监测的工具以检测对治疗的响应。一方面,提供了用于预测受试者与微生物群有关的疾病的生物标记物组,且根据本公开的实施方式,该生物标记物组由肠道生物标记物、牙齿生物标记物、唾液生物标记物或具有包括seqidno:1至9319的至少部分序列的基因组dna的微生物组成,其中肠道生物标记物包括齿双歧杆菌(bifidobacteriumdentium)、ra-2633、肠球菌属(enterococcussp.)、ra-781、gordonibacterpamelaeae、ra-3396、ra-6638、ra-2441、ra-527、梭状芽孢杆菌属(clostridiumsp.)、ra-2637、柠檬酸杆菌属(citrobactersp.)、真杆菌属(eubacteriumsp.)、柠檬酸杆菌属、ra-3215、con-1722、con-4360、con-4212、con-1261、两歧双歧杆菌(bifidobacteriumbifidum)、肺炎克雷伯菌(klebsiellapneumoniae)、con-1423、韦荣氏球菌属(veillonellasp.)、con-4095、con-4103、con-1735、con-1710、con-1832、con-1170,牙齿生物标记物包括ra-10848、ra-9842、ra-9941、ra-9938、ra-10684、ra-9998、con-7913、con-20702、con-11、con-8169、con-1708、con-7847、con-5233、con-791、con-5566、con-4455、con-13169、con-6088、con-5554、con-14781、con-2466、con-483、con-2562、con-4701、con-4824、con-5030、con-757、con-530,以及唾液生物标记物包括ra-27683、ra-9651、ra-13621、ra-27616、con-6908、con-305、con-1559、con-1374、con-6746、直肠弯曲杆菌(campylobacterrectus)、con-1141、con-20、链球菌属(streptococcussp.)、con-1238、con-1073、con-636、con-1、牙龈卟啉单胞菌(porphyromonasgingivalis)、乳球菌属(lactococcussp.),或者基因组dna包含seqidno:1至9319的至少部分序列的微生物。可选地,生物标记物组由列于表2-2中的种属中的至少一种种属组成,优选地由至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少100%的列于表2-2中的种属组成。根据本公开的实施方式,肠道生物标记物包括如表5中所述的seqidno:1至9319的至少部分序列。根据本公开的实施方式,肠道生物标记物包括齿双歧杆菌jcvihmp022、普氏菌cb7(prevotellacopricb7)、dsm18205、屎肠球菌e980(enterococcusfaeciume980)、卵形瘤胃球菌a2-162(ruminococcusobeuma2-162)、gordonibacterpamelaeae7-10-1-bt、dsm19378、布氏瘤胃球菌l2-63(ruminococcusbromiil2-63)、凸腹真杆菌atcc27560(eubacteriumventriosumatcc27560)、产酸克雷伯菌kctc1686(klebsiellaoxytocakctc1686)、clostridiumasparagiformedsm15981、普氏菌cb7(prevotellacopricb7)、dsm18205、弗氏柠檬酸杆菌4_7_47cfaa(citrobacterfreundii4_7_47cfaa)、真杆菌属3_1_31(eubacteriumsp.3_1_31)、柠檬酸杆菌属30_2(citrobactersp.30_2)、梭状芽孢杆菌属7_2_43faa(clostridiumsp.7_2_43faa)、罗氏弧菌m50/1(roseburiaintestinalism50/1)、dialisterinvisusdsm15470、bacteroidesplebeiusm12、dsm17135、两歧双歧杆菌s17(bifidobacteriumbifidums17)、肺炎克雷伯菌ntuh-k2044(klebsiellapneumoniaentuh-k2044)、韦荣氏球菌属口腔分类群158f0412(veillonellasp.oraltaxon158f0412)、睾丸酮丛毛单胞菌kf-1(comamonastestosteronikf-1)、肺炎克雷伯菌ntuh-k2044(klebsiellapneumoniaentuh-k2044)、非典型韦荣球菌acs-134-v-col7a(veillonellaatypicaacs-134-v-col7a)、澳大利亚链球菌atcc700641(streptococcusaustralisatcc700641)、parabacteroidesmerdaeatcc43184,牙齿生物标记物包括放线菌属口腔分类群180f0310(actinomycessp.oraltaxon180f0310)、粘滑罗斯菌dy-18(rothiamucilaginosady-18)、actinomycesgraevenitziic83、龋齿放线菌atcc17982(actinomycesodontolyticusatcc17982)、非典型韦荣球菌acs-134-v-col7a(veillonellaatypicaacs-134-v-col7a)、放线菌属f0384(actinomycessp.f0384)、放线菌属口腔分类群848f0332(actinomycessp.oraltaxon848f0332)、粘膜奈瑟菌m26(neisseriamucosam26)、atcc25996、放线菌属口腔分类群448f0400(actinomycessp.oraltaxon448f0400)、福赛斯坦纳菌atcc43037(tannerellaforsythensisatcc43037)、放线菌属口腔分类群448f0400(actinomycessp.oraltaxon448f0400)、杆状奈瑟菌atccbaa-1200(neisseriabacilliformisatccbaa-1200)、互养菌门细菌sgp1(synergistetesbacteriumsgp1)、奇异口动菌atcc51599(lautropiamirabilisatcc51599)、牙龈二氧化碳嗜纤维菌atcc33624(capnocytophagagingivalisatcc33624)、人心杆菌atcc15826(cardiobacteriumhominisatcc15826)、牙龈二氧化碳嗜纤维菌atcc33624(capnocytophagagingivalisatcc33624)、奇异口动菌atcc51599(lautropiamirabilisatcc51599)、懒惰约翰森菌atcc51276(johnsonellaignavaatcc51276)、费氏丙酸杆菌谢氏cirm-bia1(propionibacteriumfreudenreichiishermaniicirm-bia1)、齿垢密螺旋体atcc35405(treponemadenticolaatcc35405)、梭杆菌属口腔分类群370f0437(fusobacteriumsp.oraltaxon370f0437)、奇异口动菌atcc51599(lautropiamirabilisatcc51599)、侵蚀艾肯菌atcc23834(eikenellacorrodensatcc23834)、有害新月形单胞菌atcc43541(selenomonasnoxiaatcc43541)、利氏卟啉单胞菌dsm23370(porphyromonasleviidsm23370)、bulleidiaextructaw1219,唾液生物标记物包括溶血孪生球菌atcc10379(gemellahaemolysansatcc10379)、非典型韦荣球菌acs-049-v-sch6(veillonellaatypicaacs-049-v-sch6)、龋齿放线菌atcc17982(actinomycesodontolyticusatcc17982)、龋齿放线菌atcc17982(actinomycesodontolyticusatcc17982)、齿垢密螺旋体atcc35405(treponemadenticolaatcc35405)、放线菌属口腔分类群448f0400(actinomycessp.oraltaxon448f0400)、文氏密螺旋体atcc35580(treponemavincentiiatcc35580)、澳大利亚链球菌atcc700641(streptococcusaustralisatcc700641)、直肠弯曲杆菌rm3267(campylobacterrectusrm3267)、ccug20446、放线菌属口腔分类群171f0337(actinomycessp.oraltaxon171f0337)、齿垢密螺旋体atcc35405(treponemadenticolaatcc35405)、血链球菌vmc66(streptococcussanguinisvmc66)、放线菌属口腔分类群448f0400(actinomycessp.oraltaxon448f0400)、放线菌属口腔分类群448f0400(actinomycessp.oraltaxon448f0400)、杆状奈瑟菌atccbaa-1200(neisseriabacilliformisatccbaa-1200)、鼻疽伯克霍尔德氏菌prl-20(burkholderiamalleiprl-20)、牙龈卟啉单胞菌tdc60(porphyromonasgingivalistdc60)、乳酸乳球菌乳亚种kf147(lactococcuslactislactiskf147)。在本公开的另一方面,提供了用于预测受试者与微生物群有关的疾病的生物标记物组,根据本公开的实施方式,该生物标记物组由肠道生物标记物、牙齿生物标记物和唾液标记物组成,其中肠道生物标记物包括seqidno:1至9319的至少部分序列。根据本公开的实施方式,疾病为类风湿性关节炎或相关疾病。在本公开的另一方面,提供了用于确定上述基因标记物组的试剂盒,包括用于pcr扩增和根据如下列出的dna序列设计的引物:肠道生物标记物包括seqidno:1至9319的至少部分序列。在本公开的另一方面,提供了用于确定上述基因标记物组的试剂盒,包括一种以上根据如下所列出的基因设计的探针:肠道生物标记物包括seqidno:1至9319的至少部分序列。在本公开的另一方面,提供了上述基因标记物组用于预测待测受试者类风湿性关节炎或相关疾病的风险的用途,包括:(1)从待测受试者中采集样本;(2)确定步骤(1)中获得的样本中根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物的相对丰度信息;(3)通过采用多元统计模型将待测受试者的各个生物标记物的相对丰度信息与训练数据集进行比较获得类风湿性关节炎的概率,其中类风湿性关节炎的概率大于阈值表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。根据本公开的实施方式,训练数据集是采用多元统计模型基于多个患有类风湿性关节炎的受试者和多个正常受试者的各个生物标记物的相对丰度信息构建的,可选地,多元统计模型为随机森林模型。根据本公开的实施方式,训练数据集为矩阵,其中各行表示根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物,各列表示样本,各个单元表示样本中的生物标记物的相对丰度谱,且样本疾病状态为向量,其中1表示类风湿性关节炎且0表示对照。根据本公开的实施方式,齿双歧杆菌、ra-2633、肠球菌属、ra-781、gordonibacterpamelaeae、ra-3396、ra-6638、ra-2441、ra-527、梭状芽孢杆菌属、ra-2637、柠檬酸杆菌属、真杆菌属、柠檬酸杆菌属、ra-3215、con-1722、con-4360、con-4212、con-1261、两歧双歧杆菌、肺炎克雷伯菌、con-1423、韦荣氏球菌属、con-4095、con-4103、con-1735、con-1710、con-1832和con-1170中的每一个的相对丰度信息,例如齿双歧杆菌jcvihmp022、普氏菌cb7、dsm18205、屎肠球菌e980、卵形瘤胃球菌a2-162、gordonibacterpamelaeae7-10-1-bt、dsm19378、布氏瘤胃球菌l2-63、凸腹真杆菌atcc27560、产酸克雷伯菌kctc1686、clostridiumasparagiformedsm15981、普氏菌cb7、dsm18205、弗氏柠檬酸杆菌4_7_47cfaa、真杆菌属3_1_31、柠檬酸杆菌属30_2、梭状芽孢杆菌属7_2_43faa、罗氏弧菌m50/1、dialisterinvisusdsm15470、bacteroidesplebeiusm12、dsm17135、两歧双歧杆菌s17、肺炎克雷伯菌ntuh-k2044、韦荣氏球菌属口腔分类群158f0412、睾丸酮丛毛单胞菌kf-1、肺炎克雷伯菌ntuh-k2044、非典型韦荣球菌acs-134-v-col7a、澳大利亚链球菌atcc700641、parabacteroidesmerdaeatcc43184的相对丰度信息是根据seqidno:1至9319的相对丰度信息获得的。根据本公开的实施方式,训练数据集为表8-1和表8-2的至少之一,且类风湿性关节炎的概率为至少0.5表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。在本公开的另一方面,提供了上述基因标记物在制备用于预测待测受试者类风湿性关节炎或相关疾病的风险的试剂盒的用途,包括:(1)从待测受试者中采集样本;(2)确定步骤(1)中获得的样本中根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物的相对丰度信息;(3)通过采用多元统计模型将待测受试者的各个生物标记物的相对丰度信息与训练数据集进行比较获得类风湿性关节炎的概率,其中类风湿性关节炎的概率大于阈值表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。根据本公开的实施方式,训练数据集是采用多元统计模型基于多个患有类风湿性关节炎的受试者和多个正常受试者的各个生物标记物的相对丰度信息构建的,可选地,多元统计模型为随机森林模型。根据本公开的实施方式,训练数据集为矩阵,其中各行表示根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物,各列表示样本,各个单元表示样本中的生物标记物的相对丰度谱,且样本疾病状态为向量,其中1表示类风湿性关节炎且0表示对照。根据本公开的实施方式,齿双歧杆菌、ra-2633、肠球菌属、ra-781、gordonibacterpamelaeae、ra-3396、ra-6638、ra-2441、ra-527、梭状芽孢杆菌属、ra-2637、柠檬酸杆菌属、真杆菌属、柠檬酸杆菌属、ra-3215、con-1722、con-4360、con-4212、con-1261、两歧双歧杆菌、肺炎克雷伯菌、con-1423、韦荣氏球菌属、con-4095、con-4103、con-1735、con-1710、con-1832和con-1170中的每一个的相对丰度信息,例如齿双歧杆菌jcvihmp022、普氏菌cb7、dsm18205、屎肠球菌e980、卵形瘤胃球菌a2-162、gordonibacterpamelaeae7-10-1-bt、dsm19378、布氏瘤胃球菌l2-63、凸腹真杆菌atcc27560、产酸克雷伯菌kctc1686、clostridiumasparagiformedsm15981、普氏菌cb7、dsm18205、弗氏柠檬酸杆菌4_7_47cfaa、真杆菌属3_1_31、柠檬酸杆菌属30_2、梭状芽孢杆菌属7_2_43faa、罗氏弧菌m50/1、dialisterinvisusdsm15470、bacteroidesplebeiusm12、dsm17135、两歧双歧杆菌s17、肺炎克雷伯菌ntuh-k2044、韦荣氏球菌属口腔分类群158f0412、睾丸酮丛毛单胞菌kf-1、肺炎克雷伯菌ntuh-k2044、非典型韦荣球菌acs-134-v-col7a、澳大利亚链球菌atcc700641、parabacteroidesmerdaeatcc43184的相对丰度信息是根据seqidno:1至9319的相对丰度信息获得的。根据本公开的实施方式,训练数据集为表8-1和表8-2的至少之一,且类风湿性关节炎的概率为至少0.5表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。在本公开的另一方面,提供了诊断受试者是否具有与微生物群有关的异常状态或者有风险发展与微生物群有关的异常状态的方法,包括:确定来自受试者的样本中的上述生物标记物的相对丰度,和基于该相对丰度确定受试者是否具有与微生物群有关的异常状态或者有风险发展与微生物群有关的异常状态。根据本公开的实施方式,该方法包括:(1)从待测受试者中采集样本;(2)确定步骤(1)中获得的样本中根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物的相对丰度信息;(3)通过采用多元统计模型将待测受试者的各个生物标记物的相对丰度信息与训练数据集进行比较获得类风湿性关节炎的概率,其中类风湿性关节炎的概率大于阈值表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。根据本公开的实施方式,训练数据集是采用多元统计模型基于多个患有类风湿性关节炎的受试者和多个正常受试者的各个生物标记物的相对丰度信息构建的,可选地,多元统计模型为随机森林模型。根据本公开的实施方式,训练数据集为矩阵,其中各行表示根据权利要求1至5中任一项所述的生物标记物组的各个生物标记物,各列表示样本,各个单元表示样本中的生物标记物的相对丰度谱,且样本疾病状态为向量,其中1表示类风湿性关节炎且0表示对照。根据本公开的实施方式,齿双歧杆菌、ra-2633、肠球菌属、ra-781、gordonibacterpamelaeae、ra-3396、ra-6638、ra-2441、ra-527、梭状芽孢杆菌属、ra-2637、柠檬酸杆菌属、真杆菌属、柠檬酸杆菌属、ra-3215、con-1722、con-4360、con-4212、con-1261、两歧双歧杆菌、肺炎克雷伯菌、con-1423、韦荣氏球菌属、con-4095、con-4103、con-1735、con-1710、con-1832和con-1170中的每一个的相对丰度信息,例如齿双歧杆菌jcvihmp022、普氏菌cb7、dsm18205、屎肠球菌e980、卵形瘤胃球菌a2-162、gordonibacterpamelaeae7-10-1-bt、dsm19378、布氏瘤胃球菌l2-63、凸腹真杆菌atcc27560、产酸克雷伯菌kctc1686、clostridiumasparagiformedsm15981、普氏菌cb7、dsm18205、弗氏柠檬酸杆菌4_7_47cfaa、真杆菌属3_1_31、柠檬酸杆菌属30_2、梭状芽孢杆菌属7_2_43faa、罗氏弧菌m50/1、dialisterinvisusdsm15470、bacteroidesplebeiusm12、dsm17135、两歧双歧杆菌s17、肺炎克雷伯菌ntuh-k2044、韦荣氏球菌属口腔分类群158f0412、睾丸酮丛毛单胞菌kf-1、肺炎克雷伯菌ntuh-k2044、非典型韦荣球菌acs-134-v-col7a、澳大利亚链球菌atcc700641、parabacteroidesmerdaeatcc43184的相对丰度信息是根据seqidno:1至9319的相对丰度信息获得的。根据本公开的实施方式,训练数据集为表8-1和表8-2的至少之一,且类风湿性关节炎的概率为至少0.5表明待测受试者患有类风湿性关节炎或相关疾病或者有风险发展类风湿性关节炎或相关疾病。附图说明本公开的这些和其它的方面和优点从以下结合附图的描述中将变得明显和更容易理解,其中:图1肠道或口腔mlg允许从健康对照中分类ra患者。(a,d,f)由未治疗的ra病例和无关的正常对照组成的粪便(a)、牙齿(d)和唾液(f)的训练集的roc曲线(对于粪便、牙齿和唾液样本,分别为n=157,100,94)。圆点标记了最佳阈值概率的假阳性率和真阳性率。(b)对由彼此具有血缘关系或不具有血缘关系的17个对照和17个ra病例组成的粪便测试集进行分类。(c,e,g)对dmard治疗后的粪便(c)、牙齿(e)和唾液(g)的ra样本进行分类(对于粪便、牙齿和唾液样本,分别为n=40,38,24)。根据欧洲抗风湿联盟(eular)标准,das28<2.6表明症状缓解。所有样本的分类结果列于表12。具体实施方式实施例本文所使用的术语具有本发明相关领域的普通技术人员通常理解的含义。术语,如“一”、“一个”和“该”并非旨在仅指单数实体,而是包含采用具体实施方式来说明的一般类别。除了如在权利要求中概述的之外,本文中的术语用于描述本发明的具体实施方式,但是它们的用法不限制本发明。实施方式实施例1.鉴别和验证用于评估类风湿性关节炎风险的生物标记物1.材料和方法1.1样本采集和dna提取本发明人采集了一共212名个体的粪便样本(表1-1,粪便样本、牙菌斑样本和唾液样本),包含训练集(n=157,77未治疗的ra病例和80名健康对照)和测试集(对于相关病例-对照对,n=34,即8个有血缘关系的病例-对照对和9个不具有血缘关系的病例-对照对;对于dmard-治疗的ra患者,n=21)。粪便样本是在北京协和医院采集,冷冻运输并如前所述在bgi-深圳(深圳华大基因)进行提取(qin,j.等人.ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes.nature490,55–60(2012),通过引用并入本文)。牙菌斑是用眼科镊子从牙齿表面刮取的直到具有3μl的体积。将样本转移至200μl含有10mmtris、1mmedta、0.5%吐温20和200μg/ml蛋白酶k(fermentas)的1×裂解缓冲液并在55℃下孵育2小时。在95℃下孵育10分钟终止裂解,并在运输前将样本冷冻在-80℃。按照针对粪便样本的方案进行dna提取。对于唾液,将100μl唾液加入到100μl的2×裂解缓冲液中,擦拭后咽壁并加入到同一试管中,然后如牙齿样本一样对样品进行裂解和提取。根据2010acr/eular分类标准在北京协和医院对ra进行诊断。根据标准程序,在受试者到医院初诊时采集所有表型信息。招募18至65岁之间,疾病持续时间至少6周,至少1处关节肿胀和3处关节压痛的ra患者。如果患者具有慢性严重感染史、任何当前感染或任何类型的癌症,则将他们排除在外。将孕妇或哺乳期妇女排除在外。告知所有患者具有不孕的风险并将想要孩子的患者排除在外。尽管一些患者已经患ra多年,但他们是未用dmard的,因为他们在就诊北京协和医院之前没有在当地医院被诊断患有ra,而且他们仅服用止痛药来缓解ra症状。根据标准程序,在受试者到医院初诊时采集所有表型信息。212个用于肠道微生物基因目录构建的样本中仅有21个来自dmard-治疗的患者的粪便样本且在这篇文章中没有进行分析。这项研究得到了北京协和医院和深圳华大基因的机构审查委员会的批准。表1-1.用于基因目录构建的样本1.2宏基因组测序和组装如前所述(qin等人.2012,supra),在illumina平台上进行双末端宏基因组测序(插入片段350bp,序列长度100bp),对测序读段进行质量控制并采用soapdenovov2.04将测序读段重新组装成重叠群(luo,r.等人.soapdenovo2:anempiricallyimprovedmemory-efficientshort-readdenovoassembler.gigascience1,18(2012).,通过引用并入本文)。宿主污染的平均率对粪便样本来说为0.37%,对牙齿样本来说为5.55%,对唾液样本为40.85%。1.3基因目录构建利用genemarkv2.7d对经过组装的重叠群的基因进行预测。采用blat(kent,w.j.blat--theblast-likealignmenttool.genomeres.12,656–64(2002),通过引用并入本文)以90%重叠和95%同一性(不允许洞的存在)的阈值去除冗余基因,对于212个粪便样本(含有21个dmard-治疗的样本)形成3,800,011个基因的非冗余基因目录,对于203个口腔样品(105个牙菌斑样本和98个唾液样本)形成3,234,997个基因的目录。利用blat(95%的同一性,90%重叠)将来自粪便样本的基因目录并入已有的包含430万个基因的肠道微生物参考目录中(qin等人.2012,supra),形成包含590万个基因的最终目录。采用与出版的t2d论文(qin等人,2012,同上)中相同的程序通过将高质量测序读段与肠道或口腔参考基因目录进行比对来确定基因的相对丰度。1.4分类注释和丰度计算利用先前详述的内部流程(pipeline)(qin等人,2012,同上)根据img数据库(v400)对预测基因进行分类分配,70%重叠和65%同一性分配至门,85%同一性分配至属,95%同一性分配至种。从分类群基因的相对丰度计算分类群的相对丰度。通过wilcoxon秩和检验(其中p<0.05)确定患者和健康对照之间分类群的相对丰度的显著差异。1.5宏基因组关联分析(mgwas)对于粪便微生物群的病例-对照比较,去除在少于6个样本(n=157)中检测到的基因导致具有3,110,085个基因的集。83,858个基因在对照和病例之间在相对丰度方面显示出差异(p<0.01,wilcoxon秩和检验,fdr=0.3285)。根据这些标记物基因在所有样本中的丰度变化将它们聚类成mlg(qin等人,2012,同上)。对于构建牙齿mlg,从2,247,835个基因(存在于至少6个样本中,n=105)中选择209820个标记物基因(p<0.01,wilcoxon秩和检验,fdr=0.072)。对于唾液mlg,本发明人从2,404,726个基因(存在于至少6个样本中,n=98)中选择206399个标记物基因(p<0.01,wilcoxon秩和检验,fdr=0.088)。如先前所述(qin等人,2012,同上),根据分类学和它们的组成基因的相对丰度进行分类分配和丰度分析。简言之,分配到种需要将mlg中的超过90%的基因与种的基因组比对时,具有超过95%的同一性,70%的查询重叠。将mlg分配至属要求其超过80%的基因与基因组比对,其中在dna和蛋白序列中具有85%的同一性。示出与从所有基因计算的与基因组的平均同一性仅用于参考。根据mlg在所有样本中的丰度之间的kendall相关性而不管病例-对照状态将mlg进一步聚类,并且同现网络通过cytoscape3.0.2可视化。1.6基于mlg的分类器利用训练群组(表1-2)的mlg丰度谱对随机森林模型(r.2.14,randomforest4.6-7软件包)(liaw,andy&wiener,matthew.classificationandregressionbyrandomforest,rnews(2002),第2/3期,第18页,通过引用并入本文)进行训练以选择mlg标记物的最佳集。在一个以上测试集上对该模型进行测试并计算预测误差。关于随机森林模型,采用2.14版本的r中打包的“随机森林4.6-7软件包”,输入为训练数据集(即训练样本中选择的mlg的相对丰度谱)、样本疾病状态(训练样本的样本疾病状为向量,1代表ra,0代表对照)和测试集(只是测试集中选择的mlg的相对丰度谱)。然后本发明人采用来自r软件的随机森林软件包的随机森林函数构建分类,并采用预测函数来预测测试集。输出为预测结果(患病概率,阈值为0.5,且如果患病概率≥0.5,则受试者有风险患有ra)。表1-2.训练集的样本信息(选自表1-1中的用于基因目录构建的样本)2.结果基于微生物群的ra患者的鉴定和验证为了进一步说明ra相关的微生物群的诊断或预后价值,本发明人首先基于肠道mlg构建随机森林疾病分类器。采用来自对照和病例的85个肠道mlg标记物(至少100个基因)中的29个肠道mlg标记物的模型给出了训练集(n=157)(图1a、表2-1、表2-2、表5、表8-1、表8-2)中最低的预测误差和接受者操作特征(roc)曲线下面积(auc)为0.977。关于由具有血缘关系的病例-对照对和不具有血缘关系的病例-对照对(n=34,表1-3)组成的测试集,整体错误率为32%(图1b,表11)且auc为0.706。因此,基于肠道mlg的模型对训练集和适用情况下对测试集的效能堪比或超过现有的基于ra血清标记物的分类器的效能(vanderhelm-vanmil,a.h.m.riskestimationinrheumatoidarthritis-frombenchtobedside.nat.rev.rheumatol.(2014).doi:10.1038/nrrheum.2013.215,通过引用并入本文)。类似地,选自171个牙齿mlg(至少100个基因)的28个mlg(表3-1,表3-2,表6,表9-1,表9-2)在训练集中给出0.864的auc(图1d)。选自142个唾液mlg(至少100个基因)的19个mlg(表4-1,表4-2,表7,表10-1,表10-2)给出0.898的auc(图1f)。这些结果表明粪便、牙齿和唾液微生物标记物对诊断ra都非常有用。此外,对经dmard治疗的患者样本(表1-3)测试肠道和牙齿mlg分类器仍然将它们中的大部分鉴定为ra患者,而具有低疾病活性的牙齿样本(das28)更常被归类为健康的(图1c,1e,表12),说明牙齿微生物群如实地表明了dmard治疗的效果。此外,来自经dmard治疗的患者的唾液样本通常被分类为对照,可能是由于dmard对唾液微生物群的直接调节(图1g,表12)。总之,结果表明肠道和口腔mlg可以区分有效和无效治疗并且促进对治疗策略的评估。表1-3测试集的样本信息表5.29个肠道最佳标记物的seqidmlgidseqidno:基因数mlg_id:24411~159159mlg_id:4103160~304145mlg_id:4212305~709405mlg_id:1047710~856147mlg_id:1735857~1536680mlg_id:43601537~1646110mlg_id:17961647~1798152mlg_id:33961799~2071273mlg_id:24722072~2309238mlg_id:12612310~2991682mlg_id:18322992~3093102mlg_id:66383094~3214121mlg_id:17223215~3353139mlg_id:14233354~3455102mlg_id:11703456~3558103mlg_id:32153559~3739181mlg_id:40953740~4381642mlg_id:26374382~4754373mlg_id:9054755~4885131mlg_id:41114886~67431858mlg_id:17106744~6862119mlg_id:26336863~7113251mlg_id:8197114~7425312mlg_id:41587426~7736311mlg_id:5277737~7854118mlg_id:7847855~8048194mlg_id:24738049~8758710mlg_id:7818759~8869111mlg_id:58870~9319450表6.28个牙齿最佳标记物的seqid表7.19个唾液最佳标记物的seqidmlgidseqidno:基因数mlg_id:12381~126126mlg_id:1559127~231105mlg_id:6908232~360129mlg_id:1141361~519159mlg_id:6746520~697178mlg_id:1698~56804983mlg_id:276835681~5851171mlg_id:13745852~6032181mlg_id:136033~84822450mlg_id:10738483~95971115mlg_id:299598~10469872mlg_id:63610470~11246777mlg_id:965111247~11383137mlg_id:30511384~11485102mlg_id:1211486~142282743mlg_id:2014229~162392011mlg_id:283116240~176051366mlg_id:1362117606~18115510mlg_id:2761618116~9319123因此,本发明人给基于ra相关的基因标记物通过随机森林模型已经鉴别出并验证了标记物组(29个肠道mlg\28个牙齿mlg\19个唾液mlg)。并且本发明人已经构建出基于这些ra相关的肠道微生物群来评估ra疾病的风险的ra分类器。尽管已经示出和描述了示例性实施例,但是本领域技术人员应当理解,上述实施例不能被解释为限制本公开,并且可以在不脱离本公开的精神、原理和范围的情况下对实施例进行改变、替换和修改。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1