慢性阻塞性肺病标志基因及其应用的制作方法

文档序号:30651802发布日期:2022-07-06 00:07阅读:141来源:国知局
慢性阻塞性肺病标志基因及其应用的制作方法

1.本发明涉及生物技术领域,具体的,本发明涉及慢性阻塞性肺病标志基因及其应用,更具体的,本发明涉及一种试剂盒、试剂在制备试剂盒中的用途、用于预防或者治疗慢性阻塞性肺病的药物组合物或者食品组合物、确定个体是否患有慢性阻塞性肺病的方法、确定个体是否患有慢性阻塞性肺病的装置、一种装置、一种筛选药物的方法。


背景技术:

2.慢性阻塞性肺病(chronic obstructive pulmonary disecopde,copd)是一种异质性疾病,具有肺部病变,包括慢性支气管炎、气道重塑和损害肺功能的肺气肿。它有许多全身性合并症,例如心血管疾病、结肠炎和骨质疏松症。它是全球第三大死亡原因,主要风险因素是吸入香烟烟雾、空气污染或其他有害颗粒。一些遗传风险因素,包括遗传因素、气道反应性增高、在怀孕期、新生儿期、婴儿期或儿童期由各种原因导致肺发育或生长不良的个体。但炎症和免疫反应等其他因素在发病机制中也很重要。
3.当前的copd治疗方法有限,旨在控制症状和减少恶化。高剂量吸入皮质类固醇被广泛使用,但其功效仅限于减少急性发作频率或与支气管扩张剂联合使用,以改善copd症状。许多患者对类固醇治疗没有反应,而且这些疗法无法改变引发和推动疾病进展的因素,不能逆转组织病变或提高死亡率,并且容易发生严重的呼吸道感染和肺炎。copd时常会出现加重症状,呼吸道中的病毒和细菌与疾病恶化有关。
4.随着人体基因组测序完成及高通量测序技术的高速发展,基因筛查成为慢性阻塞性肺病诊断的方向,对于发现慢性阻塞性肺病潜在人群很有优势。到目前为止,还没有慢性阻塞性肺病患者基因标记物的相关报道。


技术实现要素:

5.本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种商业选择。
6.依据本发明的第一方面,提供一种试剂盒,包括适于检测第一基因集中至少一种基因的试剂,所述第一基因集由以下基因组成:gi_0027904、gi_0036168、gi_0034839和gi_0001854,其中,所述第一基因集中的基因与seq id no:1-4所示的核酸序列一一对应,所述第一基因集中的基因与其对应的seqid no:1-4所示的核酸序列具有不小于90%的同一性。根据本发明具体实施例的试剂盒,可以准确的检测生物样品中是否含有所述第一基因集中的至少一种基因,更进一步地,也可以准确区分或诊断慢性阻塞性肺病患者和健康个体。
7.在本发明的第二方面,本发明提出了试剂在制备试剂盒中的用途,所述试剂适于检测第一基因集中的至少一种基因。根据本发明的实施例,所述试剂盒用于诊断慢性阻塞性肺病或检测慢性阻塞性肺病的治疗效果,所述第一基因集由以下基因组成:gi_0027904、gi_0036168、gi_0034839和gi_0001854,其中,所述第一基因集中的基因与seq id no:1-4所示的核酸序列一一对应,所述第一基因集中的基因与其对应的seq id no:1-4所示的核
酸序列具有不小于90%的同一性。根据本发明具体实施例的试剂制备的试剂盒,可以准确的检测生物样品中是否包含所述第一基因集中的至少一种基因,更进一步地,也可以极准确的区分慢性阻塞性肺病患者和健康个体,由此,可以有效的在早期进行慢性阻塞性肺病诊断,或用于检测治疗过程中慢性阻塞性肺病的变化。
8.在本发明的第三方面,本发明提出了一种用于预防或者治疗慢性阻塞性肺病的药物组合物或者食品组合物。根据本发明的实施例,含有提高所述第二基因集中的至少一种基因丰度的物质,所述第二基因集由以下基因组成:gi_0005030、gi_0011592和gi_0014334,其中,所述第二基因集中的基因与seq id no:5-7所示的核酸序列一一对应,所述第二基因集中的基因与其对应的seq id no:5-7所示的核酸序列具有不小于90%的同一性。根据本发明实施例的慢性阻塞性肺病标志基因中第二基因集的基因可以非侵入性的在早期发现或辅助检测慢性阻塞性肺病,确定个体患有慢性阻塞性肺病的概率高低或者个体处于健康状态的概率高低;同时,提高慢性阻塞性肺病高风险人群或已慢性阻塞性肺病患者肠道内微生物的所述第二基因集中的各种基因的丰度,可以降低患慢性阻塞性肺病的概率或减缓、治愈慢性阻塞性肺病,因此,所述包含提高所述第二基因集中的至少一种基因丰度的药物或者食品组合物能够用于平衡肠道菌群,有效预防或治疗慢性阻塞性肺病。
9.在本发明的第四方面,本发明提出了一种确定个体是否患有慢性阻塞性肺病的方法。根据本发明的实施例,包括:(1)确定所述个体的粪便样本中标志基因的丰度,所述标志基因包括第一基因集和第二基因集中的至少一种基因;(2)将步骤(1)中得到的所述丰度与预定的阈值进行比较,以便确定所述个体是否患有慢性阻塞性肺病;其中,所述第一基因集由以下基因组成:gi_0027904、gi_0036168、 gi_0034839和gi_0001854,其中,所述第一基因集中的基因与seq id no:1-4所示的核酸序列一一对应,所述第一基因集中的基因与其对应的seq id no:1-4所示的核酸序列具有不小于90%的同一性,所述第二基因集由以下基因组成:gi_0005030、gi_0011592和gi_0014334,其中,所述第二基因集中的基因与seq id no:5-7所示的核酸序列一一对应,所述第二基因集中的基因与其对应的seq id no: 5-7所示的核酸序列具有不小于90%的同一性。根据本发明实施例的方法可以依据个体的粪便样本中的所述标志基因的丰度确定个体是否患有慢性阻塞性肺病,所述标志基因是发明人对大量已知状态的粪便样本进行验证,通过差异比较分析各种肠道微生物的基因在慢性阻塞性肺病组和健康组粪便样本中的丰度,而确定下来的。
10.在本发明的第五方面,本发明提出了一种确定个体是否患有慢性阻塞性肺病的装置。根据本发明的实施例,包括:丰度确定单元,用于确定所述个体的粪便样本中标志基因的丰度,所述标志基因包括第一基因集和第二基因集中的至少一种基因;比较单元,用于将所得到的所述丰度与预定的阈值进行比较,以便确定所述个体是否患有慢性阻塞性肺病;其中,所述第一基因集由以下基因组成:gi_0027904、 gi_0036168、gi_0034839和gi_0001854,其中,所述第一基因集中的基因与seq id no:1-4所示的核酸序列一一对应,所述第一基因集中的基因与其对应的seq id no:1-4所示的核酸序列具有不小于 90%的同一性,所述第二基因集由以下基因组成:gi_0005030、gi_0011592和gi_0014334,其中,所述第二基因集中的基因与seq id no:5-7所示的核酸序列一一对应,所述第二基因集中的基因与其对应的seq id no:5-7所示的核酸序列具有不小于90%的同一性。所述标志基因是发明人通过差异比较分析各种肠道基因在慢性阻塞性肺病患者和健康人群的粪便样本中的
丰度并经过分析和大量已知状态的粪便样本的验证而确定下来的,根据本发明实施例的装置可以准确确定个体是否为慢性阻塞性肺病的高风险人群或慢性阻塞性肺病患者。
11.在本发明的第六方面,本发明提出了一种装置。根据本发明的实施例,包括:计算机可读存储介质,其上存储有计算机程序,所述程序用于执行第四方面所述的方法;以及一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。根据本发明实施例的装置可以准确确定个体是否为慢性阻塞性肺病的高风险人群或慢性阻塞性肺病患者。
12.在本发明的第七方面,本发明提出了一种筛选药物的方法。根据本发明的实施例,所述药物用于治疗或者预防慢性阻塞性肺病,所述方法包括:将候选药物施用于受试者,检测施用前后,所述受试者粪便中标志基因的丰度,所述标志基因包括第一基因集和第二基因集中的至少一种基因,其中,满足下列条件至少之一的候选药物适于用于治疗或者预防慢性阻塞性肺病:(1)进行所述施用后,所述第一基因集中的至少一种基因的所述丰度降低;和(2)进行所述施用后,所述第二基因集中的至少一种基因的所述丰度升高;其中,所述第一基因集由以下基因组成:gi_0027904、gi_0036168、gi_0034839和 gi_0001854,其中,所述第一基因集中的基因与seq id no:1-4所示的核酸序列一一对应,所述第一基因集中的基因与其对应的seq id no:1-4所示的核酸序列具有不小于90%的同一性,所述第二基因集由以下基因组成:gi_0005030、gi_0011592和gi_0014334,其中,所述第二基因集中的基因与seq idno:5-7所示的核酸序列一一对应,所述第二基因集中的基因与其对应的seq id no:5-7所示的核酸序列具有不小于90%的同一性。根据本发明实施例的方法可以生产或筛选出降低所述标志基因中第一基因集中各种基因丰度,和/或升高肠道标志基因中第二基因集中的各种基因丰度的药物,对于辅助减轻慢性阻塞性肺病的临床症状具有重要意义。
附图说明
13.本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
14.图1是本发明的实施例中的筛选鉴定慢性阻塞性肺病标志基因的试验分析流程示意图。
15.图2是本发明的实施例中的标志基因作为诊断指标的auc评价结果示意图,其中,specificity表示特异度,即预测为阳性且实际为阳性,真阳性,纵坐标sensitivity表示敏感度,即真阴性:
16.2-a为第一期57个样品数据roc曲线下auc值和置信区间结果图;
17.2-b为第二期20个样品数据roc曲线下auc值和置信区间结果图。
具体实施方式
18.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。需要说明的,本文中所使用的术语“第一”或者“第二”等仅为方便描述,不能理解为指示或暗示相对重要性,也不能理解为之间有先后顺序关系。
19.在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。在本文中,除非另有明确的规定和限定,术语“相连”、“连接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。
20.生物学标志物是从生物学介质中可以检测到的细胞、生物化学或分子改变。生物学介质包括各种体液、组织、细胞、粪便、头发、呼气等。
21.所称的某种基因的丰度指基因组中该基因的拷贝数量,基因丰度高也即这个基因的数量多。例如在肠道微生物群体基因组中该种基因的拷贝数量,可表示为该种基因在该群体中的含量。
22.同一性,本发明,为了比较两个或更多个核苷酸序列,可以通过将[第一序列中与相应位置的核苷酸相同的核苷酸的数目相除]来计算第一序列和第二序列之间的“序列同一性”的百分比。第二个序列中的核苷酸]减去[第一个序列中核苷酸的总数],然后乘以[100%],其中第二个核苷酸序列中每个核苷酸的缺失,插入,取代或添加-相对于第一核苷酸序列-被认为是单个核苷酸(位置)上的差异。
[0023]
或者,可以使用标准设置,使用用于序列比对的已知计算机算法,例如ncbi blast v2.0,计算两个或多个核苷酸序列之间的序列同一性程度。
[0024]
用于确定序列同一性程度的一些其他技术,计算机算法和设置例如在wo 04/037999,ep 0 967 284,ep 1 085 089,wo 00/55318,wo 00/78972,wo 98/49185和gb 2357768-a。
[0025]
需要说明的是,本技术中所述的“标志基因”来自于肠道粪便样本中微生物,其的长度不受特别限制,可以为完整基因,也可以为基因的编码区或非编码区,更进一步地,根据不同的实验目的,可以选择相关的任意长度的核酸片段作为标志基因。
[0026]
根据本发明的一个实施方式提供的一种试剂盒,包括适于检测第一基因集中的至少一个基因的试剂,所述第一基因集由以下基因组成:gi_0027904、gi_0036168、gi_0034839和gi_0001854,其中,所述第一基因集中的基因与seq id no:1-4所示的核酸序列一一对应,所述第一基因集中的基因与其对应的seq id no:1-4所示的核酸序列具有不小于90%的同一性。
[0027]
根据本发明的一个具体的实施方案,所述试剂盒进一步包括适于检测第二基因集中的至少一个基因的试剂,所述第二基因集由以下基因组成:gi_0005030、gi_0011592和gi_0014334,其中,所述第二基因集中的基因与seq id no:5-7所示的核酸序列一一对应,所述第二基因集中的基因与其对应的seqid no:5-7所示的核酸序列具有不小于90%的同一性。
[0028]
根据本发明的具体实施例,所述试剂盒包括适于检测所述第一基因集中全部所述基因的试剂。
[0029]
根据本发明的具体实施例,所述试剂盒包括适于检测所述第二基因集中全部所述基因的试剂。
[0030]
根据本发明的具体实施例,所述标志基因是发明人通过对大量患慢性阻塞性肺病个体和大量健康对照个体的粪便样本中的微生物的丰度的差异比较分析、以及验证,而确定下来的,明确了肠道的微生物的基因中慢性阻塞性肺病相关的标志基因。利用包含检测
所述标志基因的试剂的试剂盒能够准确检测生物样品中是否含有所述的第一、第二基因集中至少一种基因,更进一步地,也可以准确确定个体处于患有慢性阻塞性肺病状态的概率高低或者处于健康状态的概率高低,能够用于非侵入性的早期发现或辅助检测慢性阻塞性肺病。
[0031]
根据本发明的具体实施例,所述适于检测所述第一基因集或第二基因集的试剂不受特别限制,任何可以直接或间接检测所述标志基因的丰度的试剂均包含在本发明的范围内,如:利用pcr技术、高通量测序等方法直接进行检测时使用的试剂,或通过western blot技术检测所述基因对应的蛋白的含量间接获得所述基因丰度时所使用的试剂等。
[0032]
根据本发明提供的试剂在制备试剂盒中的用途,所述试剂适于检测第一基因集中的至少一种基因,所述试剂盒用于诊断慢性阻塞性肺病或者检测慢性阻塞性肺病的治疗效果,所述第一基因集由以下基因组成:gi_0027904、gi_0036168、gi_0034839和gi_0001854,其中,所述第一基因集中的基因与seqid no:1-4所示的核酸序列一一对应,所述第一基因集中的基因与其对应的seq id no:1-4所示的核酸序列具有不小于90%的同一性。
[0033]
根据本发明的具体实施例,所述标志基因是发明人通过对大量患慢性阻塞性肺病个体和大量健康对照个体的粪便样本中的微生物的丰度的差异比较分析、以及验证,而确定下来的,明确了肠道的微生物基因中慢性阻塞性肺病相关的标志基因。利用检测所述标志基因的试剂能够确定个体患有慢性阻塞性肺病的概率高低或者处于健康状态的概率高低,能够用于非侵入性的早期发现或辅助检测慢性阻塞性肺病。
[0034]
根据本发明一些具体的实施例,所述试剂进一步适于检测第二基因集中的至少一种基因,所述第二基因集由以下基因组成:gi_0005030、gi_0011592和gi_0014334,其中,所述第二基因集中的基因与 seq id no:5-7所示的核酸序列一一对应,所述第二基因集中的基因与其对应的seq id no:5-7所示的核酸序列具有不小于90%的同一性。
[0035]
根据本发明的具体实施例,所述适于检测所述第一基因集或第二基因集的试剂不受特别限制,任何可以直接或间接检测所述标志基因的丰度的试剂均包含在本发明的范围内,如:利用pcr技术、高通量测序等方法直接进行检测时使用的试剂,或通过western blot技术检测所述基因对应的蛋白的含量间接获得所述基因丰度时所使用的试剂等。
[0036]
根据本发明提供的一种用于预防或者治疗慢性阻塞性肺病的药物组合物或者食品组合物,含有提高第二基因集中的至少一种基因丰度的物质,所述第二基因集由以下基因组成:gi_0005030、gi_0011592 和gi_0014334,其中,所述第二基因集中的基因与seq id no:5-7所示的核酸序列一一对应,所述第二基因集中的基因与其对应的seq id no:5-7所示的核酸序列具有不小于90%的同一性。
[0037]
上述标志基因是发明人通过差异比较分析各种肠道基因在慢性阻塞性肺病疾病组和健康组的粪便样本中的丰度,以及经过大量已知状态的粪便样本的验证,而确定下来的。所述标志基因中的第二基因集中的基因相较于慢性阻塞性肺病患者群体,在健康群体组中显著富集,所述显著富集是指与在慢性阻塞性肺病患者组中的丰度相比,上述基因在健康组中的丰度均具有统计意义地高于或者明显地、实质性地高于在慢性阻塞性肺病患者组中的丰度;能够使该部分基因丰度提高的物质能够用于治疗慢性阻塞性肺病或者益于慢性阻塞性肺病患者服用,所述物质不受特别限制,能够使其丰度提高的物质包括但不限于治疗慢性阻塞性肺病的药物和有益于治疗或缓解慢性阻塞性肺病的功能性食品。因此,该
实施例提供的能够使所述第二基因集中的基因丰度提高的物质能够用于制备治疗慢性阻塞性肺病的药物和/或用于制备益于治疗或缓解慢性阻塞性肺病的功能性食品、保健药等,所述药物或食品可有效治疗或缓解慢性阻塞性肺病。
[0038]
根据本发明提供的一种确定个体是否患有慢性阻塞性肺病的方法,包括步骤(1)和(2)。
[0039]
(1)确定所述个体的粪便样本中的标志基因的丰度。
[0040]
所述标志基因包括第一基因集和第二基因集中的至少一种基因。其中,所述第一基因集由以下基因组成:gi_0027904、gi_0036168、gi_0034839和gi_0001854,其中,所述第一基因集中的基因与seqid no:1-4所示的核酸序列一一对应,所述第一基因集中的基因与其对应的seq id no:1-4所示的核酸序列具有不小于90%的同一性,所述第二基因集由以下基因组成:gi_0005030、gi_0011592和 gi_0014334,其中,所述第二基因集中的基因与seq id no:5-7所示的核酸序列一一对应,所述第二基因集中的基因与其对应的seq id no:5-7所示的核酸序列具有不小于90%的同一性。
[0041]
根据本发明的一些具体的实施例,步骤(1)进一步包括:获得所述个体的粪便样本中的核酸测序数据;将所述测序数据与参考基因组进行比对;基于所述比对的结果,确定所述标志基因的丰度。
[0042]
根据本发明的具体实施例,在步骤(1)中,按照下列公式确定所述标志基因的丰度: ab(g)=ab(ug)+ab(mg),其中,g表示基因的编号,ab(g)表示基因g的丰度,ab(ug)表示所述测序数据与所述基因g的参考序列唯一比对的读段的丰度,ab(mg)表示所述测序数据与所述基因g 的参考序列非唯一比对读段的丰度;ab(ug)=ug/lg,其中,ug表示所述测序数据中与所述基因g 的参考基因唯一比对的读段数目,lg表示所述基因g的参考基因长度;其中,mg为所述测序数据中与所述基因g的参考基因非唯一比对的读段的数目,i表示所述非唯一比对读段的编号,coi为所述第i读段对应的丰度系数;其中,co
i,g
表示针对所述标志基因g,所述非唯一比对的读段i的丰度系数,n为所述非唯一比对的读段i能够比对的基因的总数,j 表示所述非唯一比对的读段i能够比对的基因的编号。上述丰度确定公式,基于比对结果中的唯一和非唯一比对上组装序列的读段对该组装序列的丰度的贡献情况,充分利用测序数据的同时确定的丰度十分准确。
[0043]
根据本发明的具体实施方案,进行以下以完成该步骤:获得所述个体的粪便样本中的核酸序列的测序数据,所述测序数据包括多个读段;将所述读段比对至所述标志物中的各种基因的基因组,获得比对结果;依据所述比对结果,确定所述标志物中的各种基因的丰度。
[0044]
所述的测序数据通过对样本中的核酸序列进行测序得来,测序依据所选的测序平台的不同,可选择但不限于半导体测序技术平台比如pgm、ion proton、bgiseq-100平台,合成边测序的技术平台,比如illumina公司的hiseq、miseq序列平台以及单分子实时测序平台,比如pacbio序列平台。测序方式可以选择单端测序,也可以选择双末端测序,获得的下
机数据是测读出来的片段,称为读段(reads)。
[0045]
比对可以利用已知比对软件进行,例如soap、bwa和teramap等,在比对过程中,一般对比对参数进行设置,设置一个或者一对读段(reads)最多允许有s个碱基错配(mismatch),例如设置s≤2,若reads中有超过s个碱基发生错配,则视为该reads无法比对到(比对上)该组装片段上。所述的获得的比对结果包含各条读段与各参考基因的比对情况,包括读段是否能够比对上某个或某些基因的参考序列、只唯一比对到一种基因还是比对到多种基因的参考序列、比对到基因组的位置、比对到基因组的唯一位置还是多个位置等信息。
[0046]
reads与参考基因组比对,比对上的可以被分为两部分:a)unique reads(u):唯一比对上一个基因的序列;称这些reads为unique reads。即,如果reads比对上的序列均来自同一基因,定义这些reads 为unique reads;b)multiple reads(m):比对上一个以上基因的序列,定义为multiple reads。即,如果 reads比对上的序列来自至少两种基因,定义这些reads为multiple reads。
[0047]
所述参考基因组指预先确定的该基因的序列,可以是预先获得的待测样本所属或者所包含的生物类别的任意参考模板,例如,目标是待测样本中的基因,参考序列可选择ncbi数据库中的各种基因的参考序列,进一步地,也可以预先配置包含更多参考序列的资源库,例如依据待测样本来源的个体的状态、地域等因素选择或是测定组装出更接近的序列作为参考序列。根据本发明的一个实施例,各种基因的参考基因是由发明人进行构建的。
[0048]
(2)丰度比较,以确定个体是否患有慢性阻塞性肺病。
[0049]
根据本发明的一个实施例,将步骤(1)中得到的所述丰度与预定的阈值进行比较,以便确定所述个体是否患有慢性阻塞性肺病。
[0050]
根据本发明的一些具体实施例,所述阈值为预先设定的。将标志物中的各种基因在对健康个体以及患病个体中的丰度预先测定保存,用以作为设定阈值的依据。所述阈值可以为一数值或者数值范围,基于已知患病或健康状态个体中的标志基因的丰度均值,该基因对应的阈值可以设为该基因丰度均值的 95%的置信区间(confidence interval)。
[0051]
所述的置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”,这个概率被称为置信水平。
[0052]
根据本发明的一些具体实施例,当步骤(1)中确定的标志基因的丰度达到所述患慢性阻塞性肺病丰度阈值,未达到所述不患慢性阻塞性肺病丰度阈值时,确定所述个体患有慢性阻塞性肺病,当(1) 中确定的标志基因的丰度达到不患慢性阻塞性肺病丰度阈值,未达到患慢性阻塞性肺病丰度阈值时,确定所述个体不患慢性阻塞性肺病。
[0053]
需要说明的是,根据目的或要求不同,可能对确定个体状态结果的可信程度有不同的要求,本领域技术人员可以选择不同的显著性水平或阈值。
[0054]
该方法基于检测个体的粪便样本中的标志基因中的各种基因的丰度,分别将检测确定的各种基因的丰度与其阈值进行比较,依据获得的比较结果能够确定个体为慢性阻塞性肺病个体或者为健康个体的概率。为早期发现慢性阻塞性肺病提供一种非侵入性的辅助检测或者辅助干预治疗的方法。
[0055]
以上任一实施例中的利用标志基因确定个体是否患有慢性阻塞性肺病的方法的全部或部分步骤,可以利用包含可拆分的相应单元功能模块的装置/系统来施行,或者将方法程序化、存储于机器可读介质,利用机器运行该可读介质来实现。
[0056]
根据本发明提供的一种确定个体是否患有慢性阻塞性肺病的装置,该装置包括:丰度确定单元,用于确定所述个体的粪便样本中标志基因的丰度,所述标志基因包括第一基因集和第二基因集;比较单元,用于将所得到的所述丰度与预定的阈值进行比较,以便确定所述个体是否患有慢性阻塞性肺病;其中,所述第一基因集由以下基因组成:gi_0027904、gi_0036168、gi_0034839和gi_0001854,其中,所述第一基因集中的基因与seq id no:1-4所示的核酸序列一一对应,所述第一基因集中的基因与其对应的seq id no:1-4所示的核酸序列具有不小于90%的同一性,所述第二基因集由以下基因组成: gi_0005030、gi_0011592和gi_0014334,其中,所述第二基因集中的基因与seq id no:5-7所示的核酸序列一一对应,所述第二基因集中的基因与其对应的seq id no:5-7所示的核酸序列具有不小于 90%的同一性。上述对本发明任一实施例的利用标志基因确定个体是否患有慢性阻塞性肺病的方法的技术特征和优点的描述,同样适用本发明这一方面的装置,在此不再赘述。
[0057]
根据本发明的实施例,所述丰度确定单元适于通过下列步骤确定所述丰度:获得所述个体的粪便样本中的核酸测序数据;将所述测序数据与参考基因组进行比对;基于所述比对的结果,确定所述标志基因的丰度。
[0058]
所述的测序数据通过对样本中的核酸序列进行测序得来,测序依据所选的测序平台的不同,可选择但不限于半导体测序技术平台比如pgm、ion proton、bgiseq-100平台,合成边测序的技术平台,比如illumina公司的hiseq、miseq序列平台以及单分子实时测序平台,比如pacbio序列平台。测序方式可以选择单端测序,也可以选择双末端测序,获得的下机数据是测读出来的片段,称为读段(reads)。
[0059]
比对可以利用已知比对软件进行,例如soap、bwa和teramap等,在比对过程中,一般对比对参数进行设置,设置一个或者一对读段(reads)最多允许有s个碱基错配(mismatch),例如设置s≤2,若reads中有超过s个碱基发生错配,则视为该reads无法比对到(比对上)该组装片段上。所述的获得的比对结果包含各条读段与各参考基因的比对情况,包括读段是否能够比对上某个或某些基因的参考序列、只唯一比对到一种基因还是比对到多种基因的参考序列、比对到基因组的位置、比对到基因组的唯一位置还是多个位置等信息。
[0060]
reads与参考基因组比对,比对上的可以被分为两部分:a)unique reads(u):唯一比对上一个基因的序列;称这些reads为unique reads。即,如果reads比对上的序列均来自同一基因,定义这些reads 为unique reads;b)multiple reads(m):比对上一个以上基因的序列,定义为multiple reads。即,如果 reads比对上的序列来自至少两种基因,定义这些reads为multiple reads。
[0061]
所述参考基因组指预先确定的该基因的序列,可以是预先获得的待测样本所属或者所包含的生物类别的任意参考模板,例如,目标是待测样本中的基因,参考序列可选择ncbi数据库中的各种基因的参考序列,进一步地,也可以预先配置包含更多参考序列的资源库,例如依据待测样本来源的个体的状态、地域等因素选择或是测定组装出更接近的序
列作为参考序列。根据本发明的一个实施例,各种基因的参考基因是由发明人进行构建的。
[0062]
根据本发明的一个实施例,按照下列公式确定所述标志基因的丰度:ab(g)=ab(ug)+ab(mg),其中,g表示基因的编号,ab(g)表示基因g的丰度,ab(ug)表示所述测序数据与所述基因g的参考序列唯一比对的读段的丰度,ab(mg)表示所述测序数据与所述基因g的参考序列非唯一比对读段的丰度;ab(ug)=ug/lg,其中,ug表示所述测序数据中与所述基因g的参考基因唯一比对的读段数目, lg表示所述基因g的参考基因长度;其中,mg为所述测序数据中与所述基因g的参考基因非唯一比对的读段的数目,i表示所述非唯一比对读段的编号,coi为所述第i读段对应的丰度系数;其中,co
i,g
表示针对所述标志基因g,所述非唯一比对的读段i 的丰度系数,n为所述非唯一比对的读段i能够比对的基因的总数,j表示所述非唯一比对的读段i能够比对的基因的编号。上述丰度确定公式,基于比对结果中的唯一和非唯一比对上组装序列的读段对该组装序列的丰度的贡献情况,充分利用测序数据的同时确定的丰度十分准确。上述对本发明任一实施例的利用标志基因确定个体是否患有慢性阻塞性肺病的方法的技术特征和优点的描述,同样适用本发明这一方面的装置,在此不再赘述。
[0063]
根据本发明的又一个实施例提供的一种装置,包括:计算机可读存储介质,其上存储有计算机程序,所述程序用于执行前面所述的一种确定个体是否患有慢性阻塞性肺病方法;以及一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。
[0064]
根据本发明的又一个实施例提供的一种筛选药物的方法,所述药物用于治疗或者预防慢性阻塞性肺病,所述方法包括:将候选药物施用于受试者,检测施用前后,所述受试者粪便中标志基因的丰度,所述标志基因包括第一基因集和第二基因集中的至少一种基因,其中,满足下列条件至少之一的候选药物适于用于治疗或者预防慢性阻塞性肺病:(1)进行所述施用后,所述第一基因集中的至少一种基因的所述丰度降低;和(2)进行所述施用后,所述第二基因集中的至少一种基因的所述丰度升高;其中,所述第一基因集由以下基因组成:gi_0027904、gi_0036168、gi_0034839和gi_0001854,其中,所述第一基因集中的基因与seq id no:1-4所示的核酸序列一一对应,所述第一基因集中的基因与其对应的seq id no:1-4所示的核酸序列具有不小于90%的同一性,所述第二基因集由以下基因组成: gi_0005030、gi_0011592和gi_0014334,其中,所述第二基因集中的基因与seq id no:5-7所示的核酸序列一一对应,所述第二基因集中的基因与其对应的seq id no:5-7所示的核酸序列具有不小于 90%的同一性。
[0065]
利用本发明这一方面的生产或筛选治疗慢性阻塞性肺病的药物的方法,通过合理有效地应用确定的慢性阻塞性肺病标志基因进行筛选,能够获得提高肠道微生物中的有益基因的丰度和/或降低肠道微生物潜在的致病基因的丰度的药物。
[0066]
以下结合具体实施例对本发明的方法和/或装置进行详细的描述。除另有交待,以下实施例中涉及的未特别交待的试剂、序列、软件及仪器,都是常规市售产品。
[0067]
以下实施例包括第一阶段和第二阶段,即对应发现阶段和验证阶段。发现阶段包括:基于分析比较 16个慢性阻塞性肺病患者及13个健康对照组的肠道微生物基因成分及
功能改变,以确定基因标志物;验证阶段包括:利用9个慢性阻塞性肺病患者及6个健康对照组验证第一阶段结果的准确性。
[0068]
实施例1生物标志物的鉴定
[0069]
该示例中,发明人从28个慢性阻塞性肺病患者、29个健康个体的粪便样品开展整个肠道菌群微生物基因的关联分析研究描述粪便微生物群落及功能成分特征。总的来说,发明人通过实验测序得到的 86.6gb高质量健康个体测序数据以及83.3gb高质量慢性阻塞性肺病患者测序数据构建了慢性阻塞性肺病参照基因集,并和homd基因集构建一个更加完整的非冗余基因集。宏基因组分析显示,30个微生物基因与慢性阻塞性肺病疾病密切相关,其中14个基因在健康人的肠道微生物基因集中富集,16个基因在慢性阻塞性肺病病人的肠道微生物基因集中富集。
[0070]
1、测序数据的获取
[0071]
1.1样本收集和dna提取
[0072]
慢性阻塞性肺病患者来自浙江大学医学院附属肺部医院,实验共采集了28个中国慢性阻塞性肺病患者和29个健康人的粪便样品,其中每个个体的新鲜粪便样品分成200mg/份,共5份,立即-80℃冰箱冷冻保存。
[0073]
57个粪便样品中提取总dna。使用qiaamp dna mini kit试剂盒提取dna,具体实验操作按照说明书进行。
[0074]
1.2构建文库及测序,以及参照数据下载
[0075]
dna建库按仪器制造商(illumina)的操作指南进行。对文库进行pe100bp测序。illumina hiseq2000 (illumina,san diego,ca)平台对57个样品的文库进行测序。每个样本平均产生6.43gb(sd.
±
0.21gb) 高质量测序结果,总计334gb测序数据量。
[0076]
参照图1的实验流程,鉴定慢性阻塞性肺病的相关生物标志物,其中省略的步骤或者细节为本领域技术人员所熟知,几个重要步骤介绍如下面步骤所述。
[0077]
2、生物标志物的鉴定
[0078]
2.1测序数据的基本处理
[0079]
测序数据经过质控:获得第一阶段的57个样品的测序数据以后,对其进行过滤,质控按以下标准进行:a)去除低质量碱基(q20)大于50%的reads;b)移除大于5个n碱基的reads;c)移除尾部低质量(q20)和n碱基。丢失成对reads的序列被认为是单条reads用于组装。
[0080]
2.2基因丰度分析
[0081]
利用soapalign 2.21将经过上步骤处理的paired-end clean reads比对(匹配)到非冗余基因集,这里,所称的非冗余基因集来自为利用样本数据及homd基因集构建的非冗余基因序列集。比对参数为

r 2

m 100

x 1000。reads与非冗余基因集进行比对,比对上的可以被分为两部分:a)unique reads(u):唯一比对上基因集的一个基因;称这些reads为unique reads。即,如果reads只比对上基因集某一个基因,定义这些reads为unique reads。b)multiple reads(m):比对上基因集的一个以上的基因,定义为 multiple reads。即,如果reads比对上至少两个不同的基因,定义这些reads为multiple reads。
[0082]
对于基因g,其丰度为ab(g),与特有的u reads和共享的m reads相关,丰度的计算方式如下:
[0083]
ab(g)=ab(ug)+ab(mg),
[0084]
其中,g表示基因的编号,ab(g)表示基因g的丰度,ab(ug)表示所述测序数据与所述基因g的参考序列唯一比对的读段的丰度,ab(mg)表示所述测序数据与所述基因g的参考序列非唯一比对读段的丰度;
[0085]
ab(ug)=ug/lg,
[0086]
其中,ug表示所述测序数据中与所述基因g的参考基因唯一比对的读段数目,lg表示所述基因g 的参考基因长度;
[0087][0088]
其中,mg为所述测序数据中与所述基因g的参考基因非唯一比对的读段的数目,i表示所述非唯一比对读段的编号,coi为所述第i读段对应的丰度系数;
[0089][0090]
其中,co
i,g
表示针对所述标志基因g,所述非唯一比对的读段i的丰度系数,n为所述非唯一比对的读段i能够比对的基因的总数,j表示所述非唯一比对的读段i能够比对的基因的编号。
[0091]
对于这些reads,发明人以加和的n个基因的unique reads的丰度作为标准。即对于multiple reads,发明人把其所比对上的n个基因的unique reads丰度之和作为分母。
[0092]
2.3关联分析/筛选基因标记物
[0093]
为了获得与慢性阻塞性肺病疾病密切相关的肠道微生物基因标记物,发明人利用慢性阻塞性肺病患者组(28例)与健康人组(29例)两组肠道微生物基因丰度数据,在基因级别做了一个与疾病相关性的研究。
[0094]
基于上步骤得到的基因丰度表,发明人设置标准如下:(1)慢性阻塞性肺病患者组或健康人组基因丰度的中位数必须大于0.00001;(2)通过wilcoxon秩和检验进行检验,得到每个基因在慢性阻塞性肺病人和健康人样本间的差异p值;(3)使用一个相对严格的阈值p_values《0.001。然后,发明人得到29个与慢性阻塞性肺病疾病密切相关的肠道微生物基因。其中在慢性阻塞性肺病(c)患者中富集的有15个基因,在健康人(h)中富集的有14个基因。这29个微生物基因标记物如下表1所示。
[0095]
表1
[0096]
[0097][0098]
实施例2基因标记物的验证
[0099]
为了证实实施例1中的分析结果可以用以作为慢性阻塞性肺病基因标志物,进一步比较验证群体中的10个健康人及10个慢性阻塞性肺病患者的基因丰度,并对最终微生物基因标记物根据验证情况做出筛选。验证群体的测序数据的获得与处理,参照实施例1进行。
[0100]
验证结果如下:上述富集在健康人群中的14个基因中,3个在验证集中得到高质量的验证 (p_values《0.05),健康人富集的微生物基因标志物验证的均值和p值情况如下表2所示。
[0101]
表2
[0102]
基因分类(taxonomy)p值富集人群gi_00050300.008170185hgi_00115920.044958096hgi_00143340.040331464h
[0103]
对于上述富集在慢性阻塞性肺病患者中的16个基因,其中4个在验证集中得到高质量的验证 (p_values《0.05),慢性阻塞性肺病患者富集的微生物基因标志物验证的均值和p值情况如下表3所示,分别为gi_0027904、gi_0036168、gi_0034839和gi_0001854。
[0104]
表3
[0105]
[0106][0107]
发明人认为,可以将从健康人富集的3个微生物基因标记物,作为慢性阻塞性肺病疾病患病的反向指标,或作为治疗慢性阻塞性肺病进行研发的微生物制剂药物基因成分,或作为检测慢性阻塞性肺病、监测慢性阻塞性肺病治疗进程的恢复指标;将慢性阻塞性肺病患者富集的4个微生物基因标记物,作为慢性阻塞性肺病疾病患病的正向指标,特别用于慢性阻塞性肺病疾病非创伤式的检测和诊断。
[0108]
发明人利用这7个微生物基因标记物,构建一个综合指标,估计roc(receiver-operatingcharacteristic)曲线下面积auc,auc越大,表示诊断能力越高,评价综合得分对应其对慢性阻塞性肺病的诊断能力。通过对一期(第一阶段)的57个样品和二期(第二阶段)的20个样品进行评测,具体情况如图2所示,都表现出了很好的诊断能力,在一期得到auc=94.4%,如图2-a所示,置信区间为 81.6%-100%;二期得到auc=91.7%,如图2-b所示,置信区间为73.8%-100%。
[0109]
上述基因集中基因的具体信息如下:
[0110]
gi_0027904
[0111]
gcatcgggcggcgtgttccgtgcgggcaaaatgcgcatcgattatgacaagcgccgggta acggtagacggtgcggatgtgcatttgacgcaaacggaatataatatcgtcgcgttgctg tcgcgccatgccgggcgtgtgcttacttacgactttgtgatgcgggagacctggggcccc ggcgttacagggggcagcaatcagattttgcgcgtgaatatggcaaatattcgccgcaag ctggaaaagaaccccgcggagccggaatatatttttacggagcccggcgtcggttaccgg atgctggacggggaaaaggaataa(seq id no:1)。
[0112]
gi_0036168
[0113]
atgaagaaaaaagagatcgtcgatgacgtaaccatgaaacgtgccattacacgtatcact tatgagattattgagcgtaacaaaaatctcgacaagattgtcttggctggtattaagaca cgtggtgtttatattgctcagcgtattcaagagcgcttgaaacagttggaaaaccttgat gtgccattgattgagcttgacactaaagctttccgtgatgatgttaaggctgagcaagac acatctgttttccctattgaaattgatggtacagatgttatccttgtggatgatgtgctt tacacaggtcgtacgattcgtgcagctattgataatatcgttagccatggacgtccggcg cgtgttggtttggctgtcttggttgaccgtggtcaccgtgaattgccaatccgtgcggac tatgttggtaaaaatatcccaactagtgagtcagaagaaatt(seq id no:2)。
[0114]
gi_0034839
[0115]
cgcatcctgctcttccttggcattatatatctggtctcagctgtgctgtcttatatccag ggctttatcatgacaaaagtctctacccagatcagctacggaatgcgcagggatatcagc cagaagatcaaccgcatgcctctggcttattttgaccgtgtacccaacggtgaagtgctc agccgcatcaccaacgacgtggacaccgtgacgcagacactcaaccagagcatgacgcag atcgtcaccagcgtgacgcagtttatcggcgttctggtgatgatgctcaccatcagcccg ctgatgacgctggttgccctgtgcatcctgccgctgagcctcatcatcgtcagcaacgtg gtcaagcgcagccagccctttttccaaaagcagcaggcttatctgggccacgccaacgga cacgtggaggagatgtatggcggtcatctggtggtaacggccttcaacggtgaagaaaaa agcatcaagacgttcaacgaaatcaacgataacctgtataactcggcctggaaaagccag tttctctccggcatgatgatgccgctgatgaac(seq id no:3)。
[0116]
gi_0001854
[0117]
atggcaaaaggttctgtaagaaagaaaggaaaaaagtggtacggacgcttttatattgaa gatgaaagcggcagaaaagtgcagaaagagtttgcaggcacagagagcaaggcggaaaca gaagccatgctccgcaaagcgatagcggactacgaggaaaagcagtttgtcgggaaagcg gaaaacatcacggtaggcgatatgctggatatgtgggtagaggaagaactgaaatccggc aacttaagcaacgggacggtcatgtcctatcagggaacggtcaaccgtatcaagcaatat cccattggcaaacgcaagctgaaaaccgtgaccgccgaccatttgcaggcgttcattgat tttctgagctacggtgggacaaacccggacgggacaacttcaaagcccatgagcaaaggg tatatgctcctgttctcggcggtgctgcaaaattccttccgctttgcggtattcccgaaa aagctgattacctttaaccctatgcagtatgtgaagctgaggggcaggaagcaggaaacg gatattttctcggacagcgaggaagataccgccagtattcctactatcacccatgaacag ttccaaaagctggaggaatttctcaaggcaaaagataatcccgctttgctgcctgtgcag atagcgtactacacggggcttcgtatcggggaagtatgcggcttgacttggcaggatatt aaccttgaggagcaatatctcacggtacgccgcagtatgcgctataacggaacaaggcac acaaccgaagtgggaacgacaaagcggagcaaagtccgcaccgttgatttctgcgacacg ctggcggcaatcctgcgggcggcaagaacagaacagcgcaaaaaccgtttccgctacggg gagctttatcacctgaactactacaaagaagtaaaggaaaaagggcgcacctattatgag gtttacagccggcaaaggacagaggaagtcccggaggactataaggaaatctcctttgtc tgcctgagagcagacggggcgtatgaagcgccgagtacggtagggattatgtgcagggcg gcaaagaagaaagtgaaagggcttgaagatttccattttcacacgctccgtcacacctac acaagcaatctgctgtccggcggcgcaaagccgaaagatgtgcaggaacttctcggacac tctgatgtcagtaccacaatgaacatctacgctcactctacaagggaagcgaagcgtact tccgcaaggctgctggataaggtggtcggcggggaataa(seq id no:4)。
[0118]
gi_0005030
[0119]
atgaaagcaaaacacatagttgtttatttgctactagctattgtttcctcttcatgtatc cgcgaagaagctctcaatgcagaagcagacatattaagttgtatactaccgggagtagcc atgacaaccagtcctattattaacaataattccataactatctttgttggtccgggaact gatatttcagaactcaagcctgaatttacactgactccgggagctgcgatcagtccgctt agcggcacggaacgaaacttcaataccccacaggaatatactgtcacagctgccgatggt gtttggaagaaaatgtataccgtatcagtgatcgacacggaacttgccacgaactataat ttcgaagatacactgggcggaaagaagtactatatatttgtggaacgcgaaggagataag gtcgtcatggaatgggccagcggaaatgcgggttatgccatgaccggagtagctaaaaca gccgatgattatcccactttccaaataacagacggaaaagccggcaaatgcctctcctta gtgacacgcagtaccggattcttcggtcagctagcaggaatgcctattgcggcaggaaat ctgtttatcggctctttcgatgtgaataacgctatgagcaatcctctgaaagcaactaaa ttcggcctccctttccggcatgtacccacttatctggctggttattataaatacaaagca ggagatcagtttacagaaggaggaaaacctgtgaacgggaaacgggatatctgtgacata tatgccatcatgtacgaaaccagcgaatctgttcctactctcgacggaacgaatgcattc accagtccgaacctgatttcaacagcacggattaataatgccaaagaaacgaacgaatgg acttactttaaacttcctttcatcactctccccggaaaattcatagataaggagaagcta agggatgggaaatataatatagccatcgtgttcacctcaagcctggaaggagatcatttt aacggagcaatcggaagtacattactgatcgacgaggcagagttaatctatcgctcggaa aattag(seq id no:5)。
[0120]
gi_0011592
[0121]
atggttgatggtactgtagttaaggaaactaacggtgctcaggaattctacaagtatctt ggcgaccttacaggtcttgatattaagtggattcgtccagaacattctagctactatgat tcagttaagaatgcattcgcttcaggcgatatccctgatgtagttcttcttagttcagat taccttgctaacttcgcatctaacggatatctctgggatatgacagatgcttggaatcag tcagcaactaagaactcaggaagacttatcgatcaggctgagattatcgaat
caggaaat atggtagctggtccagacggagagaaggctctttacggattctcaccagcccgtggtaat ggatgctgtacatacatcaagtcttcagctttaacagctgctggatataagccagaggaa gttgcatctaagacactttcatatgatgagtactacaagatgcttaaggatatgaaagct gcatcagctaaccagaacttcgttatctcttgttcaggtttcgtagctggtggtaactct ggtactccagaagctccatatactaactatcttccagaattctatcagaatgctaacttc acattctactatgatgaagcagctaaggaatacaaggatggattcgctcagcaggatatg aaggatgctcttacaagacttaagacagccgttgatgatggtattcttgataaggcttct cagaaccagacaacatcagatgctcgtaataagtggaacgctaaggatgcttcaacagct tcttcagtattcacatactgggctggtacatgggcttatacacttcagaactctatagct gataagacagataagattatcgctattaagcctattaaggagcttggttcatataaggag cgtcttgctactgcttggtgtattacatacaaggcatatgagaatggtaaggctgaagga atcttcaagtacttcatagatactatgcttgatggtggagatatccagattgcatggcag tatggtgctaagggaactcactgggatgataaggctgagacagttacagtttacaactca aagggtgaggttgatgagaagaagactaagacatatgaagaaggtgtattccacttcctt ccaactccagaagataatacaaagcttatgtctaagaaccacattgataagagcttagct attgctacatttggtgataacacagatccaggtaacaagagcgttgacccacttatcaca gagaactatgcaatgttcaatgctaacagcaagcttgagactccactttggaacacagaa gtacttagcaacaatatctctgatatcaatactaagagacttgaagttgtttcacaggta gttcttggtgagaagacatatgatgaagctatggctgattacaagaagcaggttggtgct aagtgtgatgcagtagtt(seq id no:6)。
[0122]
gi_0014334
[0123]
gaaggcgcatttcctaagtcatctcttccaagtgtgcaggattttgttgatgctattatg ccaagtgtggaagctggcagacctgctattgtatgtacaattacatcatacttctcagga tcttataactcagcctgcacagctaaggacattatattagaagatcatcctgatgctaaa gttacagttattaattcactgcttaattcagcatcattttcactcttcatatatcaggct ctccagatgagaaaagcagggtattcatatgaggatacaatcaaagttcttgaagcttta agaaacgatggccgaataatgtttacaacagaatcacttgaatacttaagtaaaggcgga cgtcttgccaagactgcaattacaatcacaagcaaattaagtctccgtcctatcatcgtt atgaaagaaggagaaatcgggcttggtggatttacacgaacaagaaacaagggtaaatct aatgttattgacatgattcagaaatacatcgaatcaaagggaatgccaattgaaaactgg gatatcactgttggttactgtactaatctggaagaagctgaaaagtacagagatgatgtt gaagcacagcttggtgtgaagcttctcgaaagacgcgaagatttcaagacaagaatcagt attatctctggctgccatacaggcccttacgcattaggaattgcatgcattcctaagtac actactatcagattataa(seq id no:7)。
[0124]
gi_0004253
[0125]
atggcagtatttacagtcaatggacaaaaagtcgaaccgaccggaaatcagaaactactg cgctttttgagggatgaacttcatctgacttcagtgaaggacggctgcagtgaaggagcc tgcggagcctgtacagttataattgacggaaaaacatgcaaggcatgtgtgccggacaca gatttactggatggcaggacagtgatcacagtagaaggactgactgaatgggagagggaa gtctatacctacgcttatggaaaagcaggtgctgttcagtgtggattctgtattccgggt atggtaatgtgtacaaaggctcttctggacgtgaacaaagagcccacagatgatgagatt aaatatgcactgcgcaataactattgccgctgcacgggctatgtaaaaattatggatgca gtaaggctggctgcgaaagttttaaagacgggtgtgatcccggatgatctggatccggac tggaatataggacacagagtatccagagtggatgtggaggagaaagtactgggaaccggc aaatatccggatgatttttactttgacggaatgctgtatggggtggcactcagaagtaaa tatccacgtgcacgtgtacttgagatcgatacagcagcagcaaaggcacttttcggggta gaagcggtattaacagcagaggacattccgggagagaataagatcggacatctgaaacat gatcagtattcactgatacc
tgtagggggtctgacacattatcttggagatgccattgcc gttattgctgcaaaagacagagaaacagctgagaaagctaagaaactgatcaaagtaaaa tatgaagtgctgcctcatattcgtacaattgaggaagcagcggcagaggatgcaccgaag gtatttgatgaagaagaaaataatatctgtgcacataaacatatcagcagaggaaatgca gatgaagcaatccgtaattccaaatatgtgatcagtcatcattttgaaaccccatggaca gaacatgcatttcttgagcctgagtgcgcagtggctttgtatgatgaggacggagatatt ttcgtatattccacagatcagtctgcacaccagacattacatgagtgttccctgttactt ggaacggacagagtaaaggtacagaatgcacttgtaggcggcggattcggcggaaaggaa gatatgacagtacagcatctggctgcgctgctcacttatgctactaagaaaccggtgaag atgaaactgaccagagcagaatccctgctggttcatccgaagcgtcatccgttttatatg gatatgaccatgggctgcgatgagaacggcaacatcatgggggtaaaagcgaaagtagca tcagatacaggtgcatttgcctcacttggcggtcctgtgctggaacgtgcatgtactcat gcggcaggtccctatcattatgagaatttcgagattgaaggaactgcttattataccaac aatccgcctgccggagcgtttcgcgggtttggtgtaacccagacctgttttgcaacagaa accctgctgaatatgatggcagacaaagtaggtatcactccatgggaaatccgttaccgc aatgcgatccgtcccggtgagacgcttccgaatggtcagatcgtagataattccacaggt cttgtggagacactggaagctgtaaagaagaagtatgatgctgccctggaagaaggaaaa ccggtgggaatcggctgcgccatgaagaatgccggtgtcggtgtcggtatcccggataca ggccgcgtgaaactcgtatttgagaaagataaaaagctgcacatctattccggtgcttcc tgtatcggccagggacttggtacagtcctgacacagatggtagtcaccaatacagatctg aagcatgaagatattgtatatgagagaagtaatacctggttcgcaccggattcaggtaca acttccggctccagacagactctggtaacaggagaagcctgccgcagagcctgcgataag gttatggaggaccgcaatgcaggtaagaccattgatgatgtgatcggcaaaatttattat ggggaatatcttgcaaagacagatcctcttggcgcaaatgtgccgaatcctgtttcacat gtagcttacggctatgcgacgcaggtatgtatcctggataagaaaacaggtaagattgag gaaatggttgctgctcatgatgtgggcaaagcagtcaatccactgtcctgtgaaggccag atcgagggcggcgtagtgatgtccataggatttgcactgagagagcgttatccgatcgat gagaactgtaaaccaattgacaagtatggatcgcttggtctgttccgctctcatgagatt ccgaaaatcgatgccatcgttgttgacaaaccgggactgaatgtagcctgtggtgccatt ggaatcggtgagatcacctctatcccaactgcacctgcaattgcagatgcatatttcaga tggaatggtgaaagacagtatagtcttcctctgaccggaacaccatatgaaaggaagtgc tga(seq id no:8)。
[0126]
gi_0005514
[0127]
atgacaaacgaaatgttcaagaaagaggcattcaagaaaagcgtaaaagacaacgtaaaa ttcctctatcgaaaaacaattgaagaagctacacaggagcagattttccaggcagtaagc tacacagttaaggatgttatcattgataactggcttgcaacacagaaagcttacgacgaa caggatccgaagatcgtatactatatgtccatggaattcctgatgggacgtgctctcgga aacaacctgatcaacctttgcgcttacggtgaagtaaaagaagctctcgaagagctggga tttgaccttaactgtatcgaagaccaggagccggatccggcacttggaaacggtggtctg ggaagactggctgcatgcttccttgattctctcgcaactttaaattacgcagcatatggc tgcggaatccgttaccactacggaatgttcaaacagaaaatccagaacggttatcagatc gaggtaccggataactggttaaagaacggctatccattcgaactgcgtcgtccggaatat gccaaagaagtacactttggcggatttgtaagagtagaatacgatcctgaaaaaggtgga aataaatttatccatgaaggatatcaggcagtaaaagccattccttatgatatgccgatc acaggctatgacaacgatgtagtaaatacacttcgtatctgggatgcagaaccaatcgta gacttcgagttggattcctttgacaaaggtgattacaagaaagcagtagagcaggagaac cttgcccgcaacatcgtagaggtcctttacccgaacgacaaccactatgccggtaaagag ctgagactgaaacagcagtacttcttcgtatctgcaagtttacaggcagcaatcgataaa tataagaagaaacacagcaacattaagaaattatatgagaaagtaaccttccagatgaac gata
cccatccaactgtagcagtagcagagttaatgcgtatcctcatggacgaagaagga cttggctgggacgaagcatgggaagtaacaaccaaatccgttgcttacacaaatcatacc atcatgtccgaagcacttgagaaatggccgatcgagctcttctccagactgcttccacgt gtataccagatcatcgaagaaatcaaccgtcgtttcattctcgaaatccaggcaaaatac ccgggaaactacgagaagatcaaaaagatggcaatcatctacgacggacaggttaagatg gctcaccttgcaatcgcagcaggctactctgtaaacggtgttgcacgccttcatacagag atcctgaagaaccaggaattaaaagacttctatgaaatgatgccacagaaattcaacaac aagacaaacggtatcactcagagacgtttcctgcttcacgcaaatccactccttgcagac tggatcacagagcatatcggaccggactggatcacagaccttccgcagttaaagaaactg gcagtttacgcagatgatgacaaagcactccaggaattcatgaacatcaagtttaagaac aaagagcgtcttgcaaaatacatcctcgagcacaacggcgtagaagtagatccgcactcc atcttcgatgtacaggttaagagacttcacgagtacaaacgtcagctcctgaacatcctg catgttatctatctgtacaaccagatcaagatgcatccggaaatggaattctatccaaga acattcatcttcggtgcaaaagcatccgcaggttacgcaacagccaagaagatcatcaaa ctcatcaactccgtagcagatgtagtaaacaacgacgcttccatcaacggcaagatcaaa gttgtattcatcgaaaactacagagtatccaacgctgagtggatcttcgcagcagcagac gtttccgagcagatctccacagcaagtaaagaagcatccggtacaggtaacatgaagttc atgctcaacggtgctcctacacttggaacaatggacggtgccaacgtagagatcttagaa gaagttggcgcagaaaacgcatttatcttcggtttaagctccgacgaagtaatcaactac gaaaacaacggcggatacgatccaaacgtaatctacaatacagatgaagaaatccgtcag gtactgatgcagctcatcaacggaaccttctccaatgatacagaactcttccgcgacctg tacgattcacttctcaacacaaagaacacagacagagcagaccgctacttcatcctcgca gacttccgttcctatgcagacgcacagaaacgcgtagaagcagcatacagagacgaaaaa ggctgggctaagaaagcactcctcaacacagcatgcagcggtaaattcacctccgacaga actatccaggaatatgtagatgatatctggcatctggataaggttattgtcagaaagaaa taa(seq id no:9)。
[0128]
gi_0001550
[0129]
ttgtcagaggatcaaagaagcaggaggtgtggagaaaagcacatgagtgaaactgtcaca ggatacatagatcatgttattttcagaaatgaagataacggatatacagttatggtactg aaaggtacaaaaaaagaggaagagctgacctgcgtgggaagtttccctgcgatcacacag ggggcatctattgaagcaaccggagtatatatccatcatccggtatatggcaaacagttt cagatcagttcttttacagagaagatgccggaggatacatatggaatagaacgttatctg ggttcgggcgccatcaggggaatcggtgctgcactggctgccaggatcgtgcggaagttt ggagatgacacactccgtatcgtagaagaagagccggagcggcttgcagaggtaaagggg atcagtgagaaaaaagcccgggagatcgctgcgcaggtaagtgagaaggcagagatgcga aaagtaatgatctttctgcagaaatatgggatttccctgaacctgggcgcaaagatttat cagaaatataaggaatctgtctatacgatccttcaggagaatccttacagacttgcggaa gatatttccggtgtgggatttaagattgctgatgagattgctgccagagtcggtattcac gcagactcagattacagaatccgcagcggaatgctgtatactcttctgcaggcttcggga gaaggacatacttatcttccgagggaacagttatttacaagatgtgccagacttctggga gtggatgaatcctatatggagaaacaccttatggatatggttattgacaggaagctggtg ctgaaagaaaaaagcggagaaactatcgtttatccggcacagtattattatctggaactg aacactgccaggatgcttaatgaactgaatattgtgtgtcctgaggataaagagcttgtc aggcacagaattgagctgatcgagaaagagacaggaactgttctggatgaaatgcagaag agagcaatcactgaagcagcggatcatggactctttattcttacaggaggccccggtaca ggtaaaacgacaacgatcaatgcgatcatccgcttttttgagggagaaggtgcagagatt cggctggctgcacctaccggacgtgctgcaaagagaatgacagagactaccggatatgag gcgcagacaattcaccgtctgctggaactgaatggaatgccggaggaagagagggacggg cat
tcagctaaattcgagaggaatgcacagaatccgctggaggcagatgtgatcattatt gatgaaatgtctatggtggatattcatctgatgcattctcttcttcttgcagtggtagca ggaaccagactgatccttgtgggggatgagaatcagcttccgagtgtaggcccgggcaat gtgctgagagatattatccgaagcagatgtttccctgtagtggaactgactaagatattc agacaggcatcagagagtgatattgttgtaaatgctcataagataaataagggagaacag gttcagatcaataataagagcagggatttcttttttctgaagagatatgatgcagatatc attataagagtagtgatcgcgctgatccaggagaaactgccgcgctatgtagatgccaaa ccctttgagatacaggtactgacacctatgagaaagggacttctgggagtagagcggctg aatcagatcctgcagagatacctgaatccgccggaagacgggaaatccgagagggcggtt ggagaccggctgttccgcacaggggacaaggtcatgcagatcagaaataattatcagatg gaatgggaaatccggggacgatatggggttgtcattgagaaaggcgtgggagtatttaac ggagacaccggaatcctcagggaaatcaatgaatttgctgagacagcagaagtggaattt gaggatggacgttttgcaatgtactcgttcaaacagctggaggaactggaacttgcatat gctattacaatccacaagtcgcagggatctgagtatccggcagtcatacttccattgctt tccggaccacagatgcttttaaacaggaaccttctttataccgcagttaccagagcaaga aaatgtgtgacggttgtgggaaacgaggagacctttgcagagatgatacgcaatgaaaaa cagcagaagagatacagtgcactggatgaacggatcagagaactgagtgagactacaggg gataataatacagatggtgaagaatga(seq id no:10)。
[0130]
gi_0000039
[0131]
atgccctttgtcgtttcatctcaaacgaccacaccagactcactcaaaaacgccttgcaa aaagcaacctccgaacgctcaagattggaaatccttaccaatttaatggacatctcacga aacgatgacatactagtaaacgctaaacaactctatcaggaagccttaaaagcgaatgac aattactataaggaagcggcattgaccgagattctccggcgttacatcaacacggaccag accgatagcgcgaatgtctacctcgccaaggccgagcaggagctaaaaggagaagccaga accagcctcgtgtcgttcatgaaaatgatccaagatacacgcgtcatattctacacatcg ggggaaccgagaaggaaagtcctcatgaattgcctattcaagctggaagaacctgataaa ttgtctccgtatgagaaaatagcctgcaattatgtgcttggcatggctgtcagcaacagc gtcatggaggataacatgcttaaagaggatttcaagcaagggaaagaatatttcgataat gtcctgaccacggcggagaaactccccctacgatatgcgtacaatttcttaccaaatacc tatttcatgctatgcgcttacgcaagtgactcccaagaacgggggcaatatgctacccgc tacctaaatacgatcctaggttactctaacattccggagatgaggaaacggccttacgca atcaataaacgccaattattaagcgcttattcaaacctagccattagcgccgaggctatt ggaaaggatctggcgacctcttactatcgtgacttcatgaatctgttgaaggcttatccg gaatcagctagcgccgccccggaatatgagctttattatacctcagcgaattattaccta ggcatcaaggactataagaaattcattgagttcagcgactccttgatcaatttctccaaa caaataccgctttacaaggagcatgtaatcgcctatgtatccgcaaaagccgccgcctac gacagcctccggatgtacaaggaggcgtatgagacatccaaggaatacgcggtcttgcta gataccttgcgcatgcaggaactccggaagaaaatggagaatctcgagatcgagaaaggg gcgaacgagttggtaatcgaaaagaaatcattggaattggaattgcagaaaagcaagaag gagaattacctatatatatccctattgcttctagccttatgcgccgtgttctatatcttt ttccggttaggcaagatgagatctctttatcaagcattacagaaatccaacgagcaggtc ctgatagcgaaccagaaggcacaagagagcgaggagatgaagaccgccttcatccggaat atgtcgcatgagatacggactcccttaaacgcgatcaacggtttctcggaactcatcacc aacgacgatatctccatggacgagaaacaggctttcagccgtattatctatgaaaactgt taccacttgacttccatgctgaacaatctccttgagatcgcccagctcgatagcggcaat gattcccttcctcttgttcccacacgaatccatgagctttgtttacatgagatgcaacag gtaaagaaatatcaagagaagccggagatcaactatgtggtggaaggcgataaggagaat gatatgatcttgaccaaccgcgcttatttcag
cttgatcatctcgcatctgctggcaaac gcgaataaattcacggagaaaggaagcatcacgctttcataccatctggatagcggagcc aatttagtgaccctgtcggtaacagatacgggttgcggcatccctcaagacaaacaggaa tggatattcgagcgtttcacgaagaccaatgatttcattcccggctctggcctggggctt tacctatgtcgcttgatcgttaaccggctaaacggtaagataaagacagatccgtcttat acgaaaggctcacgcttcgttatcacgatgccaatcgccacgccgtccaagccctccgaa cctaccgattaa(seq id no:11)。
[0132]
gi_0000603
[0133]
atgagcgagacatttgaaatggtggccaaaaccctatacgggttggaagagatcttggcc gaggagttattagctttaggtgccaacgacttgcagatcggtcgtcgtatggtttccttt acgggtgataaggaattgctttataaagcgaatttccactgccgtactgccctgcgcatt ctgaaaccgatttatcatttcaaggccaaagatgctgataccgtttataaagaggtgaaa aaggtagagtgggagaagtatttgtcgctggacaagacgttcgcgatcgactcggtgatc tattccgaggatttcaatcactcgaagtttgtcgcttaccgtacgaaagacgctatcgtg gattatttcatcgagaagttcaagaagcgtccgtccgttcgtgtcaataacccggactta tatatcaatatccatatttcgcataacgattgtaccttatctatcgatagctccggcgag tctttgcacaagcgtggttatcgggtggatcaaacggaagctccgttgaatgaggtgttg gctgccggcatgatcctaaaaaccggttggaaaggagaatctaatttcgtagatccgatg tgtggttccggtacattgttgatcgaggctgccatgatcgccttgaatatcgctccgggt atccatcggaaagagttcgctttccagaaatgggtggactatgatgaggaattgttcgat cgtatttatgatgatgagagcggggagcgtgagttcgctttccattgctatggctccgat atttcccaagccgctatcgatatcgccttggagaatatccgtagcgctggcttgatgaaa tatatcgatctgaaggtgaaaccgttccaacaatatacagaggctccgaagccaggtata ttggtgacgaacccaccttatggagagcgtatatcatctcgtgatctattgggattgtat aatatgatcggcgagcgtttgaaacatgtgttcatgggatataaggcttggattttgagc tataaagatgaatgtttcgataagatcggcttgcgcccgagcgagaagatcaaattgatg aacggttccttggagtgcgaataccgttgctatgagttatttgagggaactaataaggac ttcaaaaaggcattgaatgaggatggagaggagcgtccgcgcagatcggaaggctctttc gagcgtagaggcaatgatcgtcaaaacttccgtacgggtcgtgtggatcgtccggagcgt cgtttcgccgctgctcatagcgaggatgatgaggagcgtttcgcttccattccggggaaa cgtatctttggagaggatcggggagaggaccgtccggtccgcaagaaattcgtggatgcc ccggttcgtaagccgatcaagccaaaaggagaacgtcctgtgaaaatgcgttatcgggat gaggatgaccgtaagaaagggtttggcaatcataagcgggatagaaagcgtccgtttagc aaacctataaagcctataaaacggagaggatatgatgattatgaggattaa(seq id no:12)。
[0134]
gi_0006885
[0135]
atgaagaaaatactttttattttaggattcgtttcactgctcgttgctggttgtagtgat ttcttcgatacagctcccagcaataaaattcctactacgatggctttccgtacagtaacc gatgtggataatgcggtgaacggattgtatgatctgatgtcgggctccggatattacggg gctgctatgtttgcctatggagacatgaaaggagatgatatgcagagttctgaggaaagt ggggtatgcaatacatgctatatgttcaatcatcgtcctaatagtttgaatgccggttca ttgtggggacgacctttttatattcttcgtgaggcatggaatattctgaatgctattgcc gaaggaaaaattgaaagcggggatgaaaagaagttgaatgctttgaaaggcgagacgatg gcggtgattgcgctttgccagtttgatctgactcgttgctttggctatccttatacaaaa gataaaggtgcgtcactgggtgctccgttgatagaccatttggtgggaacctatgagaat cctccccgttctactgttgctcaggcttatgattttattatagaaacgttggaagaggcg gttacattgatgtccgaagagaaaaataacggacgtatgaataagtatgcggctcgtgca ttgctggctcgtatctacttgtatcatgacgataaccggaaagcatttgatttggcggac caactgattaaggatgcgga
tacatcgggaagttatgcactttatccgcatgagaagtat gtggctgcctggtcggtagaagccaagtttggttcagaatcgttttttgagatagccaat agtgtggatgatactccaggacgggattcatggggatatttattgaattggtatggctat cagaaggggtttgtcactcagaaatatgcggagcaaatgctggctgatcccggagatgtg cgcgggcagttgctggaggagaataaatatgcggggaaaacggtatggtggttgtacaaa ctgagagggacggacctgaagactgcaccgctggaatgtaacaatgtggtacttcgtctg tccgaggtgtacctgattgccgctgaggctggttgtaagttgggcggtgatgctgcggtt cagggacttggttatttgaatgagattgtgaagcggggcaatcccgataacgaagtgaca atggctgactataccttggaccgtgtgttggatgagcgaagtaaggagctggtaggtgaa ggacatcgtttctttgatttgctgcgcaatggcaagactattgtccgtaaaggaggatat catcttcccagtgtggacgaagaggtggattgggatttttacaagtgtgtgctgccgata cctgaagaccagtttatctttagtcctgagatggaacagaatccgggatatcccaagaat tga(seq id no:13)。
[0136]
gi_0010781
[0137]
atgcaatcctctacggcacgcacgacgatgaatccggcgtatcgtcccgagagaggctat gtttccattccggtattaggtgcggttggcgcttcgtatggtacgaacggaatagctgtg gataattttatttatccgaagaatggtgagaccgttacgttcatggataactccgtgaat accgagtctttcctgaatggcttgaaggacgagaatcaggtaaacatggattttggtacg caggttctatccggtggctggtacgccggcaagggattctggacggttgatgtttctatc aagggattggcgaatattcgtgctccgaagacattgttcgagttcatgaaaaagggtaat ggatctcagagtacgtatgatatccgtaatatcagggcgtatgccgaggcttatttggag acaggtgtaggatattctcgtcctatcacggataagttgacagtcggaggtaaggttaaa ttgttatggggcgtaggttctatggacgctacgatcgatcagatgcatgctgagatggga gagactagctggaaagttacctctaccggtacattgcagacgaatatgaaaggcttggtt ccggaaatggaagtagacgagcaaggccgtgattattataatagctttgatttcgattct ccgggtcttagcggtttcggtatgggagtggacttgggtgctacgtaccaattgaccgag aatatcatgttatccgccgctgtccttgatttaggttttatcagctggagcaagggaggt agcacgctaggtaagttggatggaactttcgactttaacggctttgatctggctattggc gagaataacggtgatataccgagcatgggcgatcagtttgacgctatcaaggaagatttc gagaacttgcttcatttcaagaaagagggtgagtccggaagcactacccgtcttcgttcg acaatcaatatcggtggcgagtaccgtttgctggaaaacaagttaggtatcggtttattg tcgagcactcgtctttattccccgaaagcctatacggaactgacattgtccggtaattac cgtccggtgaaatggtttgaggctacgctgagctactcatttatccatagtaagttcaag acgtatggtatcgccttgaatttctcaccgtcttggatcaatttctttatcggatcggat tatatgttgacaaaggtaactccacaatgcttaccggtcagcggtaacgccatgaatctt tacatgggagtaagtgttcctttgaaatcattcgctaattaa(seq id no:14)。
[0138]
gi_0010964
[0139]
gacgatggctacacggggctgaacatggagcgccccgacctgaaacggatgataaaggcc atcgagcgcaggcaggtcaaccttgtcattaccaaagacctctcccggctgggccggaac tacttgcagacaggctatctcattgaggacttcttcccccggaacggtgtgcgctacatc gccatgaatgacgggatcgacaccttgcgggagaacaacgacattgcgccgttcaaaaat atcctgaatgagatgtacagcaaggatatttccaagaaggtacattcttcctacctgctg aaagcacagaagggcgaatttactggctgtgtggcccccttcggctatcggaaagacccg gaggacaaaaaccacctgctggtggacgaggaaacggcccccattgtccggcagatattc cggtgggcgctggagggccacggtcccaacttcatccggcgcaggctggaggagcagaaa gtaccctgccctacatggtggaaccgggagcgcggtatccgcaatgtccgtaccaagtgg gagaagcaagacccgataaacgggcggtatatgtgggacttttcagtgataaaggacatt ttgatgaacccagtctatgccggggccatcgcgtcgcagaaaaaggactaccgtttcaaa atcgg
caccatcggggagaagaagccacaggactggatcgtggtggaacagcggcatgag ccactgatcgactgtaagagtttcgccattgtacaggacaaattgaaatcccgccagcgc ccaaggcagaatggggaaacgagcctgtttgcagggcttatcaaatgcggcgagtgcggc aaatccctgaccatccgcaccacccacgccaagcacccccagcagatttacgcctgcaag acttatggggcgttcggcaagacccactgttcccagcaccgggtggaatatgacaccctt taccggcttgtcctgaacaaaatccgggagtgcgccaaggctgccctgaccgatggggag gccattgccgggaagctgaccgacacctgcgaagccgagcagaaaggccagcgggaagcg ttggaacgttctcttgccaaggacgaggaacggatcgaggtgctggaaaagatggtgctg cggctctatgaggacatggttgccgggcggatcagcgaagccaacttcaatctcatgctg gacaagacgcagaaggaacaggccgagttgaaagcgcgggccggggaaacccggaagaag ctgaca(seq id no:15)。
[0140]
gi_0001111
[0141]
atggtatcggtatgcggggttgttgtcgccacgatcgccttagtatgcgccttgtcggtc tataatggtttcaacgatttggtatcttctctcttcagcaattttgatccggagttgaag atcatgccccggaaagggaaggttttcgacccgacctcggaagagatacgtaaggtgcgg gaattgcccggcattgtttgttttagtgaggtattgcaggacaatgccttggtccgttat cgagatcgtcagggtgtagctaccttgaaaggtgtagacgagcaatatgagaaactggcg cagatcgatagtatcttgatcgatggaaagttccttctgaatgacgaggtggcgaattac gcgaatatggggatcggattggctttctcgctaggaataaacgcaggctttgtctctccg ctggagatctacgctccgaagcgggaggagaaggtgaacatggcgaatccggcttcttct ttcaatttggaatatgcttatatcggtgctgtctttcgtacggaccaacaggtttacgat gattcatatatgatcgtgcctttgtcattggcccgttctttatttaattatgataaagaa gtgacagcggtggaattgaaggtgaaagatagcggggatatcgctccggtaaagaaagag attcaacgtatcctaggtgatcaatatatcgtgcaagaccgttttgagcaacaagaggct tctttcaagatgatgcaagtcgagaaatggatgaccttcttgatccttacttttatattg gcgatcgccttattcaacgtggtgggttctttatccatgttgatgatcgagaaacaggag gatgtgagcacactgcgtaatatgggggctgatgacagtctgatccgtcggatttttttg tttgaaggctggatgatctccggttttggagctttgatcggagtcttgatcggggttgtg ctttgcttgctacaacaagagtttggctttataaaactaggggaagctgccggagcgttt attatagaggcttatccggtacgtgtagtcccggtcgatataataacagtctttgtgacg gtattaacgataggctttttggctgcgtggtatcctgtacgatatcttgctaagaagttg aaaattgagaattga(seq id no:16)。
[0142]
gi_0006441
[0143]
ttgcgaggggggtatcccaaaaacaccgtcatcatcgacatgaccgtcatgcagggggtg agggtgacagttgcggcagtcggcagggggtatcccaaaactgctgtcaccaccgtcacc gctgtcaccccaaaggacggtcacccgccgaaagaaaggaggaatccgcctatgccttat gcaatcctgcgtttccagaaacgaaaagcgggcggcgttgcggcttgtgaacgccacaac gagcggaagaaagaagcctacaaaagcaacccagatatagatatggaacgctctaaaaac aattaccatctcatagcaccaccaaagtacacctacaagaaagagattaaccgcatggta gccgaagcggggtgcaggacaaggaaagacagcgtgatgatggtggaaacgctcatcaca gcttcaccagaatttatgaaccagttaccgcccgaagaacaaaaagcgtatttccagacg gctcttgacttcatttcggagcgtgttggaaagcagaatatcctctccgctgtcgtccat atggacgagagaacgccccatatgcacctctgctttgtgccgattacgccagacaataag ctgtcagcgaaagctatcttaggcaaccagaaatcattatccgagtggcagaccgcctac catgagcggatgtcctcacggtggaatcagcttgaacgggggcagtcctcaatggaaacc aagcggaaacacgtccccacatggctctataaattaggcggcaggcttgataaacagtat gaagaaatcgtgtctgccctatccgacatcaacgcctttaacgcagggaagaaaagggat aaagcgttagatttactctctgcatggctgccagacgtggagaaattctc
taaggaaatc gggaaacagcaggcgtatatcgacagtttgaaagagagaattgggcaggaatcagactat gcggggcgtatgcgtgatgaaaagtacgagcaggaactaaaggtgcagaaagcgaatcag aagatatttgaattgcagagaaccaacgagcagatggggcggctgctgtcaaaaataccg cccgaagtgttggaagaattgcagaaaaatcatagaagcagagcgaaagaaaggtag(seq idno:17)。
[0144]
gi_0000513
[0145]
atgaagaaacagatattttacatgacgttcatcgctttactgtcgggctgtaattgttac aaagggaatattctgcaaatagaggaacaaggcagttttgccgtaggtggcaccgtactg accgattcattgggacacaaataccacggcgaccatgcttatgtattttatcagaaaccg gttgatgcacggaaatatccgcttgtttttgcacatggtgtcggccagttttccaaaaca tgggagaccactcctgacggacgcgaagggtttcagaatatatttcttcgcaaaggtttc tccacctatcttgtcgaccagcctcgccggggaaatgccggacggagtacggaagctgtc acactggaaccggtattcgatgaagaagaatggttcaaccgtttccgtgtgggaatctat cctgattatttcgagggtgtacagttcagtcgcgaccgggaagccttaaaccagtacttc cggcagatgacgccgaccatcggacctttggacttcgatgtctattccgatgcctatgct gctctttttgacaaaatcggtccggccatatttgtcactcattcacaaggcggtccggtg ggttggtttactttgctcaaaacgaagaacatcaaagccattgtagcatacgaacccggt ggaagtgtacccttcccaaccggtcaagttcccgaagaaggcaaagtcttgacacggtct aaaaaaacagaaggaatagaagtccctatggcagttttcaagagatacatggaaattccc atcatcatttactatggggataacctgcccgaaacagacgaacatccggaactttacgaa tggacacgccgtctgcatctcatgcgcaagtgggccgaaatgctcaataagctgggcggt gacgtgacggtcattcatctgcccgatgtcggtctgcatgggaatacgcacttcccgatg tcggatttgaacaatgtggaagtagctgacctgctgtcgaagtggctgtatgagaaacag ctggacagatag(seq id no:18)。
[0146]
gi_0008444
[0147]
cccatctccgaagtcggcttctcctaccaggaagcgggcggggagtacgtcgatgtggtt tgtacgaatttcaaggacggtctggcccggcagaccctgaccggcctgaagcccgacacc gaatatcgttggtactgttatgccgtcttgggcggcgagcggttcaatgcgtcgctgtcg aaaacgttcaggaccctcaaagagggggaggtgcctccggctccgacgccccagttcggc aagccttcggcttccgaggtgcaggctacgagcgcattgctcgcgtgcgcttatctatac accggtgatgcggccgatattgccgaagccggtttcggatacaagcctgcggcatcggcc caaacgggatatactatggtagagattacgccggacgactcttcgttgtcggcccgtctg gaggagctgacgcctgaaacggcttacgagttctatgcctatctggtaatcgacggaaag aattacaccagcgaacgggttgttttcaccacgttgaaggagggcgagcaaccgggagct ccgcagttcgaaacgccttcgtcgtccggggtttctccgaccggagcgacgcttgcctgc gtttatgagtacgaaggcgacggcgatgttgcggaagccggcttcgggtataaggccggt gcgcaggaggaatataccgaggtgaaggctgcttcgacggcttcgcccctgacttatgag ctgaacggactcgaacccgaaacgaaatacgatttttatgcgtatgtcgttatcggcgac gagcgttatacgagcgccgtcgcacagttcacgaccctgaaagcgggtgaaaatcccgag ccggagttcggtcccgtcgctgcgacggatgtgaccgcttcgtcggccaccctgacgggc agcttcacctatgaaggcgaagaaacggtcggcatcgaagtaggatttgcttacaaagcc tcc(seq id no:19)。
[0148]
gi_0014957
[0149]
ttatggaaacttggtgtatctgctaagacacagcataatgaagttgctcctgcacagcat gagttagctcctatctatgcacagtgcaatattgctacagataacaaccagcttatgatg gaagttatgaagaaggttgcttacagacatggccttgtatgccttctccatgagaagcca tttgcaggtgttaacggttctggtaagcataacaact
ggtctatcacaactgatgacggc attaacatgcttgacccaggtaagacacctcatgaaaacttccagttccttcttgtactt ggtgcaattatgagggctgttgataagcatgctgaccttctccgtgagtctgcatctgat gttggtaacgatcaccgacttggagctaacgaagctcctccagctatcatctctatgttc cttggcgagcagcttgaagatgtagttatgcagttaatcgataagggtgatgctacaagc tctatccagaagggtaagttaaagactggtgcttctactcttccagaccttaacaaggat gctacagatagaaacagaacatctccattcgcattcacaggtaacaagtttgagttccgt atggttggttcttcagattctatcgctcctgcaaatgttgttcttaatacaatcgttgca gaaagttttaaggaaattgctgatgaattagagggttctgaggatatgcagatggctgtc catgatatgattaagaagcttttcacagaccatcacagagttgtattcaatggtaatggt tactcagatgaatgggtagcagaagctgaaagaagaggacttccaaatatcaaatctatg gttgaggctgttggttcacttgttaaacctgaaacagttaagatgtttgaaggatttggt gtattc(seq id no:20)。
[0150]
gi_0002156 atgaaaaaaatgattgttcttatcagtcttttatgtggagcgttttttatgagcgcccaa caaagtaatcaacaacaaagaccaccggaaagatggaaacctgagagtactgaatggtat tatccggttcctcctaaggtaaagccgggtgtaggaactggtgctccttccgatgcgatc atcctgtttgatggaaaagatctttctatgtgggaatctgcgggaaaagatggaggtccc gctaaatggaccgtaaaggatggggcgatgattgtggcttccgggaccggatcgatccgg acaaaagattattttggagattgccagttacatatcgagttcaagacccctacaccggga aaggataatacattacagatgaaaggtaatagtggcattatgttacaaagccgttatgag gtgcaggttttggattgtgaggataatcctacgtatgtgaatggctgggtcggcagtatt tataagcaaagcgcaccgttggtaaatgctttcacgaagacaaatgagtggcaggtttat gatatttattggaaagctccccgtttcgggacaaacgatgaattggaatctcccgctatg attaccgtggtattgaacggtatcgtagtacagaataattatgtactgaaaggaacgacc ccatataccggtttacctaaatatgtagcgcatggccgtctgccattaagcttacaggat catggagtggaagtggctttccgtaatatatggattcgtaatttataa(seq id no:21)。
[0151]
gi_0015284
[0152]
atgagatctttcaaagtactgatcagagagctgcgcggctttttgatcttatggctgacc cagtccttttccgcactgggcagcgcaatgacgaatttcgccctcatcgtctggtcttac caggcgcagggctctgcactcaccacagcgcttttgtccgtatgttcctatgcgccctat gttgtgatgagcattttcgcaggcgctctgagcgaccgttggaacaaaaaggccgttatg ctggccagtgatagctttgctgcactgtgcacggtcgctgtgctggtactgcttcaggcc ggacggctggagatctggcacctgtactgtctcaacgcattgaacggactgatgaacacc gtgcagcagcccgccgcggatgtagccatcagtctgctgacgcccgaaagacattaccag aaagccagcggccttcgttcgctcgccaactctctgatcaacatgctgacgccgatgttt gccacggcactgttggcgctggccggcatccatgccgtcattttgttcgatctgttcacc ttttttgccgcgtttctgtcgctgctgtttctggtgaagctgcccgcagccccctccggc gctgcccgtgcagagagcgtgcttcgttgtgcccggcaggggctgcgcttcttaaaggga cagcggggcatccttcacctgattttgttcctcgccgccatcaatttcaccgcgtcggtc tacaacgcggcattccccgccatgctgctttcccgccaaggc(seq id no:22)。
[0153]
gi_0026225
[0154]
atgggatgctttgaaatcgtacagtgcacctgcaatcatcaggaaaatccgctggggctg gaccgtacgccacgcttcggctggaaaatgcgctcggacacgcggggcgatgcccagacg gcgtaccgcatcacagtgtccacagacgcgcggcgcgcacaggcggggcagggagacgtg tgggattccggccagaccgcgggtgatgggaatgtgagcgtggcctatgccggcccgccg ctgcagccccgcacccggtattattggtgtgtgacggcgtggaaccgtgccggagaagcg gccgtcagccgtccggcctttttcgagacgggcaagctgaacgcggcctggcgcgcacgc tggatc
acggcgccgtttctgaaaatggacaaaacggacacaggcgcgccctatctgcgc cgcacgtttccgctgcggggcgaggtgcgcagcgcgcggctgtatatctgcgggctgggg taccacgaggcgttcatagaggggaaaaaggtttctgaaaatctgctggagcctgcgttc accaaatatgacgcgctgtcgtattaccgcgtgtatgatgtaacggagcacctgccggcg gcaggcccg(seq id no:23)。
[0155]
gi_0000928
[0156]
atgaagaagattgtattattgctcgccgttttattatttggtgcagggtcgatgatggca cagcaggacaagtcagcggagaaagctgcgaagcaggctgagaaagaagcaaagaaagca gagaaggcagcgaagaaagctgcggaggaagccgaggctaacgcattgtttgaacaagcg gtgcaagctttgaagaataaggatttcgtattggaagcggatcgtatagagtttaagcgc ggtagttttgtttatgttactccgaacacgaacttcgtttcggtgaagggtgagaaggct accattcagttagcgtttaatactccggcggccggtcctaacggaataggaggtataacg gttgatggaacaacttccggtgtacagatgaagactgataaaaaaggaaacgttatgtac gagatgaatgtgcagggtgtagcggtatccgctagggttacgttccgtatggcgaaaggt acgaataaatgtactgccacggtatcacctaactttaatagcaaccgtatatcctttacg ggaaatctctatccttcgagcgagtcgaatgtgttcaagggacgttctatttaa(seq id no:24)。
[0157]
gi_0037585
[0158]
tttggtattccggtttttattaataatgacggtaatttgtttgcttatggcgaagccttg gcaggcactttgcccgaagtgaataaacgcctgaaagaagcaggcagcagtaaggtatat aagaacctgctcggaattacactgggtacagggtttggtgccggagtggtgattgacagc cggttactgaccggagacaacggttgcggcggcgacgtctggattatgcggaataagaaa tatcccgaaatgatcgcggaagaaagtgtcagcatcagggctgtcaggcgagtatatcag gaattgaccggaaaggatgcttcttctttaactcccaaagatatatatgatattgccgaa gggactgcagagggagatcagcaggctgctgtccggagttttaacgaactgggagagatg gccggtgatgctatcatccgtgcattgaatattgttgatggcttggtagtgattggcgga ggagtggcaggagcggctaaatacatacttccgggaattatgaatgagatgaatcggcag attggcacgtttgcaggagcttctttcccttgtttgcagatggaggtgttcaat(seq id no:25)。
[0159]
gi_0023659
[0160]
aacgacggctgcgcggcggcggataagatcgaacagaacgattacgacctggtgctgctg gatatcatgctgcccgggctggacggctatgagctgctggagtatctgcggcccatgggc acgcctgtcattttcatcacggctaagggcactctgggcgaccgggtgcgcgggctgaac ctgggcgcggatgattacatcgtgaagccgtttgaggtggcggaactggtggcgcgggtg gaaagcgtgctgcgccgtaccgggcgcggcggcgcgctgctgcgcgcgtgggacgttacg gtggacaccgtggcgcgcagcgccaccaaggcgggcgtgccggtggccctcacgccccgg gagttcgaccttctggaacagcttttgcgcaaccggggcgcggcactgtaccgcgacgtg ctgttcgagcgtgtttggggcggcgagatggatgacggcacgcgcacgctggacctgcac atccagcgcctgcgcaaaaagctgggttggcaggagcatatcaagaccgtctataaggtg gggtatcttctggaaatggagggagagccgtga(seq id no:26)。
[0161]
gi_0018876
[0162]
atggacgatcaaactgttctattgctcaacgaggttgtaaagaatgccgagatgggcaaa aataccgtcactcagcttttgggcatcactgatgacgaacgcctgaagatacacctgaac cgccagctggccacatacgaggatctttccaaacgggccaatgcaatgctggccgtggag ggcgaacaggccgaaggccagaatgcttttacaaagctgaatgccaaaatgggtgtaaaa atacagacgatatacgataagtctccccgcaaaatcgcggagatgctcattgaaggcagc catgtgggcgttacagatatgaccattgccatcaaggacgcacccgacgcgaacccgggc gctatc
gcgctggctcagcgcctgcagcatgccgaaaatgaatatgccggagaattgaac gtatttctgtaa(seq id no:27)。
[0163]
gi_0020926
[0164]
ggcgacttgagggaccttgtctggcaggacgaatacgactactactcctggacggcgggc acggtgtaccagacgcctgtggacctgacgctggaatgggtctcagatgaggcgcagcag ccctttgacacggattatctgggctattatgcttatgcggacacgttcacttccgccggg ggccatacggtgaacctgctggtggatacggcgccaggcacggccggaagcggcctgaag ccggagtgtgcagcggtattcgtggcagacggcgtgcggtatacgttatccggccatgtg acgcagcagacgatgcgcgccatcgtggattccatgtcttatgcatga(seq id no:28)。
[0165]
gi_0005982
[0166]
atgtcgaaaggtaaatatgtaaaacggacttttccccttgcggggctgcactgcgccgga tgtgccgcacgtgtggaaaaaattctcaatgcccagacgggcgtcgtcgcggcttccgtc aatctggcggcttcgaccgcagcggttgaatacgacacgatgcagacctcgccggaaaga ctccggcaagccgtgcaggagggcggttacgatatgctcgccgattcggatgacgacacg cctgacgagttggagcggatgaaccgggagcggtaccgggacctgaaacggcgg(seq idno:29)。
[0167]
实施例3个体状态的检测
[0168]
利用15个粪便样本进行样本来源的个体状态的检测。
[0169]
参照实施例2的方法确定各粪便样本中的表3的gi_0016864、gi_0027904、gi_0020602、gi_0036168 的丰度,判断各样本中的这4个基因丰度是否落入各自在疾病对照组或者健康对照组的丰度的95%的置信区间,判定这4个基因的丰度均落入疾病组的对应区间的样本所对应的个体的状态为慢性阻塞性肺病患者,判定这4个基因的丰度均落入健康组的对应区间的样本所对应的个体的状态为非慢性阻塞性肺病患者。
[0170]
结果显示,利用上述方法能够对其中的15个样本进行个体状态判断,而且对这15个样本中的13 个样本对应个体的状态的判断,与记录的该样本来源个体的状态一致。
[0171]
另外,发明人发现对表2和表3中的基因联合检测,例如检测表3中的基因标志物被富集,同时表 2中基因标记物不被富集,能够更准确的判断发现慢性阻塞性肺病患者或易感人群。
[0172]
在利用标志物治疗慢性阻塞性肺病的方案中,发明人发现使3中的基因标志物丰度得到抑制或者清除,同时使表2中基因标记物被富集,治疗效果极佳。
[0173]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0174]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1