偏头痛生物标志物及其用途的制作方法

文档序号：19019776发布日期：2019-11-01 20:33阅读：317来源：国知局

本发明涉及生物医药领域，具体地涉及偏头痛生物标志物及其用途。具体地，本发明涉及偏头痛或相关疾病的生物标志物、诊断或预测偏头痛或相关疾病风险的方法、试剂盒及偏头痛生物标志物在制备试剂盒中的用途。

背景技术：

偏头痛(英语：migraine)，是一种出现反复轻度或重度头痛的慢性疾病，通常伴有各种自主神经系统症状。偏头痛通常是局部、反复发作和自限性的严重头痛，并伴有自主神经系统的相关症状。有偏头痛史的人群中有15-30％都有病发先兆，并且有偏头痛病发先兆的人群，还经常出现无先兆即发病的情况。疼痛剧烈程度、头痛持续时间和发作频率则因人而异。持续时间超过72小时的偏头痛被称为偏头痛持续状态。

全球范围内，近15％的人(或约十亿人)饱受偏头痛的困扰。在美国，每年约有6％的男性和18％的女性出现过一次偏头痛，而他们一生中患偏头痛的风险分别为18％和43％。在欧洲，有12-28％的人在他们一生中的某个时候曾患过偏头痛，与此同时，约有6-15％的成年男性和14-35％成年女性每年至少出现一次偏头痛。在亚洲和非洲国家，偏头痛的发病率比西方国家略低一些。慢性偏头痛发生在大约1.4％至2.2％的人口当中。

因此，对于偏头痛的早期诊断以及发现仍有待改进。本领域迫切需要对偏头痛生物标志物进行进一步的研究。

技术实现要素：

本申请是基于发明人对以下事实和问题的发现和认识作出的：肠道微生物是存在于人体肠道中的微生物群落，是人体的“第二基因组”。人体肠道菌群和宿主构成一个相互关联的整体，肠道微生物不仅能降解食物中消化的营养成分、宿主维生素以及其他的一些营养物质，还能促进肠上皮细胞的分化与成熟，从而激活肠道免疫系统以及调节宿主能量存储与代谢，这些在人体的消化吸收、免疫反应、代谢活性等方面都发挥着重要的作用。因此，本发明发明人通过对偏头痛患者以及健康人群的肠道菌群以及基因序列进行分析，从而筛选出与偏头痛病相关性高的生物标志物，并且利用该标志物能够准确地诊断偏头痛或相关疾病，并且可以用于监测治疗效果。

因此，本发明目的在于提供用于评估偏头痛风险或者早期诊断偏头痛的生物标志物，以及偏头痛的诊断和患病风险评估方法，可以解决现有偏头痛诊断方法不能做到早期预警、不能预测偏头痛发病以及发展的趋势等缺点。从而可以应用于预测偏头痛发病以及发展的趋势，以及应用于疾病病理分型。

据认为，由于以下原因，偏头痛相关的生物标记物对早期诊断是有价值的。第一，本发明的标记物具有特异性和灵敏性。第二，粪便的分析保证准确性、安全性、可负担性和患者依从性。并且粪便的样本是可运输的。基于聚合酶链反应(pcr)的试验舒适且无创，所以人们会更容易参与给定的筛选程序。第三，本发明的标记物还可以用作用于对偏头痛患者进行治疗监测的工具以检测对治疗的响应。

根据本发明的第一方面，本发明提供了一种生物标志物。根据本发明的实施例，该生物标志物包括选自下列中的至少一种：

多形拟杆菌(bacteroidesthetaiotaomicron)和/或其类似物，普拉梭菌(faecalibacteriumprausnitzii)和/或其类似物，bacteroidesintestinalis和/或其类似物，和anaerotruncuscolihominis和/或其类似物，所述多形拟杆菌(bacteroidesthetaiotaomicron)类似物与多形拟杆菌(bacteroidesthetaiotaomicron)的基因组序列相比，比对相似度在85％以上，所述普拉梭菌(faecalibacteriumprausnitzii)类似物与普拉梭菌(faecalibacteriumprausnitzii)的基因组序列相比，比对相似度在85％以上，所述bacteroidesintestinalis类似物与bacteroidesintestinalis的基因组序列相比，比对相似度在85％以上，所述anaerotruncuscolihominis类似物与anaerotruncuscolihominis的基因组序列相比，比对相似度在85％以上。这些生物标志物均可以作为偏头痛检测的生物学标记物，可以通过确定对象肠道菌群中是否存在这些标志物中的一种或者两种或者多种，从而有效地确定检测对象是否患有或者易感偏头痛(即预测患有偏头痛的风险)，并且还可以进一步将这些生物标志物用于监控偏头痛患者的治疗效果。另外，当健康样本量足够多的时候，本领域技术人员还可以根据检验和计算方法，得到每个生物标志物在肠道中的正常值或者正常的范围，从而用来指示每种标志物在健康样本中的含量，由此，通过对检测样本中这些生物标志物的至少一种在肠道菌群中的含量进行检测，来确定对象是否患有或者易感偏头痛，同时可以用来监控偏头痛患者的治疗效果的效率。而且本领域技术人员可知的是，当某种未知的微生物或者某种核酸来源的某些基因序列与某种已知菌株的基因序列相比，比对相似度在85％以上的时候，即可认为该微生物与该菌株属于同一属，或者可以将基因序列归类到与该菌株同属，而同属的微生物通常具有相同或相似的功能，因此，也可以利用这些类似物作为偏头痛的标志物。

本发明中比对相似性，也可以称为比对相似度，是指序列比对过程中目标序列(待确定的序列)和参考序列(已知序列)之间相同碱基或氨基酸残基序列所占比例的大小。

根据本发明的实施例，所述生物标志物选自多形拟杆菌vpi-5482(bacteroidesthetaiotaomicronvpi-5482)，普拉梭菌a2-165(faecalibacteriumprausnitziia2-165)，bacteroidesintestinalisdsm17393或anaerotruncuscolihominisdsm17241中的至少一种。这些生物标志物作为多形拟杆菌(bacteroidesthetaiotaomicron)，普拉梭菌(faecalibacteriumprausnitzii)，bacteroidesintestinalis和anaerotruncuscolihominis的代表性菌株，均可以用来指示偏头痛或者偏头痛相关疾病的患病状态或者患病风险。

根据本发明的实施例，所述多形拟杆菌(bacteroidesthetaiotaomicron)类似物与多形拟杆菌(bacteroidesthetaiotaomicron)的基因组序列相比，比对相似度在95％以上，所述普拉梭菌(faecalibacteriumprausnitzii)类似物与普拉梭菌(faecalibacteriumprausnitzii)的基因组序列相比，比对相似度在95％以上，所述bacteroidesintestinalis类似物与bacteroidesintestinalis的基因组序列相比，比对相似度在95％以上，所述anaerotruncuscolihominis类似物与anaerotruncuscolihominis的基因组序列相比，比对相似度在95％以上。本领域技术人员可知的是，当某种未知微生物或者某种核酸来源的基因序列与某种已知菌株相比，比对相似度在95％以上的时候，即可认为该微生物与该菌株同种，或者可以将基因序列归类到与该菌株同种。由此，本领域技术人员可以通过对检测对象中的核酸序列信息获取，然后将其与多形拟杆菌(bacteroidesthetaiotaomicron)、或者与普拉梭菌(faecalibacteriumprausnitzii)、或者与bacteroidesintestinalis、或者与anaerotruncuscolihominis的基因组序列进行比对，如果有95％以上的序列相似性，则就可以作为检测对象是否患有偏头痛或者易感偏头痛的标志。

根据本发明的实施例，当这些类似物与相应的菌的基因组序列相比，比对覆盖度在80％以上，且比对相似度在85％以上时，均可以认为这些类似物与相应菌株属于同一属，可以作为偏头痛的标志物。优选地，当这些类似物与相应的菌的比对覆盖度在80％以上，且比对相似度在95％以上时，均可以认为这些类似物与相应菌同种，可以作为偏头痛的标志物。

本发明中比对覆盖度，指的是对目标序列与参考序列比对的过程中，目标序列中拿来和参考序列进行比对的序列的长度占检测序列总长度的比例。

根据本发明的第二方面，本发明提出了一种诊断对象是否患有偏头痛或相关疾病或者预测对象是否患有偏头痛或相关疾病的风险的方法。根据本发明的实施例，所述方法包括步骤：(1)从所述对象中采集样本；(2)确定步骤(1)中获得的所述样本中的生物标志物的相对丰度信息，所述生物标志物为根据本发明的第一方面的生物标志物；(3)将步骤(2)中所述的相对丰度信息与参考数据集与参考值进行比较。所述方法不仅仅用于专利法意义上的疾病诊断，同时可以用作科学研究或者其他个人遗传信息的丰富以及遗传信息库的丰富等非疾病诊断。利用检测对象中的各生物标志物的相对丰度信息与参考数据集或参考值进行比较，来确定对象是否患有偏头痛或相关疾病，或者预测其患有偏头痛或者相关疾病的风险。

本发明中所述参考数据集指的是对已确诊为患病个体和健康个体的样本进行操作，所获得的各生物标志物的相对丰度信息，用来作为每种生物标志物的相对丰度的参考。在本发明的一个实施方案中，参考数据集是指训练数据集。根据本发明，所述训练集是指和验证集具有本领域公知的含义。在本发明的一个实施方案中，所述训练集是指包含一定样本数的偏头痛受试者和非偏头痛受试者待测样本中的各生物标志物的含量的数据集合。所述验证集是用来测试训练集性能的独立数据集合。

本发明中所述参考值指的是健康对照的参考值或正常值。本领域技术人员已知，当样本容量足够大时，可利用本领域公知的检测和计算方法获得样品中每个生物标志物的正常值(绝对值)的范围。当采用测定方法检测生物标志物的水平时，可将样品中的生物标志物水平的绝对值直接与参考值进行比较，以评估患病风险以及诊断或早期诊断偏头痛或相关疾病，任选地，可以包括统计方法。

本发明中所述偏头痛相关疾病，意指与偏头痛相互关联的疾病，包括引发偏头痛的前期的症状或疾病，以及由偏头痛引发的后续的或者并发的症状或疾病，也包括各种类型的偏头痛，例如先兆的偏头痛(典型的偏头痛)和没有先兆的偏头痛(普通型偏头痛或者单纯性偏头痛)等。

根据本发明的实施例，所述方法可以进一步附加如下技术特征：

根据本发明的实施例，所述参考数据集包括来自多个偏头痛患者和多个健康对照的样本中生物标志物的相对丰度信息，所述生物标志物为根据本发明第一方面的生物标志物。

根据本发明的实施例，在将步骤(2)中所述的相对丰度信息与参考数据集进行比较的步骤中，还包括执行多元统计模型以获得患病概率。利用多元统计模型可以实现快速高效检测。

根据本发明的实施例，所述多元统计模型为随机森林模型。

根据本发明的实施例，所述患病概率大于阈值表明所述对象患有偏头痛或相关疾病或者有患有偏头痛或相关疾病的风险。

根据本发明的实施例，所述阈值为0.5。

根据本发明的实施例，当与参考值比较时，所述多形拟杆菌(bacteroidesthetaiotaomicron)和/或其类似物，所述普拉梭菌(faecalibacteriumprausnitzii)和/或其类似物，所述anaerotruncuscolihominis和/或其类似物的减少表明所述对象患有偏头痛或相关疾病或者处于患有偏头痛或相关疾病的风险中；所述bacteroidesintestinalis和/或其类似物的增加表明所述对象患有偏头痛或相关疾病或者处于患有偏头痛或相关疾病的风险中。

根据本发明的实施例，步骤(2)中所述生物标志物的相对丰度信息是利用测序方法得到的，进一步包括：从所述对象的所述样本中分离得到核酸样本，基于所获得的所述核酸样本，构建dna文库，对所述dna文库进行测序，以便获得测序结果，以及基于所述测序结果，将测序结果与参考基因集进行比对，以确定所述生物标志物的相对丰度信息。根据本发明的一种实施例，可以利用soap2和maq的至少一种将测序结果与参考基因集进行比对，由此，可以提高比对的效率，进而可以提高偏头痛检测的效率。根据本发明的实施例，可以同时对多种(至少两种)生物标志物进行检测，可以提高偏头痛检测的效率。

根据本发明的实施例，所述参考基因集包括从多个偏头痛患者和多个健康对照的样本中进行宏基因组测序，获得非冗余基因集，然后将所述非冗余基因集与肠道微生物基因集合并，得到所述参考基因集。本发明中的参考基因集可以是已有的基因集，如现有的已经公开的肠道微生物参考基因集；也可以是将多个偏头痛患者和多个健康对照的样品进行宏基因组测序，获得非冗余基因集，然后将所述非冗余基因集与肠道微生物基因集合并，得到所述参考基因集，由此获得的参考基因集信息更全面，检测结果更可靠。

本发明中所述非冗余基因集作本领域技术人员通常的理解来解释，简单来说是去除冗余基因后的剩余基因的集合。冗余基因通常指的是一条染色体上出现的一个基因的多个复份。

根据本发明的实施例，所述样本为粪便样本。

根据本发明的实施例，所述测序方法是通过第二代测序方法或第三代测序方法进行的。进行测序的手段并不受特别限制，通过二代或者三代测序的方法进行测序，可以实现快速高效的测序。

根据本发明的实施例，所述测序方法是通过选自hiseq2000、solid、454、和单分子测序装置的至少一种进行的。由此，能够利用这些测序装置的高通量、深度测序的特点，从而有利于对后续测序数据进行分析，尤其是进行统计学检验时的精确性和准确度。

根据本发明的第三方面，本发明提出了一种试剂盒，包括用于检测生物标志物的试剂，所述生物标志物包括根据本发明的第一方面的生物标志物。利用该试剂盒，可以确定这些标志物在肠道菌群中的相对丰度，由此，可以通过所得到的相对丰度值，从而确定对象是否患有或者易感偏头痛，以及用于监控偏头痛患者的治疗效果。

根据本发明的实施例，所述试剂盒包括一组参考数据集或者参考值，用来作为每种生物标志物的相对丰度的参考。优选可以将参考数据集或者参考值附在物理载体上，例如光盘，如cd-rom等。

根据本发明的实施例，所述试剂盒还包括第一计算机程序产品，该第一计算机程序产品用来执行获得所述的参考数据集或者参考值。即该第一计算机程序产品用来执行获得诊断对象是否患有偏头痛或相关疾病或者预测对象是否患有偏头痛或相关疾病的一组参考数据集或者参考值。

根据本发明的实施例，所述试剂盒还包括第二计算机程序产品，该第二计算机程序产品还可以用来执行根据本发明第二方面所述的诊断对象是否患有偏头痛或相关疾病或者预测对象是否患有偏头痛或相关疾病的风险的方法。

根据本发明的第四方面，本发明提出了生物标志物在制备试剂盒中的用途，所述试剂盒用于诊断对象是否患有偏头痛或相关疾病或者预测对象是否患有偏头痛或相关疾病的风险。根据本发明的实施例，所述诊断或预测包括如下步骤：1)从所述对象中采集样本；2)确定步骤1)中获得的所述样本中生物标志物的相对丰度信息，所述生物标志物为根据本发明的第一方面的生物标志物；3)将步骤2)中所述的相对丰度信息与参考数据集或参考值进行比较。根据所述的试剂盒，可以确定这些标志物在肠道菌群中的相对丰度，由此，可以通过所得到的相对丰度值，从而确定对象是否患有或者易感偏头痛，以及用于监控偏头痛患者的治疗效果的效率。

根据本发明的实施例，以上生物标志物在制备试剂盒中的用途，可以进一步附加如下技术特征：

根据本发明的实施例，以上用途中，所述参考数据集包括来自多个偏头痛患者和多个健康对照的样本中的生物标志物的相对丰度信息，所述生物标志物为根据本发明第一方面的生物标志物。

根据本发明的实施例，以上用途中，在将步骤2)中所述的相对丰度信息与参考数据集进行比较的步骤中，还包括执行多元统计模型以获得患病概率，优选地，所述多元统计模型为随机森林模型。

根据本发明的实施例，以上用途中，所述患病概率大于阈值表明所述对象患有偏头痛或相关疾病或者有患有偏头痛或相关疾病的风险；优选地，所述阈值为0.5。

根据本发明的实施例，以上用途中，当与参考值比较时，所述多形拟杆菌(bacteroidesthetaiotaomicron)和/或其类似物，所述普拉梭菌(faecalibacteriumprausnitzii)和/或其类似物，所述anaerotruncuscolihominis和/或其类似物的减少表明所述对象患有偏头痛或相关疾病或者处于患有偏头痛或相关疾病的风险中；所述bacteroidesintestinalis和/或其类似物的增加表明所述对象患有偏头痛或相关疾病或者处于患有偏头痛或相关疾病的风险中。

根据本发明的实施例，以上用途中，通过测序方法得到步骤2)中所述生物标志物的相对丰度信息，进一步包括：从所述对象的所述样本中分离得到核酸样本，基于所获得的所述核酸样本，构建dna文库，对所述dna文库进行测序，以便获得测序结果，以及基于所述测序结果，将测序结果与参考基因集进行比对，以确定所述生物标志物的相对丰度。

根据本发明的实施例，以上用途中，所述参考基因集包括从多个偏头痛患者和多个健康对照的样本中进行宏基因组测序，获得非冗余基因集，然后将所述非冗余基因集与肠道微生物基因集合并，得到所述参考基因集。

根据本发明的实施例，以上用途中，所述样本为粪便样本。

根据本发明的实施例，以上用途中，所述测序方法是通过第二代测序方法或第三代测序方法进行的。

根据本发明的实施例，以上用途中，所述测序方法是通过选自hiseq2000、solid、454、和单分子测序装置的至少一种进行的。

根据本发明的第五方面，本发明提出了一种生物标志物作为靶点用于筛选治疗或者预防偏头痛或相关疾病的药物的用途。根据本发明的实施例，所述生物标志物为根据本发明第一方面的生物标志物。根据本发明的实施例，可以利用候选药物使用前和使用后对这些生物标志物的影响，从而确定候选药物是否可以用于治疗或预防偏头痛。

本发明所取得的有益效果为：粪便是人体的代谢产物，其内不仅包含人体的代谢产物，还包括对我们的机体代谢和免疫以及机体其他功能的变化密切相关的肠道微生物，对粪便进行研究，发现在偏头痛患者和健康人群的肠道菌群的组成上存在明显的差异，可以准确地对偏头痛患者进行患病风险评估、早期诊断。本发明通过对偏头痛患者和健康人群的肠道菌群的比较和分析，得到多种相关的肠道微生物，结合高质量的偏头痛人群和非偏头痛人群mlgs作为训练集，能够准确地对偏头痛患者进行患病风险评估、早期诊断。该方法与目前常用的诊断方法相比，具有方便、快捷的特点。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1示出了根据本发明一个实施例中确定对象是否患有偏头痛或相关疾病或者预测对象是否患有偏头痛或相关疾病的设备的结构示意图，其中图a为所述设备的示意图，图b为设备中的生物标志物相对丰度确定装置的示意图。

图2示出根据本发明一个实施例mlg(metagenomiclinkagegroup，操作分类单元)水平上偏头痛患者和健康对照mlg计数(p＝0.02956，wilcoxtest)的两组差异情况。

图3示出了根据本发明的一个实施例随机森林分类器中5次10折交叉验证的错误率分布情况图。

图4示出了根据本发明的一个实施例基于随机森林模型(4个肠道标志物)由健康对照和偏头痛患者组成的训练集的接收者操作曲线(roc)和曲线下面积(auc)。

图5示出了根据本发明的一个实施例基于随机森林模型(4个肠道标志物)，由健康对照和偏头痛病患者(健康：30和患病：10)组成的验证集的接收者操作曲线(roc)和曲线下面积(auc)。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

针对现有偏头痛诊断方法不能做到早期预警、不能预测偏头痛发病以及发展的趋势等缺点，本发明提出一种用于评估偏头痛风险或者早期诊断偏头痛的生物标志物，以及偏头痛的诊断和患病风险评估方法，能预测偏头痛发病以及发展的趋势，应用于疾病病理分型。

生物标志物

根据本发明的第一方面，本发明提出了一种生物标志物。

本发明所用术语具有相关领域普通技术人员通常理解的含义。然而，为了更好地理解本发明，对一些定义和相关术语的解释如下：

根据本发明，术语“偏头痛”，是一种出现反复轻度或重度头痛的慢性疾病，通常伴有各种自主神经系统症状。

根据本发明，生物标志物质的水平通过相对丰度指示。

根据本发明，术语“生物标志物”，也称为“生物学标志物”，是指个体的生物状态的可测量指标。这样的生物标记物可以是在个体中的任何物质，只要它们与被检个体的特定生物状态(例如，疾病)有关系，例如，核酸标志物(也可以称为基因标志物，例如dna)，蛋白质标志物，细胞因子标记物，趋化因子标记物，碳水化合物标志物，抗原标志物，抗体标志物，物种标志物(种/属的标记)和功能标志物(ko/og标记)等。其中，核酸标志物的含义并不局限于现有可以表达为具有生物活性的蛋白质的基因，还包括任何核酸片段，可以为dna，也可以为rna，可以是经过修饰的dna或者rna，也可以是未经修改的dna或者rna，以及由它们组成的集合。在本文中核酸标志物有时也可以称为特征片段。在本发明中，生物标志物也可以用“肠道标志物”来替代，因为本发明所发现的与偏头痛密切相关的几种生物标志物都存在于受试者的肠道内。生物标记物经过测量和评估，经常用以检查正常生物过程，致病过程，或治疗干预药理响应，而且在许多科学领域都是有用的。

根据本发明的实施例，可以运用高通量测序，批量分析健康人群和偏头痛患者的粪便样本。基于高通量测序数据，对健康人群与偏头痛患者群进行比对，从而确定与偏头痛患者群相关的特异性核酸序列。简言之，其步骤如下：

样品的收集与处理：收集健康人群与偏头痛患者群的粪便样本，使用试剂盒进行dna提取，得到核酸样本；

文库构建和测序：dna文库构建和测序是利用高通量测序进行，以便得到粪便样品中所包含肠道微生物的核酸序列；

通过生物信息学的分析方法，确定与偏头痛患者相关的特异性肠道微生物核酸序列。首先，将测序序列(reads)与参照基因集(也称为参考基因集，可以为新构建的基因集或任何已知序列的数据库，例如，采用已知的人肠道微生物群落非冗余基因集)进行比对。接下来，基于比对结果，分别确定来自健康人群和偏头痛患者群粪便样品的核酸样本中各基因的相对丰度。通过将测序序列与参照基因集进行比对，可以将测序序列与参照基因集中的基因建立对应关系，从而针对核酸样本中的特定基因，与其相对应的测序序列的数目可以有效地反映该基因的相对丰度。由此，可以通过比对结果，按照常规的统计分析，确定在核酸样本中基因的相对丰度。最后，在确定核酸样本中各基因的相对丰度后，对来自健康人群和偏头痛患者群粪便的核酸样本中各基因的相对丰度进行统计检验，由此，可以判断在健康人群和偏头痛患者人群中是否存在相对丰度有显著差异的基因，如果存在基因是显著差异的，则该基因被当作是异常状态的生物标志物，即核酸标志物。

另外，对于已知或新构建的参照基因集，其通常包含基因物种信息和功能注释，由此，在确定基因相对丰度的基础上，可以进一步通过将基因的物种信息和功能注释进行分类，从而确定肠道菌群中各微生物的物种相对丰度和功能相对丰度，也就可以进一步确定异常状态的物种标志物和功能标志物。简言之，确定物种标志物和功能标志物的方法进一步包括：将健康人群和偏头痛患者群的测序序列与参照基因集进行比对；基于比对结果，分别确定健康人群和偏头痛病患者群的核酸样本中各基因的物种相对丰度和功能相对丰度；对来自健康人群和偏头痛病人群的核酸样本中各基因的物种相对丰度和功能相对丰度进行统计学检验；以及分别确定在健康人群和偏头痛病患者群的核酸样本之间相对丰度存在显著差异的物种标志物和功能标志物。根据本发明的实施例，可以采用对来自相同物种的基因的相对丰度和具有相同功能注释的基因的相对丰度进行统计检验，例如加和、取平均值、中位数值等，来确定功能相对丰度和物种相对丰度。

最后，确定了在健康人群和偏头痛患者群的粪便样品之间相对丰度存在显著差异的生物学标志物，即包括微生物物种：多形拟杆菌(bacteroidesthetaiotaomicron)和/或其类似物，普拉梭菌(faecalibacteriumprausnitzii)和/或其类似物，bacteroidesintestinalis和/或其类似物和/或anaerotruncuscolihominis和/或其类似物。由此，通过检测上述微生物至少一种是否存在，来有效地确定对象是否患有或者易感偏头痛病，并且可以用于监控偏头痛病患者的治疗效果。在本文中所使用的术语“存在”应做广义理解，既可以指的是定性分析样本中是否含有相应的目标物，也可以指对样本中的目标物进行定量分析，并且还可以进一步将所得到的定量分析结果与参照(例如通过对具有已知状态的样本进行平行试验所得到的定量分析结果)进行统计学分析或者任何已知数学运算所得到的结果。本领域技术人员可以根据需要和试验条件进行容易的选择。根据本发明的实施例，还可以通过确定这些微生物在肠道菌群中的相对丰度，从而确定对象是否患有或者易感偏头痛病，以及用于监控偏头痛患者的治疗效果。

可以通过检测对象肠道菌群中是否存在上述微生物物种中的至少一种，也可以是检测对象肠道菌群中是否存在上述中的两种或者多种，即是否存在上述生物标志物组合，从而来有效地确定对象是否患有或者易感偏头痛，并且可以用于监控偏头痛患者的治疗效果。在本文中，术语“生物标志物组合”是指一组生物标记物(即两个或更多个生物标志物的组合)。

对于物种标志物和功能标志物本领域技术人员还可以通过常规的菌种鉴别手段和生物活性检验手段来确定在肠道菌群中是否存在所述物种和功能。例如，菌种鉴别可以通过进行16srrna进行。

检测对象是否患有偏头痛或相关疾病或者预测对象是否患有偏头痛或相关疾病的设备

根据本发明的又一方面，本发明提出了一种检测对象是否患有偏头痛或相关疾病或者预测对象是否患有偏头痛或相关疾病的设备，如图1所示。根据本发明的实施例，所述设备包括样本采集装置100、生物标志物相对丰度确定装置200以及患病概率确定装置300(如图1中的a所示)。其中，样本采集装置适于从所述对象中采集样本；生物标志物相对丰度确定装置与所述样本采集装置相连，其适于确定所获得的样本中的生物标志物的相对丰度信息，所述生物标志物为根据本发明的第一方面的生物标志物；所述患病概率确定装置与所述生物标志物相对丰度确定装置相连，所述患病概率确定装置用于将相对丰度确定装置中获得的生物标志物的相对丰度信息与参考数据集或参考值进行比对。

根据本发明的一种具体实施方式，所述参考数据集包括来自多个偏头痛患者和多个健康对照的样本中的根据本发明的第一方面的生物标志物的相对丰度信息。

根据本发明的一种具体实施方式，所述患病概率确定装置中还包括执行多元统计模型以获得患病概率；优选地，所述多元统计模型为随机森林模型。根据本发明的一种优选实施方式，所述患病概率大于阈值表明所述对象患有偏头痛或相关疾病或者有患有偏头痛或相关疾病的风险；优选地，所述阈值为0.5。根据本发明的一种优选实施方式，当与参考值比较时，所述多形拟杆菌(bacteroidesthetaiotaomicron)和/或其类似物，所述普拉梭菌(faecalibacteriumprausnitzii)和/或其类似物，所述anaerotruncuscolihominis和/或其类似物的减少表明所述对象患有偏头痛或相关疾病或者处于患有偏头痛或相关疾病的风险中；所述bacteroidesintestinalis和/或其类似物的增加表明所述对象患有偏头痛或相关疾病或者处于患有偏头痛或相关疾病的风险中。

根据本发明的一种具体实施方式，所述生物标志物相对丰度确定装置(如图1中的b所示)进一步包括：核酸样本分离单元210、测序单元220以及比对单元230。根据本发明的实施例，核酸样本分离单元适于从所述对象的所述样本中分离得到核酸样本，测序单元与核酸样本分离单元相连，并且基于所获得的核酸样本，构建dna文库，对所述dna文库进行测序，以便获得测序结果，比对单元与测序单元相连，并且基于所述测序结果，将测序结果与参考基因集进行比对，以确定所述生物标志物的相对丰度信息。

根据本发明的一种具体实施方式，所述参考基因集包括从多个偏头痛患者和多个健康对照的样本中进行宏基因组测序，获得非冗余基因集，然后将所述非冗余基因集与肠道微生物基因集合并，得到所述参考基因集。

根据本发明的实施例，测序单元并不受特别限制。优选地，所述测序单元利用第二代测序方法或第三代测序方法进行。优选地，所述测序单元为选自hiseq2000、solid、454、和单分子测序装置的至少一种。由此，能够利用这些测序装置的高通量、深度测序的特点，从而有利于对后续测序数据进行分析，尤其是进行统计学检验时的精确性和准确度。

根据本发明的一个实施例，所述比对单元利用选自soap2和maq的至少一种进行所述比对。由此，可以提高比对的效率，进而可以提高检测偏头痛的效率。

另外，根据本发明的实施例，本发明还提出了一种药物筛选方法。由此，根据本发明实施例，偏头痛密切相关的标志物作为药物设计靶点来进行药物的筛选，促进新的治疗偏头痛病的药物的发现。例如，可以通过检测与候选药物接触前后，生物标志物水平的变化，来确定候选药物是否可以作为治疗或预防偏头痛病的药物。例如，检测有害生物标志物水平在接触药物候选物之后是否有所降低，有益生物标志物水平在接触药物候选物之后是否有所升高。另外，还可以通过确定药物对多形拟杆菌(bacteroidesthetaiotaomicron)和/或其类似物，普拉梭菌(faecalibacteriumprausnitzii)和/或其类似物，bacteroidesintestinalis和/或其类似物，anaerotruncuscolihominis和/或其类似物中的至少一种的生物活性的直接影响或间接影响来对候选化合物是否可以作为治疗或预防偏头痛的药物来进行筛选。由此，根据本发明的实施例，本发明还提出了根据偏头痛的生物标志物在筛选治疗或预防偏头痛的药物中的用途。

需要说明的是，在此提供术语的解释仅为了使本领域技术人员更好地理解本发明，并非对本发明限制。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

下面参考具体实施例，对本发明进行说明，需要说明的是，这些实施例仅仅是说明性的，而不能理解为对本发明的限制。

若未特别指明，实施例中所采用的技术手段为本领域技术人员所熟知的常规手段，可以参照《分子克隆实验指南》第三版或者相关产品进行，所采用的试剂和产品也均为可商业获得的。未详细描述的各种过程和方法是本领域中公知的常规方法，所用试剂的来源、商品名以及有必要列出其组成成分者，均在首次出现时标明，其后所用相同试剂如无特殊说明，均以首次标明的内容相同。

本发明采用宏基因组关联分析(mwas)的分析方法，经测序分析粪便样本的菌群组成，功能差异；用随机森林判别模型判别偏头痛群体和非偏头痛群体，获得患病概率，用于偏头痛的患病风险评估、诊断、早期诊断或者寻找潜在药物靶点。

根据本发明，术语“mlg”是指操作分类单元(metagenomiclinkagegroup)(qinj,liy,caiz,etal.ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes[j].nature,2012,490(7418):55-60.)，是在系统发生学研究或群体遗传学研究中，为了便于进行分析，人为给某一个分类单元(品系，种，属，分组等)设置的同一标志。通常按照相似性阈值将序列划分为不同的mlg，每一个mlg通常被视为一个微生物物种。若一个mlg中有超过50％的序列以95％的碱基相似性比对上已知微生物物种，则认为mlg为此已知物种；若一个mlg中有超过50％的序列以85％的碱基相似性比对上已知微生物属水平，则认为mlg为此已知物种属水平注释。

根据本发明，术语“个体”指动物，特别是哺乳动物，如灵长类动物，最好是人。

根据本发明，术语如“一”、“一个”和“这”不仅指单数的个体，而是包括可以用来说明特定实施方式的通常的一类。

在本发明中，所述的测序(二代测序)和mwas具有本领域公知，本领域技术人员可以根据具体情况进行调整。根据本发明的实施例，可以依据文献(wang,jun,andhuijuejia."metagenome-wideassociationstudies:fine-miningthemicrobiome."naturereviewsmicrobiology14.8(2016):508-522.)中记载的方法进行。

在本发明中，随机森林模型和roc曲线的使用方法为本领域所公知，本领域技术人员可以根据具体情况进行参数设置和调整。根据本发明的实施例，可以根据文献(drogand,dunnwb,linw,buijsseb,schulzemb,langenbergc,brownm,floegela.,dietrichs,rolandssono,wedgedc,goodacrer,forouhing,sharpsj,sprangerj,warehamnj,boeingh:untargetedmetabolicprofilingidentifiesalteredserummetabolitesoftype2-diabetesmellitusinaprospective,nestedcasecontrolstudy.clinchem2015,61:487-497.；mihaliksj,michaliszynsf,delasherasj,bachaf,lees,chacedh,dejesusvr,vockleyj,arslaniansa:metabolomicprofilingoffattyacidandaminoacidmetabolisminyouthwithobesityandtype2diabetes:evidenceforenhancedmitochondrialoxidation.diabetescare2012,35:605-611.，通过引用全文并入此处)中记载的方法进行。

在本发明中，构建了偏头痛受试者和非偏头痛受试者的生物标志物的训练集，并以此为基准，对待测样本的生物标志物含量值进行评估。

本领域技术人员知晓，当进一步扩大样本量时，利用本领域公知的样本检测和计算方法，可以得出每种生物标志物在样本中的正常含量值区间(绝对数值)。可以将检测得到的生物标志物含量的绝对值与正常含量值进行比较，任选地，还可以结合统计学方法，以得出偏头痛患病风险评价、诊断以及用于监控偏头痛患者的治疗效果的效率等。

不希望受任何理论的限制，发明人指出这些生物标志物是存在于人体中的肠道菌群。通过本发明所述的方法对受试者肠道菌群进行关联分析，得到偏头痛群体的所述生物标志物在菌群检测中表现出一定的含量范围值。

实施例1

1.1样本收集

参照文献ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes(qin,j.etal.nature490,55-60(2012))记载的方法，采集粪便样品后冷冻运输并迅速转移到-80℃保存，进行dna提取，得到提取的dna样本。所用到的偏头痛和非偏头痛受试者的粪便样品来自英国成年双胞胎，共计250人，然后从250个总样本中丢弃29个缺失表型的样本，所述缺失表型的样本是指根据临床检测手段不能判断患病与否的样本，剩余221个样本包括健康样本167例和偏头痛样本54例。

1.2宏基因组测序与组装

利用所提取的dna样本构建测序文库，在illuminahiseq2000测序平台上进行双向(paired-end)宏基因组测序(插入片段350bp，读长100bp)。对测序产生的数据进行过滤(quality-controlled，去除adapter污染序列、去低质量序列和去宿主基因组污染序列)，并利用soapdenovo软件(v2.04)进行重头组装，得到组装好的组装片段(contigs)。

1.3基因集构建

对于组装好的组装片段(contigs)，利用genemark软件(v2.7d)进行基因预测，接着利用blat软件进行去冗余(比对相似度(identity)在95％以上，比对的覆盖度(overlap)在90％以上，没有缺口(gaps))，得到了包含5,901,478个基因的非冗余基因集；然后参考文献anintegratedcatalogofreferencegenesinthehumangutmicrobiome(lij,jiah,caix,etal.naturebiotechnology,2014,32(8):834-841.)中的描述，利用cd-hit软件将粪便样品基因集进一步补充到已公开的包含9,879,896基因的肠道微生物参考基因集中(比对相似度在95％以上，比对覆盖度在90％以上)，最终得到了包含11,446,577个基因的新基因集。

将上述用于“1.2宏基因组测序与组装”组装的高质量测序片段(reads)与肠道参考基因集(上述11,446,577个基因)进行比对，参照文献ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes(qin,j.etal.nature490,55-60(2012))记载的方法，从而得到基因的相对丰度。

1.4物种分类注释与丰度计算

通过与img(v400)数据库进行比对，参照文献ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes(qin,j.etal.nature490,55-60(2012))记载的方法，对预测的基因进行物种分类。对于门水平的物种分类，比对的相似度65％以上，比对覆盖度在70％以上作为门水平的物种分类的临界值。对于属水平的物种分类，比对的相似度在85％以上作为属水平的物种分类的临界值。对于比对的相似度在95％以上作为种、株水平的物种分类的临界值。

然后参照文献ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes(qinj,liy,caiz,etal.nature,2012,490(7418):55-60.)记载的方法，利用基因的相对丰度计算该物种的相对丰度，并用秩和检验(wilcoxonrank-sumtest)进行统计检验(p<0.05)，确定病例与对照之间的相对丰度存在显著差异的物种。

1.5生物标志物丰度计算

根据基因丰度对基因进行聚类(参照文献ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes(qin,j.etal.nature490,55-60(2012)))，选取聚类基因数大于50的mlgs进行物种注释；并根据对应基因丰度中位数的办法，得到对应mlgs的丰度，并计算病例与对照之间的相对丰度存在显著差异的mlgs。

1.6利用随机森林(roc/auc)筛选偏头痛发生发展的潜在生物标志物

为进一步筛选潜在疾病肠道生物标志物，本实施例构建了偏头痛受试者和非偏头痛受试者的生物标志物的训练集，并以此为基准，对待测样本的生物标志物含量值进行评估。其中，在本发明中，所述训练集和所述验证集具有本领域公知的含义。在本发明的实施方案中，训练集是指包含一定样本数的偏头痛受试者和非偏头痛受试者待测样本中的各生物标志物的含量的数据集合。验证集是用来测试训练集性能的独立数据集合。其中，非偏头痛受试者为精神状态良好的受试者，受试者可以为人或者模型动物，在本实施例中是以人为受试者进行实验的。

具体包括如下步骤：

本发明的221个样品(健康人：167和偏头痛病人：54人)中，由于患偏头痛疾病的样本过少，因此参照文献oversamplingmethodforimbalancedclassification(zhengz,caiy,liy.computingandinformatics,2016,34(5):1017-1037)采用过抽样的方法随机可放回54个患病样本，然后从中选取137个偏头痛样品，从167个正常样本中抽取到137个正常样本，共同组成274个样本(137个偏头痛样本和137个正常人样本)作为训练集，其余样品作为验证集(10个偏头痛病人和30个正常人)。

1.6.1利用训练集数据筛选得到的生物标志物

首先，按照1.4-1.5描述的方法计算训练集中每个样本中各基因的相对丰度并对基因进行聚类。然后将训练集基因数量大于50的mlg输入随机森林(randomforest4.6-12inr3.2.5,rf)分类器。对分类器进行5次10折交叉验证，10次重复，利用rf模型筛选的mlg相对丰度对每一个体计算其偏头痛患病风险(图3，表2)，并绘制受试者操作特征(receiveroperationcharacteristic，roc)曲线，并计算出曲线下面积(auc)作为判别模型效能评价参数。选取标志物组合数＜30，且判别效能最佳的组合为本发明组合。在模型中输出每个mlg的选择频率，频率越高，代表该标志物用来判别偏头痛和非偏头痛的重要性越高。

结果显示，本发明所得rf分类器包含了4个代谢物(即4个生物标志物)，这4个生物标志物对应的相对丰度如表1所示，其详细信息如表2所示。图3示出了随机森林分类器中5次10折交叉验证的错误率分布情况。该模型用训练集样品(偏头痛患者137例，正常对照137例)在经mwas流程处理得到的满足目标的mlg相对丰度进行训练。图3中黑色实曲线代表5次试验(浅灰色曲线代表5次试验)的平均值，竖线代表所选最佳组合中mlg数目。图4示出了基于随机森林模型(4个生物标志物)判断偏头痛患者和健康对照，训练集的接收者操作曲线(roc)和曲线下面积(auc)，其中特异性表征的是对于不患病判对的概率，敏感性指的是对于患病判对的概率，其中，对训练集样本的判别效能为：auc＝99.2％，95％置信区间ci＝98.46-99.93％，结果表明该模型所得代谢物组合可作为区分偏头痛与非偏头痛的潜在生物标志物。

表1随机森林模型训练集肠道标志物(mlg)相对丰度数据

表24种生物标志物详细信息

其中，表2中，每种标志物基因集大小代表的是每种标志物中包括的核酸序列的个数；标志物基因集注释数代表的是：其中有多少基因注释到这个标志物上；标志物最优注释表征的是根据每种标志物包括的所有基因集与img(v400)数据库进行比对，得到的相应的物种分类；最优注释基因比例表征的是：这个基因簇里面有多少比例的基因注释到那个物种；最优注释相似度标征的是：这些基因簇里注释到这个物种，所有基因的注释准确度的均值作为该标志物的最优注释相似度；富集方向代表的是，每种生物标志物在偏头痛患者和健康对照中的相对丰度的变化，其中m<c代表的是该生物标志物在偏头痛患者中的相对丰度小于在健康对照中的相对丰度，c<m代表的是该生物标志物在偏头痛患者中的相对丰度大于在健康对照中的相对丰度；筛选频率代表的是：进行5折10次交叉验证，该生物标志物被选择的频率；验证集auc代表的是：代表在训练集数据得到模型下，对验证集数据的判别程度；95％置信区间(95％ci)在a到b之间，代表的是对于给出的每种生物标志物，有相应的95％的概率可以说样本介于给出的a到b之间，发生错误的概率为5％。

从表2可以看出，富集方向一栏中相比较于健康对照，偏头痛患者在bacteroidesthetaiotaomicronvpi-5482，faecalibacteriumprausnitziia2-165，和/或anaerotruncuscolihominisdsm17241均表现为相对丰度减少，bacteroidesintestinalisdsm17393表现为相对丰度增加。

表3给出了每种微生物对应的菌株信息。

表3微生物菌种的信息

表4示出了4种生物标记物结合，来预测训练集的患病概率，其中患病概率>＝0.5可以确认个体具有患偏头痛的风险或者患有偏头痛。

表44种生物标记物结合预测训练集的患病概率

1.6.2利用验证集数据验证筛选得到的生物标志物

本发明，随即使用独立人群对该模型进行验证，患病概率(rp)≥0.5预测个体具有患偏头痛疾病风险或者患有偏头痛。首先，按照1.5描述的方法计算验证集中每个样本中各生物标志物的相对丰度。然后按照1.6.1的方法利用随机森林模型对验证集数据进行验证。

表5随机森林模型验证集肠道标志物(mlg)相对丰度数据

基于该模型：

图5示出了基于随机森林模型(4个生物标志物)判断偏头痛患者和健康对照，验证集的接收者操作曲线(roc)和曲线下面积(auc)，其中基于4个标记物，对独立验证集(偏头痛＝10和健康对照＝30)，模型的判别auc＝94.33％(95％ci＝87.13％-99.4％)；分别基于bacteroidesthetaiotaomicronvpi-5482、faecalibacteriumprausnitziia2-165，验证集曲线下面积分别为0.725、0.745，特异性高。

在3.2.5版本r中使用“randomforest4.6-12package”进行随机森林模型分类和回归。输入包括训练集数据(即训练样本中选定的mlgs标记物的相对丰度，见表1)，样本疾病状态(训练样本的样本疾病状态为矢量，‘1’代表偏头痛，‘0’代表健康人)，以及一个验证集(验证集中所选mlgs标记物的相对丰度，见表5)。然后，发明人利用r软件中随机森林包的随机森林函数建立分类和预测函数对验证集数据进行预测，输出即为预测结果(患病概率；阈值为0.5，如果疾病的概率≥0.5，则认为有患偏头痛的风险)。

表6随机森林模型(分别基于4个肠道标志物组合、单独采用生物标记物bacteroidesthetaiotaomicronvpi-5482以及单独采用生物标记物faecalibacteriumprausnitziia2-165)预测偏头痛和健康对照的样品患有偏头痛的风险或患有偏头痛的概率(患病概率>＝0.5确认个体具有患偏头痛的风险或者患有偏头痛)

以上结果表明，本发明公开的生物标志物具有较高的准确度和特异性，具有良好的开发为诊断方法的前景，从而为偏头痛的患病风险评估、诊断、早期诊断，寻找潜在药物靶点提供依据。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或彼此可通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可以是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭锐进;王奇;贾慧珏;鞠艳梅
技术所有人：深圳华大生命科学研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
2、张老师：1.探索新型氧化还原酶结构-功能关系，电催化反应机制 2.酶电催化导向的酶分子改造 3.纳米材料、生物功能多肽对酶-电极体系的影响4. 生物电化学传感和生物电合成体系的设计与应用。
3、豆老师：1.环境纳米材料及挥发性有机化合物（VOCs） 2.CO污染物的催化氧化 3.低温等离子体 4.吸脱附等控制技术
4、赵老师：1.高分子材料改性及加工技术 2.微孔及过滤材料 3.环境友好高分子材料
5、邬老师：1.高分子材料的共混与复合 2.涉及材料功能化及结构与性能的研究；高分子热稳定剂的研发
如您是高校老师，可以点此联系我们加入专家库。