宫颈癌的判断方法及系统与流程

文档序号：18145650发布日期：2019-07-10 11:47阅读：626来源：国知局

本发明涉及宫颈癌的判断方法及系统。

背景技术：

宫颈癌是最常见的妇科肿瘤之一，其发病率呈逐年升高的趋势。在已知的众多癌症中，宫颈癌是唯一确定病因的恶性肿瘤，人类乳头瘤病毒(hpv)高危型持续感染是导致宫颈癌发生的主要原因。宫颈癌是可通过常规手段早期诊断及预防的癌症。目前宫颈癌诊断的主要方法有高危型hpv检测和宫颈脱落细胞的细胞学检查。

对高危型hpv的检测方法主要有：实时荧光定量pcr法、第二代杂交捕获法、酶切信号放大法等。

对宫颈脱落细胞的细胞学检查主要有液基薄层细胞学检测(thin-cytologictest，tct)，其优点是无创性、对部分宫颈癌能做出较准确的判断；缺点是灵敏性低，主观性大，诊断出的不明意义的非典型鳞状上皮细胞(asc-us)和非典型腺细胞(agc)仍较多。

本领域目前尚无依赖于高通量测序方法简便快速地判断患宫颈癌的风险的方法，而本发明填补了这一技术空白。

技术实现要素：

染色体不平衡是恶性肿瘤的特征之一，其是指相对于常见的二倍体基因组发生的基因组结构变异，可包括染色体数量的改变，如多倍体或单倍体；也包括染色体局部的改变，如拷贝数增加或拷贝数缺失等。目前尚无利用染色体不平衡来方便快捷地对宫颈癌进行诊断的方法。

本发明人发现，通过高通量测序可方便快捷地判断某个染色体是否存在染色体不平衡，进而可对宫颈癌进行筛查、诊断或风险分级。

大体上，本发明提供判断某个染色体是否存在染色体不平衡的方法、存储有用于执行该方法的指令的计算机可读介质、包括该计算机可读介质的计算设备及包括该计算设备的系统，还提供对宫颈癌进行筛查、诊断或风险分级的方法、存储有用于执行该方法的指令的计算机可读介质、包括该计算机可读介质的计算设备及包括该计算设备的系统。本发明还提供用于对宫颈癌进行筛查、诊断或风险分级的一组染色体，及用于检测该组染色体的染色体不平衡的试剂在制备对宫颈癌进行筛查、诊断或风险分级的诊断剂中的用途，及用于检测该组染色体的染色体不平衡的装置在制备对宫颈癌进行筛查、诊断或风险分级的设备中的用途。

一方面，本发明提供判断来自受试者(例如人)的样品的第2、3、5、8、11、17和18号染色体中至少1条是否存在染色体不平衡(例如染色体长臂拷贝数与短臂拷贝数的差异是否高于或等于阈值，再如染色体长臂覆盖度与短臂覆盖度的差异是否高于或等于阈值)的方法。在上述方法的一个具体实施方式中，例如，可将来自受试者的样品的第2、3、5、8、11、17和18号染色体中至少1条的染色体结构信息(例如测定染色体不平衡、染色体长臂拷贝数与短臂拷贝数的差异、或染色体长臂覆盖度与短臂覆盖度的差异所需的结构信息)与来自健康个体的相应染色体的染色体结构信息进行比较，以确定来自所述个体的样品中上述染色体是否存在染色体不平衡。

本发明还提供确定染色体不平衡的方法，可包括：测定染色体长臂拷贝数与短臂拷贝数的差异，在染色体长臂拷贝数与短臂拷贝数的差异高于或等于阈值的情况下，判断为存在染色体不平衡。

本发明还提供确定染色体不平衡的方法，可包括：测定染色体长臂覆盖度与短臂覆盖度的差异，在染色体长臂覆盖度与短臂覆盖度的差异高于或等于阈值的情况下，判断为存在染色体不平衡。

在本发明的一个具体实施方式中，可通过以下方式判断染色体不平衡：

将受试者(例如人)的全基因组数据序列(例如高通量测序技术获得的全基因组数据序列)比对到同种受试者的参考基因组(例如人的参考基因组hg19)，并例如按照10～1000kb/段(优选50～800kb/段，更优选100～500kb/段，更优选150～300kb/段，最优选200kb/段)，平均分成多个段(例如bin)；

分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covchrip)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covchriq)；

根据以下公式，计算r值：

或

其中p代表长臂，q代表短臂，chr为染色体(chromosome)的缩写，i选自2、3、5、8、11、17和18。

在上述方法的另一实施方式中，可进一步基于上述人第i号染色体(chri)的r值(rchri)，根据以下公式2计算人第i号染色体(chri)的z分(zchri)：

其中，

μrchri是对应于健康群体的r值的平均值；

σrchri是对应于健康群体的r值的标准偏差。

在上述方法的一个具体实施方式中，所述i选自2、3、5和8，选自2、3、5、8和18，选自3、5和11，或者选自3、5、11、17和18。

在上述方法的一个具体实施方式中，在z分的绝对值≥3的情况下，判断为该第i号染色体有染色体不平衡；在z分的绝对值<3的情况下，判断为该第i号染色体无染色体不平衡。

在上述方法的一个具体实施方式中，所述方法可包括如下步骤：

(a)从宫颈细胞提取基因组dna，对该基因组dna进行片段化，及构建dna片段文库；

(b)对所构建的dna片段文库进行高通量测序而得到读长(reads)；

(c)将读长(reads)比对到参考基因组，并例如按照10～1000kb/段(优选50～800kb/段，更优选100～500kb/段，更优选150～300kb/段，最优选200kb/段)，平均分成多个段(例如bin)；

(d)分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covchrip)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covchriq)；及

(e)根据以下公式计算人第i号染色体(chri)的染色体结构信息，即r值(rchri)：

或

其中p代表长臂，q代表短臂，chr为染色体(chromosome)的缩写，i选自2、3、5、8、11、17和18；

进一步基于上述人第i号染色体(chri)的r值(rchri)，根据以下公式2计算人第i号染色体(chri)的z分(zchri)：

其中，

μrchri是对应于健康群体的r值的平均值；

σrchri是对应于健康群体的r值的标准偏差，

其中所述i选自2、3、5和8，选自2、3、5、8和18，选自3、5和11，或者选自3、5、11、17和18，

其中，在z分的绝对值≥3的情况下，判断为该第i号染色体有染色体不平衡；在z分的绝对值<3的情况下，判断为该第i号染色体无染色体不平衡。

另一方面，本发明提供对宫颈癌进行筛查、诊断或风险分级的方法，所述方法可包括判断来自受试者(例如人)的样品的第2、3、5、8、11、17和18号染色体中至少1条是否存在染色体不平衡(例如染色体长臂拷贝数与短臂拷贝数的差异是否高于或等于阈值，再如染色体长臂覆盖度与短臂覆盖度的差异是否高于或等于阈值)，例如，将来自受试者的样品的第2、3、5、8、11、17和18号染色体中至少1条的染色体结构信息(例如测定染色体不平衡、染色体长臂拷贝数与短臂拷贝数的差异、或染色体长臂覆盖度与短臂覆盖度的差异所需的结构信息)与来自健康个体的相应染色体的染色体结构信息进行比较，以确定来自所述个体的样品中上述染色体是否存在染色体不平衡，其中，在染色体不平衡(例如染色体长臂拷贝数与短臂拷贝数的差异高于或等于阈值，再如染色体长臂覆盖度与短臂覆盖度的差异高于或等于阈值)的情况下，判断为受试者患有宫颈癌或者存在患宫颈癌的风险。

在上述对宫颈癌进行筛查、诊断或风险分级的方法的一个具体实施方式中，可通过以下方式判断染色体不平衡：

将受试者(例如人)的全基因组数据序列(例如高通量测序技术获得的全基因组数据序列)比对到参考基因组(例如人的参考基因组hg19)，并例如按照10～1000kb/段(优选50～800kb/段，更优选100～500kb/段，更优选150～300kb/段，最优选200kb/段)，平均分成多个段(例如bin)；

分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covchrip)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covchriq)；

根据以下公式，计算r值：

或

其中p代表长臂，q代表短臂，chr为染色体(chromosome)的缩写，i选自2、3、5、8、11、17和18。

在上述对宫颈癌进行筛查、诊断或风险分级的方法的另一实施方式中，可进一步基于上述人第i号染色体(chri)的r值(rchri)，根据以下公式2计算人第i号染色体(chri)的z分(zchri)：

其中，

μrchri是对应于健康群体(非宫颈疾病(宫颈炎除外)且非其他癌症患者)的r值的平均值；

σrchri是对应于健康群体(非宫颈疾病(宫颈炎除外)且非其他癌症患者)的r值的标准偏差，以及

任选地进一步基于上述z分(zchri)，根据以下公式3计算c分(cscore)：

在上述对宫颈癌进行筛查、诊断或风险分级的方法的一个具体实施方式中，其中所述i选自2、3、5和8，选自2、3、5、8和18，选自3、5和11，或者选自3、5、11、17和18。

在上述对宫颈癌进行筛查、诊断或风险分级的方法的一个具体实施方式中，在z分的绝对值≥3的情况下，判断为该第i号染色体有染色体不平衡；在z分的绝对值<3的情况下，判断为该第i号染色体无染色体不平衡。

在上述对宫颈癌进行筛查、诊断或风险分级的方法的一个具体实施方式中，所述方法可包括如下步骤：

(a)从宫颈细胞提取基因组dna，对该基因组dna进行片段化，及构建dna片段文库；

(b)对所构建的dna片段文库进行高通量测序而得到读长(reads)；

(d)分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covchrip)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covchriq)；及

(e)根据以下公式计算人第i号染色体(chri)的染色体结构信息，即r值(rchri)：

或

其中，

其中p代表长臂，q代表短臂，chr为染色体(chromosome)的缩写，i选自2、3、5、8、11、17和18；

进一步基于上述人第i号染色体(chri)的r值(rchri)，根据以下公式2计算人第i号染色体(chri)的z分(zchri)：

其中，

μrchri是对应于健康群体的r值的平均值；

σrchri是对应于健康群体的r值的标准偏差；及

任选地进一步基于上述z分(zchri)，根据以下公式3计算c分(cscore)：

其中所述i选自2、3、5和8，选自2、3、5、8和18，选自3、5和11，或者选自3、5、11、17和18，

其中，在z分的绝对值≥3的情况下，判断为该第i号染色体有染色体不平衡；在z分的绝对值<3的情况下，判断为该第i号染色体无染色体不平衡。

再一方面，本发明提供计算机可读介质，其上存储有指令，其中当所述指令被处理器执行时，使得计算机执行以下操作：

判断来自受试者(例如人)的样品的第2、3、5、8、11、17和18号染色体中至少1条是否存在染色体不平衡(例如染色体长臂拷贝数与短臂拷贝数的差异是否高于或等于阈值，再如染色体长臂覆盖度与短臂覆盖度的差异是否高于或等于阈值)，并任选地基于该判断结果对宫颈癌进行筛查、诊断或风险分级；

例如，将来自受试者的样品的第2、3、5、8、11、17和18号染色体中至少1条的染色体结构信息(例如测定染色体不平衡、染色体长臂拷贝数与短臂拷贝数的差异、或染色体长臂覆盖度与短臂覆盖度的差异所需的结构信息)与来自健康个体的相应染色体的染色体结构信息进行比较，以确定来自所述个体的样品中上述染色体是否存在染色体不平衡，其中，在染色体不平衡(例如染色体长臂拷贝数与短臂拷贝数的差异高于或等于阈值，再如染色体长臂覆盖度与短臂覆盖度的差异高于或等于阈值)的情况下，判断为受试者患有宫颈癌或者存在患宫颈癌的风险。

在上述计算机可读介质中存储的所述会被处理器执行的指令通过以下方式判断染色体不平衡：

分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covchrip)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covchriq)；

根据以下公式，计算r值：

或

其中p代表长臂，q代表短臂，chr为染色体(chromosome)的缩写，i选自2、3、5、8、11、17和18。

在上述计算机可读介质的另一实施方式中，可进一步基于上述人第i号染色体(chri)的r值(rchri)，根据以下公式2计算人第i号染色体(chri)的z分(zchri)：

其中，

μrchri是对应于健康群体的r值的平均值；

σrchri是对应于健康群体的r值的标准偏差，以及

任选地进一步基于上述z分(zchri)，根据以下公式3计算c分(cscore)：

在上述计算机可读介质的一个具体实施方式中，所述i选自2、3、5和8，选自2、3、5、8和18，选自3、5和11，或者选自3、5、11、17和18。

在上述计算机可读介质的一个具体实施方式中，其中在z分的绝对值≥3的情况下，判断为该第i号染色体有染色体不平衡；在z分的绝对值<3的情况下，判断为该第i号染色体无染色体不平衡；而

当满足以下条件之一时，判断为受试者患宫颈癌的风险高：

z分的绝对值≥3；或者

c分>0；

当满足以下条件之一时，判断为受试者患宫颈癌的风险低：

z分的绝对值<3；或者

c分＝0。

再一方面，本发明提供计算设备，其可包括：上述计算机可读介质及处理器。

再一方面，本发明提供系统，其可包括：

上述计算设备、及

测序装置，其用于接收来自试验样品的核酸以提供来自该样品的核酸序列信息(例如，通过高通量测序技术获得的核酸序列信息)。

在上述系统的一个具体实施方式中，所述测序装置为高通量测序仪。

又一方面，本发明提供用于对宫颈癌进行筛查、诊断或风险分级的一组染色体，该组染色体包含第2、3、5、8、11、17和18号染色体中至少1条。

在上述一组染色体的一个具体实施方式中，所述染色体为第2、3、5和8号染色体的组合，第2、3、5、8和18号染色体的组合，第3、5和11号染色体的组合，或者第3、5、11、17和18号染色体的组合。

又一方面，本发明提供检测第2、3、5、8、11、17和18号染色体中至少1条的染色体不平衡(优选染色体长臂拷贝数与短臂拷贝数的差异，更优选染色体长臂覆盖度与短臂覆盖度的差异)的试剂在制备对宫颈癌进行筛查、诊断或风险分级的诊断剂中的用途。

又一方面，本发明涉及检测第2、3、5、8、11、17和18号染色体中至少1条的染色体不平衡(优选染色体长臂拷贝数与短臂拷贝数的差异，更优选染色体长臂覆盖度与短臂覆盖度的差异)的装置在制备对宫颈癌进行筛查、诊断或风险分级的设备中的用途。

【发明效果】

本发明通过高通量测序得以方便快捷地判断某个染色体是否存在染色体不平衡，进而以高灵敏度、特异性和准确度及低漏诊率和误诊率对宫颈癌进行筛查、诊断或风险分级。

【具体实施方式】

【定义】

在本发明的情景中，“宫颈癌”可包括任何类型的宫颈癌。本领域常见的宫颈癌类型可包括：鳞癌型(分为iii级：i级为高分化鳞癌型，ii级为中分化鳞癌型(非角化性大细胞型)，iii级为低分化鳞癌型(小细胞型))、腺癌型和腺鳞癌型(癌组织中含有腺癌型和鳞癌型两种类型)等三种类型。在本发明的情景中，宫颈癌还可包括任何个体的宫颈癌。在一个实施方式中，所述个体选自人和非人哺乳动物。

在本发明的情景中，“宫颈细胞”可包括位于宫颈口或宫颈管内壁的任何部位的细胞及从可能发生病变的宫颈的任何部位脱落的细胞。在一个实施方式中，宫颈细胞是通过人工方式从自宫颈口或宫颈管内壁脱落的细胞，也称为“宫颈脱落细胞”。

在本发明的情景中，“染色体”是指是细胞核中载有遗传信息的物质，在显微镜下呈圆柱状或杆状，主要由dna和蛋白质组成。从着丝粒到染色体两端之间的部分称为染色体臂，如果着丝粒不在染色体的中央，则可区分为长臂(p)和短臂(q)。两臂的长度对于鉴别染色体是重要的。

在本发明的情景中，“染色体不平衡”是指相对于常见的二倍体基因组发生的基因组结构变异，可包括染色体数量的改变，如多倍体或单倍体；也包括染色体局部的改变，如染色体部分片段的扩增、缺失、插入或易位等。狭义的染色体不平衡则指非整倍性。在二倍体中，非整倍体变异有四种主要类型：(1)非整倍性缺体性：丢失一对同源染色体，即细胞的染色体数为2n-2；(2)非整倍性单体性：丢失单条染色体，即细胞的染色体数为2n-1；(3)非整倍性三体性：增加一条额外的染色体，即染色体组中有一条染色体具有三个拷贝。即细胞的染色体数为2n+1；(4)非整倍性四体性：增加一对额外的染色体，使染色体组中有一条染色体具有四个拷贝。即细胞的染色体数为2n+2。

在一个实施方式中，染色体结构信息是反映染色体拷贝数变异的结构信息。

在本发明的情景中，“dna”即脱氧核糖核酸(deoxyribonucleicacid)是染色体的主要组成成分，同时也是主要遗传物质。

在本发明的情景中，“dna片段文库”是指样品dna片段经末端补齐、在5’端加一个磷酸集团、在3’端加一个腺嘌呤核苷酸(a)，再在两端连接接头(adapter)而得到的双链dna。

在本发明的情景中，“接头(adapter)”是指连接到样品dna片段两端的固定序列，其中含有与测序芯片互补的序列部分、测序引物序列及样本标签(barcode)等。

在本发明的情景中，“样本标签(barcode)”是指在上述接头(adapter)内的约5～15bp、优选约6～12bp、更优选约7～10bp、最优选约8bp的用来区分不同样本的标签序列。

在本发明的情景中，“高通量测序(high-throughputsequencing)”(又被称为下一代测序(next-generationsequencing))是指能一次并行对几十万到几百万条dna分子进行序列测定的测序技术。

在本发明的情景中，“读长(reads)”是指通过高通量测序测得的dna片段文库中样品dna片段(减去文库制备阶段连接上去的序列后的片段)的序列及其长度。

在本发明的情景中，“序列比对”是指使读长(reads)通过序列一致性原则对齐到参考基因组(例如人参考基因组)上。

在本发明的情景中，“参考基因组”是可从公共数据库获得的与样品dna同种生物的全基因组序列。在一个实施方式中，所述参考基因组是人或非人哺乳动物的参考基因组。在一个实施方式中，所述公共数据库无特别限定。在优选的实施方式中，所述公共数据库是ncbi的genbank。

在本发明的情景中，“染色体覆盖度”是指染色体长/短臂所有段(bin)的读长(reads)数的平均值。

在本发明的情景中，“宫颈良性疾病个体”是指患宫颈良性疾病的个体，其中所述宫颈良性疾病含宫颈上皮内瘤变、宫颈良性肿瘤、宫颈囊肿等。

在本发明的情景中，“健康群体”是指非宫颈疾病(但宫颈炎除外)且非其他癌症患者群体。在一个实施方式中，所述健康群体可包括宫颈炎群体。在一个实施方式中，所述群体是人或非人哺乳动物群体。在一个实施方式中，所述非人哺乳动物可包括牛、马、猪、羊、狗、猫、猴、鼠等。

在本发明的情景中，“灵敏性”是指通过本发明的方法检测出的阳性样本占病理性诊断为宫颈癌的样本数量的百分比。在医学诊断中，灵敏性可通过如下公式表示，反映正确判断患者的比率：

灵敏性＝真阳性人数/(真阳性人数+假阴性人数)×100％。

简言之，如果真阳性、假阳性、真阴性和假阴性分别以a、b、c、d来表示，则灵敏性、特异性、漏诊率、误诊率和准确度的关系可如下所示。

表1

采用本方法筛查结果为阳性的病例数中，真阳性(a)表示病理诊断为患病(如患宫颈癌)，同时本方法结果也为阳性的病例数；假阳性(b)表示病理诊断为无病(如非宫颈癌)，同时本方法结果也为阳性的病例数；假阴性(c)表示病理诊断为患病(如患宫颈癌)，本方法结果也为阴性的病例数；真阴性(d)表示病理诊断为无病(如非宫颈癌)，同时本方法结果也为阴性的病例数。

灵敏性sen＝a/(a+c)；

特异性sep＝d/(b+d)；

漏诊率＝c/(a+c)；

误诊率＝b/(b+d)；

准确度＝(a+d)/(a+b+c+d)

如本领域技术人员所知晓，灵敏性和特异性的值越高越好；漏诊率和误诊率值越低越好。

在本发明的情景中，“特异性”是指接受本方法检测的受检样本得出阴性检测结果的样本占病理检测诊断为非宫颈癌的样本的百分比。在医学诊断中，特异性可通过如下公式表示，反映正确判断非患者的比率：

特异性＝真阴性人数/(真阴性人数+假阳性人数)×100％。

在本发明的情景中，“漏诊率”又称假阴性率，是指在受检群体中进行某疾病(如宫颈癌)的筛检或诊断时，实际患病(如患宫颈癌)的受试者，而按本诊断方法及标准被定为非患者的百分率。在医学诊断中，漏诊率可通过如下公式表示：

漏诊率＝假阴性人数/(真阳性人数+假阴性人数)×100％。

在本发明的情景中，“误诊率”又称假阳性率，是指在受检群体中进行某疾病(如宫颈癌)的筛检或诊断时，实际没患病(如宫颈癌)的受试者，而按本诊断方法及标准被定为患者的百分率。在医学诊断中，误诊率可通过如下公式表示：

误诊率＝假阳性人数/(真阴性人数+假阳性人数)×100％。

在本发明的情景中，“约”表示偏差不超过所述特定数值或范围的正负10％。

在本发明的情景中，除非另外明确定义，单数形式“一个”、“一种”以及“所述”包括复数形式的指代物。类似地，除非另外明确定义，词语“或”旨在包括“和”。

【本发明的一个判断流程】

在本发明的一个实施方式中，判断某个染色体有染色体不平衡的与否及对宫颈癌进行筛查、诊断或风险分级的流程可包括：

(a)宫颈脱落细胞的采集；

(b)dna提取、片段化及文库构建，也即从采集到的宫颈脱落细胞提取基因组dna，对该基因组dna进行片段化，及构建dna片段文库；

(c)高通量测序，也即对所构建的dna片段文库进行高通量测序；

(d)序列比对，也即将经高通量测序测得的样品dna片段的序列(有效读长(reads))比对到人参考基因组，并例如按照10～1000kb/段(优选50～800kb/段，更优选100～500kb/段，更优选150～300kb/段，最优选200kb/段)，平均分成多个段(例如bin)，分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covchrip)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covchriq)；及

(e)数据分析，也即基于第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covchrip)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covchriq)的根据算法的运算值来判断所述染色体是否存在染色体不平衡、及对宫颈癌进行筛查、诊断或风险分级。

接下来，依次说明上述(a)～(e)的过程。

【a.宫颈脱落细胞的采集】

在本发明中，可通过本领域常用的方法采集受试者的宫颈脱落细胞。在一个实施方式中，采集宫颈脱落细胞的方法可包括使用宫颈采样器刷下子宫颈内壁及宫颈口细胞，并将宫颈采样器刷浸入细胞保存液中，而使粘附在宫颈采样器刷的刷头上的宫颈脱落细胞游离到细胞保存液中而形成细胞混合液。通过对所述细胞混合液实施常规离心来分离得到其中的宫颈脱落细胞。

在本发明中，宫颈采样器的型号和样式无特别限定，只要能采集所需量的宫颈脱落细胞即可。在一个实施方式中，可采用任何可商购的宫颈采样器。在一个实施方式中，可采用hologic公司的thinprep一次性宫颈采样器。

在本发明中，细胞保存液的组成无特别限定，只要能临时保存宫颈脱落细胞即可。在一个实施方式中，可采用任何可商购的宫颈脱落细胞用细胞保存液，也可根据常规方法配制所述宫颈脱落细胞用细胞保存液。在一个实施方式中，可采用hologic公司的thinprep细胞保存液作为宫颈脱落细胞的细胞保存液。

在本发明中，对宫颈脱落细胞混合液进行离心的力度和次数不特别限定，只要能实现宫颈脱落细胞的分离即可。在一个实施方式中，以1200～2000g、更优选1400～1800g、最优选1600g的离心力对宫颈脱落细胞混合液进行1～5次、优选2次的离心。

【b.dna提取、片段化及文库构建】

在本发明中，可采用任何本领域常规方法从宫颈脱落细胞提取基因组dna。

在本发明中，可采用任何本领域常规方法对基因组dna进行片段化及构建dna片段文库。在优选的实施方式中，采用任何可商购的试剂盒对基因组dna进行片段化及构建dna片段文库。在一个实施方式中，采用kapa公司的hyperplus试剂盒对基因组dna进行片段化及构建dna片段文库。在一个实施方式中，利用试剂盒对基因组dna进行片段化及构建dna片段文库的过程可包括：

(i)对基因组dna实施片段化(fragmentation)，由此得到小于800bp、优选100～600bp、更优选、100～500bp、更优选100～400bp、更优选100～300bp、更优选120～200bp、更优选150～180bp的dna片段；

(ii)对得到的dna片段实施末端修饰：

●将粘末端修复成平末端(endrepair)，

●在经如上修复的dna片段的5’端加一个磷酸集团，及

●在经如上修复的dna片段的3’端加一个腺嘌呤核苷酸(a)(a-tailing)；

(iii)在经如上修饰的dna片段的末端连接接头(adapter)和样本标签(barcode)，其中接头(adapter)的尺寸是100～200bp、优选100～150bp、更优选120bp；

(iv)片段大小选择(fragmentselection)：对如上连接产物实施琼脂糖凝胶电泳，选取片段大小为优选200～800bp、更优选200～700bp、更优选200～600bp、更优选200～500bp、更优选220～350bp、更优选280～320bp的条带进行切胶回收，利用任何可商购的试剂盒回收正确连接接头和样本标签的dna片段(即dna片段文库)；及(v)文库扩增(libraryamplification)：通过聚合酶链式反应(pcr)对如上正确连接接头和样本标签的dna片段进行扩增。

【c.高通量测序】

在本发明中，只要能实现对dna片段文库的高通量测序，对所采用的测序方法及仪器无特别限制。在一个实施方式中，采用可商购的测序仪对dna片段文库进行高通量测序。在一个实施方式中，可采用illumina公司的测序仪、applybiosystems(abi)公司的测序仪、roche公司的测序仪、helicos公司的测序仪、或completegenomics公司的测序仪对dna片段文库进行高通量测序。在优选的实施方式中，采用illumina公司的测序仪对dna片段文库进行高通量测序。

在本发明中，在测序完成后，从测得的序列减去接头(adapter)和样本标签(barcode)，并且去除噪音(如低质量区域)而得到样品dna片段的序列，即有效读长(reads)。

【d.序列比对】

在本发明中，将有效读长(reads)比对到人参考基因组的手段无特别限制，可采用任何本领域常规手段进行该序列比对。在一个实施方式中，可采用bwa-mem软件(http://bio-bwa.sourceforge.net)进行所述序列比对。

在本发明中，可将序列比对结果以每段(bin)任何合适的大小写入任何合适的文件格式。在一个实施方式中，将序列比对结果以每段10～1000kb、50～500kb、优选100～300kb、更优选200kb的大小写入多个例如*.bin(或*.bam)格式的文件。

在一个实施方式中，从所保存的诸多序列比对结果文件(例如，上述*.bin(或*.bam)文件)中选取人第i号染色体(chri)的指定位置所覆盖的多个序列比对结果文件(例如，上述*.bin(或*.bam)文件)，并计算所选取的序列比对结果文件(例如，上述*.bin(或*.bam)文件)中比对到人参考基因组上的有效读长(reads)的个数的平均数(covchri)。在一个实施方式中，所选取的人第i号染色体(chri)的指定位置是人第i号染色体(chri)的长臂和短臂，比对到人参考基因组的第i号染色体(chri)的长臂上的有效读长(reads)的个数的平均数用covchrip表示，比对到人参考基因组的第i号染色体(chri)的短臂上的有效读长(reads)的个数的平均数用covchriq表示。在一个实施方式中，i是2、3、5、8、11、17和18中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个或全部。在一个实施方式中，i选自2、3、5和8，选自2、3、5、8和18，选自3、5和11，或者选自3、5、11、17和18。在本发明中，计算比对到人参考基因组上的有效读长(reads)的个数的平均数的手段无特别限制。

【e.数据分析】

在一个实施方式中，基于所述比对到人参考基因组的第i号染色体的指定位置上的读长(reads)的个数的平均数根据下文说明的例示算法的运算值判断所述染色体是否存在染色体不平衡、及对宫颈癌进行筛查、诊断或风险分级。在一个实施方式中，所述人第i号染色体(chri)的指定位置是人第i号染色体(chri)的长臂和短臂，比对到人参考基因组的第i号染色体(chri)的长臂上的有效读长(reads)的个数的平均数用covchrip表示，比对到人参考基因组的第i号染色体(chri)的短臂上的有效读长(reads)的个数的平均数用covchriq表示。在一个实施方式中，i是2、3、5、8、11、17和18中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个或全部。在一个实施方式中，i选自2、3、5和8，选自2、3、5、8和18，选自3、5和11，或者选自3、5、11、17和18。

(1)例示算法

在一个实施方式中，根据以下公式计算人第i号染色体(chri)的r值(rchri)：

或

其中p代表长臂，q代表短臂，chr为染色体(chromosome)的缩写，i选自2、3、5、8、11、17和18。

在一个实施方式中，基于上述人第i号染色体(chri)的r值(rchri)，根据以下公式2计算人第i号染色体(chri)的z分(zchri)：

其中，

μrchri是对应于健康群体(非宫颈疾病(宫颈炎除外)且非其他癌症患者)的r值的平均值；

σrchri是对应于健康群体(非宫颈疾病(宫颈炎除外)且非其他癌症患者)的r值的标准偏差。

在一个实施方式的另一个实施方式中，可进一步基于上述z分(zchri)，根据以下公式3计算c分(cscore)：

在一个实施方式中，i是2、3、5、8、11、17和18中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个或全部。在一个实施方式中，i选自2、3、5和8，选自2、3、5、8和18，选自3、5和11，或者选自3、5、11、17和18。

在本发明的情景中，有时也将上述“r值”、“z分”和/或“c分”称为“染色体平衡态分值”。在本发明的情景中，有时也将上述“c分”称为“癌症评分”。

(2)判断标准

在一个实施方式中，根据上述例示算法，在z分的绝对值≥3的情况下，判断为该第i号染色体有染色体不平衡；在z分的绝对值<3的情况下，判断为该第i号染色体无染色体不平衡。

在一个实施方式中，根据上述例示算法，

当满足以下条件之一时，判断为受试者患宫颈癌的风险高：

z分的绝对值≥3；或者

c分>0；

当满足以下条件之一时，判断为受试者患宫颈癌的风险低：

z分的绝对值<3；或者

c分＝0。

【对于本发明的方法的进一步说明】

在一个实施方式中，也可将本发明的方法与其他判断某个染色体是否存在染色体不平衡的方法相组合。在一个实施方式中，也可将本发明的对宫颈癌进行筛查、诊断或风险分级的方法与其他诊断宫颈癌的方法组合。在一个实施方式中，所述其他诊断宫颈癌的方法可包括高危型hpv检测和宫颈脱落细胞的细胞学检查。在一个实施方式中，所述对高危型hpv的检测方法可包括：形态学观察法、免疫组化法、点杂交法、吸印原位杂交法、pcr/rflp法、pcr/southern法等。在一个实施方式中，所述对宫颈脱落细胞的细胞学检查可包括薄层液基细胞学检测(thin-cytologictest，tct)。

【实施例】

接下来，通过实施例进一步说明本发明，但本发明不限于这些实施例。

【实施例1：宫颈脱落细胞的采集】

在第1轮研究中，共有研究对象107名，其中包括：通过组织病理学方法被诊断为宫颈癌的患者40名，被诊断为宫颈良性疾病(含宫颈上皮内瘤变、宫颈良性肿瘤、宫颈囊肿等)的个体41名，作为对照的健康个体(非宫颈疾病(宫颈炎除外)且非其他癌症个体)26名。

在第2轮研究中，共有研究对象167名，其中包括：通过组织病理学方法被诊断为宫颈癌的患者44名，被诊断为宫颈良性疾病(含宫颈上皮内瘤变、宫颈良性肿瘤、宫颈囊肿等)的个体69名，作为对照的健康个体(非宫颈疾病(宫颈炎除外)且非其他癌症个体)54名。

在第3轮研究中，共有研究对象167名，其中包括：通过组织病理学方法被诊断为宫颈癌的患者42名，被诊断为宫颈良性疾病(含宫颈上皮内瘤变、宫颈良性肿瘤、宫颈囊肿等)的个体68名，作为对照的健康个体(非宫颈疾病(宫颈炎除外)且非其他癌症个体)57名。

利用thinprep一次性宫颈采样器(hologic公司)的采样刷在上述研究对象的子宫颈内壁顺时针刷10圈，随后将该采样刷的刷头浸入thinprep细胞保存液(hologic公司)中，而使粘附在刷头上的宫颈内壁脱落组织游离到细胞保存液中而形成组织混合液。通过对该组织混合液实施2次于1600g的离心来分离得到其中的宫颈脱落细胞。

【实施例2：dna提取、片段化及文库构建】

采用dna提取试剂盒(qiagen公司)，根据该试剂盒自带的操作流程，从如上采集到的宫颈脱落细胞提取基因组dna。

使用hyperplus试剂盒(kapa公司)，根据该试剂盒自带的操作流程，对如上提取到的dna进行片段化及文库构建，具体过程包括：

(i)对基因组dna实施片段化(fragmentation)，得到150～180bp的dna片段；

(ii)对得到的dna片段实施末端修饰：

●将粘末端修复成平末端(endrepair)，

●在经如上修复的dna片段的5’端加一个磷酸集团，及

●在经如上修复的dna片段的3’端加一个腺嘌呤核苷酸(a)(a-tailing)；

(iii)在经如上修饰的dna片段的末端连接接头(adapter)和样本标签(barcode)；

(iv)片段大小选择(fragmentselection)：对如上连接产物实施琼脂糖凝胶电泳，选取片段大小为280～320bp条带(其中，样品dna片段的尺寸是150～180bp，接头和样本标签的尺寸是120bp)进行切胶回收，利用qiaquick胶回收试剂盒(qiagen，28706)来回收正确连接接头和样本标签的dna片段(即dna片段文库)；及

(v)文库扩增(libraryamplification)：通过聚合酶链式反应(pcr)对如上正确连接接头和样本标签的dna片段进行扩增。

【实施例3：高通量测序】

使用illumina测序仪，对于在实施例2中得到的经扩增的dna片段文库，自该dna片段文库的一端或两端开始进行测序，从测得的序列减去接头(adapter)和样本标签(barcode)，并且去除噪音(如低质量区域)而得到样品dna片段的序列，即有效读长(reads)。

【实施例4：序列比对】

(1)有效读长(reads)与人参考基因组的比对

使用bwa-mem软件(http://bio-bwa.sourceforge.net)，将实施例3中得到的有效读长(reads)比对到人参考基因组，并将该比对结果以每段200kb的大小分别写入多个*.bin(或*.bam)格式的文件中。

(2)对比对到人参考基因组的读长(reads)的个数的计算

从(1)中得到诸多*.bin(或*.bam)文件中选取人第i号染色体(chri)的长臂和短臂所覆盖的多个*.bin(或*.bam)文件，并分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covchrip)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covchriq)。

【实施例5：数据分析】

(1)算法

本实施例中所用的算法如下所示。

具体而言，根据以下公式计算人第i号染色体(chri)的r值(rchri)：

或

其中p代表长臂，q代表短臂，chr为染色体(chromosome)的缩写，其中

i选自2、3、5、8、11、17和18。

进一步基于上述人第i号染色体(chri)的r值(rchri)，根据以下公式2计算人第i号染色体(chri)的z分(zchri)：

其中，

μrchri是对应于26例健康群体(对照)的r值的平均值；

σrchri是对应于26例健康群体(对照)的r值的标准偏差，

其中

i选自2、3、5、8、11、17和18。

进一步基于上述z分(zchri)，根据以下公式3计算c分(cscore)：

其中

i选自2、3、5和8，选自2、3、5、8和18，选自3、5和11，或者选自3、5、11、17和18。

(2)判断标准

在z分的绝对值≥3的情况下，判断为该第i号染色体有染色体不平衡；在z分的绝对值<3的情况下，判断为该第i号染色体无染色体不平衡。

当满足以下条件之一时，判断为受试者患宫颈癌的风险高：

z分的绝对值≥3；或者

c分>0；

当满足以下条件之一时，判断为受试者患宫颈癌的风险低：

z分的绝对值<3；或者

c分＝0。

(3)计算结果

如在实施例1中所述，在第1轮研究中，共有研究对象107名，其中包括：通过组织病理学方法被诊断为宫颈癌的患者40名，被诊断为宫颈良性疾病(含宫颈上皮内瘤变、宫颈良性肿瘤、宫颈囊肿等)的个体41名(在下表2中用阴影表示)，作为对照的健康个体(非宫颈疾病(宫颈炎除外)且非其他癌症个体)26名。针对上述107名研究对象，通过本发明的方法检测的结果如下表2所示。

表2：当i是2、3、5和8，或者是2、3、5、8和18时的从各样品计算得出的z分和c分、以及灵敏性、特异性、漏诊率、误诊率和准确度

如在实施例1中所述，在第2轮研究中，共有研究对象167名，其中包括：通过组织病理学方法被诊断为宫颈癌的患者44名，被诊断为宫颈良性疾病(含宫颈上皮内瘤变、宫颈良性肿瘤、宫颈囊肿等)的个体69名(在下表3中用阴影表示)，作为对照的健康个体(非宫颈疾病(宫颈炎除外)且非其他癌症个体)54名。针对上述167名研究对象，通过本发明的方法检测的结果如下表3所示。

表3：当i是2、3、5和8，或者是2、3、5、8和18时的从各样品计算得出的z分和c分、以及灵敏性、特异性、漏诊率、误诊率和准确度

如在实施例1中所述，在第3轮研究中，共有研究对象167名，其中包括：通过组织病理学方法被诊断为宫颈癌的患者42名，被诊断为宫颈良性疾病(含宫颈上皮内瘤变、宫颈良性肿瘤、宫颈囊肿等)的个体68名(在下表4中用阴影表示)，作为对照的健康个体(非宫颈疾病(宫颈炎除外)且非其他癌症个体)57名。针对上述167名研究对象，通过本发明的方法检测的结果如下表4所示。

表4：当i是3、5和11，或者是3、5、11、17和18时的从各样品计算得出的z分和c分、以及灵敏性、特异性、漏诊率、误诊率和准确度

【结论】

通过计算从受试者的宫颈脱落细胞提取的选自2、3、5和8号染色体的一个或多个、选自2、3、5、8和18号染色体的一个或多个染色体、选自3、5和11号染色体的一个或多个、或者选自3、5、11、17和18号染色体的一个或多个染色体的dna的r值，并基于该r值进一步算出z分和c分，可基于所述z分和c分简便快捷地判断受试者的某个染色体有染色体不平衡、进而以高灵敏度、特异性和准确度及低漏诊率和误诊率对宫颈癌进行筛查、诊断或风险分级。

尽管本发明的具体实施方式已经得到详细的描述，但本领域技术人员将理解：根据已经公开的所有教导，可对细节进行各种修改和变动，并且这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏国鹏
技术所有人：南京格致基因生物科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
2、张老师：1.探索新型氧化还原酶结构-功能关系，电催化反应机制 2.酶电催化导向的酶分子改造 3.纳米材料、生物功能多肽对酶-电极体系的影响4. 生物电化学传感和生物电合成体系的设计与应用。
3、豆老师：1.环境纳米材料及挥发性有机化合物（VOCs） 2.CO污染物的催化氧化 3.低温等离子体 4.吸脱附等控制技术
4、赵老师：1.高分子材料改性及加工技术 2.微孔及过滤材料 3.环境友好高分子材料
5、邬老师：1.高分子材料的共混与复合 2.涉及材料功能化及结构与性能的研究；高分子热稳定剂的研发
如您是高校老师，可以点此联系我们加入专家库。