基于KRAS和NDRG4基因确定结直肠肿瘤细胞的方法和系统与流程

文档序号:15272538发布日期:2018-08-28 22:36阅读:184来源:国知局
本发明涉及分子生物
技术领域
。具体地,本发明涉及基于kras和ndrg4基因确定结直肠肿瘤细胞的方法和系统。
背景技术
:结直肠肿瘤(colorectalcancer,crc)是常见的恶性肿瘤,包括结肠肿瘤和直肠肿瘤,又称大肠肿瘤,指发生在人体下消化道结肠或直肠部位的恶性肿瘤,是威胁人类健康的主要癌症之一,在全球范围内其发病率高居男性肿瘤第3位、女性第2位。在我国,随着社会经济的发展,居民生活习惯、饮食结构变化等,我国的结直肠肿瘤发病率和死亡率持续上升。2015年中国癌症统计数据显示,我国结直肠肿瘤新发病例和死亡病例均位于第5位,分别约为37.63万和19.10万,结直肠肿瘤发病率和死亡率高于全球平均水平和发展中国家,已成为严重危害中国人健康的疾病。结直肠肿瘤通常发展缓慢,大多数结直肠肿瘤在形成之前,已经以息肉或腺瘤的形式在发病部位缓慢发展长达10余年,这种生物学特点使结直肠肿瘤适于筛查且早期结直肠肿瘤手术后5年生存率可高达90%以上,而晚期则不足10%。目前用于结直肠肿瘤筛查的方法手段主要有结肠镜检查、粪便潜血检测等,但存在灵敏度低、特异性差或患者依从性低等方面的不足。因此,寻找一个灵敏度、特异性更佳且更高效的筛查方法,对结直肠肿瘤早诊早治具有重要意义。技术实现要素:本发明旨在一定程度上解决现有技术中存在的技术问题至少之一。在本发明的一个方面,本发明提出了一种确定结直肠肿瘤细胞的方法。根据本发明的实施例,所述方法包括:分别获得待测样本的kras基因和ndrg4基因,并将所述ndrg4基因进行甲基化处理;分别对所述kras基因和经甲基化处理的ndrg4基因进行测序,获得kras基因测序结果、ndrg4基因测序结果;将所述kras基因测序结果中第一目标靶点位置的基因序列与第一参考序列进行第一比对,计算出kras基因突变率;将所述ndrg4基因测序结果中第二目标靶点位置的基因序列与第二参考序列进行第二比对,计算出ndrg4基因甲基化连锁比率;基于所述kras基因突变率和ndrg4基因甲基化连锁比率,确定所述待测样本是否存在结直肠肿瘤细胞。发明人研究发现,kras基因目标靶点和ndrg4基因目标靶点存在相互关联,进而基于kras基因目标靶点的突变率和ndrg4基因目标靶点的甲基化连锁比率,采用逻辑回归算法建立检测模型,从而能够快速、简单且特异性检测出是否存在结直肠肿瘤细胞,且灵敏度高。在肿瘤研究中,kras基因是一个原癌基因,对肿瘤的发生、发展、增殖、转移及血管形成发挥关键作用。kras基因突变后其编码的蛋白会丧失功能,从而刺激细胞自发性生长、分化。研究发现kras基因的突变在结直肠肿瘤发生发展中起着重要作用,提示kras基因可能成为结直肠肿瘤的一个新的诊断靶点。在本发明中,将kras基因测序结果中的第一目标靶点位置的基因序列与第一参考序列(seqidno:1)进行比对,以便获得突变率,用于后续算法判定。seqidno:1所示的基因序列如下所示:aaagaatggtcctgcaccagtaatatgcatattaaaacaagatttacctctattgttggatcatattcgtccacaaaatgattctgaattagctgtatcgtcaaggcactcttgcctacgccaccagctccaactaccacaagtttatattcagtcattttcagcaggcct目前普遍认为,dna甲基化与癌症的发生有密切关系。癌症的甲基化异常表现为总体的甲基化水平降低与启动子区域的甲基化水平升高。例如,抑癌基因与修复基因的高甲基化会导致它们的失活,造成肿瘤抑制丧失与基因损伤增加。ndrg4为抑癌基因ndrg基因家族成员。研究发现ndrg4基因甲基化是结直肠肿瘤的重要生物学特征,因此ndrg4启动子的甲基化可作为生物标志物,用于检测结直肠肿瘤。在本发明中,预先将ndrg4基因进行甲基化处理,所有未发生甲基化的胞嘧啶被转化为尿嘧啶,而甲基化的胞嘧啶不变。在后续测序过程中,尿嘧啶全部转化为胸腺嘧啶。进而,通过对经甲基化处理的ndrg4基因测序结果中第二目标靶点位置的基因序列与第二参考序列(seqidno:2)进行比对,统计非甲基化位点的c/t比值,以便计算出甲基化转化率。进一步地,为了减少转化率对于检测结果的影响,使用连锁甲基化位点来作为判断基因片段是否发生甲基化的统计指标,即统计每条读段中所有目标靶点是否同时发生甲基化的情况,作为连锁指标,计算发生连锁甲基化的读段占总读段的比率,得到甲基化连锁比率。seqidno:2所示的基因序列如下所示:aggtttttgagtttttggtttttttcgattttaagggtttttttttttcggtttttaggcggcgacggcgggtagcgcgaagtagtaggcgtaggggcgttgggatggggatgtttttgtaggttta根据本发明的实施例,上述确定结直肠肿瘤细胞的方法还可以进一步具有下列附加技术特征:根据本发明的实施例,基于下列标准,确定所述待测样本是否存在结直肠肿瘤细胞:依据公式p=ek/(1+ek)计算p值,其中k=23.26508x1+2.18682x2-1.16855,e为自然常数,x1为kras基因突变率,x2为ndrg4基因甲基化连锁比率,p值不小于0.25035,是所述待测样本存在结直肠肿瘤细胞的指示;p值小于0.25035,是所述待测样本不存在结直肠肿瘤细胞的指示。发明人采集大量样本进行测序,同时收集临床和病理信息,综合分析基因组测序结果和临床信息,利用生物统计学分析方法,获得上述算法。由此,利用本发明的方法能够快速、简单且特异性检测出是否存在结直肠肿瘤细胞,且灵敏度高。根据本发明的实施例,所述第一目标靶点选自2号外显子的第12密码子和第13密码子。发明人发现,结直肠肿瘤细胞与正常细胞的上述靶点存在显著差异。为此,通过检测上述靶点的突变率,能够特异性确定是否存在结直肠肿瘤细胞。根据本发明的实施例,所述第二目标靶点选自启动子区沿基因转录方向上游引物开始计算的第6和第14个cpg位置(nc_000016.9:58497140,58497161)。发明人发现,结直肠肿瘤细胞的上述靶点的甲基化程度较高,进而,通过对待测样本的ndrg4基因进行甲基化处理,所有未发生甲基化的胞嘧啶被转化为尿嘧啶,而甲基化的胞嘧啶不变。将经甲基化处理的上述靶点位置基因序列与第二参考序列进行比对,从而计算出甲基化转化率。进一步地,为了减少转化率对于检测结果的影响,使用连锁甲基化位点来作为判断基因片段是否发生甲基化的统计指标,即统计每条读段中第6,14号甲基化位点是否同时发生甲基化的情况,作为连锁指标,计算发生连锁甲基化的读段占总读段的比率,得到甲基化连锁比率。根据本发明的实施例,所述待测样本来源于粪便。根据本发明的具体实施例,所述结直肠肿瘤细胞为肠道上皮肿瘤细胞,优选人源肠道上皮肿瘤细胞。目前在结直肠肿瘤筛查中用到较多的方法是大便隐血试验和肠镜检查,大便隐血试验主要是通过检测粪便中的血液成分,主要是血红蛋白,若多次、持续的阳性反应提示消化道出血,应该进一步做肠镜检查。大便隐血试验的优点是快速、成本低、检测方便,但是存在的问题也十分显著,如特异性差,受饮食影响大,含亚铁离子的食物和药物对结果有干扰,假阳性率30%。敏感度低,出血量>90μg/ml才能检出;方法学限制条件多:患者提前准备时间长。由于取材部位不同,反应时间不同,对显色的判断不同,故在同一方法的试验中,也可产生误差。肠镜检查是经肛门将肠镜循腔插至回盲部,从黏膜侧观察结肠病变的检查方法,是目前诊断大肠粘膜病变的最佳选择。它是通过安装于肠镜前端的电子摄像探头将结肠粘膜的图像传输于电子计算机处理中心,后显示于监视器屏幕上,可观察到大肠粘膜的微小变化。肠镜检查是目前发现肠道肿瘤及癌前病变最有效的方法。肠镜检测也存在一定的不足之处,如肠镜检查需要较为繁琐的清肠准备,由于其是一种侵入性检查方式,有一定的不适和并发症,容易让检查者产生畏惧心理,依从性不高,较难大规模的推广。由于粪便中存在一些脱落细胞,针对脱落细胞进行检测,例如dna检测,从分子水平上来分析肠壁脱落细胞肿瘤突变情况,要比肠镜下观察更早一些,更适合用于早期筛查。对粪便进行检测相对于通过血液、肠镜等检测方法具有以下优势:取样方便,每天都可以取;量大,可以满足检测需求;无创、非侵入性,依从性高。根据本发明的实施例,所述甲基化处理是采用亚硫酸氢盐进行的。利用亚硫酸氢盐对ndrg4基因进行转化,所有未发生甲基化的胞嘧啶被转化为尿嘧啶,而甲基化的胞嘧啶不变,通过比对以确定甲基化连锁比率。根据本发明的实施例,分别独立地将所述kras基因和经甲基化处理的ndrg4基因进行测序所得到的原始数据进行质量控制、过滤、比对、拼接以及质量值校正,以便获得所述kras基因测序结果和ndrg4基因测序结果。由此,以提高测序结果准确性。根据本发明的实施例,所述测序的测序深度不少于20000×。由此,以提高测序结果准确性。在本发明的另一方面,本发明提出了一种实施前面所述确定结直肠肿瘤细胞的方法的系统。根据本发明的实施例,所述系统包括:获取基因装置,适于分别获得待测样本的kras基因和ndrg4基因,并将所述ndrg4基因进行甲基化处理;测序装置,所述测序装置与所述获取基因装置相连,适于分别对所述kras基因和经甲基化处理的ndrg4基因进行测序,获得kras基因测序结果和ndrg4基因测序结果;比对装置,所述比对装置与所述测序装置相连,适于将所述kras基因测序结果中第一目标靶点位置的基因序列与第一参考序列进行第一比对,计算出kras基因突变率;将所述ndrg4基因测序结果中第二目标靶点位置的基因序列与第二参考序列进行第二比对,计算出ndrg4基因甲基化连锁比率;判定装置,所述判定装置与所述比对装置相连,适于基于所述kras基因突变率和ndrg4基因甲基化连锁比率,确定所述待测样本是否存在结直肠肿瘤细胞。利用本发明的系统能够快速、简单且特异性检测出是否存在结直肠肿瘤细胞,且灵敏度高。需要说明的是,前面针对确定结直肠肿瘤细胞的方法所描述的特征和优点,同样适用于该确定结直肠肿瘤细胞的系统,在此不再赘述。另外,还需要说明的是,本发明的确定结直肠肿瘤细胞的方法和系统至少具有如下优点:(1)实现了快速、准确且特异性诊断结直肠癌,对结直肠癌早诊早治具有重要意义;(2)为结直肠癌的科学研究提供重要技术手段,例如,通过本发明的方法和系统能够准确筛查出结直肠肿瘤细胞,进一步对该结直肠癌细胞进行全基因图谱检测,可以发现其他致病基因,为结直肠癌的理论研究提供依据。本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1显示了根据本发明一个实施例的kras基因捕获示意图;图2显示了根据本发明一个实施例的ndrg4甲基化转化流程图;图3显示了根据本发明一个实施例的kras测序上机建库及数据拆分示意图;图4显示了根据本发明一个实施例的kras检测突变位点计数示意图;图5显示了根据本发明一个实施例的ndrg4甲基化计数示意图;图6显示了根据本发明一个实施例的确定结直肠肿瘤细胞的roc曲线。具体实施方式下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。实施例1选择兰溪红十字医院医院、西安交通大学第二附属医院、西京医院、唐都医院2016-2017年有肠镜病例结果的不同病程分布的临床样本,包括结直肠肿瘤77例,无症状人群204例的粪便样本。将上述样本进行基因捕获和高通量测序,同时收集其临床和病理信息,最后综合分析基因组测序结果和临床信息,构建结直肠肿瘤细胞检测模型。(1)基因捕获和高通量测序将粪便样本在本公司实验室进行基因捕获和高通量测序(参见图1)。提取待测样本基因组dna,利用探针捕获目标基因kras、ndrg4;利用亚硫酸氢盐转化法对ndrg4基因进行转化以保留甲基化的c碱基而转化非甲基化的c碱基(图2);采用illuminaminiseq/miseq平台进行测序,dna样本的平均测序深度大于20000×。具体分析过程如下:1原始数据处理首先对下机的原始测序数据进行质量控制、过滤、比对以及pereads拼接并质量值校正等基本处理(参见图3)。拼接后的reads称为tags。2结直肠肿瘤相关基因位点筛选kras基因突变检测,目标检测靶点为kras基因的第2号外显子的第12和13密码子的7种突变型(参见图4)。对ndrg4基因启动子区间甲基化检测,目标检测靶点为ndrg4基因启动子区沿基因转录方向上游引物开始计算的第6,14个cpg位置(参见图5)。3kras基因分析3.1序列过滤,使用kras基因非突变位点的参考序列(即第一参考序列),从拆分并拼接完的各个样品的tags中过滤包含kras基因的序列,评价扩增特异性和统计非特异性扩增及接头污染等杂质含量。3.2使用非突变位点作为背景噪声检验测序错误率。3.3识别突变类型并统计kras基因有效测序量及突变率,输出结果。4ndrg4基因甲基化分析4.1序列过滤,使用ndrg4非甲基化位点的参考序列(即第二参考序列),从拆分完的各个样品的tags中过滤包含ndrg4基因的序列,评价扩增特异性、转化效率和统计非特异性扩增及接头污染等杂质含量。4.2识别甲基化位点,并通过统计非甲基化位点的c/t比值估算甲基化转化率。4.3为了减少转化效率对于测量的影响,使用连锁甲基化位点来作为判断该tags代表的基因片段是否发生甲基化的统计指标;即统计每条tags中第6,14号甲基化位点是否同时发生甲基化的情况,作为连锁指标,计算发生连锁甲基化的tags占总tags的比率,即为ndrg4基因甲基化连锁比率。5逻辑运算及结果判定根据上述测定值,2项检测结果被赋予不同的权重,通过逻辑回归算法运算,并根据设定临床阈值(cut-off)进行结果判定。所述逻辑回归算法公式为:p=ek/(1+ek),k=a×x1+b×x2+n上式中,p为结直肠肿瘤综合指数;e为自然常数;a,b,n为模型的逻辑常数;x1为kras基因突变率;x2为ndrg4基因甲基化连锁比率。当p值≥cut-off时检测结果为阳性,p值<cut-off时为阴性。以上公式中的a,b,n通过足够数量的临床研究数据分布确定,这个研究包括了有肠镜病理结果的不同病程分布的临床样本,包括结直肠肿瘤及无症状人群样本。对这些样本进行高通量测序及分析后,以肠镜结果为样本标签将ngs检测结果作为逻辑变量进行逻辑回归分析,分析结果给出不同阈值下的联合检测灵敏度和特异性。根据这个筛查手段的要求确定最适合的灵敏度和特异性,以及相应的总分阈值。得到的逻辑回归算法公式为:p=ek/(1+ek),k=23.26508x1+2.18682x2-1.16855,e为自然常数;x1为kras基因突变率;x2为ndrg4基因甲基化连锁比率,总分阈值(cut-off)为0.25035。p值不小于0.25035,是待测样本存在结直肠肿瘤细胞的指示;p值小于0.25035,是待测样本不存在结直肠肿瘤细胞的指示。该模型的灵敏度和特异性分别为87.2%和87.3%,如表1和图6所示。由此,表明本发明方法的准确性高、灵敏度强。表1该预测模型的灵敏度和特异性灵敏度特异性本发明87.2%87.3%注:灵敏度(也称真阳性率,sensitivity)=真阳性人数/(真阳性人数+假阴性人数)×100%。指正确判断病人的程度,也即实际有病而被正确诊断的百分比。特异性(也称真阴性率,specificity)=真阴性人数/(真阴性人数+假阳性人数)×100%。指正确判断非病人的程度,也即实际无病而被正确诊断为无病的百分比。实施例2列举6例分别在兰溪红十字医院医院、西安交通大学第二附属医院、西京医院、唐都医院就医的志愿者,使用ngs技术测量得到的变量结果应用该模型得到一致性判断的过程。具体为:临床试验共选取临床样本总计6例人份,入选人进行肠镜检查之前收集粪便样本并进行上述检测。参照实施例1中基因模型分析方法,得到6例患者的结直肠肿瘤确定结果,且收集其临床结果,汇总如表2。由此可知,本发明提供的基于ngs技术确定粪便dna结直肠肿瘤的方法具有良好的可靠性和准确性。表26例患者基因模型确定结果和临床结果在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。sequencelisting<110>上海锐翌生物科技有限公司<120>基于kras和ndrg4基因确定结直肠肿瘤细胞的方法和系统<130>pidc4180013<160>2<170>patentinversion3.5<210>1<211>171<212>dna<213>artificialsequence<220><223>seqidno:1<400>1aaagaatggtcctgcaccagtaatatgcatattaaaacaagatttacctctattgttgga60tcatattcgtccacaaaatgattctgaattagctgtatcgtcaaggcactcttgcctacg120ccaccagctccaactaccacaagtttatattcagtcattttcagcaggcct171<210>2<211>127<212>dna<213>artificialsequence<220><223>seqidno:2<400>2aggtttttgagtttttggtttttttcgattttaagggtttttttttttcggtttttaggc60ggcgacggcgggtagcgcgaagtagtaggcgtaggggcgttgggatggggatgtttttgt120aggttta127当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1