一组用于膀胱癌检测的基因及其应用的制作方法

文档序号:16069595发布日期:2018-11-24 13:02阅读:753来源:国知局

本发明涉及癌症检测和分子生物学领域,以及诊断技术在临床上的运用。具体地,本发明涉及一组用于膀胱癌检测(包括诊断、预后和监测)的基因及其应用,通过检测尿液脱落细胞中特异性基因的表达,鉴别诊断对象是否患有膀胱癌。此外,本发明还涉及一种用于膀胱癌检测的试剂盒。

背景技术

膀胱癌是指发生在膀胱黏膜上的恶性肿瘤,是泌尿系统最常见的恶性肿瘤,也是全身十大常见肿瘤之一。占我国泌尿生殖系肿瘤发病率的第一位,而在西方其发病率仅次于前列腺癌。中国癌症统计数据显示(chenw,zhengr,baadepd,etal.cancerstatisticsinchina,2015[j].cacancerjclin,2016,66(2):115-132.),2015年我国新病例数达到约8.05万人,男性为女性的3.3倍。死亡人数估计超过3.29万人,死亡率超过40%,男性为女性的3.2倍。目前,约80%的膀胱肿瘤是非浸润性的乳头瘤(pta或pt1),5年内的存活率大约为90%,10年内的存活率大约为80%(pansadorov,emiliozzip,defidiol,etal.bacilluscalmette-guerininthetreatmentofstaget1grade3transitionalcellcarcinomaofthebladder:long-termresults[j].jurol,1995,154(6):2054-2058.)。而剩余部分在诊断期间发现肿瘤肌层浸润的患者往往预后不佳。因此早期诊断可以显著改善患者生存时间和生存质量。

尽管肌肉浸润性疾病需要根治性手术,非肌肉浸润性肿瘤在有或没有膀胱灌注疗法的情况下,通过经尿道切除肿瘤可以更保守地治疗;然而,70%以上的患有早期阶段疾病的患者会在诊断后的前两年复发,这使得膀胱癌成为最常见的癌症之一。如果不及时治疗,这些最初非浸润性病变可演变为肌肉浸润性病变(millánrodríguezf,chéchiletoniolog,salvadorbayarrij,etal.primarysuperficialbladdercancerriskgroupsaccordingtoprogression,mortalityandrecurrence.[j].journalofurology,2000,164(3):680-684.)。膀胱癌的复发现象意味着患者需要至少每年一次的严格监控。为了生命的质量和积极的临床结果,及时发现疾病复发和早期诊断同样重要。

目前的主要检测方法是膀胱镜检查结合尿脱落细胞学检查(vuc)。膀胱镜检查是造成严重不适的侵入性检查,成本高,并且可能造成感染和创伤。这使得部分早期病人对膀胱镜检查存有抵触心理,往往因此贻误病情的诊断和及时治疗。细胞学检查是非侵入性检查膀胱癌的可选择方法。然而,对结果的解读高度依赖于观察者,因此结果较为主观,尤其是在低级肿瘤中。因此,仍需开发用于非侵入性诊断膀胱癌的替代方法,其允许以高灵敏度和特异度客观地诊断膀胱癌。

肿瘤是基因组疾病。基因组变化在肿瘤发生和发展中起着重要作用。1999年,美国国立癌症研究所公布的研究项目建议书中首次提出应通过综合的分子分析技术为肿瘤分类提供更多信息,从而使肿瘤分类从传统的形态学转向以分子特征为基础的“分子分型”。近年来,随着分子生物学和生物信息学技术的飞速发展,研究人员采用生物芯片和高通量测序技术,可同时检测肿瘤组织中成千上万个基因的表达水平,从中发现与肿瘤类型相关的基因及特定的表达模式。国内外相关研究报道,基因表达谱分析对从分子水平阐明肿瘤本质及准确划分肿瘤类型可起到重要的辅助作用。例如,varadhachary和talantov等筛选出10个组织特异性基因,判别肺癌、乳腺癌、结肠癌、卵巢癌、胰腺癌和前列腺癌,该方法准确率为78%;ma等则检测肿瘤组织中92个基因的表达情况,识别32种肿瘤类型,该方法准确率为87%;rosenfeld等则报道了一项48个micrornas的检测,识别22种肿瘤类型,准确率为89%。在我国,发明人曾于2015年首先公开了一组用于肿瘤分子分型的基因及其应用(专利申请号:201510550924.3),该组基因可以用于区分22种癌症类型,在我国男性和女性最常见十大肿瘤中,96基因模型的分类准确率分别达到95.5%和93.2%。尽管,该组基因对于膀胱癌鉴别诊断具有出色的性能,灵敏度为87.5%和特异度为100%,但其主要应用于石蜡组织标本。

国际专利申请wo2014/118334描述了一种基于尿液样品中特定基因的表达模式来进行膀胱癌诊断的体外非侵入性方法。尽管该方法在西方人群的验证研究中体现出较高的灵敏度(78.7%)和特异度(93.2%),但其是否同样适用于中国人群,还需要进一步的实验证实。尿液中仅含有极其微量的肿瘤脱落细胞,如何从微量的肿瘤脱落细胞中提取足量的rna,从而精确检测膀胱癌相关基因的表达丰度,是当前尿液膀胱癌基因检测的难点。现有的检测方法主要存在以下不足:

一、现有方法采用trizol溶剂纯化和提取尿液脱落细胞中的rna,实验过程中需要反复地洗脱、去除上清液,步骤非常繁琐且难以控制,容易造成rna的损失,最终影响rna的得率和纯度。例如,国际专利申请wo2014/118334实施例中描述了采用trizol(invitrogen,carlsbad,ca,usa)抽提法处理尿液标本,结果790名受试者中,有256名(31%)因质量不合格而被排除,有效样本为534名,检测成功率仅为69%。

二、为了实现在微量的rna中,检测到膀胱癌特异基因的表达丰度,要求被检测基因对于膀胱癌具有很高的特异性。当基因组合特异度不够高时,往往需要在逆转录之后,进行一步预扩增的操作,先富集一定量的被检测物,以保证后续定量过程的实施。预扩增完成后,需在实验过程中打开pcr反应试管,重新加入靶基因的特异性探针引物。这一开盖过程极有可能引起pcr产物气溶胶的扩散,进而导致实验室的污染。在处理样本量大,检测任务繁重的临床实验室,预扩增技术的应用存在较大的风险和挑战。

三、现有检测方法的实验流程包括:尿液样本预处理和rna提取(3小时)、逆转录(2.5小时)、预扩增(2小时)、扩增(2小时)和检测分析(0.5小时)。整个实验保守估计耗时超过10小时。在临床实践中,需要两个工作日才能完成1例样本的检测,临床应用面临巨大挑战。



技术实现要素:

本发明要解决的技术问题之一是提供一组用于膀胱癌检测的基因,建立膀胱癌统计分析模型,帮助患者实现个体化治疗,其具有特异性好、检测成功率高、操作简单快速的优势,能够较好地满足临床对于非侵入性检查膀胱癌的迫切需求。

本发明要解决的技术问题之二是提供一组用于膀胱癌检测的基因的用途。

本发明要解决的技术问题之三是提供一种用于膀胱癌检测的试剂盒及其用途。

本发明要解决的技术问题之四是提供一组用于膀胱癌检测的基因在制备用于诊断、预后或监测膀胱癌的基因芯片中的应用。

为解决上述技术问题,本发明采用如下技术方案:

在本发明的一方面,提供一组用于膀胱癌检测的基因,包括如下32个基因:ca9基因、cdk1基因、ctse基因、dmbt1基因、erbb2基因、hoxa13基因、igf2基因、cxcr2基因、magea3基因、mdk基因、mmp1基因、mmp12基因、rbp2基因、ccl18基因、snai2基因、vegfa基因、mfap5基因、sgk2基因、wfdc2基因、postn基因、npffr2基因、anxa10基因、ctag2基因、zdhhc2基因、krt20基因、ppp1r14d基因、fgd3基因、ahnak2基因、sema3d基因、znf707基因、loc100652931基因、linc00565基因。

本文中“ca9基因”的基因id为768,在genbank数据库中登录号为nm_001216.2。

本文中“cdk1基因”的基因id为983,在genbank数据库中登录号为nm_001786.4。

本文中“ctse基因”的基因id为1510,在genbank数据库中登录号为nm_001317331.1。

本文中“dmbt1基因”的基因id为1755,在genbank数据库中登录号为nm_001320644.1。

本文中“erbb2基因”的基因id为2064,在genbank数据库中登录号为nm_001289937.1。

本文中“hoxa13基因”的基因id为3209,在genbank数据库中登录号为nm_000522.4。

本文中“igf2基因”的基因id为3481,在genbank数据库中登录号为nm_000612。

本文中“cxcr2基因”的基因id为3579,在genbank数据库中登录号为nm_001168298.1。

本文中“magea3基因”的基因id为4102,在genbank数据库中登录号为nm_005362.3。

本文中“mdk基因”的基因id为4192,在genbank数据库中登录号为nm_001130143.1。

本文中“mmp1基因”的基因id为4312,在genbank数据库中登录号为nm_001145938.1。

本文中“mmp12基因”的基因id为4321,在genbank数据库中登录号为nm_002426.5。

本文中“rbp2基因”的基因id为5948,在genbank数据库中登录号为nm_004164.2。

本文中“ccl18基因”的基因id为6362,在genbank数据库中登录号为nm_002988.3。

本文中“snai2基因”的基因id为6591,在genbank数据库中登录号为nm_003068.4。

本文中“vegfa基因”的基因id为7422,在genbank数据库中登录号为nm_001025366.2。

本文中“mfap5基因”的基因id为8076,在genbank数据库中登录号为nm_001297709.1。

本文中“sgk2基因”的基因id为10110,在genbank数据库中登录号为nm_001199264.1。

本文中“wfdc2基因”的基因id为10406,在genbank数据库中登录号为nm_006103.3。

本文中“postn基因”的基因id为10631,在genbank数据库中登录号为nm_001135934.1。

本文中“npffr2基因”的基因id为10886,在genbank数据库中登录号为nm_001144756.1。

本文中“anxa10基因”的基因id为11199,在genbank数据库中登录号为nm_007193.4。

本文中“ctag2基因”的基因id为30848,在genbank数据库中登录号为nm_020994.4。

本文中“zdhhc2基因”的基因id为51201,在genbank数据库中登录号为nm_001362988.1。

本文中“krt20基因”的基因id为54474,在genbank数据库中登录号为nm_019010.2。

本文中“ppp1r14d基因”的基因id为54866,在genbank数据库中登录号为xm_017022372.1。

本文中“fgd3基因”的基因id为89846,在genbank数据库中登录号为nm_001083536.1。

本文中“ahnak2基因”的基因id为113146,在genbank数据库中登录号为nm_001350929.1。

本文中“sema3d基因”的基因id为223117,在genbank数据库中登录号为nm_152754.2。

本文中“znf707基因”的基因id为286075,在genbank数据库中登录号为nm_001100598.1。

本文中“loc100652931基因”的基因id为100652931,在genbank数据库中登录号为nr_104151.1。

本文中“linc00565基因”的基因id为100861555,在genbank数据库中登录号为nr_047495.1。所述膀胱癌检测结果为膀胱癌阳性、或膀胱癌阴性;所述膀胱癌检测的样本为尿液样本。

所述尿液样本的预处理方法包括如下步骤:首先离心尿液中脱落的细胞,随后采用纯化柱抽提法以纯化柱作为液体洗脱的介质提取总rna。

所述基因采用如下方法筛选得到:采用“大数据和算法驱动”的分析技术,选取对于膀胱癌高特异性的基因组合;首先构建膀胱癌基因表达谱数据库,包含人类已知2万多个基因、92例样品,超过200万个数据点,将每个样本中人类2万多个基因的表达量数据与样本的临床数据关联起来;然后通过统计分析方法t检验来筛选膀胱癌特异基因,即分析每个基因与膀胱癌的相关性,并将关联度最高的基因提取出来作为特征基因,筛选得到32个基因用于构建分类模型;采用支持向量机算法,建立统计分析模型用于检测膀胱癌,对于每一例待测样本,模型计算该样品基因表达模式与数据库中膀胱癌的相似度分数,并根据相似度分数最大原则判别该样本的是否为膀胱癌。

本发明通过基因检测、标志物组合及数据挖掘算法的联合应用来建立基因标志物组合模型,利用多基因预测模型区分诊断对象是否患有膀胱癌。主要包括以下步骤:

(1)收集膀胱癌的临床诊断数据和基因表达数据库,构建包含人类已知20500个基因、92例样品的膀胱癌基因表达谱数据库;

(2)对基因表达模式进行统计分析,筛选出32个与膀胱癌密切相关的基因,分别为ca9基因、cdk1基因、ctse基因、dmbt1基因、erbb2基因、hoxa13基因、igf2基因、cxcr2基因、magea3基因、mdk基因、mmp1基因、mmp12基因、rbp2基因、ccl18基因、snai2基因、vegfa基因、mfap5基因、sgk2基因、wfdc2基因、postn基因、npffr2基因、anxa10基因、ctag2基因、zdhhc2基因、krt20基因、ppp1r14d基因、fgd3基因、ahnak2基因、sema3d基因、znf707基因、loc100652931基因、linc00565基因。

(3)计算上述32个基因表达模式,通过统计分析模型对膀胱癌进行评价,计算生物学样品与膀胱癌的相似度分数(similarityscore)。根据相似度分数最高的判定规则,判定诊断对象是否患有膀胱癌。

本发明提供了一种用于判断膀胱癌的检测方法,包括以下步骤:(1)将取自膀胱癌患者或有膀胱癌风险患者的生物学样品与生物标志物接触,所述生物标志物包括上述32个基因;所述生物学样本是取自所述对象的离体生物样本,可以是膀胱流体样本,例如尿液、膀胱洗液等。

在此基础上,进一步进行膀胱癌判断:

(2)检测该生物学样本中32个基因的表达模式和表达水平,基于32个基因的表达水平来判断该生物学样品是否为膀胱癌。采用数据分析方法,计算该生物学样品与膀胱癌的相似度分数(similarityscore)。根据相似度分数最高的判定规则,判定诊断对象是否患有膀胱癌。所述检测包括从所述样本制备rna,所述rna用于聚合酶链式反应(pcr),所述pcr是逆转录pcr(rt-pcr),可选实时rt-pcr或者基因芯片或者高通量测序技术。

在本发明的另一方面,提供一组用于膀胱癌检测的基因在制备用于膀胱癌检测的试剂盒中的应用。

在本发明的另一方面,提供一种用于膀胱癌检测的试剂盒,该试剂盒包含如下生物标志物,所述生物标志物选自上述一组用于膀胱癌诊断的基因中的任意一种或多种。

作为本发明优选的技术方案,所述生物标志物是核酸、寡核酸链、或pcr引物组。

作为本发明优选的技术方案,所述pcr引物组包括:

ca9基因:正向引物如seqidno.1所示,反向引物如seqidno.2所示;

cdk1基因:正向引物如seqidno.3所示,反向引物如seqidno.4所示;

ctse基因:正向引物如seqidno.5所示,反向引物如seqidno.6所示;

dmbt1基因:正向引物如seqidno.7所示,反向引物如seqidno.8所示;

erbb2基因:正向引物如seqidno.9所示,反向引物如seqidno.10所示;

hoxa13基因:正向引物如seqidno.11所示,反向引物如seqidno.12所示;

igf2基因:正向引物如seqidno.13所示,反向引物如seqidno.14所示;

cxcr2基因:正向引物如seqidno.15所示,反向引物如seqidno.16所示;

magea3基因:正向引物如seqidno.17所示,反向引物如seqidno.18所示;

mdk基因:正向引物如seqidno.19所示,反向引物如seqidno.20所示;

mmp1基因:正向引物如seqidno.21所示,反向引物如seqidno.22所示;

mmp12基因:正向引物如seqidno.23所示,反向引物如seqidno.24所示;

bp2基因:正向引物如seqidno.25所示,反向引物如seqidno.26所示;

ccl18基因:正向引物如seqidno.27所示,反向引物如seqidno.28所示;

snai2基因:正向引物如seqidno.29所示,反向引物如seqidno.30所示;

vegfa基因:正向引物如seqidno.31所示,反向引物如seqidno.32所示;

mfap5基因:正向引物如seqidno.33所示,反向引物如seqidno.34所示;

sgk2基因:正向引物如seqidno.35所示,反向引物如seqidno.36所示;

wfdc2基因:正向引物如seqidno.37所示,反向引物如seqidno.38所示;

postn基因:正向引物如seqidno.39所示,反向引物如seqidno.40所示;

npffr2基因:正向引物如seqidno.41所示,反向引物如seqidno.42所示;

anxa10基因:正向引物如seqidno.43所示,反向引物如seqidno.44所示;

ctag2基因:正向引物如seqidno.45所示,反向引物如seqidno.46所示;

zdhhc2基因:正向引物如seqidno.47所示,反向引物如seqidno.48所示;

krt20基因:正向引物如seqidno.49所示,反向引物如seqidno.50所示

ppp1r14d基因:正向引物如seqidno.51所示,反向引物如seqidno.52所示;

fgd3基因:正向引物如seqidno.53所示,反向引物如seqidno.54所示;

ahnak2基因:正向引物如seqidno.55所示,反向引物如seqidno.56所示;

sema3d基因:正向引物如seqidno.57所示,反向引物如seqidno.58所示;

znf707基因:正向引物如seqidno.59所示,反向引物如seqidno.60所示;

loc100652931基因:正向引物如seqidno.61所示,反向引物如seqidno.62所示;

linc00565基因:正向引物如seqidno.63所示,反向引物如seqidno.64所示;

上述试剂盒的使用方法包括以下步骤:

(1)将生物学样品与生物标志物接触;

(2)测定所述标志物在该生物学样品中的表达水平;

(3)检测生物学样品中基因的表达模式,并将其与膀胱癌基因表达谱数据库进行比对。

所述试剂盒检测的表达可以通过实时定量逆转录聚合酶链式反应(rt-pcr),或者基因芯片,或者高通量测序技术。

所述的试剂盒检测的表达水平是mrna表达水平。

仅作为本发明上述补助的例子,针对诊断对象的尿液脱落细胞,利用实时定量逆转录聚合酶链式反应(rt-pcr),判断膀胱癌的方法,包含以下步骤:

(1)获取诊断对象的尿液脱落细胞;

(2)以实时定量逆转录聚合酶链式反应检测该样品中32个基因的表达;

(3)检测该样品中32个基因的表达模式,并将其与膀胱癌基因表达谱数据进行比对,判断该生物样本是否属于膀胱癌。

在本发明另一方面,提供所述的试剂盒在制备诊断、预后或监测膀胱癌的制剂中的用途。

在本发明另一方面,提供一组用于膀胱癌检测的基因在制备用于诊断、预后或监测膀胱癌的基因芯片中的应用,所述基因芯片包括固相载体和探针,所述探针与待测32个基因序列和/或其互补序列进行杂交,待测32个基因为:ca9基因、cdk1基因、ctse基因、dmbt1基因、erbb2基因、hoxa13基因、igf2基因、cxcr2基因、magea3基因、mdk基因、mmp1基因、mmp12基因、rbp2基因、ccl18基因、snai2基因、vegfa基因、mfap5基因、sgk2基因、wfdc2基因、postn基因、npffr2基因、anxa10基因、ctag2基因、zdhhc2基因、krt20基因、ppp1r14d基因、fgd3基因、ahnak2基因、sema3d基因、znf707基因、loc100652931基因、linc00565基因。所述探针分别是seqidno.65~seqidno.96所示序列。

本发明构建统计分析模型,通过检测尿液样本中32个与膀胱癌相关的基因,判断该样本是否为膀胱癌。辅助医生进行临床决策,实现精准医疗,以提高膀胱癌患者的生存率。经临床验证,采用本发明所提供的试剂盒检测膀胱癌,准确率高,结果判读客观;同时,作为一项非侵入性检测,较现有的膀胱镜检查,患者的依从性大大提升,对于膀胱癌的早期发现和术后监测具有重要的临床意义。

与现有技术(国际专利申请wo2014/118334)相比,本发明的有益效果在于:

1、本发明改进了尿液中rna的提取和纯化方法,创新性地以纯化柱作为液体洗脱的介质,从而免去了反复洗脱的步骤;在显著提高rna得率和纯度的同时,极大简化了实验流程,将检测成功率从69%提升到93%。因此,本发明所采用的尿液样本预处理方法具有rna得率高、检测成功率高和操作快速简便的优点。

2、本发明采用“大数据和算法驱动”的分析技术,选取对于膀胱癌高特异性的基因组合。发明人构建了膀胱癌基因表达谱数据库,包含人类已知2万多个基因、92例样品,超过200万个数据点。将每个样本中人类2万多个基因的表达量数据与样本的临床数据关联起来,然后通过统计分析方法t检验来筛选膀胱癌特异基因,即分析每个基因与膀胱癌的相关性,并将关联度最高的基因提取出来作为特征基因。最终筛选得到32个基因用于构建分类模型。根据机器学习的一般性原理,32个基因组合是人类已知的2万多个基因中与膀胱癌发生关系最密切的基因,因此具有良好的特异性。由于本发明提供的32基因组合具有良好的特异性,因此可通过尿液中非常微量的肿瘤细胞检测到膀胱癌特异基因的表达。通过经典的两步法pcr(逆转录+扩增),即可完成检测,避免采用预扩增技术导致的实验室污染等问题发生,达到了现有方法所预料不到的技术效果。

3、本发明通过改进样本预处理方法,提高检测基因的特异性,去除不必要的预扩增步骤,可将实验所需时间缩短至5个小时,耗时仅为现有方法的一半,显著提高检测效率。实现当天即可完成检测,因此更加适用于临床使用。

综上所述,发明人通过创造性劳动,提供了一组基于尿液检测膀胱癌的基因组合及检测试剂盒,该系统具有特异性好、检测成功率高、操作简单快速的优势,能够较好地满足临床对于非侵入性检查膀胱癌的迫切需求。

附图说明

图1是本发明实施例3中32基因膀胱癌检测的结果示意图。

具体实施方式

以下实施例仅用于说明本发明,而不用于限制本发明的范围。实施例中未注明具体条件的实验方法,按照制造试剂盒生产公司所建议的条件或按照常规实验条件,例如sambrook等人,分子克隆:实验室手册(newyork:coldspringharborlaboratorypress,1989)中所述的条件。除非另行定义,文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外,任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所述的较佳实施方法与材料仅作示范作用。

实施例1.

训练集样本收集及处理;

本发明分析了52例膀胱癌患者、40例非膀胱癌但患有其他泌尿系统疾病的患者,共计92例尿液样本的临床资料和20500个基因表达丰度数据,构建尿液中膀胱癌基因表达数据库。

32个特异性基因的筛选;

根据基因表达丰度的测量值,发明人采用统计分析方法t检验从20500个基因中刷选出32个与膀胱癌密切相关的基因。这些基因在膀胱癌中存在差异性表达,具有统计学意义,见表1。

表1:32基因集合

32基因统计分析模型的构建:

基于32个特异基因在膀胱癌和非膀胱癌样本中的表达模式,发明人采用支持向量机(supportvectormachines)算法,建立统计分析模型用于检测膀胱癌。对于每一例待测样本,模型计算该样品基因表达模式与数据库中膀胱癌的相似度分数,并根据相似度分数最大原则判别该样本的是否为膀胱癌。自1992年发明以来,支持向量机算法已被广泛地应用于解决各类识别问题,包括金融数据分析、语音识别和生物数据分析。本领域的技术人员可通过开源免费的分析软件,例如:r、rapidminer和weka使用支持向量机算法。不仅仅局限于支持向量机算法,其他告知的数据挖掘方法都可采用,例如加权投票(weightedvoting)、k-最邻近值(k-nearestneighbors)、随机森林(randomforest)、相关性系数(correlationcoefficients)等。

实施例2.

本实施例中,发明人分析了包含107尿液样本的高通量测序数据,其中包括63例膀胱癌样本和44例非膀胱癌样本。通过32基因统计分析模型对每个样品进行判别,并与临床诊断结果比较,准确率为91.6%,灵敏度为92.1%,特异度为90.9%,见表2.

表2:32基因检测在107例验证集中的判别结果

实施例3.

本实施例中,发明人收集了114例尿液样本,其中包含80例膀胱癌样本和34例非膀胱癌样本。研究人员首先离心尿液中脱落的细胞,随后采用纯化柱抽提法替代传统trizol法提取总rna。其中,8例样本由于rna质量不合格而将其排除,剔除率为7%。最终,本研究包括106例样本,其中74例膀胱癌样本和32例非膀胱癌样本。提取纯化后的rna经逆转录获得cdna,进行32基因的实时定量聚合酶链反应检测尿液中脱落的细胞中基因的表达水平,分析模型计算该样本与膀胱癌的相似度分数。

国际专利申请wo2014/118334实施例中描述了采用trizol(invitrogen,carlsbad,ca,usa)抽提方法处理790例尿液标本,其中256例(31%)因rna质量不达标而被排除;剩余有效样本534名,检测成功率约为69%。发明人创造性地在传统trizol抽提法的基础上改进抽提方法,采用纯化柱抽提法显著提高rna的得率和纯度,将检测成功率提升到93%。

通过32基因统计分析模型对每个样品类型的判别,并与临床诊断结果相比较,准确率为93.4%,灵敏度为91.9%,特异度为96.9%,见表3。

表3:32基因模型在106例验证集中的判别结果

设计32个基因的pcr引物组分别如下:

ca9基因:正向引物如seqidno.1所示,反向引物如seqidno.2所示;

cdk1基因:正向引物如seqidno.3所示,反向引物如seqidno.4所示;

ctse基因:正向引物如seqidno.5所示,反向引物如seqidno.6所示;

dmbt1基因:正向引物如seqidno.7所示,反向引物如seqidno.8所示;

erbb2基因:正向引物如seqidno.9所示,反向引物如seqidno.10所示;

hoxa13基因:正向引物如seqidno.11所示,反向引物如seqidno.12所示;

igf2基因:正向引物如seqidno.13所示,反向引物如seqidno.14所示;

cxcr2基因:正向引物如seqidno.15所示,反向引物如seqidno.16所示;

magea3基因:正向引物如seqidno.17所示,反向引物如seqidno.18所示;

mdk基因:正向引物如seqidno.19所示,反向引物如seqidno.20所示;

mmp1基因:正向引物如seqidno.21所示,反向引物如seqidno.22所示;

mmp12基因:正向引物如seqidno.23所示,反向引物如seqidno.24所示;

rbp2基因:正向引物如seqidno.25所示,反向引物如seqidno.26所示;

ccl18基因:正向引物如seqidno.27所示,反向引物如seqidno.28所示;

snai2基因:正向引物如seqidno.29所示,反向引物如seqidno.30所示;

vegfa基因:正向引物如seqidno.31所示,反向引物如seqidno.32所示;

mfap5基因:正向引物如seqidno.33所示,反向引物如seqidno.34所示;

sgk2基因:正向引物如seqidno.35所示,反向引物如seqidno.36所示;

wfdc2基因:正向引物如seqidno.37所示,反向引物如seqidno.38所示;

postn基因:正向引物如seqidno.39所示,反向引物如seqidno.40所示;

npffr2基因:正向引物如seqidno.41所示,反向引物如seqidno.42所示;

anxa10基因:正向引物如seqidno.43所示,反向引物如seqidno.44所示;

ctag2基因:正向引物如seqidno.45所示,反向引物如seqidno.46所示;

zdhhc2基因:正向引物如seqidno.47所示,反向引物如seqidno.48所示;

krt20基因:正向引物如seqidno.49所示,反向引物如seqidno.50所示;

ppp1r14d基因:正向引物如seqidno.51所示,反向引物如seqidno.52所示;

fgd3基因:正向引物如seqidno.53所示,反向引物如seqidno.54所示;

ahnak2基因:正向引物如seqidno.55所示,反向引物如seqidno.56所示;

sema3d基因:正向引物如seqidno.57所示,反向引物如seqidno.58所示;

znf707基因:正向引物如seqidno.59所示,反向引物如seqidno.60所示;

loc100652931基因:正向引物如seqidno.61所示,反向引物如seqidno.62所示;

linc00565基因:正向引物如seqidno.63所示,反向引物如seqidno.64所示;

32个基因的探针序列分别如下表4所示:

表4

结果如图1所示,非膀胱癌的相似度分数分别为10,膀胱癌的相似度分数分别为90。膀胱癌的相似度分数最高,因此该样本被判定为膀胱癌,与临床诊断结果相符。

实施例4.

国际专利申请wo2014/118334描述了基于尿液样品中igf2、magea3、anxa10、ahnak2、ctse、crh、klf9、krt20、postn、ppp1r14d、slc1a6、tert、asam、mcm10、ebf1、cfh和mmp12基因的表达模式来进行膀胱癌检测的方法。尽管该方法在西方人群的验证研究中体现出较高的灵敏度(78.7%)和特异度(93.2%),但其是否同样适用于中国人群,还需要进一步的实验证实。针对上述12个基因组合,发明人在实施例3的106尿液样本中进行验证。实验人员先离心尿液中脱落的细胞,后采用纯化柱抽提法提取总rna;经逆转录获得cdna,采用实时定量聚合酶链反应检测尿液脱落细胞中12个基因的表达水平,分析模型计算该样本与膀胱癌的相似度分数。

将12基因检测对每个样品类型的判别与临床诊断结果进行比较,准确率为77.4%,灵敏度为91.9%,特异度为43.8%,见表5。由此可见,本发明案的32基因模型与12基因模型比较,在灵敏度上持平(91.9%vs.91.9%),在特异度上具有显著的优势(96.9%vs.43.8%)。发明人进一步比较32基因组合与12基因组合,其中有8个重合基因:ctse、krt20、postn、ppp1r14d、ahnak2、anxa10、igf2、magea3;24个不重合的基因:wfdc2、ca9、ccl18、fgd3、mmp1、erbb2、vegfa、sema3d、npffr2、zdhhc2、znf707、rbp2、hoxa13、sgk2、mmp12、ctag2、snai2、mfap5、dmbt1、linc00565、cdk1、mdk、cxcr2、loc100652931。正是由于发明人采用“大数据和算法驱动”的分析技术选取对于膀胱癌高特异性的基因组合,创造性地发现并且纳入上述24个不重合基因,将特异度从12基因的43.8%提升到32基因的96.9%,因此32基因组合在中国膀胱癌患者人群中具有更出色的临床性能。

表5:12基因模型在106例验证集中的判别结果

以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

序列表

<110>杭州可帮基因科技有限公司

<120>一组用于膀胱癌检测的基因及其应用

<130>wh-np-18-100026

<160>96

<170>patentinversion3.5

<210>1

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>1

tcagccgctacttccaatatg21

<210>2

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>2

ttagcactcagcatcactgtc21

<210>3

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>3

ggtcaagtggtagccatgaa20

<210>4

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>4

gcacatcctgaagactgactat22

<210>5

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>5

gctacgaccactcccatttc20

<210>6

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>6

ggcacactccacagcatatta21

<210>7

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>7

tggttctcccacaactgtaatc22

<210>8

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>8

ggacgggtgatgttgagaaa20

<210>9

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>9

gagacagagtaccatgcagatg22

<210>10

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>10

ccacacagtcacaccataact21

<210>11

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>11

cgggaatacgccacgaataa20

<210>12

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>12

cctgttctggaaccagattgt21

<210>13

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>13

cactctgtctctcccactatct22

<210>14

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>14

cgggccagatgttgtacttt20

<210>15

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>15

ctcgtgatgctggtcatcttat22

<210>16

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>16

caaggtcagggcaaagagtag21

<210>17

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>17

gactccagcaaccaagaaga20

<210>18

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>18

ctcgatacttgaggagcagaaa22

<210>19

<211>18

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>19

aagaaggcgcgctacaat18

<210>20

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>20

gtcctttcccttccctttctt21

<210>21

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>21

ctctgacattcaccaaggtctc22

<210>22

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>22

gatttcctccaggtccatcaaa22

<210>23

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>23

ctgtcactaccgtgggaaataa22

<210>24

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>24

aggttggccataaggaagaaa21

<210>25

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>25

acctgggagatggagagtaat21

<210>26

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>26

gagtgagacgtactgcaatctt22

<210>27

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>27

gtgtcatcctcctaaccaagag22

<210>28

<211>19

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>28

cctcaggcattcagcttca19

<210>29

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>29

ctctctcctctttccggatact22

<210>30

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>30

gcttggactgtagtctttcctc22

<210>31

<211>23

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>31

tggtgtcttcactggatgtattt23

<210>32

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>32

agtctctcatctcctcctcttc22

<210>33

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>33

gaatgatcccgctacagatgaa22

<210>34

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>34

gtagagccttgtgcaggtaaa21

<210>35

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>35

gtcatcggcaaagggaacta20

<210>36

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>36

gatgtggctctgctctttct20

<210>37

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>37

tgctctctgcccaatgataag21

<210>38

<211>18

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>38

caccttcccacagccatt18

<210>39

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>39

gagctttacaacgggcaaatac22

<210>40

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>40

ctcccttgcttactccctttc21

<210>41

<211>19

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>41

tcacacaggcaggaagaac19

<210>42

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>42

gggcagccatgagagaataa20

<210>43

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>43

tcttcccagctcccaatttc20

<210>44

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>44

ctggtatgcctctgcaatca20

<210>45

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>45

tccggcaacctactgtttatg21

<210>46

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>46

accttgtgtttgggtgttct20

<210>47

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>47

agagagagccaagaggagaag21

<210>48

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>48

tccagacatggtcctggtatag22

<210>49

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>49

agagctgcgaagtcagattaag22

<210>50

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>50

ggagatcagcttccactgttag22

<210>51

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>51

ccttgcccagaccaatactt20

<210>52

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>52

ggaccttcttacatgggttctc22

<210>53

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>53

tgatcaaggagggccaaatc20

<210>54

<211>19

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>54

agcttgggcacacagtaaa19

<210>55

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>55

cagatgcctaaggtgggttt20

<210>56

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>56

tcctcacagggagagagaatag22

<210>57

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>57

gcggcactctgtgatgtataa21

<210>58

<211>25

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>58

ccactatctgtgtcagtctgtaatc25

<210>59

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>59

ccaagagaccttgtgatcatcc22

<210>60

<211>20

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>60

gcctgaagcccttcctaaag20

<210>61

<211>22

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>61

ctccttctgctgtggtaagaag22

<210>62

<211>23

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>62

tctacgtgtaggacctccataat23

<210>63

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>63

gacccagcacaggattagaaa21

<210>64

<211>21

<212>dna

<213>人工序列(未知)

<220>

<221>misc_feature

<223>引物

<400>64

gctgacatggagaaggattga21

<210>65

<211>25

<212>dna

<213>人工序列(未知)

<400>65

ccagggtgtcatctggactgtgttt25

<210>66

<211>26

<212>dna

<213>人工序列(未知)

<400>66

ttcccgaattgcagtactaggaaccc26

<210>67

<211>24

<212>dna

<213>人工序列(未知)

<400>67

agcttactggcagattgcactgga24

<210>68

<211>24

<212>dna

<213>人工序列(未知)

<400>68

tgctggtgtcatctgctcaggaaa24

<210>69

<211>24

<212>dna

<213>人工序列(未知)

<400>69

acacatcactctggtgggtgaacc24

<210>70

<211>23

<212>dna

<213>人工序列(未知)

<400>70

actaaggacaaacggaggcggat23

<210>71

<211>24

<212>dna

<213>人工序列(未知)

<400>71

acaacagctgacctcatttcccga24

<210>72

<211>24

<212>dna

<213>人工序列(未知)

<400>72

ctacctgctgaacctagccttggc24

<210>73

<211>23

<212>dna

<213>人工序列(未知)

<400>73

agtgctgcttggaactcggactc23

<210>74

<211>24

<212>dna

<213>人工序列(未知)

<400>74

cccaagaccaaagcaaaggccaaa24

<210>75

<211>25

<212>dna

<213>人工序列(未知)

<400>75

aggagagttgtcccgatgatctccc25

<210>76

<211>24

<212>dna

<213>人工序列(未知)

<400>76

agacaggttcttctggctgaaggt24

<210>77

<211>24

<212>dna

<213>人工序列(未知)

<400>77

actttgagggctacatgaaggccc24

<210>78

<211>26

<212>dna

<213>人工序列(未知)

<400>78

agtgggtccagaaatacatcagcgac26

<210>79

<211>24

<212>dna

<213>人工序列(未知)

<400>79

tcctccatctgacacctcctccaa24

<210>80

<211>24

<212>dna

<213>人工序列(未知)

<400>80

actgctgtggacttgagttgggag24

<210>81

<211>24

<212>dna

<213>人工序列(未知)

<400>81

cacagatgacttggagtgctggga24

<210>82

<211>23

<212>dna

<213>人工序列(未知)

<400>82

tactggccaagcgcaagtctgat23

<210>83

<211>24

<212>dna

<213>人工序列(未知)

<400>83

agtgtcctggccagatgaaatgct24

<210>84

<211>24

<212>dna

<213>人工序列(未知)

<400>84

catcggaggcaaacagctcagagt24

<210>85

<211>23

<212>dna

<213>人工序列(未知)

<400>85

aagatgctcctgattgtggccct23

<210>86

<211>24

<212>dna

<213>人工序列(未知)

<400>86

atggatgcccaaatgctaggagga24

<210>87

<211>22

<212>dna

<213>人工序列(未知)

<400>87

agttcgggaccaggacagggaa22

<210>88

<211>24

<212>dna

<213>人工序列(未知)

<400>88

cttaggcgagcagccaaggatctt24

<210>89

<211>24

<212>dna

<213>人工序列(未知)

<400>89

tgctaaactggctgctgaggactt24

<210>90

<211>24

<212>dna

<213>人工序列(未知)

<400>90

catgctgtcttcaagccctgcttc24

<210>91

<211>23

<212>dna

<213>人工序列(未知)

<400>91

ttgaacaggaagaggtggcggtc23

<210>92

<211>24

<212>dna

<213>人工序列(未知)

<400>92

catcccggcttgatctcactggtc24

<210>93

<211>24

<212>dna

<213>人工序列(未知)

<400>93

ttgcaggaggaccaacgttcaaga24

<210>94

<211>24

<212>dna

<213>人工序列(未知)

<400>94

agaaagagccagggaaggaagcag24

<210>95

<211>24

<212>dna

<213>人工序列(未知)

<400>95

aattggatgagaggccaaggtccc24

<210>96

<211>24

<212>dna

<213>人工序列(未知)

<400>96

tagcatgacaaggcagcactcagg24

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1