甲状腺癌生物标志物的制作方法
【专利摘要】本文提供的方法将微阵列数据用于特征选择并随后使用选定的靶标以用新的临床样本测定数据产生工业标准的qPCR阵列以便建立分类模型。这种多步骤方法克服了传统生物标志物鉴定的缺点。
【专利说明】甲状腺癌生物标志物
[0001] 发明背景 序列表 本申请包含以ASCII形式通过EFS-Web提交的序列表并且通过引用以其整体并入此 处。将创建于2013年3月5日的所述ASCII拷贝命名为0051-0096-W01_SL. txt且大小为 5,019字节。 发明领域
[0002] 本文提供的方法将微阵列数据用于特征选择并随后使用选定的靶标以用新的临 床样本测定数据产生工业标准的实时定量(qPCR)阵列以便建立分类模型。这种多步骤方 法克服了传统生物标志物鉴定的缺点。
[0003] 发明背景 在使用传统方法对甲状腺结节的临床分类中具有挑战。这些挑战影响临床决策并导 致非必需手术的执行。虽然一些研究者已经探索了使用新的分子分类法以克服这些挑战, 但是这些努力在临床环境下仍然远没有实现。
[0004] 甲状腺结节在大多数人群中常见。例如,据估计2010年在美国会验明44, 670名 新病患。通常侵入诊断法对于病患中结节类型的准确诊断是必需的。自从1970年代引进 以来,细针抽吸活组织检查(FNAB)提供了最重要的诊断手段,然而20-30%的FNAB细胞学 结果仍然不确定。尽管可重复不确定的、可疑的或非诊断的FNAB,但这些只对于小部分的病 患有帮助而且需要额外的费用和侵入步骤。
[0005] 许多研究者已经尝试开发其他的诊断测定法和生物标志物以提高诊断精确度。 例如,细针抽吸活组织检查(FNAC)在更好的精确度上具有它的价值但其局限性在滤泡性 甲状腺癌(FTC)中尤其明显。免疫组化生物标志物例如Hector Battifora间皮细胞1 (HBME-I)、高分子量细胞角蛋白19 (CK19)和半乳凝素-3已经展现出具有甲状腺癌相关的 表达,但是它们的表达在灵敏性和特异性上高度可变。其他尝试例如恶性甲状腺细胞中使 用基因重排和/或体细胞突变的研究已取得的进展有限。进一步的研究已聚焦于转化/乳 头状甲状腺癌的重排(RET/PTC),其中已发现BRAF和RAS基因的重排和突变增加诊断、预后 和验证研究的精确性。最后,微阵列基因概况分析已展示有助于良性结节和恶性肿瘤的分 类。但是,这些研究大多数仅专注于简单的微阵列分析和验证以鉴定在良性和恶性群体之 间差异表达的基因。显然,使用生物信息学模型的更稳健的测定和更精密的分析将更好地 适应肿瘤异质性的挑战和临床样本的复杂性,尤其对于甲状腺瘤。
[0006] 但是,基于微阵列的测定具有一些固有缺点。他们对样本质量敏感,这在临床环境 中通常表现为挑战。基于微阵列的技术也需要增加的样本制备时间和复杂的数据分析程 序。
[0007] 传统地,微阵列被直接用于生物标志物特征(signature)的产生。然而,微阵列的 直接使用在临床环境中产生了许多挑战,尽管观测到一些重要的靶标,但是并没有形成如 何将通过微阵列实验所得的观察结果转化为用户友好的临床检测的共识。对于传统直接使 用微阵列的另一个缺点是不同微阵列平台间的标准化。存在多种微阵列平台,其各自使用 截然不同的基因集合并采用不同杂交和信号检测方法。例如,一些微阵列包含可变长度的 cDNA,而其它微阵列包含小的寡核苷酸序列。不同微阵列平台的使用使得额外的平台间的 标准化和转化工作成为必要,这使结果一致性较低且增加出错的风险。
[0008] 研究者们已将例如无监管的分级聚类和2组k-平均数聚类等传统发现聚类分析 用于甲状腺癌鉴定的靶标鉴定和最终分类。除了良好设计的基于多模型的特征筛选和qPCR 阵列优化外,本文还提供用于监管的机器学习的新训练样本集,其随后用于普遍接受的分 类方法-随机森林(Random forest)中用于最终恶性甲状腺结节鉴定。
[0009] 传统地,用于分类的发现工具的使用限制了他们用于临床诊断的潜在应用。 Marschall Stevens Runge 在他的著作 "Principles of molecular medicine (分子医药 原理)"中陈述,"分析的非监管方法,包括主要成分分析、分级聚类、k-平均数聚类和自组 织图,可用作用于类别发现的工具。"此外,"用于确定在疾病状况间基因表达概况的差异的 非监管方法具有可通过使用监管的学习方法规避的限制。"本文提供的方法将监管的机器 学习方法用于恶性甲状腺结节和良性结节的分类并避免先前方法的问题和限制。
[0010] 发明概述 在实施方案中,提供实时定量聚合酶链反应(qPCR)阵列。合适地,该阵列包含一种或 多种选自即02、510(^11、5004、0)53、]\^1\60511和011311的甲状腺结节恶性肿瘤分类生物 标志物;一个或多个选自TBP、RPL13A、RPS13、HSP90AB1和YWHAZ的参考基因;和用于产生 单一恶性肿瘤分数和可调整(scalable)的截止阈值的相伴分类算法。
[0011] 该阵列合适地包含3种或者更多种甲状腺结节恶性肿瘤分类生物标志物和3个或 更多个参考基因,该阵列更合适地包含5种或更多种甲状腺结节恶性肿瘤分类生物标志物 及4个或更多个参考基因。
[0012] 在实施方案中,该阵列包含甲状腺结节恶性分类生物标志物NPC2、S100A11、SDC4、 CD53、MET、GCSH 和 CHI3L1 及参考基因 TBP、RPL13A、RPS13、HSP90AB1 和 YWHAZ。
[0013] 在本文描述了用于该阵列的示例性的替换基因,在本文亦描述了用于所述算法的 示例性的数学模型。
[0014] 附图简述 图1展示用于制备本文所述生物标志物PCR阵列的开发路线图的实例。
[0015] 图2展示本文所描述的qPCR阵列开发进程。
[0016] 图3展示使用本文所述的qPCR阵列系统进行的从样本到生物标志物特征小组 (panel)的工作流程。
[0017] 图4A-4D展示本文所描述甲状腺恶性肿瘤qPCR阵列的开发。
[0018] 图5展示所述甲状腺恶性肿瘤特征的结果。
[0019]图6A展示人类(Homo Sapiens) TATA框结合蛋白(TBP)、转录变体2、mRNA(SEQ ID NO :1)的序列。
[0020] 图6B展示人类TATA框结合蛋白(TBP)、转录变体UmRNA (SEQ ID NO : 2)的序列。
[0021] 图 7A 展不人类尼曼-皮克病(Niemann-pick disease)、C2 类型(NPC2)、mRNA (SEQ ID NO : 3)的序列。
[0022] 图 7B 展示人类 S100 钙结合蛋白 All(S100All)、mRNA(SEQ ID NO :4)的序列。
[0023] 优选实施方案的详细说明 应该理解的是,本文描述和展示的具体实现是实例而不意图以任何方式另外限制本申 请的范围。
[0024] 本文提到的公开专利、专利申请、网址、公司名称及科学文献通过引用以其整体并 入此处,其程度如同各自具体地且单独地指出通过引用并入一样。本文引用的任何参考文 献和本说明书的具体教导之间的任何冲突应该按支持后者的方式决断。同样地,单词或短 语的本领域理解定义与本说明书中具体教导的该单词或短语的定义之间的任何冲突应该 支持有后者的方式决断。
[0025] 如本说明书中使用,除非内容清晰地另外指示,单数形式"一"、"一种"和"该"具 体还包括它们所提及的术语的复数形式。术语"约"在本文中用于意指大概、在…左右、大 致的或大约。当术语"约"连同数值范围使用时,它通过延伸高于和低于陈述的数值的边界 修饰该范围。通常,术语"约"在本文中用于修饰高于和低于陈述值达20%变化的数值。
[0026] 除非另外定义,本文使用的技术和科学术语具有本申请所属领域的技术人员通常 理解的含义。本文对本领域中普通的技术人员所知的各种方法和材料进行了提及。
[0027] 生物标志物qPCR阵列的开发 在实施方案中,提供了制备生物标志物实时定量聚合酶链反应(qPCR)阵列的方法。合 适地,这些方法包括选择一种或多种高通量特征表达数据集,标准化该特征表达数据集,通 过一种或多种数学模型分析该数据集以产生最终候选特征,和生成包含最终候选特征的生 物标志物qPCR阵列。
[0028] 如本文使用,"生物标志物"是指可测量的特征,这些特征提供关于以下方面的信 息:在病患体内疾病或受累状态的存在情况和/或严重度、与生物通路的关系、药效关系或 产出、相伴诊断、特定物种或生物样本的质量。生物标志物的实例包括基因、蛋白质、肽、抗 体、细胞、基因产物、酶、激素等等。
[0029] 本文使用的"特征"是指基因、基因的部分或其它基因组信息。合适地,特征是指 用以制备本文所述阵列的基因。
[0030] 在实施方案中,所述一种或多种高通量特征表达数据集(包括微阵列数据集,以 及包括下一代测序平台的其它测序数据集)是基于临床效用(例如,疾病特异性生物标志 物)、研究兴趣(例如,生物通路特异性生物标志物)、药物响应(例如,药效生物标志物或 相伴诊断生物标志物)、物种和品质中的一种或多种而进行选择的。
[0031] 在实施方案中,分析包含用一种或多种数学模型对数据集进行的分析,所述数学 模型包括但不局限于:随机森林(RF)建模、支撑向量机(support vector machine, SVM) 建模和最近缩小形心(nearest shrunken centroid, NSC)建模。在本领域中已知的另外 的模型也能应用于本文描述的方法,包括例如各种遗传算法、决策树(decision tress)和 朴素贝叶斯建模(Naive Bayes modeling)。
[0032] 实施这些建模的方法在本领域中为熟知的,且得到了描述,例如RF模型在以 下中描述:Touw等人,"Data mining in the Life Sciences with Random Forest: a walk in the park or lost in the ,BriefingsinBioinformatics,2Q\2 ^ 5 月 26 日,Kursa 和 Rudnicki,"The All Relevant Feature Selection using Random Forest," Cornell University Library, , arXiv:11065112,2011 年 6 月 25 日,Genuer ^ A? ^Variable Selection using Random Forests,^ Pattern Recognition Zettens的文章,2010年3月17日,OstrofT等,"Early Detection of Malignant Pleural Mesothelioma in Asbestos-Exposed Individuals with a Noninvasive Proteomics-Based Surveillance Tool,",PLOS ONE 7:e46091(2012年10月),Chen 等人,"Development and Validation of a qRT-PCR Classifier for Lung Cancer Prognosis,"JThorac Onocl 6:1481-1487 (2011年9月);NSC模型在以下中描述: Klassen和Kim, "Nearest Shrunken Centroid as Feature Selection of Microarray Data,',,可从http://wwwresearchgatenet/获得,Tibshirani等,"Diagnosis of multiple cancer types by shrunken centroids of gene expression, ,' Proc Natl Acad Sci 99:6567-6572 (2002年5月14日);及SVM模型在以下中描述:Yousef等 人,"Classification and biomarker identification using gene network molecules and support vector machines,10:337 (2009年),和Brank,J, "Feature Selection Using Linear Support Vector Machines,Microsoft Research TfecAflica/ Tfeporh MSR-TR-2002-63 (2002年6月12日)(其各自的公开内容通过引用 以其整体并入本文,特别针对本文描述的模型和它们的实现的公开内容)。在实施方案中, 分析包括将这些模型中的两种或更合适地,所有三种用于数据,以产生组合特征集和最终 qPCR阵列。
[0033] 合适地,分析包含基于由数据集所暗示的所需分类组合来自一种或多种数学模型 的区别性特征。亦即,依据所需的分析(即,临床的结果,研究兴趣等等),选出区分一种 生物标志物与另一种生物标志物的特征。例如,相对于不指示疾病状态或其他特征的基因 挑选存在于疾病状态中的基因。
[0034] 如本文所述,分析可另外包括文献挖掘(mining)以产生最终候选特征。这允许添 加进一步的信息以阐明和限定所需的候选特征。
[0035] 合适地,该方法另外包括选择一种或多种对照数据集,以在生物标志物qPCR阵列 中包含对照特征。如本文所述,正是这些对照特征(即,并不表现出生物标志物特性方面 的变化的特征)的选择提供了本文所提供的方法和阵列的独特特征之一,使得产生最有用 的阵列信息。
[0036] 还提供了按本文所述方法制备的qPCR阵列。在合适的实施方案中,在阵列中每个 限定的位置对应于生物靶标。例如,阵列合适地包含特征选择(例如,基因选择)以致阵 列板的每个孔代表用于分析的靶标。
[0037] 在实施方案中,将qPCR阵列设计用于各种生物标志物(包括各种核酸分子) 的分析,例如用于信使RNA (mRNA)的分析、用于微小RNA(miRNA)的分析、用于长非编码 RNA(IncRNA)的分析等,以及它们的组合。
[0038] 如本文所述,在合适的实施方案中qPCR阵列包括一种或更多种,合适地两种或更 多种,三种或更多种,四种或更多种或五种或更多种对照特征(即,基因),包括而不局限于 的:ACTB、B2M、⑶ SB、HPRTI、RPL13A、S100A6、TFRC、YWHAZ、CFLI、RPS13、TMED10、UBB、ATP5B、 GAPDH、HMBS、HSPCB、RPLP0、SDHA、UBC、PPIA、FL0T2、TMBM6、TBTl、MRPL19 和 RPLPO。在合 适的实施方案中,该阵列包含6种或更多种、7种或更多种、8种或更多种、9种或更多种、10 种或更多种、11种或更多种、12种或更多种、13种或更多种、14种或更多种、15种或更多种、 16种或更多种、17种或更多种、18种或更多种、19种或更多种、20种或更多种、21种或更多 种、22种或更多种、23种或更多种、24种或更多种或全部25种本文所述的对照特征。
[0039] 在进一步的实施方案中,还可将另外的对照特征(参考基因)包括进qPCR阵列, 所述对照特征包括来自不同于人的动物(包括例如小鼠、大鼠、猴、狗等)的特征。这些参 考特征可通过将本文描述的各种方法应用于来自其它动物的信息而选定。
[0040] 进一步的示例性的参考特征包括例如: 小鼠参考特征: Actb NM_007393 B2m NM_009735 Gapdh NM_008084 Gusb NM_010368 Hsp90abl NM_008302 大鼠参考特征: Actb NM_031144 B2m NM_012512 Hprtl NM_012583 Ldha NM_017025 Rplpl NM_001007604 牛参考特征: ACTB NM_173979 GAPDH NM_001034034 HPRTl NM_001034035 TBP NM_001075742 YffHAZ NM_174814 恒河猴参考特征: ACTB NM_001033084 B2M NM_001047137 GAPDH XM_00I105471 L0C709186 XM_00109769I RPL13A XM_001115079 miRNA参考特征: SN0RD61 MS00033705 SN0RD68 MS00033712 SN0RD72 MS00033719 SN0RD95 MS00033726 SN0RD96A MS00033733 RNU6-2 MS00033740 在仍进一步的实施方案中,本文所述方法提供对一种或多种生物标志物赋予单一概率 分数的方法。合适地,这些方法包括收集样本集。合适地,这些样本集是核酸溶液,但还可 以是细胞或组织样本、血样、唾液样本、尿样或其它生物流体样本,并可另外包括各种蛋白 质或其它生物材料。
[0041] 合适地,核酸分子提取自样本集的各个样本。用于实施这种提取的方法在本领域 是熟知的。
[0042] 各个核酸分子随后用如本文所述的qPCR阵列询问。本文所使用的"询问"是指将 样本施加到阵列的一个或多个位置(即,孔)。该方法合适地包括评估一种或多种独立的特 征的辨别力。亦即,对阵列的一种或多种特征(例如,基因)的能力进行评估以确定它们区 分生物标志物的特征(即,疾病对比非疾病状态)的程度如何。
[0043] 该方法进一步包括通过用一种或多种数学模型分析两种或更多种独立特征的组 合的辨别力生成组合特征。本文描述了用于生成该组合特征的方法(包括应用的数学模 型),其包括例如随机森林(RF)建模、支撑向量机(SVM)建模和最近缩小形心(NSC)建模。 在本领域中已知的另外的模型也能应用于本文描述的方法,包括例如各种遗传算法、决策 树和朴素贝叶斯建模。
[0044] 该方法随后进一步地包含对组合特征赋予单一概率分数。亦即,将单一值赋予该 组合特征,其可用来确定生物标志物的水平是否表明所测量/需要的结果。生物标志物的 "截止"值--低于或高于其的话生物标记物的存在是决定的的概率分数--合适地为可 调整的,即根据需要升高或降低。
[0045] 在示例性的实施方案中,所述询问包含对在单一阵列中的2-40个独立的特征(即 基因)进行评估。如本文所述,阵列合适地为96孔板,因此所需特征数量合适地取决于该板 的物理特性(排或列的孔的数量)及将所述特征(例如,基因等)储存于板上的能力。在合适 的实施方案中,所述询问包含对2-8个独立的特征、8-16个独立的特征、16-24个独立的特 征、24-32个独立的特征、32-40个独立的特征、或20个独立的特征及在这些范围内的值和 范围进行评估。
[0046] 本文提供的方法将微阵列数据用于特征选择并随后使用选定的靶标以用新的临 床样本测定数据产生工业标准的qPCR阵列,以便建立分类模型。这种多步骤方法克服了传 统生物标志物鉴定的缺点。
[0047] 本文提供的方法将一种微阵列平台用于特征选择分析以避免与平台标准化和合 并数据集相关的问题。
[0048] 本文提供的方法合适地将7个靶标基因(比上述的小组少很多)连同对照一起用以 产生dCt数据以输入用于分类的机器学习模型(诊断)。
[0049] 本文提供基于模型的分类系统。在训练和测试后,将模型固定并只需要向模型中 输入新的样本数据。在不需要任何以前的训练数据的情况下计算分类。
[0050] 本文提供使用组织特异性输入对照的模型,与传统上使用的一般微阵列或qPCR 对照不同,所述输入对照可提供样本间更精确的比较。
[0051] 本文提供这样的模型,其即使用训练集也用2-组K-平均数聚类分析实现88%精 确度和82%特异性,用无监管分级聚类分析实现92%精确度和82%特异性且合适地100%正 确地分类该训练集。
[0052] 本文的方法提供基于机器学习分类模型的实用分子诊断qPCR测定特征小组以鉴 定恶性甲状腺结节。
[0053] 为更好地将恶性甲状腺结节区分于良性甲状腺结节,本文提供的方法使用更实用 的qPCR平台。将来自微阵列测定的甲状腺癌和对照样本数据集用于针对甲状腺恶性肿瘤 鉴定的最终特征选择。使用几种特征选择方法(比如随机森林和支撑向量机)以对靶标排 序。利用选择的基因,将384-孔qPCR阵列(包括10个所选的特异性甲状腺结节持家基因 和3个qPCR测定对照)用于研究49个良性和恶性甲状腺样本的集用于特征小组开发。基 于分析进一步地鉴定出5个持家基因。使用随机森林分类模型开发精细调和的分类特征(7 个靶基因和5个对照)。除训练集以外,本文提供的方法也在不同于训练集的测试集中执行 良好。该方法提供91. 7%精确度、87. 5%灵敏性和100%特异性、100% PPV和80% NPV。在混 合样本试验中,该方法鉴定仅包含与75%良性样本混合的25%真的恶性样本肿瘤样本。这 些结果表明所公开生物标志物PCR阵列系统是用于生物标志物开发的有效工具。
[0054] 本文提供的方法聚焦于可将恶性甲状腺结节与良性或正常组织区分开的定量分 子分类物小组。提供这样的方法,其使用生物标志物测定友好平台-实时PCR以针对测量 用于限定分类的靶标核苷酸表达水平获得更好的精确度、特异性和一致性。提供以下方法, 其将组织特异性标准化对照小组用于靶基因表达的更好标准化并针对临床实践中生物标 志物的使用提供坚实基础。本文提供甲状腺结节恶性肿瘤生物标志物,其通过交叉验证和 交叉平台再分类方式产生。生物标志物来自具有对照开发-qPCR阵列样本测定和实时PCR 数据分析和分类特征重鉴定的高通量筛选特征选择-qPCR阵列开发。结果表明在鉴定恶性 样本上有强大的性能。
[0055] 提供生物化学基因表达分类系统,以尤其当标准病理学检验不明确或不确定时, 分类甲状腺结节。
[0056] 甲状腺组织微阵列基因表达数据可同以下四种基于机器学习的基因排序和选择 方法一起使用:随机森林(RF)、最近缩小形心(NSC)、贝叶斯因子回归建模(BFRM)和支撑向 量机(SVM)。将预先鉴定的靶标列表也用于最终靶基因列表中。
[0057] 本文提供的小组中的靶标也可用其他靶标代替,合适的替换物包括: 〇小组中的NPC2可被它的高度相关的备选基因所替换,例如:RXRG、CITED1、TGFA、 GALE、KLK10、LRP4、CDH3、NAB2、HMGA2、DPP4、SDC4、TIPARP、S100A11、PSD3、LGALS3、RAB27A、 ADORAl、TACSTD2、KLKlI、DUSP4、HMPl、PIAS3、CTSH、MRC2、SCEL、ABCC3、CHI3L1、TSC22D1、 PROS I、QPCT、ODZI、IGFBP6、RRAS、CAPN3、KRT19、SFN、ENDODI、PLP2、PDUM4、D0CK9、MAPK4、 CDH16、KIT、MATN2、TLEl、ANK2、KIAA1467、C0L9A3、TCFL5、TEAD4、SNTAl。
[0058] o小组中的S100A11可被它的高度相关的备选基因所替换,例如:TMP1、CHI3L1、 SFN、LGALS3、MRC2、MVP、NPC2、DPP4、CYPlBl、TACSTD2、PROSl、FNl、RXRG、PDUM4、DUSP6、 CTSH、ABCC3、MTMRl I、SDC4、IGFBP6、PLAUR、PIAS3、TIPARP、RRAS、ANXAl、QPCT、MAPK4、KIT、 TLE1、KIAA1467、SNTA1、S0RBS2、GPR125。
[0059] o小组中的SDC4可被它的高度相关的备选基因所替换,例如:TACSTD2、MET、 PDUM4、SERPINA1、TIPARP、TGFA、TSC22D1、GALE、LGALS3、NPC2、CYP1B1、FN1、IL1RAP、KLK10、 ZNF217、DUSP5、CTSH、ANXA1、CHI3L1、DPP4、MSN、RXRG、PR0S1、SFN、BID、DUSP6、END0D1、DTX4、 TMP1、NRIPl、CD55、NAB2、PIAS3、SlOOAlI、PRSS23、SCEL、LAMB3、CDH3、IGFBP6、CDC42EP1、 HMGA2、ADORAI、SLC4A4、HGD、S0RBS2、ELMOI、TFF3、TPO、KIT、ITPRI、MAPK4、FMOD、MTIF、FHLI、 SLC39A14、TLEl、VEGFB、CDH16、SNTAl、ANK2。
[0060] O小组中的⑶53可被它的高度相关的备选基因所替换,例如:TMSB4X、SELL、⑶86、 CCR7、PLAUR、MY07A、NFKBIE、S100B 和 ARHGEF5。
[0061] 〇小组中的MET可被它的高度相关的备选基因所替换,例如:SDC4、TACSTD2、DTX4、 IL1RAP、LGALS3、TGFA、GALE、KLK10、PARP4、HMGA2、PDUM4、CHI3L1、SERPINA1、PR0S1、 TIPARP、FNl、ENDODl、SLC39A14、HGD、ELMOl、TPO、S0RBS2。
[0062] o小组中的CHI3L1可被它的高度相关的备选基因所替换,例如:LGALS3、TMP1、 DPP4、PDUM4、SFN、CYPIBI、ENDODI、KRT19、CTSH、TACSTD2、PROS I、ANXAl、PLAUR、S100A11、 FN1、DUSP5、PLAU、SERPINA1、TIPARP、KLK10、S100B、MVP、IGFBP6、RAB27A、CDH3、SDC4、 IL1RAP、MRC2、ABCC3、BID、NPC2、AD0RA1、SLPI、LAMB3、RXRG、DUSP6、GALE、CITEDl、TGFA、 SCEL、RRAS、MET、ZFP36L1、CD55、ZNF217、RUNXl、SELL、PLP2、MY07A、KIT、ELMOl、KIAA1467、 TPO、S0RBS2、HGD、CDH16、ADIP0R2、MATN2、SLC4A4、FASTK、MTIF、MAPK4、PRPSI、SNTAI、HMGCR、 ITPRl、PGF、HKl、MPPED2、DIOl、TRAPPC6A、PRUNE、NDUFA2、FHLl、ARHGEF5、FLRTl、TFF3、 CSRP2、SLC39A14、TLEl、TMEM50B、P0LD2、FARS2、BMP7、BDHl、FCGBP、TCFL5、PEG3、GPR125、 P⑶、HSPB11、C0L9A3、FKBP4、BCAT2。
[0063] 表I.甲状腺结节恶性肿瘤分类基因小组
【权利要求】
1. 一种实时定量聚合酶链反应(qPCR)阵列,其包括: a. -种或多种选自以下的甲状腺结节恶性肿瘤分类生物标志物:NPC2、S100A11、 SDC4、CD53、MET、GCSH 和 CHI3L1 ; b. -个或多个选自以下的参考基因:TBP、RPL13A、RPS13、HSP90AB1和YWHAZ ;和 c. 用于产生单一恶性肿瘤分数和可调整的截止阈值的相伴分类算法。
2. 权利要求1的qPCR阵列,包括3种或更多种甲状腺结节恶性肿瘤分类生物标志物 和3个或更多个参考基因。
3. 权利要求1的qPCR阵列,包括5种或更多种甲状腺结节恶性肿瘤分类生物标志物 和4个或更多个参考基因。
4. 权利要求1的qPCR阵列,包括甲状腺结节恶性肿瘤分类生物标志物NPC2、SlOOAl 1、 SDC4、CD53、MET、GCSH 和 CHI3L1 及参考基因 TBP、RPL13A、RPS13、HSP90AB1 和 YWHAZ。
5. 权利要求1-4的任意之一的qPCR阵列,其中所述阵列中的NPC2用选自以下的基 因替换:RXRG、CITEDl、TGFA、GALE、KLK10、LRP4、CDH3、NAB2、HMGA2、DPP4、SDC4、TIPARP、 S100A11、PSD3、LGALS3、RAB27A、AD0RA1、TACSTD2、KLK11、DUSP4、HMP1、PIAS3、CTSH、MRC2、 SCEL、ABCC3、CHI3LI、TSC22DI、PROSI、QPCT、ODZI、IGFBP6、RRAS、CAPN3、KRT19、SFN、ENDODI、 PLP2、PDUM4、D0CK9、MAPK4、CDHl 6、KIT、MATN2、TLEI、ANK2、KIAA1467、C0L9A3、TCFL5、TEAD4 和 SNTAl。
6. 权利要求1-4的任意之一的qPCR阵列,其中所述阵列中的S100A11用选自以下的 基因替换:--ΜΡ1、CHI3L1、SFN、LGALS3、MRC2、MVP、NPC2、DPP4、CYPlBl、TACSTD2、PROSl、 FNl、RXRG、PDUM4、DUSP6、CTSH、ABCC3、MTMRl I、SDC4、IGFBP6、PLAUR、PIAS3、TIPARP、RRAS、 ANXAl、QPCT、MAPK4、KIT、TLEl、KIAA1467、SNTAl、S0RBS2 和 GPR125。
7. 权利要求1-4的任意之一的qPCR阵列,其中所述阵列中的SDC4用选自以下的基 因替换:TACSTD2、MET、PDLIM4、SERPINA1、TIPARP、TGFA、TSC22D1、GALE、LGALS3、NPC2、 CYPIBI、FNI、ILI RAP、KLK10、ZNF217、DUSP5、CTSH、ANXAI、CHI3LI、DPP4、MSN、RXRG、PROS I、 SFN、BID、DUSP6、ENDODl、DTX4、--ΜΡ1、NRIPl、CD55、NAB2、PIAS3、SlOOAl I、PRSS23、SCEL、 LAMB3、CDH3、IGFBP6、CDC42EP1、HMGA2、ADORAl、SLC4A4、HGD、S0RBS2、ELMOl、TFF3、TPO、 KIT、ITPRl、MAPK4、FM0D、MT1F、FHLl、SLC39A14、TLEl、VEGFB、CDH16、SNTAl 和 ANK2。
8. 权利要求1-4的任意之一的qPCR阵列,其中所述阵列中的CD53用选自以下的基因 替换:TMSB4X、SELL、CD86、CCR7、PLAUR、MY07A、NFKBIE、S100B 和 ARHGEF5。
9. 权利要求1-4的任意之一的qPCR阵列,其中所述阵列中的MET用选自以下的基 因替换:SDC4、TACSTD2、DTX4、ILlRAP、LGALS3、TGFA、GALE、KLK10、PARP4、HMGA2、PDUM4、 CHI3L1、SERPINA1、PR0S1、TIPARP、FNl、END0D1、SLC39A14、HGD、ELMOl、TP0、S0RBS2。
10. 权利要求1-4的任意之一的qPCR阵列,其中所述阵列中的CHI3L1用选自以下的 基因替换:LGALS3、--ΜΡI、DPP4、PDUM4、SFN、CYPIBI、ENDODI、KRT19、CTSH、TACSTD2、PROS 1、 ANXAl、PLAUR、S100A11、FNl、DUSP5、PLAU、SERPINA1、TIPARP、KLK10、S100B、MVP、IGFBP6、 RAB27A、CDH3、SDC4、IL1RAP、MRC2、ABCC3、BID、NPC2、AD0RA1、SLPI、LAMB3、RXRG、DUSP6、 GALE、CITED1、TGFA、SCEL、RRAS、MET、ZFP36L1、CD55、ZNF217、RUNX1、SELL、PLP2、MY07A、 KIT、ELMOl、KIAA1467、ΤΡ0、S0RBS2、HGD、CDH16、ADIP0R2、MATN2、SLC4A4、FASTK、MT1F、 MAPK4、PRPSI、SNTAI、HMGCR、ITPRI、PGF、HKI、MPPED2、D101、TRAPPC6A、PRUNE、NDUFA2、FHLI、 ARHGEF5、FLRTI、TFF3, CSRP2、SLC39A14、TLEI、TMEM50B、P0LD2、FARS2、BMP7、BDHI、FCGBP、 TCFL5、PEG3、GPR125、P⑶、HSPB11、C0L9A3、FKBP4、BCAT2。
11. 权利要求1-4的任意之一的qPCR阵列,其中的相伴算法基于随机森林(RF)建模。
12. 权利要求1-4的任意之一的qPCR阵列,其中的相伴算法基于支撑向量机(SVM)建 模。
13. 权利要求1-4的任意之一的qPCR阵列,其中的相伴算法基于贝叶斯回归模型 (BRM)建模。
【文档编号】C12Q1/68GK104321439SQ201380014443
【公开日】2015年1月28日 申请日期:2013年3月15日 优先权日:2012年3月15日
【发明者】S.田, X.曾, J.迪卡罗, J.俞, T.J.法希, V.德夫根, G.J.奎尔霍尔斯特, R.K.比安查 申请人:凯杰科技有限公司