产生复数候选探针和鉴定哺乳动物中细胞类型的方法与流程

文档序号：20603190发布日期：2020-05-01 21:50阅读：254来源：国知局

本发明涉及一种产生复数候选探针的方法和鉴定哺乳动物中细胞类型的方法。更具体地说，一种用来鉴定细胞类型是属于正常/良性瘤细胞、原位癌细胞或是转移癌细胞的方法。
背景技术：
：癌症逐渐已成为全球主要的死亡原因，并且在过去的数十年间平均每年夺走数了百万人的生命。(ferlayjetal2015)。癌症的治疗过程通常是昂贵、漫长和痛苦的。当癌症药物开发仍受到许多国家政府的严格监管的状态下，许多新的治疗方法正在积极的被推广，例如：标靶治疗和免疫疗法。病理解剖诊断是一项主观且传统的过程，其涉及利用显微镜检查活检切片。病理学家对活组织检查的形态学的解释是基于其对于特定类型癌症的知识和经验。(connollyjletal,2003)而此过程被认为是癌症诊断的黄金标准，因为自从大约一个世纪前首次被引入后，没有任何其他更佳的技术被使用。由于上述过程具有主观的性质，在某些情况下不同病理学家检验活组织而产生差异结果的状况并不令人惊讶。通过解剖病理学对癌症诊断的准确性的系统研究揭示了全世界各种医学机构中存在显著的差异/错误率。(nguyenetal2004,raabetal2005,elmorejgetal2015,singhhetal,2007,khazailetal2015,mehradmetal.2015)举例来说，raab等人在回顾了1984年至2005年发表的十多篇研究论文后，揭示了解剖病理学在癌症诊断中的错误频率为1％至43％。(raabetal2005)此外，整理115名病理学家对60例乳腺癌活检切片的检验结果，elmore等人揭示所数检验结果与先前的对照诊断仅具有75.3％的一致性(即具有25％的差异性)。(elmorejgetal2015)nguyen等人发现44％的前列腺腺癌患者在泌尿生殖肿瘤学家对其病理结果进行复阅后，其gleanson评分(gleansonscore)至少改变1分。这些诊断的改变有一些会导致后续治疗方法的变化。(nguyenetal2004)。为了减少错误，包括美国临床病理学家协会在内的许多医学机构所推荐的最佳解决方案是让不止一位病理学家对活组织检查片进行审阅。(johne.etal2000,nakhlehreetal2016,middletonlpetal2014,leongasetal2006)此外，解剖病理学程序的改进也有助于减少诊断错误。(nakhlehre2008,nakhlehetal2016)选用标记蛋白在活检标本上进行免疫组织化学染色有助于在癌症诊断中鉴定特定的癌症亚型。尽管已极尽可能地使用各种方式降低在外科病理学中所可能引起的错误率，提高癌症诊断准确性的最极致解决方法应是开发一种客观的，而且是从形态学以外的面向来分析样本的诊断系统。因此我们期望开发一种方法和系统，以有效且准确地诊断细胞是正常细胞/良性肿瘤细胞、原发性肿瘤细胞还是转移性肿瘤细胞。技术实现要素：本发明揭露了一种以基因为基础(gene-based)的预测方法，其因通过使用组织特异性基因表达谱(tissue-specificgeneexpressionprofile)而使其在癌症诊断中具有潜在应用价值。而且，本发明揭露了来自三十个不同解剖部位的正常人组织中均表现如表1所揭露候选基因的特定表达谱。而其结果则通过利用接近800个数组(来自61个不同研究组别)进行大规模统合分析(largescalemeta-analysis)验证其结果，而其验证的准确性达到了99.2％。此外，上述结果揭示正常组织特异性表达谱在已经转化为恶性肿瘤的细胞中会消失。因此，候选基因间的相对表现水平的数学关系(mathematicalrelationship)即计量比(stoichiometry)在正常组织中必须被妥善地维持以确保此正常组织应有的功能和型态发育(morphology)，然而当组织转变成癌症时基因的相对关系则会丧失。通过统合分析(meta-data)和分析来自肝脏的临床样本，本发明揭露标记基因的表现水平产生计量偏差可能是癌症中存在的普遍现象。通过评估临床数据和计算分数，本发明揭露正常表现谱中的偏差程度(deviation)与癌症的恶性程度有关(即相似程度与癌症恶性肿瘤的程度成反比)。此外，本发明揭露癌症可以通过使用多个基因特征来界定，而多个基因特征则如表1所揭示的一个或多个基因。本揭露还提供一种产生复数候选探针用以辨识哺乳动物中细胞类型的方法。该方法包含以下步骤：步骤(a)为通过侦测芯片从患有或不患有特定疾病、失调或基因症状的哺乳动物标准样本中产生复数基因表现，且标准样本被诊断为属于已知组织中的正常细胞；步骤(b)为通过处理模块比较复数基因表现以产生比较结果；以及步骤(c)为根据比较结果转化出包含复数候选探针的矩阵，其中复数候选探针可以结合至任一复数多核苷酸序列选自seqidno：1～652或seqidno：1～652的任一片段。另外，侦测芯片与处理模块彼此是连接的(例如：电讯连接(electrically)或通讯连接(wirelessly))。在本发明一实施例中，复数候选探针的数量为大约200个。在本发明另一较佳实施例中，复数候选探针的数量为大约100个。在本发明另一更佳实施例中，复数候选探针的数量为大约50～60个。在本发明另一最佳实施例中，复数候选探针的数量为大约25～35个。在本发明一实施例中，标准样本包含血液、血浆、血清、尿液、组织、细胞、器官、体液或上述任意的组合。在本发明一实施例中，特定疾病、失调或基因症状包含血液科恶性肿瘤(hematologicmalignancies)或实质固体瘤(solidtumors)。在本发明一实施例中，复数探针的长度为至少15个核苷酸。在本发明一实施例中，步骤(b)不包含将标准样本中的复数基因表现与一个被诊断为患有特定疾病、失调、基因症状或上述任意的组合的受试者异常样本中的复数基因表现进行比较。在本发明一实施例中，于产生复数候选探针用以辨识哺乳动物中细胞类型的方法中的步骤(c)其产生矩阵的方法包含：皮尔生相关系数(pearsoncorrelation)、斯皮尔曼等级相关系数(spearmanrankcorrelation)、肯德尔等级相关系数(kendall)、k平均(k-means)、马哈兰距离(mahalanobisdistance)、汉明距离(hammingdistance)、莱文斯坦距离(levenshteindistance)、欧几里得距离(euclideandistances)或上述任意的组合。在本发明一实施例中，在产生复数候选探针用以辨识哺乳动物中细胞类型的方法中的步骤(c)还包含：步骤(c1)分析复数候选探针的特定序列与任一复数多核苷酸序列选自seqidno：1～652或seqidno：1～652的任一片段的表现量之间的相关性因子。在本发明另一实施例中，相关性因子包含结合亲和力(bindingaffinity)。本揭露还提供一种用以鉴定哺乳动物中细胞类型的方法。鉴定方法包含以下步骤：步骤(a')为通过一个如前述包含复数候选探针的侦测芯片侦测患有或不患有特定疾病、失调或基因病变的受试者测试样本中矩阵的表现，并且复数候选探针可以与任一复数多核苷酸序列选自seqidno：1*652或seqidno：1～652的任一片段结合；步骤(b')通过处理模块并且依据侦测的表现分析测试样本以产生代表测试样本分数(例如：cmscore)；以及步骤(c')通过处理模块并且依据测试样本分数(例如：cmscore)预测测试样本的细胞类型。在本发明一实施例中，计算测试样本分数是根据相似性程度(similaritydegree)或相异性程度(dissimilaritydegree)来进行的。在本发明一实施例中，当测试样本的cmscore＞大约0.8时，测试样本的细胞类型被鉴定为正常/良性肿瘤细胞。在本发明一实施例中，当测试样本的cmscore介于大约0.3～0.8时，测试样本的细胞类型被鉴定为原发性肿瘤细胞。在本发明一实施例中，当测试样本的cmscore＜大约0.3时，测试样本的细胞类型被鉴定为转移性肿瘤细胞。在本发明一实施例中，当相似性程度＞大约80％时，测试样本的细胞类型被鉴定为正常/良性肿瘤细胞。当相似性程度介于大约30％～80％时，测试样本的细胞类型被鉴定为原发性肿瘤细胞。当相似性程度＜大约30％时，测试样本的细胞类型被鉴定为转移性肿瘤细胞。其中值得注意的是，当相似性程度是100％时，两个相比较的样本个体是被鉴定为相同的。在本发明一实施例中，当相异性程度＜大约20％时，测试样本的细胞类型被鉴定为正常/良性肿瘤细胞。当相异性程度介于大约20～70％时，测试样本的细胞类型被鉴定为原发性肿瘤细胞。当相异性程度为＞大约70％时，测试样本的细胞类型被鉴定为转移性肿瘤细胞。其中值得注意的是，当相异性程度是0％时，两个相比较的样本个体是被鉴定为相同的。在本发明一实施例中，测试样本包含血液、血浆、血清、尿液、组织、细胞、器官、体液或上述任意的组合。在本发明一实施例中，于步骤(b')中产生测试样本分数的方法包含：皮尔生相关系数(pearsoncorrelation)、斯皮尔曼等级相关系数(spearmanrankcorrelation)、肯德尔等级相关系数(kendall)、k平均(k-means)、马哈兰距离(mahalanobisdistance)、汉明距离(hammingdistance)、莱文斯坦距离(levenshteindistance)、欧几里得距离(euclideandistances)或上述任意的组合。更进一步地，本揭露还提供一种用以鉴定哺乳动物中细胞类型的系统，并且系统包含：处理模块以及侦测芯片。处理模块以及侦测芯片彼此电讯链接。侦测芯片包含复数候选探针，且复数候选探针可以结合至任一复数多核苷酸序列选自seqidno：1～652或seqidno：1～652的任一片段。除此之外，侦测芯片还可侦测患有特定疾病、失调或基因病变的哺乳动物测试样本中矩阵的表现，并且处理模块可依据侦测的表现分析测试样本以产生代表测试样本的cmscore而依据测试样本的cmscore预测测试样本的细胞类型。在本发明一实施例中，系统中的复数候选探针的数量为大约200个。在本发明另一较佳实施例中，系统中的复数候选探针的数量为大约100个。在本发明另一更佳实施例中，系统中的复数候选探针的数量为大约50～60个。在本发明另一最佳实施例中，系统中的复数候选探针的数量为大约25～35个。在本发明一实施例中，系统中的测试样本包含血液、血浆、血清、尿液、组织、细胞、器官、体液或上述任意的组合。在本发明一实施例中，系统中的复数探针的长度为至少15个核苷酸。以上本专利申请所揭露的相关内容和其他相关可透过以下较佳实施例的描述和附图作进一步阐明。虽然可能会有变化或修改，但是其并不背离本专利申请所揭示的新颖性构想的精神和范围。附图说明附图图片中透过示例而非局限性方法展示出了一个或多个实施例，其中具有相同对照数字标识的组件始终表示类似组件。应该理解的是，本揭露不限于所揭示的较佳实施例。图标和实施例中所揭示的数据则以平均±标准偏差(sd)标示且由配对t检定验证。显著差异表示如下：*：p<0.05；**：p<0.01。图1主要揭示了一个透过微数组基因表达数据集所获得的具有不同原发部位的转移性癌症的关联阶层式分群结果。图1主要揭示了一个使用标准双向层次聚类分析(standardtwo-wayhierarchicalclusteringanalysis)产生的完整组织分类的示例性候选基因。行代表样品的组织来源；列代表基因标志。基因微数组热图上方所显示的树形图代表30个组织的聚集。图2主要揭示了本发明的候选基因，其可在多个数据集中区分癌症与正常样本。每个数据集中x轴所标示的正常或肿瘤样本的平均癌症恶性肿瘤评分(下文称为“cmscores”)分别被计算出。数据集的组织来源则显示于geo登录号(geoaccessionnumber)下方。空心方块(右上角标记为n)代表正常样本，而封闭圆(表示为t)代表肿瘤样本。平均值和误差则是以灰线表示。图3主要揭示了来自所选数据集的个体中正常或癌症样品的cmscores分布。数据集的geo登录号则标记于相应图标之顶部。每个图示中之y轴代表cmscores；x轴则代表正常(空心方块)或肿瘤(封闭圆)的样品类型。每组数据中的灰线旁所显示的单独数值代表该组的cmscores的平均值。p值则使用单尾t检定验证计算出，并显示为星号(例如****：p<0.0001)。图4a和图4b主要揭示了良性肿瘤或近良性瘤的cmscores分析结果。图4a中所分析的样本来自于gse33630数据集，其样本主要由正常甲状腺、乳头状甲状腺癌(即ptc)和间变性甲状腺癌(即atc)组成。图4b中所分析的样本来自于gse13319数据集，其样本包含子宫肌层(代表子宫的正常组织，以星号代表)和平滑肌瘤(代表来自子宫的良性肿瘤，以空心钻石形代表)的样品。附图仅为示意图，并且无任何限制。本揭露中的所有参考标记不得解释为对本专利申请中权利要求范围的限制。举例来说，在各个附图中相同的附图标记表示相同的组件。具体实施方式除非另有定义，否则本文使用的所有术语(包括科技术语)的意义与本专利申请说明所属领域的普通技术人员通常所理解的含义相同。应当进一步理解，常用词典中定义的术语的含义应当与相关领域和本专利申请说明的上下文中的含义一致，且不会解释地过于理想化或过于正式，除非本文中明确定义。本专利申请说明中，「一项实施例」或「某一实施例」的引用是指关于该实施例所描述的某一特定特征、结构、或特性包括于至少一项实施例中。因此，本专利申请说明中不同位置出现的短语「在一项实施例中」或「在某一实施例中」不一定均指同一实施例。此外，上述特定特征、结构或特性可通过任何适宜方式在一项或多项实施例中进行组合。定义说明应当理解，除非上下文另有明确指示，否则单数形式「一」、「某」、「该」、「所述」也包括复数形式。因此，举例来说，当使用术语「一个组件」时，其包括多个组件以及其在所属领域中习知的同等物。当本文在叙述一个可测量的数值时(例如：数量或周期等等)，本文所使用的「大约」是指数值±20％或是±10％，其较佳范围为±5％，而更佳范围为±1％。并且进一步更佳范围为一个特定数值的±0.1％，因为这些数值范围适合实施本发明所揭露的内容。本文中所使用的「疾病」是用以形容动物的健康状态呈现无法维持体内平衡(homeostasis)，并且其中如果疾病没有改善，则该动物的健康将继续恶化。相对地，「失调」是用以形容动物的健康状态是呈现可维持体内平衡，但是动物现阶段的健康状态不如没有失调(disorder)时的状态。然而，若继续不治疗则不一定会进一步导致动物的健康状况下降。本文中所使用的「癌症(cancer)」和「肿瘤(tumor)」是用以定义一种疾病，其特征在于此异常细胞的快速且不受控制的生长。所以「癌症」和「肿瘤」在此是可以互换的名词。癌症细胞可以在局部扩散或通过血液和淋巴系统扩散到身体的其他部位。癌症举例来说(但不限制)包括：乳癌、前列腺癌、卵巢癌、子宫颈癌、皮肤癌、胰腺癌、结肠直肠癌、肾癌、肝癌、脑癌、淋巴癌、白血病、肺癌等等。本揭示的以下内文中的缩写为此领域的通常知识者用以代表特定核苷酸的缩写，其中「a」指的是腺嘌呤核苷酸、「c」指的是胞嘧啶核苷酸、「g」指的是鸟嘌呤核苷酸、「t」指的是胸腺嘧啶核苷酸、「u」指的是尿嘧啶核苷酸。本文中的「多核苷酸(polynucleotide)」指的为前后相连如链状的核苷酸。此外核酸(nucleicacids)为核苷酸的多聚体。因此，据上述本文中的多核苷酸与核酸为可互相替换的用词。而此领域的通常知识者也可以理解核酸与多核苷酸为相等的用词，且可以被水解成核苷酸。而本文所使用的多核苷酸指的是(但非限定)所属领域通过各种方式所获得的核酸序列，其包含(但非限定)：基因重组手段(recombinantmeans)，举例来说为从一个重组基因库(recombinantlibrary)或一个细胞的基因体(genome)利用习知的克隆技术(cloningtechnology)或是聚合酶连锁反应技术(pcr)克隆出核酸序列，或是利用合成技术而合成出核酸序列。本文中所使用的术语如「候选探针」和「选择的探针」的定义均为依本揭露所产生且能够结合表1中的基因的人工探针。因此，「候选探针」和「选择的探针」是可以互换。表1「用于作为鉴定探针设计的基因」表1中所揭露的候选基因探针在以下文中简称为「cm探针」(cmprobes)或「652个基因转录谱」(652-genetranscriptionprofiles)。在下文中，所有统计计算通过处理模块进行，处理模块是中央处理单元(cpu)。具体地，下面详细描述本公开的过程：步骤1：建构非癌症组织的对照基因谱(referencegeneprofile)首先，步骤1(a)是从正常人体组织的基因转录数据(transcriptomicdata)中获取所选基因的rna表达(rnaexpressionlevel)。将来自许多人的每个器官的基因表达值进行平均，以消除由单个人所引起的偏差。因此，首先从gse1133、gse2361、gse7307数据集中选择出来自39个不同组织来源的254个样本以构建训练数据集。对于此训练数据集，首先从geo中获取cel文件，然后再由affyqualityreport进行质量评估，以删除质量量较差的数组。通过质量评估的数据则进一步通过robustmultichipaverage(rma；irizarryr等人，biostatistics2003,4(2)：249-264)程序处理以进行数据标准化(datanormalization)。其中，affyqualityreport和rma均从rpackage中的bioconductorpackage获得。遵循标准预处理程序，基因转录数据则进一步进行统计学和生物信息学分析。再来，步骤1(b)是将测试中所有器官的基因表达值结合，并且构建一个如下表所揭示的基因－器官矩阵(gene-by-organmatrix)。在所有器官中具有高变异系数(highcoefficientofvariance)的基因被选择出来且进一步分析。步骤1(c)是利用阶层式分群法(hierarchicalclusteringanalysis)对基因－器官矩阵进行分析，以评估其对组织分类的影响(如图1所揭示)。在阶层式分群法分析之后，每群中的一个代表性基因被选择出来且将其他具有高度相似表现的基因除去。上述程序将可产生如表1所揭示的cm探针或652个基因转录谱。阶层式分群法的计算方程式：步骤1(d)是通过使用独立的数据集来进一步验证组织预测的效率，以确保所选基因表现谱可充分代表正常状态下的特定器官。简而言之，从验证测试中的每个样本提取所选基因的表现值，以构建样本的表现谱。然后通过自建软件(in-houseprogram)计算样本与非癌症对照样本表现谱之间的皮尔生相关系数。更明确地，是指样本的表现谱与非癌症对照表线谱并入以最近邻居分类法为基础(即knn)的组织预测程序。我们将选择具有最高相关系数(k＝1)的组织用于预测程序中。k最近邻居分类法(k-nearestneighbormethod)：步骤1(e)是在对照列表中进行重复基因替换以改善组织分类直至满足结果。标记(marker)的组成基因的任何改变都将导致新的对照谱被构建出来。在完成所有上述步骤后，即产生代表非癌状态器官的652个基因转录谱。再次声明，其中值得注意的是步骤1(a)至1(e)中所使用的组织是具有已知器官但没有任何异常/疾病组织的正常组织。此外，在一些实施例中，具有已知器官的正常组织可以从患有或不患有癌症的受试者(例如：人)中提取或分离出来。步骤2：侦测肿瘤样本中「652个基因转录谱」的表达：步骤2(a)是从患者中取出肿瘤活检测试样本，并且通过目前获取的分子生物学技术进一步萃取其总rna。步骤2(b)与步骤1相似，其主要是通过目前可获取的分子生物学技术(例如：dna微数组中的探针杂交、磁珠系统(magneticbeads)上的杂交，逆转录聚合酶链式反应(rtpcr)或直接定序)从步骤2(a)中的测试样品侦测652个基因转录谱的rna表达。选择性地，通过使用转换程序(例如：数据处理、数据提取和数据重新格式化)和使用处理模块(例如：中央处理单元(cpu))，则可以将测试样本的表达进一步转换为代表所选基因表达的数值期望值列表。步骤3：评估肿瘤样本的病理状态以确定其是正常/良性或恶性肿瘤，还是原发性或转移性的肿瘤。样本组织和正常对照样本之间的所选基因的表达上的相似性(similarity)或不相似性(dissimilarity)(不相似性可以使用数学上从相似性转换而来)被进一步测量如步骤1中所揭示。在一个实施例中，我们使用相似性分数(例如：cmscore)。此外，因为cmscore的值介于0和1之间，所以可以透过以下公式计算相似度分数(similarityscore)或相异度分数(dissimilarityscore)：(a)相似度＝(cmscore/1)*100；而(b)相异度＝1─相似度。值得注意的是，当相似度为100％时，则代表两个受试者相同；当相异度为0％时，则代表两个受试者相同。但是，以下两点值得注意。(1)被记录下来的基因表达值进一步进行计算器处理程序，透过计算样本基因谱和对照基因谱之间的相似性以产生样本的cmscore。此处的cmscore主要是通过皮尔生相关系数分析(pearson’scorrelationcoefficient)所产生，其公式如下所示：(附注：n代表用以作标记的基因数量；x代表来自测试样本的基因表达值；y代表来自对照表达谱的基因表达值。)然而，用于以计算来自样本的表达谱和来自对照的表达谱之间的相似性或距离的计算方法(即cm方程式(cmalgorithm))并不仅限于皮尔生相关系数分析。在一些其他实施例中，用于计算相似性或距离的方法包括但不限于斯皮尔曼等级相关系数(spearman'srankcorrelationcoefficient)、肯德尔等级相关系数(kendall)、马哈兰距离(mahalanobisdistance)、欧几里德距离(euclideandistances)、k平均(k-means)、汉明距离(hammingdistance)、莱文斯坦距离(levenshteindistance)等等。(2)cmscore与决断分数(cut-offscore)的比较和相应的预测则如下表2所揭示。表2cmscore相似性不相似性预测＞0.8＞80％＜20％正常/良性瘤细胞0.3～0.830～80％20～70％原发性癌细胞＜0.3＜30％＞70％转移性癌细胞此外，cmscore是从相似性基础模式(similarity-basedmode)和/或距离基础模式(distance-basedmode)的比较过程中所产生的。更明确来说，在相似性基础模式中，其得分越高则代表样本表达与「对照表达谱」越相似，因而推断样本具有较高的机率是良性或正常组织。在距离基础模式中，其得分越高则代表样本表达与「对照表达谱」的相似性越低，从而推断样本具有较高的机率为恶性肿瘤的可能性。此外，为了进一步分辨组织样本是属于恶性的(malignant)还是癌性的(cancerous)，将上述分数以实验、统计(例如：接收者操作特征曲线(receiveroperatingcharacteristiccurve；roc))或同时使用上述两者的方法与经过确认的决断分数(cut-offscore)进行比较。针对相似性基础模式的评分系统，决断分数a和b则进一步被设立。此外，分数a高于分数b。分数a可在区分原发性癌症与正常组织时提供显著的敏感性和特异性，而分数b可在区分原发性癌症与转移性癌症时提供显著的敏感性和特异性。在实际操作中，如果样本分数低于a分数但高于b分数，则样本被预测为原发性癌症；如果样本分数高于a分数，则样本被预测为正常或良性肿瘤；如果样本分数低于b分数，则样本被预测为转移性癌症。针对距离基础模式的评分系统，决断分数c和d则进一步被设立。此外，分数c低于分数d。如果样本分数低于d但高于c，则样本被预测为原发性癌症；如果样本分数低于c，则样本被预测为正常或良性肿瘤；如果样本分数高于d，则样本被预测为转移性癌症。因此，本揭露中的「辨识细胞类型方法」包括三个步骤(即步骤1至3)。首先，步骤1是产生表1中所揭露的候选基因(即cm探针或652个基因转录谱)。接下来，步骤2是测定测试样本中候选基因的表达。最后，评估测试样本的cmscore，然后预测测试样本的细胞类型是正常细胞/良性肿瘤细胞、原发性肿瘤细胞还是转移癌细胞。如上，本揭露的整个过程/方法可以概括为包括以下步骤：(1)从正常样本中选择具有高方差系数(coefficientofvariance；cv)的候选基因而不与疾病样品比较，以及数量所选基因的范围为20至652；(2)通过层次聚类和组织预测验证候选基因的表达；(3)选择代表性核苷酸片段(例如，对于cdna微数组，针对每个选择的基因设计约19至100个碱基对长的基因特异性片段，并且为实时pcr的引物设计约15个碱基长的寡核苷酸)。根据rna定量方法的要求进一步产生cm探针的候选基因；(4)利用目前可用的分子生物学技术，利用cm探针确定测试样品的候选基因表达水平；(5)基于cm算法(algorithm)计算测试样本的cmscore；(6)基于cmscore预测测试样品的细胞类型。在一个实施例中，本揭露还提供了用于开发多种候选探针以鉴定哺乳动物受试者中细胞类型的系统。更明确地，系统包括：侦测芯片和处理模块，且两者彼此电讯连接。侦测芯片含有多个选定的探针，并且其探针可以结合选自seqidno.1至652中的任一个或来自seqidno.1至652的任何片段的多个多核苷酸序列，并检测从哺乳动物受试者获得的测试样本数组中的表现水平，而哺乳动物受试者其可能患有或不患有选定的疾病、病症、遗传病症。处理模块分析测试样本数组的表现水平并进一步产生测试样本分数。此外，处理模块可以基于测试样本分数来预测测试样本的细胞类型。在一个实施例中，用于鉴定癌症主要部位组织(primarysite)的侦测芯片是微数组芯片或磁珠系统。在另一个实施例中，用于比较多个基因表现或开发包含候选探针的数组的处理模块是中央处理单元(cpu)。在一个实施例中，用于开发上述选择探针的标准样本包括：血液、血浆、血清、尿液、组织、细胞、器官、体液或上述任意的组合。在另一个实施例中，所选择的疾病、病症或遗传病包括：血液科恶性肿瘤或实质固体瘤。示例1(example1)在以下内文中，所有统计都是通过处理模块进行计算的，且处理模块是中央处理单元(cpu)。实施例1中所使用的候选基因探针(即cm探针)数量减少至由表1中选出的50或56个基因。材料与方法组织与病人本示例中的样本是在中国台湾花莲慈济医院医院的同意下进行收集。从13名进行肝脏手术切除疑似恶性肿瘤的患者中收集了共13个样本。切除后立即将组织样本浸入液氮中，然后进行rnalater处理以便随后进行rna萃取。亚洲男性成年人的正常肝脏的总rna(totalrna)则购自biochain。微数组芯片杂交(microarrayhybridization)简单来说，主要利用quiagenrnaeasy从肿瘤样本中依照制造商所提供的标准方案萃取总rna后再与affymetrixhg-u133plus2.0基因芯片进行杂交。affymetrixhg-u133plus2.0包含54,675个探针组，其代表大约38,572个独特的unigene聚集(cluters)。数据集和标准化(datasetsandnormalization)为了使用六个geo系列再次确认56个基因(即cm探针)在鉴定、辨别正常人体器官/组织方面的能力，我们使用geo数据库进行关键词搜索以产生一组微数组数据集。而微数组数据集衍生自affymetrixgenechiphg-u133plus2.0并且由正常的和癌症的组织样本所组成(即结果段落中所揭露五个标准中的前两个)。然后，这些候选geo系列的摘要(abstract)以随机顺序逐一阅读(read)以挑选出符合本文中所描述的那些其他三个标准。当找到第六个符合可用于再次确认的geo系列时则搜索停止。表3中所使用的测试数据集是通过汇集上述六个新检索的geo系列和来自先前用于大规模统合分析(large-scalevalidationanalysis)的数据集的癌症研究的特定子集所构建的。后者包含所有可检索的微数组数据系列(在geo数据库中以预固定gse指定)，其是在affymetrixgenechipshg133a或hg133plus2.0上进行并且包含24个可分析器官/组织的正常人样本。而上述24种正常组织包括：肾、皮肤、肝、肺、气管、骨骼肌、心脏、骨髓、胸腺、胰腺、脑下垂体、唾液腺、胎盘、子宫、卵巢、前列腺、皮肤、睾丸、杏仁核、丘脑、小脑、脊髓、胎儿肝脏、胎儿脑和甲状腺。本示例中所使用的gse系列中可用cel文件均从geo网站下载，并且在bioconductor包中使用rma进行预处理。检验试剂组和信号检测(assaykitandsignaldetection)quantigene检测试剂盒由affymetrixinc.依据mao-yinginc.的需求进行定制。每个样本以一式两份进行测定而进一步确认，并按照标准方案进行处理。在每次检测结束时，用100/200tm检测杂交信号。数据分析/组织预测(dataanalysis/tissueprediction)24个正常器官/组织中每一个指定基因组(标记)的表达谱以如前述的方式被建构出来。简而言之，在指定器官中正常人组织上进行的全基因组微数组数据分析，并且从其中提取每个标志(marker)基因的表现水平。为了观察组织样本与其正常对应组的相似程度，我们还进一步从测试样本中取得标记的表达水平且进行测试。然后在这两个基因表现值列表之间计算皮尔生相关系数(cf，即相当于本揭露中的cmscore)。皮尔生相关系数是利用的计算器程序搭配r语言进行而实现的。统计分析统计分析包括使用excel软件计算标准偏差、学生t检验的p值。表4中学生t检验的p值是使用单尾(onetail)和第3型(type3)作为参数设置而计算的。结果1.正常器官/组织的一致转录谱数个新获得的数据集重复地利用组织预测检验以重新确认hwang等人先前揭露的内容。表3中所揭示的六个数据集则选自公共数据库geneexpressionomnibus(geo，http：//www.ncbi.nlm.nih.gov/geo/)，其标准如下：(1)具有来自正常组织和癌症组织的样本。(2)数据来自利用affymetrixgenechips进行的实验。(3)来自24种可用cm算法检测的器官/组织样本。表3：通过56个基因谱预测正常人体器官/组织上述六个被使用的微数组实验数据集包括来自人皮肤、肺、甲状腺和肝脏的组织样本。此外，如表3所揭示，本发明正确地预测、鉴别了六个数据集中来自正常器官/组织的所有153个样本。上述结果与先前发现一致，代表所选基因的表达谱形成了未患病的人体器官/组织的稳定分子特征。2.cm谱(cmprofile)可将癌组织与正常组织区分开来评分(cmscore)系统则是被设计来代表「癌症恶性评分」，其反映测试样本与相应正常组织对照谱(referenceprofile)之间的表现谱(expressionprofile)的相似性/不相似度。在本揭露中，cmscore等于皮尔生相关系数。本揭露同时也测试了使用斯皮尔曼等级相关系数，并且其测试结果显示可产生相同的结果(未揭示)。在过去，与正常组织相比之下，组织预测测试通常对于癌组织只能有较低的准确性。因此，一个试数据集首先依据上述方法和材料被建构出。测试数据集主由27个独立geo系列中的转录组数据组成(来自927个癌症和340个正常样本)，其中样本涵盖肾、肝、肺、卵巢、前列腺、皮肤、睾丸和甲状腺。根据前述的程序计算试验数据集每个数组的cmscore。cmscore的得分越高，测试样本越类似于其基因表达模式的正常对照。为了检查是否癌症与正常中的50或56个基因谱上有不同，首先对于每个gse数据集中的癌症组别或正常组别样本取得cmscore的平均值。如表4所揭示，所有试验geo数据集中正常组织的平均cmscore显著高于癌症组织的，其代表癌组织与正常组织的标志基因的总表现谱具有显著偏离。来自正常组织的平均cmscore大多在0.80以上，其标准偏差很少超过0.05，因此代表正常组织中56个基因的表现模式具有较佳的维持性。此种基因体阶级的表现模式是组织特异性的，并且也可以由基因的子集表现，例如24个器官/组织中的56个基因。这种器官或组织特异性基因模式是以基因之间的数值公式表示，而不是以相对于对照基因的过度表现(overexpression)或低表现(underexpression)的倍数变化做为表示。相比之下，癌症组织的平均cmscore分布在更广泛的范围内，并且它们的标准偏差值高于正常组别。该现象代表癌组织中的整体基因表现模式与正常对照不相似。恶性肿瘤中的广泛的cmscore代表多种基因表达模式，其也可以反映出肿瘤中的异质癌细胞，这也是癌细胞中存在多种突变的预期结果。3.应用于个体样本的正常和癌症之间的差异虽然整组癌症样本显示比正常对照组具有更显著低的cmscore(如图2和表4所揭示)，但是不清楚差异是由一小部分试验样本还是由大多数样本所贡献。因此，我们从表4中采样了一些数据集以仔细检查每个样本的cmscore。而以此为目的所选择的数据集包含：gse10072(具有49个正常样本和58个肺癌样本)，gse15641(23个正常样本和69个肾癌样本)，gse19804(60个正常样本和60个癌症样本)，gse6008(4个正常样本和99个卵巢癌)，gse62232(10个正常样本和81个肝癌样本)，和gse65144(13种正常样本和12种癌症样本)。表4如图3所揭示，来自六个分析数据集中的每一个的cmscore基于cmscore分布形成两个主要族群：一个是较高族群是来自位于较高cmscore区域中的正常样本，另一个较低族群则是位于较低cmscore区域的癌症样本。而由结果显示所有测试数据集中的两个族群均是清晰可分辨的，以至于一个可以用于区分两类型组织的分割点数值被鉴定出。4.cmscore与不同基因组合的标记配合良好为了证明cmscore可以区分癌症与非癌症，对从geo所获得的4个全基因体表现数据集(whole-genomegeneexpressiondatasets)(例如：geneexpressionomnibus，其为一个基因表现的公共数据库)进行统合分析。选择用于试验的数据集的标准包括：首先，数据集应代表不同的器官；其次，数据集应包含来自正常组织和癌症组织的样本。而依据上述条件所选择的数据集则如表5所揭示，其包括：gse10072(其包含49个正常样本和58个肺癌样本)、gse11151(其包含5个正常样本和62个肾癌样本)、gse6008(其包含4个正常样本和95个卵巢癌症)、gse65144(其包含有13个正常样本和12个甲状腺癌样本)。每个数据集均标有以gse(prefixgse)起始的geo登录号。根据数据集的登录号，在括号中表示对肿瘤进行取样的器官。使用三种基因组合被使用作为进行癌症/非癌症鉴别的标志。除基因内容之外，三种标记中的每一种都由不同的基因数量组成(如表5所揭示)。如图3所揭示，针对四个数据集中的每一个数据集其决断分数均选择以0.8最为区分癌症与非癌组织。非癌症(或正常)组织之cmscore将高于0.8(即相似性高于80％或相异性低于20％)，而癌症组织之cmscore将低于0.8(即相似性低于80％，或相异度高于20％)。而四个数据集的敏感度(灵敏度＝真阳性/(真阳性+假阴性))和特异性(特异性＝真阴性/(真阴性+假阳性))被进一步运算，其对应结果如表5所揭示：所有四个数据集的精准度、敏感性和特异性都很高。根据图3和表5的结果可以得出以下结论：(1)在大规模统合分析中所观察到的cmscore差异(如表4所揭示)是由分析中大多数个体样本所造成而非部份具有「显著」值的样本所造成；(2)恶性肿瘤与其起源器官的整体基因表现谱确实存在显著差异；(3)特征可具有很大的潜力，且于大多数个案中发展成客观的癌症诊断方法以促进癌症的诊断。如表5中所揭示，以大约0.8的决断分数(即大约80％的相似性或大约20％的相似性)可以有效地分离除了甲状腺以外的各种器官中的癌症组织和正常组织。关于正常组织和癌症组织cmscore分布之间的部分重迭，其可能原因可归于假阳性(falsepositives)和假阴性(falsenegatives)。举例来说，重迭区域的正常样本(即假阳性)可能被相邻的癌细胞污染，或者癌症样本中的肿瘤含量太低而无法在显微镜下观察到，但其却足以通过分子杂交而被侦测到。假阴性的其中一种可能性是，它可能超出cmscore的检测范围以区分某些癌症亚型与其起源的正常组织。5.cm探针在临床样本中的应用为了了解cmscore与癌症状态之间的可能关系，透过与中国台湾花莲慈济医院肿瘤外科合作而将cm分析直接应用于临床标本。恶性肿瘤的组织样本是在已经被诊断患有癌症且在慈济医院接受切除的患者的同意下所获得的。为了扩大正常组的组织样本数，从biochaininc.购买的「正常」肝脏的rna样本也被纳入而共产生了27个样本，其包括：16个肝脏肿瘤样本、7个正常肝脏样本、2个胰腺肿瘤样本、1个甲状腺肿瘤样本和1个正常甲状腺样本。每个样本中的总rna(totalrna)则依照标准方案的指示被萃取出，并且在使用rna质量管控程序丢弃不合适的样本后，通过质量管控的rna将进一步与affymetrixhu133plus2.0基因芯片的数组杂交。表5：当将cmscore设定为0.8且使用不同基因组合作为癌症标志时，区分正常/癌症的敏感性和特异性首先，计算每个样本的cmscore。从医院的病历文件中检索每个患者的相应病理数据，且整合cmscore以产生如表6中所揭示的结果。大多数正常样本显示cmscore为0.79或更高，然而几乎所有肿瘤均显示其cmscore低于0.81。cmscore显著高于0.81的唯一肿瘤样本是样本#100t，其捐赠者仅表现出非常轻微的肝癌症状。此外，患者#100t其肝癌被归类为bclc-a，其属于早期肝细胞癌。另一方面，正常样本#87显示其cmscore为0.68是所有测试的正常样本中最低的。其匹配对应的肿瘤样本#88t恰好包括在本揭露中，并且在13个原发性肝细胞癌(hcc)样本中也显示出具有最低的cmscore为0.55。与其他hcc标本相比，样本#88t的病理报告揭示其属于相对严重的恶性肿瘤。总之，这些结果均揭示cmscore与肿瘤的恶性之间存在正相关。值得注意的是，此处的「正常」样本与来自非患有疾病的捐赠者的正常对照不同，此处的「正常」样本是患有癌症的器官的外围组织。因此，正常样本的cmscore没有表现出与健康个体一样高的cmscore并不值得意外。在27个样本中，4个肿瘤样本的cmscore特别地低，其中3个被诊断为胆管癌(样本#8t、样本#16t和样本#386t)、1个(样本#206t)为胰腺癌的实性假乳突状瘤。上述可以在参照前述的652个基因转录谱对照代表正常组织的基因表现状态并且低cmscore代表其与正常对照不相似之后得到合理的解释。因此，虽然肝脏中存在胆管癌，但由于它们起源于胆管，所以其与肝脏组织高度不同，且也因此其与正常肝脏的652基因转录谱相比之下其cmscore非常低。胰腺癌中的实性假乳突状瘤是胰腺癌中的一种罕见形式，其主要是坏死诱导细胞死亡的结果。因此，这种肿瘤的形态和功能可能仅与正常胰腺组织的形态和功能些微相似，从而其与正常胰腺相比之下而导致低cmscore的结果。因此，上述结果支持了本揭露的假设。6.cmscore可能与肿瘤的恶性程度有关本揭露还发现cmscore可能与肿瘤的恶性程度有关。举例来说，如表4中所揭露的四个皮肤癌数据集。其中三个(即gse15605、gse4587、gse7553)含有来自黑色素瘤的样本(这是一种高度侵袭性且致命的皮肤癌类型)，而另一个来自鳞状皮肤癌的是gse2503，其与黑色素瘤相比较轻微。gse2503中皮肤癌的cmscore高于其他三个数据集中黑色素瘤的cmscore。在来自肺癌的七个数据集中，最低的cmscore出现在小细胞肺癌的数据集，其为一种快速扩散和高度侵袭性的肺癌亚型。同样地，在来自甲状腺癌的六个geo系列中，其中五个来自乳突状甲状腺癌的cmscore几乎与其正常对照组相同。乳突状甲状腺癌是最常见的甲状腺癌类型，并且已知的是其分化良好、生长缓慢且预后良好。而来自未分化甲状腺癌的癌症样本gse65144具有低cmscore(0.37±0.12)。甲状腺未分化癌是一种非常具有攻击性但很少发现的甲状腺癌亚型。它的预后很差且对大多数治疗具有抵抗力。总之，通过上述我们可以了解这些临床样本的cmscore均与癌症发展进程有关。7.以临床样本验证磁珠系统上的cmscore与基因标志表6：用以微数组分析的花莲慈济医医院的临床样本的癌症特征依据表5和表6所揭示，由结果显示决断分数(cmscore)大约0.8可区分出癌症与非癌症，并且如果使用affymetrix微数组进行mrna定量的话则可以使用决断分数(cmscore)大约0.2以辨别原发性癌症与转移性癌症。令我们好奇的是，是否相同的决断分数也可适用于不同的技术平台，例如：磁珠系统。为了进一步验证，我们使用由affymetrixinc.所提供的quantigeneplex2.0测试磁珠系统上的临床标本。首先，我们从32名在不同器官(包括：乳房、大肠、肝脏和胰脏)中患有癌症的患者获得肿瘤样本(如表7所揭示)。进一步地，样本的总rna(totalrna)与预先键结到磁珠上的50或56基因标志探针进行杂交。计算来自个体样本的每个标志基因所产生的表现水平，且依照前述的常规计算程序得出cmscore。由结果中我们发现所有原发性癌症的决断分数低于0.8(即低于相似性80％，或高于相异性20％)。当使用cmscore为0.2(即，相似性20％或相异性80％)作为区分原发性和转移性癌症的决断分数时，分别获得100％、95％、97％的敏感性、特异性和准确性(如表8所揭示)。更进一步地，结果与表6中的分析一致。结果显示，当使用磁珠系统进行rna定量时，分数约0.2至0.3(即相似性为20％～30％或相异性为70％～80％)可以有效地作为区分原发性癌症与转移性癌症的决断分数。表7：磁珠实验中使用的临床样本摘要表8：在磁珠系统上进行mrna定量时，当cmscore阈值为0.2时可以有效地分辨原发性癌症与转移性癌症8.良性肿瘤具有较高cmscore乳突状甲状腺癌(即ptc)是甲状腺癌常见的亚型，其通常表现出相当良性的特征：分化良好、生长缓慢、不易侵入血管、治疗评分后预后良好等。如图4a所揭示，ptc样本的cmscore似乎与正常样本非常接近，其反映了良性特征。虽然甲状腺未分化癌(即atc，其为侵袭性的亚型甲状腺癌)的分数显著低于正常或ptc，但是值得注意的是，在国际、多学门科学的和回顾性研究后，甲状腺包膜内泸泡型乳头状癌(efvptc)最近被重新分类并更名为「非入侵性滤泡甲状腺肿瘤乳头状核」(niftp)，以更好地反映其生物学和临床特征并避免过度治疗患者。(yurie.nikiforov,md,phd；rajar.seethala,md；giovannitallini,mdetal.jamaoncol.2016；2(8):1023-1029.doi:10.1001/jamaoncol.2016.0386)而在其他癌症中我们也观察到类似的结果。当将本发明所揭露的方法应用于包含良性肿瘤(平滑肌瘤)和子宫的子宫肌层正常组织的数据集(例如：gse13319)时，这两个类别的cmscore基本上彼此重迭如图4b所揭示，其代表良性肿瘤的非癌性之本质。gse13319含有来自50个子宫肌瘤样本、子宫良性肿瘤样本的数据，以及27个子宫肌层样本(即子宫中间层组织)。在分析表现谱之后，平滑肌瘤的cmscore分布几乎与子宫肌层的cmscore分布重迭。平滑肌瘤的平均cmscore(0.71±0.04)和子宫肌层的平均cmscore(0.73±0.03)相当接近。总结来说，本
发明内容揭示使用一个以基因为基础的新颖程序用于癌症诊断中，且更明确来说是在两个不同的实验系统(即使用高密度基因表达微数组和磁珠辅助的多基因表现系统)上利用五种基因组合。程序透过比较测试样本的所选基因(标志)表现谱与正常对照组的表现谱来产生一个分数，例如：cmscore。在本揭示中的分数是皮尔生相关系数。更进一步地，有两个阈值：较高的阈值在大约0.8左右(即较高的相似性阈值在80％左右或较低的相异度阈值在20％)，较低的阀值在0.2到0.3左右(即较低的相似性阈值在20％～30％，或更高的相异性阀值在70％～80％左右)。而cmscore高于较高阈值的组织很可能是正常组织或良性肿瘤；低于第一个阈值但高于第二个阈值可能是原发性癌症；低于第二阈值可能是转移性癌症。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄培瑛
技术所有人：茂英基因科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
2、张老师：1.探索新型氧化还原酶结构-功能关系，电催化反应机制 2.酶电催化导向的酶分子改造 3.纳米材料、生物功能多肽对酶-电极体系的影响4. 生物电化学传感和生物电合成体系的设计与应用。
3、豆老师：1.环境纳米材料及挥发性有机化合物（VOCs） 2.CO污染物的催化氧化 3.低温等离子体 4.吸脱附等控制技术
4、赵老师：1.高分子材料改性及加工技术 2.微孔及过滤材料 3.环境友好高分子材料
5、邬老师：1.高分子材料的共混与复合 2.涉及材料功能化及结构与性能的研究；高分子热稳定剂的研发
如您是高校老师，可以点此联系我们加入专家库。