用于使用基因表达谱诊断肺癌的组合物和方法与流程

文档序号:17580681发布日期:2019-05-03 20:55阅读:215来源:国知局
用于使用基因表达谱诊断肺癌的组合物和方法与流程
本发明是根据美国国立卫生研究院授予的批准号ca010815在政府支持下进行。政府拥有本发明的某些权利。发明背景肺癌是全球最常见的癌症死亡原因。在美国,肺癌是男性和女性中第二大流行的癌症,并且每年将有超过174,000例新病例和超过162,000例癌症死亡。事实上,肺癌每年造成的死亡人数多于乳腺癌、前列腺癌和结肠直肠癌的总和。在过去30年中几乎没有或没有改善的高死亡率(五年内80%-85%)强调以下事实:需要在转移至局部淋巴结或肺以外之前有助于早期诊断的新的且有效的工具。高风险群体包括吸烟者、曾吸烟者和具有与遗传易感性相关的标志物的个体。由于手术切除早期肿瘤仍然是最有效的肺癌治疗,因此在使用低剂量螺旋ct(ldct)筛查高风险患者方面存在极大兴趣。这种策略鉴别大约30%-70%的高风险个体中的非钙化肺结节,但仅有一小部分检测出的结节最终被诊断为肺癌(0.4%至2.7%)。目前,用于区分具有良性病因的肺结节的受试者与具有恶性结节的受试者的唯一方法是侵入性活检、外科手术或通过重复扫描的长时间观察。即使使用最佳临床算法,20%-55%的被选择进行不确定肺结节的外科肺活检的患者被发现患有良性疾病,并且未进行立即活检或切除的那些患者需要连续成像研究。在这组患者中使用系列ct存在延迟潜在可治愈疗法、以及重复扫描的成本、不可忽略的辐射剂量以及患者的焦虑的风险。理想地,诊断测试将易于获取、廉价、展现高灵敏度和特异性并且产生改善的患者结果(医学上和经济上)。其他人已经表明利用上皮细胞的分类器具有高准确度。然而,收获这些细胞需要侵入性支气管镜检查。参见,silvestri等人,nengljmed.2015年7月16日;373(3):243–251,其以引用的方式并入本文。正在努力开发非侵入性诊断,所述非侵入性诊断使用痰、血液或血清并针对肿瘤细胞的产物、甲基化肿瘤dna、单核苷酸多态性(snp)表达的信使rna或蛋白质进行分析。已经在文献中论述了这种广泛系列的分子测试,所述分子测试具有用于肺癌的早期诊断的潜在效用。虽然这些方法中的每一种都具有其自身的优点,但是没有一种通过了致力于检测患有早期肺癌的患者的探索阶段,即使在高风险组或者基于放射学和其他临床因素具有初步诊断的患者中。简单的血液测试(与常规临床诊所就诊相关的常规事件)将是理想的诊断测试。技术实现要素:在一方面,一种用于诊断或评价哺乳动物受试者的肺癌的组合物或试剂盒包含十(10)种或更多种多核苷酸或寡核苷酸,其中每种多核苷酸或寡核苷酸与患者样品中的不同基因、基因片段、基因转录物或表达产物杂交。每种基因、基因片段、基因转录物或表达产物是选自表i或表ii的基因。在一个实施方案中,至少一种多核苷酸或寡核苷酸与可检测标记连接。在一个实施方案中,所述组合物或试剂盒包含多核苷酸或寡核苷酸,所述多核苷酸或寡核苷酸检测表i中的559种基因中的每一种的基因、基因片段、基因转录物或表达产物。在另一个实施方案中,所述组合物或试剂盒包含多核苷酸或寡核苷酸,所述多核苷酸或寡核苷酸检测表ii中的100种基因中的每一种的基因、基因片段、基因转录物或表达产物。在另一方面,一种用于诊断或评价哺乳动物受试者的肺癌的组合物或试剂盒包含十(10)种或更多种配体,其中每种配体与患者样品中的不同基因表达产物杂交。每种基因表达产物是选自表i或表ii的基因。在一个实施方案中,至少一种配体与可检测标记连接。在一个实施方案中,所述组合物或试剂盒包含配体,所述配体检测表i中的559种基因中的每一种的表达产物。在另一个实施方案中,所述组合物或试剂盒包含配体,所述配体检测表ii中的100种基因中的每一种的表达产物。本文描述的组合物能够检测受试者的基因表达谱中的基因表达与参考基因表达谱的基因表达相比的变化。各种参考基因表达谱在下文描述。在一个实施方案中,所述组合物提供区分癌性肿瘤与非癌性结节的能力。在另一方面,一种用于诊断或评价哺乳动物受试者的肺癌的方法包括鉴别受试者的样品中的三种或更多种基因的表达的变化,所述基因选自表i或表ii的基因;以及将所述受试者的基因表达水平与参考或对照中的相同基因的水平进行比较,其中所述基因表达的表达的变化与肺癌的诊断或评价相关。在一个实施方案中,所述基因表达的表达的变化提供区分癌性肿瘤与非癌性结节的能力。在另一方面,一种用于诊断或评价哺乳动物受试者的肺癌的方法包括鉴别受试者的血液中的基因表达谱,所述基因表达谱包含如本文所述的10种或更多种信息基因的10种或更多种基因表达产物。所述10种或更多种信息基因是选自表i或表ii的基因。在一个实施方案中,所述基因表达谱含有表i的所有559种基因。在另一个实施方案中,所述基因表达谱含有表ii的所有100种基因。将受试者的基因表达谱与来自下文描述的多种来源的参考基因表达谱进行比较。所述信息基因的表达的变化与肺癌的诊断或评价相关。在一个实施方案中,所述基因表达的表达的变化提供区分癌性肿瘤与非癌性结节的能力。在另一方面,提供了一种检测患者的肺癌的方法。所述方法包括从所述患者获得样品;以及通过使所述样品与包含对表i或表ii的至少10种基因的每种不同的基因转录物或表达产物具有特异性的寡核苷酸、多核苷酸或配体的组合物接触来检测所述患者样品中选自表i或表ii的所述至少10种基因的表达与对照相比的变化,以及检测所述寡核苷酸、多核苷酸或配体与所述基因产物或表达产物之间的结合。在另一方面,提供了一种诊断受试者的肺癌的方法。所述方法包括从受试者获得血液样品;通过使所述样品与包含对表i或表ii的至少10种基因的每种不同的基因转录物或表达产物具有特异性的寡核苷酸、多核苷酸或配体的组合物接触来检测所述患者样品中选自表i或表ii的所述至少10种基因的表达与对照相比的变化,以及检测所述寡核苷酸、多核苷酸或配体与所述基因产物或表达产物之间的结合;以及当检测到所述受试者的基因的表达与参考的表达相比的变化时,诊断所述受试者患有癌症。在另一方面,提供了一种诊断和治疗患有赘生性生长的受试者的肺癌的方法。所述方法包括从受试者获得血液样品;通过使所述样品与包含对表i或表ii的至少10种基因的每种不同的基因转录物或表达产物具有特异性的寡核苷酸、多核苷酸或配体的组合物接触来检测所述患者样品中选自表i或表ii的所述至少10种基因的表达与对照相比的变化,以及检测所述寡核苷酸、多核苷酸或配体与所述基因产物或表达产物之间的结合;当检测到所述受试者的基因的表达与参考的表达相比的变化时,诊断所述受试者患有癌症;以及除去所述赘生性生长。还可提供其他适当的治疗。这些组合物和方法的其他方面和优点在其优选实施方案的以下详细描述中进一步描述。附图说明图1是示出实施例1中使用的样品的患者特征的表。图2a和2b是示出以下的图:所有610个样品的交叉验证的支持向量机分类器(cvsvm)(图2a,准确度=0.75,roc面积=0.81。根据曲线,当灵敏度是0.91时,特异性是0.46;当灵敏度是0.72时,特异性是0.7)和使用559分类器,556个样品的平衡集(图2b,准确度=0.76,roc面积=0.81,根据曲线,当灵敏度是0.90时,特异性是0.48;当灵敏度是0.76时,特异性是0.77)。全集和平衡集示出类似的表现。图3是示出按结节大小组(x轴),分类器的灵敏度的条形图。数据表明较大的结节更可能被错误分类(p=1.54*10-4)。图4a至4c示出按病灶大小分层的样品组(癌症,图4b,n=204;和结节,图4c,n=331)的分类。在>5mm或更高的癌症内,r=0.95。对于所有大小的结节,r=0.97。图表(图4a)示出基于病灶大小的癌症和结节的分类的灵敏度和特异性。这些数字在下文以条形图形式示出。图5a和5b是示出以下的图:所有癌症样品(n=278)对比小结节(<10mm)(n=244)的交叉验证的支持向量机分类器(cvsvm)(图5a,准确度=0.79,roc面积=0.85。根据曲线,当灵敏度是0.90时,特异性是0.54;当灵敏度是0.77时,特异性是0.82)和使用所有癌症样品(n=278)对比大结节(≥10mm)(n=88)的10倍cvsvm(图5b,准确度=0.76,roc面积=0.71,根据曲线,当灵敏度是0.90时,特异性是0.24;当灵敏度是0.87时,特异性是0.42)。图6是示出用于559分类器的25%的数据集的交叉验证的支持向量机分类器(cvsvm)的图,所述分类器用作100分类器的测试集。roc面积=0.82。根据曲线,当灵敏度是0.90时,特异性是0.62;当灵敏度是0.79时,特异性是0.68;并且当灵敏度是0.71时,特异性是0.75。具体实施方式本文所述的方法和组合物将基因表达技术应用于血液筛查以用于检测和诊断肺癌。本文所述的组合物和方法通过确定哺乳动物(优选人)受试者的血液的基因的特征性rna表达谱而提供区分癌性肿瘤与非癌性结节的能力。将所述谱与同一类别的一个或多个受试者(例如,患有肺癌或非癌性结节的患者)或对照的谱进行比较以提供有用的诊断。这些肺癌筛查方法采用适合于使用基因表达谱分析进行简单且成本有效且非侵入性血液测试的组合物,所述基因表达谱分析可以前列腺特异性抗原用于帮助诊断和跟踪前列腺癌的进展的大致相同方式提醒患者和医生获得进一步研究,如胸部x光照片或ct扫描。这些谱的应用以恶性对比非恶性疾病的初始测试开始,提供肺病类型的重叠和确认性诊断。如本文所用的“患者”或“受试者”是指哺乳动物,包括人、兽医或农场动物、家养动物或宠物,以及通常用于临床研究的动物。在一个实施方案中,这些方法和组合物的受试者是人。如本文所用的“对照”或“对照受试者”是指参考基因表达谱的来源以及本文所述的对照受试者的特定组。在一个实施方案中,所述对照或参考水平是来自单个受试者。在另一个实施方案中,所述对照或参考水平是来自共享特定特征的个体群体。在另一个实施方案中,所述对照或参考水平是与特定对照个体或群体的水平相关、但不一定在测定测试受试者的样品时测量的指定值。在一个实施方案中,所述对照受试者或参考是来自患有非癌性结节的患者(或群体)。在另一个实施方案中,所述对照受试者或参考是来自患有癌性肿瘤的患者(或群体)。在其他实施方案中,所述对照受试者可以是患有肺癌的受试者或群体,如患有恶性疾病的当前吸烟者或曾吸烟者的受试者、在手术切除实体肺肿瘤前患有所述肿瘤的受试者;在手术切除实体肺肿瘤后患有所述肿瘤的受试者;在治疗实体肺肿瘤之前患有所述肿瘤的受试者;以及在治疗实体肺肿瘤期间或之后患有所述肿瘤的受试者。在其他实施方案中,出于本文所述的组合物和方法的目的,所述对照包括未患肺癌的参考人受试者的以下类别中的任一种。此类非健康对照(nhc)包括以下类别:患有非恶性疾病的吸烟者、患有非恶性疾病的曾吸烟者(包括患有肺结节的患者)、患有慢性阻塞性肺病(copd)的非吸烟者以及患有copd的曾吸烟者。在其他实施方案中,所述对照受试者是未患疾病的健康非吸烟者或未患疾病的健康吸烟者。如本文所用的“样品”是指含有免疫细胞和/或癌细胞的任何生物流体或组织。用于本发明的最合适的样品包括全血。其他有用的生物样品包括但不限于,来自患有癌症的患者的外周血单核细胞、血浆、唾液、尿液、滑液、骨髓、脑脊液、阴道粘液、宫颈粘液、鼻分泌物、痰、精液、羊水、支气管镜检查样品、支气管肺泡灌洗液以及其他细胞渗出液。此类样品可进一步用盐水、缓冲液或生理学上可接受的稀释剂稀释。或者,通过常规方式浓缩此类样品。如本文所用,术语“癌症”是指或描述哺乳动物中通常特征在于细胞生长不受调控的生理病状。更具体地,如本文所用,术语“癌症”是指任何肺癌。在一个实施方案中,肺癌是非小细胞肺癌(nsclc)。在更具体的实施方案中,肺癌是肺腺癌(ac或lac)。在另一个更具体的实施方案中,肺癌是肺鳞状细胞癌(scc或lscc)。在另一个实施方案中,肺癌是i期或ii期nsclc。在仍然另一个实施方案中,肺癌是早期和晚期以及多种类型的nsclc的混合物。如本文所用,术语“肿瘤”是指所有赘生性细胞生长和增殖(无论恶性还是良性)以及所有癌前和癌性细胞和组织。术语“结节”是指为良性的组织的异常累积。术语“癌性肿瘤”是指恶性肿瘤。“诊断”或“评价”是指肺癌的诊断、肺癌的分期的诊断、肺癌的类型或分类的诊断、肺癌的复发的诊断或检测、肺癌的消退的诊断或检测、肺癌的预后或肺癌对外科手术或非外科手术疗法的反应的评价。在一个实施方案中,“诊断”或“评价”是指区分癌性肿瘤与良性肺部结节。如本文所用,“灵敏度”(也称为真阳性率)测量如此正确地鉴别的阳性的比例(例如,正确地鉴别为患有病状的病人的百分比)。如本文所用,“特异性”(也称为真阴性率)测量如此正确地鉴别的阴性的比例(例如,正确地鉴别为不患有病状的健康人的百分比)。“表达的变化”是指与参考或对照相比,一种或多种选定基因的上调;与参考或对照相比,一种或多种选定基因的下调;或者某些上调的基因和下调的基因的组合。“治疗试剂”或“方案”是指用于治疗具有或不具有实体瘤的癌症的任何类型的治疗,包括但不限于化学治疗药物、生物反应调节剂、放射、饮食、维生素疗法、激素疗法、基因疗法、手术切除等。如本文所用的“信息基因”是指其表达在肺癌存在下特征性地改变(以上调或下调的方式)的那些基因。统计上显著数量的此类信息基因由此形成用于所述方法和组合物的合适的基因表达谱。此类基因在以下表i和表ii中示出。此类基因构成“表达谱”。在本发明的上下文中,术语“统计上显著数量的基因”取决于观察到的基因表达的变化程度而不同。基因表达的变化程度随癌症的类型和癌症或实体瘤的大小或扩散而变化。变化程度也随个体的免疫反应而变化,并且随每个个体而变化。例如,在本发明的一个实施方案中,少量基因(例如,约10至20种基因)的较大变化,例如2-3倍增加或减少是统计上显著的。在另一个实施方案中,约15种以上基因的较小相对变化是统计上显著的。因此,本文描述的方法和组合物考虑检查在单个谱中在5至约559种基因范围内的“统计上显著数量的基因”的表达谱。在一个实施方案中,所述基因是选自表i。在另一个实施方案中,所述基因是选自表ii。在一个实施方案中,所述基因谱由统计上显著数量的5种或更多种基因形成。在一个实施方案中,所述基因谱由统计上显著数量的10种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的15种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的20种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的25种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的30种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的35种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的40种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的45种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的50种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的60种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的65种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的70种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的75种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的80种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的85种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的90种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的95种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的100种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的200种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的300种或更多种基因形成。在另一个实施方案中,所述基因谱由统计上显著数量的350种或更多种基因形成。在仍然另一个实施方案中,所述基因谱由400种或更多种基因形成。在仍然另一个实施方案中,所述基因谱由539种基因形成。在仍然另一个实施方案中,所述基因谱由559种基因形成。在仍然其他实施方案中,作为这些方法的一部分检查的基因谱含有10至559种基因以及它们之间的任何数量作为统计上显著数量的基因。在另一个实施方案中,所述基因谱由表i的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、501、502、503、504、505、506、507、508、509、510、511、512、513、514、515、516、517、518、519、520、521、522、523、524、525、526、527、528、529、530、531、532、533、534、535、536、537、538、539、540、541、542、543、544、545、546、547、548、549、550、551、552、553、554、555、556、557、558种基因或全部559种基因形成。在另一个实施方案中,所述基因谱由表ii的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99种基因或全部100种基因形成。以下表i和表ii涉及可用于区分患有肺癌(例如nsclc)的受试者与患有良性(非恶性)肺结节的受试者的已知基因的集合。表i和表ii中鉴别的基因的序列是公众可获得的。本领域技术人员可通过使用所述基因的序列容易地再现本文所述的组合物和方法,所述基因的序列全部可从常规来源如genbank公开获得。提供了每种基因的genbank登录号。术语“微阵列”是指可杂交阵列元件、优选多核苷酸或寡核苷酸探针在底物上的有序排列。当以单数或复数形式使用时,术语“多核苷酸”通常是指任何多核糖核苷酸或多脱氧核糖核苷酸,其可以是未修饰的rna或dna或修饰的rna或dna。因此,例如,如本文所定义的多核苷酸包括但不限于,单链和双链dna、包含单链区和双链区的dna、单链和双链rna、以及包含单链区和双链区的rna、包含可为单链或更通常双链或包含单链区和双链区的dna和rna的杂合分子。此外,如本文所用的术语“多核苷酸”是指包含rna或dna或rna和dna两者的三链区。此类区中的链可来自相同的分子或来自不同的分子。这些区可包含一个或多个分子中的全部,但是更通常仅包含一些分子的区。三螺旋区的分子中的一种通常是寡核苷酸。术语“多核苷酸”具体地包含cdna。所述术语包括含有一个或多个修饰的碱基的dna(包括cdna)和rna。因此,具有出于稳定性或其他原因而修饰的主链的dna或rna是如所述术语在本文所意指的“多核苷酸”。此外,包含稀有碱基(如肌苷)或修饰的碱基(如氚化碱基)的dna或rna包括在如本文定义的术语“多核苷酸”内。一般来说,术语“多核苷酸”涵盖未修饰的多核苷酸的所有化学、酶促或代谢修饰的形式,以及病毒和细胞(包括简单细胞和复杂细胞)所特有的dna和rna的化学形式。术语“寡核苷酸”是指相对短的多核苷酸,包括但不限于单链脱氧核糖核苷酸、单链或双链核糖核苷酸、rna:dna杂合体和双链dna。寡核苷酸(如单链dna探针寡核苷酸)通常通过化学方法,例如使用可商购的自动化寡核苷酸合成仪合成。然而,寡核苷酸可通过多种其他方法(包括体外重组dna介导的技术)和通过在细胞和生物体中表达dna来制备。可互换使用的术语“差异表达的基因”、“差异基因表达”及其同义词是指相对于其在对照受试者(如患有良性结节的受试者)中的表达,在患有疾病(具体地癌症,如肺癌)的受试者中的表达被活化至更高或更低水平的基因。所述术语还包括表达在相同疾病的不同阶段被活化至更高或更低水平的基因。还应理解,差异表达的基因可在核酸水平或蛋白质水平下被活化或抑制,或可经受选择性剪接以产生不同的多肽产物。此类差异可通过例如mrna水平、表面表达、分泌或多肽的其他分配方面的变化来证明。差异基因表达可包括两种或更多种基因或其基因产物之间的表达的比较;或两种或更多种基因或其基因产物之间的表达比率的比较;或甚至同一基因的两种不同加工的产物的比较,所述比较在正常受试者、非健康对照与患有疾病(具体地癌症)的受试者之间不同或者在同一疾病的不同阶段之间不同。差异表达包括在例如正常细胞和患病细胞之中、或在经历了不同疾病事件或疾病阶段的细胞之中,基因或其表达产物中的瞬时或细胞表达模式的定量以及定性差异。出于本发明的目的,当在受试者样品与对照样品之间存在基因表达的统计上显著(p<0.05)的差异时认为存在“差异基因表达”。关于rna转录物的术语“过表达”用于指通过标准化至参考mrna的水平确定的转录物水平,其可以是样品中所有测量的转录物或特定参考mrna组。短语“基因扩增”是指基因或基因片段的多个拷贝在特定细胞或细胞系中形成的过程。复制区(一段扩增的dna)通常被称为“扩增子”。通常,所产生的信使rna(mrna)的量(即基因表达的水平)也增加了由表达的特定基因构成的拷贝数的比例。在本文所述的组合物和方法的上下文中,对表i或表ii中列出的基因的“10种或更多种”、“至少10种”等的提及是指所列基因中的任一种或任何和所有组合。例如,合适的基因表达谱包括含有来自表i的至少5至559种基因之间的任何数量的谱。在另一个实例中,合适的基因表达谱包括含有来自表ii的至少5至100种基因之间的任何数量的谱。在一个实施方案中,由选自表的基因形成的基因谱以排序次序使用,例如,排在所述列表的前面的基因在测试中展现更显著的判别结果,并且因此在谱中可能比在排在较后的基因更显著。然而,在其他实施方案中,形成有用基因谱的基因不必按排序次序,并且可以是来自所述表的任何基因。如本文所用,术语“100分类器”或“100生物标志物分类器”是指表ii的100种基因。如本文所用,术语“559分类器”或“559生物标志物分类器”是指表i的559种基因。然而,如本文所述的表i或表ii的基因的子集也是有用的,并且在另一个实施方案中,所述术语也可指那些子集。如本文所用,“标记”或“报告分子”是可用于标记核酸(包括单核苷酸)、多核苷酸、寡核苷酸或蛋白质配体(例如氨基酸或抗体)的化学或生物化学部分。“标记”和“报告分子”包括荧光剂、化学发光剂、显色剂淬灭剂、放射性核苷酸、酶、底物、辅因子、抑制剂、磁性颗粒以及本领域中已知的其他部分。“标记”或“报告分子”能够产生可测量的信号,并且可共价或非共价地连接或结合至寡核苷酸或核苷酸(例如,非天然核苷酸)或配体。除非在本说明书中另有定义,否则本文使用的技术和科学术语具有与本发明所属领域普通技术人员并且参考公开的文本通常理解的含义相同的含义,其为本领域技术人员提供了对本申请中使用的许多术语的一般指导。i.基因表达谱本发明人已经表明,肺癌患者的全血的基因表达谱与患有非癌性肺结节的患者中观察到的基因表达谱显著不同。例如,可通过本发明的方法在患有早期实体肺肿瘤的患者的正常循环血液中观察并检测表i和/或表ii的基因的基因表达产物的变化。本文所述的基因表达谱为肺癌的早期检测提供了新的诊断标志物,并且可防止患者经历与良性结节的手术或活检相关的不必要的程序。由于风险非常低,所以益处/风险比非常高。在一个实施方案中,本文所述的方法和组合物可与临床风险因子结合使用,以帮助医生做出关于如何管理患有肺结节的患者的更准确的决定。本发明的另一个优点是诊断可早期发生,因为诊断不依赖于检测在早期肺癌中以仅消没的少量存在的循环肿瘤细胞。在一方面,提供了一种用于将哺乳动物受试者中的结节分类为癌性或良性的组合物。在一个实施方案中,所述组合物包含至少10种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在另一个实施方案中,所述组合物包含至少100种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述多核苷酸或寡核苷酸或配体与mrna杂交。表i表ii在一个实施方案中,新颖的基因表达谱或特征可鉴别并区分患有癌性肿瘤的患者与患有良性结节的患者。参见例如表i和表ii中鉴别的基因,所述基因可形成合适的基因表达谱。在另一个实施方案中,表i的一部分基因形成合适的谱。在另一个实施方案中,表ii的一部分基因形成合适的谱。如本文所论述的,这些谱用于通过基于如下文例示的基因表达谱中的差异产生判别分数来区分癌性肿瘤和非癌性肿瘤。这些特征的有效性在患有未诊断的肺部结节的患者群组中的不同组在不同位置采集的样品上建立。参见实施例7和图2a-2b和图6。可进一步优化本文鉴别的肺癌特征或基因表达谱(即,表i或表ii)以减少必需的基因表达产物的数量并提高诊断的准确性。在一个实施方案中,所述组合物包含10至559种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在另一个实施方案中,所述组合物包含10至100种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在另一个实施方案中,所述组合物包含10至559种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在另一个实施方案中,所述组合物包含10至100种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在另一个实施方案中,所述组合物包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、501、502、503、504、505、506、507、508、509、510、511、512、513、514、515、516、517、518、519、520、521、522、523、524、525、526、527、528、529、530、531、532、533、534、535、536、537、538、539、540、541、542、543、544、545、546、547、548、549、550、551、552、553、554、555、556、557、558或559种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在另一个实施方案中,所述组合物包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少3种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少5种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少10种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少15种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少20种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少25种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少30种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少35种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少40种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少45种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少50种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少55种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少60种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少65种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少70种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少75种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少80种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少85种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少90种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少95种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少100种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i或表ii的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少150种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少200种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少250种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少300种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少350种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少400种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少450种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含至少500种多核苷酸或寡核苷酸或配体,其中每种多核苷酸或寡核苷酸或配体与样品中选自表i的基因的不同基因、基因片段、基因转录物或表达产物杂交。在一个实施方案中,所述组合物包含能够与表i中列出的每种不同的基因、基因片段、基因转录物或表达产物杂交的多核苷酸或寡核苷酸或配体。在另一个实施方案中,所述组合物包含能够与表ii中列出的每种不同的基因、基因片段、基因转录物或表达产物杂交的多核苷酸或寡核苷酸或配体。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前3种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前5种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前10种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前15种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前20种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前25种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前30种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前35种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前40种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前45种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前50种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前55种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前60种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前65种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前70种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前75种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前80种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前85种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前90种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前95种基因形成。在另一个实施方案中,所述表达谱由表i或表ii的排序次序中的前100种基因形成。在另一个实施方案中,所述表达谱由表i的排序次序中的前150种基因形成。在另一个实施方案中,所述表达谱由表i的排序次序中的前200种基因形成。在另一个实施方案中,所述表达谱由表i的排序次序中的前250种基因形成。在另一个实施方案中,所述表达谱由表i的排序次序中的前300种基因形成。在另一个实施方案中,所述表达谱由表i的排序次序中的前350种基因形成。在另一个实施方案中,所述表达谱由表i的排序次序中的前400种基因形成。在另一个实施方案中,所述表达谱由表i的排序次序中的前539种基因形成。如下文所论述,本文所述的组合物可与本领域中已知的基因表达谱分析方法一起使用。因此,所述组合物可相应地调整以适合所述组合物所意图使用的方法。在一个实施方案中,至少一种多核苷酸或寡核苷酸或配体与可检测标记连接。在某些实施方案中,每种多核苷酸或寡核苷酸连接至不同的可检测标记,每种标记能够被独立地检测到。此类试剂可用于诸如ncounter的测定中,如下文所述;并且可与本文所述的诊断方法一起使用。在另一个实施方案中,所述组合物包含捕获寡核苷酸或配体,所述捕获寡核苷酸或配体与至少一种多核苷酸或寡核苷酸或配体杂交。在一个实施方案中,此类捕获寡核苷酸或配体可包含对所述寡核苷酸或多核苷酸或配体的一部分具有特异性的核酸序列,所述部分对目标基因具有特异性。所述捕获配体可以是对目标基因的配体具有特异性的肽或多肽。在一个实施方案中,所述捕获配体是抗体,如在夹心elisa中。所述捕获寡核苷酸还包括允许与基底结合的部分。这种基底包括但不限于板、珠粒、载玻片、孔、芯片或腔室。在一个实施方案中,所述组合物包含对目标基因具有特异性的每种不同的多核苷酸或寡核苷酸的捕获寡核苷酸。每种捕获寡核苷酸可含有相同的部分,所述部分允许与相同的基底结合。在一个实施方案中,所述结合部分是生物素。因此,如本文所述的用于哺乳动物受试者中的这种诊断或评价的组合物可以是试剂盒或试剂。例如,组合物的一个实施方案包括基底,用于检测和定量mrna的配体被固定在所述基底上。在一个实施方案中,所述试剂是扩增核酸引物(如rna引物)或引物对,所述引物或引物对扩增并检测mrna的核酸序列。在另一个实施方案中,所述试剂是与靶序列杂交的多核苷酸探针。在另一个实施方案中,所述靶序列在表iii中示出。在另一个实施方案中,所述试剂是抗体或抗体的片段。所述试剂可包括多种所述引物、探针或抗体,所述引物、探针或抗体各自对表i或表ii的至少一种基因、基因片段或表达产物具有特异性。任选地,所述试剂可与常规的可检测标记缔合。在另一个实施方案中,所述组合物是试剂盒,所述试剂盒含有相关的多种多核苷酸或寡核苷酸探针或配体、用于所述多核苷酸或寡核苷酸探针或配体的任选可检测标记、固定化基底、用于酶标记的任选底物、以及其他实验室项目。在仍然另一个实施方案中,至少一种多核苷酸或寡核苷酸或配体与可检测标记缔合。在某些实施方案中,所述试剂被固定在基底上。示例性基底包括微阵列、芯片、微流体卡或腔室。在一个实施方案中,所述组合物是试剂盒,所述试剂盒被设计用于与ncounternanostring系统一起使用,如下文进一步论述的。ii.基因表达谱分析方法用于产生可用于本文所述的组合物和方法中的谱或用于使用本文所述的组合物进行诊断步骤的基因表达谱分析的方法是已知的,并且在美国专利号7,081,340中良好的总结。此类基因表达谱分析方法包括基于多核苷酸的杂交分析的方法、基于多核苷酸的测序的方法和基于蛋白质组学的方法。本领域中已知用于定量样品中的mrna表达的最常用的方法包括rna印迹和原位杂交;rna酶保护测定;分析;以及基于pcr的方法,如rt-pcr。或者,可采用可识别特定双链体,包括dna双链体、rna双链体以及dna-rna杂合双链体或dna-蛋白质双链体的抗体。用于基于测序的基因表达分析的代表性方法包括基因表达系列分析(sage)和通过大规模平行签名测序(mpss)的基因表达分析。在某些实施方案中,本文所述的组合物适合用于本文所述的基因表达谱分析和/或诊断的方法以及本领域中已知的方法中。a.患者样品如本文所用的“样品”或“生物样品”是指含有免疫细胞和/或癌细胞的任何生物流体或组织。在一个实施方案中,合适的样品是全血。在另一个实施方案中,所述样品可以是静脉血。在另一个实施方案中,所述样品可以是动脉血。在另一个实施方案中,用于在本文所述的方法中使用的合适样品包括外周血,更具体地外周血单核细胞。其他有用的生物样品包括但不限于血浆或血清。在仍然另一实施方案中,所述样品是来自疑似患有肺病的受试者的唾液、尿液、滑液、骨髓、脑脊液、阴道粘液、宫颈粘液、鼻分泌物、痰、精液、羊水、支气管肺泡灌洗液以及其他细胞渗出液。此类样品可进一步用盐水、缓冲液或生理学上可接受的稀释剂稀释。或者,通过常规方式浓缩此类样品。应当理解,本说明书中对任一种生物样品的使用或提及仅是示例性的。例如,在说明书中将样品称为全血的情况下,应当理解,在另一个实施方案中也可使用其他样品,例如血清、血浆等。在一个实施方案中,所述生物样品是全血,并且所述方法使用paxgene血液rna工作流系统(qiagen)。所述系统涉及血液采集例如,单次抽血)和rna稳定化,随后运输和储存,随后总rna的纯化和分子rna测试。这种系统提供即时rna稳定化和一致的抽血体积。可在医生的办公室或诊所抽取血液,并将样品在同一管中运输并储存。短期rna稳定性在18℃-25℃之间为3天,或在2℃-8℃之间为5天。长期rna稳定性是在-20℃至-70℃下4年。这种样品采集系统使得使用者能够可靠地获得关于全血中的基因表达的数据。在一个实施方案中,所述生物样品是全血。虽然paxgene系统比使用pbmc作为生物样品来源具有更多噪声,但paxgene样品采集的益处超过了问题。本领域技术人员可在生物信息学上减去噪声。在一个实施方案中,可使用专用paxgene血液rna系统(preanalytix,qiagen,bd公司)采集生物样品。paxgene血液rna系统包括两个集成部件:paxgene血液rna管和paxgene血液rna试剂盒。经由标准静脉切开术技术将血液样品直接抽取到paxgene血液rna管中。这些管含有专用试剂,所述制剂使细胞内rna立即稳定,使rna转录物的离体降解或上调最小化。消除冷冻、分批样品以及使采集后加工样品的紧急性最小化的能力极大地增强实验室效率并降低成本。此后,使用各种测定来检测和/或测量mirna。b.nanostring分析适用于本文所述的组合物和方法的灵敏且灵活的定量方法是分析系统(nanostringtechnologies,inc.,seattlewa)。ncounter分析系统利用数字颜色编码条形码技术,所述技术是基于基因表达的直接多重测量;并且提供高水平的精确度和灵敏度(每个细胞<1个拷贝)。所述技术使用分子“条形码”和单分子成像技术来检测并计数单一反应中的数百种独特的转录物。每个颜色编码的条形码连接至对应于目标基因(即表i的基因)的单个靶特异性探针(即,多核苷酸、寡核苷酸或配体)。与对照混合在一起,它们形成多重代码集(codeset)。在一个实施方案中,所述代码集包括表i的所有559种基因。在另一个实施方案中,所述代码集包括表ii的所有100种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少3种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少5种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少10种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少15种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少20种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少25种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少30种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少40种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少50种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少60种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少70种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少80种基因。在另一个实施方案中,所述代码集包括表i或表ii的至少90种基因。在另一个实施方案中,所述代码集包括表i的至少100种基因。在另一个实施方案中,所述代码集包括表i的至少200种基因。在另一个实施方案中,所述代码集包括表i的至少300种基因。在另一个实施方案中,所述代码集包括表i的至少400种基因。在另一个实施方案中,所述代码集包括表i的至少500种基因。在另一个实施方案中,所述代码集由表i的排序次序中的前539种基因形成。在另一个实施方案中,所述代码集包括表i的基因的所有子集,如本文所述。在另一个实施方案中,所述代码集包括表ii的基因的所有子集,如本文所述。nanostring平台采用在溶液中杂交的每个mrna两个约50个碱基的探针。报告探针携带信号;捕获探针允许复合物被固定用于数据收集。将所述探针与患者样品混合。在杂交后,除去过量的探针,并将探针/靶复合物比对并固定至基底,例如在ncounter筒中。在以下实施例中使用的表i和表ii的每种基因的靶序列在以下表iii中示出,并在序列表中再现。这些序列是这些基因的公开序列的一部分。合适的替代物可由本领域技术人员容易地设计。样品筒被置于数字分析仪中以用于数据收集。对所述筒表面上的颜色代码进行计数并对于每种靶分子制表。使用nanostringncounter系统的益处是不需要扩增mrna来进行检测和定量。然而,在替代实施方案中,使用其他合适的定量方法。参见例如,geiss等人,directmultiplexedmeasurementofgeneexpressionwithcolor-codedprobepairs,natbiotechnol.2008年3月;26(3):317-25.doi:10.1038/nbt1385.epub2008年2月17日,所述文献以引用的方式整体并入本文。表iiic.聚合酶链式反应(pcr)技术另一种合适的定量方法是rt-pcr,其可用于比较正常组织和肿瘤组织中不同样品群体中的mrna水平,以表征基因表达模式、区分密切相关的mrna并分析rna结构。第一步骤是从靶样品中分离mrna(例如,通常从人pbmc分离的总rna)。可例如从冷冻或存档的石蜡包埋和固定(例如福尔马林固定)的组织样品中提取mrna。用于mrna提取的一般方法是本领域熟知的,如分子生物学的标准教科书。特别地,可根据制造商的说明书,使用来自商业制造商的纯化试剂盒、缓冲液组和蛋白酶来进行rna分离。示例性商业产品包括tri-reagent、qiagenrneasy微型柱、masterpure完全dna和rna纯化试剂盒(madison,wis.)、石蜡块rna分离试剂盒(ambion,inc.)和rnastat-60(tel-测试)。也可采用常规技术,如氯化铯密度梯度离心。通过rt-pcr进行基因表达谱分析的第一步骤是将rna模板逆转录成cdna,随后在pcr反应中进行其指数扩增。两种最常用的逆转录酶是avilo成髓细胞瘤病毒逆转录酶(amv-rt)和莫洛尼鼠白血病病毒逆转录酶(mmlv-rt)。逆转录步骤通常使用特异性引物、随机六聚体或oligo-dt引物引发,这取决于环境和表达谱分析的目标。参见例如,产品geneamprnapcr试剂盒(perkinelmer,calif.,usa)附带的制造商说明书。然后可将得到的cdna用作随后的rt-pcr反应中的模板。pcr步骤通常使用热稳定的dna依赖性dna聚合酶,如taqdna聚合酶,其具有5'-3'核酸酶活性、但缺乏3'-5'校对核酸内切酶活性。因此,pcr通常利用taq或tth聚合酶的5'-核酸酶活性来水解与其靶扩增子结合的杂交探针,但是可使用具有等效5'核酸酶活性的任何酶。两种寡核苷酸引物用于产生pcr反应所典型的扩增子。在一个实施方案中,靶序列在表iii中示出。设计第三寡核苷酸或探针以检测位于两种pcr引物之间的核苷酸序列。所述探针不能通过taqdna聚合酶延伸,并用报告荧光染料和淬灭荧光染料标记。当两种染料在探针上靠近在一起定位时,来自报告染料的任何激光诱导的发射被淬灭染料淬灭。在扩增反应期间,taqdna聚合酶以模板依赖性方式裂解探针。所得到的探针片段在溶液中解离,并且来自释放的报告染料的信号免于第二荧光团的淬灭作用。对于合成的每个新分子,释放一个报告染料分子,并且未淬灭的报告染料的检测为数据的定量解释提供了基础。rt-pcr可使用可商购的设备进行。在一个优选的实施方案中,5'核酸酶程序在实时定量pcr装置,如abiprismsequencedetection上运行。所述系统在热循环仪上以96孔格式扩增样品。在扩增期间,对于所有96个孔通过光纤电缆实时收集并在ccd处检测激光诱导的荧光信号。所述系统包括用于运行仪器和分析数据的软件。5'-核酸酶测定数据最初表示为ct或阈值循环。如上文所论述,在每个循环期间记录荧光值并且荧光值代表在扩增反应中扩增至所述点的产物的量。荧光信号首次记录为统计上显著时的点是阈值循环(ct)。为了使错误和样品间差异的影响最小化,通常使用内部标准进行rt-pcr。理想的内部标准在不同组织之间以恒定水平表达,并且不受实验处理影响。最常用于标准化基因表达模式的rna是用于管家基因甘油醛-3-磷酸-脱氢酶(gapdh)和β-肌动蛋白的mrna。实时pcr与定量竞争性pcr竞争,其中每个靶序列的内部竞争物用于标准化;并且与使用样品内包含的标准化基因或用于rt-pcr的管家基因的定量比较pcr竞争。在另一种pcr方法中,即基于massarray的基因表达谱分析方法(sequenom,inc.,sandiego,ca),在分离rna和逆转录后,将获得的cdna掺以合成dna分子(竞争物),所述cdna除了单个碱基外与所有位置的靶向cdna区匹配并充当内部标准。对cdna/竞争物混合物进行pcr扩增并进行pcr后虾碱性磷酸酶(sap)酶处理,所述处理导致剩余核苷酸的去磷酸化。在碱性磷酸酶失活后,使来自竞争物和cdna的pcr产物进行引物延伸,其产生针对竞争物和cdna来源的pcr产物的不同质量信号。在纯化后,将这些产物分配在芯片阵列上,所述芯片阵列预负载有用基质辅助激光解吸电离飞行时间质谱(maldi-tofms)分析进行分析所需的组分。然后通过分析所产生的质谱中峰面积的比率来量化反应中存在的cdna。本领域已知并且可用于基因表达谱分析的基于pcr的技术的仍然其他实施方案包括例如差异显示、扩增片段长度多态性(iaflp)和用于基因表达的快速测定中的使用可商购的luminex100labmap系统和多个颜色编码的微球(luminexcorp.,austin,tex.)的beadarraytm技术(illumina,sandiego,ca);以及高覆盖率表达谱分析(hicep)分析。d.微阵列还可使用微阵列技术来鉴别或确认差异基因表达。因此,可使用微阵列技术在新鲜或石蜡包埋的组织中测量肺癌相关基因的表达谱。在这种方法中,将目标多核苷酸序列(包括cdna和寡核苷酸)平铺或排列在微芯片基底上。然后将排列的序列与来自目标细胞或组织的特异性dna探针杂交。正如在本文的其他方法和组合物中一样,mrna的来源是从对照和患者受试者的全血中分离的总rna。在微阵列技术的一个实施方案中,将cdna克隆的pcr扩增的插入物以密集阵列形式施加至基底。在一个实施方案中,将来自表iii的所有559个核苷酸序列施加至基底。固定在微芯片上的微阵列基因适于在严格条件下杂交。荧光标记的cdna探针可通过借助于从目标组织提取的rna的逆转录并入荧光核苷酸来产生。施加至芯片的标记的cdna探针与阵列上的每个dna点特异性杂交。在严格的洗涤以除去非特异性结合的探针之后,通过共焦激光显微镜或另一种检测方法(如ccd摄像机)扫描芯片。对每个排列的元件的杂交的定量允许评估相应的mrna丰度。使用双色荧光,从两种rna来源产生的单独标记的cdna探针与所述阵列成对杂交。因此同时测定来自对应于每种指定基因的两种来源的转录物的相对丰度。杂交的小型化规模提供了大量基因的表达模式的方便且快速的评价。已经显示此类方法具有检测以每个细胞数个拷贝表达的稀有转录物和可再现地检测表达水平的至少大约两倍差异所需的灵敏度。微阵列分析可按照制造商的方案通过可商购的设备进行。美国专利号7,081,340总结并以引用的方式并入本文的其他有用的方法包括基因表达系列分析(sage)和大规模平行签名测序(mpss)。简言之,基因表达系列分析(sage)是一种允许同时和定量分析大量基因转录物而不需要为每种转录物提供单独的杂交探针的方法。首先,产生短序列标签(约10至14bp),所述短序列标签含有唯一地鉴别转录物的足够信息,条件是所述标签是从每种转录物内的独特位置获得的。然后,将许多转录物连接在一起以形成可被测序的长系列分子,从而同时揭示多个标签的身份。可通过测定单个标签的丰度并鉴别对应于每个标签的基因来定量地评价任何转录物群体的表达模式。关于更多细节,参见例如velculescu等人,science270:484487(1995);以及velculescu等人,cell88:24351(1997),所述文献两者均以引用的方式并入本文。由brenner等人,naturebiotechnology18:630634(2000)(其以引用的方式并入本文)描述的通过大规模平行签名测序(mpss)进行的基因表达分析是将非基于凝胶的签名测序与单独5μm直径微珠上数百万的模板的体外克隆组合的测序方法。首先,通过体外克隆构建dna模板的微珠文库。在此之后在流动池中以高密度(通常大于3x106个微珠/cm2)组装含模板微珠的平面阵列。使用不需要dna片段分离的基于荧光的签名测序方法同时分析每个微珠上的克隆的模板的自由端。已经显示这种方法在单次操作中同时且准确地提供来自酵母cdna文库的成千上万的个基因签名序列。e.免疫组织化学免疫组织化学方法也适用于检测被描述用于在本文的方法和组合物中使用的信息基因的基因表达产物的表达水平。使用抗体或抗血清、优选多克隆抗血清并且最优选单克隆抗体或对每种标志物具有特异性的其他蛋白质结合配体来检测表达。所述抗体可通过例如用放射性标记、荧光标记、半抗原标记(如生物素)或酶(如辣根过氧化物酶或碱性磷酸酶)直接标记抗体本身来进行检测。或者,未标记的第一抗体与标记的第二抗体(包括抗血清、多克隆抗血清或对第一抗体具有特异性的单克隆抗体)结合使用。用于免疫组织化学分析的方案和试剂盒是本领域中熟知的并且是可商购的。iii.本发明的组合物本文所述的利用确定的基因表达谱诊断肺癌的方法允许开发用于诊断肺癌(例如nsclc)与非癌性结节的简化诊断工具。因此,如本文所述的用于诊断哺乳动物受试者的肺癌的组合物可以是试剂盒或试剂。例如,组合物的一个实施方案包括基底,所述多核苷酸或寡核苷酸或配体被固定在所述基底上。在另一个实施方案中,所述组合物是试剂盒,所述试剂盒含有相关的5种或更多种多核苷酸或寡核苷酸或配体、用于所述多核苷酸或寡核苷酸或配体的任选可检测标记、固定化基底、用于酶标记的任选底物、以及其他实验室项目。在仍然另一个实施方案中,至少一种多核苷酸或寡核苷酸或配体与可检测标记缔合。在一个实施方案中,用于诊断哺乳动物受试者的肺癌的组合物包含5个或更多个pcr引物-探针组。每个引物-探针组从受试者血液中发现的5种或更多种信息基因的基因表达产物扩增不同的多核苷酸序列。选择这些信息基因以形成基因表达谱或特征,所述基因表达谱或特征可区分患有肺癌的受试者与患有非癌性结节的受试者。所述基因表达谱中的基因的表达与参考基因表达谱的基因的表达相比的变化与肺癌如非小细胞肺癌(nsclc)相关。在这种组合物的一个实施方案中,所述信息基因是选自表i中鉴别的基因。在这种组合物的另一个实施方案中,所述信息基因是选自表ii中鉴别的基因。这种基因集合是基因产物表达相对于参考对照(即,具有非癌性结节的患者)的血液中的相同基因产物表达改变(即,增加或减少)的那些基因。在一个实施方案中,产生针对来自表i或表ii的5种或更多种信息基因的多核苷酸或寡核苷酸或配体(即探针)以用于组合物中(代码集)。这种组合物的实例含有针对表i的559种基因的靶向部分的探针。在另一个实施方案中,产生了针对来自表i的所有559种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i的前539种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前3种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前5种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前10种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前15种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前20种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前25种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前30种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前35种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前40种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前45种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前50种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前60种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前65种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前70种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前75种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前80种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前85种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前90种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前95种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i或表ii的前100种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i的前200种基因的探针以用于组合物中。在另一个实施方案中,产生了针对来自表i的300种基因的探针以用于组合物中。仍然其他实施方案采用针对表i或表ii中的基因的其他组合的靶向部分的探针。来自所述表的选定基因不需要按排序次序;而是明确显示参考对照与患病患者之间的表达差异的任何组合可用于这种组合物中。在上述组合物的一个实施方案中,参照对照是如上所述的非健康对照(nhc)。在其他实施方案中,参考对照可以是如上文“定义”中所述的任何类别的对照。基于任选地与可检测标记缔合的选自本文所述的表i或表ii的基因的组合物可以微流体卡、芯片或腔室、或适于与上文所述的nanostring、pcr、rt-pcr或qpcr一起使用的试剂盒的形式呈现。在一方面,这种形式是使用定量pcr低密度阵列的诊断测定。在另一方面,这种形式是使用nanostringncounter平台的诊断测定。为了在上述组合物中使用,优选基于存在于选自基因表达谱的待扩增的一种或多种基因中的内含子序列设计pcr引物和探针。示例性靶序列在表iii中示出。一旦选择了特定基因靶标,引物和探针序列的设计就在本领域技术范围内。被选择用于引物和探针设计的特定方法以及特定引物和探针序列不是这些组合物的限制性特征。本领域技术人员可获得的引物和探针设计技术的现成解释总结于美国专利号7,081,340中,其参考公开可用的工具如dnablast软件、repeatmasker程序(baylorcollegeofmedicine)、primerexpress(appliedbiosystems);mgb测定设计(mgbassay-by-design)(appliedbiosystems);primer3(steverozen和helenj.skaletsky(2000)primer3onthewwwforgeneralusersandforbiologistprogrammers。一般来说,本文所述的组合物中使用的最佳pcr引物和探针的长度通常是17-30个碱基,并且含有约20%-80%,例如像约50%-60%的g+c碱基。在50℃与80℃之间,例如约50℃至70℃的解链温度通常是优选的。在另一方面,一种用于诊断哺乳动物受试者的肺癌的组合物含有固定在基底上的多种多核苷酸,其中多个基因组探针与选自所述受试者的血液中的基因表达谱的100种或更多种信息基因的100种或更多种基因表达产物杂交,所述基因表达谱包含选自表i的基因。在另一个实施方案中,一种用于诊断哺乳动物受试者的肺癌的组合物含有固定在基底上的多种多核苷酸,其中多个基因组探针与选自所述受试者的血液中的基因表达谱的10种或更多种信息基因的10种或更多种基因表达产物杂交,所述基因表达谱包含选自表i或表ii的基因。这种类型的组合物依赖于识别与上文针对nanostring组合物描述的相同基因谱,但采用cdna阵列的技术。将组合物中的固定的多核苷酸与患者受试者血液中存在的基因表达产物杂交用来定量选自表i或表ii中鉴别的基因的信息基因的表达,以产生所述患者的基因表达谱,然后将所述基因表达谱与参考样品的基因表达谱进行比较。如上所述,取决于所述谱的鉴别(即,表i的基因或其子集的谱,表ii的基因或其子集的谱),这种组合物实现nsclc肺癌的诊断和预后。此外,多核苷酸序列的选择、它们的长度和在组合物中使用的标记是本领域技术人员根据所述基因可形成适合于肺癌的诊断和预后的基因表达谱的教义所做出的常规决定。在另一方面,可用于本文所述的方法中的组合物或试剂盒含有多种配体,所述配体与选自受试者的血液中的基因表达谱的100种或更多种信息基因的100种或更多种基因表达产物结合。在另一个实施方案中,可用于本文所述的方法中的组合物或试剂盒含有多种配体,所述配体与选自受试者的血液中的基因表达谱的10种或更多种信息基因的10种或更多种基因表达产物结合。所述基因表达谱含有表i或表ii的基因,如上文针对其他组合物所描述。这种组合物能够检测由所示表中的基因表达的蛋白质。虽然优选地,所述配体是由所述谱中的基因编码的蛋白质的抗体,但是本领域技术人员显而易见的是各种形式的抗体,例如多克隆抗体、单克隆抗体、重组抗体、嵌合抗体以及片段和组分(例如,cdr、单链可变区等)可用于代替抗体。可将此类配体固定在合适的基底上以与受试者的血液接触并以常规方式进行分析。在某些实施方案中,所述配体与可检测标记缔合。这些组合物还能够检测由所述基因表达谱中的基因编码的蛋白质与由参考基因表达谱中的基因编码的蛋白质相比的变化。此类变化以与上述pcr和含多核苷酸的组合物类似的方式与肺癌相关。对于所有上述形式的诊断/预后组合物,在一个实施方案中,所述基因表达谱可包括表i或表ii的至少前25种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i或表ii的10种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i或表ii的15种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i或表ii的20种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i或表ii的30种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i或表ii的40种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i或表ii的50种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i或表ii的60种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i或表ii的70种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i或表ii的80种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i或表ii的90种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表ii的所有100种信息基因。在所有上述形式的诊断/预后组合物的一个实施方案中,所述基因表达谱可包括表i的至少前100种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i的200种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i的300种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i的400种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i的500种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i的539种或更多种信息基因。在所有上述形式的诊断/预后组合物的另一个实施方案中,所述基因表达谱可包括表i的所有559种信息基因。这些组合物可用于诊断肺癌,如i期或ii期nsclc。此外,这些组合物可用于在患有未知病因的肺结节的受试者中提供补充或原始诊断。iv.本发明的诊断方法所有上述组合物提供了多种诊断工具,所述诊断工具允许受试者的疾病状态的基于血液的非侵入性评估。在诊断测试中使用这些组合物(所述诊断测试可与其他筛查测试(如胸部x射线或ct扫描)结合)提高诊断准确性和/或指导额外测试。因此,在一方面,提供了一种用于诊断哺乳动物受试者的肺癌的方法。这种方法涉及鉴别哺乳动物(优选人)受试者的血液中的基因表达谱。在一个实施方案中,所述基因表达谱包括在肺癌中具有增加的或减少的表达的100种或更多种信息基因的100种或更多种基因表达产物。通过从表i的基因中选择100种或更多种信息基因而形成所述基因表达谱。在另一个实施方案中,所述基因表达谱包括在肺癌中具有增加的或减少的表达的10种或更多种信息基因的10种或更多种基因表达产物。通过从表i的基因中选择10种或更多种信息基因而形成所述基因表达谱。在另一个实施方案中,通过从表ii的基因中选择10种或更多种信息基因而形成所述基因表达谱。在另一个实施方案中,所述基因表达谱包括在肺癌中具有增加的或减少的表达的5种或更多种信息基因的10种或更多种基因表达产物。通过从表i的基因中选择5种或更多种信息基因而形成所述基因表达谱。在另一个实施方案中,通过从表ii的基因中选择5种或更多种信息基因而形成所述基因表达谱。受试者的基因表达谱与参考基因表达谱的比较允许鉴别与肺癌(例如,nsclc)相关的信息基因的表达的变化。可使用上述组合物中的任一种来进行这种方法。在一个实施方案中,所述方法能够诊断癌性肿瘤与良性结节。在另一方面,提供了本文所述的组合物中的任一种用于诊断受试者的肺癌的用途。本文所述的诊断组合物和方法提供了超过当前诊断方法的各种优点。此类优点是以下。如本文所例示的,患有癌性肿瘤的受试者不同于患有良性结节的受试者。这些方法和组合物提供了在肺部门诊呈现小结节的患者中是否患有恶性疾病的实际诊断问题的解决方案。患有中度风险结节的患者显然将受益于非侵入性测试,所述测试将使患者转至非常低可能性或非常高可能性的疾病风险类别种。基于基因组谱的恶性肿瘤的准确估计(即估计给定患者具有90%的患癌症概率对比估计患者仅有5%患癌症的机会)将使得针对良性疾病的手术更少、在可治愈阶段切除更早期阶段肿瘤、更少随访ct扫描以及担心结节的显著心理成本降低。经济影响也可能显著,如降低与肺癌ct筛查相关的额外医疗保健的当前估计成本,即每个质量调整的生命年数获得$116,000。具有足够灵敏度和特异性的非侵入性血液基因组学测试将显著改变恶性肿瘤的测试后概率,并且因此改变随后的临床护理。这些方法超过现有方法的理想优点是它们能够通过微创程序,即通过采集血液样品来表征疾病状态。相比之下,从基因表达谱分类癌症肿瘤的当前实践取决于组织样品,通常是来自肿瘤的样品。在非常小的肿瘤的情况下,活检是有问题的,并且如果没有已知或可见的肿瘤,则来自它的样品显然是不可能的。不需要纯化肿瘤,如分析肿瘤样品时的情况。最近公开的方法取决于在支气管镜检查期间从肺部刷取上皮细胞,这是一种也显著比采集血液样品更具侵入性的方法。血液样品具有额外的优点,所述优点是材料易于制备和稳定化以供稍后分析,这在待分析信使rna时是重要的。本文所述的559分类器显示在所有测试的样品内0.81的roc-auc。在一个实施方案中,当灵敏度是约90%时,特异性是约46%。当通过大小评估结节分类准确度而不使用特定灵敏度阈值时,随着结节大小和癌症风险因子增加,分类为癌症的良性结节的数量也增加。在一个实施方案中,对于≤8mm的结节,基因分类器的准确度是约89%。在另一个实施方案中,对于>8至约≤12mm的结节,基因分类器的准确度是约75%。在另一个实施方案中,对于>12至约≤16mm的结节,基因分类器的准确度是约68%。在另一个实施方案中,对于>16mm,基因分类器的准确度是约53%。参见以下实施例。在一个实施方案中,对于约<10mm的结节,特异性是约54%,并且roc-auc是在约90%灵敏度下0.85。在另一个实施方案中,对于约>10mm的较大结节,特异性是约24%,并且roc-auc是在约90灵敏度%下约0.71。本文所述的100分类器显示在所有测试的样品内0.82的roc-auc。在一个实施方案中,当灵敏度是约90%时,特异性是约62%。在另一个实施方案中,当灵敏度是约79%时,特异性是约68%。在一个实施方案中,当灵敏度是约71%时,特异性是约75%。参见以下实施例。这些组合物和方法允许更准确地诊断和治疗肺癌。因此,在一个实施方案中,所描述的方法包括治疗肺癌。治疗可除去赘生性生长、化学疗法和/或本领域中已知或本文描述的任何其他治疗。在一个实施方案中,提供了一种用于诊断哺乳动物受试者中存在肺癌或评价哺乳动物受试者的肺癌的方法,所述方法包括鉴别所述受试者的样品中5、10、15或更多种基因的表达的变化,所述基因选自表i的基因或表ii的基因。将所述受试者的基因表达水平与参考或对照中相同基因的水平进行比较,其中所述受试者的基因的表达与所述参考的表达相比的变化与肺癌的诊断或评价相关。在一个实施方案中,所述诊断或评价包括以下中的一种或多种:肺癌的诊断、良性结节的诊断、肺癌的分期的诊断、肺癌的类型或分类的诊断、肺癌的复发的诊断或检测、肺癌的消退的诊断或检测、肺癌的预后或肺癌对外科手术或非外科手术疗法的反应的评价。在另一个实施方案中,所述变化包括与所述参考或对照相比,一种或多种选定基因的上调,或与所述参考或对照相比,一种或多种选定基因的下调。在一个实施方案中,所述方法包括受试者中肺结节的大小。特异性和灵敏度可基于结节的大小而变化。在一个实施方案中,特异性是在约90%灵敏度下约46%。在另一个实施方案中,对于<10mm的结节,特异性是在约90%灵敏度下约54%。在另一个实施方案中,准确度是对于≤8mm的结节约88%,对于>8mm且≤12mm的结节约75%,对于>12mm且≤16mm的结节约68%,并且对于>16mm的结节约53%。在另一个实施方案中,所述参考或对照包含至少一个参考受试者的表i样品的三种或更多种基因。参考受试者可选自由以下组成的组:(a)患有恶性疾病的吸烟者;(b)患有非恶性疾病的吸烟者;(c)患有非恶性疾病的曾吸烟者;(d)未患疾病的健康非吸烟者;(e)患有慢性阻塞性肺病(copd)的非吸烟者;(f)患有copd的曾吸烟者;(g)在手术切除实体肺肿瘤前患有所述肿瘤的受试者;(h)在手术切除实体肺肿瘤后患有所述肿瘤的受试者;(i)在治疗实体肺肿瘤之前患有所述肿瘤的受试者;以及(j)在治疗实体肺肿瘤期间或之后患有所述肿瘤的受试者。在一个实施方案中,所述参考或对照受试者(a)-(j)在时间上较早的时间点是同一测试受试者。所述样品是选自本文所述的那些。在一个实施方案中,所述样品是外周血。在一些实施方案中,在鉴别基因表达水平的变化之前使所述样品中的核酸稳定化。这种稳定化可例如使用本文所述的paxgene系统完成。在一个实施方案中,检测患者的肺癌的方法包括a.从所述患者获得样品;以及b.通过使所述样品与包含对表i或表ii的至少10种基因的每种不同的基因转录物或表达产物具有特异性的寡核苷酸、多核苷酸或配体的组合物接触来检测所述患者样品中选自表i或表ii的所述至少10种基因的表达与对照相比的变化,以及检测所述寡核苷酸、多核苷酸或配体与所述基因产物或表达产物之间的结合。在另一个实施方案中,诊断受试者的肺癌的方法包括a.从受试者获得血液样品;b.通过使所述样品与包含对表i或表ii的至少10种基因的每种不同的基因转录物或表达产物具有特异性的寡核苷酸、多核苷酸或配体的组合物接触来检测所述患者样品中选自表i或表ii的所述至少100种基因的表达与对照相比的变化,以及检测所述寡核苷酸、多核苷酸或配体与所述基因产物或表达产物之间的结合;以及c.当检测到所述受试者的基因的表达与参考的表达相比的变化时,诊断所述受试者患有癌症。在另一个实施方案中,所述方法包括a.从受试者获得血液样品;b.通过使所述样品与包含对表i或表ii的至少10种基因的每种不同的基因转录物或表达产物具有特异性的寡核苷酸、多核苷酸或配体的组合物接触来检测所述患者样品中选自表i或表ii的所述至少10种基因的表达与对照相比的变化,以及检测所述寡核苷酸、多核苷酸或配体与所述基因产物或表达产物之间的结合;c.当检测到所述受试者的基因的表达与参考的表达相比的变化时,诊断所述受试者患有癌症;以及d.除去赘生性生长。v.实施例本发明现参考以下实施例进行描述。这些实施例仅出于说明的目的而提供,并且本发明绝不应解释为限于这些实施例,而是应该解释为涵盖由于本文所提供的教义而变得显而易见的任何和所有变化。实施例1:患者群体-分析a为了开发本文所述的基因分类器,从150名受试者中收集了血液样品和临床信息,73名受试者具有肺癌的诊断并且77名受试者具有良性结节的诊断。患者特征在图1中示出。患有肺癌的患者包括新诊断的患有早期肺癌的男性和女性患者。虽然患有医学疾病,但他们处于适度良好健康(能走动)。如果他们经历先前癌症、化学疗法、放射或癌症手术,则他们被排除。他们必须具有在之前6个月内的肺癌诊断、组织学确认并且无全身治疗,如化学疗法、放射疗法或癌症手术,因为生物标志物水平可能随着治疗而改变。因此,大多数癌症患者是早期(即,i期和ii期)。“对照”群组来自患有良性肺结节(例如磨玻璃影、单发结节、肉芽肿或错构瘤)的患者。这些患者在肺部门诊进行评价,或经历肺结节的胸部外科手术。在外科手术前收集所有样品。实施例2:患者群体-分析b从120名受试者中收集了另外血液样品和临床信息,60名受试者具有肺癌的诊断并且60名受试者具有良性结节的诊断。患有肺癌的患者包括新诊断的患有早期肺癌的男性和女性患者。虽然患有医学疾病,但他们处于适度良好健康(能走动)。如果他们经历先前癌症、化学疗法、放射或癌症手术,则他们被排除。他们必须具有在之前6个月内的肺癌诊断、组织学确认并且无全身治疗,如化学疗法、放射疗法或癌症手术,因为生物标志物水平可能随着治疗而改变。因此,大多数癌症患者是早期(即,i期和ii期)。“对照”群组来自患有良性肺结节(例如肉芽肿或错构瘤)的患者。这些患者在肺部门诊进行评价,或经历肺结节的胸部外科手术。在外科手术前收集所有样品。实施例3:样品收集方案和加工由组织采集技术人员在临床中收集血液样品。经由标准静脉切开术技术将血液样品直接抽取到paxgene血液rna管中。这些管含有专用试剂,所述制剂使细胞内rna立即稳定,使rna转录物的离体降解或上调最小化。消除冷冻、分批样品以及使采集后加工样品的紧急性最小化的能力极大地增强实验室效率并降低成本。实施例4-rna纯化和质量评估使用来自qiagentm的标准可商购试剂盒制备paxgenerna,所述试剂盒允许纯化mrna。所得rna用于mrna谱分析。使用bioanalyzer测定rna质量。仅使用rna完整性数>3的样品。简言之,如下分离rna。打开振荡器-孵育箱并在开始前设置为55℃。除非另有说明,否则本方案中的所有步骤(包括离心步骤)都应在室温(15℃-25℃)下进行。此方案假设样品储存在-80℃下。按照qiagen方案在室温下静置至少2小时的未冷冻样品应以相同方式加工。解冻paxgene管直立在塑料架中。在开始分离之前,将管倒置至少10次以进行混合。准备好所有必要的管。对于每个样品,需要以下各项:2个编号的1.5mleppendorf管;1个带有样品信息的eppendorf管(这是最终管);1个淡紫色paxgene旋转柱;1个红色paxgene旋转柱;以及5个加工管。使用qiagen离心机中的摆动(swing-out)转子将paxgene血液rna管以5000xg离心10分钟中。(sigma4℃-15℃离心机,转子:sigmanr.11140,7/01,5500/min,保持器:sigma13115,286g14/d,内管保持器:18010,125g)。注意:解冻后,确保血液样品已在paxgene血液rna管中在室温(15℃-25℃)下孵育至少2小时,以实现血细胞的完全溶解。在通风橱下-通过倾析到漂白剂中除去上清液。在倾析上清液时,注意不要扰动团块,并用干净的纸巾擦干管的边缘。通过将凝固的血液放入袋中且然后放入感染性废物中来丢弃倾析的上清液,并且将流体部分丢弃到水槽中并用大量水冲洗。向团块中添加4ml不含rna酶的水,并使用新鲜第二hemogard封闭物封闭管。涡旋直到团块明显溶解。再次称量在离心机保持器中的管,以确保它们是平衡的,并且使用摆动转子qiagen离心机以5000xg离心10分钟。在涡旋后但在离心前剩余在上清液中的小碎片不会影响所述程序。除去并丢弃整个上清液。将管倒置1分钟以排出所有上清液。上清液的不完全除去将抑制溶解并稀释溶解产物,并且因此影响使rna与paxgene膜结合的条件。添加350μl缓冲液bm1并上下吸移使团块溶解。将重新悬浮的样品吸移到标记的1.5ml微量离心管中。添加300μl缓冲液bm2。然后添加40μl蛋白酶k。通过涡旋5秒混合,并使用振荡器-孵育箱在eppendorf热混合器上以最高可能的速度800rpm在55℃下孵育10分钟。(如果使用振荡水浴代替热混合器,则在孵育期间每2-3分钟快速涡旋样品。将涡旋器放在孵育箱旁边)。将溶解产物直接吸移到置于2ml加工管中的paxgeneshredder旋转柱(淡紫色管),并在24c下在tomymicrotwin离心机中以18,500xg离心3分钟。小心地将溶解产物吸移到旋转柱中,并且目测检查溶解产物是否完全转移至旋转柱中。为了防止对柱和管的损坏,请勿超过20,000xg。小心地将流过级分的整个上清液转移到新鲜1.5ml微量离心管中而不扰动加工管中的团块。丢弃加工管中的团块。向上清液中添加700μl异丙醇(100%)。通过涡旋混合。将690μl样品吸移到置于2ml加工管中的paxgenerna旋转柱(红色)中并以10,000xg离心1分钟。将旋转柱置于新的2ml加工管中,并且丢弃含有流过物的旧加工管。将剩余的样品吸移到paxgenerna旋转柱(红色)中并以18,500xg离心1分钟。将旋转柱置于新的2ml加工管中,并且丢弃含有流过物的旧加工管。小心地将样品吸移到旋转柱中,并且目测检查样品是否完全转移至旋转柱中。将350μl缓冲液bm3吸移到paxgenerna旋转柱中。以10,000xg离心15秒。将旋转柱置于新的2ml加工管中,并且丢弃含有流过物的旧加工管。制备dna酶i孵育混合物用于步骤13。将10μldna酶i储备溶液添加至1.5ml微量离心管中的70μl缓冲液rdd中。通过轻轻地弹动管而混合,并短暂离心以从管的侧面收集残余液体。将dna酶i孵育混合物(80μl)直接吸移到paxgenerna旋转柱膜上,并在工作台(20℃-30℃)上放置15分钟。确保将dna酶i孵育混合物直接置于所述膜上。如果将所述混合物的一部分施加至并保留在旋转柱的壁或o形环上,则dna酶消化将是不完全的。将350μl缓冲液bm3吸移到paxgenerna旋转柱中,并以18,500xg离心15秒。将旋转柱置于新的2ml加工管中,并且丢弃含有流过物的旧加工管。将500μl缓冲液bm4吸移到paxgenerna旋转柱中,并以10,000xg离心15秒。将旋转柱置于新的2ml加工管中,并且丢弃含有流过物的旧加工管。将另500μl缓冲液bm4添加至paxgenerna旋转柱中。以18,500xg离心2分钟。丢弃含有流过物的管,并将paxgenerna旋转柱置于新的2ml加工管中。以18,500xg离心1分钟。丢弃含有流过物的管。将paxgenerna旋转柱置于标记的1.5ml微量离心管(最终管)中,并将40μl缓冲液br5直接吸移到paxgenerna旋转柱膜上。以10,000xg离心1分钟以洗脱rna。重要的是用缓冲液br5润湿整个膜以便实现最大洗脱效率。使用40μl缓冲液br5和同一微量离心管,如所描述重复洗脱步骤。以20,000xg离心1分钟以洗脱rna。将洗脱液在65℃下在振荡器-孵育箱中孵育5分钟而不振荡。在孵育后,立即在冰上冷却。在65℃下的此孵育使rna变性以用于下游应用。请勿超过孵育时间或温度。如果将不立即使用rna样品,则储存在-20℃或-70℃。由于rna在重复冷冻和解冻后仍保持变性,因此不必重复在65℃下的孵育。实施例5:rna水平的测量为了提供可用于临床实践以诊断肺癌的生物标志物签名,通过使用表i中鉴别的基因中的100种或更多种以及通过使用表ii中鉴别的基因中的10种或更多种来提供具有维持令人满意的准确度的最少数量的基因的基因表达谱。这些基因谱或签名允许在标准临床实验室中易于使用的更简单且更实用的测试。由于区分基因的数量足够少,因此使用这些基因表达谱开发了nanostring平台。a.nanostring平台基因表达测定方案如上所述,使用paxgene血液mirna试剂盒从全血中分离总rna,并检查样品的rna质量。使用agilent2100生物分析仪在rnanano芯片上分析样品,使用rin分数和电泳图谱图片作为良好样品完整性的指标。还在nanodrop(nd-1000分光光度计)上对样品进行定量,其中记录260/280和260/230读数并评价nanostring相容性。根据通过nanodrop取得的浓度,将总rna样品标准化为在5μl中含有100ng,使用不含核酸酶的水作为稀释剂,成nanostring提供的管条。将nanostringncounter报告代码集和杂交缓冲液(70μl杂交缓冲液,每12次测定42μl报告代码集)和2μl捕获探针组的混合物的8μl等分试样添加至每个5μlrna样品中。将样品在65℃下在热循环仪(eppendorf)中杂交19小时。在杂交期间,报告探针(其具有对用户来说感兴趣的每种mrna特异的荧光条形码)和生物素化的捕获探针与其相关的靶mrna结合以产生靶标-探针复合物。在杂交完成后,然后将样品转移至ncounter制备站(prepstation)用于使用标准方案设置(运行时间:2小时35分钟)进行加工。在标准方案期间,制备站机器人清洗样品以除去过量的报告探针和捕获探针。将样品移至链霉抗生物素蛋白涂覆的筒中,其中将纯化的靶标-探针复合物固定以准备通过ncounter数字分析仪成像。在完成后,将筒密封并使用555处的视场(fov)设置放置在数字分析仪中。荧光显微镜将与靶mrna相关的每个独特条形码的原始计数制成表格。将收集的数据存储在.csv文件中,并且然后根据制造商的说明书转移至bioinformaticsfacility用于分析。实施例6:生物标志物选择支持向量机(svm)可应用于基因表达数据集,以用于基因功能发现和分类。已经发现svm在区分更密切相关的情况与位于边缘的对照方面是最有效的。主要地,svm-rfe(48,54)用于开发基因表达分类器,所述基因表达分类器将临床上定义的患者类别与临床上定义的对照类别(吸烟者、非吸烟者、copd、肉芽肿等)区分开。svm-rfe是本领域中使用的基于svm的模型,所述模型在被分析的两个类别之间基于它们对辨别的贡献来递归地除去基因。除去根据系数权重的最低评分基因,并再次对剩余基因进行评分,并重复所述程序直到仅剩下少数基因。这种方法已用于若干研究中以进行分类和基因选择任务。然而,选择算法参数(罚分参数、核函数等)的适当值通常会影响性能。svm-rce是一种基于svm的相关模型,因为它像svm-rfe一样评估基因对分类器的相对贡献。svm-rce评估相关基因的组而不是单独基因的贡献。此外,尽管两种方法都在每个步骤除去最不重要的基因,但svm-rce评分并除去基因簇,而svm-rfe在每轮算法评分并除去单一或少量基因。在此简要描述了svm-rce方法。除去低表达基因(平均表达小于2x背景),进行分位数标准化,且然后除去中值表达值与数据集的中值相差超过3σ的“异常值”阵列。使用算法的10折交叉验证的十次重复对剩余样品进行svm-rce。通过t检验(应用于训练集)将基因减少至实验确定的最佳值,其在最终结果中产生最高准确度。将这些起始基因通过k-均值聚类成相关基因的簇,所述簇的平均大小是3-5种基因。使用重复5次的3折重复采样对每个簇进行svm分类评分,并且消除最差评分簇。使用剩余的10%样品(测试集)确定存活基因库的准确度,并记录评分最高的100种基因。从聚类步骤至2个簇的终点重复所述程序。最佳基因组被认为是以最常选择的基因开始给出最大准确度的最小数量的基因。此组中单独基因的身份不固定,因为顺序反映了在前100种信息基因中选择给定基因的次数,并且这种顺序受到一些变化的影响。a.生物标志物选择。检查在区分癌性肿瘤与良性结节中得分最高(通过svm)的基因用于临床测试的效用。所考虑的因素包括类别之间的表达水平的较高差异以及类别内的低变异性。当选择用于验证的生物标志物时,努力选择具有不同表达谱的基因以避免选择相关基因并鉴别具有通过包括pcr和/或免疫组织化学的替代技术稳健的差异表达水平的基因。b.验证。考虑了三种验证方法。交叉验证:为了使数据集中的过度拟合最小化,当数据集随机分成k个部分并且k-1个部分用于训练而1个部分用于测试时,使用了k折交叉验证(k通常等于10)。因此,对于k=10,算法对随机选择90%的患者和90%的对照进行训练,且然后对剩余的10%进行测试。重复这一过程直到所有样品都用作测试对象并且累积分类器利用所有样品,但是没有使用作为其一部分的训练集测试样品。为了减少随机化影响,进行m次k折分离,从而每次在每一k折中产生患者与对照的不同组合。因此,对于个体数据集,m*k轮次的训练集和测试集的排列选择被用于每组基因。独立验证:为了估计数据的再现性和分类器的通用性,需要检查使用一个数据集构建的分类器,并且使用另一个数据集进行测试以估计分类器的性能。为了估计性能,使用用原始数据集开发的分类器进行对第二组的验证。重新采样(排列):为了证明分类器对疾病状态的依赖性,随机选择来自数据集的患者和对照(排列)并且重复分类。将使用随机化样品的分类的准确度与开发的分类器的准确度进行比较,以确定分类器的p值,即分类器可能是偶然选择的概率。为了测试以这种方式开发的分类器的通用性,它被用于分类未用于开发所述分类器的独立样品集。在独立测试集上比较排列和原始分类器的交叉验证准确度,以确认其在分类新样品中的有效性。c.分类器性能通过不同方法估计每种分类器的性能,并且使用若干性能测量来比较彼此之间的分类器。这些测量包括准确度、roc曲线下面积、灵敏度、特异性、真阳性率和真阴性率。基于目标分类的所需特性,可使用不同的性能测量来挑选最佳分类器,例如用于筛选整个群体的分类器将需要更好的特异性以补偿疾病的小(约1%)流行率,并且因此避免大量的假阳性命中,而住院患者的诊断分类器应该更灵敏。对于诊断癌性肿瘤与良性结节,更高的灵敏度比特异性更合乎需要,因为患者已经处于高风险。实施例7:分类器的测试将外周血样品全部收集在paxgenerna稳定管中,并根据制造商提取rna。在nanostringncountertm(如上所述)上针对559种探针(表iii)的定制组测试样品。此外,针对559标志物组的100种探针子集对它们进行了测试。对于559分类器,基于先前的微阵列数据选择432种,从nanostring研究中选择了107种探针,并且20种是管家基因。分析了来自5个收集位点的610个paxgenerna样品(278个癌症,332个对照)。对于qc,在每批测试的36个样品中包括通用rna标准品(agilent)。使用20种管家基因以及由nanostring(包括在分类器中)提供的加标阳性和阴性对照标准化探针表达值。针对探针计数值计算z分数,并使用多项式核作为支持向量机(svm)分类器的输入。通过样品的10折交叉验证评价分类性能。a.559分类器如图2a至2b中所示,在所有样品上显影的559分类器显示0.81的roc-auc(图2a)。其中灵敏度设定为90%,特异性为46%。当对556个样品(278个癌症,278个结节)的平衡集进行时,显示了类似的性能(图2b)。对于两个集,排除了uhr对照、样品后和患有其他癌症的患者。当通过大小评估结节分类准确度而不使用特定灵敏度阈值时,发现随着结节大小和癌症风险因子增加,分类为癌症的良性结节的数量也增加。图3。在此分析中,≤8mm的结节88.9%的时间被正确分类,对于>8、≤12mm的结节准确度是75%,对于>12、≤16mm的结节准确度是68%,对于>16mm的结节准确度是53.6%。参见以下表vi。表iv结节大小正确不正确总计特异性<=5mm1081912785.0%>5,<=8mm88119988.9%>8,<=12mm40135375.5%>12,<=16mm1782568.0%>16mm15132853.6%总计2686433280.7%对第二组结节进行了测试,并且通过样品组(癌症对比良性结节)确定大小组的分类器的准确度。类似地,随着结节大小和癌症风险因子增加,被分类为癌症的良性结节的数量增加(图4a至4c)。对于>5mm和更高的癌症,r=0.95。对于所有大小的结节,r=0.97。所述图表示出基于病灶大小的癌症和结节的分类的灵敏度和特异性。这些数字在下文以条形图形式示出。由于发现分类准确度与良性结节大小呈负相关,所以仅使用<10mm(n=244)的结节(图5a)和固定在90%的灵敏度重新分析数据,在这种情况下特异性升至54%,并且roc-auc升至0.85。对于较大的结节,>10mm(n=88),特异性降至24%,并且roc-auc降至0.71(图5b)。参见以下表v。表vb.100标志物分类器现在重新分析了来自通过w559在nanostring平台上分析的633个样品的数据,以鉴别维持整个组所达到的性能所需的最少数量的探针。如前所述,使用了svm-rfe用于探针选择。使用了用于svm-rfe的训练集的75%的数据,并且测试了在由25%的样品组成的独立测试集上通过这种方法选择的前100种探针(表ii)的性能。随机选择样品用于训练集和测试集,如以下表vi。对测试集获得的准确度在图6中示出。在此分析中,在90%的灵敏度下,特异性是62%;在79%的灵敏度下,特异性是68%;并且在71%的灵敏度下,特异性是75%(图6)。总之,roc-auc是0.82,并且在0.90的灵敏度下,实现0.62的特异性。表vi结节癌症><=n><=n051300148658109142275812.56522336412.5573347整个公开中引用的每一个专利、专利申请和公布,包括优先权申请2016年6月21日提交的美国临时专利申请号62/352,865以及可公开获得的基因序列以引用的方式整体明确地并入本文。虽然已参考具体实施方案公开了本发明,但是显而易见的是,本发明的其他实施方案和变化在不脱离本发明的真实精神和范围的情况下由本领域其他技术人员设计。所附权利要求书包括此类实施方案和等效变化。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1