用于肺癌分型的方法与流程

文档序号:11285483阅读:539来源:国知局
用于肺癌分型的方法与流程

对美国非临时申请的交叉引用

本申请要求于2014年5月30日提交的美国临时申请流水号62/005,229的优先权,通过提及将其完整收入本文用于所有目的。

关于序列表的声明

与本申请相关的序列表以文本格式代替纸质拷贝提供,并且在此通过提及收入说明书中。含有序列表的文本文件的名称为gncn_004_01wo.txt。文本文件为17kb,于2015年5月30日创建,并通过efs-web以电子方式提交。



背景技术:

肺癌是美国癌症死亡的主要原因,并且每年鉴定出超过220,000例新的肺癌病例。肺癌是一种具有通常通过组织学测定的亚型(小细胞、非小细胞、类癌、腺癌和鳞状细胞癌)的异质性疾病。肺癌的各种形态亚型之间的区分在指导患者管理中是必需的,并且使用另外的分子测试鉴定特定的治疗靶标志物。形态学的变化性、有限的组织样品、和对评估增长的一批治疗靶向标志物的需要对当前的诊断标准提出了挑战。组织学诊断再现性的研究已经显示了有限的病理学家内一致性和病理学家间一致性。

尽管新的疗法越来越针对肺癌的特定亚型(贝伐单抗和培美曲塞),但是组织学诊断再现性的研究已经显显示有限的病理学家内一致性和甚至更少的病理学家间一致性。分化不良的肿瘤、矛盾的免疫组织化学结果、和可以实施仅有限数目的染色的小体积活检继续对当前诊断标准提出挑战(travisandrekhtmansemrespandcritcaremed2011;32(1):22-31;travisetal.archpathollabmed2013;137(5):668-84;tangetal.jthoracdis2014;6(s5):s489-s501)。

一个涉及提交给tcga肺癌基因组项目的肺癌样品的专家病理学复查的最近的例子导致提交的15-20%的肺肿瘤的重新分类,证实了基于形态学的诊断的持续挑战。(cancergenomeatlasresearchnetwork.“comprehensivegenomiccharacterizationofsquamouscelllungcancers.”nature489.7417(2012):519-525;cancergenomeatlasresearchnetwork.comprehensivemolecularprofilingoflungadenocarcinoma.nature511.7511(2014):543-550,通过提及将每篇完整收入本文)。因此,需要一种用于测定肺癌亚型的更可靠的手段。本发明解决了此种和其它需要。

发明概述

在一个方面,评估患者的肺癌亚型是腺癌,鳞状细胞癌还是神经内分泌(涵盖小细胞癌和类癌两者)的方法。在一个实施方案中,所述方法包括在核酸水平上在自所述患者获得的肺癌样品中探查表1a,表1b,表1c,表2,表3,表4,表5或表6的至少五种分类器生物标志物的水平。在一个实施方案中,探查步骤包括将所述样品与五种或更多种寡核苷酸在适合于所述五种或更多种寡核苷酸与其互补物或实质性互补物杂交的条件下混合,所述五种或更多种寡核苷酸与表1a,表1b,表1c,表2,表3,表4,表5或表6的所述至少五种分类器生物标志物的核酸分子的部分实质性互补;检测在所述五种或更多种寡核苷酸与其互补物或实质性互补物之间是否发生杂交;以及基于所述检测步骤获得所述至少五种分类器生物标志物的杂交值。然后,将所述至少五种分类器生物标志物的杂交值与来自至少一个样品训练集的参照杂交值比较,其中所述至少一个样品训练集包含来自参照腺癌、鳞状细胞癌或神经内分泌样品的杂交值。基于所述比较步骤的结果将所述肺癌样品分类为腺癌、鳞状细胞癌或神经内分泌样品。

在另一方面,提供了评估患者的肺癌亚型是腺癌、鳞状细胞癌、小细胞癌还是类癌的方法。在一个实施方案中,所述方法包括在核酸水平上在自所述患者获得的肺癌样品中探查表1a,表1b,表1c,表2,表3,表4,表5或表6的至少五种分类器生物标志物的水平。在一个实施方案中,探查步骤包括将所述样品与五种或更多种寡核苷酸在适合于所述五种或更多种寡核苷酸与其互补物或实质性互补物杂交的条件下混合,所述五种或更多种寡核苷酸与表1a,表1b,表1c,表2,表3,表4,表5或表6的所述至少五种分类器生物标志物的核酸分子的部分实质性互补;检测在所述五种或更多种寡核苷酸与其互补物或实质性互补物之间是否发生杂交;以及基于所述检测步骤获得所述至少五种分类器生物标志物的杂交值。然后,将所述至少五种分类器生物标志物的杂交值与来自至少一个样品训练集的参照杂交值比较,其中所述至少一个样品训练集包括来自参照腺癌、鳞状细胞癌、小细胞癌或类癌样品的杂交值。基于比较步骤的结果,将肺癌样品分类为腺癌,鳞状细胞癌,小细胞癌或类癌。

在又一方面,提供了评估患者的非小细胞肺癌(nsclc)亚型是腺癌还是鳞状细胞癌的方法。在一个实施方案中,所述方法包括在核酸水平上在自所述患者获得的肺癌样品中探查表1a,表1b,表1c,表2,表3,表4,表5或表6的至少五种分类器生物标志物的水平。在一个实施方案中,探查步骤包括将所述样品与五种或更多种寡核苷酸在适合于所述五种或更多种寡核苷酸与其互补物或实质性互补物杂交的条件下混合,所述五种或更多种寡核苷酸与表1a,表1b,表1c,表2,表3,表4,表5或表6的所述至少五种分类器生物标志物的cdna分子的部分实质性互补;检测在所述五种或更多种寡核苷酸与其互补物或实质性互补物之间是否发生杂交;以及基于所述检测步骤获得所述至少五种分类器生物标志物的杂交值。然后,将所述至少五种分类器生物标志物的杂交值与来自至少一个样品训练集的参照杂交值比较,其中所述至少一个样品训练集包括来自参照腺癌和/或鳞状细胞癌样品的杂交值。基于比较步骤的结果,将nsclc样品分类为腺癌或鳞状细胞癌。

在一个实施方案中,比较步骤包括测定至少五种分类器生物标志物的杂交值和参照杂交值之间的相关性。

在一个实施方案中,探查步骤包括在混合步骤前分离核酸或其部分。在另一个实施方案中,杂交包括cdna与cdna的杂交,从而形成非天然复合物;或cdna与mrna的杂交,从而形成非天然复合物。在另一个实施方案中,探查步骤包括扩增样品中的核酸。

在一个实施方案中,所述至少五种分类器生物标志物包含约5至约50,约10至约50,约15至约50,约20至约50或约25至约50种生物标志物。在另一个实施方案中,所述至少五种分类器生物标志物包含约5至约30,约10至约30,约15至约30,约20至约30种分类器生物标志物。

附图说明

图1a-1d显示了腺癌(图1a),鳞状细胞癌(图1b),小细胞癌(图1c)和类癌(图1d)的例示性基因表达热图。

图2是ffpert-pcr基因表达数据集的基因表达分层群聚的热图。

图3是77份ffpe样品的路径审阅和lsp预测的比较。每个矩形表示按样品编号排序的单个样品。箭标示与通过病理学审阅和基因表达的初始诊断不一致的6份样品。

发明详述

如本文中使用的,“表达概况”包括对应于区别基因的相对丰度,水平,表达的存在或缺乏的测量的一个或多个数值。表达概况可以在诊断肺癌之前或之后自受试者衍生,可以在治疗或疗法之前或之后的一个或多个时间点从自受试者收集的生物样品衍生,可以在没有治疗或疗法的一个或多个时间点时自从受试者收集的生物样品衍生(例如,以监测疾病进展或评估诊断为肺癌或有肺癌风险的受试者中的疾病进展),或者可以自健康受试者收集。

在各个方面中使用本文中提供的生物标志物组和方法,以评估(i)患者的nsclc亚型是腺癌还是鳞状细胞癌;(ii)患者的肺癌亚型是腺癌,鳞状细胞癌还是神经内分泌(涵盖小细胞癌和类癌两者)和/或(iii)患者的肺癌亚型是腺癌,鳞状细胞癌,小细胞癌还是类癌。

例如,在各种实施方案中使用如在表1a,表1b,表1c,表2,表3,表4,表5和表6中公开的生物标志物组或其子集,以评估和分类患者的肺癌亚型。在一个实施方案中,使用表14或表15的生物标志物组或其子集评估和分类患者的肺癌亚型。

一般而言,使用本文中提供的方法将肺癌样品分类为特定的肺癌亚型。在一个实施方案中,方法包括在核酸水平上在自所述患者获得的肺癌样品中探查表1a,表1b,表1c,表2,表3,表4,表5或表6的至少五种分类器生物标志物的水平。在一个实施方案中,探查步骤包括在适合于所述五种或更多种寡核苷酸与其互补物或实质性互补物杂交的条件下将所述样品与五种或更多种寡核苷酸混合,所述五种或更多种寡核苷酸与表1a,表1b,表1c,表2,表3,表4,表5或表6的所述至少五种分类器生物标志物的核酸分子,例如cdna分子或mrna分子的部分实质性互补;检测在所述五种或更多种寡核苷酸与其互补物或实质性互补物之间是否发生杂交;以及基于所述检测步骤获得所述至少五种分类器生物标志物的杂交值。然后,将所述至少五种分类器生物标志物的杂交值与来自至少一个样品训练集的参照杂交值比较。例如,至少一个样品训练集包含来自参照腺癌、鳞状细胞癌、神经内分泌样品、小细胞癌样品的杂交值。例如,基于所述比较步骤的结果将所述肺癌样品分类为腺癌、鳞状细胞癌、神经内分泌或小细胞癌。

肺组织样品可以是自人受试者分离的任何样品。例如,在一个实施方案中,对包埋石蜡中的肺活检实施分析。本发明的此方面提供了通过准确鉴定主要组织学类型(甚至自小活检)改善当前诊断的手段。本发明的方法(包括rt-pcr方法)是灵敏的,精确的,并且具有与石蜡包埋的样品一起使用的多分析物能力。见例如croninetal.(2004)am.jpathol.164(1):35-42,通过提及将其收入本文。

福尔马林固定和石蜡中的组织包埋是用于在光学显微镜评估之前进行组织处理的通用方法。由福尔马林固定的石蜡包埋的(ffpe)标本提供的一个主要优点是保留组织切片中的细胞和构造形态学细节。(foxetal.(1985)jhistochemcytochem33:845-853)。加工活检标本的标准缓冲福尔马林固定剂通常是含有37%甲醛和10-15%甲醇的水溶液。甲醛是高度反应性的偶极化合物,其导致体外形成蛋白质-核酸和蛋白质-蛋白质交联(clarketal.(1986)jhistochemcytochem34:1509-1512;mcgheeandvonhippel(1975)biochemistry14:1281-1296,通过提及将每篇收入本文)。

在一个实施方案中,本文中使用的样品自个体获得,并且包含新鲜冷冻的石蜡包埋的(ffpe)组织。然而,其它组织和样品类型适合于本文中使用。

本领域中已知用于自ffpe组织分离rna的方法。在一个实施方案中,可以自ffpe组织分离总rna,如bibikovaetal.(2004)americanjournalofpathology165:1799-1807描述的,通过提及将其收入本文。同样,可以使用高纯rna石蜡试剂盒(roche)。通过二甲苯萃取,接着用乙醇清洗除去石蜡。可以使用masterpure纯化试剂盒(epicenter,madison,wis.)自切片组织块分离rna;包括dna酶i处理步骤。可以使用trizol试剂根据供应商的用法说明(invitrogenlifetechnologies,carlsbad,calif.)自冷冻样品提取rna。具有可测量的残留基因组dna的样品可以重新进行dna酶i处理并测定dna污染。可以根据制造商的方案实施所有纯化,dna酶处理和其它步骤。在总rna分离后,可以于-80℃贮存样品直到使用。

mrna提取的一般方法是本领域中公知的,并且在分子生物学的标准教科书中公开,包括ausubel等人编,currentprotocolsinmolecularbiology,johnwiley&sons,newyork1987-1999。例如,ruppandlocker(labinvest.56:a67,1987)和deandresetal.(biotechniques18:42-44,1995)中公开了自石蜡包埋的组织提取rna的方法。特别地,可以使用来自商业制造商的纯化试剂盒,缓冲液组和蛋白酶,诸如qiagen(valencia,calif.),依照制造商的用法说明实施rna分离。例如,可以使用qiagenrneasy微型柱分离来自培养物中细胞的总rna。其它商品化rna分离试剂盒包括masterpure.tm.、完全dna和rna纯化试剂盒(epicentre,madison,wis.)和石蜡块rna分离试剂盒(ambion,austin,tex.)。可以例如使用rnastat-60(tel-test,friendswood,tex.)分离来自组织样品的总rna。可以例如通过氯化铯密度梯度离心来分离自肿瘤制备的rna。另外,可以使用本领域技术人员公知的技术容易地加工大量组织样品,诸如chomczynski(美国专利号4,843,155,通过提及将其完整收入用于所有目的)的单步rna分离方法。

在一个实施方案中,样品包含自肺组织样品,例如腺癌样品收获的细胞。可以使用本领域中已知的标准技术自生物样品收获细胞。例如,在一个实施方案中,通过离心细胞样品并重悬沉淀的细胞来收获细胞。可以将细胞重悬于缓冲溶液,诸如磷酸盐缓冲盐水(pbs)中。在离心细胞悬浮液以获得细胞团粒后,可以裂解细胞以提取核酸,例如信使rna。认为自受试者获得的所有样品(包括进行任何种类的进一步加工的样品)是自受试者获得的。

在一个实施方案中,在检测本文中列出的生物标志物的组合的生物标志物水平前进一步加工样品。例如,可以与样品的其它组分分开细胞或组织样品中的mrna。可以浓缩和/或纯化样品以分离其非天然状态的mrna,因为mrna不在其天然环境中。例如,研究已经指示,mrna在体内的高级结构与相同序列的体外结构不同(见例如rouskinetal.(2014).nature505,pp.701-705,完整收入本文用于所有目的)。

在一个实施方案中,使来自样品的mrna与合成的dna探针杂交,在一些实施方案中,其包括检测模块(例如,可检测标记物,捕捉序列,条形码报告序列)。因而,在这些实施方案中,最终生成非天然mrna-cdna复合物,并且用于检测生物标志物。在另一个实施方案中,用可检测标记物,例如荧光团直接标记来自样品的mrna。在另一个实施方案中,使非天然标记的mrna分子与cdna探针杂交,并且检测复合物。

在一个实施方案中,一旦自样品获得mrna,在杂交反应中将其转化为互补dna(cdna),或者在杂交反应中将其与一种或多种cdna探针一起使用。cdna在体内不存在,并且因此是非天然分子。此外,cdna-mrna杂合物是合成的并且不在体内存在。除了在体内不存在的之外,cdna必然不同于mrna,因为它包含脱氧核糖核酸而不是核糖核酸。然后,例如通过聚合酶链反应(pcr)或本领域普通技术人员已知的其它扩增方法扩增cdna。例如,可以采用的其它扩增方法包括连接酶链式反应(lcr)(wuandwallace,genomics,4:560(1989),landegrenetal.,science,241:1077(1988),通过提及将其收入本文用于所有目的),转录扩增(kwohetal.,proc.natl.acad.sci.usa,86:1173(1989),通过提及将其收入本文用于所有目的),自我维持序列复制(guatellietal.,proc.nat.acad.sci.usa,87:1874(1990),通过提及将其收入本文用于所有目的),和基于核酸的序列扩增(nasba)。用于选择供pcr扩增用的引物的准则是本领域普通技术人员已知的,参见例如mcphersonetal.,pcrbasics:frombackgroundtobench,springer-verlag,2000,通过提及将其收入本文用于所有目的。此种扩增反应的产物,即扩增的cdna也必然是非天然产物。第一,如上文提及,cdna是非天然分子。第二,在pcr的情况中,扩增过程用来为起始材料的每个个别cdna分子创建数亿个cdna拷贝。自体内存在的mrna拷贝数取出产生的拷贝数。

在一个实施方案中,使用将额外的dna序列(例如,衔接头,报告物,捕捉序列或模块,条形码)引入片段上(例如,通过使用衔接头特异性引物)的引物扩增cdna,或者使mrna或cdna生物标志物序列直接与包含额外序列(例如,衔接头,报告物,捕捉序列或模块,条形码)的cdna探针杂交。因此,mrna的扩增和/或与cdna探针的杂交用来通过引入另外的序列并且形成非天然杂合物自非天然单链cdna或mrna创建非天然双链分子。此外,如本领域普通技术人员已知的,扩增规程具有与其相关的错误率。因此,扩增将进一步修饰引入cdna分子中。在一个实施方案中,在用衔接头特异性引物扩增期间,将可检测标记物(例如荧光团)添加至单链cdna分子。因此,扩增也用来创建在自然界中不存在的dna复合物,至少因为(i)cdna不在体内存在,(i)将衔接头序列添加至cdna分子的末端以生成不在体内存在的dna序列,(ii)与扩增相关的错误率进一步创建不在体内存在的dna序列,(iii)与天然存在的cdna分子相比不同的cdna分子结构,以及(iv)对cdna分子化学添加可检测标记物。

在一些实施方案中,经由检测非天然cdna分子在核酸水平上检测感兴趣的生物标志物的表达。

在一些实施方案中,用于肺癌亚型确定的方法包括检测分类器生物标志物集的表达水平。在一些实施方案中,检测包括核酸水平上的表1a,1b或1c,表2,表3,表4,表5或表6的所有分类器生物标志物。在另一个实施方案中,探查表1a,1b或1c的分类器生物标志物的子集,例如约5至约20种。在一个实施方案中,探查的生物标志物的子集包含表1a,1b或1c,表2,表3,表4,表5或表6的分类器生物标志物的约5至约50,约5至约40,约5至约30或约5至约25种。在另一个实施方案,探查的生物标志物的子集包含表1a,1b或1c,表2,表3,表4,表5或表6的分类器生物标志物的约10至约50,约10至约40,约10至约30或约10至约25种。在另一个实施方案中,探查的生物标志物的子集包含表1a,1b或1c,表2,表3,表4,表5或表6的分类器生物标志物的5、10、15、20、25、30、35、40、45或50种。在甚至另一个实施方案中,探查的生物标志物的子集包含表1a,1b或1c,表2,表3,表4,表5或表6的分类器生物标志物的至少约5种,至少约10种,至少约15种,至少约20种,至少约25种,至少约30种,至少约35种,至少约40种,至少约45种或至少约50种。应当理解,探查的生物标志物的数目将决定本文中提供的方法中最初使用的寡核苷酸数目。例如,当探查表1a,1b或1c,表2,表3,表4,表5或表6的生物标志物的5种或10种时,在适合于寡核苷酸与生物标志物或其片段杂交的条件下分别将5种寡核苷酸或10种寡核苷酸与样品混合。

在一个实施方案中,在测定肺癌亚型的方法中探查表1a,表1b,表1c,表2,表3,表4,表5和表6中任一个中的约5至约10,约5至约15,约5至约20,约5至约25,约5至约30,约5至约35,约5至约40,约5至约45,约5至约50种生物标志物。在另一个实施方案中,在测定患者肺癌样品的肺癌亚型的方法中探查来自表1a,表1b,表1c,表2,表3,表4,表5或表6之任一的每种生物标志物。

可以通过任何合适的技术实施检测,实施技术包括但不限于rna-seq,逆转录酶聚合酶链反应(rt-pcr),微阵列杂交测定法或另一种杂交测定法,例如nanostring测定法,例如用对分类器生物标志物特异的引物和/或探针,等等。应当注意,表1a,表1b,表1c,表2,表3,表4,表5和表6中提供的引物仅用于例示目的,而不应解释为限制本发明。

本文中描述的生物标志物包括包含任何感兴趣核酸序列全部或部分序列的rna,或其非天然cdna产物,其在逆转录反应中体外合成获得。术语“片段”意指多核苷酸的部分,其一般包含至少10,15,20,50,75,100,150,200,250,300,350,400,450,500,550,600,650,700,800,900,1,000,1,200,或1,500个连续核苷酸,或多至本文中公开的全长生物标志物多核苷酸中存在的核苷酸数目。生物标志物多核苷酸的片段通常会编码至少15,25,30,50,100,150,200或250个连续氨基酸或多至存在于本发明的全长生物标志物蛋白中的氨基酸总数。

在一些实施方案中,通过相对于参照rna转录物或其表达产物(其可以是样品中的所有测量的转录物(或其产物))或rna转录物(或其非天然cdna产物)的特定参照组的水平标准化测定过表达,诸如rna转录物或其表达产物的过表达。实施标准化以校正或标准化而消除测定的rna或cdna的量的差异和使用的rna或cdna的质量的变化性。因此,测定法通常测量和掺入某些标准化基因的表达,包括公知的持家基因,例如gapdh和/或β-肌动蛋白。或者,标准化可以基于所有测定的生物标志物或其大子集的均值或中值信号(全局标准化方法)。

可以在杂交或扩增测定法中使用分离的mrna,包括但不限于southern或northern分析,pcr分析和探针阵列,nanostring测定法。一种用于检测mrna水平的方法牵涉使分离的mrna或合成的cdna与可以与由检测的基因编码的mrna杂交的核酸分子(探针)接触。核酸探针可以是例如cdna或其部分,例如长度为至少7、15、30、50、100、250或500个核苷酸并且足以在严格条件下与本发明的非天然cdna或mrna生物标志物特异性杂交的寡核苷酸。

如上文解释的,在一个实施方案中,一旦自样品获得mrna,在杂交反应中将其转化为互补dna(cdna)。cdna在体内不存在,并且因此是非天然分子。在进一步的实施方案中,例如通过聚合酶链反应(pcr)或本领域普通技术人员已知的其它扩增方法扩增cdna。此种扩增反应的产物,即扩增的cdna必然是非天然产物。如上文提及,cdna是非天然分子。第二,在pcr的情况中,扩增过程用来为起始材料的每个个别cdna分子创建数亿个cdna拷贝。自体内存在的mrna拷贝数取出产生的拷贝数。

在一个实施方案中,使用将额外的dna序列(衔接头序列)引入片段上(通过使用衔接头特异性引物)的引物扩增cdna。因此,扩增用来通过将条形码、衔接头和/或报告物序列引入已有的非天然的cdna上自非天然单链cdna创建非天然双链分子。在一个实施方案中,在用衔接头特异性引物扩增期间,将可检测标记物(例如荧光团)添加至单链cdna分子。因此,扩增也用来创建在自然界中不存在的dna复合物,至少因为(i)cdna不在体内存在,(i)将衔接头序列添加至cdna分子的末端以生成不在体内存在的dna序列,(ii)与扩增相关的错误率进一步创建不在体内存在的dna序列,(iii)与天然存在的cdna分子相比不同的cdna分子结构,以及(iv)对cdna分子化学添加可检测标记物。

在一个实施方案中,经由与探针杂交,例如经由微阵列在固体表面上固定化合成的cdna(例如,扩增的cdna)。在另一个实施方案中,经由引入与cdna产物杂交的荧光探针,经由实时聚合酶链反应(pcr)检测cdna产物。例如,在一个实施方案中,通过定量荧光rt-pcr(例如,使用探针)评估生物标志物检测。对于pcr分析,用于测定用于分析中使用的引物序列的公知方法是本领域中可用的。

经由采用捕捉探针和/或报告探针的杂交反应来检测本文中在一个实施方案中提供的生物标志物。例如,杂交探针是对固体表面,诸如珠,玻璃或硅基底衍生化的探针。在另一个实施方案中,捕捉探针存在于溶液中并与患者样品混合,接着例如经由生物素-亲合素相互作用将杂交产物附着于表面(例如,其中生物素是捕捉探针的一部分并且亲合素在表面上)。在一个实施方案中,杂交测定法采用捕捉探针和报告探针两者。报告探针可以与捕捉探针或生物标志物核酸杂交。然后,计数并且检测报告探针,例如以测定样品中生物标志物的水平。在一个实施方案中,捕捉和/或报告探针含有可检测标记物,和/或允许官能化至表面的基团。

例如,ncounter基因分析系统(见例如,geissetal.(2008)nat.biotechnol.26,pp.317-325,通过提及将其完整收录用于所有目的)可适合于与本文中提供的方法一起使用。

美国专利号7,473,767和8,492,094中描述的杂交测定法(通过提及将其公开内容完整收录用于所有目的)适合于与本文中提供的方法一起使用,即检测本文中描述的生物标志物和生物标志物组合。

可以使用膜印迹(诸如在诸如northem,southern,点等杂交分析中使用),或微孔,样品管,凝胶,珠或纤维(或包括结合的核酸的任何固体支持物)监测生物标志物水平。见例如美国专利号5,770,722,5,874,219,5,744,305,5,677,195和5,445,934,通过提及将每篇完整收录。

在一个实施方案中,使用微阵列检测生物标志物水平。由于不同实验之间的再现性,微阵列特别良好地适合于此目的。dna微阵列提供了一种用于同时测量大量基因的表达水平的方法。每个阵列由附着于固体支持物的捕捉探针的可再现模式组成。将标记的rna或dna与阵列上的互补探针杂交,然后通过激光扫描检测。测定阵列上每个探针的杂交强度,并转化为表示相对基因表达水平的定量值。见例如美国专利号6,040,138,5,800,992和6,020,135,6,033,860和6,344,316,通过提及将每篇完整收录。高密度寡核苷酸阵列特别可用于测定样品中大量rna的生物标志物概况。

用于使用机械合成方法合成这些阵列的技术记载于例如美国专利号5,384,261。尽管一般使用平面阵列表面,但是可以在实际上任何形状的表面上或甚至多个表面上制作阵列。阵列可以是珠,凝胶,聚合物表面,纤维(例如光纤),玻璃或任何其它合适的基底上的核酸(或肽)。见例如美国专利号5,770,358,5,789,162,5,708,153,6,040,193和5,800,992,通过提及将每篇完整收录。可以以如下的方式包装阵列,使得允许全包式设备(all-inclusivedevice)的诊断或其它操作。见例如美国专利号5,856,174和5,922,591,通过提及将每篇完整收录。

在本文中描述的方法中采用一个实施方案中的基因表达系列分析(sage)。sage是一种在不需要为每种转录物提供个别的杂交探针的情况中允许大量基因转录物的同时和定量分析的方法。首先,产生短序列标签(约10-14bp),其含有足够的信息以独特地鉴定转录物,条件是标签是自每种转录物内的独特位置获得的。然后,将许多转录物连接在一起形成可以测序的长系列分子,同时揭示多个标签的身份。可以通过测定个别标签的丰度,并鉴定对应于每种标签的基因来定量评估任何转录物群体的表达模式。见velculescuetal.science270:484-87,1995;cell88:243-51,1997,通过提及将其完整收录。

在核酸水平上的生物标志物水平分析的另外的方法是使用测序方法,例如,rnaseq,下一代测序和大规模平行签名测序(mpss),如brenneretal.(nat.biotech.18∶630-34,2000,通过提及将其完整收录)描述的。这是一种测序方法,其在分开的5μm直径微珠上组合非基于凝胶的签名测序与体外克隆数百万个模板。首先,通过体外克隆构建dna模板的微珠文库。这之后是在流动池中以高密度(通常大于3.0x106个微珠/cm2)装配含有模板的微珠的平面阵列。使用不需要dna片段分离的基于荧光的签名测序方法同时分析每个微珠上的克隆模板的游离末端。已经显示此方法在单个操作中同时且准确地提供来自酵母cdna文库的数十万个基因签名序列。

免疫组织化学方法也适合于检测本发明的生物标志物的水平。可以冷冻样品用于随后的制备或立即置于固定溶液中。可以通过用试剂,诸如福尔马林,戊二醛,甲醇等处理固定组织样品,并且在石蜡中包埋。用于自福尔马林固定的、石蜡包埋的组织样品制备用于免疫组织化学分析的载玻片的方法是本领域公知的。

在一个实施方案中,相对于样品中所有rna转录物或其非天然cdna表达产物或蛋白质产物,或样品中rna转录物的参照集或其非天然cdna表达产物的参照集或其蛋白质产物的参照集的表达水平标准化表1a,表1b,表1c,表2,表3,表4,表5或表6的生物标志物(或其子集,例如5至20、5至30、5至40种生物标志物)的水平。

如自始至终提供的,本文中列出的方法提供了用于测定患者的肺癌亚型的方法。一旦测定生物标志物水平(例如通过测量非天然cdna生物标志物水平或非天然mrna-cdna生物标志物复合物进行),将生物标志物水平与参照值或参照样品比较(例如通过使用统计方法或直接比较的检测水平),以做出肺癌分子亚型的测定。基于比较,将患者的肺癌样品分类为例如神经内分泌,鳞状细胞癌,腺癌。在另一个实施方案中,基于比较,将患者的肺癌样品分类为鳞状细胞癌,腺癌或小细胞癌。在另一个实施方案中,基于比较,将患者的肺癌样品分类为鳞状细胞癌,腺癌,小细胞癌或类癌性肺癌。

在一个实施方案中,将表1a,表1b,表1c,表2,表3,表4,表5或表6的至少五种分类器生物标志物的杂交值与来自至少一个样品训练集的参照杂交值比较,其中所述至少一个样品训练集包含来自参照样品的杂交值。在别的实施方案中,所述至少一个样品训练集包含来自腺癌样品,鳞状细胞癌样品,神经内分泌样品,小细胞肺癌样品,类癌肺癌样品或其组合的表1a,表1b,表1c,表2,表3,表4,表5或表6的至少五种分类器生物标志物的杂交值。在另一个实施方案中,所述至少一个样品训练集包含来自在下文表a中提供的参照样品的表1a,表1b,表1c,表2,表3,表4,表5,表6的至少五种分类器生物标志物的杂交值。

本文中提供了用于将生物标志物的检测水平与参照值和/或参照样品比较的方法。基于此比较,在一个实施方案中,获得自受试者样品获得的生物标志物水平与参照值之间的相关性。然后,做出肺癌亚型的评估。

可以使用各种统计学方法来帮助比较自患者获得的生物标志物水平和例如来自至少一个样品训练集的参照生物标志物水平。

在一个实施方案中,采用监督模式识别方法。监督模式识别方法的例子可以包括但不限于最近形心方法(dabney(2005)bioinformatics21(22):4148-4154和tibshiranietal.(2002)proc.natl.acad.sci.usa99(10):6576-6572);类分析的软独立建模(simca)(见例如wold,1976);偏最小二乘法分析(pls)(见例如wold,1966;joreskog,1982;frank,1984;bro,r.,1997);线性判别分析(lda)(见例如nillson,1965);k-近邻分析(knn)(见例如,brownetal.,1996);人工神经网络(ann)(见例如wasserman,1989;ankeretal.,1992;hare,1994);概率神经网络(pnn)(见例如parzen,1962;bishop,1995;speckt,1990;broomheadetal.,1988;patterson,1996);规则诱导(ri)(见例如quinlan,1986);和贝叶斯方法(见例如bretthorst,1990a,1990b,1988)。在一个实施方案中,基于基因表达数据鉴定肿瘤亚型的分类器是描述于mullinsetal.(2007)clinchem.53(7):1273-9的基于形心的方法,通过提及将每篇完整收入本文。

在其它实施方案中,采用无监督训练方法,并且因此不使用训练集。

再次参照用于监督学习方法的样品训练集,在一些实施方案中,样品训练集可以包含来自腺癌样品的所有分类器生物标志物(例如,表1a,表1b,表1c,表2,表3,表4,表5,表6之任一的所有分类器生物标志物)的表达数据。在一些实施方案中,样品训练集可以包含来自鳞状细胞癌样品,腺癌样品和/或神经内分泌样品的所有分类器生物标志物(例如表1a,表1b,表1c,表2,表3,表4,表5,表6之任一的所有分类器生物标志物)的表达数据。在一些实施方案中,标准化样品训练集以除去样品与样品变化。

在一些实施方案中,比较可以包括应用统计算法,诸如例如任何合适的多变量统计分析模型,其可以是参数或非参数的。在一些实施方案中,应用统计算法可以包括测定自人肺组织样品获得的表达数据与来自腺癌和鳞状细胞癌训练集的表达数据之间的相关性。在一些实施方案中,执行交叉验证,诸如(例如)留一交叉验证(loocv)。在一些实施方案中,执行积分关联。在一些实施方案中,执行斯皮尔曼关联(spearmancorrelation)。在一些实施方案中,基于形心的方法用于统计算法,如mullinsetal.(2007)clinchem.53(7):1273-9描述的,并且基于基因表达数据,通过提及将其整体收入本文。

可以将对来自受试者(测试样品)的样品实施的基因表达的结果与生物样品或自生物样品得出的数据比较,所述生物样品已知或怀疑是正常的(“参照样品”或“正常样品”,例如非腺癌样品)。在另一个实施方案中,自已知具有肺癌亚型,例如腺癌,鳞状细胞癌,神经内分泌,小细胞癌和/或类癌的个体获得或得出参照样品或参照生物标志物水平数据。

可以在与测试样品相同的时间或在与测试样品不同的时间时测定参照样品。或者,可以将来自参照样品的生物标志物水平信息在数据库或其它用于供日后访问的手段中贮存。

可以将对测试样品进行的测定法的生物标志物水平结果与对参照样品进行的相同测定法的结果比较。在一些情况中,对参照样品的测定法结果来自数据库或参照值。在一些情况中,对参照样品的测定法结果是本领域技术人员已知或公认的值或值范围。在某些情况中,比较是定性的。在其它情况中,比较是定量的。在一些情况中,定性或定量比较可以牵涉但不限于以下的一种或多种:比较荧光值,斑点强度,吸光度值,化学发光信号,直方图,临界阈值,统计显著性值,如本文中描述的基因的表达水平,mrna拷贝数。

在一个实施方案中,对每个生物标志物水平组测量计算优势率(or)。这里,or是对患者测量的生物标志物值与结果(例如,肺癌亚型)之间的关联的测量。例如见j.can.acad.childadolesc.psychiatry2010;19(3):227-229,通过提及将完整收录用于所有目的。

在一个实施方案中,可以测定规定的统计置信水平,以提供关于肺癌亚型的置信水平。例如,可以测定大于90%的置信水平可以是肺癌亚型的有用的预测器。在其它实施方案中,可以选择更多或更少的严格置信水平。例如,可以选择约或至少约50%,60%,70%,75%,80%,85%,90%,95%,97.5%,99%,99.5%或99.9%的置信水平。提供的置信水平在一些情况中可以与样品的质量,数据的质量,分析的质量,使用的具体方法和/或分析的基因表达值的数目(即,基因的数目)相关。可以基于假阳性或假阴性的预期数目来选择用于提供响应可能性的规定置信水平。用于选择参数以实现规定的置信水平或用于鉴定具有诊断能力的标志物的方法包括但不限于接受者操作特征(receiveroperatingcharacteristic,roc)曲线分析,副法线roc,主成分分析,优势率分析,偏最小二乘法分析,奇异值分解,最小绝对收缩(leastabsoluteshrinkage)和选择算子分析,最小角回归和阈值梯度定向正则化方法。

在一些情况中,经由应用设计用于标准化和/或改善生物标志物水平数据的可靠性的算法改善测定肺癌亚型。在本发明的一些实施方案中,由于处理的大量个别数据点,数据分析利用计算机或其它设备,机器或装置来应用本文中描述的各种算法。“机器学习算法”是指本领域技术人员也称为“分类器”的基于计算的预测方法,其用于表征一种或多种生物标志物水平概况,例如以测定肺癌亚型。在一个实施方案中,通过例如基于微阵列的杂交测定法,测序测定法,nanostfing测定法等测定的生物标志物水平经受算法,以对概况进行分类。监督学习通常牵涉“训练”分类器以识别类别之间的区别(例如,腺癌阳性,腺癌阴性,鳞状阳性,鳞状阴性,神经内分泌阳性,神经内分泌阴性,小细胞阳性,小细胞阴性,类癌阳性,类癌阴性),然后在独立测试集上“测试”分类器的准确度。对于新的未知样品,可以使用分类器预测例如一种或多种特定的样品属于的类别(例如,(i)腺癌对鳞状细胞癌对神经内分泌,或(ii)腺癌对鳞状细胞癌对小细胞对类癌,等等)。

在一些实施方案中,使用强力多阵列平均值(robustmulti-arrayaverage,rma)方法标准化原始数据。rma方法通过计算多个微阵列上每个匹配的细胞的背景校正强度开始。在一个实施方案中,将背景校正值限为正值,如irizarryetal.(2003).biostatisticsapril4(2):249-64(通过提及将其完整收录用于所有目的)描述的。在背景校正后,然后获得每个背景校正的匹配细胞强度的底-2对数。然后,使用分位数标准化法对每个微阵列上的背景校正的、对数转换的匹配强度进行标准化,其中对于每个输入阵列和每个探针值,用所有阵列百分位数点的平均值替换阵列百分位数探针值,此方法由bolstadetal.bioinformatics2003(通过提及将其完整收录)更完整描述。在分位数标准化后,然后可以将标准化数据拟合至线性模型以获得每个微阵列上的每个探针的强度测量。然后,可以使用tukey氏中值推敲算法(tukey’smedianpolishalgorithm)(tukey,j.w.,exploratorydataanalysis.1977,通过提及将其完整收录用于所有目的)测定标准化探针组数据的对数标度强度水平。

可以实现各种其它软件程序。在某些方法中,可以使用glmnet通过使用lasso罚分的逻辑回归实施特征选择和模型估计(friedmanetal.(2010).journalofstatisticalsoftware33(1):1-22,通过提及将其完整收录)。可以使用tophat(trapnelletal.(2009).bioinformatics25(9):1105-11,通过提及将其完整收录)比对原始读数。在方法中,使用e1071文库(meyerd.supportvectormachines:theinterfacetolibsvminpackagee1071.2014,通过提及将其完整收录),使用顶部特征(范围为10至200的n)训练线性支持向量机(svm)(suykensjak,vandewallej.leastsquaressupportvectormachineclassifiers.neuralprocessingletters1999;9(3):293-300,通过提及将其完整收录)。在一个实施方案中,使用proc包(robinx,turckn,hainarda,etal.proc:anopen-sourcepackageforrands+toanalyzeandcompareroccurves.bmcbioinformatics2011;12:77,通过提及将其完整收录)计算置信区间。

另外,可以对数据过滤以除去可以认为可疑的数据。在一个实施方案中,可以认为自具有少于约4、5、6、7或8个鸟苷+胞嘧啶核苷酸的微阵列探针得出的数据由于它们的异常杂交倾向或二级结构问题而是不可靠的。类似地,在一个实施方案中,可以认为自具有多于约12、13、14、15、16、17、18、19、20、21或22个鸟苷+胞嘧啶核苷酸的微阵列探针得出的数据由于它们的异常杂交倾向或二级结构问题而是不可靠的。

在本发明的一些实施方案中,如果没有在可检测水平(高于背景)上鉴定来自探针组的数据,那么可以自分析排除它们。

在本公开内容的一些实施方案中,可以自进一步分析排除不展现方差或展现低方差的探针组。经由卡方检验自分析排除低方差探针组。在一个实施方案中,如果探查组的变换方差在具有(n-1)个自由度的卡方分布的99%置信区间的左侧,那么认为它是低方差。(n-1)*探针组方差/(基因探针组方差)。关于chi-sq(n-1),其中n是输入cel文件的数目,(n-1)是卡方分布的自由度,并且“基因的探针组方差”是基因间的探针组方差的平均值。在本发明的一些实施方案中,如果给定mrna或mrna组的探针组含有小于通过先前描述的gc含量、可靠性、方差等的滤器步骤的最小数目的探针,那么可以自进一步分析排除它们。例如,在一些实施方案中,如果给定基因或转录物簇的探针组含有小于约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或小于约20个探针,则可以自进一步分析排除它们。

在一个实施方案中,生物标志物水平数据分析的方法还包括使用如本文中提供的特征选择算法。在本发明的一些实施方案中,通过使用limma软件包(smyth,g.k.(2005).limma:linearmodelsformicroarraydata.in:bioinformaticsandcomputationalbiologysolutionsusingrandbioconductor,r.gentleman,v.carey,s.dudoit,r.irizarry,w.huber(eds.),springer,newyork,第397-420页,通过提及将其完整收录用于所有目的)提供特征选择。

在一个实施方案中,生物标志物水平数据分析的方法包括使用预分类器算法。例如,算法可以使用特定分子指纹以依照样品的组成对它们预分类,然后应用校正/标准化因子。然后,可以将此数据/信息馈送至最终分类算法中,所述算法会掺入所述信息以辅助最终诊断。

在一个实施方案中,生物标志物水平数据分析的方法还包括使用如本文中提供的分类器算法。在本发明的一个实施方案中,提供了对角线性判别分析,k最近邻算法,支持向量机(svm)算法,线性支持向量机,随机森林算法或基于概率模型的方法或其组合用于微阵列数据的分类。在一些实施方案中,基于感兴趣类别之间的生物标志物水平的差异的统计学显著性来选择区分样品(例如,不同生物标志物水平概况,不同肺癌亚型,和/或腺癌的不同分子亚型)的鉴定的标志物。在一些情况中,通过应用benjaminhochberg或另一种假发现率(fdr)校正调节统计显著性。

在一些情况中,可以用诸如由fishelandkaufmanetal.2007bioinformatics23(13):1599-606(通过提及将其完整收录用于所有目的)描述的元分析方法补充分类器算法。在一些情况中,可以用元分析方法诸如重复性分析补充分类器算法。

用于导出和应用后验概率至生物标志物水平数据的分析的方法是本领域已知的,并且已经记载于例如smyth,g.k.2004stat.appi.genet.mol.biol.3:article3,通过提及将其完整收录用于所有目的。在一些情况中,可以在本发明的方法中使用后验概率以对由分类器算法提供的标志物排序。

生物标志物水平概况测定的结果的统计评价可以提供指示肺癌亚型(例如,腺癌,鳞状细胞癌,神经内分泌,小细胞,类癌)的一个或多个定量值。在一个实施方案中,数据以其最有用的形式直接呈现给内科医生,以指导患者护理,或用于限定临床试验中的患者群体或给定药物的患者群体。可以使用本领域已知的许多方法来统计评估分子概况测定的结果,所述方法包括但不限于:学生t检验,双侧t检验,pearson秩和分析,隐马尔可夫模型分析,qq分析图,主成分分析,单因素anova,双因素anova,limma等。

在一些情况中,可以通过随时间追踪受试者来测定准确性,以测定初始诊断的准确性。在其它情况中,可以以测定性方式或使用统计方法建立准确性。例如,可以使用接受者操作特征(roc)分析来测定最佳测定参数以实现特定水平的准确性,特异性,阳性预测值,阴性预测值和/或假发现率。

在一些情况中,将生物标志物水平概况测定测定法的结果输入数据库中,用于由分子概况测定业务的代表或代理商、个体、医学提供者或保险提供者访问。在一些情况中,测定结果包括由业务的代表,代理商或顾问(诸如医学专业人员)的样品分类,鉴定或诊断。在其它情况中,自动提供对数据的计算机或算法分析。在一些情况中,分子概况测定业务可以为以下一项或多项向个体,保险提供者,医学提供者,研究者或政府实体开账单:实施的分子概况测定测定法,咨询服务,数据分析,结果报告或数据库访问。

在本发明的一些实施方案中,生物标志物水平概况测定测定法的结果作为计算机屏上的报告或以纸记录呈现。在一些实施方案中,报告可以包括但不限于诸如以下一项或多项的信息:与参照样品或参照值相比生物标志物的水平(例如,如通过拷贝数或荧光强度等报告);肺癌亚型,提出的治疗。

在一个实施方案中,可以将分类器生物标志物概况测定的结果分类为以下的一种或多种:腺癌阳性,腺癌阴性,鳞状细胞癌阳性,鳞状细胞癌阴性,神经内分泌阳性,神经内分泌阴性,小细胞癌阳性,小细胞癌阴性,类癌阳性,类癌阴性或其组合。

在本发明的一些实施方案中,使用训练的算法对结果分类。本发明的训练算法包括已经使用已知基因表达值和/或正常样品的参照集开发的算法,例如来自诊断为具有腺癌的特定分子亚型的个体的样品。在一些情况中,自已经诊断患有肺癌的特定分子亚型的个体获得已知基因表达值的参照集。

适合于样品分类的算法包括但不限于k最近邻算法,支持向量机,线性判别分析,对角线性判别分析,上下(updown),朴素贝叶斯算法(naivebayesianalgorithm),神经网络算法,隐马尔可夫模型算法,遗传算法,或其任何组合。

当将二元分类器与实际真值(例如,来自生物样品的值)比较时,通常有四种可能的结果。如果来自预测的结果是p(其中“p”是正分类器输出,如删除或重复综合征的存在),并且实际值也是p,那么它被称为真阳性(tp);然而如果实际值为n,那么它被说成假阳性(fp)。相反,当预测结果和实际值都是n(其中“n”是负分类器输出,诸如没有删除或重复综合征)时,发生了真阴性,并且假阴性是在预测结果是n,而实际值为p时。在一个实施方案中,考虑试图测定肺癌的分子亚型的测试。在测试他或她实际上没有的分子亚型时发生在此种情况中的假阳性。另一方面,当测试呈阴性时,发生假阴性,这提示了样品不是特定的肺癌亚型,当样品实际上是肺癌样品时应当表征为特定的肺癌亚型。

疾病的阳性预测值(ppv)或精确率或检验后概率是诊断为具有正确肺癌亚型的受试者的比例。它反映阳性测试反映测试的根本条件的概率。然而,其数值取决于疾病的流行,其可以变化。在一个例子中,提供以下特性:fp(假阳性);tn(真阴性);tp(真阳性);fn(假阴性)。假阳性率(α)=fp/(fp+tn)-特异性;假阴性率(β)=fn/(tp+fn)-灵敏性;功率=灵敏度=1-β;似然比正=灵敏度/(1-特异性);似然比负=(1-灵敏性)/特异性。负预测值(npv)是正确诊断的具有阴性测试结果的受试者的比例。

在一些实施方案中,主题方法的生物标志物水平分析的结果提供了给定诊断是正确的统计置信水平。在一些实施方案中,此类统计置信水平为至少约或超过约85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%,99.5%,或者更多。

在一些实施方案中,方法还包括基于样品中生物标志物水平与参照生物标志物水平的比较将肺组织样品分类为特定的肺癌亚型,例如在至少一个训练集中存在。在一些实施方案中,如果比较的结果满足一种或多种标准,诸如例如最小百分比一致性,基于百分比一致性计算的统计量值,诸如(例如)κ统计量,最小关联(例如,pearson关联)等,那么将肺组织样品分类为特定亚型。

意图可以由软件(在存储器中存储和/或在硬件上执行),硬件或其组合实施在本文中描述的方法。硬件模块可以包括例如通用处理器,现场可编程门阵列(fpga)和/或应用型专用集成电路(asic)。可以以多种软件语言(例如,计算机代码)表示软件模块(在硬件上执行),包括unix实用程序,c,c++,javatm,ruby,sql,r编程语言/软件环境,visualbasictm,以及其它面向对象,过程或其它编程语言和开发工具。计算机代码的例子包括但不限于微代码或微指令,诸如由编译器产生的机器指令,用于产生web服务的代码,以及包含高级指令的文件,所述高级指令由使用解释器的计算机执行。计算机代码的别的例子包括但不限于控制信号,加密代码和压缩代码。

本文中描述的一些实施方案涉及具有非暂时性计算机可读介质(也可以称为非暂时性处理器可读介质或存储器)的装置,所述非暂时性计算机可读介质在其上具有用于实施本文中公开的各种计算机实现的操作和/或方法的指令或计算机代码。计算机可读介质(或处理器可读介质)就其不包含暂时传播信号本身(例如,在诸如空间或电缆的传输介质上承载信息的传播电磁波)而言是非暂时的。介质和计算机代码(也可以称为代码)可以是为一种或多种特定目的而设计和构建的代码。非暂时性计算机可读介质的例子包括但不限于:磁存储介质,诸如硬盘,软盘和磁带;光存储介质,诸如压缩盘/数字视频盘(cd/dvd),压缩盘-只读存储器(cd-rom)和全息装置;磁光存储介质,诸如光盘;载波信号处理模块;和专门配置为存储和执行程序代码的硬件装置,诸如应用型专用集成电路(asic),可编程逻辑装置(pld),只读存储器(rom)和随机存取存储器(ram)装置。本文中描述的其它实施方案涉及计算机程序产品,其可以包括例如本文中讨论的指令和/或计算机代码。

在一些实施方案中,至少五种生物标志物,约5至约20种生物标志物,约5至约50种生物标志物,约5至约40种生物标志物或约5至约30种生物标志物(例如,如表1a,表1b,表1c,表2,表3,表4,表5和表6中公开的)能够以至少约70%,至少约至约71%,至少约72%,约73%,约74%,约75%,约76%,约77%,约78%,约79%,约80%,约81%,约82%,约83%,约84%,约85%,约86%,约87%,约88%,约89%,约90%,约91%,约92%,约93%,约94%,约96%,约97%,约98%,约99%,直至100%,以及其间的所有值的预测成功分类肺癌的类型和/或亚型。在一些实施方案中,可以使用本文中公开的生物标志物的任何组合(例如,在表1a,表1b,表1c,表2,表3,表4,表5和表6中及其亚组合)获得至少约70%,至少约71%,至少约72%,约73%,约74%,约75%,约76%,约77%,约78%,约79%,约80%,约81%,约82%,约83%,约84%,约85%,约86%,约87%,约88%,约89%,约90%,约91%,约92%,约93%,约94%,约95%,约96%,约97%,约98%,约99%,直至100%,以及其间的所有值的预测成功。

在一些实施方案中,至少五种生物标志物,约5至约20种生物标志物,约5至约50种生物标志物,约5至约40种生物标志物或约5至约30种生物标志物(例如,如表1a,表1b,表1c,表2,表3,表4,表5和表6中公开的)能够以至少约70%,至少约71%,至少约72%,约73%,约74%,约75%,约76%,约77%,约78%,约79%,约80%,约81%,约82%,约83%,约84%,约85%,约86%,约87%,约88%,约89%,约90%,约91%,约92%,约93%,约94%,约96%,约97%,约98%,约99%,直至100%,以及其间的所有值的灵敏性或特异性分类肺癌类型和/或亚型。在一些实施方案中,可以使用本文中公开的生物标志物的任何组合获得至少约70%,至少约71%,至少约72%,约73%,约74%,约75%,约76%,约77%,约78%,约79%,约80%,约81%,约82%,约83%,约84%,约85%,约86%,约87%,约88%,约89%,约90%,约91%,约92%,约93%,约94%,约95%,约96%,约97%,约98%,约99%,直至100%,以及其间的所有值的灵敏性或特异性。

在一些实施方案中,进一步提供了用于实施本发明方法的一种或多种试剂盒。试剂盒可以涵盖包含至少一种试剂,例如抗体,核酸探针或引物等的任何制品(例如,包装或容器),用于检测分类器生物标志物的生物标志物水平。试剂盒可以作为用于实施本发明方法的单元宣传,分配或出售。另外,试剂盒可以含有描述试剂盒及其使用方法的包装插页。

在一个实施方案中,在测定患者的肺癌亚型时,选择患者进行合适的疗法,例如用血管发生抑制剂的化学疗法或药物疗法。在一个实施方案中,疗法是血管发生抑制剂疗法,并且血管发生抑制剂是血管内皮生长因子(vegf)抑制剂,vegf受体抑制剂,血小板衍生生长因子(pdgf)抑制剂或pdgf受体抑制剂。

在另一个实施方案中,血管发生抑制剂是整联蛋白拮抗剂,选择蛋白拮抗剂,粘附分子拮抗剂(例如,细胞间粘附分子(icam)-1,icam-2,icam-3,血小板内皮粘附分子(pcam),血管细胞粘附分子(vcam),淋巴细胞功能相关抗原1(lfa-1)的拮抗剂),碱性成纤维细胞生长因子拮抗剂,血管内皮生长因子(vegf)调控剂或血小板衍生生长因子(pdgf)调控剂(例如,pdgf拮抗剂)。

在一个实施方案中,如上文提供的,在测定患者的肺癌亚型时,选择患者进行合适的疗法,例如用血管发生抑制剂进行的化学疗法或药物疗法。在一个实施方案中,血管发生抑制剂是下列的一种或多种:干扰素γ1β,具有吡非尼酮(pirfenidone)的干扰素γ1βacuhtr028,αvβ5,氨基苯甲酸钾(aminobenzoatepotassium),淀粉样蛋白p,ang1122,ang1170,ang3062,ang3281,ang3298,ang4011,抗ctgfrnai,aplidin,具有鼠尾草(salvia)和五味子(schisandrachinensis)的膜荚黄芪(astragalusmembranaceus)提取物,动脉粥样硬化斑块阻断剂,azol,azx100,bb3,结缔组织生长因子抗体,ct140,达那唑(danazol),esbriet,exc001,exc002,exc003,exc004,exc005,f647,fg3019,fibrocorin,滤泡抑素(follistatin),ft011,半乳凝素-3抑制剂,gkt137831,gmct01,gmct02,grmd01,grmd02,grn510,heberonalfar,干扰素α-2β,itmn520,jkb119,jkb121,jkb122,krx168,lpa1受体拮抗剂,mgn4220,mia2,microrna29a寡核苷酸,mmi0100,诺斯卡品(noscapine),pbi4050,pbi4419,pdgfr抑制剂,pf-06473871,pgn0052,pirespa,pirfenex,吡非尼酮,plitidepsin,prm151,px102,pyn17,pyn22与pyn17,relivergen,rhptx2融合蛋白,rxi109,胰泌素,stx100,tgf-β抑制剂,转化生长因子,β受体2寡核苷酸,va999260,xv615,内皮抑素,源自xviii型胶原的20kdac末端片段,血管他丁(angiostatin)(纤溶酶的38kda片段),或血小板反应蛋白(tsp)蛋白家族的成员。在另一个实施方案中,血管发生抑制剂是tsp-1,tsp-2,tsp-3,tsp-4和tsp-5。

在一个实施方案中,疗法是可溶性vegf受体,例如可溶性vegfr-1和神经毡蛋白1(npr1),血管生成素-1,血管生成素-2,血管抑素(vasostatin),钙网织蛋白(calreticulin),血小板因子-4,金属蛋白酶的组织抑制剂(例如,timp1,timp2,timp3,timp4),软骨衍生的血管发生抑制剂(例如肽肌钙蛋白i和软骨调节因子(chrondomodulin)i),具有血小板反应蛋白基序1的解联蛋白和金属蛋白酶,干扰素(ifn)(例如ifn-α,ifn-β,ifn-γ),趋化因子,例如具有cxc基序的趋化因子(例如cxcl10,也称为干扰素γ诱导的蛋白10或小型可诱导细胞因子b10),白介素细胞因子(例如il-4,il-12,il-18),凝血酶原,抗凝血酶iii片段,催乳素,由tnfsf15基因编码的蛋白质,骨桥蛋白,maspin,canstatin,增生蛋白相关蛋白,血管生成素-1,血管生成素-2,血管他丁,内皮他丁(endostatin),血管抑素,血小板反应蛋白,钙网织蛋白,血小板因子-4,timp,cdai,干扰素α,干扰素β,血管内皮生长因子抑制剂(vegi)meth-1,meth-2,催乳素,vegi,sparc,骨桥蛋白,maspin,canstatin,增生蛋白相关蛋白(prp),restin,tsp-1,tsp-2,干扰素γ1β,acuhtr028,αvβ5,氨基苯甲酸钾,淀粉样蛋白p,ang1122,ang1170,ang3062,ang3281,ang3298,ang4011,抗ctgfrnai,aplidin,具有鼠尾草和五味子的膜荚黄芪提取物,动脉粥样硬化斑块阻滞剂,azol,azx100,bb3,结缔组织生长因子抗体,ct140,达那唑,esbriet,exc001,exc002,exc003,exc004,exc005,f647,fg3019,fibrocorin,follistatin,ft011,半乳凝素-3抑制剂,gkt137831,gmct01,gmct02,grmd01,grmd02,grn510,heberonalfar,干扰素α-2β,itmn520,jkb119,jkb121,jkb122,krx168,lpa1受体拮抗剂,mgn4220,mia2,microrna29a寡核苷酸,mmi0100,诺斯卡品(noscapine),pbi4050,pbi4419,pdgfr抑制剂,pf-06473871,pgn0052,pirespa,pirfehex,吡非尼酮,plitidepsin,prm151,px102,pyn17,pyn22与pyn17,relivergen,rhptx2融合蛋白,rxi109,胰泌素,stx100,tgf-β抑制剂,转化生长因子,β受体2寡核苷酸,va999260,xv615或其组合。

在另一个实施方案中,在测定患者的肺癌亚型时,选择患者接受帕唑帕尼(votrient),舒尼替尼(sutent),索拉非尼(nexavar),阿西替尼(inlyta),普纳替尼(iclusig),凡德他尼(caprelsa),卡马西尼(cometrig),雷莫单抗(ramucirumab)(cyramza),瑞格非尼(regorafenib)(stivarga),ziv-aflibercept(zaltrap)或其组合的合适疗法。在另一个实施方案中,在测定患者的肺癌亚型时,选择患者用vegf抑制剂进行适当的治疗。在别的实施方案中,vegf抑制剂是阿西替尼(axitinib),卡本替尼(cabozantinib),阿柏西普(aflibercept),布立尼布(brivanib),替维扎尼(tivozanib),雷莫单抗(ramucirumab)或莫特塞尼(motesanib)。在另一个实施方案中,vegf抑制剂是莫特塞尼。

在另一个实施方案中,在测定患者的肺癌亚型时,选择患者用血小板衍生生长因子(pdgf)拮抗剂进行适当的疗法。例如,在一个实施方案中,pdgf拮抗剂是抗-pdgf适体,抗-pdgf抗体或其片段,抗-pdgf受体抗体或其片段或小分子拮抗剂。在一个实施方案中,pdgf拮抗剂是pdgfr-α或pdgfr-β的拮抗剂。在一个实施方案中,pdgf拮抗剂是抗-pdgf-β适体e10030,舒尼替尼,阿西替尼,索拉非尼(sorefenib),伊马替尼,甲磺酸伊马替尼,尼达尼布(nintedanib),盐酸帕唑帕尼(pazopanibhcl),帕纳替尼(ponatinib),mk-2461,多韦替尼(dovitinib),帕唑帕尼(pazopanib),crenolanib,pp-121,替拉替尼(telatinib),伊马替尼,krn633,cp673451,tsu-68,ki8751,amuvatinib,tivozanib,马西替尼(masitinib),二磷酸莫特塞尼(motesanibdiphosphate),多夫替尼二乳酸(dovitinibdilacticacid),利夫尼布(linifanib)(abt-869)。

实施例

通过参照以下实施例进一步例示本发明。然而,应当注意,与上文描述的实施方案类似,这些实施例是例示性的,并且不应解释为以任何方式限制本发明的范围。

方法

装配包括2,168份肺癌样品(tcga,nci,unc,duke,expo,首尔,东京和法国)的几个公开可用的肺癌基因表达数据集,以验证为了补充肺肿瘤的形态学分类开发的57基因表达肺亚型组(lsp)。lsp包括52种肺肿瘤分类基因以及5种持家基因。选择具有基因表达数据和肺肿瘤形态学分类两者的数据集。在数据集中表示三类基因组数据:affymetrixu133+2(n=883)(也称为“a-833”),agilent44k(n=334)(也称为“a-334”)和illuminarnaseq(n=951)(也称为“i-951”)。在表7中提供了数据来源,并且在表8中提供了标准化方法。在分析中使用具有腺癌,类癌,小细胞和鳞状细胞癌的确定性诊断的样品.

使用a-833数据集作为依照先前描述的方法训练腺癌,类癌,小细胞癌和鳞状细胞癌基因形心的计算。然后,将对a-833数据训练的基因形心应用于标准化的tcga和a-334数据集,以研究lsp使用公开可用的基因表达数据对肺肿瘤分类的能力。对于将a-833训练形心应用于a-833数据集,使用留一(loo)交叉验证实施评估。对肿瘤样品基因表达结果至a-833基因表达训练形心计算斯皮尔曼相关性。对肿瘤分配对应于最大相关形心的基因组定义的组织学类型(类癌,小细胞,腺癌和鳞状细胞癌)。探索了2类,3类和4类预测。正确的预测定义为匹配肿瘤的组织学诊断的lsp呼叫。百分比一致性定义为正确预测的数目除以所有预测的数目,并计算一致性κ统计量。

将10个肺肿瘤rna表达数据集组合成三个平台特异性数据集(a-833,a-334和i-951)。患者群体是多样的,并且包括具有范围为阶段1-阶段iv的肿瘤的吸烟者和非吸烟者。表9中包括三个数据集的样品特征和肺癌诊断。

将2类,3类和4类预测器的预测的肿瘤类型与肿瘤形态学分类和百分比一致性比较,并计算每种预测器的fleiss氏κ(表10a,10b和10c)。

先前已经发表了基于单独的形态学分类的肺癌诊断的观察者间再现性的评价。通过简化定性方案改善总体观察者间一致性。使用综合2004年世界卫生组织分类系统,观察员间一致性是较低的(k=0.25)。通过将诊断简化至鳞状/非鳞状的治疗相关2型区别改善一致性(k=0.55)。在此验证研究中,将观察者间诊断的一致性与2、3和4类lsp诊断的一致性比较(表11)。

随着治疗开发和患者管理变得更加特异靶向每个肿瘤的独特特征,肺癌的各种形态亚型之间的区分变得越来越重要。组织学诊断可以是挑战性的,并且几个研究已经证明了形态学诊断的有限的再现性。添加几种免疫组织化学标志物,诸如p63和ttf-1改善了诊断精确性,但是许多肺癌活检在大小和/或细胞性方面受到限制,排除了使用多个ihc标记物的完全表征。与其它数据集相比,一致性对于tcgarnaseq数据集中的所有分类器(2、3和4类)(%一致性范围91%-94%)明显更好,这可能是由于组织学诊断的较大准确性和/或rna表达结果的较大精度。尽管下面描述的一些限制,此研究证明lsp可以是对肺肿瘤分型中的组织学的有价值的附属物。

在具有数百份肺癌样品的多个数据集中,使用肺亚型组(lsp)的分子概况测定与光学显微镜得出的诊断有利比较,并且显示比病理学家重新评估更高水平的一致性。基于rna的肿瘤分型可以在临床中提供有价值的信息,特别是当组织受限且形态学诊断仍不清楚时。

通过提及将以下参照文献的公开内容完整收入本文用于所有目的:

a.americancancersociety.cancerfactsandfigures,2014.

b.nationalcomprehensivecancernetwork(nccn)clinicalpracticeguidelineinoncology.non-smailcelllungcancer.version2.2013.

c.grilleyolsonje,hayesdn,mooredt,etal.archpathollabmed2013;137∶32-40

d.thunnissene,boerse,heidemanda,etal.virchowsarch2012;461:629-38.

e.wilkersonmd,schallheimjm,hayesdn,etal.jmolecdiagn2013;15∶485-497.

f.lib,deweycn.bmcbioinformatics2011,12∶323doi:10.1186/1471-2105-12-323

g.yangyh,dudoits,luup,etal.nucleicacidsresearch2002,30:e15.

h.hubbelle,liu,w,meir.bioinformatics(2002)18(12):1585-1592.doi:10.1093/bioinformatics/18.12.1585.

i.traviswd,brambillae,muller-hermelinkhk,harriscc.pathologyandgeneticsoftumorsofthelung,pleura,thymus,andheart.3rded.lyon,france:iarcpress;2004.worldhealthorganizationclassificationoftumors:vol10.

j.traviswdandrekhtmann..semrespandcritcaremed2011;32(1):22-31.

实施例2:多个新鲜冷冻的和福尔马林固定的石蜡包埋的肺肿瘤基因表达数据集的肺癌分型

装配包含2,177份样品的多个数据集以评价肺亚型组(lsp)基因表达分类器。数据集包括几个公开可用的肺癌基因表达数据集,包括2,099个新鲜冷冻肺癌样品(tcga,nci,unc,duke,expo,首尔和法国)以及来自78份ffpe样品的新收集的基因表达数据。在下文表12中提供了数据源。78份ffpe样品是使用irb批准的方案在查珀尔希尔(chapelhill)的北卡罗来纳大学(unc-ch)收集的存档的残留肺肿瘤样品。在分析中仅使用具有ad,类癌,小细胞癌(scc)或sqc的确定性诊断的样品。总共4种基因组数据可用于分析:affymetrixu133+2(n=693),agilent44k(n=344),rnaseq(n=1,062)和新收集的qrt-pcr(n=78)数据。

使用具有以下修改的如先前描述(wilkersonetal.jmolecdiagn2013;15:485-497,通过提及将其完整收入本文用于所有目的)的qrt-pcr基因表达测定法分析存档的ffpe肺肿瘤样品(n=78)。使用highpurernaparaffinkit(rocheappliedscience,indianapolis,in)自ffpe组织的一个10μm切片提取rna。将提取的rna稀释至5ng/μl,并使用与随机六聚体组合的基因特异性3’引物(superscriptthermofisherscientificcorp,waltham,ma)合成第一链cdna。使用abi7900(appliedbiosystems,thermofisherscientificcorp,waltham,ma)在连续sybr绿色荧光(530nm)监测的情况中进行qrt-pcr。abi7900量化软件产生扩增曲线和相关的阈值循环(ct)值。用样品收集的初始临床诊断在表13中。

病理学审阅仅可能用于ffpe肺肿瘤分组,其中将另外的切片收集并成像。对来自每份样品的两个连续切片进行苏木精和曙红(h&e)染色,并且使用aperiotm载玻片扫描仪(aperiotechnologies,vista,ca)扫描。虚拟切片在等同于32至320个物镜(340放大镜)的放大倍率可查看。病理学家审查对于初始的临床诊断和基于基因表达的亚型分类是盲的。将基于病理学审阅的组织学亚型呼叫与初始诊断(n=78)比较。病理学审阅的一致性定义为将这两个载玻片归入与初始诊断相同亚型的那些样品。

使用r3.0.2软件(http://cran.r-project.org)进行所有统计分析。分别对ff和ffpe肿瘤样品进行数据分析。

新鲜冷冻数据集分析:如表12中描述的那样标准化数据集。affymetrix数据集充当依照先前描述的方法(wilkersonetal.plosone.2012;7(5)e36530.doi:10.1371/journal.pone.0036530;wilkersonetal.jmolecdiagn2013;15∶485-497,通过提及将每篇完整收入本文用于所有目的)计算ad、类癌、scc、和sqc基因形心的训练集。

表14中提供了affymetrix训练基因形心。在标准化的tcgarnaseq基因表达和agilent微阵列基因表达数据集中测试训练集基因形心。由于缺少来自公共agilent数据集的数据,使用47基因分类器,而不是排除以下基因的52基因组实施agilent评估:cib1foxh1、lipe、pcam1、tuba1。

使用留一(loo)交叉验证实施affymetrix数据的评估。对肿瘤测试样品至affymetrix基因表达训练形心计算斯皮尔曼相关性。对肿瘤分配对应于最大相关形心的基因组定义的组织学类型(ad,sqc或ne)。正确的预测定义为匹配肿瘤的初始组织学诊断的lsp呼叫。百分比一致性定义为正确预测的数目除以总预测的数目,并且计算一致性κ统计量。

来自ffpe样品分析的qrt-pcr:在来自ffpe肺肿瘤组织的qrt-pcr基因表达的此新样品集中交叉验证自ffpe肺肿瘤样品的qrt-pcr数据计算的先前发表的训练形心(wilkersonetal.jmolecdiagn2013;15∶485-497,通过提及将其收入本文)。使用wilkerson等人的ad和sqc形心,如发表的(wilkersonetal.jmolecdiagn2013;15:485-497,通过提及将其收入本文)。使用发表的基因表达数据(n=130)(wilkersonetal.jmolecdiagn2013;15:485-497,通过提及将其收入本文)类似地计算神经内分泌基因形心。表15中包括wilkerson等的基因形心(wilkersonetal.jmolecdiagn2013;15:485-497,通过提及将其收入本文),用于ffpe组织评估。缩放ffpe样品基因表达数据以与wilkerson等的数据比对基因方差。计算基因特异性缩放因子,其考虑数据集间的标签频率差异。然后,将基因表达数据进行中值中心化,轻拍符号(高ct=低丰度),并且使用基因特异性缩放因子缩放。通过将每份样品与3个亚型形心相关联并且分配具有最高相关形心的亚型(斯皮尔曼相关性)来预测亚型。

将包括9种ff加1种新ffpeqrt-pcr基因表达数据集的10种肺肿瘤基因表达数据集合并成四个平台特异性数据集(affymetrix,agilent,illuminarnaseq,和qrt-pcr)。对于可获得临床信息的数据集,患者群体是多样的,包括具有范围为阶段1-阶段iv的肿瘤的吸烟者和非吸烟者。表16中包括本研究中使用的数据集的样品特征和肺癌诊断。在排除没有明确诊断ad,sqc,scc或类癌的样品并且排除qrt-pcr分析失败的1份ffpe样品后,以下样品可用于进一步的数据分析:affymetrix(n=538),agilent(n=322),illuminarnaseq(n=951)和qrt-pcr(n=77)。

作为从头评估新的ffpe数据集的手段,我们实施来自ffpe存档样品(n=77)的lsp基因表达的分层群聚;如预期的,此分析表明对应于ad,sqc和ne的三个簇/亚型(图2)。然后,将预定的lsp3-亚型形心预测器应用于所有4个数据集,并且将结果与肿瘤形态学分类比较。对每个数据集计算百分比一致性和fleissκ(表17)。百分比一致性范围为78%-91%,并且κ的范围为0.57-0.85。

作为评估独立病理学一致性的另一种手段,发现77例ffpe肺肿瘤的盲病理学审阅与初始形态学诊断的一致性为82%(63/77)。在12/77病例中,盲的的重复载玻片提供了矛盾的结果,并且在10/77病例中,至少一个重复具有“腺鳞状”,“大细胞”或“高级不良分化癌”的非确定病理学亚型分类。图3中显示了77份样品之每份的初始形态学诊断,盲的病理学审阅和基因表达lsp亚型呼叫的比较。表18中提供了不一致的样品重叠的细节(即,6份样品,其中肿瘤亚型与通过路径审阅和基因表达lsp呼叫两者的初始形态学诊断不一致)。总体上,lsp相对于初始病理学呼叫的这些一致性值至少与任何两名病理学家之间的一致性一样大(grilleyetal.archpathollabmed2013;137:32-40;thunnissenetal.virchowsarch2012;461(6):629-38.doi:10.1007/s00428-012-1234-x.epub2012oct12;thunnissenetal.modpathol2012;25(12):1574-83.doi:10.1038/modpathol.2012.106;通过提及将每篇收入本文用于所有目的),因此提示本文中描述的测定法至少与经训练的病理学家一样好。在此研究中,lsp提供了可靠的亚型分类,验证其在多个基因表达平台间的性能,并且甚至在使用ffpe标本时。基于52种分类器生物标志物的水平,新测定的ffpe样品的分层群聚证明了3种亚型(ac,sqc和ne)的良好分离。在使用lsp形心时与形态学诊断的一致性在tcgarnaseq数据集中最大(一致性=91%),这可能是由于与其它数据集相比,与tcga样品有关的组织学诊断的非常广泛的病理学审阅和准确性。一致性在agilent数据集中最低(78%),所述agilent数据集可以已经通过可用于所述分析的减少的基因数目影响。总体上,lsp测定法展现出比所有数据集中(除了在agilent数据集中外)的病理学审阅更高的与初始形态学诊断的一致性,其中仅存在47种基因而非52种用于分析。

在可能进行盲的病理学再审阅的ffpe样品中,结果提示了病理学呼叫不总是与初始诊断一致,它们在自每份样品提供的重复载玻片中也不必然一致。对于样品子集(n=6),病理学再审阅和lsp基因表达分析两者提示相同的替代诊断,导致人们质疑初始形态诊断的准确性,这是我们的“黄金标准”。

在此研究中,存在有affymetrix数据集中的少量ne肿瘤样品,并且agilent和tcga数据集中缺乏ne样品。这通过ffpe样品集中相对大量的ne样品(31/77)部分克服,如此提供了lsp签名鉴定ne样品的能力的良好测试。研究的另一个限制涉及盲的病理学再审阅。盲的病理学审阅基于两个成像切片,并且不反映通常的组织学标准实践,其中多个切片/块和潜在ihc染色将可用于做出诊断。

*******

可以组合上文描述的各个实施方案以提供别的实施方案。通过提及在本说明书中提及和/或在申请数据表中列出的所有美国专利,美国专利申请公开文本,美国专利申请,外国专利,外国专利申请和非专利出版物整体收入本文。若必要的话,可以修改实施方案的方面以采用各种专利,申请和出版物的构思,以提供别的实施方案。

根据上面详述的描述,可以对实施方案做出这些和其它变化。一般地,在所附权利要求书中,使用的术语不应解释为将权利要求书限于说明书和权利要求书中公开的具体实施方案,但是应当解释为包括所有可能的实施方案以及有此类权利要求书的权利的等同方案的全部范围。因此,权利要求书不受本公开内容限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1