基于基因拷贝数改变的模式的结肠直肠癌的基因组分类的制作方法

文档序号:6408319阅读:662来源:国知局
专利名称:基于基因拷贝数改变的模式的结肠直肠癌的基因组分类的制作方法
技术领域
本发明涉及用于限定与结肠直肠癌(CRC)相关的肿瘤、癌细胞系和受试者样品的基因组亚组的方法。本发明还涉及按照基因组亚组装配(assembling)成小组(panels)的肿瘤、癌细胞系和受试者样品以用于测试一种或多种用于给受试者施用的治疗性干预的功效的方法。相关领域的描述癌症是特征在于临床过程、结果和治疗反应性的相当大变异性的基因组的疾病。 该变异性背后的主要因素是癌症所固有的遗传异质性。相同组织病理学亚型的个别肿瘤在细胞DNA中具有不同的畸变。结肠直肠癌(CRC)是欧洲和美国的第三最常见癌症和癌症死亡的第二主要原因, 每年有300,000个新病例和200,000例死亡(Midgley和Kerr,1999)。已确定形成侵入性癌的结肠直肠上皮的致癌转化由肿瘤特异性遗传畸变和染色体非整倍性的连续获得驱动 (Fearon和Vogelstein,1990 ;Ried等人,1996)。通常,相同组织病理学组内的肿瘤遵循非常不同的临床过程并且对治疗的反应不同。因此目前CRC的分期不足以预测疾病的临床过程或治疗结果。癌症分类的改进对于抗癌药物的发现是至关重要的。目前,基于其可用性 (availability)、对小鼠中肿瘤形成的适应性以及培养中的生长和其他参数选择临床前模型,但它们不代表亲本肿瘤的遗传异质性。这导致临床试验中对在临床前模型中已显示卓越反应的试剂的差的反应。
结肠直肠肿瘤的表型多样性伴随相应的基因拷贝数反常模式的多样性。染色体畸变是与许多发育疾病和癌症关联的有害事件。体细胞中发生的染色体区域的扩增和缺失被认为是导致癌症的主要因素之一。因此结肠直肠癌中基因拷贝数模式的系统性检查可能用作结肠直肠癌的基于基因组学的分子分类学的基础。可通过经典细胞遗传学分析或荧光原位杂交(FISH)个别地检测具有预后意义的反复染色体畸变(Recurrent chromosomal aberration) (Levsky和Singer,2003)。然而,FISH分析不能检测整个遗传学异常谱,因为其只查询有限组的由应用的探针小组限定的染色体基因座。更有利的诊断工具将基于疾病的精确分类。其将使得能够进行合理的患者选择以进行可确定受试者的CRC的遗传状态的治疗。发明概述在第一方面,本发明涉及用于获得结肠直肠癌基因组亚组的数据库的方法,所述方法包括步骤(a)获得多个,m个,包含至少一个CRC细胞的样品,其中所述样品包含细胞系或肿瘤;(b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集;(c)鉴定数据集中被正常细胞污染的样品并且从数据集消除所述被污染的样品, 其中鉴定和消除包括(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法 (machine learning algorithm);(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;(3)从数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;(d)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法 (unsupervised clustering algorithm)估计数据集中亚组的数巨 r ;(e)利用改进的基因组非负矩阵因子分解(modified genomic Non-negative Matrix Factorization) (gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括(1)利用公式(11)计算每100步乘性更新(multiplicative updating)后算法的
散度
权利要求
1.用于获得结肠直肠癌基因组亚组的数据库的方法,所述方法包括步骤(a)获得多个,m个,包含至少一个CRC细胞的样品,其中所述样品包含细胞系或肿瘤;(b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集;(c)鉴定数据集中被正常细胞污染的样品并且从数据集消除所述被污染的样品,其中鉴定和消除包括(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;(3)从数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;(d)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r;(e)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括(1)利用公式(11)计算每100步乘性更新后算法的散度
2.分类CRC肿瘤或细胞系的方法,包括(a)提供通过方法开发的数据库,所述方法包括(i)获得多个,m个,包含至少一个CRC肿瘤或细胞系的样品;( )获得第一数据集,所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息;(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品,其中鉴定和消除包括(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;(3)从第一数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;(iv)通过对数据集应用使用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r;(ν)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括(1)利用公式(11)计算每100步乘性更新后算法的散度
3.权利要求1或2的方法,其中所述无监督聚类算法是等级聚类。
4.权利要求1或2的方法,其中将同表象相关用于提供来自数据集的簇的终数目。
5.权利要求1或2的方法,其中将贝叶斯信息准则用于提供来自数据集的簇的终数目。
6.权利要求1或2的方法,其中将同表象相关和贝叶斯信息准则用于提供来自数据集的簇的终数目。
7.权利要求1或2的方法,其中多个样品,m,包含第一、第二和第三细胞系,其中所述第一细胞系选自 HCT-8、LS 174T、SK-CO-U SW48、DLD-U HCT-15, HCTl 16、LoVo,CL-34、CL-40、C170 和 LS180 ;所述第二细胞系选自 Caco-2、LS1034、LS411N、LS513、NCI-H498、NCI-H747、SWl 116、 SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678 和 Sff-480 ;以及所述第三细胞系选自 Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205 和 Colo-206F。
8.权利要求1或2的方法,其中多个样品,m,由HCT-8、LS174T、SK-CO-U SW48、 DLD-UHCT-15,HCT116、LoVo,CL-34、CL-40、C170、LS180、Caco-2,LS1034、LS411N、LS513、 NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29, SW620、CL-IU CL-14, Colo-678, Sff-480, Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205 和 Colo_206F 细胞系组成。
9.分类用于抑制或杀伤结肠直肠癌(CRC)细胞的治疗性干预的方法,其包括(a)从一小组按照基因组亚组分类的CRC细胞,从每一个亚组选择至少一个CRC细胞系,其中根据下述方法装配小组,所述方法包括(i)获得多个,m个,包含至少一个CRC肿瘤或细胞系的样品; ( )获得第一数据集,所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息;(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品,其中鉴定和消除包括(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;(3)从第一数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;(iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r;(ν)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括(1)利用公式(11)计算每100步乘性更新后算法的散度
10.权利要求9的方法,其中所述无监督聚类算法是等级聚类。
11.权利要求9的方法,其中同表象相关用于提供来自数据集的簇的终数目。
12.权利要求9的方法,其中贝叶斯信息准则用于提供来自数据集的簇的终数目。
13.权利要求9的方法,其中同表象相关和贝叶斯信息准则用于提供来自数据集的簇的终数目。
14.权利要求9的方法,其中所述CRC细胞来自细胞系。
15.权利要求9的方法,其中多个样品,m,包含第一、第二和第三细胞系,其中所述第一细胞系选自 HCT-8、LS 174T、SK-CO-U SW48、DLD-U HCT-15, HCTl 16、LoVo,CL-34、CL-40、C170 和 LS180 ;所述第二细胞系选自 Caco-2、LS1034、LS411N、LS513、NCI-H498、NCI-H747、SWl 116、 SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678 和 Sff-480 ;以及所述第三细胞系选自 Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205、和 Colo-206F。
16.权利要求9的方法,其中多个样品,m,由HCT-8、LS174T、SK-CO-U SW48、DLD-U HCT-15、HCT116、LoVo, CL-34、CL-40、C170、LS180、Caco-2, LS1034、LS411N、LS513、 NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29、SW620、CL-IU CL-14、Colo-678、 Sff-480, Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205 和 Colo_206F 细胞系组成。
17.权利要求9的方法,其中治疗性干预包括选自放射疗法和化学疗法的至少一种。
18.权利要求17的方法,其中所述治疗性干预是化学疗法,并且所述化学疗法包括施用至少一种药物组合物,其包含选自氟尿嘧啶、卡培他滨、甲酰四氢叶酸和奥沙利钼的活性剂。
19.权利要求18的方法,其中所述化学疗法包括施用两种或更多种活性剂。
20.装配用于分类来自样品的CRC细胞的探针小组的方法,包括(a)装配数据库,包括(i)获得多个,m个,包括至少一个CRC肿瘤或细胞系的样品;( )获得包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的第一数据集;(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品,其中鉴定和消除包括(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;(3)从第一数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;(iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中的亚组的数目r;(ν)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括(1)利用公式(11)计算每100步乘性更新后算法的散度
21.包括权利要求20的探针小组的试剂盒。
22.权利要求21的试剂盒,其中每一个探针是FISH探针。
23.用于分类CRC肿瘤样品或细胞系的试剂盒,其包括 (a)装配数据库的说明书,其包括用于如下方面的说明书 (i)获得多个,m个,包含至少一个CRC肿瘤或细胞系的样品;( )获得第一数据集,所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息;(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品,其中鉴定和消除包括(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;(3)从第一数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;(iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r;(ν)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括(1)利用公式(11)计算每100步乘性更新后算法的散度
全文摘要
本发明涉及允许按照基因组概况分类结肠直肠癌细胞的方法和试剂盒,以及诊断、预测临床结果和使患者群体分层以使用所述方法进行临床试验和治疗的方法。
文档编号G06F19/24GK102203787SQ200980143536
公开日2011年9月28日 申请日期2009年10月28日 优先权日2008年10月31日
发明者D·塞米扎罗夫, K·张, R·R·列斯尼夫斯基, 卢欣 申请人:雅培制药有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1