用于装配成小组的癌细胞系以用于测试一种或多种药物组合物的功效的方法

文档序号:6408318阅读:359来源:国知局
专利名称:用于装配成小组的癌细胞系以用于测试一种或多种药物组合物的功效的方法
用于装配成小组的癌细胞系以用于测试一种或多种药物组
合物的功效的方法相关申请信息本申请要求对2008年10月31日提交的美国申请No. 61/110,的优先权,所述申请的内容在此引入作为参考。序列表本申请包括已通过EFS-Web提交并且因此整体引入作为参考的序列表。所述 ASCII拷贝命名为9674W001. txt,且大小为1. 8千字节。领域本发明涉及用于限定肿瘤和癌细胞系的基因组亚组的生物信息学算法或方法。本发明还涉及按照基因组亚组装配(assembling)成小组(panels)的肿瘤和癌细胞系以用于测试一种或多种药物化合物在患有至少一种癌症的受试者的治疗中的功效的方法。盤癌症是特征在于临床过程、结果和对治疗的应答的相当大变异性的基因组的疾病。该变异性背后的主要因素是人癌症的遗传异质性。已证明相同组织病理学亚型的个别肿瘤在其细胞DNA中具有不同的畸变。公认的是靶向的癌症疗法靶向特定的遗传畸变而非组织学疾病亚类。靶向分子异常的药物的一些实例是甲磺酸伊马替尼(imatinib mesylate)(其用于治疗慢性髓细胞性白血病)和司徒曼步(其用于治疗HER2阳性乳腺癌)O目前,基于其可用性(availability)、对小鼠中肿瘤形成的适应性、培养中的生长以及其他参数选择用于肿瘤学药物测试(oncology drug testing)的临床前模型。对于该方法的问题是其未考虑亲本肿瘤的遗传异质性。这导致临床前试验过程中肿瘤的分子亚类的差的代表。因此,经常在临床前试验中看到的高反应率可能只代表临床前试验实验室中代表的分子亚类的反应。如果该亚类只代表患者群体的一部分,并且如果药物只针对该具体亚类有效,那么临床中的反应将是显著较低的。因此,本领域内需要更好地代表所有亲本肿瘤类型的改进的临床前试验模型。这样的改进的临床前试验将增加新型药物的临床前试验的可预测性。发明概述在一个方面,本发明涉及用于聚类肿瘤和细胞系以限定基因组亚组的算法。所述算法包括步骤(a)获得多个,m个,包含至少一个肿瘤或癌细胞系的样品;(b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集;(c)鉴定数据集中获自被正常细胞污染的样品的拷贝数改变信息并且从数据集消除所述被污染的样品,其中鉴定和消除包括(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法 (machine learning algorithm);
(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;(3)从数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;(d)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法 (unsupervised clustering algorithm)估计数据集中亚组的数巨 r ;(e)利用改进的基因组非负矩阵因子分解(modified genomic non-negative matrix factorization) (gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括(1)利用公式(1)计算每100步乘性更新(multiplicative updating)后算法的散度
权利要求
1.用于聚类肿瘤和细胞系以限定基因组亚组的算法,所述方法包括步骤(a)获得多个,m个,包含至少一个肿瘤或癌细胞系的样品;(b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集;(c)鉴定数据集中获自被正常细胞污染的样品的拷贝数改变信息并且从数据集消除所述被污染的样品,其中鉴定和消除包括(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;(3)从数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;(d)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r;(e)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括(1)利用公式(1)计算每100步乘性更新后算法的散度
2.权利要求1的算法,其中所述无监督聚类算法是等级聚类。
3.权利要求1的算法,其中同表象相关用于提供来自数据集的簇的终数目。
4.权利要求1的算法,其中贝叶斯信息准则用于提供来自数据集的簇的终数目。
5.权利要求1的算法,其中将同表象相关和贝叶斯信息准则用于提供来自数据集的簇的终数目。
6.按照基因组亚组装配成小组的肿瘤和癌细胞系的方法,所述方法包括步骤(a)获得多个,m个,包含至少一个肿瘤或癌细胞系的样品;(b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集;(c)鉴定数据集中获自被正常细胞污染的样品的拷贝数改变信息并且从数据集消除所述被污染的样品,其中鉴定和消除包括(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;(3)从数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;(d)通过对数据集应用使用Pearson线性相异性算法的无监督聚类估计数据集中亚组的数目r;(e)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括(1)利用公式(1)计算每100步乘性更新后算法的散度
7.权利要求6的方法,其中所述癌症选自小细胞肺癌、非小细胞肺癌、结肠直肠癌和黑色素瘤。
8.权利要求6的方法,其中所述拷贝数改变是拷贝数的获得或丧失。
全文摘要
本发明涉及用于限定肿瘤和癌细胞系的基因组亚组的算法。本发明还涉及用于根据基因组亚组装配成小组的肿瘤和癌细胞系以用于测试一种或多种药物化合物在患有至少一种癌症的受试者的治疗中的功效的方法。
文档编号G06F19/24GK102203788SQ200980143442
公开日2011年9月28日 申请日期2009年10月28日 优先权日2008年10月31日
发明者D·塞米扎洛夫, K·张, R·R·列斯尼夫斯基, 卢欣 申请人:雅培制药有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1