前列腺癌的筛查、预后、诊断或治疗反应的预测方法和实施所述方法的装置的制作方法

文档序号:6595080阅读:304来源:国知局
专利名称:前列腺癌的筛查、预后、诊断或治疗反应的预测方法和实施所述方法的装置的制作方法
技术领域
本发明的领域涉及疾病的筛查、诊断、预后或治疗反应以及在复杂和多因素疾病, 例如癌症尤其是前列腺癌的情况中的药物副作用的个体预测方法。本发明提供了评估个体对于出现癌症特别是前列腺癌的易感性的方法和工具,用于引入早期诊断或筛查,这通过将以复杂方式连接的众多临床和/或遗传输入数据进行组合而获得。
背景技术
目前,工业化国家人群中普遍存在多种形式的癌症,尤其是前列腺癌,其发生率在近年显著增加。建议的诊断和治疗都要求进行侵入性的昂贵操作。目前开发确定风险人群或处置策略的方法都是根据检验(肿瘤标记物,分子标记等)或从列线图类型的线性函数所获得的结果建议阳性或阴性预测值(癌/非癌),但它们的可靠性小于80%且这些结果在个体水平上罕有重复性。目前,已经提出议通过前列腺特异性抗原(PSA)的血液检验评估前列腺癌风险, 该抗原是用于决定是否用活组织切片类型的侵入性操作进行前列腺癌的组织学确认的参考标记,通常是在某些方案中检测的测量水平高于如g/ml,或甚至为2. 5ng/ml。血液PSA水平在^g/ml以上,敏感性是30%,这表示在总PSA水平高于^g/ml的人当中,仅3/10患有前列腺癌。在如8/1111的阈值,PSA检验的特异性达到80%,这表示当PSA阈值小于如8/1111时, 8/10真的没患有前列腺癌。为了反映个体问题,发展了编入几个参数的评估列线图类型风险的工具,并特另1J 在其月干 1J [S. F. Shariat, P. I. Karakiewicz, C. G. Roehrborn 禾口 M. W. Kattan, An updated catalog of prostate cancer predictive tools, Cancer (113), p. 3075-99, 2008]中有描述。列线图是用于决策制定的统计学工具,其包括从几百个前列腺癌确诊案例的具体观察结果中获得的信息。这些工具可在决策制定期间帮助患者和医生。它们提供了由之前治疗的前列腺癌中获取的许多临床数据计算而得的预测。它们是根据多线性回归构建的计算尺(slide rule)或列线图(abacus)。这些列线图具有80%的平均精确度,这还是不够的。然而患者还是从中获得了不可否任的优势,因为很多临床医师和健康保健专家都发现列线图没有偏倚和主观性。通过举例的方式,Fondation de Recherche Canadienne sur Ie Cancer de la Prostate [力口拿大前列腺癌石if究基金会(Canadian Foundation for Research on Prostate Cancer)]提出了 12个问题和相关预测工具。用于这类预测工具的现存方案通常大部分都是基于使用相对于参数建模的线性方法所收集的临床和评估数据。所开发的方法可靠性不够,使其不可能进行等级预测,例如癌症风险、癌症快速发展风险、足够低的癌症治疗抗性风险。在好的个性化医疗概念中决策能理想地考虑患者特异性的特征,例如组成型遗传数据或家族史。在前列腺癌情况中,这些关于癌症易感性的信息数据进行适当模式化,就可能帮助患者和专家决定相关的进入筛查过程的年龄和阳性活组织检查的风险,甚至可决定被诊断的患者的处置。这是因为一些遗传标记与前列腺癌的进攻性是相关的[O.Cussenot 等,Effect of genetic variability within 8q 24 on aggressiveness patterns at diagnosis and familial status of prostate cancer,Clin Cancer Res(14)pp 5635-9; 2208],并因此能帮助决定相关治疗,通常是对局部形式的癌的彻底前列腺切除术。事实上, 本发明涉及的癌症易感性概念可用于多种临床情况。对相关标记的搜寻代表了预测医学的挑战。它不仅有关基因组学也是有关数学的技术挑战。关于前列腺癌成因和进展的病因学是复杂的,且是组成型遗传因素、获得性组织因素和环境因素之间多重随机作用的结果。对于遗传因素是重要的前列腺癌病因学的确信来自于对某些家族中众多病例的观察[Carter BS Mendelian inheritance of familial prostate cancer, PNAS (89) 3367-7 (1992)]。有可能证实高度外显的突变(即它的存在意味着患病概率很高),例如BRCAl基因;参见例如[J.A Douglas等,Common variation in the BRCAl gene and prostate cancer risk Cancer Epidemiol Biomarkers Prev(16)pp 1510-6(2007)] ο仅有5%前列腺癌病例表现出符合最简单的孟德尔遗传模式[G. Cancel-Tassin and 0. Cussenot Prostate cancer genetics Minerva Urol Nefrol(4)p289_300(2005)]。 研究低外显的等位基因之间,即在每个等位基因只参与少量肿瘤发生过程的模式的模型中更复杂的相互作用已取代了对候选基因的突变搜寻。因而,对于用于全面识别基因组中可能涉及前列腺癌易感性的点的遗传标记的搜寻引发了关联研究的开展,例如“基因组范围的关联研究”,其生成覆盖尽可能多的人类基因组的DNA序列多态性的基因型数据。通过对比对照个体和患有前列腺癌的个体所生成的这种基因型可能识别与目标病理状态统计相关的多态性。对于前列腺癌,三种GWAS研究是目前的基准;Gudmimdsson, J.等,Genome-wide association study identifies a second prostate cancer susceptibility variant at 8ql4 Nat Genet(39)ρ 631-7(2007),Thomas G.等,Multiple loci identified in a genome-wide association study of prostate cancer Nat Genet (40)ρ 310-5(2008)禾口 Eeles,R. A. Multiple newly identified loci associated with prostate cancer susceptibility Nat Genet (40)316-21(2008)。预测医学的第二个挑战在于变量的模型关联[E. F. Easton Genome-wide association studies in cancer Hum Mol Genet (17) R109-15 (2008)],变量组合的复杂分析是算法研究的特定领域。

发明内容
在本文中,本发明提供了基于收集非常大量临床数据关联的遗传数据的癌症的 (特别适合前列腺癌)的筛查或诊断或预后或治疗反应的个体预测方法,该方法包括产生可以投送有利于进一步用于确认程序的风险值的高级模型。更具体而言,本发明的主题是前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其包括收集个体输入数据(xi),提供与疾病类型相连的风险的预测信息(y),其特征在于-收集代表性信息,其是患者的遗传信息和/或临床信息的结果,以获得所述的个体数据;-使用数据捕捉装置获得个体数据(Xi);-通过统计学习构建至少一种模型以生成预测工具,该模型的输入变量是所述的代表性信息;-遗传输入信息包括以下变量之中的至少一个变量或变量组合(所引用的所有核苷酸定位都符合2006年3月组装的“UCSC基因组浏览器”的定义的那些核苷酸定位)-定义与4号染色体中1276(^673-1^447913区间的SNPrs2174183和/或它的一个或多个邻位相连的基因型的变量;-定义与2号染色体中37855761-38126567区间的SNPrs7576160和/或它的一个或多个邻位相连的基因型的变量;-定义与2号染色体中241767109-242119399区间的SNPrs2012385和/或它的一个或多个邻位相连的基因型的变量;-定义与17号染色体中63815611-64165896区间的SNPrs888298和/或它的一个或多个邻位相连的基因型的变量;-定义与19号染色体中62(^6584-62^4837区间的SNPrs8110935和/或它的一个或多个邻位相连的基因型的变量;-定义与11号染色体中17464539-17757162区间的SNPrs2190453和/或它的一个或多个邻位相连的基因型的变量;-定义与1号染色体中210157195-210446272区间的SNPrs2788140和/或它的一个或多个邻位相连的基因型的变量;-定义与1号染色体中149382371-149874970区间的SNPrs3828054和/或它的一个或多个邻位相连的基因型的变量;-定义与3号染色体中11630M46-117011700区间的SNPrsl499955和/或它的一个或多个邻位相连的基因型的变量;-定义与3 号染色体中 69049525-69153397 区间的 SNP rs4855539和个或多个邻位相连的基因型的变量;-定义与7 号染色体中 27414591-27808301 区间的 SNP rsll526176和个或多个邻位相连的基因型的变量;-定义与11 号染色体中 99092040-99333419 区间的 SNP rs7934514和个或多个邻位相连的基因型的变量;-定义与1号染色体中236815776-236998150区间的SNPrs6681102和/或它的一个或多个邻位相连的基因型的变量;-定义与15号染色体中38991207-39584443区间的SNPrs6492998和/或它的一个或多个邻位相连的基因型的变量;-定义与2号染色体中113062733-113411386区间的SNPrs2048873和/或它的
/或它的一 /或它的一 /或它的一
9一个或多个邻位相连的基因型的变量;-定义与2号染色体中121110M-123M507区间的SNPrs4669835和/或它的一个或多个邻位相连的基因型的变量;-定义与18号染色体中2390769514187878区间的SNPrsl2605415和/或它的一个或多个邻位相连的基因型的变量;-定义与4号染色体中39097014-39163238区间的SNPrs749915和/或它的一个或多个邻位相连的基因型的变量;-定义与7号染色体中1040(^818-104863625区间的SNPrsl3226041和/或它的一个或多个邻位相连的基因型的变量;-定义与17号染色体中6133M48-62195826区间的SNPrs721429禾Π /或它的一个或多个邻位相连的基因型的变量;-定义与16号染色体中84725899-84776802区间的SNPrs2352946和/或它的一个或多个邻位相连的基因型的变量;-定义与6号染色体中70074721-70679396区间的SNPrs9364048和/或它的一个或多个邻位相连的基因型的变量;-定义与2号染色体中79446556-79664842区间的SNPrs6755695和/或它的一个或多个邻位相连的基因型的变量;-定义与19号染色体中4098195-4506560区间的SNPrsll38253和/或它的一个或多个邻位相连的基因型的变量;-定义与10号染色体中四;356293-29651117区间的SNPrsl773842和/或它的一个或多个邻位相连的基因型的变量;-定义与14号染色体中43257771-43665346区间的SNPrsl0148742和/或它的一个或多个邻位相连的基因型的变量;-定义与7号染色体中47461234-47557773区间的SNPrsl0245886和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与4号染色体中 127602673-128447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和/或定义与2号染色体中37855761-38126567区间的SNP rs7576160和/或它的一个或多个邻位相连的基因型的变量和/或定义与2号染色体中M1767109-M2119399区间的SNP rs2012385和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与4号染色体中 127602673-128447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和/或定义与11号染色体中17464539-17757162区间的SNP rs2190453和/或它的一个或多个邻位相连的基因型的变量和/或定义与17号染色体中63815611-64165896区间的SNP rs888298和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与4号染色体中 127602673-128447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和/或定义与1号染色体中210157195-210446272区间的SNP rs2788140和/或它的一个或多个邻位相连的基因型的变量和/或定义与11号染色体中99092040-99333419区间的SNP rs7934514和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与4号染色体中 127602673-128447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和/或定义与1号染色体中149382371-149874970区间的SNP rs3828054和/或它的一个或多个邻位相连的基因型的变量和/或定义与3号染色体中11630M46-117011700区间的SNP rsl499955和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与4号染色体中 127602673-128447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和定义与19号染色体中62(^6584-62四4837区间的SNP rs8110935和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与4号染色体中 127602673-128447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和定义与3号染色体中69049525-69153397区间的SNP rs4855539和/或它的一个或多个邻位相连的基因型的变量和/或定义与8号染色体中1观539973-1观619555区间的 SNP rs4242382和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与15号染色体中 38991207-39584443区间的SNP rs6492998和/或它的一个或多个邻位相连的基因型的变量和定义与7号染色体中27414591-27808301区间的SNP rsll526176和/或它的一个或多个邻位相连的基因型的变量和定义与1号染色体中236815776-236998150区间的SNP rs6681102或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与1号染色体中 218280585-218521047区间的SNP rsl511695和/或它的一个或多个邻位相连的基因型的变量和定义与2号染色体中121110M-123M507区间的SNP rs4669835和/或它的一个或多个邻位相连的基因型的变量和定义与18号染色体中23907695-M187878区间的SNP rsl260M15或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应四个癌症史变量的组合年龄类目变量,定义与8号染色体中1沘539973-1沘619555区间的SNP rs4242384和/或它的一个或多个邻位相连的基因型的变量,和定义与6号染色体中70074721-70679396区间的SNP rs9364048 和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与4号染色体中 39097014-39163238区间的SNP rs749915和/或它的一个或多个邻位相连的基因型的变量和定义与7号染色体中104002818-104863625区间的SNP rsl3226041和/或它的一个或多个邻位相连的基因型的变量和定义与17号染色体中61335448-621958 区间的SNP rs721429和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与16号染色体中 84695541-84776802区间的SNP rs2352946和/或它的一个或多个邻位相连的基因型的变量和定义与2号染色体中79446556-79664842区间的SNP rs6755695和/或它的一个或多个邻位相连的基因型的变量和定义与19号染色体中4276183-4276683区间的SNPCN 102171698 A rsll38253和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与4号染色体中 127602673-128447913区间的SNP rsl3148138和/或它的一个或多个邻位相连的基因型的变量和定义与10号染色体中四356293-29651117区间的SNP rsl773842和/或它的一个或多个邻位相连的基因型的变量和定义与14号染色体中rsl0148742区间的SNP rsl0148742 和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与4号染色体中 127602673-128447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和定义与7号染色体中27414591-27808301区间的SNP rsll526176和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,输入数据对应以下变量的组合定义与2号染色体中 113062733-113411386区间的SNP rs2048873和/或它的一个或多个邻位相连的基因型的变量和/或定义与3号染色体中60928379-60979489区间的SNP rs6804627和/或它的一个或多个邻位相连的基因型的变量和定义与7号染色体中47461234-47557773区间的SNP rsl0245886和/或它的一个或多个邻位相连的基因型的变量。根据本发明的一个变体,个体预测方法涉及前列腺癌的筛查、诊断、预后或治疗反应,数据是临床类型,例如涉及患者年龄、体重、身高、癌症的个人和家族史的个体数据,生物学类型,例如PSA水平,和遗传类型,例如识别被认为与疾病发展关联的和选自上述列表的遗传多态性标记。根据本发明的一个变体,本发明的方法包括“学习”过程-建立由输入数据UJ和被证明结果(yj组成的实例(Bex)数据库;-通过统计学习构建至少一个优化模型,包括以下步骤 选择多变量函数族(F) (fi; . . . , fi . . . fN); 对于给定的函数fi;产生通过调整参数θ j定义的模型以便通过模型ym = ^(Xffli, θ j)递送的估值尽可能地接近被证明的结果y_;的估值;·比较不同估值以便定义函数fi;函数&是优化的fi()p,函数&使其可能定义优化模型。-由所述个体数据(Xi)开发所述优化模型,以便提供关于疾病相关风险的所述预测信息(y)。根据本发明的一个变体,本发明包括平行构建一组优化模型,每个模型是由一个函数族(Fk)产生,关于疾病相关风险的预测信息基于优化模型组的开发而获得。根据本发明的一个变体,本发明包括-由实例库建立学习库(BA)和验证库(BV);-通过比较用属于学习库的输入数据组构建的模型获得的所述预测结果和用属于验证库的类似输入数据组获得的被证明结果验证预测结果(/)的过程。根据本发明的一个变体,对于包含N个数据的给定库,方法包括通过随机取样(无更换)属于实例库的M个数据进行学习库的构建,剩余的N-M个数据组成验证库。根据本发明的一个变体,函数族是MLP(多层感知器)类型,神经元网络族的子集, 或支持向量机(SVM)类型或关联向量机(RVM)类型或涉及最近邻法的频率论者模型类型。
12
根据本发明的一个变体,在区别的情况下用互熵评分类型_[/log(f(X, 0) + (l-y*)log(l-f(x, θ)]或记录为-log(p(y|x,θ)并符合由参数X和θ获得y的概率的对数似然准则类型或在回归的情况下二次偏差类型(f(X,Θ)-Υ*)2的成本函数比较模型ym = ^(Xffli, θ j)递送的估值与被证明的结果y_;。根据本发明的一个变体,用类似于模型递送的估值与被证明结果/之间的比较所用的成本函数进行用属于学习库的输入数据组构建的模型获得的所述预测结果与用属于验证库的输入数据组获得的被证明结果之间的比较。根据本发明的一个变体,通过融合由两组不同变量构建的和不同函数族获得的优化模型可获得建模的最终结果。在该融合阶段,有用的是选择要融合的模型以及要执行的融合方法(模型反应手段、产品、多数投票、Choquet积分、Sugeno积分[Ludmila I. Kuncheva, James C. Bezdek 禾口 Robert P. W. Duin. Decision templates for multiple classifier fusion -.an experimental comparison. Pattern Recognition, 34 :299-314, 2001])。这是因为融合所有构建的优化模型存在的策略通常是不令人满意的。需要从所有构建的优化模型中选择模型的优化子集,同时依赖于优化方法,例如遗传算法。根据本发明的一个变体,个体临床数据对应四个癌症史变量和一个年龄类目变量的组合,所述历史变量分别涉及乳腺癌家族史、前列腺癌史、癌症个人史和其他癌症家族史。本发明的主题也是用于前列腺癌的筛查、诊断或预后、治疗反应的个体预测装置, 其包括用于用户获得个体信息数据的第一装置,至少一个在其上操作所述第一装置的第一软件界面,其特征在于其还包括使用本发明所述方法和提供关于前列腺癌相关风险的预测信息的软件。根据本发明的一个变体,关于风险的所述预测信息通过所述软件界面返回至用户。根据本发明的一个变体,装置还包括第一获取装置和软件之间的通信装置,其实现信息数据和预测信息的传输。根据本发明的一个变体,装置还包括第二个体信息数据获取装置和第二软件界面,第一获取装置涉及临床类型信息的获取,第二装置涉及来源于个体样品的信息的获取。


阅读以下无限制意义的描述并借助以下附图将能更清楚地理解本发明并显现其他优势-图1图示了概述实例库、实际结果和预测结果之间相互作用的图解。-图2图示了神经元网络类型的代表。-图3a_;3e分别图示了用作为输入变量的年龄类目和分别与SNPrs2969612, rsll67190、rsl314813、rs2174183和rsl6047M相关的基因型进行多层感知器类型的算法在区分患有前列腺癌的患者和对照上的成绩;-图4图示了使用的第一实例,其中医师植入软件工具。-图5图示了使用的第二实例,其中提供预测结果的专家集中软件工具。-图6图示了使用在上述NatureGenetics文章的ρ值方向的包括SNP rs4242382
13的最好3个SNP的NGl模型获得的成绩和使用被认为与本申请人的方法协同的包括SNP rs4242382的3个SNP的Bl模型获得的成绩之间的比较。-图7 图示了用[Zheng SL, Sun J, Wiklund F 等,Cumulative association of five genetic variants with prostate cancer, NEngl J Med 2008 ;358 :910-9]所述的 5个SNP和本发明建立的年龄和病史变量数据库所构建的NEJM模型获得的成绩,与使用本发明所公开的SNP的D2模型获得的成绩和本发明所述融合模型获得的成绩之间的比较。-图8图示了用^iengSL等人所述的5个SNP和本发明建立的年龄和病史变量库所构建的NEJM模型获得的成绩,和使用本发明所公开的SNP的D2模型获得的成绩之间的比较,所述D2模型不使用病史变量;-图 9 图示了使用 G. Thomas 等,Multiple loci identified in a genome-wide association study of prostate cancer, Nature Genetics, vol40, num3, March 2008 公开的最好3个SNP的NGl模型获得的成绩,与D2模型获得的成绩和融合模型获得的成绩之间的比较;-图10图示了NGl模型获得的成绩和D2模型获得的成绩之间的比较,所述模型不
使用病史变量;-图11图示了使用根据本发明选择的7个SNP的B2模型获得的成绩和使用在上述Nature Genetics文章的ρ值方向的最好的7个SNP和病史的NG2模型获得的成绩之间的比较;-图12图示了上述模型的“AUC”成绩。
具体实施例方式本发明的益处尤其在于制造医生可用的工具,其能帮助为他们的患者作个性化治疗的决策。它的新颖性在于专门数据库和多维统计分析的组合。因此,用户可受益于来自医学、生物学、遗传学、数学的多种学科探索研究的知识和客观结果。这个专家系统的医学效果也是经济的,因为它可让医师更好地检测早期和可医治阶段的疾病,降低与侵入性诊断和治疗方法相关的成本和副作用。最后,对于患者,目标是获得其病状的优化处置,降低治疗过度的风险,增加其生命期望并改善其生活质量。根据本发明,预测工具是借助上游构建统计学习模型而产生的。以下我们将描述构建的原理。在本文统计学习理论中构建的模型通常是参数化的数学函数f,其包括可调整参数θ并属于更大函数族F。该函数使其可能递送估值y作为许多输入χ的函数,χ是问题的输入变量。在本发明的情况中 输入χ是遗传类的信息和/或临床类信息的编码结果,其主要源于患者调查表; 当输入X是定性的(或类目的)变量,这些变量的编码必须是数值,以便使其可在构建和作为估值使用的情况下的模型直接利用。通过举例方式,对于前列腺癌家族史的信息,编码可包括将定性变量“我的祖父,,编码成数值“ 1 ”,其包括所有的二级亲属。编码不应该掩饰或混淆信息,它应该是相关的。在前述实例中,如果希望区分或不区分母系祖父疾病和父系祖父疾病,可以精炼编码。数据的编码是创造性的,它的性质(详尽性,相关性)部分决定了解决所列区别问题的概率。编码不必须是二元的,类目的数量(以及因此的可能的数值) 取决于定性变量的状态的数量。对于给定的SNP,在人群中有两个等位基因A和B,个体可能是AA BB或AB基因型,该编码是三元的。如果人群中加入了等位基因C,加入的组合就是 CC CA CB,因此编码具有6个类目。 估值y,是由模型递送的,是患者类型(癌症/非癌)或患癌症的风险。该估值y可认为是依赖于输入χ和参数θ的函数f。建立模型的整体困难在于参数θ的调整。这些参数θ在所谓学习期被调整,其需要实例和使用专门算法。通常,通过统计学习构建的所有模型都需要实例。事实上,作为能够学习的系统, 这些模型采用归纳法原理,即通过经验学习。实例库是由一组N对(X,/)组成,其代表模型希望研究的过程。如上所述,变量χ是一组输入值中的一个值,y*是与这些输入相关的实际输出,其被认为是希望估计的真相(例如专家递送的癌症/无癌诊断)。该数据库以N列表格的形式表示,其中每列代表一个实例(个体的输入值及其相关种类)。学习的目标是由这N个实例构建模型,以便最终评估专家对于从未遇到的新病例将给出的反应。在此情况中使用 “普遍化的能力”的表述。在建立模型的程序中,将选择递送最佳普遍化能力的那个。数据的代表性是非常重要的概念,因为它决定了所构建模型的质量,还因为由模型学习的信息通过N个实例被包含在库中。表述“代表性”应理解成表示库中所含病例的详尽特征。也就是说它应该确保模型已经经历了一组类似于今后用作评估者所遇见的病例的病例。因此组成学习库的阶段是关键步骤且应该严格进行。以下段落描述了根据学习库的组成元素,学习算法如何调整模型参数。图1图示了概述实例库Bex、实际结果和预测结果之间相互作用的图解。在学习阶段期间,算法修正了模型的可调整参数θ,以便估值y尽可能地接近被证明结果的,也称为“监督者”/。因此,通过作用于参数θ最小化的标准是模型的反应和可用病例中监督者的反应之间的偏差。根据所处理的问题,该偏差可通过多种方式获得,并被称为“成本函数”。通常地,所寻找来最小化的“成本函数”可以例如是以下函数中的一个 在区别的情况下互熵评分(其等于评估给定种类的附件)
-[/ log(/(x,θ)) + (1-y )log(l-/(χ,θ))]; 对数似然准则记为-log (P (y I χ,θ )),并且符合由输入X和参数θ获得y的概率; 回归情况下的二次偏差(f(x,θ)-/)2。因此,学习阶段包括在优化算法的帮助下为函数族F的函数&寻找一组参数θ, 其在所有实例中能最小化成本函数。然而,能够预测已知信息的模型是没有益处的。需要确保它能够正确预测非现存的但代表学习库中的病例,且其遵守与学习中所用的那些定律相同的定律。这就是为什么实例库通常分成用于调整模型参数的学习库ΒΑ,和用于检验所选模型并验证其稳健性的验证库BV,也称为验证库。两组的重要事项是尽可能一方面代表总体实例库,另一方面代表处理的问题。如果学习库不是,就存在非正确模拟所寻找现象的风险。如果验证库不是,就存在验证评分中对模型成绩给出错误观点的风险,如果实例库不代表实际病例,无法从中衍生实践应用。当存在足够的可用数据,通过在实例库元素中随机取样构建两组(学习库和验证库)。从而,在N个元素的基础上,随机选择M个用于训练,剩余(N-M)个用于验证。对于验证评分不依赖于单分区总库特别取样成学习库和验证库,程序重复多次。因此,我们将更详细地描述本发明提出的过程。在第一步骤中,选择函数族F,选择取决于所提的问题和其先验知识。通常地,在本发明的环境中,所遇问题落入了区别问题的类目中,就是说寻求的是将新的个体分类到两组中患者或对照。在第二步骤中,选择属于函数族F的一类函数&。在第三步骤中,通过调整参数θ并通过学习程序构建优化模型&&,θ)。用η-1个函数重复该模型的构建,以便验证足够类型的函数f1; f2,. . .,fn,并比较它们的优化模型的各自质量。在第四步骤中,选择使优化模型具有最佳验证评分的函数fi;从而决定“最佳普遍化”的所谓函数fi。在第五步骤中,用学习库的所有实例评估预测步骤中所选函数的参数θ。因此,由个人输入数据Xi获得优化模型fi。p (χ, θ),其能够提供预测结果y。在众多可用函数族中,特别提及以下族· MLP (多层感知器),神经元网络族的子集, 对数回归(MLP族的子集); 支持向量机(SVM); 关联向量机(RVM); 涉及最近邻法的频率论者模型。在G.Dreyfus 等,Eyrolles 出版的参考手册〃 R6seaux de Neurones, Methodologie et Applications ‘‘ 禾口 C. Μ· Bishop, Springer 2006 的‘‘Pattern Recognition and Machine Learning"中特别描述了大部分这类函数。在〃 Sparse Bayesian learning and the relevance vector machine " , Tipping, Μ. E. (2001), Journal of Machine Learning Research 1, 211—244 中描述了关联向量机。与已用于评估风险的模型相比,上述模型的主要贡献在于统计学习模型的非线性。事实上,通常所用的模型与参数相比可以说是线性的,这诱发了更大的执行简易性,但通常是以更低预测力作为代价的。在上述模型的情况中,其与参数相比是非线性的,执行更精细但其可能-获得通常更佳的模型成绩;-检测输入变量之间的协同作用。开发输入变量之间的协同作用的概率是本发明主题的创造性特征的基本方面。它构成了在这些研究的生物学和医学发现中数学家合作的主要贡献。事实上,医生和生物学家支配的数学和统计学工具通常不可能检测这种协同作用。而且,这些算法具有高的学习能力,这对于能够确保它们的成绩是非常重要的,以便检验它们不会过度调整训练实例(从而用“熟记”或“过度学习”表述学习)。统计学习方法论使其可能通过使用验证实例解决该问题并确保所获得的模型表示通常现象而不是训练实例的特定病例。这使获得几乎没有或没有先验知识的模型现象变得可能。根据本发明,由所获得的解释性变量,例如由本发明所述的变量选择方法论制备模型,该模型能够预测反应并解释成是患者或对照的概率。在第一阶段,合理诜择樽型函数族F =该问题落入区别问题的类目中,就是说寻求的是将新的个体分类成两组患者或对照。众多函数族适合解决这些问题。一些执行起来很简单但不可能考虑变量之间的协同作用。现在,在先验知识中不知道这种关系是否存在。因此,如果它们存在,选择能够考虑其的函数族是合理的。描述简单并通常有效的族是多层感知器或MLP。它是一类神经元网络,其通常是如图2所示图解所表示的。数学式是以下形式
^ (W / (Χ, θ) = L
终+Σ明《ο+Σ6^ V =1 ν J^ JJ其中L是“对数”函数,Si是“S型”类型的函数(例如“双曲正切”函数),η是隐层神经元的数量,P是输入变量的数量而et θ表示由参数Qi* 组成的参数向量其中 1彡i彡η和1彡j彡P。需要注意如果其含有一个或两个指数,则数学对象θ是不同的。 Qij表示母体θ的元素ij (输入和隐层神经元之间的参数母体)而Qi表示隐层神经元和输出之间的参数向量的元素i。考虑到由处理的问题决定变量数量m,在建模阶段可仅选择隐层神经元数量η。这就是为什么组成处理问题的MLP族的函数是通过它们“隐层神经元”的数量独立分化的,其中的每一个都实际上代表S型函数。例如,代表由对数回归获得的模型的函数属于该族,该建模方法是医学领域公知的。事实上这是不具有隐层神经元的MLP的特定病例。在这种情况中,模型是与参数线性相关的,从而模型的构建采用与MLP情况中所用的不同的学习技术。在第二步骤,合理验证函数MLP拥有的隐层神经元数量越高,就可以模拟越多的复杂现象。事实上已经证实任何连续函数都可由具有足够多隐层神经元的MLP近似。然而,在这种情况中,仅考虑了模拟“普遍”行为,而未考虑数据库中存在的个体的特定特征。因此,为了构建尽可能普遍的模型,寻找具有优化数量隐层神经元的MLP是合理的。就这而论,可以决定先验检验具有1-5个隐层神经元的5个MLP,并构建在验证数据上评估的每个优化模型。然后,选择具有最佳普遍化力量的MLP。在第三步骤,确定验证方法考虑可用的实例数量,可以进行验证和训练组的简单随机构建。然而,因为数据包含许多无意义信息,不可能满足于单个训练/验证对,因为存在构建的模型仅适合部分问题并在其他一些情况下验证它的风险。就这而论,通过交叉验证程序评估模型。原理如下1)实例库随机分成五个子集,编号1-5。
2)子集1被用作验证组,就由子集2-5组成的子集构建成训练组。3)训练1号模型并计算其1号的验证评分。4)子集2被用作验证组,就由子集1、3、4和5组成的子集构建成训练组。5)训练2号模型并计算其2号的验证评分。6)继续程序直到每个子集都用于验证。因此会有五个验证评分。最终的验证评分是这五个评分的平均值。通过这个程序,所有数据都用于计算验证评分,使其可能避免集中在这些特定病例上。酬聚,傭i川练遍通过所提问题(区分)和函数族(MLP)部分决定了训练所用成本函数。在这种情况下,使用互熵是有利的。五舰傭IilHi平乂τΗ十制華验证评分对应于模型性质评估的测量。该评分可对应它的优良分级水平,即正确鉴别的患者和对照数量的总和除以通过验证库中个体总数。该评分计算简单且易于解释和使用,尽管它通过级别隐藏级别成绩(实际上可能发生级中的一个比另一个更好鉴别)。该评分也可以是AUC (曲线下面积),就是说图3a、;3b、3C、3d和;^图示的ROC曲线(受者作用特征)下的面积。这些图显示了在SNP rs2174183进化附近如何实施区分,因此,通过用SNP rs2969612、rsll67190、rsl314813 或 rsl604724 替换它建立 ROC 曲线。作完所有上述选择,可以运行选择“理想"MLP函数的程序。为了构建最终模型,选择可能使其获得最佳验证评分的一个。^M^m,mmm\mMmmmm0对于所谓优化最终模型,就是说有效用于计算风险的一个,在鉴别的“理想”函数中运行训练程序。所用的训练组是这次的整个实例库,因为不再需要更多验证。根据本发明更具体的变体,对于多个函数族F,也可能产生优化模型,从而导致为了提供预测结果,在使用个体输入数据处置期间,确定一组优化模型。根据本发明更具体的变体,对于多个函数族F,也可能产生优化模型,其源自从所有或部分输入变量构建的其他优化模型的融合决定。导致本发明更具体的变体的这一步骤落入了下述第七步骤的范围。在第七步骤,讲行优化樽型的信息融合。信息融合的目标是经由数学算子由组合改善决策的稳健性和可靠性、决定或函数方矣提供的评分[I.Bloch. Fusion d’ informations numeriques :panorama methodologique. Dans Journees Nationales de la Recherche en Robotique,Guidel, Morbihm,Octobre 2005]。这些算子应该在融合幵始时利用多种函数之间的互补性,而且还要考虑它们的不相关性。融合算子是众多的[Ludmila I. Kuncheva, James C.Bezdek 禾口 Robert P. W. Duin. Decision templates for multiple classifier fusion an experimental comparison. Pattern Recognition, 34 :299-314,2001]且可以基于许多数学公式,例如概率理论、可信度函数或模糊测量理论[G. J. Klir和M. J. Wierman. Uncertainty-based information. Elements of generalized information theory,2nd
18edition. Studies in fuzzyness and soft computing. Physica-Verlag,1999]。而且,统计或自动化学习算法可以用于参数融合,但它们通常需要更多信息评估融合算子先验。与所用的公式无关,融合算子可采取“逻辑AND/OR”类型、可以是条件的或基于普遍化或非普遍化贝叶斯定理的融合情况下有先验或无先验的评分结果[Ph. Smets. Beliefs functions :The Disjunctive Rule of Combination and the Generalized Bayesian Theorem. Int. Jour, of Approximate Reasoning, 9 :1-35,1993]、与通过学习或专家经验预定的模型的差距、考虑或未考虑融合输入之间相互作用的加权和的组合规则的表格形式。作为医学和产业应用的重要标准,通过使用特定融合算子替代统计或自动化学习算法,解释力和结果解释通常更容易。因此,根据本发明,当预测方法已经构建,可能为通常是医生或实验室类型的其他任何实体的用户提供可以帮助做出既公正又可靠的决策,并允许在患者进展的不同阶段进行个性化使用的工具,从而可以用单个工具实施分等级的预测,其包括输入临床数据或遗传数据类型,所述工具提供输出,例如所检测疾病的风险或进展程度的评估。用这种工具,对发展前列腺癌风险实施具有严素性评估的早期和无侵入性鉴别变得可能(包括癌症作为职业性暴露于致癌物、决定对这些物质具有更高或更低程度的敏感性的遗传变异的函数)。也可以根据治疗评估癌症复发的风险,包括以“数据搜索”活动形式进行制药工业或生物统计学部门的临床试验验证。也可以评估放射疗法或镭射疗法(或通常暴露于离子射线)并发症的风险、其他泌尿疾(良性前列腺肥大、尿失禁)的风险。处理患者基因型使得可以接近在出现病状中高度重要的且易于收集的元素。简单收集唾液样品实际上可以容易地处理恒定组成型DNA。遗传物质是蕴含信息的,因为它通过鉴别遗传谱能够确定发展疾病的风险以及其变的具有攻击性的风险。医师导入的应用实例根据一个使用的实例,医师将所获得的患者信息导入应用中,例如血液中的总PSA 水平或游离PSA水平、年龄、体重、身高、家族史和个人史、直肠指诊结果和目标基因型。他们选择相关问题并以他们的意愿应用询问统计模型或多个统计模型。该工具给出了个性化和分等级的反应,例如针对前列腺癌,在给定年龄时发生攻击性癌症的风险,在初次治疗后发生肿瘤转移或复发的风险(在给定年龄时)。图4图示了一个结构图,其中用户Utl利用第一装置在界面1的水平上获取个人数据Xi,所述界面使用本发明方法提供了与软件2的连接。在用户U0界面的水平上返回预测信息y,在这种情况中是医师。由丰是{共结果的专家导入安装实例。在这种情况中,患者或医师至专业结果提供者通过可能是互联网类型的通信网络传送临床类型的信息。并行地,由实验室分析的血液和/或唾液类型样品获得的信息也被传送给预测结果专家,通过之前产生的模型处理所有信息以便给出预测结果,所述结果被传送回健康专家,其从而可以告知其患者。图5图示了这种类型的结构。第一用户U1获取许多个体数据Xli,这些数据可以是在第一界面10水平上的临床数据类型,并通过例如互联网类型的远程连接将这些数据传送至结果的专业提供者FRP,其导入预测软件2。并行地,第二用户,其可以是分析实验室,传送由血液或唾液样品X2i获得并在第二界面11水平上获取且也可通过远程连接传送至提供者FRP的另一信息流。处理由提供者FRP经界面12导入接受的所有数据之后,后者将结果y传送至第三用户队,其被授权告知疑似患者。通常地,当用户U1是医师时,只可以是两个用户U1和队。另一方面,如果患者具有直接传送信息至专家FRP的可能性,则结果y不能由FRP直接传送给他们。结果的专业提供者可以在任何时候通过治疗的新病例丰富其实例数据库,以便提供更有效的预测结果。对于远程提交病例,制定规定保护每个患者的个人数据,符合使用中的安全性和伦理规定。以下我们将描述输入数据或变量组合的实例,其特别适合计算前列腺癌发作的风险。第一变量被称为“前列腺癌家族史”,该变量的值可能定义患者发作前列腺癌的家族背景。该值归因于每个个体,取决于年龄和/或关系程度和/或在其家族中发作前列腺癌的病例数量。第二变量被称为“乳腺癌家族史”,该变量的值可能定义患者发作乳腺癌的家族背景。该值归因于每个个体,取决于年龄和/或关系程度和/或在其家族中发作乳腺癌的病例数量。第三变量被称为“癌症的个人史”,其可能区分已患有癌症的患者,而无论癌症的类型。第四变量被称为“其他癌症的家族史”,该变量的值定义发作癌症(除了乳腺癌或前列腺癌)的家族背景,对于给定的患者,这取决于年龄和/或关系程度和/或发作其他形式癌症的病例数量。第五变量是以年龄类目形式编码的年龄。这些变量可组合地或单独地作为相关算法的输入变量,以便获得发作前列腺癌的风险的计算或确定前列腺癌的倾向。这些变量的预测值可通过与个体生物差异标记,例如单遗传多态性也称为 SNP (单核苷酸多态性)组合使用来进行强化。SNP所属的遗传标记的本质特性是它们能够反映以染色体位置形式定义的在其附近的标记的连锁不平衡。使用两个标记或SNP之间的基因距离的表述。因此,当两个标记之间的重组频率很罕见时,认为它们是遗传连锁的。这些遗传连锁的存在负责在目标SNP附近的SNP能够提供关于易患病特征的相同信息或部分信息的事实。因为对于每个SNP,在其附近存在的多个SNP的相关性是可用的,可能获得每个特别感兴趣SNP的临近SNP列表,其能提供关于易患有前列腺癌的信息。从实用观点来看这个区间的定义是非常有兴趣的,因为这使根据例如试剂商业可供性的实用标准和实验标准从列表中选择提供相关信息的标记成为可能。用于选择如何划定区间界限的常用技术可计算SNP和它邻位之间的连锁不平衡, 但是这种观念已不被保留。通过根据实际观察效果的修正计算划定这些区间的界限。给出的限定是离开不再观察到效果。
在本申请中,论述了目标SNP和/或一个或多个它的邻位的使用。实际上,每个与目标SNP遗传连锁的SNP都能够由目标SNP提供所有或部分信息。遗传连锁取决于两个遗传元件之间的物理距离(通常表述为核苷酸)和这两个元件之间重组的频率。目标SNP本身可以是被寻求预测的易患病的致病剂,它也可以简单地与其遗传连锁。通过传递性效果, 与目标SNP遗传连锁的SNP也能够与致病易患病因素遗传连锁。这种概率解释了需要导入第一个“或”。“和”也源于遗传连锁带来的特性。如果易患病因素定位在两个遗传连锁的 SNP之间,在个体内识别每个SNP存在等位基因的事实可能完善关于易患病致病剂的存在概率的信息。权利要求所用表达表示了所有这些特性似乎对我们是最好的。因为涉及的核苷酸位置系统是可变化的,在以下列表中尽可能精确地给出目标 SNP的描述。SNP是目前使用最广泛的遗传标记,但是明显地每个SNP可被任何天然的分子生物学标记替换,只要物理或统计联系对本领域技术人员而言是明显的;变量的互换性在数学上是可被简单证实的,只要新变量的信息存在足够数量的个体。铺患·薩连誦SNP歹丨_薩隨卢舰丨、日 根据2006年3月组装的UCSC基因组浏览器确定的位置,在127907634-127908134 位置之间的位于4号染色体4q28. 1的SNP rs2174183。rs2174183附近的基因组序列多态核苷酸为粗体。ACCAAATTGTTGCTACCAATCAGTCAATCCTAGGCACATTTACCTTCCCAGTTGAACAATCAATTATTTACACTTCCTACTTCACTGTATCTTTAGATTATCAATATTTTCTTCAATCTTTTAGTTATTTAATGTCATATGACTACCCTCAATAATAGTATATATGAATGTTTGTTTTGGTGATGGGAGGTCAATCAGAT (G/I) GTTCCAGATAACCACTGCCTTCCTACCTTGCCTAAATAGGTATTTCACATATTCTTTCCCTTAAAAACTGACATAggtcaggcacggtggctgacgcctgtaatcccagcactttgggaggccgaggcaggtggatca cttgaggtcgg gagtttgagaccagcccgaccaacatggagaaaccccgtctctactaaaaatacaaaattagccaggtg tggtggcacatgcctgtaatcccagctactggggaggctgagacaggagaattgcttgaactcaggaggcagaggttgcagtgagc caagatcaagccattgcactcaagcttgggcaacaagagcaaaactccatctcaagaaacaaaaaaaaaacaagacaaaaCCAA AAGAACCTGACATAGTTGTTTATCTGCTGAGAGTACAAGTTATTGTGATAACAAATGGCATTGCAATTGGTCATCCTTTTCTAATGGTATATTTGCATTTTAATAACTGTATTGAAAAACT根据下表,在数据库中定义了可提供关于易患前列腺癌信息的SNP rs2174W3 附近的SNP,它们位于4号染色体的1276(^673-1^447913区间或在4号染色体的 SNPrsl2651126 和 rsl3122922 之间。SNP染色体离主要SNP的距离(bp)2006年3月组装的位置UCSC基因组浏览器rsl26511264-304961chr4:127602673-127603173rs29696124-41669chr4:127865965-127866465rsl 1671904-32365chr4:127875269-127875769rsl31481384-10633chr4:127897001-127897501rs217418340chr4:127907634-127908134rsl 604724421908chr4:127929542-127930042rsl 31229224539779chr4:128447413-128447913相关SNP和区分患有前列腺癌的患者和对照的目标SNP的相关性可通过建立ROC 曲线证实(对应于检验敏感性相关变量,也称为“受者作用特征”),如图5所示,其显示了使用年龄类目和与SNP rs2174183或其邻位相关的基因型作为输入变量,多层感知器类型的算法对于区分患有前列腺癌的患者和对照的成绩。因此未提及的中间SNP能够携带信息。 通过使用病史变量登入能够强化对应的AUC(S)(曲线下面积,此处为ROC曲线)。根据2006年3月组装的UCSC基因组浏览器确定的位置,在37957978-37958478 位置之间的位于2号染色体2p22. 2的SNPrs7576160。rs7576160附近的基因组序列多态核苷酸为粗体。GTCAGATATATGTGAGTTTTTTGTCAACTAAATTCATAGTTGTCTTAATATTCATCCCTTGCTAAAATTAAGGTGCAGAAATAAAATCTGTCTAATAGAGAAATATAAATCCATCTTTTGTCTGGATAATCAAATTTTACTATATTTTGTTTTAATCCTGAGAATGAAATTTTACAAATAGCTCAGGAGGTTTTCCCTAGAGTTCCAAATAAAAGTGTGTGGATCATATACACGTTCTGCTTAATCACATGACGGTTCCAAATTTTTAATTTCAATCCTTCATTACGATGAAAATTTTTG (C/T) GTTTTTTTTCCACCAGCTCTTTGTTTTGTTTTTCAATGGCTCAGGAAAGGAGAGGGGTGTGGGAGACTCTGTCTCTTTTGACAATCACCAGCGCCATCTACTGTCAAGAAATAAAATCGTGACTCATTGTTAACGCGTCAATGAACATTAGGGCTTAAAGAGGGAAAGACAATTTTATACCCCAGTACTTACTGATAAATATAAGTTCATGTACACATATTTTTATCTTATATTATTGTATTCTTAAGCAGCCTATAGGGAGAATACAATGAACTTAATATATAATCATTTATGTAATTC根据下表,在我们的数据库中定义了可提供关于易患前列腺癌信息的 SNP rs7576160附近的SNP,它们位于2号染色体的37855761-38U6567区间或在2号染色体的 SNP rs7562836 和 rsl7021897 之间。
权利要求
1. 一种前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其包括收集个体输入数据(Xi),提供与疾病类型相连的风险预测信息(y),其特征在于-收集代表性信息,所述代表性信息是患者的遗传信息和/或临床信息结果,以获得所述的个体数据;-使用数据捕捉方式获得个体数据(Xi);-通过统计学习构建至少一种模型来生成预测工具,该模型的输入变量是所述的代表性信息;遗传输入信息包括以下之中的至少一个变量或变量组合(所引用的所有核苷酸位置都符合2006年3月组装的“UCSC基因组浏览器”定义的核苷酸位置)-定义与4号染色体中1276(^673-1^447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量;-定义与2号染色体中37855761-38126567区间的SNP rs7576160和/或它的一个或多个邻位相连的基因型的变量;-定义与2号染色体中241767109-242119399区间的SNP rs2012385和/或它的一个或多个邻位相连的基因型的变量;-定义与17号染色体中63815611-64165896区间的SNP rs888298和多个邻位相连的基因型的变量;-定义与19号染色体中62026584-62四4837区间的SNP rs81109;35和多个邻位相连的基因型的变量;-定义与11号染色体中17464539-17757162区间的SNP rs2190453和多个邻位相连的基因型的变量;-定义与1号染色体210157195-210446272区间的SNP rs2788140和多个邻位相连的基因型的变量;-定义与1号染色体中149382371-149874970区间的SNP rs3828054和/或它的一个或多个邻位相连的基因型的变量;-定义与3号染色体中11630M46-117011700区间的SNP rsl499955和/或它的一个或多个邻位相连的基因型的变量;-定义与3号染色体中69049525-69153397区间的SNP rs4855539和多个邻位相连的基因型的变量;-定义与 7 号染色体中 27414591-27808301 区间的 SNP rsll526176 ^P 多个邻位相连的基因型的变量;-定义与11号染色体中99092040-99333419区间的SNP rs7934514和多个邻位相连的基因型的变量;-定义与1号染色体中236815776-236998150区间的SNP rs6681102和/或它的一个或多个邻位相连的基因型的变量;-定义与15号染色体中38991207-39584443区间的SNP rs6492998和/或它的一个或多个邻位相连的基因型的变量;-定义与2号染色体中113062733-113411386区间的SNP rs2048873和/或它的一个或多个邻位相连的基因型的变量;/或它的一个或 /或它的一个或 /或它的一个或 /或它的一个或/或它的一个或 /或它的一个或 /或它的一个或-定义与2号染色体中121110M-123M507区间的SNP rs4669835和/或它的一个或多个邻位相连的基因型的变量;-定义与18号染色体中23907695-24187878区间的SNP rsl2605415和/或它的一个或多个邻位相连的基因型的变量;-定义与4号染色体中39097014-39163238区间的SNP rs749915和/或它的一个或多个邻位相连的基因型的变量;-定义与7号染色体中1040(^818-104863625区间的SNP rsl32^041和/或它的一个或多个邻位相连的基因型的变量;-定义与17号染色体中6133M48-62195826区间的SNP rs721429和/或它的一个或多个邻位相连的基因型的变量;-定义与16号染色体中84725899-84776802区间的SNP rs2;35^46和/或它的一个或多个邻位相连的基因型的变量;-定义与6号染色体中70074721-70679396区间的SNP rs9364048和/或它的一个或多个邻位相连的基因型的变量;-定义与2号染色体中79446556-79664842区间的SNP rs6755695和/或它的一个或多个邻位相连的基因型的变量;-定义与19号染色体中4098195-4506560区间的SNP rsll38253和/或它的一个或多个邻位相连的基因型的变量;-定义与10号染色体中29356四3-四651117区间的SNP rsl773842和/或它的一个或多个邻位相连的基因型的变量;-定义与14号染色体中43257771-43665346区间的SNP rsl0148742和/或它的一个或多个邻位相连的基因型的变量;-定义与7号染色体中474612;34-47557773区间的SNP rsl0245886和/或它的一个或多个邻位相连的基因型的变量。
2.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与4号染色体中1276(^673-1^447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和/或定义与2号染色体中 37855761-38126567区间的SNP rs7576160和/或它的一个或多个邻位相连的基因型的变量和/或定义与2号染色体中241767109-242119399区间的SNP rs2012385和/或它的一个或多个邻位相连的基因型的变量的组合。
3.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与4号染色体中1276(^673-1^447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和/或定义与11号染色体中 17464539-17757162区间的SNP rs2190453和/或它的一个或多个邻位相连的基因型的变量和/或定义与17号染色体中63815611-64165896区间的SNP rs888298和/或它的一个或多个邻位相连的基因型的变量的组合。
4.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与4号染色体中1276(^673-1^447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和/或定义与1号染色体中210157195-210446272区间的SNP rs2788140和/或它的一个或多个邻位相连的基因型的变量和/或定义与11号染色体中99092040-99333419区间的SNP rs7934514和/或它的一个或多个邻位相连的基因型的变量的组合。
5.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与4号染色体中1276(^673-1^447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和/或定义与1号染色体中 149382371-149874970区间的SNP rs3828054和/或它的一个或多个邻位相连的基因型的变量和/或定义与3号染色体中116302446-117011700区间的SNP rsl499955和/或它的一个或多个邻位相连的基因型的变量的组合。
6.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与4号染色体中1276(^673-1^447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和定义与19号染色体中 62026584-62294837区间的SNP rs8110935和/或它的一个或多个邻位相连的基因型的变量的组合。
7.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与4号染色体中1276(^673-1^447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和定义与3号染色体中 69049525-69153397区间的SNP rs4855539和/或它的一个或多个邻位相连的基因型的变量和定义与8号染色体中1观539973-1观619555区间的SNP rs4242382和/或它的一个或多个邻位相连的基因型的变量的组合。
8.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与4号染色体中1276(^673-1^447913区间的SNP rs2174183和/或它的一个或多个邻位相连的基因型的变量和定义与7号染色体中 27414591-27808301区间的SNP rsll526176和/或它的一个或多个邻位相连的基因型的变量的组合。
9.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与15号染色体中38991207-39584443区间的SNP rs6492998 和/或它的一个邻位相连的基因型的变量和/或定义与7号染色体中27414591-27808301 区间的SNP rsll526176和/或它的一个或多个邻位相连的基因型的变量和/或定义与1 号染色体中236815776-236998150区间的SNP rs6681102和/或它的一个邻位相连的基因型的变量的组合。
10.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与2号染色体中113062733-113411386区间的SNP rs2048873和/或它的一个或多个邻位相连的基因型的变量和/或定义与3号染色体中 60928379-60979489区间的SNP rs6804627和/或它的一个或多个邻位相连的基因型的变量和定义与7号染色体中47461234-47557773区间的SNP rsl0245886和/或它的一个或多个邻位相连的基因型的变量的组合。
11.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与1号染色体中21拟80585-218521047区间的SNP rsl511695和它的一个或多个邻位相连的基因型的变量和定义与2号染色体中 12111054-12324507区间的SNP rs4669835和/或它的一个或多个邻位相连的基因型的变量和/或定义与18号染色体中23907695-M187878区间的SNP rsl2605415和/或它的一个或多个邻位相连的基因型的变量的组合。
12.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与4号染色体中39097014-39163238区间的SNP rs749915和/或它的一个或多个邻位相连的基因型的变量和/或定义与7号染色体中 1040(^818-104863625区间的SNP rsl3226041和/或它的一个或多个邻位相连的基因型的变量和/或定义与17号染色体中6133M48-62195826区间的SNP rs721429和/或它的一个或多个邻位相连的基因型的变量的组合。
13.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与8号染色体中1观539973-1观619555区间的 SNP rs4242384和/或它的一个或多个邻位相连的基因型的变量和定义与6号染色体中 70074721-70679396区间的SNP rs9364048和/或它的一个或多个邻位相连的基因型的变量的组合。
14.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与16号染色体中84695M1-84776802区间的SNP rs2352946和/或它的一个或多个邻位相连的基因型的变量和定义与2号染色体中 79446556-79664842区间的SNP rs6755695和/或它的一个或多个邻位相连的基因型的变量和定义与19号染色体中4098195-4506560区间的SNP rsll38253和/或它的一个邻位相连的基因型的变量的组合。
15.如权利要求1所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据对应于定义与4号染色体中1276(^673-1^447913区间的SNP rsl3148138和/或它的一个或多个邻位相连的基因型的变量和/或定义与10号染色体中 29356293-29651117区间的SNP rsl773842和/或它的一个或多个邻位相连的基因型的变量和定义与14号染色体中43257771-43665346区间的SNP rsl0148742和/或它的一个或多个邻位相连的基因型的变量的组合。
16.如权利要求1-15的一个或多个所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于输入数据还包含与年龄和与临床数据和/或与个人和家族既往病史数据相关的变量。
17.如权利要求16所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法, 其特征在于既往病史数据包括四种癌症史变量和一个年龄类目变量的组合,所述病史变量分别涉及乳腺癌家族史、前列腺癌家族史、癌症个人史、其他癌症家族史。
18.如权利要求1-17之一所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于其包括-建立由输入数据Umi)和被证明结果(y)组成的实例数据库(Bex);-通过统计学习构建至少一个优化模型,包括以下步骤 选择多变量函数族(F) (fi; . . .,fi; . . . fN); 对于给定的函数fi,产生通过调整参数θ j定义的模型,以便通过模型ym = ^(Xffli,θ j)递送的估值尽可能地接近被证明的结果yj的估值; 比较不同估值以便定义函数fi,函数A是优化的fi()p,使其可能定义优化模型;-由所述个体数据(Xi)开发所述优化模型,以便提供关于前列腺癌相关风险的所述预测信息(y)。
19.如权利要求18所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法, 其特征在于其包括平行构建一组优化模型,每个模型是由一个函数族(Fk)产生,关于疾病相关风险的预测信息源于优化模型组的组合。
20.如权利要求19所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法, 其特征在于其包括通过遗传算法类型的优化方法选择优化模型的优化子集。
21.如权利要求18-20之一所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其特征在于函数族是MLP (多层感知器)类型、神经元网络族的子集或支持向量机 (SVM)类型或关联向量机(RVM)类型或涉及最近邻法的频率论者模型类型。
22.—种前列腺癌的筛查或诊断或治疗处置或预后的个体预测装置,其包括用于用户获得个体信息数据(1-18)的第一装置,至少一个在其上操作所述第一装置的第一软件界面,其特征在于其还包括运行使用权利要求1-21之一所述方法和提供关于前列腺癌相关风险的预测信息的软件的装置O)。
23.如权利要求22所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测装置, 其特征在于关于风险的所述预测信息通过所述软件界面返回至用户。
24.如权利要求23所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测装置, 其特征在于其还包括第一获取装置和软件之间的通信装置,其实现信息数据和预测信息的传输。
25.如权利要求M所述的前列腺癌的筛查或诊断或治疗处置或预后的个体预测装置, 其特征在于其还包括第二个体信息数据获取装置和第二软件界面,第一获取装置涉及临床类型信息的获取,而第二装置涉及来源于个体样品的信息的获取。
全文摘要
本发明涉及前列腺癌的筛查或诊断或治疗处置或预后的个体预测方法,其包括收集个体输入数据(xi)、提供与疾病类型相连的风险的预测信息(y),其特征在于输入数据包括至少一个变量或遗传类型变量的组合,例如识别被认为与疾病发展相关的遗传多态性的标记。本发明涉及前列腺癌的筛查或诊断或治疗处置或预后的个体预测装置,其包括用于用户获得个体信息数据的第一装置,至少一个在其上操作所述第一装置的第一软件界面,其特征在于其还包括使用本发明所述的方法并提供与疾病有关的风险的预测信息的软件。
文档编号G06F19/24GK102171698SQ200980138659
公开日2011年8月31日 申请日期2009年7月31日 优先权日2008年8月1日
发明者D·梅西耶, E·拉马索, F·叙阿尔, G·康塞尔-塔桑, J-D·穆勒, J-P·波利, K·奥里博, N·吉拉尔迪, O·屈塞诺, S·加聚 申请人:原子能和能源替代品委员会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1