用于指示侵袭性前列腺癌的存在或不存在的方法_5

文档序号:9332227阅读:来源:国知局
每个SNP的风险等位基因的数目(0、1 或2)乘以该SNP的0R的对数而生成。在逻辑回归分析中探索PCa诊断和评估的风险因素 之间的关联。关于非遗传信息的模型的部分包括对数转换的总PSA、对数转换的游离PSA与 总PSA比率、活组织检查时的年龄和PCa的家族史(是或否)。重复的10倍交叉验证用于 估算活组织检查时PCa的预测概率。ROC-AUC值的百分之九十五置信区间使用正态近似法 构建。所有报道的P值基于双侧假设。
[0123] 对于区分一般前列腺癌和侵袭性前列腺癌存在许多合理的原因。在大多数情况 下,前列腺癌是缓慢进展的疾病。大多数男性在生命中晚期确诊的事实意味着,被诊断为前 列腺癌的大部分男性死于其他原因。因此,在活组织检查前估计个体是否处于具有侵袭性 前列腺癌的升高风险的能力使得可能例如激励个体改变生活方式。戒烟、达到低于30的 BMI值和定期锻炼(约30分钟,一周3-6天)是通常促进严重疾病(包括前列腺癌)的状 况中存活的所有因素。因此,如果发现个体具有aPCa的升高风险,有理由建议所述个体戒 烟,试图达到BMI〈30且开始锻炼。另一个重要方面是膳食问题。通过改变饮食,可以减 少或延迟PCa发生。如JNutr. 2013Feb; 143 (2): 189-96中公开的出版物"Wholemilk intakeisassociatedwithprostatecancer-specificmortalityamongU.S.male physicians. "(其通过引用并入本文)中Song和共同作者所报道,有证据表明,减少的奶 制品摄入可以降低PCa发作的风险。对于绿茶的摄入和大豆制品的摄入的积极影响存在类 似的证据。因此,如果发现个体具有aPCa的升高风险,有理由建议所述个体减少乳制品的 摄入和/或增加绿茶和基于大豆的产品的摄入。
[0124] 实施例1 为了说明本发明,从STHLM2数据集提取包含215个病例(已知患有Gleason分级为7或更高的aPCa的受试者)和627个对照(已知未患有aPCa的受试者)的数据集。该STHLM2 数据集已在公共领域中讨论,如网页 http://sthlm2.se/上可见。总之,在2010 - 2012年 期间,STHLM2研究中包括在斯德哥尔摩地区进行PSA测试的约26000人。关于以下生物标 志物和SNP表征215+627=842个受试者。
[0125] 生物标志物: 总前列腺特异性抗原(tPSA) [ng/mL] 完整前列腺特异性抗原(iPSA) [ng/mL] 游离前列腺特异性抗原(fPSA) [ng/mL] 人激肽释放酶2 (hK2) [ng/mL] 巨噬细胞抑制细胞因子-1 (MIC-1) [ng/mL] 微精原蛋白(MSMB) [ng/mL]
收集对于每个受试者的背景信息,包括年龄和家族史(是或否)。年龄以年单位表示。
[0126] 为了决定哪些受试者应当被转诊至活组织检查,需要预测每个测试的受试者与所 述受试者具有Gleason分级为7或更高的前列腺癌的概率相关的值。这可以通过在以下预 定方程中组合生物标志物的测量值而进行: y= -0.4366579+0.0577639 * 评分-0.1026622 *HK2-0. 0312050 *fPSA+0. 0640730 *iPSA+0. 0256631 *MIC1-0. 0069049 *MSMB+0. 0012231 *tPSA+0. 0069759* 年龄 在该方程中,'评分'此处是如Markus Aly和共同作者在EUROPEAN UROLOGY 60 (2011) 21-28中出版的公开报告"Polygenic Risk Score Improves Prostate Cancer Risk Prediction:Results from the Stockholm-1 Cohort Study"(其通过引用并入本文中) 中所述计算的遗传评分变量,其含有本实施例中列出的经验证的前列腺癌易患性SNP(所 述SNP与前列腺癌易患性相关或与PSA、游离PSA、MSMB和MIC-1生物标志物血浆水平相 关)。参数'HK2'、'fPSA'、'iPSA'、'MIC1'、'MSMB'、'tPSA'是指这些生物标志物的分别的 测量值(未转化),且'年龄'是受试者的年龄。所述方程使用普通最小二乘估计量推导(其 他线性估计量也可直接使用,例如逻辑回归估计量)。在该特定模式中,省略关于家族史的 fg息。
[0127] 所得值'y'将与具有Gleason分级为7或更高的前列腺癌的风险强烈相关,如图 1中所示。图1中的R0C曲线代表单独的PSA(lOl)和本实施例中描述的模型(102)。如果 y高于截止值,则男性应当被推荐转诊至泌尿科医师用于使用活组织检查检查前列腺。该 模型预测侵袭性的高等级PCa的事实含蓄地意味着,如果所得值'y'小,则仍存在患者具有 PCa的风险,尽管是非侵袭性形式。小的所得值'y'也可表明该患者不具有PCa。
[0128] 截止值取决于测试灵敏度和特异性之间的折衷。如果,例如,使用0. 166的截止值 时,该特定测试将导致〇. 9的测试灵敏度和0. 38的特异性。这可以与使用单独的PSA值作 为筛选测试比较,这导致为0. 9的灵敏度和0. 22的特异性。在实践中,这意味着,该特定 模型当应用于827个受试者的群体时将导致与PSA测试相同数量的检测到的高风险癌症 (Gleason分级7和以上),但其中少于100个受试者被转诊至活组织检查,这对应于与单独 的PSA测试相比改善约15%。如果,作为第二个实例,使用0. 201的截止值时,该特定测试 将导致0. 8的测试灵敏度和0. 52的特异性。在灵敏度水平0. 8,将节省如使用PSA预测的 约20 %的活组织检查。
[0129] 实施例2 为了进一步说明本发明,应用用于获得预测的替代计算方法。方程诸如实施例1中呈 现的方程不是其中可以组合生物标志物以预测aPCa的唯一方式。事实上,用于计算y以便 预测aPCa的方法可以是复杂的,并且甚至不可能在一张纸上写下。可以如何组合生物标志 物的一个更复杂、但非常强大的实例是使用决策树森林。图2中描绘了决策树(200)的实 例。假设81岁受试者测试生物标志物和SNP,结果为HK2 = 0. 2425且PSA= 84. 1。当如 图2中例举应用决策树(200)时,顶节点(201)与hk2值相关。由于受试者具有HK2值,这 确实满足节点条件,所以遵循从该节点的左侧分支。第二节点(202)也与hk2值相关,并且 在这种情况下,受试者具有不满足节点条件的hk2值,然后遵循从该节点的右侧分支。第三 水平节点(203)与年龄相关。由于受试者年龄不满足节点条件,所以遵循从该节点的右侧 分支。第四水平节点(204)与PSA值相关,并且由于受试者的PSA值确实满足节点条件,所 以遵循从该节点的左侧分支。在该点,不再存在更多节点,意味着已经达到决策树的叶。每 叶都具有相应的输出,在该特定实例中," 1"的叶值意指"转诊至活组织检查",且"〇"的叶 值意指"不转诊至活组织检查"。示例性受试者在这种情况下确实在值"〇"的叶中结束,意 味着由该决策树提供的预测是"不转诊至活组织检查"。
[0130] 仅仅依靠一个决策树用于计算y以预测aPCa的问题是单个决策树具有非常高的 方差(即如果数据稍微变化,则y的计算值也可能变化,导致aPCa的预测的方差),尽管 其偏差(bias)非常低。用于降低高方差的一种可能的方法是如LeoBreiman在Machine Learning45 (1):5_ 32 (2001)中公开的报告〃RandomForests〃(其通过引用并入本文) 中所述使用随机森林算法构建去相关树的森林。生长大量树,并且在每个树生长之前,以使 得其预测的预期值不变的方式随机扰动数据。为了预测aPCa,所有树投票以决定受试者是 否应当转诊至活组织检查。此类投票预测保留了决策树的无偏差特性,然而相当降低了方 差(类似于平均值的方差如何低于用于计算平均值的个别测量值的方差)。由于随机森林 算法取决于随机数目生成,所以它是以封闭形式写下所得预测算法的一种复杂程序。
[0131] 当如实施例1中所述应用至数据集时,与单独的PSA相比,该模型可以以灵敏度 0. 9节约约20%的数量的活组织检查。
[0132] 实施例3 为了甚至进一步说明本发明,从STHLM2数据集提取包含51个病例(已知患有Gleason分级为7或更高的aPCa的受试者)和195个对照(已知未患有aPCa的受试者)的数据集。 所有这些病例和对照都具有大于25的BMI值。关于以下生物标志物表征51+195=246个受 试者。
[0133] 生物标志物: 总前列腺特异性抗原(tPSA) [ng/mL] 完整前列腺特异性抗原(iPSA) [ng/mL] 游离前列腺特异性抗原(fPSA) [ng/mL] 人激肽释放酶2 (hK2) [ng/mL] 巨噬细胞抑制细胞因子-1 (MIC-1) [ng/mL] 微精原蛋白(MSMB) [ng/mL]。
[0134] 本实施例中还应用与前面实施例1中定义相同的SNP。收集对于每个受试者的背 景信息,包括所述受试者是否已经经历前列腺的先前活组织检查(prevBiop)、年龄和家族 史(是或否)。年龄以年单位表示,身高以米表示,且体重以千克表示。
[0135] 为了决定哪些受试者应当被转诊至活组织检查,需要预测每个测试的受试者与所 述受试者具有Gleason分级为7或更高的前列腺癌的概率相关的值。这可以通过使用以下 预定方程将生物标志物的测量值组合为总体复合值而进行: y= 21.487704 + 0.548938 *prevBiop+ 0.014242 *GenScore+ 0.311481 *hk2 -0.043471 *fPSA+ 0.047176 *iPSA+ 0.068407 *micl -0.008860 *msmb + 0.002693 *tPSA+ 0.006325 * 年龄-0.121356 * 身高 + 0.119005 * 体重-0.388930 *bmi 在该方程中,'评分'此处是如先前实施例1中所述计算的遗传评分变量。参数'HK2'、 'fPSA'、'iPSA'、'MIC1'、'MSMB'、'tPSA'是指这些生物标志物的分别的测量值(未转化), 且'年龄'、'身高'、'体重'和'bmi'是受试者的年龄、身高、体重和bmi。参数'prevBiops' 表示受试者是否先前已经经历前列腺活组织检查,反映所述受试者的医疗史。所述方程使 用普通最小二乘估计量推导(其他线性估计量也可直接使用,例如逻辑回归估计量)。在该 特定模式中,省略关于家族史的信息。
[0136] 所得值'y'将与具有Gleason分级为7或更高的侵袭性前列腺癌的风险强烈相关, 如图3中所示。图3中的R0C曲线代表单独的PSA(301)和本实施例中描述的模型(302)。如 果y高于截止值,则男性应当被推荐转诊至泌尿科医师用于使用活组织检查检查前列腺。
[0137] 截止值取决于测试灵敏度和特异性之间的折衷。如果,例如,使用0. 201的截止值 时,则该特定测试将导致〇. 8的测试灵敏度,并且该测试与使用单独的PSA相比将节约约 44%的活组织检查。
[0138] 实施例4 为了甚至进一步说明参数类别的方面和类别内的冗余度,关于以下表征实施例1的数 据集: 生物标志物: 总前列腺特异性抗原(tPSA) [ng/mL] 完整前列腺特异性抗原(iPSA) [ng/mL] 游离前列腺特异性抗原(fPSA) [ng/mL] 人激肽释放酶2 (HK2) [ng/mL] 巨噬细胞抑制细胞因子1 (MIC-1) [ng/mL] 微精原蛋白(MSMB) [ng/mL] SNP;属于与PCa相关的类别SNP(SNPpc):
收集对于每个受试者的背景信息,包括年龄和是否已经进行先前活组织检查(是或 否)。年龄以年单位表示。
[0139] 对于总体复合值的方程(其用作预测模型)根据预定方程设计: Y= -0.632820 + 0? 118107 *K+ 0? 139045 *prevBiopsy+ 0.051609 * 评分 + 0? 048033 *MIC1 - 0? 001368 *MSMB+ 0? 008002 * 年龄 其中评分是遗传评分,即从与PCa相关的SNP获得的复合值(S卩,SNPpc复合值), 如先前所述,且K是用于激肽释放酶样生物标志物的参数类别的复合值,MIC1是MIC1的 浓度,MSMB是MSMB的浓度,年龄是个体的年龄,并且如果个体先前曾进行活组织检查,则 PrevBiopsy为1 (并且如果不,则为0)。取决于激肽释放酶数据对于特定个体的可用性, 以不同的方式计算类别激肽释放酶样生物标志物K的复合值。 K= (0.6122516 + 0.0012714 *fPSA+ 0.0001864 *PSA+ 0.0200385 *iPSA-0.0377976 *HK2 - 1.3108243f/tPSA) / 0.1559314 K' =(0? 3961801 + 0? 0001864 *PSA+ 0?0200385 *iPSA- 0?0377976 *HK2) / 0.109478 K''' = (0.3961967 + 0? 0012714 *fPSA+ 0.0200385 *iPSA- 0.0377976 *HK2) / 0.1090876 K' ''=(0? 3987352 + 0? 0200385 *iPSA- 0?0377976 *HK2) /0?1033296K,,), = (0.6548828 + 0.0012714 *fPSA+ 0.0001864 *PSA- 1.3108243f/tPSA) / 0.1068742 在这些方程中,PSA是PSA的浓度,fPSA是游离PSA的浓度,iPSA是完整PSA的浓度,HK2是HK2的浓度,且f/tPSA是游离PSA与总PSA的商。K是适合于当所有所述激肽释放 酶数据可用时使用的参数值。参数K'、K' '、K' ' '和K' ' ' '是适合于在激肽释放酶数据中的 一个或几个丢失的情况下使用的K的近似值。
[0140] 当测试上面讨论的模型时,获得以下结果: #全模型,包括的所有数据:R0C-AUC=0. 77?使用所有SNP和K'近似:R0C-AUC=0. 70 ?使用所有SNP和K''近似:R0C-AUC=0. 70 ?使用所有SNP和K'' '近似:R0C-AUC=0. 70 ?使用所有SNP和K'' ' ' 近似:R0C-AUC=0. 75 ?使用K' ' ' '数据且随机离开SNP数据的10% :R0C-AUC= 0. 74 #使用K' ' ' '数据且随机离开SNP数据的30% :R0C-AUC= 0. 73。
[0141] 作为参考点,当仅使用PSA来预测aPCa的风险时,R0C-AUC= 0. 65。因此,本实施 例中的模型(a)比当使用所有数据的参考模型更好,而且(b)对于输入数据的丢失是稳健 的,这是由于参数类别内的冗余性。可以省略激肽释放酶样生物标志物的一个或多个测量 结果(即数据),还组合有SNP信息的10% (或甚至30%)丢失,并且仍然产生比其中已经 单独使用PSA的参考模型更好的有用结果。在实际设置中,此类稳健操作使得可能估算个 体具有aPCa的风险,甚至在由于技术失败、样品材料的缺乏、人为错误或任何其他原因导 致丢失一些数据的情况下。这具有降低健康护理提供者的成本的潜能,因为会降低重复检 测的数量。它也使得个体的状况更方便和更快速响应,并且缓解个体前往健康护理提供者 以便供应进一步样品用于重新测试程序的需要。
[0142] 虽然本发明已经关于其优选实施方案(其构成本发明人目前已知的最佳模式)进 行描述,但是应当理解,可以进行对于本领域普通技术人员显而易见的各种变化和修改,而 不脱离所附
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1