用于指示侵袭性前列腺癌的存在或不存在的方法_4

文档序号:9332227阅读:来源:国知局
不具有状况C的100个个体的实验中,确立Protl、Prot2、Snpl、Snp2 和Snp3与状况C的关联,并且用公式表示为Protl和Prot2的一种蛋白生物标志物复合值, 和Snpl、Snp2和Snp3的一种遗传复合值,以及还有进而与具有状况C的风险相关的一种总 体复合值。蛋白生物标志物类别的复合值使用以下预定方程计算: P=(Protl+ 2*Prot2) / 3 [如果关于Protl和Prot2 的数据(即,Protl值和Prot2 值两者)可用] P' =Protl[在仅关于Protl的数据(即,Protl值)可用的情况下] P' ' =Prot2 [在仅关于Prot2的数据(即,Prot2值)可用的情况下] 因此,在该假设情况下,在实验中发现,(a)Protl和Prot2具有相同的尺度,且(b)Prot2的值对于评价个体是否具有状况C的重要性是Protl的两倍。
[0102] 如果蛋白生物标志物之一的唯一数据是可用的,则它本身可以用于代表蛋白生物 标志物类别。
[0103] 对于遗传类别的成员的比值比已经预先测定,并且如下:Snpl=Ll;Snp2 = 1.2 ;和Snp3 = 1.3.对于遗传类别的复合值计算为如上所述的遗传评分。
[0104] 然后将蛋白生物标志物复合值和遗传评分(其在该情况下等于遗传类别复合值, 或SNP复合值)根据以下预定方程组合为总体复合值: Y=P+ 10 * 评分 其中Y与具有状况C的风险相关,P是蛋白生物标志物复合值(并且P可以用如上定 义的P'或P' '取代),并且评分是遗传评分。所有方程需要基于大群个体(在该假设情况 下,100 + 100个个体)进行开发,其中推导Y和所研究的疾病或状况之间的关系。在该假 设情况下,假设如果Y> 5,则个体具有状况C的风险升高,并且如果Y> 10,则风险非常高。
[0105] 现在假设测试第一个体A的Protl、Prot2、Snpl、Snp2和Snp3。在该特定情况下, 所有测量都是成功的,并且产生以下结果: Protl= 3ng/mL Prot2 =6ng/mL Snpl=纯合阴性,S卩,无风险等位基因=0Snp2 =杂合阳性,即,一个风险等位基因=1 Snp3 =纯合阳性,S卩,两个风险等位基因=2 蛋白生物标志物类别的复合值在这种情况下将是P= (3 + 2*6 ) /3 = 5。也称为遗 传评分的对于遗传类别的复合值变为评分=(0*l〇g(l.l)+l*l〇g(1.2)+2*log(1.3))/3 = 0.2357。总体复合值变为Y= 5 + 10 * 0.2357 = 7. 357。因此,个体A具有状况C的风险 被估算为升高,但不是非常高。
[0106] 现在进一步假设测试第二个体B的Protl、Prot2、Snpl、Snp2和Snp3。在该特定 情况下,三种测量都是成功的,并且产生以下结果: Protl= 2ng/mL Prot2 =缺失数据 Snpl=纯合阳性,即两个风险等位基因=2Snp2 =缺失数据 Snp3 =杂合阳性,即,一个风险等位基因=1 蛋白生物标志物类别的复合值在这种情况下将是P' = 2,因为只有Protl结果是可用 的。也称为遗传评分的对于遗传类别的复合值变为评分=(2*log(l.l)+l*log(1.3))/2 = 0.2264。总体复合值变为Y= 2 + 10 * 0.2264 = 4. 264。因此,个体B具有状况C的风险 被估算为低的。
[0107] 通常,在预测发生aPCa的风险的模型中,经常存在一种或多种定义的截止值。截 止值(或截止水平)的选择取决于许多因素,包括但不限于疾病本身的风险和与将没有所 述疾病的个体不准确诊断为阳性(假阳性)相关的风险。在通常情况下,预测模型通常是 单调函数Y=f(xl,x2,…,xN),其中具有疾病的估算风险与Y的增加值相关。这意味 着,如果截止值被设定在低水平,则该测试将产生大量的假阳性结果,但另一方面将检测到 实际上具有疾病的大部分个体。如果截止水平被设定在高值,出现相反情况,其中具有高于 截止水平的Y值的个体将以非常高概率具有疾病,但大量具有疾病的个体将收到阴性测试 结果(即大量的假阴性结果)。截止水平的选择取决于许多因素,包括平衡(a)错过具有疾 病的个体和(b)治疗不具有疾病的个体的社会经济结果。
[0108] 当在实践中应用时,将偶尔发生一次或几次测量失败,这是由于例如不可预见的 技术问题、人为错误或任何其他意外和不常见的原因。在这种情况下,对于个体获得的数据 集将是不完整的。通常,此类不完整的数据集将难以评估,或者甚至不可能评估。然而,本 发明依赖于大量其中许多是部分冗余的特征的测量。这意味着,还对于数据集是不完整的 个体,在许多情况下将可能根据本发明产生高质量评估。这在类别内是特别真实的,其中例 如激肽释放酶样生物标志物是相关且部分冗余的。在技术上,因此可能应用算法两步法,其 中将激肽释放酶生物标志物贡献总结为激肽释放酶评分(或激肽释放酶值)。该激肽释放 酶评分然后在第二步骤中,将其与其他数据(诸如遗传评分、年龄和家族史,举几个非限制 性实例)组合,以便对PCa产生诊断或预后论断。可以对其他类的标志物,诸如与BMI相关 的遗传标志物或与转化生长因子0超家族(结构上相关的细胞调节蛋白的大家族,包括 MIC-1)相关的蛋白生物标志物(举两个非限制性实例)实施类似的两步程序。
[0109] 可以以许多不同的方式体现冗余方面。实施冗余方面的一种可能的方式是定义一 组代表与通用领域或家族相关的生物标志物的生物标志物。此类领域或家族的一种非限制 性实例是激肽释放酶样生物标志物。可以确定多于一种定义集合(或类别)的生物标志物, 并且此外,可以在此类集合之外应用还有其他生物标志物。通常,该类别是不重叠的,即任 何定义的生物标志物是一种定义类别的唯一成员或以单独方式使用。接下来,对于所有生 物标志物,进行确定存在或浓度的尝试。在大多数情况下,所有生物标志物的确定将成功, 但偶尔一个或几个值将缺失。为了针对缺失值诱导模型稳健性,可能定义可以使用定义类 别所有成员或成员子集来确定的生物标志物类别复合值。为了在实践中起作用,这要求定 义的生物标志物类别的成员是至少部分冗余的。在下一步骤中,将生物标志物类别复合值 与其他生物标志物值、其他生物标志物类别复合值(如果定义两个或更多类别的生物标志 物)、与PCa风险相关的遗传评分、与其他特征相关的遗传评分(诸如BMI或生物标志物浓 度,举两个非限制性实例)、家族史、年龄和与aPCa风险相关的其他信息载体组合成总体复 合值。总体复合值最终用于估算aPCa风险。
[0110] 生物标志物类别复合值的目的因此充当可以使用不完整的数据估算的中间值。假 设生物标志物的定义类别包含表示为Bl、B2、B3,…BN的N个不同生物标志物,所有都与 生物标志物家族B相关。在该情况下,可以存在可用于计算家族B生物标志物复合值C的 N种不同的模型: C=fl(Bl,B2,B3,...BN) C=f2(B2,B3,...BN) C=f3(Bl,B3,...BN) C=fN(Bl,B2,B3,...BN-1) 其中fl()、f2()…fN()是使用生物标志物Bl,…BN的值作为输入且以某种方式 产生代表家族B生物标志物复合值的单一输出C的数学函数。函数fl(),…fN()的一种 非限制性实例包括本讨论的线性组合。用能够对于丢失的一种单一生物标志物值的所有种 类计算C的此类多重函数的集合,总体复合值的计算变得对于丢失数据不那么敏感。理解 的是,当不是所有数据都存在时,C的估算值可能质量不是那么好,但仍可能足够好以用于 评价PCa风险。因此,使用此类策略,只有N-1生物标志物测定必须成功,以便产生C的估 算值。进一步可能开发任何数量的丢失数据的估算值,即,如果N-2生物标志物测定必须成 功,则可以开发函数f()的另一集合且应用以估算C。
[0111] 因此,关于PCa生物标志物,本发明涉及基于如本申请中别处定义的数据的冗余 设计组合的方法。更具体地,所述方法包括测量至少部分冗余的PCa生物标志物的存在或 浓度,并且其中所述PCa生物标志物中的至少一种,诸如两种,选自(i)PSA、(ii)总PSA (tPSA)、(iii)完整PSA(iPSA)、(iv)游离PSA(fPSA)和(v)hK2。所述方法允许当形成 生物标志物复合值时忽略PCa生物标志物(i)-(v)中的至少一种的子集。换言之,所述方 法允许从关于少于生物标志物类别的所有PCa生物标志物的数据、更具体地关于所述PCa 生物标志物中的至多四种的子集的数据形成生物标志物复合值。如技术人员将理解,这将 等同于这样的方法,其中需要关于所述PCa生物标志物中的至多四种的子集的数据以形成 所述生物标志物复合值。根据本发明的方法的优点是,当形成生物标志物复合值时,关于关 于所述PCa生物标志物的子集的数据的遗漏、缺少或丢失是可以接受的。
[0112] 如技术人员将理解,本发明包括:所述方法包括从关于生物标志物类别的所有生 物标志物的数据形成生物标志物复合值,条件是关于所有生物标志物的数据是可用的。
[0113] 在一个实施方案中,所述方法允许忽略PCa生物标志物(i)PSA、(ii)总PSA (tPSA)、(iii)完整PSA(iPSA)、(iv)游离PSA(fPSA)和(v)hK2 中的一种、两种、三种或 四种的子集。换言之,所述方法允许分别从关于PCa生物标志物(i)-(v)中的四种、三种、 两种或一种的子集的数据形成所述生物标志物复合值。
[0114] 如本申请中较前面所提到,所述方法可以进一步包括分析PCa生物标志物的多种 附加类别中的一种或每种,其中冗余设计数据的组合以形成各额外生物标志物复合值,其 中PCa生物标志物的额外类别包含多于一种PCa生物标志物。所述方法允许当形成生物标 志物复合值时忽略PCa生物标志物的子集。换言之,所述方法允许从关于少于额外生物标 志物类别的所有PCa生物标志物的数据、诸如关于额外PCa生物标志物类别中的10%、20%、 30%、40%、50%、60%、70%、80%或90%的PCa生物标志物的子集的数据形成生物标志物复合值。 如技术人员将理解,本发明包括:所述方法包括从关于PCa生物标志物类别的所有PCa生物 标志物的数据形成各额外生物标志物复合值,条件是关于所有PCa生物标志物的数据是可 用的。
[0115] 遗传风险评分(即,遗传评分,或遗传学复合值,更具体地SNP复合值)对于数据 的小量丢失也是不敏感的,这是由于例如不可预见的技术问题、人为错误或任何其他意外 和不常见的原因。一个snp对风险评分的贡献通常与任何其他snp是不相关的。在snp的 情况下,由于各snp导致的风险变化是小的,但通过一致使用多个与状况相关的snp,对于 所述状况的风险变化变得大得足以对模型性能具有影响。形成遗传评分的snp的优选数 目为至少3个snp,优选10个snp,更优选25个snp,还更优选50个snp,更优选,60个 snp,还更优选70个snp,还更优选80个snp,更优选90个snp,又更优选100个snp,还 更优选150个snp,又更优选200个snp,还更优选250,且还甚至更优选300个snp。这意 味着,任何单一SNP对总结果的影响通常小,并且省略几个snp将通常不以任何大的方式改 变总体遗传评分风险评估,即通常不以显著程度改变SNP复合值。在本领域的当前状态下, 大规模遗传测量的典型数据丢失是1-2%的数量级,这意味着如果遗传评分由100个不同 的snp构成,个体的典型遗传表征将提供关于这些snp中的约98-99个的信息。本模型本 身,如本发明的工作中所发现,然而可以承受数据的较大损失或缺少,诸如信息的5-7%损 失,或7-15%,或甚至15-30%。在该意义上,关于SNPpc的数据的组合是至少部分冗余的。
[0116]因此,还关于遗传标志物(SNP),本发明涉及基于如本申请中别处定义的数据的冗 余设计组合的方法。所述方法允许当形成SNP复合值时忽略至少5%的SNPpc。换言之,所 述方法允许从关于少于SNPpc类别的所有SNPpc的数据、更具体地关于所述SNPpc的至多 95%的子集的数据形成所述SNPpc复合值。如技术人员将理解,这将等同于这样的方法,其 中需要关于所述SNPpc的至多95%的子集的数据以形成所述SNPpc复合值。根据本发明的 方法的优点是,当形成SNPpc复合值时,关于所述SNPpc的子集的数据的遗漏、缺少或丢失 是可接受的。
[0117] 如技术人员将理解,本发明包括:所述方法包括从关于SNPpc类别的所有SNPpc的 数据形成SNPpc复合值,如果关于所有SNPpc的数据是可用的。类似地,本发明包括:所述 方法包括从关于所述SNPpc的99%、98%、97%或96%的子集的数据形成SNPpc复合值。
[0118] 在一个实施方案中,所述方法允许当形成SNPpc复合值时忽略所述SNPpc中的6%、 7%、8%、9%、10%、15%、20%、25%或30%。换言之,所述方法允许分别从关于SNPpc中的94%、93%、 92%、91%、90%、85%、80%、75%或70%的子集的数据形成所述SNPpc复合值。
[0119] 数据的此类冗余设计组合的一个非限制性实例是计算与存在测量数据的各SNP 相关的风险的平均值。数据的此类冗余设计组合的另一个非限制性实例是提供多个独立方 程以计算复合值,一个方程用于可用于产生所述复合值的各数据子集。
[0120]如CancerPrevRes2010; 3:611-619 中公开的RobertKlein和共同作 者的公开报告"BloodBiomarkerLevelstoAidDiscoveryofCancer-Related Single-NucleotidePolymorphisms:KailikreinsandProstateCancer"(其通过弓|用 并入本文)已经描述了用于将SNP与状况(例如PCa,或BMI>25,或血液中升高的hk2生 物标志物浓度)关联的一种合适的方法。在该报告中,作者描述了他们可以如何将SNP rs2735839与(游离PSAV(总PSA)的升高值关联。此外,他们可以将SNPrsl0993994与 升高的PCa风险、升高的总PSA值、升高的游离PSA值和升高的hk2值关联,并且最终将SNP rsl98977与升高的PCa风险、(游离PSA)八总?54)的升高值和升高的1^2值关联。
[0121] 在实践中,用于将SNP与状况关联的一种通用方法依赖于进入病例-对照临床试 验,其比较两个大组的个体,一个健康对照组和一个病例组具有所研究的状况。对于大多数 通常已知的SNP,对于各组中的所有个体进行基因分型。当所有基因分型数据可用时,研究 病例组和对照组之间是否显著改变等位基因频率。在此类设置中,用于报道影响大小的典 型单位是比值比。比值比报道两个比例之间的比率:病例组中具有特定等位基因的个体的 比例,和对照组中具有相同等位基因的个体的比例。如果病例组中的等位基因频率显著高 于对照组中的等位基因频率,则比值比将高于1。如果病例组中的等位基因频率显著低于对 照组中的等位基因频率,则比值比将低于1。
[0122]如EUROPEANUROLOGY60 (2011) 21 - 28 中公开的MarkusAly和共同作者的 公开报告"PolygenicRiskScoreImprovesProstateCancerRiskPrediction:Results fromtheStockholm-1CohortStudy"(其通过引用并入本文)中已经描述了用于组合 来自多个来源的信息一种优选的方法。各SNP和活组织检查时的PCa之间的关联使用 Cochran-Armitage趋势检验评估。具有95%置信区间的等位基因比值比(0R)使用逻辑回 归模型计算。对于每个患者,遗传风险评分通过加和
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1