用来预测未来健康的系统的制作方法

文档序号:6415635阅读:252来源:国知局
专利名称:用来预测未来健康的系统的制作方法
技术领域
本发明涉及用于预测一个体的未来健康的基于计算机的系统和方法。具体地说,本发明通过从大量被试总体中获得纵向数据,从而得到大量生物标识,以统计方法来选择预测生物标识,并根据所选择的生物标识确定和评定适当的多元计算函数,从而来预测一个体的未来健康状况。
可以想象,如果可以足够准确、长远地预测一个体的未来健康出现问题,则与等待疾病实际发作然后处理该症状相比,可以增加防止个体未来健康出现问题的机会。目前,医学研究基金中的绝大多数用于提高诊断和治疗疾病的方法,而不是用于发现可在任何典型可见的疾病症状出现之前减少疾病危险性的预防性测定方法。尽管对疾病治疗的重视可大大地推动医疗科技的进步,从而使对所存在的疾病的诊断以及在诊断之后对疾病的治疗技术和方法得以大大提高,诊断和治疗方式增多,但这种进步仍会导致治疗的费用日益增加。这些费用对个人和整个社会来说其结果是惊人的财政花费。这一惊人的费用导致公众压力增加,从而需更好的途径来减少医疗费用。
这样,除了个体由于被预先告知将来某种疾病发作的可能性高,从而可采取预防措施而受益之外,还可能使整个社会和/或国家的整个医疗费用大大地降低。
迄今为止,想要预测一个体的未来健康状况本身存在两个问题(1)这些预测是不严密的,因为它们依据的数据库是从相对较少,即由几百或几千个被试者组成的研究样本中得到的,以及(2)这些预测需从样本平均值(和其它参数)中推断出个体情况。这种推断在可靠地评估特定个体的危险性时存在很大问题,甚至在特定个体属于某一特定疾病的高危人群时也同样。这是一个事实,其部分是由于一般采用的统计程序均设计成参照总体平均值,而不是对总体中的个体进行判断。
为了获得定量预测,“个体未来健康”应表示为在特定时间框架内发生的特定事件。两个例子为(a)持续五年时间内心肌梗塞的发生,(b)下一年个体的死亡。对这些事件的预测实际上必然是概率性的。
在本文的上下文中,两种类型的概率是重要的。事件的先验概率是在事件发生或未发生这一事实之前的事件概率。事件的后验概率是事件出现之后,即事件发生或未发生之后的事件概率。显然,如果事件发生,则事件的后验概率为1;如果事件未发生,则后验概率为0。先验概率和后验概率之间的区别是值得注意的。
事件在后来的年月或其它时间间隔内发生的先验概率可能是重要的信息。对事件概率的了解可改变行为,换句话说,人采取的行动(行为)可依赖于事件的先验概率。这一原理可通过考虑两个极端的情况得到自身验证。几乎可以确信,人们在以下两种情况下可呈现不同的行为(采取不同的行动)被告知来年的死亡概率是(a)0.9999,或(b)0.0001。
事件的先验概率取决于在判断概率的该时间段可以使用的信息。为了说明这一点,来看看下面的假想“游戏”。从所有美国居民中随机选出一个健在的人,然后跟踪他一年的时间。在年终调查该人的生存状态(活着或死亡)。“事件”为“该人在这一年内死亡”。年终时事件或者发生(人死亡),或者未发生(人活着),其后验概率分别为1和0。在选择跟踪的人前,可利用美国死亡率统计来估计该人在这一年将死亡的先验概率。这一概率可通过p=d/N来计算,其中N为在危险组中的总人数(这里为在年初时活着的美国人群中的总人数),d为在危险组中死亡的总人数。例如,1993年的数据为(近似)d=2,268,000,N=257,932,000,则事件的先验概率约为p=0.0088。[数据来自Microsoft Bookshelf 1995 Almanac,文章题目为“Vital Statistices,Annual Report for the Year1993(Provisional Statisties),Deaths”以及国家健康统计中心公布的Vital Statistics of the United States。]在该游戏中,事件的先验概率基于很小的信息量,简单地说,跟踪的人可能是危险组中的一员,该信息包括来自活着的所有人和在选择期间的美国居民的信息。
上述危险组(从中随机选择被试者)的其它信息包含被试者的其它信息和事件先验概率的变更。例如,继续基于1993年数据的“游戏”·如果危险组为美国男性组,即如果在选择前已知被试者为男性,则事件先验概率约为p=0.0093,它高于性别不详或不确定的情况约为6%。·如果危险组为年龄在75~84岁的美国男性组,即如果在选择前已知被试者为年龄在75-84之间的男性,则事件先验概率约为p=0.0772,或约为年龄不详或不确定的男性的情况的8.3倍。
这些例子表明,一般的原理是事件的先验概率取决于评估概率期间的可用信息。先验概率最精确的判断一般是根据所有可用信息得到的判断。
先验概率的十分精确计算可能并不能保证得到特定的结果这就是说,特定人体的先验概率可能不十分接近后验概率。考虑上述的极端情况,即一特定个体在来年死亡的先验概率为0.0001。尽管他生存的可能性很高,但不能担保对该“游戏”中的所有个体来说,每10,000人中有约9,999人在该年将活着,后验概率为0(该值接近于为0.0001的先验概率),而每10,000人中有约1人将死亡,后验概率为1,该值与先验概率完全不同。为了进一步说明该原理,下面来看一个投掷硬币的事件,该事件中“头像面”出现的先验概率精确地为0.5。“头像面”的后验概率或者为0,或者为1,但不可能十分接近于0.5。因此,一个体的先验概率不应认为近似于该个体的后验概率。但是,如果由非常多的个体来“玩游戏”,则后验概率的平均值(也是事件发生的个体百分比)将十分接近先验概率。
在一些情况下,个人可通过在具有不同先验概率的组间“移动”而改变先验概率。例如,流行病学家已指出,若一个中年男性美国居民,总胆固醇水平很高,包括具有较高的低密度脂蛋白,与胆固醇水平低得多的对照个体相比,他在未来五年中死于心肌梗塞的先验概率较高。临床试验表明,如果高胆固醇的人可在总体上降低他的胆固醇水平,即“移动”到胆固醇低得多的“组”中,则他大大降低了其在未来五年中死于心肌梗塞的先验概率。
在后面的段落和章节中,将采用“危险率”一词来代替词组“一特定事件在特定时间框架内的先验概率”。这对应于在统计学中将“危险率”定义为预期损失,其中如果事件发生,则损失函数的值为1,如果事件不发生,则值为0。
前述内容说明的原理是,不同的信息量导致不同的先验概率。一个已知很多情况(即具有许多已知特性的一些小亚总体)的人的危险率可能与已知很少特性的大亚总体的危险率十分不同。但是仍有另一个问题使人怀疑对总体的传统科学探索研究,从而确定个体疾病危险率的能力。这个问题的产生归因于对疾病发生的一般过于简单的了解,特别是对不断变性的疾病,如癌症、心血管疾病、糖尿病等的了解。这就是说,出于种种原因,一种倾向是相信这些疾病或者可以通过开一个单一的药剂组分处方来得到控制,或者通过单一的组成部分得到临床指征。例如,人们被建议适当减少对脂肪的摄入可控制乳腺癌;增加特定饮食中的纤维成分可控制结肠癌;对血液中胆固醇含量的测定可得到心脏病的临床指征;而胃癌的临床指征是血液中维生素C水平很低。这些过于简单的观点往往被证实不能恰当地确定疾病的发生,特别是对一个个体而言。需要考虑的疑惑很多,以至于无法指出从总体数据推断出总体中个体情况的最大困难是什么。仅对成千上万数量中单一一个组成部分,而不是对可能发生的百万种组成部分进行试验和调查,将伴随大量不确定成分,特别是当企图从这些数据中推断出个体疾病危险率时。
现在存在双重困难(a)将针对实验个体的总体得出的数据推断到随机选出的个体上,以及(b)依据单一的指征或病因事件来严格地折衷推算出随机选出的个体的未来疾病危险。如果能够更可靠地确定一个体的某一特定疾病的危险率,则进而可以为该个体提供信息,这样可以给他或她更多的忠告,使其决定自己的个人行为。实质上,对个体来说,预测未来健康的更可靠的方法将成为个人内在化地了解他自己的健康状况的非常强有力的手段,使其更有效地保持良好的身体。
此外,对于由于他们属于某种类型(每个个体类型与一特定疾病如心脏病高度相关)而判定他们对一特定疾病来说具有高危险性的个体来说,目前可用的方法论一般不能使人定量预测一特定的个体何时将得病或该疾病变得致命,从而足够可靠或可信度很高地促进个体在未来的时间内采取有效的步骤来显著地减少危险率。因此,人们期望有一种不仅能够可靠地预测在特定时期内出现特定健康问题的有效的具有通用用途的工具,而且期望该工具能够根据这种预测来监视防范措施。
本发明涉及提供一种用于判断一个体被试者未来疾病危险率的工具,从而使该个体更有效地预防疾病而不是治疗疾病。
更具体地说,本发明提供一种用于为选出的个体定量预测多种疾病危险率的通用工具,其中这些疾病在未来基本上具有很高的发病概率。这种预测比现有可用的方法有更大的可靠性。
特别是,本发明涉及提供一种基于计算机的方法和装置,该方法与装置提供一种为特定个体判断未来健康危险率,并用于监视预防措施,以便该特定个体减少健康危险率的进行性系统。
本发明确定一组包括概率信息的所选生物标识,这样将得到个体在特定时间段或年龄间隔内的特定生物学状况,并采用这些生物标识的交叉和/或纵向值来估算人体的危险率。
更具体地说,本发明涉及用于预测个体未来健康的基于计算机的系统,包括(a)一个包括一个处理器的计算机,该处理器含有从被试总体的个体成员中纵向采集到的生物标识值的数据库,所述成员的亚总体D确定为在特定时间段或年龄间隔内已获得特定生物状况,而亚总体D确定为在特定时间段或年龄间隔内未获得特定生物状况;以及(b)一个计算机程序,包括以下步骤(1)从所述生物标识中选择生物标识子集,判别属于亚总体D和D的成员,其中生物标识子集的选择依据被试总体的个体成员的生物标识值的分布;以及(2)采用所选生物标识的分布来进行统计过程,这样可用于(i)将被测总体的成员分类成或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性高概率的亚总体PD,或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性低概率的亚总体PD;或(ii)对被试总体的每个成员进行定量判断,推算得到特定时间段或年龄间隔内特定生物状况的概率。
本发明尤其是涉及一种用于预测一个个体的未来健康的基于计算机的系统,该系统包括(a)一个包括一处理器的计算机,该处理器包含一个个体的多个生物标识值;以及(b)一个包括为所述多个生物标识值提供统计过程的步骤的计算机程序,这样(i)将所述个体分类成或者为在特定时间段或年龄间隔内获得特定生物状况具有指示性高概率,或者为在特定时间段或年龄间隔内获得特定生物状况具有指示性低概率;或(ii)对被试总体的每个成员进行定量判断,推算在特定时间段或年龄间隔内获得特定生物状况的概率;其中所述统计过程是基于(1)从被试总体的个体成员中采集纵向得到的生物标识值的数据库,所述成员的亚总体D确定为在特定时间段或年龄间隔内已获得特定生物状况,而亚总体D确定为在特定时间段或年龄间隔内未获得特定生物状况;(2)从所述生物标识中选择生物标识子集,判别属于亚总体D和D的成员,其中生物标识子集的选择依据被试总体的个体成员的生物标识值的分布;以及(3)采用所选生物标识的分布来进展统计过程。
对本领域技术人员来说,在下面对发明的详细公开说明将更清楚地展现出本发明的其它目的和优点。


图1表示依据判断得到的线性判别函数值的经验分布函数(“EDF”),分别针对实例中D组(实线)和D组(虚线)。
图2示出了实例中D组和D组基于最小随机对象效应指征值的线性判别函数值的经验分布函数(“EDF”)。
下面将详细描述本发明的特定优选实施例。可以理解,这些实施例将作为示范性的例子,而本发明并不受其限定。
本发明依据这样一种理论,即个体健康总的来说受范围很宽的生理和生化参数的综合的相互作用的影响,这些参数涉及营养、毒理学、遗传、激素、病毒、感染性、人体测量、生活方式以及其它可能描绘出该个体的异常生理学和病理学状态的状态。基于这种理论,本发明涉及提供一种用于预测未来健康的实践性系统,该系统采用多元统计分析技术,通过将一个体的一组生物标识值与从大量被试总体的一组大量的个体生物标识值中纵向获得的数据库进行统计学比较,能够定量预测该个体的未来健康。这里所用的“生物标识”一词指的是任何可影响或涉及诊断或预测一个体健康的生物指征。这里所用的“纵向”一词指的是生物标识值是在一时间段内,特别是在至少两次测量事件内周期性获得的这一事实。
纵向评估的频率和持续时间可以变化。例如,一些生物标识可每年评估,评估周期范围为从2年这样的短期至整个生存时期这样的长期。在一些情况下,例如在推断新生儿时,生物标识的评估可更频繁一些,例如每天、每星期或每月一次。纵向评估的时机可以是“非规律性周期”的,即在不相等的时间间隔内发生。一个体的一系列纵向评估可以是“完全的”(即从所有预定评估和所有预定生物标识中得到的数据是实际得到的、有用的数据)或者是“未完全的”(即就某些方式而言,数据是未完成的)。一个体的生物标识既可以是交叉抽样的,即在同一时间点上,采样又可以是纵向的。本发明可以对个体数据,即包括上述任何一种或所有所述特性的交叉抽样或纵向的、规则或不规则周期得到的、完全的或未完全的数据进行所需的统计分析。
用于判断未来健康的研究系统能够根据特定时间段内的特定生物状况来对个体的概率进行定量估算。定量概率估算是采用本发明的统计分析程序来计算的。该研究系统一般可用于对未来一、二、三、五年或最终达15至20年或更多年进行未来生物状况的预测。尽管该研究系统一般在一特定疾病通常可观察到或检测到指征很久之前使用,但该研究系统也可用于预测相对较短时间周期内的未来健康,如仅为几个月或几周,或甚至更短。
尽管包括在被试总体内的成员个数无上限,例如最终可包括几百万的被试成员,但典型的被试总体最初可包括很少的成员。可采用近似统计抽样技术来从很多一般总体中选择被试总体,从而提高数据采集的可靠性。
在典型的实施例中,本发明涉及基于计算机的系统,该系统采用一系列的统计分析步骤来产生数学统计函数,这些函数可用于根据特定时间段或年龄间隔内的特定生物状况来估算个体的危险率,并断定个体处于高危险率中。在该研究方法的阶段I之前,可用被试者可随机确定为训练样本或评定样本;在阶段I至III对训练样本中的数据进行处理,阶段IV对评定样本中的数据进行处理。阶段I为筛选阶段,采用相关分析、逻辑回归、混合模型和其它分析选择出一个大的、具有可能对危险率估算有用的信息的生物标识子集。
阶段II为参数估算阶段,采用混合线性模型来估算期望值向量,并构造候选生物标识的协变矩阵参数,甚至在未完全数据和/或不规则周期纵向数据的情况下也同样。阶段III为生物标识选择和危险率判断阶段,采用判别分析方法学和逻辑回归来选择含信息量的生物标识(确切地说,包括纵向判断),估算判别函数系数,并采用一反相累积分分布函数和逻辑回归来估算每个个体的危险率。阶段IV为评定阶段,采用评定样品来对判别过程的错误分类率进行无偏差估算。
尽管在前面的段落中出现的统计过程的单个步骤在统计文献中有描述,但可以相信,这些单个的步骤没有如这里所述的那样组合在一个单一的总过程中。特别是,随后过程的传统形式例如在下述文献中有描述Encyclopedia of Statisticai Sciences,Samuel Kotz,Normal L.Johnson和Campbell B.Read编辑,1985年由Jhon Wiley& Sons出版,以及这里引证的其它文献(a)相关分析(第2卷第193-204页),(b)逻辑回归分析(第5卷,第128-133页),(c)混合模型分析(第3卷第137-141页,文章题目为“Fixed-,Random-,andMixed-Effect Models”),(d)判别分析(第2卷第389-397页)。本发明可采用这些过程的传统形式或之后可能发展和发表的新型形式。
相关分析是统计方法中用于估算两个或多个变量之间线性相关程度的词汇。这里所用的相关包括各种类型的相关,包括(但不限于)Pearson积矩相关、Spearman’sρ、Kendall’sτ、Fisher-YatesγF以及其它等。
逻辑回归是统计方法中的一个词汇,包括逻辑-线性模型,用于分析被观察的非独立变量(可以是比例或比率)和一组解释性变量之间的关系。这里所用的逻辑回归(或其它逻辑-线性模型)主要用于分析,其中非独立变量为二进制输出,代表一个体的成员属性处于两个互补(非交叠)研究对象组中之一内一组为在特定时间段或年龄间隔内将获得特定疾病或状况(有时在这里称为“特定生物状况”),另一组为在特定时间段或年龄间隔内将不获得特定疾病或状况。在这种情况下,解释性变量典型地为生物标识或生物标识函数。
混合模型分析是统计方法中的一个词汇,用于分析相关的非独立变量(多元测量或观察、一个变量的纵向测量/观察以及/或纵向多元测量/观察)和可包括协变量如年龄、分类变量(代表组内成员属性)等“独立变量”之间关系的期望值;也可以用于分析代表相关的测量/观察内协变性的结构和参数。词“混合模型”包括固定效应模型、随机效应模型和混合效应模型。混合模型在期望值模型和/或协变性模型中可具有线性或非线性的结构。混合模型分析一般包括对期望值参数(通常表示为β)和协变矩阵参数(通常的形式为∑=ZΔZ’+V,其中Δ和V为未知参数的矩阵)的估算。混合模型分析还可包括对个别研究对象的随机对象效应(通常表示为以dk代表第k个被试者)的预测和所谓“最佳线性无偏差预测”(或“BLUPs”)。混合模型分析一般包括测试期望值参数和/或协变参数的假定值和建立参数的可靠程度范围的过程。
特别是,判别分析方法学涉及用于展开判别函数的统计分析方法和技术,该函数用于依据多元观察对象(例如一研究对象的生物标识值的向量)的值确定其应属于两个互补(非交叠)的研究对象组(例如在特定时间段或年龄间隔内将获得特定疾病或状况的一个组和在特定时间段或年龄间隔内将不获得特定疾病或状况的一个组)之中的哪一个。另外,判别函数可以指作为基础来计算属于给定组内的给定观察对象的概率估算值的函数。对本发明来说,感兴趣的观察对象一般包括从大量被试总体的每个成员中或从单个的被试对象中获得的若干生物标识值。本发明的判别函数利用这些生物标识值的分布,针对确定为感兴趣的每个生物标识展开。这种分布描绘成具有每个生物标识值的被试总体中各个成员的总数对生物标识值本身的关系图。这样,本发明采用了使用基于个体生物标识值的分布的统计过程,这些生物标识值是从被试总体的单个成员的每个生物标识中获得的,更清楚地说,例如从不同被试总体中获得不同生物标识,进而从得到的平均生物标识值中获得的。
“判别函数”一词的含义是指用于将观察对象(标量或向量)分类成两组或更多组的几种不同类型的函数或过程之一,包括(但不限于)线性判别函数、二次判别函数、非线性判别函数以及各种类型的所谓优化判别函数。
本发明基于计算机的系统包括一个具有一处理器的计算机,该处理器能够运行一个或一组计算机程序(后面简称为“计算机程序”),所述计算机程序的步骤用于在本发明的各种步骤和阶段中执行所需计算和数据处理。处理器可以是微处理器、个人计算机、主计算机系统,或总的来说是任何能够执行程序的数字计算机,其中所执行的程序为进行所需的计算和数据处理。处理器一般包括一中央处理单元、一随机存取存储器(RAM)、只读存储器(ROM)、一个或多个用于在各种元件中传输数据的总线或通道、一个或多个显示装置(如“监视器”)、一个或多个输入-输出装置(如软盘驱动器、硬盘驱动器、打印机等)以及用于控制输入-输出装置和/或显示装置和/或将这些装置连接到总线/通道上的适配器。一具体的处理器可包括所有这些元件,或仅包括这些元件的一部分。
计算机程序可存储在ROM或一个磁盘或一组磁盘中,或存储在任何可用于储存和分配计算机程序的有形媒体中。
计算机程序能够为分析的各种阶段和步骤根据截面的和/或纵向的多元生物标识数据执行计算。
生物标识数据最好从具有足够多的样本的被试总体中采集到,这样得到两年或三年时间内感兴趣的特定生物状况的成员总数足够多,从而能够采用判别分析方法学来对特定生物状况进行有意义的处理。由于本发明的一个特征是涉及提供一种采用相同的数据库来进行预测的装置,其中这种预测是根据从一年至两年内死亡的主要的、基本的任何原因中得到的任何主要疾病和/或死亡概率进行的,所以被试总体最好大到足以用来为研究系统提供任何一种或多种常见疾病和死亡基本原因,其中所有感兴趣的死亡的总和至少约为60%,更优选的是至少约为75%。感兴趣的死亡这里定义为那些从病理学上说的自然死亡,有别于由事故、被杀或自杀引起的死亡。
例如,采用疾病控制与预防中心(每月生命统计报告,增补,卷44,第7号,1996年2月26日)提供的数据可以看出,与病理原因导致死亡的总原始死亡率约为880/100,000相比,所有病理原因导致死亡中多于75%可以由下述基本死亡原因来统计具有原始死亡率的恶性肿瘤(ICD 140-208)区别于与年龄相关的死亡率,为205.6/100,000;主要心血管疾病(ICD 390-448)为367.8/100,000;慢性阻塞性肺病(ICD 490-496)为39.2/100,000;以及糖尿病(ICD 250)为20.9/100,000。实际上从中已可看出,这些疾病体现出主要的饮食和生活方式影响,与饮食和生活方式状况的变化有关,由各种可解释、可测量的生物标识显现。
本发明的新型特征之一是,所述基于计算机的系统和装置可用于通过比较个体的生物标识值的分布图和从大量的被试总体中获得的大量生物标识值,从而确定一特定个体患有这些主要疾病中任何一种的危险率。由于已知这些主要疾病具有许多可反映在这些生物标识值中的共同因素,因此本基于计算机的系统可用来同时判断患这些主要疾病的危险率。例如,已知总血清胆固醇是与许多这些疾病相关的生物标识。通过监视作为重要预测因素的一特定疾病或根本死因的每个生物标识值分布,并结合其它重要的生物标识预测因素,采用本发明比较所述分布和被试总体,一个体研究对象可十分准确、定量地被告知,对该特定个体而言哪种疾病的危险性最大。
本发明的特殊特征是,在一特定疾病的典型症状显现出来之前即为患一特定疾病的危险率最大的那些个体提供在未来的特定时间段或年龄间隔内患该疾病的定量概率。得到这些信息后,由于已知这些疾病与饮食和生活方式状况相关,该个体接下来可进行行为的改变,从而减少所确定的疾病的危险率。
另外,在越来越长的时间段内采到数量越来越多的研究对象的越来越多的数据之后,可以将每种主要疾病和死因划分得越来越细,并且本发明的方法学中包括的较少的相似疾病和根本死因可重新定义。例如,不同类型的癌症可用下述词汇来细分,例如肝癌、肺癌、胃癌、前列腺癌等。这样,本发明的基于计算机的系统提供一种包括其划分不断增大的总体的装置,从而预测每个个体在特定时间段内得或不得由特定病理学导致的疾病的定量危险率,其中该疾病被越来越细地限定。
从被试总体中采到的生物标识数据中的一组综合的生物标识最好尽可能多地包括各种各样的生物标识,这些生物标识被认为或确信与最共同的疾病或病理学导致的死亡的根本原因相关。另外,可包括从生物功能的每个已知和基本上可接受的遗传学、生理学和生化领域中得到的有代表性的生物标识集。其它的生物标识例如最好包括所有可从生物样本中测到的那些生物标识,其中该生物样本可以储存,以便在样品采集很久之后用于分析。
生物样本最好包括血样和尿样,但其它生物样本也可包括在采集的样本之中。例如也可采集的样本有唾液、头发、趾甲和指甲、粪便、呼出气体等。这些生物样本一般是基本上从被试总体的每个成员中获得的。但在一些情况下,对特定的生物标识子集来说,可仅从总体的特定子集中获得。
在采集生物样本的同时一般也得到与被试总体每个成员有关的营养习惯和生活方式。与营养习惯和生活方式有关的生物标识可包括的内容例如如表1所示。尽管这里采用列于表1中的营养和生活方式生物标识来展现与营养习惯和生活方式有关的生物标识类型,但应该明白该表不排除落在本发明保护范围之内的营养和生活方式生物标识。呈现重要营养定论的生物标识以及临床和感染的生物标识也可由其它因素,例如营养的摄取确定。这样,显示于表9中的类别描述(例如血清生物标识、尿液生物标识、调查表等)是可选择来描述获得的生物标识值的类别的示例。对于在一段时间内可变化的营养和生活方式生物标识来说,最好每次采集和记录被试总体中每个成员的生物样本。
表1 可用在本方法中预测未来健康的生物标识的说明表单血清生物标识总胆固醇* 维生素A1*HDL胆固醇* 维生素A1混合蛋白*LDL胆固醇* 抗坏血酸*载脂蛋白b* 铁*载脂蛋白A1*钾*甘油三酸脂*镁*脂类过氧化物(丙二醛等效物TBA)* 总的磷*α胡萝卜素(脂蛋白载体修正)*无机磷*β胡萝卜素(脂蛋白载体修正)*硒*γ胡萝卜素(脂蛋白载体修正)*锌*ζ胡萝卜素(脂蛋白载体修正)*铁蛋白*α隐黄素(脂蛋白载体修正)* 总的铁结合能力β隐黄素(脂蛋白载体修正)* 空腹葡萄糖*鸡油菌黄质(脂蛋白载体修正)* 尿素氮*番茄红素(脂蛋白载体修正)* 尿酸*黄体素(脂蛋白载体修正)* 前白蛋白*脱水黄体素(脂蛋白载体修正)* 白蛋白*链孢红素(脂蛋白载体修正)* 总蛋白质*六氢番茄红素(脂蛋白载体修正)* 胆红素*Phytoene(脂蛋白载体修正)* 甲状腺刺激激素T3*α生育酚(脂蛋白载体修正)* 甲状腺刺激激素T4*γ生育酚(脂蛋白载体修正)* 可替宁黄曲霉素-白蛋白加合物 双单体γ亚油酸(203n6)*乙型肝炎核心抗体(HbcAb) 花生烯酸(204n6)*乙型肝炎表面抗原(GhsAg+) 二十碳五烯酸(205n3)*白色念珠菌抗体二十二碳四烯酸(224n6)*Epstein-Barr病毒抗体 鲱油酸(225n3)*二型疱疹病毒抗体 二十二碳六烯酸(226n3)*人类乳头状瘤病毒抗体 总饱和脂肪酸(160,180,幽门螺杆菌抗体200,220,240)*雌二醇(E2)(用于女性周期调节)* 总单一不饱和脂肪酸(141,性激素结合球蛋白* 161,181n9,201,241)*催乳激素(用于女性周期调节)* 总n3聚合不饱和脂肪酸(183n3,睾酮(用于女性周期调节)* 205n3,225n3,226n3)*血红蛋白* 总n6聚合不饱和脂肪酸(183n6,肉豆蔻酸(140)* 202n6,203n6,204n6,224n6)*棕榈酸(160)*总n3聚合不饱和脂肪酸/总n6聚不硬脂酸(180)*饱和脂肪酸(183n3,205n3,花生酸(200)*225n3,226n3/183n6,202n6,20榆树酸(220)*3n6,204n6,224n6)*二十四酸(240)*肉豆蔻脑酸(140)*十六碳烯酸(161) 总聚合不饱和脂肪酸(182n6,18油酸(181n9)* 3n3,183n6,202n6,203n6,204n6,鳕油酸(201)* 205n3,224n6,225n3,226n3)*顺芥子酸(221n9)* 总聚合不饱和脂肪酸/饱和脂肪酸二十四酸(241)*(182n6,183n3,183n6,202n6,203亚油(182n6)* n6,204n6,205n3,224n6,225n3,22亚油酸(183n3)*6n3/160,180,200,220,240)*γ亚油(183n6)*[约10-30个遗传标识,取决于所调查的疾病]二十碳二烯酸(202n6)*尿样生物标识Mg*乳清酸核苷 Mn*Cl* Na*Mg* Se*Na* Zn*肌酸酐 总生育酚(修正脂类摄取)容积总视黄醛衍生物*NO3总类胡萝卜素*黄曲霉毒素(AF)M1硫胺*AF N7鸟嘌呤核黄素*AF P1烟酸*AF Q1维生素C*黄曲霉素[约30种不同类型的食物]*8-脱氧鸟苷 [约30种不同的脂肪酸]*食物中的营养摄取(从调查表中得到)血红细胞总蛋白质* RBC谷胱甘肽还原酶*动物蛋白质* RBC过氧化氢酶*植物蛋白质* RBC过氧化物岐化酶*鱼蛋白质*脂类* 人体测量参数“可溶”碳水化物* 身高*总食物纤维*体重*总卡路里*从脂类中摄取的卡路里比率* *表示生物标识是决定胆固醇*营养状况的重要成分Ca*P*Fe*K*对期望得到生物标识值的生物样本进行分析,以确定该生物样本中每个元素的生物标识值。应该明白,生物样本中任何可能发现和测量的成分均在本发明的范围之内。例如包括可以从血样中测到的遗传学生物标识以及在任何其它合适的生物样本中可测到的生物标识。
由于本发明的其它特征是确定用于预测疾病和死亡的新的一组生物标识,因此生物标识组可包括以前不知道是否对预测特定疾病或特定死因具有统计学意义的生物标识。这样,由于从原理上说可使用的生物标识的总数是基本不受限制的,因此实际所用的生物标识数目一般来说仅出于对实际经济能力和方法学考虑的限制。
由于本发明的其它特征是提供一种用于预测在未来的特定时间段或年龄间隔内特定生物状况的基于计算机的系统,因此生物标识值的总数可限定在仅是那些对预测单一的特定生物状况来说具有统计意义的生物标识值。这样,当打算将本系统典型地用作一般目的的工具,最终主要来预测和监视基本上作为所有主要类型的疾病和根本死因时,这里公开的所用方法学也可以一次针对一种疾病和死因。
在采样之后,可以立即对生物样本进行分析,也可以将样本储存以备后来的分析。由于希望可以在相对较短的时间内采到大量的样本,并且在一般情况下不安排立即进行即时分析,因此样本最好储存起来以备后来进行分析。由于样本一般均储存相当一段时间,因此样本一般均冷冻。样本在保持样本完整性的情况下储存和运输。该技术例如在Chen,J.,Campbell,T.C.,Li,J.,和Peto,R.等人的题目为“中国的饮食、生活方式和死亡率”(65个中国乡村特点研究,牛津,英国;Ithaca,纽约;北京,中国;牛津大学出版社;Cornell大学出版社;人民医学出版社,1990)中有描述。
采用身体上的样本如生物样本是特别优选的,因为选择这种样本对采用已确立的、经济有效的技术来采集、储存和分析丰富的纵向得到的生物标识数据来说提供了可实际操作的手段。最好是针对被试总体在经过的一段时间内,至少是5-10年,最优选的是15-20年或更长的时间内进行生物样本的采集,这样产生的数据质量能够不断地提高概率预测的可靠性。
由于本系统的可靠性最终是由采到的生物标识数据的质量来决定的,因此需采用适合的测量,以确保数据来自所有方面,具有整体性。例如当关心生物标识的稳定性时,需要考虑和采取适当的措施来计算在一段时间内可能会影响或引起生物标识值品质降低的因素。
另外,当本公开的内容一般涉及从身体上的样本中获得生物标识数据(其中所述身体上的样本是从被试总体的成员或一个被试对象中获得的),并且生物标识数据是从每个被试个体生存的饮食和生活方式中提取出来的时,从任何来源中获得生物标识数据的使用均落在本发明的精神和保护范围内。例如,本方法还可包括采用从电生理测量技术如脑电图(EEG)数据、心电图(ECG)数据、放射成象(D光)数据、核磁共振图象(MRI)等中获得的医学诊断数据,并且或仅使用一部分数据,或最好是混合使用从生物样本和生存的饮食以及生活方式中纵向获得的生物标识数据。
由于被试总体最好是在一些年中受监视,因此可以期望,从该被试总体中观察到的死亡率将代表基本上所有人群。对被试总体中的每种疾病的死亡率来说,个体被确定,并且记录根本死因。最好是采用已有的编码系统,例如已建立的疾病的国际统计学分类和涉及的健康问题(ICD-10)(日内瓦,世界卫生组织,1992-c1994,第10版)。其它可采用的编码系统也在本发明的范围和精神之内。
采用一有效的系统来确定被试总体的成员何时得病或具有特定生物状况,并且也可以采集死亡率,另外采集被试总体的生物标识和死亡率数据。
生物标识值的数据库最好包括每个个体的信息(记录有生物标识和生物标识样本采集和记录时的时间和年龄)、实际信息(通过对个体的监视而记录的每种疾病事件、医疗情况、医疗病理学情况或死亡等),包括诊断和事件发生的时间。如果可能的话,数据库包括判断每个事件前、判断过程中和判断之后的生物标识值。
由于本发明的一个方面涉及在不知生物标识是否对预测未来的特定疾病子集或根本死因子集具有统计意义之前即确定,因此应尽可能多地监视生物标识。在有代表性的实施例中,从被试总体的每个成员中获得约200个生物标识值,当然对可用于进行基于计算机的统计分析方法学来说,生物标识的数目基本上没有上限。
由于本发明涉及提供一种用于预测在特定时间段或年龄间隔内出现特定生物状况的实用和可靠的系统,因此被试总体的每个成员生物标识值基本上全部是在至少两个不同的时间段内采到的。更优选的是,为了得到倾向于随时间变化的信息,全部采集至少在三个时间段内进行,最优选的是,生物标识值的采集是在实际可行的条件下尽可能长的时间周期内进行的。
在本发明的另一方面中,基于的理论是一个人的个体生物标识值的比率或该比率的变化对预测未来健康来说,比任何给定的生物标识值的实际值更重要,而判别函数一般是采用基本上全部的生物标识值来确定的。由于一般认为,从实际的原因出发,在每次进行试验时不可能期望从被试总体的每个成员中获得全部生物标识值组,因此本发明的统计分析研究方法包括以统计学的有效方式可靠地计算非全部数据的方法。
本发明的又一方面不仅提供定量判断未来特定疾病的危险率的手段,还提供一种用于定义和确定一个人在未来中得所有病的危险率最低的那些生物状况的可用工具。因此“特定生物状况”一词在本发明中意味着包括所有健康范围,从最强健的健康到最严重的疾病。这样,本发明涉及提供一种用于监视和预测未来健康(从最健康到最不健康)的系统。
尽管在特殊地区中,从被试总体中得到的结果可用于预测总体人群的未来健康,这样在对相同总体人群中个体的未来健康进行预测时将不必从该总体人群中选择被试总体。但这种限制不是必须的,因为已知,对于其所得的疾病占有概率具有他们家乡区域的特性的个体的总体来说,当他们迁移至其人群具有不同疾病组的占有概率的新区域时,他们将得的疾病具有迁移到的新区域的特性。这一点将随着时间的推移与取得新地区的饮食和生活方式状况一致。这就是说,在不考虑遗传特性的条件下,世界上的所有人种和种族倾向于得相同的普通疾病,而这些疾病对每个人种和种族来说可能是独特的。
本发明的特定特征之一是该系统能够在未来健康问题通常被诊断出之前预测未来健康将发生问题。通过采用研究对象的判别分析方法来分析从大量被试总体中采集到的数据库,可具有估算特定定量概率地预测特定个体在未来发生特定健康问题的时间。另外,本发明提供一种用于预测特定健康问题的系统,随着时间的越来越长,从越来越大的被试总体中采集的数据越来越多,该系统的可靠性越来越强。
一般针对每个生物标识对生物样本进行分析,从而得到期望的定量值。出于经济和方便的原因,并且由于可以采集到大量的样本,开始可仅对已诊断出得病或在样本已采集的时间段内死亡的个体进行样本分析,同时随机选择被试总体中的剩余部分。例如,如果所调查的被试总体的每年死亡率在每年2-3%的范围内,则具有300,000成员的被试总体中的死亡人数为6000-9000,其中有意义的死亡数目是由主要的根本死因引起的。
本发明的另一特征之一是包括如下步骤等到相当数目的死亡在被试总体中出现,随后选择那些个体作为初始确定生物标识值的个体。另外,仍旧生存的被试成员可从被试总体的剩余部分中选择。为了在需要经济控制和需要获得足够大量的成员以得到有统计意义的结果之间达到平衡,本系统提供一种限制分析测量花费的实际方法,即为了最少的花费中仅需要那些将提供最多信息的样本。当然,随着被试总体中发生死亡的成员越来越多,在该时间段内将对越来越多的样本数目进行分析。但是,从建立越来越可靠的定量预测未来健康的系统来说,获得的数据值将或多或少地相应于采集额外生物标识值的花费。这一点是本发明许多特殊特征中另一个与现有系统不一样的地方。这种延迟样本分析的技术允许推迟花费,直到得到的结果趋于具有较大的实际值为止。
在选择用于分析的样本时,可采用公知的研究方法来确定生物标识值。由于要分析的样本数量很大,并且每个样本均需测量大量的生物标识值,如果不是全部也是大多数测量一般采用多通道分析仪,例如由Boehringen Mannheim Corp.of Indianapolis,IN制造的BMD/Hitachi Model 747-100。这种分析仪可设计成采用总样本中的相对较少量样本同时地测量所选大量生物标识组的生物标识值。例如,所采集的血量一般约为15毫升,而每次分析测量仅需10-30微升。类似地,所采集的尿量一般约为50毫升,而用于分析的量约为100微升。其它生物样本也可以采用适当的较小量。
由于在代表性实施例中可采用可物理保存的生物样本,并且由于仅需要采用相对较少量的分析样本用于任意选择时间段的测量,因此一般在采集样本很久之后才对可从给定样本中检测到的任何生物标识进行有效的研究分析。例如,尽管可以初始即采用所述系统来分析什么是目前确信的更有效的生物标识,但该系统也很容易适合于包括其它目前仍不能确定是否对预测未来健康很重要的生物标识。从原理上说,在时间充裕和经济允许的情况下,每个从保留的生物样本中可检测到的生物标识均可最终被测量。
尽管希望得到被试总体中每个成员的基本上全部的生物标识值,但实现起来一般十分困难,特别是当样本是从地区性分布很宽的人群基础中纵向采到的时。采用传统的统计分析方法学,即一般放弃不完全的数据组,并且根本放弃不用,这样,最终覆盖初始被试总体大部分的大量数据将被放弃。这样做的结果可能是大量的数据资源被浪费,并且由剩余部分产生的结果质量严重下降。本基于计算机的系统包括的一个特征是,提供了一种通过采用统计学可检验的技术来填补“丢失值”,从而基本上采用所有采集到的数据的装置。这是方法学中特别有用的方面,与现有技术的研究相比,它基于从地区分布很宽的被试总体的大量被试成员中采集大量数据。对从大量不同的被试总体中采集广泛的数据特别来说,有望从具有代表整个人类实践的,范围很宽的不同的饮食和生活方式活动的成员中获得生物标识值。
出于描述本发明的目的,这里对下述术语进行说明“特定生物状况”例如可指下列情况中的任一种· 例如,按疾病的国际统计学分类和相关的健康(上册)分类的一种特定疾病(例如糖尿病);· 一种特定医学或健康状况或症状(例如高血压,如一般由生物标识或生物标识组值与通常分布的偏差来定义);· 一种特定医学事件和它的后遗症(例如局部缺血的发作和后来的死亡或未死亡以及与发作有关的部分麻痹和相关的状况;心肌梗塞和后来的死亡或未死亡以及与MI有关的状况);· 任何原因引起的夭折(夭折的年龄早于计划第一次从人的性别和年龄判定的平均死亡年龄);· 特定年龄段的死亡;· 根据具有或得到特定生物标识值组,为特定生物标识组新定义的种类。
“获得”或“发作”特定生物状况指的是一种情况,其中一个人在给定判断的时刻不具有特定生物状况,但他后来遭受该特定生物状况,在这种情况下,该人被称之为已“获得”该特定生物状况,而“发作”定义为该人出现“获得”该特定生物状况时的事件。
对特定生物状况和对不具有或还未具有特定生物状况的人的总体来说,有两种如下描述的互补的亚总体,定义为D组和D组· D组为将在特定时间框架内获得特定生物状况的人的亚总体。这里所用的“特定时间框架”可指特定时间间隔(例如“下一个五年”),指特定年龄间隔(例如“在65至70岁之间),或指相似的特定时间或年龄间隔。· D组为将在特定时间框架内不获得特定生物状况的人的亚总体。
这些研究对象的亚总体的部分特征是具有大量(尽可能大)生物标识的特定的数据纵向模式。“纵向模式”不仅包括生物标识的“值或组织浓度”,还包括值的变化。如果已经知道代表亚总体部分特征的生物标识纵向模式,并且具有一特定人的所需数据,则根据该人将属于D组还是D组可将其分类到两互补组的一组中· PD组该组的人在特定时间框架开始时被预测为在特定时间框架内将获得特定生物状况,即属于D组。这些人被描述成具有指示性高概率在特定时间框架内获得特定生物状况。· PD组该组的人在特定时间框架开始时被预测为在特定时间框架内将不获得特定生物状况,即属于D组。这些人被描述成具有指示性低概率在特定时间框架内获得特定生物状况。
“指示性高概率”的量值可在一定范围内变化,从具有低于很少百分比的概率,甚至低于1%或更少至高到10%、20%、50%,或甚至更高一些,这取决于特定生物状况。例如,可观察到由于抽烟而使患肺癌的危险率增高,其中抽烟是许多重要的、首推的可避免危险之一,尽管实际由抽烟引起的危险率的几倍增长仍使在未来的15-20年或更多年中患肺癌的概率仍在5-10%之间。在许多情况下,对系统预测的每种特定生物状况来说,可以定量确定其指示性概率。“指示性低概率”可简单确定为不在获得特定生物状况的高危险组内,或者说,该词可另外确定为一具体值。
当被试总体中从统计学来讲足够多的成员被确定为属于D组或D组后,可采用研究对象方法学将D组成员的生物标识值与D组的成员相比,从而确定一统计过程来将成员分类归属于PD组或PD组,或对被试总体的每个成员估算在特定时间段或年龄间隔内获得特定生物状况的概率,即估算属于PD组或属于PD组的概率。在本发明代表性实施例中,将成员分类归属于PD组或PD组的统计过程将采取后面描述的判别分析过程的形式,该过程可称为“判别过程”。“从统计学来讲足够多”可定义为用于分析中的生物标识总数量和其生物标识值是有效的时被试成员的总数量,其中每个总数量应大到对象方法学中所用的计算过程是成功收敛的。
判别过程具有两个相关的误差率(1)假阳性比例,即将来的研究对象将被分类到PD组,而其实际上属于D组的比例。
(2)假阴性比例,即将来的研究对象将被分类到PD组,而其实际上属于D组的比例。本发明的代表性实施例将结合方法学获得这两种误差率的精确估算。
本发明的代表性实施例由三个阶段组成,每个阶段具有多个步骤。这三个阶段是阶段I 建立判定方法学和选择考虑对象的生物标识。
阶段II 将候选生物标识压缩成一组具有判别能力、能够对协变性结构和预测值进行混合模型估算的所选生物标识。
阶段III 采用估算装置和预测值计算判别函数,针对每个研究对象计算逻辑预测值;估算判别函数的误差率。每个阶段具有多个步骤。在一个阶段中,一些步骤组是迭代的;这就是说,一特定步骤组可重复数次,直到取得特定结果。下面段落中将描述这些阶段的代表性实施例和它们的步骤。
阶段I 建立判定方法学和选择考虑对象的生物标识下述步骤将出现在本发明代表性实施例中。
步骤1选择用于估算过程误差率的方法学方法学可结合任何统计学中适合估算误差率的方法。许多可用方法中的两个方法是训练样本/评定样本方法和二次抽样(或称“再抽样”)方法。
训练样本/评定样本方法在训练样本/评定样本研究中,被试总体被随机分成两个子集,这里定义为“训练样本”和“评定样本”。每个研究对象(被试总体成员)被认定或者为“训练样本”,或者为“评定样本”。训练样本中的研究对象的数据用于统计分析,得到判别过程的分类和估算过程的概率。评价样本中的研究对象的数据用于估算判别过程的误差率和概率估算的分布。
二次抽样方法“二次抽样”指的是统计方法中的分类,包括摺刀法和自展法,可用于产生偏差较小的误差率估算。在二次抽样方法中,所有研究对象的数据均用于统计分析中,产生判别过程的分类和/或估算概率的分布。采用所有的数据产生的判别过程和/或概率的估算过程好于在训练样本/评定样本研究中产生的判别过程和/或概率的估算过程,特别是(1)如果被试总体不是很大,或(2)即使被试总体很大,但获得生物状况的先验概率较小。在本发明的内容中,二次抽样方法计算精确。
步骤2选择“训练样本”,即用于统计分析、以产生判别过程/概率估算过程的被试总体子集以及选择作为互补子集的“评定样本”如果采用二次抽样方法,则所有研究对象的数据均用于统计分析中,产生判别过程的分类和/或概率分布估算。在这种情况下,“训练样本”为整个被试总体。
如果采用训练样本/评定样本方法,训练样本将近似包含被试总体的特定百分比。在许多情况下,训练样本的百分比将为50%;但也采用其它比例。评定样本将包含所有未包括在训练样本中的研究对象。
将研究对象随机确认为训练样本一般依据研究对象的年龄层来进行的。研究对象的年龄被分级成适当的间隔一个年龄组层由年龄落在特定年龄间隔内的研究对象组成。间隔的选择为使每个层中的研究对象数量适合于统计分析。在一个年龄组层中,研究对象将被随机确认为训练样本或评定样本。随机性被建立以近似地实现训练样本中研究对象的特定比例。例如,如果训练样本确定为包括75%的被试总体,则在每个年龄组层中,近似75%的研究对象将随机确认为训练样本。例如,如果一个年龄组层确定为“65岁≤年龄<70岁”,则在该年龄层中近似75%的研究对象将被随机确认为训练样本。
评定样本(如果有的话)由不在训练样本中的所有被试总体的研究对象组成。
步骤3编辑作为基本判别因素的基本生物标识表该步骤的目标是编辑所有适当的、潜在的有用生物标识,这些生物标识将称为基本生物标识。在代表性实施例中,基本生物标识表将包括被试总体中研究对象所有记录的、定量的个人特征。该表将包括不随时间改变的特征(例如出生日期)或随时间变化的特征,如体重或从血或尿中判定的实验数据。非定量特征,例如研究对象喜欢的颜色等将排除在外。
一些列在步骤3中的潜在生物标识对判别无用。该阶段的剩余步骤编辑有一组步骤3中列举的潜在生物标识中的“候选生物标识”。每个候选生物标识将被选择,因为从早先的研究/知识或训练样本数据的定量证据中得到信息,生物标识对判别来说有潜在作用。在每一步骤中,作为候选被选中的生物标识从潜在生物标识表中被移去而移入候选生物标识组。将选中的候选生物标识从潜在生物标识表中移去的原因是一旦生物标识作为候选被选中,它不必再被考虑;它已经“制成表”。在程序最后,所有未选中的潜在生物标识将从进一步的考虑中删去,仅有候选生物标识将作为后来分析的研究对象。
步骤4通过包括基于早先研究和经验确定而有把握相信这些生物标识与特定生物状况相关的任何潜在生物标识来初始化候选生物标识该步骤的目的是利用先前的信息,即对特定生物状况的判别来说是重要的潜在的信息的生物标识。例如,如果特定生物状况是在特定时间段内患冠状心脏病(CHD),则早先的研究表明,血清胆固醇、收缩压、葡萄糖耐受不良或吸烟(仅少量)与CHD发作有关,应从潜在生物标识表中拷贝至候选生物标识表中。
可依赖任何可靠的信息来源或“有意义的猜测”来选择已知或相信与特定生物状况相关的生物标识子集。尽管初始选择的生物标识的确定对最终根据的用于判别选择确定的子集来说不是决定性的,但初始的对最终由该系统确定为对预测特写生物状况有最大的统计意义的生物标识选择,将有助于提供更快地收敛至凭经验而确定的子集。换言之,初始选择越有意义,收敛的速度越快。
步骤5将“有统计意义的”、与步骤4中“已知重要的”生物标识相关的任何潜在生物标识增加到候选生物标识表中训练样本的数据用于计算每个预先确定的候选生物标识(为“已知重要的”生物标识)和每个潜在生物标识之间的相关系数。可采用任何统计学中有效的相关系数。
该步骤的目标是判定可作为很好的判别因素的生物标识。“已知重要的”生物标识的相关性与“已知重要的”生物标识本身相比可以是更好的判别因素。至少,已知重要的生物标识的相关性应包括在初始分析中。
如果特定生物状况(例如高血压)实际上是由一个或多个生物标识值确定的,则确定用生物标识将是“已知重要的”生物标识,并且可能已被移至步骤4中列出的候选生物标识表中。在该步骤中,确定用生物标识将被移至候选生物标识表中。
这里所用的“统计学意义”仅作为一种工具用于判定“可能重要”和“可能不重要”之间的相关性。在一代表性实施例中,将计算代表潜在生物标识和候选生物标识之间相关性的传统p值。如果p小于一些特定值,例如p<0.05或p<0.01,则将潜在生物标识移至候选生物标识表中。
步骤6对每个潜在生物标识进行逻辑回归模型的拟合,对作为非独立(Y)变量的特定生物状况和年龄采用二进制指示变量,而潜在生物标识作为独立(D)变量。将每个在逻辑回归模型中有“统计学意义”的潜在生物标识添加到候选生物标识表中该步骤的目的是在考虑年龄影响(线性)的前提下选择那些作为候选生物标识的潜在生物标识,这些潜在生物标识与获得特定生物状况的概率有关。结合研究对象的年龄,逻辑模型作为潜在生物标识值的函数表达了获得特定生物状况的概率。
生物标识的选中(或未选中)依据逻辑回归模型中代表生物标识斜率的边际p值。如上面关于相关性的说明,“统计学意义”在这里仅作为一个工具用于判定“可能重要”和“可能不重要”判别因素之间的关系。在代表性实施例中,传统的p值将用于计算潜在生物标识的斜率。如果p小于一些特定值,例如p<0.05或p<0.01,则潜在生物标识移至候选生物标识表中。
步骤7判断每个纵向估计的潜在生物标识,采用通用线性的混合模型(“MixMod”)来估计生物标识值的纵向趋势是否与获得特定生物状况有关。每个具有统计意义的纵向趋势的潜在生物标识被移至候选生物标识表中该步骤的目标是认定具有纵向趋势、与获得特定生物状况的概率有关的生物标识(而不是那些早先发展成候选生物标识状态)。
在本发明典型实施例中,每个模型将如下产生。在MixMod中的非独立(Y)变量包含潜在生物标识的纵向值。用于达到固定效果的独立(X)变量是(1)用于表示特定生物状况的二进制指示变量,(2)年龄或其它相关的纵向metameter如从一些有关的事件开始的时间、被试数目等,以及(3)用于特定生物状况的二进制变量和纵向metameter之间的相互作用。模型的随机效应部分包括随机研究对象增量与总体回归线的相交,以及在一些情况下与纵向metameter相关的随机斜率。当包括两个或更多个随机效应时,随机效应的协变矩阵一般不能建立。年龄或其它相关的纵向metameter均包括在模型中的原因与步骤6中一样。
如果对应于任何X变量(除年龄之外)的系数具有统计意义,则潜在生物标识移至候选生物标识表中。在步骤6中关于统计意义的讨论在此适用。
在步骤4-7的最后,所有的潜在生物标识均经过检查,并且每个具有可用作为判别因素的历史性或定量证据的生物标识已移至候选生物标识表中。
阶段II 将候选生物标识压缩成一组具有判别能力、能够对协变性结构和预测值进行混合模型估算的所选生物标识背景 现有的判别分析方法学一般需要对D组(i=1)和D组(i=2)两组生物标识(以及其它变量如年龄和人口统计)分布的平均向量μi、协变矩阵∑i进行相对精确的估算。μi简单地估算成样本平均(向量),∑i简单地估算成样本协变矩阵,不允许针对重要的相伴变量(或“协变量”)进行平均调节,并且不允许轻易地包括对相同研究对象的重复测量。另外,现有的判别分析一般是基于“事件删除”过程如果一个研究对象有任何丢失数据,则该研究对象的所有数据将从分析中删去。
在一个向量Y中,对一个研究对象给定平均向量μi、协变矩阵∑i以及生物标识(和相关数据)的估算,该传统的判别函数(如果∑1=∑2为线性,如果∑1≠∑2为二元方程)仅仅从Y、μ1、μ2、∑1和∑2中评估。仅针对特殊研究对象的特定信息包含在向量Y中。
占阶段II中较大部分的混合模型过程采用通用线性混合模型(MixMod)针对所有μ1、μ2、∑1和∑2建立模型;判别函数采用这些参数的模型估算,而不是如传统那样采用未模型化估算的参数,从而改善了传统的过程。这种MixMod过程如下所述对传统的判别分析进行了重要改进·采用混合模型对参数进行了估算,这样·采用了所有可用数据,即未采用事件删除;·支持相应于估算的协变矩阵∑i的调节进行的估算的期望值(μi)的协变调节,并且·支持对相同研究对象采用重复测量(例如每年的访问)。·该混合模型过程采用个体随机效应的基于模型的估算和“BLUPs”(“最佳线性非偏差预测”),除了采用总体平均值μi的估算之外或替代之,这样可明显地增加判别函数的判别能力。
阶段II过程的综述阶段I的结果是,每个候选生物标识作为判别因素将对历史或定量事件有作用。但是候选生物标识之间有明显的相关性。通常一个生物标识当从其本身考虑时可能有辨识能力,当它与其它生物标识一起被使用时作出的贡献可能是不重要的。另外,生物标识的数值范围可以是很宽的。
研究过程的阶段II的目的是(1)重新换算生物标识值,这样所有被重新换算的生物标识的标准偏差均在相同的数量级内(0<标准偏差<1)。(2)将候选生物标识表的可能较长的压缩至数量较少的“选中生物标识”,该选中生物标识中每一个的判别能量对该组来说贡献明显。(3)采用E[Y]=Xβ形式的线性模型确定(重新换算的)生物标识值的向量Y的期望值结构,并且估算β和未知参数的向量。(4)采用∑=ZΔZ’+V形式的模型确定(重新换算的)生物标识值的向量Y的协变矩阵结构,并且估算矩阵Δ和V中的协变参数。(5)估算随机研究对象效应向量dik,并计算第k个研究对象的预测值向量Yki(p),好像该研究对象来自特定生物状况组的第i个;i=1对应于D组,而i=2对应于D组。
在本发明代表性实施例中,该阶段的步骤1执行一次,以便重新换算生物标识数据并将该数据安置到一数据向量(或数据组的一变量)中。步骤2和3反复执行,直到选择的生物标识组已选择完毕,并且上面列出的估算已计算完毕。步骤4通过为协变矩阵选择适当的模型而精选用于判别中的混合模型和参数估算。
步骤1准备一个数据组,其中一个变量“RespScal”包含所有研究对象的所有候选生物标识的换算值(包括纵向测量)分别对每个生物标识进行换算。每个生物标识值除以该生物标识的样本标准偏差。这样,每个生物标识的换算值的标准偏差为1.00。在本发明代表性实施例中,生物标识值的一个变量可取名为“RespScal”(响应换算的简称)。RespScal的样本标准偏差也近似于1.00。该换算有利于后来的混合模型计算中迭代过程的收敛。
步骤1仅执行一次。开始时,所有的候选生物标识均具有在RespScal内的数据,并且被考虑为是选中生物标识组的成员。在步骤2-3中将从选中生物标识中移去非判别生物标识。
步骤2采用下列技术规范来拟合通用线性混合模型(MixMod),获得参数矩阵β、Δ和V的估算,获得每个研究对象的随机对象效应dik和每个研究对象的“预测值”Yik(mini)和Yik(avg)的估算,好像该研究对象在每个特定生物状况组(i=1,2)中在本发明代表性实施例中,MixMod的技术规范如下非独立(X)变量RespScal;独立(Y)变量和它们的系数(β)
“生物状况状态”一种代表特定生物状况状态的指示性变量(分类变量);如果Y的对应元素包含关于D组中研究对象的信息,则生物状况状态=1,否则生物状况状态=0。
生物标识的指示性变量(分类变量);生物状况状态×生物标识的指示性变量(分类变量);年龄(以周岁为单位,中点近似为研究对象的整个平均年龄;连续变量);随机效应变量(Zk)和随机系数(效应,dik)研究对象×生物标识的指示性变量(Zk部分)和相应随机效应(相交增量;dik部分);在对研究对象的多次访问中,特定生物标识的随机对象效应是恒定的,其中多次访问产生对该研究对象的生物标识的反复测量之间的相关性。
注意该模型假设E[dik]=0;V[dik]=Δ。
生物标识随机错误项εkbv的向量εkb的协变矩阵Vk=V(εkb)为第k个研究对象在第b个被换算的候选生物标识的第v次纵向判定。该协变矩阵对第k个研究对象的每个生物标识的每次纵向判定来说具有一行和一列。注意,该模型也假设E[εkb]=0。
εkbv的主要解释是“随机测量错误项”,代表从一次到另一次判定过程中,换算的候选生物标识关于研究对象k的值的依赖于年龄的平均值换算的变量。在这种解释中,时常有理由假设εkbv的值是同方差的和不相关的,即如果(k,b,v)≠(k’,b’,v’),则Cov(εkbv,εk’b’v’)=0。如果Y元素按k(研究对象的编号),b(生物标识编号)和v(“访问”或判断次数或研究对象的年龄)被分类,则在许多情况下,Vk的合理的模型为Vk=BlockDiag(Vkb)=BlockDiag(Vk1,Vk2……),其中Vkb=λbI,而λb=V(εkbv),表示第b个候选生物标识的换算值的测量错误偏差,其中假设所有研究对象(k)和所有判定(v)的偏差是一样的。
注意,RespScal的换算暗示着每个偏差λb将小于1.00。偏差小于1.00在的程度取决于拟合效果的大小(R2高导致估算的偏差较小)和随机效应偏差的大小(Δ的对角线元素)。
注意,上面Zk,dk,Vk=B1ockDiag(Vkb)和Vkb=λbI的结合为∑ik产生高结构化的、延伸的混合对称模型∑ik。为了说明这一点,在一个例子中,当将相同的协变量参数提供给D组和D组时,令dk=[dkb]=[dk1,dk2,……]’为第k个研究对象和第b个换算的生物标识的随机效应的向量,令V(dk)=Δ=[Δbb’],其中Δbb’=Cov(dkb,dkb’),而b和b’代表可能不同的换算的生物标识,令Zk包含换算生物标识的指示性变量,并且令Vkb=λbI,则∑k=ZkΔZ’k+Vk=[∑k,bb’],其中∑k,bb=ΔbbJ+λbI=对换算的生物标识b的多次测量的协变矩阵,∑k,bb=Δbb’J=在相同场合或不同场合判定的换算的生物标识b和b’的协变性。(方阵J的每个元素等于1)。
对混合模型的拟合过程产生下述估算模型的参数β、Δ和Vk的参数。如果假设对两个生物状况状态组来说模型具有不同的协变性,则模型产生对Δi和Vik中的协变参数的不同估算;每个研究对象的数据向量的期望值μik(研究对象k在生物状况状态组i中);每个研究对象的数据向量的期望值μI’k,好像研究对象在其它响应组(i’)中;每个研究对象的随机研究效果,在研究对象的实际处理组(i)中时为dik,而假设研究对象在其它响应组(i’)中时为di’k;每个研究对象的“预测值”,在研究对象的实际处理组(i)中时为Yik(p),而假设研究对象在其它响应组(i’)中时为Yi’k(p);研究对象的协变矩阵∑k。如果假设对两个生物状况状态组来说模型具有不同的协变性,则模型产生对协变矩阵∑k的不同估算;。
步骤3删除具有最不明显判别能量的生物标识并重新拟合混合模型将被有效判别的生物标识应具有大量的(有统计意义的)生物状况状态×生物标识拟合效果。相反,大生物标识主要效果在此不相关大生物标识主要效果----表明生物标识平均值之间的不同----可简单上升,因为生物标识是不同类型的变量,具有不同的平均值(在重新换算轴上)。然而,大量生物状况状态×生物标识效果表明,生物状况状态=0(D组)时的生物标识平均值与生物状况状态=1(D组)时的生物标识平均值明显不同。这种不同对判别过程来说应作出重要的贡献。
如果每个目前选中的生物标识具有有统计意义的生物状况状态×生物标识拟合的效果,则步骤3完成,我们移向步骤4。如果一个或多个目前选中的生物标识具有无统计意义的生物状况状态×生物标识拟合效果,则具有最少统计意义(最大的p值)的生物状况状态×生物标识拟合效果的生物标识被从数据向量Y中移去,我们返回至步骤2中。在该步骤中,MixMod被拟合以减少数据向量。
在逐步回归的情况下,在步骤3中提供的策略是“反向判别”过程的模拟。另一方法是提供一种“向前选择”的模拟,其中开始时数据向量和模型中仅包括数量很少的清晰有效的判别(生物标识),而在每个后来的步骤中增加更多的生物标识。
步骤4确定协变参数矩阵Δi和Vik的结构判别分析方法学对每个生物状况状态组D和D分别采用了生物标识的期望值和生物标识(其中一些生物标识可纵向判定)的协变矩阵。我们记得,包括可能的纵向判断的选中生物标识表在步骤3中已确定。如上所述,MixMod对应于假设,从而导出协变矩阵的下述结构∑ik=ZikΔikZ’ik+Vik,其中i代表生物状况状态组(D组i=1,D组i=2),k代表研究对象。另外,可建立在分析中可利用的协变参数矩阵Δi和Vik,特别是当∑ik特别大,即当有许多生物标识和/或一个或多个生物标识具有许多纵向评估时。
步骤4的目的是确定用于阶段III的判别分析中的协变参数矩阵Δi和Vik。对大的、结构化的协变参数矩阵的估算比对未结构化的协变参数矩阵的估算趋向于更精确。对Δi和/或Vik更精确的估算导致对∑ik=ZikΔiZ’ik+Vik更精确的估算,从而对β、dik和Yik(p)以及判别函数值的估算也更精确。
∑ik的整个结构应考虑到下述类型的协变性/相关性类型ADB在相同时刻点判断的不同生物标识之间的协变性/相关性;类型ALESB单个生物标识的纵向判断之间的协变性/相关性;类型BTBEL纵向判断的两生物标识之间的协变性/相关性,即任意一对生物标识之间的协变性/相关性,其中一个生物标识在一时刻判断,另一个生物标识在另一时刻判断。在本发明的代表性实施例中,在上述步骤2中描述的结构或这种结构的延伸是很有用的。
在本发明的代表性实施例中,Tangen,Catherine M.和Helms,Ronald W.在1996年出席Spring Meeting of the IntermationalBiometric Society,Eastern North American Region,RichmondVirginia,March,1996时发表的“A case study of the analysisof multivariate longitudinal data using mixed(random effects)models”中描述的技术可用于对纵向多元数据的协变性/相关性进行研究。选择协变模型一般需要拟合一定数据的MixMod,一般采用相同的期望值模型和不同的协变模型。可采用Log Likelihood统计(假设在一般分布的基础下)来比较模型。也可以采用Ronald W.Helms在North Carolina大学研究的技术,例如Grady.J.J和Helms.R.W.(1995)的“Model Selection Techniques for the covarianceMatrix for Incomplete Longitdinal Data”’(医学统计,14,1397-1416)中描述的技术来以图示地比较协变结构。
阶段III 采用估算装置和预测值计算判别函数,针对每个研究对象计算逻辑预测值;估算判别函数的误差率。
背景 阶段III的目的是“预测”研究对象将属于哪个“总体”或组中,D组或D组· D组将在特定时间框架内获得特定生物状况的人的亚总体。
· D组将在特定时间框架内不获得特定生物状况的人的亚总体。
通过将一研究对象放入下述两组中而对该研究对象进行分类· PD组该组的人在特定时间框架开始时被预测为在特定时间框架内将获得特定生物状况,即表现为属于D组。这些人被描述成具有指示性高概率在特定时间框架内获得特定生物状况。
· PD组该组的人在特定时间框架开始时被预测为在特定时间框架内将不获得特定生物状况,即表现为属于D组。这些人被描述成具有指示性低概率在特定时间框架内获得特定生物状况。
该阶段的第二目的是估算一研究对象将属于D组和D组的概率。
实现第一目的的技术——将一研究对象分类至两组中——采用的判别过程是对传统判别分析的修饰变型。对研究对象将属于研究对象将获得特定生物状况的组中的概率的估算是对传统逻辑回归的修饰变型中获得的,(1)采用判别函数值来进行回归计算,以及(2)采用判别变量来进行回归计算。
在阶段II的背景中已描述,现有的判别分析方法学一般采用对两组的生物标识分布的平均向量μi、协变矩阵∑i进行朴素估算。另外,现有的判别分析一般基于“事件删除”过程如果一研究对象具有任何丢失数据,则该研究对象的全部数据从分析中删除。
在阶段II中描述的混合模型采用通用线性混合模型(MixMod)对所有μ1、μ2、∑1和∑2进行模式型化,从而改善了传统过程;在判别函数中采用这些参数的模型化估算,而不是采用传统的、简单的未模型化估算。混合模型的应用允许本发明过程对传统的判别分析做出下述重要改进采用全部变量数据,即不采用事件删除来估算参数。该过程支持估算的期望值(μi)相应于估算的协变矩阵∑i的调节而调节。并且该过程支持对相同研究对象进行反复测量(例如每年的访问)的应用。
也许更重要的是,采用混合模型允许现有的过程使用个体随机效果的基于模型的估算和“BLUPs”(“最佳线性无偏差预测”),该过程可增加到对总体平均值μi的估算中或替代之,这样可明显增加判别函数的判别能力。
根据多元标准状态理论,目前的判别形式从形式上说与传统的判别相同。一些符号是有用的令fi表示组i中一研究对象的判别变量的向量Y分布的密度函数,判断采用的是估算μi和∑i,i=1表示属于D或PD组,i=2表示属于D或PD组;pi表示一研究对象将来自i组的先验概率,i=1为来自D组,i=2为来自D组。pi的值通常从历史数据或其它研究中得知。如果pi的值为未知,则该研究对象在两组中的概率可用于估算pi。
然后,如果Ln[f1(Y)/f2(Y)]>Ln[p1/p2],则未知组(具有判别函数值的向量Y)的研究对象将被分入组1(PD组),否则分入组2(PD组)。
在阶段II中,将决定是否能够有理由假设上述两个组具有相等的协变矩阵∑1=∑2=∑。在那种情况下,目前的判别过程简化成采用下述形式的线性判别函数D(Y)=[Y-1/2(μ1+μ2)]’∑-1(μ1-μ2)-Ln[p2/p1]这里μi和∑i由下面讨论的“适当”估算代替。比较D(Y)是否为0,如果在阶段II中认定∑1≠∑2,判别过程简化为采用下述形式的二次判别函数Q(Y)=1/2ln(|∑2|/|∑1|)-1/2(Y-μ1)’∑1-1(Y-μ1)+1/2(Y-μ2)’∑2-1(Y-μ2)-Ln[p2/p1]这里μi和∑i由下面讨论的“适当”估算代替。比较D(Y)是否为0。
在上述两种之一的情况下,“适当”估算来自阶段II中的混合模型过程,并且可包括或不包括随机研究对象效果。
阶段III过程下面描述阶段III过程的步骤。假设数据是来自一个或多个“新”研究对象,其中该研究对象的组的成员关系为未知的,并且未用在阶段II的混合模型计算中。在步骤1-2中,我们在一个时刻考虑一个研究对象。一些符号是有用的。令i=1代表属于D组或PD组,i=2代表属于D组或PD组。令Y表示一个新研究对象的判别变量值的向量。Y中的元素如阶段II中的RespScal一样换算。
Xi表示用于阶段II最终的混合模型中的独立变量值的矩阵,好像该研究对象在组i中,其中i=1,2。注意Pi的行对应于Y的行(元素)。
Zi表示用于最终阶段II的混合模型中的随机效应变量值的矩阵,好像该研究对象在组i中,其中i=1,2。注意Zi的行对应于Y的行。
表示组i中(其中i=1,2)随机效应的估算的协变矩阵,来自阶段II中最终的混合模型。注意在许多情况下,混合模型简化为随机效应中的单个协变量,即Δ^1=Δ^2=Δ^]]>Vi表示组i中(其中i=1,2)随机剩余部分或“错误项”的估算的协变矩阵,来自阶段II中最终的混合模型。注意在许多情况下,混合模型简化为随机效应中的单个协变矩阵,即V^1=V^2=V^]]>Σ^1=Z1Δ^iZ1'+V^1]]>表示来自阶段II中最终的混合模型的估算的协变矩阵Y,好像新研究对象来自组i中,其中i=1,2。注意在许多情况下,混合模型简化为随机效应中的单个协变矩阵,即Σ^1=Σ^2=Σ^]]>步骤1采用阶段II的混合模型结果,将所有研究对象分类至评定样本中,并估算多个候选判别过程的误差率,采用估算的随机对象效应的各种混合,其中一次基于“估算的值”,其它基于“预测值”。具有最低估算误差率的过程为选定过程,称之“显然最可靠的过程”如果将原始研究总体分成“训练样本”和“评定样本”,下面采用评定样本;否则采用训练样本作为评定样本。分别估算评定样本中每个研究对象的下述量,好像该研究对象来自每个组Y^1=X1β,^]]>的“估算值”,好像该研究对象来自组i,其中i=1,2。d^1=Δ^1Z1'Σ^i-1(Y-X1β^),]]>该研究对象的随机对象效应的估算,好象该研究对象来自组i,其中i=1,2。如果d^1'Δ^1-1d^1≤d^2'Δ^2-1d^2;]]>d^min=d^1]]>否则d^=d^2·d^min]]>可认为是d1和d2的“最小值”,或“(整个组的)最小随机对象效应”估算。d^avg=(d^1+d^2)/2·d^avg]]>可认为是

的“平均值”,或“(整个组的)平均随机对象效应”估算。Yi(min)=Xiβ^+Zid^min,]]>该研究对象的“预测值”,好像该研究对象来自组i,其中i=1,2,但采用“最小”随机对象效应估算。Yi(avg)=Xiβ^+Zid^avg,]]>该研究对象的“预测值”,好像该研究对象来自组i,其中i=1,2,但采用“平均”随机对象效应估算。
在上面和下面情况中,i=1表示为D组或PD组,i=2表示为D组或PD组。
根据估算值Y1分类· 如果在阶段II中决定∑1=∑2=∑,判断线性判别函数D(Y)(上面已述),由
代替μi,用
代替∑。如果D(Y)≥0,则将研究对象定在组1(PD组)中,否则将研究对象定在组2(PD组)中。· 如果在阶段II中决定∑1≠∑2,判断二次判别函数Q(Y)(上面已述),由
代替μi,用
代替∑,i=1,2。如果Q(Y)≥0,则将研究对象定在组1(PD组)中,否则将研究对象定在组2(PD组)中。
根据“最小”随机对象效应和预测的值Yi(mini)分类· 如果在阶段II中决定∑1=∑2=∑,判断线性判别函数D(Y)(上面已述),由Yi(mini)代替μi,用
代替∑。如果D(Y)≥0,则将研究对象定在组1(PD组)中,否则将研究对象定在组2(PD组)中。· 如果在阶段II中决定∑1≠∑2,判断二次判别函数Q(Y)(上面已述),由Yi(mini)代替μi,用
代替∑,i=1,2。如果Q(Y)≥0,则将研究对象定在组1(PD组)中,否则将研究对象定在组2(PD组)中。根据“平均”随机对象效应和预测的值Yi(avg)分类· 如果在阶段II中决定∑1=∑2=∑,判断线性判别函数D(Y)(上面已述),由Yi(avg)代替μi,用
代替∑。如果D(Y)≥0,则将研究对象定在组1(PD组)中,否则将研究对象定在组2(PD组)中。· 如果在阶段II中决定∑1≠∑2,判断二次判别函数Q(Y)(上面已述),由Yi(avg)代替μi,用
代替∑i,i=1,2。如果Q(Y)≥0,则将研究对象定在组1(PD组)中,否则将研究对象定在组2(PD组)中。
在每个位于评定样本(如上定义)中的研究对象被分类之后,对三个过程中的每一个计算与下面类似的2×2表(根据估算的值或根据预测的值)表1
另外,分别为根据估算的值分类和根据预测的值分类计算Ni-=Ni1+Ni2rFP=N12/N1-=假阳性误差率=假阳性分类比例rFN=N21/N2+-=假阴性 误差率=假阴性分类比例rtol=(N12+N21)/(N1-+N2+)=总误差率=错误分类比例在本发明的典型实施例中,我们将比较分类过程的三种类型,即一种类型是基于估算的值
,一种是基于“最小”预测值Yi(mini),以及最后一种是基于“平均”预测值Yi(avg)来确定“明显最可靠的过程”。在该选择程序中一些要考虑的是· 如果假阴性分类与假阳性分类相比具有实质上更严重的影响,则选择假阳性误差率rFN较小的过程。这种情况可以发生在例如D组是由属于将在特定的五年内遭受心肌梗死(“MI”)的年龄组中的人构成的亚总体时。假阴性分类没能对具有高MI概率的人提出警告,将比假阳性分类(警告低概率的人他们将具有高MI概率)产生更严重的结果。· 相反,如果假阳性分类与假阴性分类相比具有更严重的影响,则选择假阳性误差率rFP小的过程。· 当没有先验理由来决定是假阴性分类还是假阳性分类更严重一些时,选择总误差率rtol较小的过程。
所选的明显最可靠的过程用于将研究对象分类至PD组或PD组两组中。
步骤2采用两种类型的逻辑回归来对一个新研究对象将属于每个组的概率估算值进行计算训练样本的数据用于拟合逻辑回归模型,该模型中每个研究对象的判别函数(如果为线性,该函数为D(Y);如果为二次方程,函数为Q(Y))的值将作为独立(“X”)变量,而生物状况状态(D组中表征成员关系的指示性变量)将作为非独立(“Y”)变量。该模型与反逻辑变换一起用于针对每个研究对象对他将属于D组的概率进行估算。
在一独立计算中,训练样本的数据用于拟合逻辑回归模型,其中生物标识与最终的混合模型协变量(X中的变量)一起合并为独立(“X”)变量和生物状况状态(D组中表征成员关系的指示性变量)作为非独立(“Y”)变量。在除了获得通常的逻辑回归模型估算之外,模型还与反逻辑变换一起用于针对每个研究对象对他将属于D组的概率进行估算。当采用纵向数据时,模型用于估算研究对象将在特定周期的最后属于D组的概率。我们可采用普遍的估算公式来逼近逻辑连接函数,从而调节一研究对象中多个二项式结果间的相关性。
从这两个模型中获得的预测概率可提供令人感兴趣的判别函数值的解释。
尽管对确定用于本发明的判别函数来说,本算法是优选方案,但可以理解,提供该算法仅为了展示本发明的优选实施例,任何情况下都不表示本发明限定于这里描述的算法中的步骤和子步骤。例如,可以理解,在判别分析方法学的领域中存在有其它类型的判别函数,例如称作“最佳判别”的判别函数,和其它类型的回归,例如非线性混合模型等,这些函数也可采用,均落在本发明的范围和精神之内。
这里将结合特定的代表性实施例来详细描述本发明,其中的材料、装置和程序步骤应理解为仅用于展现本发明的例子。特别是,本发明不打算受这里特别引用的统计方法、材料、条件、程序参数、装置等的限制。优选实施例的例子附表和附图表示一个采用本发明的方法和装置进行示范性数据分析的结果。
用于该例中作为基础的数据从一数据库中获得,该数据库包括在每年的数据采集中患镰状红细胞的病人的数据。一些病人具有连续三次访问的数据。但由于病人一般不可能每年必须参与,因此数据库中包括许多仅有一次或两次每年的访问数据可利用的病人。这里采用的数据库信息包括人口学数据、临床化学数据和血液学数据。
感兴趣的特定生物状况疾病或痛苦在该例中为发生需要住院的疼痛危象。在每一次的每年访问中,研究对象被询问(并检查记录以确定)他是否在前一年中有需要住院的疼痛危象。宣称在任一次访问(任一年)中有因疼痛危象而住院的每个研究对象为“疾病”组(D组)的成员;所有其它的研究对象为PD组的成员。
每当研究对象在前一年中有需要住院的疼痛危象时,在因疼痛危象而住院之后的同一年中或以后的年中采集的所有的数据从分析中删除。这样是在模仿其结果为死亡或出现慢性的、不能治愈的疾病时用的过程。记录研究对象所属D组中成员关系的变量(例如有无疾病,是否受折磨等)称之为“疾病状态”变量。
下面是采用镰状红细胞数据的统计分析过程的一个例子。出于保密的原因,该例中所用的数据是人工拟出的,而不是来自真实的研究或来自真实研究对象。但该数据与对真实研究对象的研究中可以获得的数据类似。阶段I 建立判定方法学和选择考虑对象的生物标识。步骤1选择用于估算过程误差率的方法学步骤2选择“训练样本”,即用于统计分析,以产生判别过程/概率估算过程的被试总体子集以及选择作为互补子集的“评定样本”该例中选择训练样本/评定样本方法。将病人随机定为属于两样本之一。训练样本用于产生判别函数;评定样本用于判断判别函数的精确度。
训练样本包括来自481个研究对象的641个“每年”评估信息,或每个研究对象约1.3个每年评估信息。但即使研究对象经过访问也不是所有的生物标识经评定过。例如在一个极端的例子中,仅80个研究对象的仅88个直接胆红素值(变量L_DBILI)可用。
步骤3编辑作为潜在判别因素的潜在生物标识表在这种情况下,血压、所有可用的人口学数据、临床化学数据和血液学数据可用作潜在判别因素。潜在生物标识列于表2中。
步骤4通过包含基于早先研究和经验确定与特定生物状况相关的任何潜在生物标识来初始化候选生物标识组在该例中,血小板计数(或“血小板”)作为对疾病状态——因疼痛危象而住院——来说“已知的”生物标识而被抽取出。
步骤5将“有统计意义的”、与步骤4中“已知重要的”生物标识相关的任何潜在生物标识增加到候选生物标识表中从步骤2中选择与“已知重要的”的生物标识相关连的生物标识——血小板。表3标为“相关性W/血小板”的列示出了这些相关性的概要。“p”列示出了与血小板相关的p值。根据Pearson产品动量相关系数的边缘p值选择生物标识。在该例中,要求p<0.01时以便选择。“p<cv”列中呈现“是”字表明,这些生物标识作为具有与血小板“明显”相关的结果而变为候选生物标识。
步骤6对每个潜在生物标识进行逻辑回归模型的拟合,对作为非独立(Y)变量的特定生物状况采用二进制指示变量,而年龄和潜在生物标识作为独立(X)变量。将每个在逻辑回归模型中有“统计学意义”的潜在生物标识添加到候选生物标识表中将疾病状态作为非独立(Y)变量,将年龄和生物标识联合作为独立(X)变量来对每个生物标识进行逻辑回归模型的拟合。在这种情况下,评定如何好地描述由于疼痛危象导致住院的概率的逻辑模型由该生物标识和研究对象的年龄描述。大致来说,如果生物标识和研究对象将获得特定生物状况的概率之间无关系,则该生物标识的回归系数或斜率在逻辑回归中将近似于0;不为0表示两者有关系。表3的标为“逻辑回归”的列示出了逻辑回归结果的概要。“p”列示出了生物标识回归系数的p值。根据逻辑回归模型中生物标识的斜率的边缘p值来选择生物标识。在该例中,要求p<0.01以便选择。“p<cv”列中呈现“是”字表明,这些生物标识作为“有效的”逻辑回归系数的结果而变为候选生物标识。应注意,这些生物标识中的一些也与血小板明显相关并且在计算逻辑回归之前已是候选生物标识了。
步骤7判断每个纵向估计的潜在生物标识,采用通用线性混合模型(“Mix Mod”)来估计生物标识值的纵向趋势是否与获得特定生物状况有关。每个具有统计意义的纵向趋势的潜在生物标识被移至候选生物标识表中对每个生物标识进行混合模型的拟合,采用生物标识的纵向值作为非独立(Y)变量,而年龄、疾病状态和访问次数×疾病状态作为独立(X)变量,并且采用模型的随机效应(Z)部分中的对象效应。(访问次数和疾病状态是“分类变量”;相应的系数对相交来说是递增的。反之,年龄是一个连续变量,它的系数是一个斜率。)混合模型的随机效应部分与对相同研究对象的纵向测量之间的相关性是一致的。模型允许多次访问(纵向评估)不同的研究对象。
如果或疾病状态的“主要效果”或三次访问次数×疾病状态相互作用的系数的子向量在具有统计意义的情况下不等于0(p<0.01),则可选该生物标识。一个有效的疾病状态“主要效果”可表明,D组中研究对象的生物标识值的平均值不同于PD组中研究对象的平均值。三次访问次数×疾病状态相互作用的系数的子向量可表明,在D组中的研究对象的生物标识值的时间趋势与在P组中研究对象的时间趋势不同。在具有明显的主效果或相互作用两种情况之一的情况下,结果可表明生物标识是有潜在作用的判别因素,应移至候选生物标识表中。混合模型的结果显示在表3中标为“混合模型”的列中。主要效果和相互作用的分别效果的显示格式类似于相关和逻辑回归的结果的显示格式。
在步骤4-7的最后,所有的潜在生物标识已经检查,并且具有历史或作为判别因素具有定量判据的生物标识已移入候选生物标识表中。表3中标为“选中”的列中,“是”字表明该生物标识为候选生物标识。
阶段II 将候选生物标识压缩成一组具有判别能力、能够对协变结构和预测值进行混合模型估算的所选生物标识。
步骤1准备一个数据组,其中一个变量“RespScal”包含所有研究对象的所有候选生物标识的换算值(包括纵向测量)该例中执行这一步骤,但结果未示出。但应注意,当将所有不同生物标识的所有值放入一向量Y列中时,向量可包含大量的元素。
步骤2采用下列技术规范来拟合通用线性混合模型(MixMod),获得参数矩阵β、Δ和V的估算,获得每个研究对象的随机对象效应dik和每个研究对象的“预测值”Yik(mini)和Yik(avg)的估算,好像该研究对象在每个特定生物状况组(i=1,2)中步骤3删除具有最不明显判别能量的生物标识并重新拟合混合模型步骤2-3迭代重复,直到模型中的所有生物标识具有统计意义。在一个例子的这种描述中的感兴趣保留空间内,仅讨论步骤2-3的迭代的最后结果。步骤2-3将生物标识的数量减至15,而年龄作为拟合效应的协变量。
该例中混合模型的基本信息在表4中给出。481个病人(每个病人最多三次访问)中的值为有用数据。注意,分析中显然不采用具有大量观察值数据。缺少Y值时产生人为观察值,以迫使软件计算所需的预测值。缺少Y值时的人为观察值不影响参数的判别或随机对象效应的预测。
表5给出了对混合模型的拟合效果的估算。每个生物标识的p值(例如“L-BUN”的p值)为假设试验的p值,即假设该生物标识的平均值与所有生物标识的整个平均相同。事实上是我们对这些p值是否明显不感兴趣,而是期望一个生物标识值的平均值不同于另一个生物标识值的平均值。
在表5中,每个“生物标识×GROUP IA”相互作用的p值(例如“ALBUMIN XGROUP IA”的p值)是一个假设试验的p值,即假设D组中生物标识的平均值明显地与P组中的生物标识的平均值不同。有效的值(例如p<0.05)表明该生物标识应是良好的判别因素。在表5中显示的最终模型中的所有相互作用是有统计意义的(全部p<0.05)。令年龄始终保留在模型中,即使其p值无意义。
在表6中示出了第447个研究对象的研究对象序号、生物标识、疾病状态(“组”)、特定访问的观察值和预测值。该研究对象位于D组中(“是否为D组?”=否;注意,“是否为D组?”=是时,“RESPSCAL”列不存在),但我们将对两组给出预测值。还应注意,该研究对象在访问次数为2时没有生物标识MCH或MCHC的数据,但我们具有该研究对象访问次数为2时MCH和MCHC的基于模型的预测值。
在逐步回归的情况下,在步骤2-3中提供的策略是“反向消除”过程的模拟。另一方法是提供一种“向前选择”的模拟,其中开始时模型中仅包括两个(或数量很少的)的清晰有效的判别(生物标识),而在每个后来的步骤中增加更多的生物标识。
步骤4确定协变参数矩阵Δp和Vik的结构如上所述,∑ik的整个结构考虑协变性/相关性的三种类型类型ADB在相同时刻点判断的不同生物标识之间的协变性/相关性;类型ALESB单个生物标识的纵向判断之间的协变性/相关性;类型BTBEL纵向判断的两生物标识之间的协变性/相关性,即任两对生物标识之间的协变性/相关性,其中一个生物标识在一时刻判断,另一个生物标识在另一时刻判断。在该例中,最终获得下面的结构D组和D组的相同的随机效应协变参数矩阵,即Δ1=Δ2=Δ,以及Δ具有复合对称结构,对i≠j而言,Δii=0.6669,Δij=0.0097。
类型ADB的协变性出现在矩阵V中(D组和D组情况相同),并具有复合的对称结构,对i≠j而言,vii=0.3267,vij=0.0151。
有必要对即将出现的镰状红细胞给出这种协变结构。
表7示出了Δ和V的估算值。随机对象效果的协变矩阵Δ的估算值在表中的上方。表中的行和列对应于用于该模型中的15个生物标识;列具有标记。
在研究对象内或在访问错误内的协变矩阵V的估算值在表中的下方。与Δ一样,表中的行和列对应于用于该模型中的15个生物标识。V具有复合对称结构,对换算数据来说是合理的。
阶段III 采用估算装置和预测值计算判别函数,针对每个研究对象计算预测值;估算判别函数的误差率。
步骤1采用阶段II的混合模型结果,将所有研究对象分至评定样本中,并估算多个候选判别过程的误差率,采用估算的随机对象效应的各种混合,其中一次基于“估算的值”,其它基于“预测值”。具有最低估算误差率的过程为选定过程,称之“显然最可靠的过程”现在的过程是采用混合模型的结果,将其提供给镰状红细胞数据。由于协变参数矩阵经模型化,对D组和D组来说是相等的,因此每个判别均是线性判别。对训练样本(这里作为评定样本使用)中的每个研究对象进行判别,确定每个研究对象是属于PD组还是属于PD组。
表8示出了根据估算值对研究对象的线性判别函数的评估。在D组(疾病状态=“否”的组)的179个研究对象中,100个(56%)被判别正确分入PD组中,79个(44%)错误地分入PD中。在D组(疾病状态=“是”的组)的262个研究对象中,188(72%)个被正确地分入PD组中,74个(28%)被错误地分入PD组中。总计441个研究对象中,288个研究对象(65%)被正确分类,35%被分错。
表9示出了采用最小随机对象效应,根据预测值对研究对象的线性判别函数的评估。表9与表8相似。预测判别使P组内的判别略有改善,但D组中的结果略有变差。总的来说误差率近似相同。
在前面的段落中和在表8-9中显示的分类/错误分类统计是最乐观的偏置,这就是说,表提供了比实际出现的情况中更有利的错误分类估算,因为训练样本既用于导出判别函数又用于评估它。采用评估样本来评估判别函数将产生对错误分类率的无偏置估算。重复采样技术如摺刀法或自展法在仍采用训练样本中的数据时可产生偏差较小的估算。
步骤2采用两种类型的逻辑回归来对一个新研究对象将属于每个组的概率估算值进行计算对每个判别函数来说,采用两种类型的逻辑回归来拟合训练样本。在两种逻辑回归中,疾病状态指征是非独立(“Y”)变量。在第一种逻辑回归中,基于估算的判别函数值作为独立(“X”)变量使用。在第二种逻辑回归中,基于预测的判别函数值作为独立(“X”)变量使用。在第三种逻辑回归中,用于判别函数中的生物标识与用于混合模型的拟合效应部分的协变量一起合并作为独立“(X”)变量,而疾病状态指征是非独立(“Y”)变量。从逻辑回归模型中获得的估算用于对每个研究对象计算其属于疾病组(疾病状态为“是”)的概率。逻辑回归计算的结果未显示在表中。
图1示出了D组(实线)和D组(虚线)线性判别函数值(基于估算值)的经验分布函数(“EDF”)。为了绘制曲线图,研究对象的数据由疾病组排序(在组中按D(Y)值的升序排列)。在该段中绘出数据点。EDF值开始为0(在第一个研究对象的数据绘出之前),之后针对每个研究对象以1/n增加,其中n为该组中研究对象的数量。这样,对每个组来说,EDF从0攀升至1。在图1中,实际情况是D组的EDF移到左侧的D组EDF,表明D组比D组趋向于具有低分。
我们可以看出,D组中约72%的研究对象具有的D(Y)值小于0(分离点在PD组和PD组之间),而D组中约44%的研究对象的EDF值在0的左边。组的EDF线在LDF=0的陡峭程度接近于垂直线表明,许多研究对象是在“边缘线”上的,很难对其分类。这是有可能的,因为如果后来的一些年时可利用的话,在D组中(这些数据中)的一些研究对象将在接下来的一些年内具有疼痛危象,可能“转”至D组。
图2示出了D组(实线)和D组(虚线)最小随机对象线性判别函数值的经验分布函数(“EDF”)。结果和说明与图1相似。陡峭但在LDF=0附近图2组的EDF线比图1更陡峭,进一步强调了这样的事实,即许多研究对象是处于边缘线上的。
这些图显示出在上面进行统计时,判别过程有效地对最终必将因疼痛危象住院的研究对象进行分类,但在该例中受有用数据的限制,该过程对将不这样住院的亚组效果较差。
表2.对镰状红细胞数据的潜在生物标识的说明
表4.混和模型信息整个模型特性
表5拟合效应系数的估算和相应的统计
表6.第447号研究对象的预测值和有关统计
表7.从Proc混和对协变矩阵的估算
本页空白
表8.采用估算值对判别过程的鉴定
rtol=153/441=35%
表9.采用预测值对判别过程的鉴
rtol=155/441=35%
权利要求
1.一种用于预测个体未来健康的基于计算机的系统,包括(a)一个含有处理器的计算机,该处理器包含有从被试总体的个体成员中纵向得到的生物标识值数据库,所述成员的子总体D确定为在特定时间段或年龄间隔内已获得特定生物状况,子总体D确定为在特定时间段或年龄间隔内未获得特定生物状况;以及(b)一个计算机程序,包括的步骤用于(1)从所述生物标识中选择生物标识子集,以便判别属于子总体D和D的成员,其中生物标识子集的选择基于被试总体个体成员的生物标识值的分布;以及(2)采用所选生物标识的分布来进展统计过程,这样可用于(i)将被测总体的成员分级成或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性高概率的子总体PD,或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性低概率的子总体PD;或(ii)对每个被试总体成员进行定量判断,推算在特定时间段或年龄间隔内获得特定生物状况的概率。
2.如权利要求1的基于计算机的系统,其中统计过程包括一判别函数,该函数采用子总体D和D内生物标识值分布的估算平均向量和估算协方差矩阵。
3.如权利要求2的基于计算机的系统,其中所选生物标识的分布参数的估算是通过采用通用线性混合模型拟合来自被试总体的生物标识数据而获得的。
4.如权利要求2的基于计算机的系统,其中(a)估算平均向量是以期望值参数或协变值的向量值函数为模型构造的;或(b)估算协方差矩阵是以协变参数或协变值的矩阵值函数为模型构造的。
5.如权利要求4的基于计算机的系统,其中所选生物标识的分布参数的估算是通过采用通用线性混合模型拟合来自被试总体的生物标识数据而获得的。
6.如权利要求4的基于计算机的系统,其中估算的平均向量或概率包括对被分类的成员或被估算概率的成员的随机受试效果向量的真实值的估算。
7.如权利要求6的基于计算机的系统,其中所选生物标识的分布参数的估算是通过采用通用线性混合模型拟合来自被试总体的生物标识数据而获得的。
8.一种用于预测个体未来健康的基于计算机的系统,包括(a)一个含有处理器的计算机,该处理器包含有从被试总体的个体成员中纵向得到的生物标识值数据库,所述成员的子总体D确定为在特定时间段或年龄间隔内已获得特定生物状况,子总体D确定为在特定时间段或年龄间隔内未获得特定生物状况;以及(b)一个计算机程序,包括的步骤用于(1)从所述生物标识中选择生物标识子集,以便判别属于子总体D和D的成员,其中生物标识子集的选择基于被试总体个体成员的生物标识值的分布;以及(2)采用所选生物标识的分布来进展统计过程,这样可用于(i)将被测总体的成员分级成或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性高概率的子总体PD,或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性低概率的子总体PD;或(ii)对每个被试总体成员进行定量判断,推算得到特定时间段或年龄间隔内特定生物状况的概率;其中统计过程包括一判别函数,该函数采用子总体D和D内生物标识值分布的估算平均向量和估算协方差矩阵。
9.如权利要求8的基于计算机的系统,其中所选生物标识的分布参数的估算是通过采用通用线性混合模型拟合来自被试总体的生物标识数据而获得的。
10.如权利要求9的基于计算机的系统,其中(a)估算平均向量是以期望值参数或协变值的向量值函数为模型构造的;或(b)估算协方差矩阵是以协变参数或协变值的矩阵值函数为模型构造的。
11.如权利要求10的基于计算机的系统,其中估算的平均向量或概率包括对被分类的成员或被估算概率的成员的随机受试效果向量的真实值的估算。
12.一种预测个体健康的方法,包括从一个体中采集多个生物标识,其中所述生物标识值的至少一个是通过实际测量生物标识值获得的;以及对所述多个生物标识值实施统计过程,这样(i)将被测总体的成员分类成或者为在特定时间段或年龄间隔内获得特定生物状况具有指示性高概率,或者为在特定时间段或年龄间隔内获得特定生物状况具有指示性低概率;或(ii)对每个被试总体成员进行定量判断,估算在特定时间段或年龄间隔内获得特定生物状况的概率;其中所述统计过程是基于(1)采集从被试总体的个体成员中纵向得到的生物标识值数据库,所述成员的子总体D确定为已在特定时间段或年龄间隔内得到特定生物状况,子总体D确定为在特定时间段或年龄间隔内未得到特定生物状况;(2)从所述生物标识中选择生物标识子集,以便判别属于子总体D和D的成员,其中生物标识子集的选择基于被试总体个体成员的生物标识值的分布;以及(3)采用所选生物标识的分布来进展统计过程。
13.如权利要求12的方法,其中所述生物标识值的至少一个是从生物样本中获得的。
14.如权利要求13的方法,其中所述生物样本为血液样本或尿液样本。
15.一种用于预测个体未来健康的基于计算机的系统,包括(a)一个含有处理器的计算机,该处理器包含有来自一个体的多个生物标识值;以及(b)一个计算机程序,包括用于对所述多个生物标识值实施统计过程的步骤,这样(i)将被测总体的成员分类成或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性高概率的子总体PD,或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性低概率的子总体PD;或(ii)对每个被试总体成员进行定量判断,推算在特定时间段或年龄间隔内获得特定生物状况的概率;其中所述统计过程是基于(1)采集从被试总体的个体成员中纵向得到的生物标识值数据库,所述成员的子总体D确定为已在特定时间段或年龄间隔内得到特定生物状况,子总体D确定为未在特定时间段或年龄间隔内得到特定生物状况;(2)从所述生物标识中选择生物标识子集,以便判别属于子总体D和D的成员,其中生物标识子集的选择基于被试总体个体成员的生物标识值的分布;以及(3)采用所选生物标识的分布来进展统计过程。
16.如权利要求15的基于计算机的系统,其中所述个体的多个生物标识值包括纵向得到的生物标识值。
17.如权利要求15的基于计算机的系统,其中特定生物状况是在特定时间段或年龄间隔内由特定根本死因引起的死亡。
18.如权利要求15的基于计算机的系统,其中特定生物状况是在特定时间段或年龄间隔内的特定疾病。
19.如权利要求15的基于计算机的系统,其中特定时间段是至少两年的时间段。
20.如权利要求15的基于计算机的系统,其中特定时间段是至少三年的时间段。
21.一种用于判断个体将由特定根本死因引起死亡的危险率的方法,包括从个体中采集多个生物标识值,其中所述生物标识值的至少一个是通过实际测量的生物标识值来获得的;以及对所述多个生物标识值实施统计过程,以使确定所述个体是否属于在一特定时间段或年龄间隔内具有预测的高死亡概率,所述死亡由在特定时间段或年龄间隔内总计至少占被试总体总死亡的60%的任何一种根本死因引起。
22.一种判断个体呈现良好健康状况的方法,包括从个体中采集多个生物标识值,其中所述生物标识值的至少一个是通过实际测量的生物标识值来获得的;以及对所述多个生物标识值实施统计过程,以便确定所述个体是否属于在一特定时间段或年龄间隔内具有预测的不会死亡的概率,其中所述死亡由在特定时间段或年龄间隔内总计至少占被试总体总死亡的60%的任何一种根本死因引起。
23.一种用于判断个体由特定根本死因引起未来死亡的概率的基于计算机的系统,包括(a)一个包括一处理器的计算机,该处理器包含一个体的多个生物标识值;以及(b)一计算机程序,该程序包括的步骤用于对所述生物标识值实施统计过程,这样确定所述个体是否属于在一特定时间段或年龄间隔内具有预测的死亡率,其中所述死亡由在特定时间段或年龄间隔内总计至少占被试总体总死亡的60%的任何一种根本死因引起。
24.一种用于判断个体呈现良好健康状况的基于计算机的系统,包括一个包括一处理器的计算机,该处理器包含一个体的多个生物标识值;以及一计算机程序,该程序包括的步骤用于对所述生物标识值实施统计过程,这样确定所述个体是否属于在一特定时间段或年龄间隔内具有预测的不会死亡的概率,其中所述死亡由在特定时间段或年龄间隔内总计至少占被试总体总死亡至少60%的任何一种根本死因引起。
25.一种用于判断个体的未来健康问题危险率的装置,包括(a)一种用于储存一个体的多个生物标识值的储存装置;以及(b)一种与该储存装置连接的处理器,该处理器的程序为(1)从该储存装置中接收所述多个生物标识值;以及(2)对所述多个生物标识值实施统计过程,以便(i)将被测总体的成员分类成或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性高概率的子总体PD,或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性低概率的子总体PD;或(ii)对每个被试总体成员进行定量判断,推算在特定时间段或年龄间隔内获得特定生物状况的概率;其中所述统计过程是基于(1)采集从被试总体的个体成员中纵向得到的生物标识值数据库,所述成员的子总体D确定为在特定时间段或年龄间隔内已获得特定生物状况,子总体D确定为在特定时间段或年龄间隔内未获得特定生物状况;(2)从所述生物标识中选择生物标识子集,以便判别属于子总体D和D的成员,其中生物标识子集的选择基于被试总体个体成员的生物标识值的分布;以及(3)采用所选生物标识的分布来进展统计过程。
全文摘要
本发明公开了一种用于预测个体未来健康状况的基于计算机的系统,该系统包括:(a)一个含有处理器的计算机,包含有从被试总体的个体成员中得到的纵向采集的生物标识值数据库,所述成员的亚总体D确定为在特定时间段或年龄间隔内获得特定生物状况,亚总体D确定为在特定时间段或年龄间隔内未获得特定生物状况;以及(b)一个计算机程序,包括如下步骤:(1)从所述生物标识中选择生物标识子集,以便判别属于亚总体D和D的成员,其中生物标识子集的选择基于被试总体个体成员的生物标识值的分布;以及(2)采用所选生物标识的分布来进展统计过程,这样可用于:(i)将被测总体的成员分类成或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性高概率的亚总体PD;或者属于在特定时间段或年龄间隔内获得特定生物状况具有指示性低概率的亚总体PD;或(ii)对每个被试总体成员进行定量判断,推算在特定时间段或年龄间隔内获得特定生物状况的概率。
文档编号G06Q50/00GK1268033SQ98804057
公开日2000年9月27日 申请日期1998年2月10日 优先权日1997年2月14日
发明者T·C·坎贝尔, R·W·赫尔姆斯, L·托马斯科 申请人:拜奥马尔国际公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1