计算机辅助疾病诊断方法

文档序号:6411135阅读:549来源:国知局
专利名称:计算机辅助疾病诊断方法
技术领域
本发明涉及疾病的诊断、普查和预测方法。更具体地,本发明涉及一种诊断、普查和预测人或动物的疾病的方法,并可确定疾病的严重程度和起因。
本发明还涉及一种利用一个或者多个神经网络得到诊断指标进行诊断、普查和预测疾病的计算机辅助方法。在本发明的最佳实施方式中,该方法用于诊断和预测例如骨质疏松症和癌症-包括但不限于卵巢、乳房、睾丸、结肠及前列腺的肿瘤。在另一个最佳实施方式中,本发明包括一个系统,它可以接收从数据发送站发送的患者数据、通过受过训练的神经网络处理这些数据以产生诊断值或预测值并把这些值发送到远程数据接收装置。
在本文中,术语“疾病”定义为身体的任何部分、器官或系统(或者它们的任何组合)的正常结构或功能的失常。一种具体的疾病是由包括着化学和物理改变的特征性症状和征兆表示的。一种疾病经常关联着其它种种因素,包括但不限于人口统计的、环境的、职业的、遗传的和病史的因素。通过种种方法可以对某些特征性的征兆、症状和有关因素进行定量来得到重要的诊断信息。出于这种应用目的,一种疾病的可定量的征兆、症状和/或生物液体的被测物的特性被定义为是该疾病的“生物标记”。当前的诊断和预测方法依赖于对这些生物标记单独地和相互关联地进行鉴别和评估。通常,一种特定疾病的诊断涉及到临床医师,如内科医生、兽医或者其它保健人员,对测量上述因素所获得的数据连带考虑到许多传统上不太量化的如职业史因素等进行的主观分析。遗憾的是,这种对一种疾病诊断或预测的主观处理一般不能包括所有可能的相关因素,因此不能对各种因素的作用提供准确的权衡来得到正确的诊断和预测。
通常,病理过程涉及逐渐的变化,仅当发生明显的变化时这些变化才变成是表观的。在许多情况下,病理变化涉及多个生物标记的细微改变。只由单个生物标记表明存在或者不存在一种病是罕见的。那些相关的并且和正常参照范围有关的生物标记的模式才是患有疾病的指示。包括但不限于人口统计的、环境的、职业的、遗传的和病史因素的其它因素可以对疾病的诊断和预测起重要的作用,尤其同生物标记的模式一起考虑时。遗憾的是,在考虑这些因素与一种疾病的病因或是否存在的联系的主观诊断过程多少是不精确的,并且许多可能是重要的因素却没有得到足够的重视甚至是一点也未考虑到。
当各个生物标记未示出可预示的变化并且所收集观测的生物标记之间的模式和相互关系不清晰时,内科医生诊断的准确性明显下降。并且,随着和某种特定疾病诊断相关的生物标记数量以及人口统计变量数量的增加,这些变量之中的有关诊断模式的数量相应增加。这种增加的复杂性降低了临床医生辨别模式以及准确诊断或预测疾病的能力。
每年许多人患前列腺癌,并且其中的不少人死于该病。要可靠地和准确地得到前列腺癌的早期诊断是非常困难的。但是,前列腺癌的早期诊断对于最大可能的成功地医治这种疾病是最重要的。现有的普查技术包括直肠指诊(DRE)、尿道前列腺活检以及血液中的前列腺特异抗原(PSA)的检测。依赖血清PSA水平,特别是低PSA水平时,作为前列腺癌的唯一诊断手段常常得到不可接受程度的非准确诊断。这些普查技术失诊许多早期前列腺癌病例,造成这种癌在前列腺内并且还在前列腺囊之外的增长。最重要的是在早期,未出现转移之前诊断出这种疾病。
此外,诊断方法应该能够区分良性前列腺增生(BPH)和前列腺癌并且能够区分癌症和非癌症。还需要一种可以在早期诊断或预测前列腺癌的确实的,可靠的,灵敏的,准确的技术,并且能够区分用T1b、T2、T3和TNXM1表征的前列腺癌的不同期。
骨质疏松症和骨质稀少症是另一个带有多种生物标记的疾病的例子,下述生物标记集合地显示了存在骨质疏松症的特性变化钙、磷酸盐、雌二醇(滤泡的,中周期的,黄体的,或经绝后的)、孕酮(滤泡的,中周期的,黄体的,中黄体的,口服避孕药的,或超过60岁的),碱性磷酸酶、肝-ALP百分比,以及总的肠-ALP。在测量这些生物标记后,作诊断的临床医师会接着把测量结果和正常基准范围进行比较。当一些生物标记在正常基准范围之外时,另外的生物标记可能显然在正常基准范围之内。在某些情况下,所有的生物标记值可能都在正常基准范围之内。在给出这样的数据下,临床医师可能怀疑患者已遭受某些骨损伤,但是不能对是否存在骨质疏松症得出明确的和有意义的诊断。
和一些疾病相关的生物标记的特征性改变已由许多资料提供;但是,在诊断疾病和确定预测中各个具体生物标记的定量说明尚未很好建立。通过更详尽地考察对一种特定疾病的常规诊断方法可最好地说明从对一组实验室数据的分析提出诊断的固有困难。下面是对骨质疏松疾病的讨论。
本文中所使用的术语“骨质稀少症”意味着任何低于正常的骨质减少。本文中所使用的术语“骨质疏松症”意味着广义骨质稀少症中的一种特殊形式,其特征是骨密度的降低、低骨质以及骨组织的微结构损坏。
骨质稀少症包括一组具有不同病因的疾病,它们具有每单位体积的骨质减小到足够机械支承所必需的量级之下的特点。骨质疏松症是骨骼的无机部分逐渐损耗的结果并且可由任何数量的因素造成。原发性骨质疏松症是和年令有关的失调,女性中尤为普遍,其特征是在缺乏其它可辨明起因下的骨质减小。但是,男女都可发生骨质疏松症。女性中该病一般是在绝经后在50多岁或60多岁时判明的。男性中经常在60岁左右和70岁左右判明骨质疏松症。
几个人口统计参数和增加发生骨质疏松症的危险有关。下面是一部分个体的清单,他们的人口统计及行为使它们具有发生骨质疏松症的危险。
经绝后的女性吸烟者重嗜酒者各种毒品如类固醇的使用者女性跑步者和芭蕾舞演员消耗太少热量的男马拉松运动员食欲过盛者和厌食者饮食极差者对奶制品过敏者癌症患者纤瘦女性65岁以上的所有男性和女性除了是女性之外,三个最明显的危险因素是饮食极差、缺乏运动以及是经绝后的。和骨质疏松症相关的其它危险因素包括人种因素,例如高加索人或东方人后代,白皙肤色以及骨质疏松家族史。
骨质疏松症的发作可能是于创伤之后隐袭的或突发的,和骨质疏松症相关的最普通主诉是背痛。最后,疼痛可扩展到骨盆、胸和肩。在脊柱中,椎骨可压缩,并且背可呈弓形。可能出现例如驼背(脊柱后凸)或脊柱侧凸的情况。若脊柱变形,还会影响其它的身体部位。例如,肋骨可按压骨盆,或者胃可推入骨盆。除了脊柱问题之外,骨质疏松症还可由轻微的创伤甚至有时没有创伤下都会导致髋部、腕部和肋骨的骨折。参见Mazess等的“骨质疏松症下的桡骨、脊柱和邻近股骨的骨密度”,J.of Bone and Mineral Research,Vol.3,pgs.13-18,(1988);Riggs B.L.等的“退化性骨质疏松症”,New Engl.J.Med.Vol.314,pgs,1676-1686(1986)。和骨质疏松症相关的变化是逐渐的,从而常常在早期检测不出骨质疏松症。
钙和磷酸盐是骨胳的无机部分的主要成分。血液的化学分析可显示钙、磷酸盐以及碱性磷酸酶处于正常范围。但是,碱性磷酸酶的同功酶可能明显地增加。骨质疏松患者中发现骨吸收的增加,这是破骨细胞作用的结果,通常涉及无机物以及有机基质的溶解并最终导致尿羟脯氨酸排泄的增加。在这些患者中几乎全由卵巢分泌的血清雌二醇明显地减少。
骨质的早期减少可通过本领域中熟练的技术人员所知的四种广泛应用的对骨不具侵害性的方法进行判断,这些方法包括单光子吸收法、双光子吸收法(DPA)、双能量X射线吸收法(DXA)以及定量计算机断层X射线摄影法(CAT扫描)。其中的几种用于测量骨中的无机物含量,而一些方法相对选择用于骨骼或者相对于骨皮质的小梁。这些方法还提供不同等级的曝光光度。
磁共振成象(MRI)技术和阳电子发射层析X射线摄影法通过提供有关骨密度及活力的信息也可提供在诊断包括着骨质稀少症和骨质疏松症的多种疾病中有用的信息。
射线照相吸收法(RA)是一种手骨无机物的非损伤X射线测量方法。用标准X光机拍摄的照片送到中心实验室以供计算机控制的分析。
现有的标准诊断技术对于骨质疏松症的早期检查不是有效的。骨质疏松症中的所见变化是渐进的,并且常常在该病的早期是未被检测的。骨质疏松症通常在早期是不能检查出因为必须减少约30%至40%骨质后对于采用标准的X射线诊断技术才是明显的。通过检查早期的骨损失以预防骨质疏松症要远远强于在晚期确定这种疾病,随后则力图防止它的发展。一旦出现严重的损坏并在骨折的小梁的两端间产生裂隙,则现有的疗法不能恢复受损的骨。因此,治疗方面的努力应该以预防以及早期确定渐进的疾病为目标,从而可以在出现实质性的不能挽救的结构损伤之前开始治疗。请参见,Cummings等的“邻近绝经的女性是否应集体检诊骨质疏松症?”Ann.Int.Med.,Vol.104,pgs.817-823,(1986);Courpron P的“骨质疏松症下的骨组织机理”,Orthop.Clin.North Am.,Vol.12,pgs.513-545,(1981);Frost H.M.的“骨模型的机械行列式”,Metabol.Bone.Dis.Rel.Res.,Vol.4,pgs 217-229(1982)。需要的是一种早期检查和预报骨质疏松症的方法,并考虑到和该病相关的多个生物标记以及人口统计变量的因素。
现有诊断骨质疏松症的方法的一个问题是其过程给不出骨质疏松症的根本起因的有关信息,使得难以为患者制定适当治疗方案。例如,经绝后的骨质疏松症的一个普遍原因是雌酮缺乏,但X射线技术测量不出。现有骨质稀少症的诊断方法的另一个固有问题是现有的所有方法需要昂贵和复杂的进行骨密度测量的医疗测试设备。另外,患者必须照射X射线。这使得由于昂贵以及对于中等诊断不能得到必要的测试设备对高危险性的人群进行一般性的普查是不现实的。
鉴于从一组预兆的生物标记的实验室数据以及从与生物标记数据任选组合的人口统计中得出诊断所遇到的困难,需要一种能对复杂模式识别的自动诊断系统。在利用计算模型得到诊断中的模式识别上已经有多种尝试。最普遍的从多变量实验室数据进行诊断的计算模型中的一种方法是辨别函数分析。但是,仅依赖传统模式识别技术(几何学上的、语法上的、样板的、统计的)的诊断系统对于评定多种疾病状态的特征生物标记模式不是有效的,部分是由于问题的固有非线性特性以及缺乏被观察数据中的已知数学结构。不存在准确描述如何分析一组生物标记以得出诊断的清晰规则。
近年来,人工神经网络已流行为一种对多变量实验室数据进行识别和分析的精细的诊断模式。神经网络可区别那些对于人和常规的计算方法过于精细或过于复杂的模式或倾向。人不能马上轻易地融会贯通多于二个或三个变量时,神经网络可以理解几百个变量中的相互关系。已开发出神经网络在临床诊断和/或预测上的应用价值的例子包括·精神病学(参见Mulsant,B.H.的“作为一种临床诊断方法的神经网络”,MD Computing,Vol.7,pp.25-36(1990))。
·孤独症(参见Cohen.I.等的“诊断孤独症一种基于神经网络的工具”,PCAI,pp.22-25(May/June 1994));·儿科放射学(参见Boone,J.M.等的“放射诊断中的神经网络。I.引言和说明”,Invest.Radiol.,Vol.25,pp.1012-1016(1990)以及Gross,G.W.等的“放射诊断中的神经网络。II.新生期的胸放射学的解释”,Invest.Radiol.Vol.25,pp.1017-1023(1990));·乳腺癌(参见Astion,M.L.等的“在癌症诊断中把神经网络应用于对实验室数据的解释”,Clin.Chem.,Vol.38,No.1,pp.34-38(1992);Yuzheng,W.等的“乳房X线照相术中的人工神经网络乳腺癌诊断中的决策应用”,Radiology,Vol.82,pp.81-87(1993);Kappen,H.J.等的“对治疗结果预测的神经网络分析”,Annals ofOncology,Vol.4,Supp.4,pp.S31-S34(1993);以及Ravdin,P.M.等的“用于预测各个乳腺癌患者的后果的网络网络分析的实际应用”,BreastCancer Research and Treatment,《乳腺癌的研究与治疗》,Vol.22,pp.285-293(1992));
·卵巢癌(参见Wilding,p.等的“反向传播神经网络在乳腺和卵巢癌诊断上的应用”,Cancer Letters,Vol.77,pp.145-153(1994));·甲状腺疾病(参见Sharpe,P.K.等的“体外实验室检测甲状腺功能的诊断中的人工神经网络”,Clin,Chem.,Vol.39,No.11,pps.2248-2253(1993));·前列腺癌(参见Show,P.S.等的“前列腺癌的诊断和愈后中的人工神经网络先导研究”,J.Urology,Vol.1521923-1926(1994));·宫颈癌(参见Rutenberg的美国4,965,725号专利);以及·心脏病学(参见Leong等的美国5,280,792号专利以及Furlong,J.W.的“系列心脏酶数据的神经网络;人工机器智能的一种临床应用”,Clin.Chem.,Vol.96,No.1,pp.134-141(July 1991)。
神经网络能识别模式,尤其适合作出诊断。不同于现有的从一组逻辑规则得出诊断的各种方法,神经网络不需要在一组规则中对过程知识的显式编码。神经网络从例子中了解。当输入到神经网络中的数据是预处理过的时,神经网络更有效地了解清楚。
计算机辅助临床模式分类技术有两种基本方法。第一种方法应用已知的知识以及某给定疾病过程的事实(生理的、解剖的、分子生物的,等等)来尝试建立观察到的或测量到的数据和几种可能的分类类别中的一种类别之间联系。这些已有的知识和事实常常用规则(如临床专家系统)、某种形式的数值函数(如参数统计推理中的统计分布)表示,甚至只能用由方程系统描述的复杂模型(如药代动力学模型)表示。
第二种方法利用数值化程序去适应性地构建和修改数值化分类系统,它是基于用多组提炼的输入值与已知的分类结果配对得到的训练数据的。在该方法中,不用也不能用显式形式表示人类专家知识。替代它的是,这种知识是隐含地由带有确认分类的训练数据提供的。经监督学习(从例子中学习)提取的这种知识以及分类系统的适应构建完全托付给学习规则系统。具有第二种方法的分类系统包括各种形式的例如多层前馈感知器的神经网络分类器。
两种方法都具有缺点。第一种方法使用主题范围中的显式知识把观察到的未知数据和已知类别联系起来。但是,在许多实际情况下,这种知识是不完整的或者只是一部分的,不能用明确的和准确的并可以直接编码到分类系统中的条目表示。另一方面,纯数值模式分类方法把构建分类系统的负担完全加到适应性学习过程上。所得到的系统的性能受到训练数据中所含信息的数量和内容的限制并且受到提取这些信息的学习规则系统的效率的限制,而与在该主题范围内可能存在极多已知知识的事实无关。在一些例如未对患者数据进行预选择或定标的预处理的情况下,对神经网络的训练若不是不可能的则可能是极为困难的,因为输入变量的数量可能太多而且这些变量对于特定疾病的关系可能太弱而达不到所需的预测精度。
因此,需要一种和能容纳大量如生物标记及人口统计等因素的设备和系统结合的诊断以及预测疾病的方法。该系统应该能够处理大量的患者以及大量的诸如生物标记因素和人口统计因素的患者变量。该疾病的诊断和预测方法应该选择带有高预测值的因素、预处理这些因素并且把数据输入到基于计算机的神经网络或者多元神经网络中以训练神经网络预测或诊断疾病。这些神经网络应该产生由一个或多个表示一种疾病的存在(诊断)或者将未出现(预测)的输出变量构成的诊断指标。该系统应该具有把患者数据输入到训练过的神经网络中并且产生表示该患者是否已患有或将患有该疾病的输出值的能力。
此外,因为临床医师很少有由他们支配的这种基于计算机的神经网络能力,从而还需要一种可把患者数据发送到上面所述的基于计算机的神经网络的系统,该系统将接收数据,把数据输入到训练过的神经网络,产生表示诊断或预测的输出值并且把有关诊断或预测的信息发送到另一个地方,例如原始数据发送站或者也许直接发送到临床医师的办公室。这种系统应该提供对复杂和高度训练过的预测及诊断神经网络的访问,这可增加临床医床诊断及预测能力的准确性。该系统应该能够接收大量的患者数据并且能够通过神经网络迅速地处理数据以得到对疾病的诊断和预测。
这种系统可应用于神经网络对此已专门得到训练的任何疾病或情况的诊断和预测。
本发明是用于诊断、普查或预测疾病的一种设备和一种方法。更具体地,本发明和一种采用训练过的神经网络的方法有关,并且和一种用于诊断、普查或预测例如人或动物的疾病以及用于确定疾病的严重性和起因的方法有关。该目的是通过执行下列步骤实现的收集关于患者的数据,供选的数据类型包括生物的、体格的、人口统计的、人种的、环境的以及医疗史的数据;选择那些和诊断一种疾病有关的数据;对数据数字化;扫描这些数字化后的值;进行检验以分析这些数据的辨别力;对独立的数据值分组;预处理这些数据以得到预处理值;把选择出的数据输入到基于计算机的神经网络以训练神经网络;分析各个数据输入对神经网络的作用;根据性能、准确性和成本选择最优训练的神经网络,训练该神经网络产生诊断指标;并且把其他患者的数据输入到该训练过的神经网络中以产生表示该患者是否已患有或容易患上该疾病的输出值。
本发明还包括一种用于快速诊断、普查或预测大量患者中的疾病的设备和方法,其中从远程位置处向中央设施发送患者数据。在中央设施处,接收数据并把数据引入到计算机系统,计算机系统执行下列操作;分析患者数据以评定数据格式的正确性;标定数据以提供类似范围内的不同类型的值;把标定后的患者数据引入到训练过的神经网络中以计算输出值;把该输出值和训练过的神经网络产生的诊断指标进行比较;根据该比较形成诊断或预测;把诊断或预测传输到一个远程位置,该位置任选地是发送原始患者数据组的位置或者是保健室。
本发明的该实施方式允许快速地测定由包括着生物标记数据和人口统计数据的患者数据所构成的大量数据组,对某特定的疾病或者几种疾病形成诊断或预测,并且迅速地把结果传输给负责该病人的保健人员或机构。该系统不仅提供可提高患者健康改进的诊断能力,并且还减小因浪费时间、治疗延误以及误诊所带来的花销。该系统为大量的患者样本进行普查提供诊断及预测疾病的能力,并且使得保健人员能够访问专门训练过的复杂的基于计算机的神经网络它可以高精确性和准确性地诊断疾病。
在一种实施方式中,本发明可用于甚至在非常早期阶段快速地和准确地诊断和预测前列腺癌。在该实施方式中,可以快速地和经济地普查大量的包括着生物标记以及任选的人口统计数据的患者数据组,以便以高精确性及准确性诊断及预测前列腺癌。此外,本发明简便地确定前列腺癌病期,并且简易地对前列腺增生和前列腺癌区分。
在另一种实施方式中,本发明可用于甚至在非常早期阶段快速地和准确地诊断和愈后骨质疏松症和骨质稀少症。在该实施方式中,可以快速地和经济地普查大量的包括着生物标记以及任选的人口统计数据的患者数据组,以便以高精确性及准确性诊断和预测骨质疏松症和骨质稀少症。此外,本发明简便地确定骨质疏松症和骨质稀少症的程度并且提供有关起因变量的信息。
本发明的一个目的是诊断和预测患者的某种疾病,对于这种疾病在患者群体中存在着足够的例如生物标记及人口统计数据的数据以便具体地训练神经网络来产生带有高预测实用度的诊断指标,并且在新的患者数据组中准确地和可靠地诊断该疾病。利用该系统可以普查大量的多变量患者数据集,用于确定一种疾病的存在或者预测一种疾病。
因此,本发明的一个目的是提供一种用于诊断、普查或预测疾病并且确定其严重性的方法。
本发明的再一个目的是提供一种由包含着基于计算机的训练过的神经网络系统的方法和设备构成的系统,该系统通过下述步骤诊断、普查或预测疾病并且确定疾病的严重性经数据接收装置接收来自其它地方的患者数据;把该数据发送到包含着基于计算机的训练过的神经网络的一个或者几个计算机,通过训练过的神经网络或者通过任选的几个训练过的神经网络处理该患者数据,以产生一个作为诊断值的输出值;把这些诊断值发送到另一个位置处,任意地发送到另一个计算机以传输到任意地由计算机或其它数据接收装置构成的远程位置。该系统可含有一个或几个计算机以及一个或几个训练过的神经网络。
本发明的另一个目的是提供一种用于诊断、普查或愈后疾病以及确定疾病的严重性的设备。
本发明的一个特点是提供一种普查、预测和诊断前列腺癌的方法。
本发明的另一个特点是提供一种普查、预测和诊断骨质疏松症和骨质稀少症的方法。
本发明的另一个特点是提供一种普查、预测和诊断乳腺癌的方法。
本发明的再一个特点是提供一种普查、预测和诊断卵巢癌的方法。
本发明的又一个特点是提供一种普查、预测和诊断结肠癌的方法。
本发明的另一个特点是提供一种普查、预测和诊断睾丸癌的方法。
本发明的一个优点是提供一种诊断疾病的方法,该方法对该疾病的可能起因提供更好的了解。
本发明的另一个优点是提供一种诊断癌症的方法,该方法对该癌症的可能起因提供更好的了解。
本发明的另一个优点是提供一种癌症的诊断检验,该检验可用于迅速地和经济地普查来自大量患者的数据组。
本发明再一个优点是提供一种对骨质疏松症的检验,该检验还给出作为骨质稀少状态的根本病因的信息。
本发明的另一个优点是把提供一种骨质疏松症的诊断检验,该检验可用于普查大量的个体。
本发明的另一个优点是提供一种用于诊断骨质疏松症和确定骨质稀少的根本病因并且不必使患者接受照射的方法。
在阅读下面的对公开实施方式的详细说明以及附属权利要求书之后,本发明的这些和其它的目的、特点和优点将会清晰。


图1表示具有多个输出的前馈神经网络。
图2表示具有单个输出的前馈神经网络。
图3是一个方程,表示一条典型神经的输入和输出之间的数学关系。
图4示意表示本发明的第二最佳实施方式。
图5表示用于构造前列腺癌神经网络诊断系统的训练数据。
图6表示为构造用于前列腺癌检测的神经网络Prost AsureTM系统所使用的训练数据。
图7表示为构造用于前列腺癌检测的神经网络Prost AsureTM系统所使用的检验数据。
图8表示用于构造QuiOsTM骨质疏松症神经网络诊断系统的训练数据。
图9表示用于测试QuiOsTM骨质疏松症神经网络诊断系统的检验数据。
图10显示在诊断骨质稀少症中QuiQsTM系统的灵敏度和特异性。
图11是726个检验样本的散布图,表示QuiOsTM值和以T-评分形式在L2-L4上和Ward三角上的骨无机物密度(BMD)测量的关系。
图12示意表示同时发生的多访问推理技术。
图13示意地表示一种用于构造和训练诊断及预测疾病的基于计算机的神经网络型的分类器的方法。
图14表示基于神经网络的诊断系统的结构。
图15示意地概述用于接收患者数据、利用训练过的神经网络分析患者数据并且发送结果的ProstAsureTM基于计算机的神经网络系统的体系结构。
图16是用于分析患者数据输入并且对ProstAsureTM诊断值的系统体系结构。
图17提供用于不同年令组的正常、BPH以及前列腺癌的ProstAsureTM基准范围。
图18提供ProstAsureTM检验数据组中的样本的诊断准则。
图19表示诊断正常、BPH和癌症患者中的重要ProstAsureTM统计结果。
图20显示193个检验癌症病例中的ProstAsureTM结果。
图21是416个检验样本中的ProstAsureTM值对PSA值的散布图。通过非线性地组合多个生物标记,ProstAsureTM比利用单个生物标记(PSA)更有效地区分正常、BPH和癌症患者。
图22表示比较ProstAsureTM和仅用PSA的诊断能力的接收器一运算特性(ROC)曲线。曲线下的区域是检验有效性的一种测量。Rel.ProstAsure指的是对按年令分类的基准范围的回归。在把癌症和正常及BPH区分开来的统计意义上ProstAsureTM明显优于PSA。
图23显示用训练数据和检验数据计算出的ProstAsureTM灵敏度和特异性。
图24表示在检测及判别前列腺癌和辨别正常及BPH患者下的ProstAsureTM的灵敏度和特异性。
图25是ProstAsureTM算法的数学描述。
图26是QuiOsTM算法的数学描述。
下述专利申请整体地作为本文的参考资料1995年7月25日递交的美国临时申请序列号60/001,425;1995年6月7日递交的美国申请序列号08/472,632;1995年2月2日递交的PCT申请PCT/US95/01379;1994年10月13日递交的美国申请序列号08/323,446;1994年9月30日递交的美国申请序列号08/315,851;1992年12月14日递交的美国申请序列号07/990,772;1992年12月14日递交的PCT申请PCT/US92/10879;1992年10月21日递交的美国申请序列号07/964,86;1991年12月12日递交的美国申请序列号07/806,980。
在本文中,术语“疾病”定义为身体的任何部分、器官或系统(或者它们的任何组合)对正常结构或功能的偏离。一种具体的疾病是由包括着生物、化学和物理变化的特征症状以及征兆表示的,并且经常和多种其它因素(包括但不限于人口统计、环境、职业史、遗传和医疗史因素)有关。某些特征征兆、症状以及有关的因素可以通过各种方法定量以产生重要的诊断信息。
术语“患者”指的是任何人或动物。
出于本申请的目的,一种特定疾病的生物液体和组织中的可定量的征兆、症状和/或被测物被定义为是该疾病的“生物标记”。当前的诊断和预测方法依赖于对这些生物标记单独地和相互有关地鉴别和测定。术语“生物标记”包括所有类型的来自患者的生物数据。
患者数据可能包括各种类型的和该疾病具有某种关系的数据。信息可能是生物的。这样的数据可以从对任何生物参数的测量中得出。这些物质包括,但不限于,内分泌物质如激素,外分泌物质如各种酶以及神经传递质、电解质、蛋白质、碳水化合物、生物因子、细胞因子、单核因子,脂肪酸、甘油三酸酯和胆固醇。
其它类型的生物数据可以来自对源于患者的器官、组织或细胞的组织分析,包括在光学显微镜和电子显微镜水平上利用下述但不限于下述任意数量的技术进行的组织分析结构分析、组织化学、免疫细胞化学、原位杂交和放射自显影等技术。
生物数据可以从来自患者的并进行培养的细胞的进行分析得出。可以检验这些细胞的各种组织和生化特性。例如,从患者体内取出的并予以培养的细胞可用于检验以确定和某种疾病的存在相关的特异标记的存在。可检验细胞的新陈代谢活性或者其在培养基中产生和释放的生成物。
有关患者的生物数据包括和转录(transcription)和翻译(translation)(例如各种形式的核糖核酸、脱氧核糖核酸以及其它转录因子)有关的核分子以及胞质分子的遗传及分子生物分析的结果,并且包括对由这种核糖核酸分子的翻译造成的最终结果分子的遗传学及分子生物学分析的结果。
生物数据的范畴内还包括各种用于分析患者的结构及解剖方法,例如射线照片、乳房X线照片、荧光图象摄影和断层X射线照片,包括但不限于X射线、磁共振成象、CT、放射介入显影、正电子发射层折X射线照相法、内窥镜、声谱图、超声心动图以及对它们的改进方法。
生物数据还包括涉及到年令、重量、生长率、牙健康状态、心血管状态、生殖状态(青春期前的、青春期的、青春期后的、绝经前的、绝经的、经绝后的、能生育的、不能生育的)、体脂肪百分比以及体脂肪分布。生物数据还包括体验的结果,包括但不限于人工触诊、直肠指诊、前列腺触诊、睾丸触诊、体重、体脂肪量以及分布、听诊、反射检测、血压测量、心音和有关心血管音、阴道和其它妇科检查(包括宫颈、子宫和卵巢的触诊、输卵管评定、乳腺检查以及乳腺的射线照片和红外检查)。
可以以患者的医疗史的形式得到其它生物数据。这样的数据包括但不限于下述数据包括祖父母和父母在内的祖先、兄弟姐妹以及后代的病史,他们的健康问题、遗传史、心理状况、精神疾病、去世年令及死因;已得疾病及状态;已做外科手术;已做血管成形术,接种;习惯如锻练时间表、饮酒量、抽烟量和吸毒量;心脏信息,包括但不限于血压、脉搏、心电图、心音图、冠状动脉图、踏车试验(treadmill)压力测试、铊压力测试以及其它的心血管成像技术。上面提及的所有类型的生物数据看做是用于本申请的目的的“生物标记”。
术语“生物液”包括但不限于血液、血清、脑脊液、腹膜液、唾液、泪液、生殖液、眼内液、消化液、呼吸液、胸膜液、心包液、淋巴液、尿液、细胞内和细胞外液以及神经液。
术语“人口统计数据”包括有关患者的种族、种类、性别、人种、环境、对环境毒素和环境辐射的暴露、压力等级、行为方式、以前的职业和当前的职业。人口统计数据也可提供诊断和预测疾病中有用的信息。
本发明提供一种诊断、普查或预测患者某种疾病的方法,该方法包括步骤测量已知和该疾病相关的预测生物标记组的浓度;把这些生物标记浓度转变成数字化值;预处理这些数字化值以得到预处理值;并且把这些预处理值发送到基于计算机的神经网络以训练该神经网络诊断和预测该疾病,从而来自该神经网络的诊断指标表示患者何时患有该疾病或者何时可能会出现该疾病。
本发明还包括一种用于诊断、普查或预测患者中某种疾病的设备,该设备包括把已知的和该疾病相关的来自患者的预定生物标记组的浓度进行数字化的装置;预处理这些数字化值的装置;以及和数字化以及标定装置连接的基于计算机的训练过的神经网络,用于生成网络输出值;用于把神经网络的输出值和诊断指标进行比较的装置;以产生表示该患者何时患得该病或者何时可能会出现该疾病。
根据本发明的第一实施方式,利用训练过的神经网络通过分析一组某病预定的生物标记或人口统计数据来确定对应于该病存在及严重性的诊断指标。根据本发明,为某一患者确定和某种特定疾病的发生有关的某些生物标记的浓度或人口统计数据。把这些数据转换成数字化值。接着预处理(定标、取舍、线性/非线性组合、等等)这些数字化值,然后把预处理值任意地连同一个或几个从原始值计算出的二次值发送到训练过的神经网络以产生诊断指标。数据的预处理在该阶段发生并且用来减小神经网络的负担以及用来增加神经网络诊断和预测疾病的准确性的灵敏性。通过引入已知疾病状态的患者群体以及这些患者的生物标记值或人口统计数据训练神经网络并且“教会”神经网络识别这种疾病状态下的生物标记组的模式。在训练神经网络之后,向训练过的神经网络引入带有未知疾病状态的患者的生物标记值。接着该神经网络处理信息以产生输出值,该输出值是诊断值,表示患者是否患有该病或者是否可能出现该病。
尽管不希望被这种陈述所约束,发明人们建议人工神经网络,尤其是多层的前馈网络,可经过其加权连接以对应于对分类疾病的重要的数据模式。另外,神经网络可以辨别和各种失调关联的唯一的数据模式,以帮助分类那些看来是不和恶性的或良性的模式中的一种模式吻合的边缘病例。多重神经网络本发明还包括一种诊断、普查或预测患者某种疾病的方法,包括步骤测量患者的和该疾病相关的一组预定生物标记的浓度,数字化这些浓度,预处理数字化值以得到预处理值,对这些被测值的数字化值定标,把预处理后的值引入到第一神经网络,以及把第一神经网络的输出值和把可以包括着第一预定生物标记组中的一个或多个生物标记的第二预定生物标记组发送到第二训练过的神经网络,从而把第二神经网络的输出值和诊断指标进行比较以产生表示患者何时患有该病或者何时可能出现该病的诊断值。
本发明的第二实施方式涉及由神经网络对生物标记进行二级分析。这避免由训练网络时的主预测变量造成的偏差。在第一次分析中神经网络排除主生物标记或主预测变量,而在第二次分析中神经网络包括该变量。例如,若认为年令是诊断骨质疏松症中的主预测变量,在第一神经网络的训练中不包括该变量,其训练数据组限于别的选出的生物标记。在利用第一组生物标记得到一个诊断指标后,利用该诊断指标以及包含年令的完整输入变量组训练第二神经网络以产生另一个诊断指标。该最终的诊断指标是人工神经网络生成的指标和利用其它非数字患者信息的启发式分析结果的综合。
在另一个实施方式中,本发明提供一种由诊断、普查或预测患者中前列腺癌的设备和方法构成的系统包括着ProstAsureTM系统。在该实施方式中,对生物标记分析得到的数据以及任选的人口统计信息进行预处理,并输入到一个训练过的神经网络中。本发明中把前列腺特异抗原(PSA)、前列腺酸性磷酸酶(PAP)以及三种形式的肌酸激酶(BB、MB和MM)用作生物标记。应理解别的生物标记和人口统计数据也可能用于本发明。例如,触诊到前列腺的直肠指诊结果可任意地和其它生物标记或人口统计数据结合。该训练过的神经网络提供表示患者是否患有前列腺癌的输出值。该训练过的神经网络能够在前列腺癌发展的早期提供非常准确的诊断和预测,从而显示出高灵敏度和特异性。前列腺癌的分期,甚至该病的非常早期阶段得以确定。另外,本发明把良性前列腺增生和前列腺癌区分开来,并且区分前列腺癌和非癌状态。
本发明的另一特殊实施方式包括一种由利用基于计算机的训练过的神经网络诊断和确定患者的骨质稀少症和骨质疏松症的严重性和根本病因的方法和设备构成的系统。在建议的实施方式中,该方法确定下述生物标记的血清含量钙、磷酸盐、总碱性磷酸酶、一种碱性磷酸酶同功酶、雌二醇和孕酮。该碱性磷酸酶同功酶最好是T细胞衍生的碱性磷酸酶或者是血液、肝或肠的碱性磷酸酶同功酶。任选地,可在训练过的神经网络中包括患者的年令或人口统计数据。由该方法计算的骨密度系数很高程度地和用标准方法测量的骨密度关联,标准方法包括如射线照相吸收法、定量CT、双光子吸收法和骨密度的直接测量。这样测得的骨密度系数然后和骨质稀少严重度等级比较。
本发明的另一实施方式的目的在于一种利用神经网络普查、预测和诊断疾病以得到结论性的诊断的计算机辅助方法。本发明适用于具有收集装置、能够检测生物液中被测物量的样本检测装置以及在视频显示装置上打印或显示测试结果的装置的现有诊断设备。
发明人们发现生物标记共同地随着疾病过程改变,并且共同地组成一个新的疾病可预测性强于单个生物标记的诊断生物标记。当在基于计算机的训练过的神经网络中按组地处理和分析生物标记产生单个诊断指标时,诊断的灵敏度和特异性增加,这样和分析单个的生物标记相比内科医生可能更早和更准确地检测疾病的存在,或者更准确地估计预测。
按照本发明的一种实施方式,首先从患者收集一种或几种生物液。利用标准的实验室技术测量生物液中和某特定疾病相关的生物标记,以确定它们的浓度,或者在某些情况下确定这些生物标记的是否存在。应理解这种处理可在常规诊断设备中自动地进行。出于示例的目的,在本节的其它处为骨质稀少症以及为前列腺癌获得生物标记值的方法提供说明。
本发明的方法所依靠的诊断某种疾病的生物标记必须预示所拟诊的疾病并且必须与由神经网络进行分析在统计上是显著的。选择在诊断疾病上能提供统计上显著差别的生物标记涉及几个步骤。首先,必须得出和诊断引起注意的疾病显示着某些关系的生物标记的清单。通常,只需要包括反映疾病过程的不同方面或其它诊断信息的生物标记。第二,选出的生物标记必须在灵敏度、特异性以及阳性阴性预测力的方面上具有合理的诊断值。还要考虑到和评定生物标记的实验方案的设计和实施。第三,如果候选生物标记的数量太大,则可能需要引入正式的辨别分析。但是,许多标准的统计分析方法可能不能满足高非线性的分类问题的要求。典型地,对生物标记值和人口统计数据值进行定标以提供不同生物标记或人口统计变量之间的相对类似的取值范围。以这种方式,测量不同变量中固有的不同数值范围的差异减小。预处理由生物标记和其它人口统计数据构成的输入变量是训练神经网络中的一个重要步骤。如果候选变量的数量不太大,可以把它们都包括在对神经网络训练的初始尝试中。如果神经网络的输入生物标记中的一个或几个对分类决策处理是不相关的。可以在训练过的神经网络的网络连接加权中反映出来。然后可以从某特定疾病的生物标记组中去掉这些值。评定一种神经网络选出的生物标记用于分析的统计重要性以及选择用于训练神经网络的生物标记的其它方法在本领域是周知的。
下面通过几种包括前列腺癌、骨质疏松症、卵巢癌、结肠癌、乳腺癌和睾丸癌的例子确定符合上面叙述的准则的生物标记,即它们是可预示某特定疾病的并且由神经网络分析在统计上是显著的。请理解下面所说明的用于特定疾病的这些生物标记是本发明的示例,并不认作是对本发明的范围施加任何限制。

<p>下面提供上面所使用的缩写的检索表
*LASA-P是DIANON系统公司的注册商标**CA 15-3是Centocor公司的注册商标根据本发明的方法可以诊断多种疾病。为适应用本方法诊断,疾病的生物标记和人口统计数据必须可量化。生物标记和人口统计数据还必须可预示疾病并且必须彼此是统计上显著的。本发明的方法同样适用于诊断任何可辨别其生物标记以及人口统计数据的疾病,包括但不限于传染病和遗传畸形。
在确定某种疾病的生物标记之后,由基于计算机、训练过的神经网络对生物标记值数字化、预处理和分析以产生单个诊断值。用于模式分类问题的最常见神经网络的体系结构是前馈网络,它典型地包括一个输入层、一个或多个隐藏层和一个输出层。图1和图2表示二种不同前馈网络中的神经元的排列。
构成神经网络的各层的元素称为神经元或节点。输入信号从输入层向前馈送到隐藏层并且接着馈送到输出层。各层中神经元的数量是在训练网络之前确定的。典型地,对每个输入变量存在一个输入神经元或节点,并且每个输出变量一个输出节点。神经网络的各输入值是各预测器变量。这些预测器变量可以是定量的或定性的。神经网络不做数据分布假设并且可以同时使用定时的和定性的输入。在本发明中,生物标记值以及选择产生的二级值在预处理中重定标在0.0和1.0之间或者-1.0和1.0之间,以构成输入变量。
神经网络的输出表示输出类别。例如,恶性可用恶性输出神经元的最大输出以及良性神经元的静默表示,而良性过程可用良性神经元的最大输出和恶性神经元的静默表示。简单的算术函数与两个神经元组合以产生单个诊断指标。还可采用单个输出神经元。大于0.5的输出表示恶性而小于0.5的输出表示良性状态,以这种方式直接得到的诊断指标。还可采用相反的表示形式。
隐藏层的数量以及隐藏层的节点数量是对神经网络的性能具有明显影响的可设置参数。实际上,隐藏神经元的最佳数量是根据试验确定的。确定隐藏神经元的最佳数量的装置是本领域中熟练的技术人员周知的并且取决于要解决问题的复杂性。
在本发明中,神经网络的一种实施方式是采用反向传播训练算法的多层前馈感知器。隐藏层的数量以及每个隐藏层中神经元的数量按与诊断问题的复杂程度具有足够的匹配来确定。在训练组中的样本代表着实际应用中所有会遇到的不具有明显矛盾的可能情况以及一般比生成和交叉证实测试中的样本数量和层次在统计上是足够的假设下,下面概述的准则用于确定所选的网络结构是否是恰当的。
即使在多次调整训练算法的参数之后,若神经网络连续地不能正确地分类训练组中的大部分样本,则应增加网络的复杂性。
另一方面,如果神经网络对于正确地分类训练组达到高比率但不能准确地对测试组中的大量样本进行分类,网络结构可能对于求解的问题太复杂,即它对适应训练数据组具有足够的固有灵活性但是对于测试数据组不具有足够的预测力。若为这种情况,应逐步减少隐藏层中的神经元数量,或者,如果存在多个隐藏层,应逐步减少隐藏层。
还有可能用含稍稍过多隐藏神经元的神经网络完成通则。这可以这样实现在训练中周期性地用交叉证实检测数据测试部分训练过的神经网络,并且在交叉证实错误达到最少时停止接着开始增加测试。
通常并不总是必须具有大的训练样本组。若训练组中的样本已经在足够的统计显著性上代表所有可能的情况,增加新的样本一般不会增加训练样本中的信息量。代之可能会减小样本中的有用信息对噪声的比率。在另一种极端下,太小的训练组一般不能覆盖群体中的所有可能的变异。所产生的神经网络常常简单地记住训练组中的所有情况但几乎不做归纳。
输入层和输出层不直接连接。每个输入神经元和后面的隐藏层中的各个神经元连接,取决于隐藏层的数量隐藏层中的神经元和后面的相邻隐藏层或者输出层中的各个神经元连接。对每个具体神经元的多条连接中的每条连接加权。在隐藏层和输出层中,每个节点把乘以各自的连接加权值并加上偏置项的输入激活值相加。然后加权后的总和通过一个典型地为S形函数的非线性输出函数,后者赋于神经网络表示复杂非线性关系的能力。若一个神经元的加权输入和大于门限值,该神经元熔掉。如图3中所示,一旦一个神经元在门限之上,其输出的幅度是净输入的S形函数。神经网络中活动的最终结果是净输出,它是各输入的复杂非线性函数。
总之以及根据本发明,首先确定和定标某具体疾病的生物标记或人口统计变量的值。生物标记从输入层前馈到隐藏层(或几层)并且再前馈到神经网络的输出层。输入层中神经元的数量是在训练网络前确定的并且对应于预测特定疾病的生物标记的数量。预选择生物标记并且预处理生物标记值。对每个诊断变量或生物标记有一个输入神经元,并且每个所需的输出有一个输出神经元。除标明的生物标记外,诊断变量可以包括人口统计信息。输出层中神经元的数量取决于所需的输出类型。隐藏层中神经元的数量是在训练期间经试验确定的。
用于诊断特定疾病的神经网络必须得到训练以去诊断该疾病。根据本发明在一种实施方式中,通过反向传播训练神经网络。反向传播指的是通过确定各值之间的最佳连接加权准确地建立一种输入和输出样本的训练神经网络的技术,它在本领域中是周知的。其它可用来按照本发明的目的训练神经网络的技术可以包括任何非线性全局优化技术,例如遗传搜索算法;但是,前馈、反向传播神经网络是最流行的。
在训练神经网络的起始阶段,网络中的连接加权是随机化的。接着向网络一次一个数据地提交训练数据。根据本发明,训练数据由一组患者的生物标记值或人口统计值以及对每个患者的诊断组成。生物标记值以及,供选地,人口统计值被数字化和预处理,并且预处理后的值是训练网络的输入变量。对每个患者,网络利用该患者的预处理值估定诊断,并接着和实际的诊断进行比较。若网络的诊断是正确的,则不改变网络中的连接强度和门限,并且向网络提交下一个患者。若估定的诊断是不正确的,调整隐藏层以及输出层中的连接加权和门限以减小分类错误的量值。在完成调整之后,提交下一个患者。继续训练直至训练组中的所有患者都正确的分类或者满足某预置的停止准则(例如迭代的最大次数)。
在训练神经网络时,训练者可设定和分类错误定义有关的判定界限,即错误诊断。相关的参数是规定估定的输出必须离实际的输出多近才是正确的错误容限。例如,若采用两个输出神经元并把训练容限设定为5%,则当恶性输出神经元在最大值的95%处激发并且良性神经元在最大值的5%内激发则认为恶性估定是正确的。相类似,良性诊断的正确估定意味着良性输出神经元在最大值的95%处激发并且恶性神经元在最大值的5%内激发。这种确定分类错误的方法是本领域中熟练的技术人员周知的。
在本发明的最佳实施方式中,若采用单输出神经元,良性正常诊断设定在0.1的输出而恶性或异常诊断设定在0.9的输出。还可采取相反的表达方式。错误容限是一个可调整的参数,在使神经网络成功地做出准确诊断上它是重要的。
在神经网络针对所需的疾病训练之后,具有未知话病状态和可能无病的患者的生物标记值以及任选的人口统计值被数字化、预处理和引入到训练过的神经网络中。接着神经网络处理这些信息以生成一个对应于患有或不患有该特定疾病的诊断的值。根据本发明,这是通过采用单个输出神经元或者多个输出神经元实现的。若采用多于一个的输出神经元,组合各神经元的输出以产生单个诊断指标。
如图4中所示,在本发明的第二实施方式中,由训练过的神经网络分析生物标记得到的诊断值进一步由一组和患者的其它信息相配合的启发式规则进行分析。患者的其它信息包括例如家族医疗史和人口统计信息。接着处理该信息以产生单个第二诊断值。
在另一种实施方式中,本发明的同时、多访问推理系统可利用已有的知识以及只能从训练数据中数值地提取的隐信息。已有知识的使用可采取设立诊断患者的具体的生物标记的正常基准范围。如图20中所描述该系统具有四个主功能块1.输入数据预处理在该块中,各个对象的观测数据值通过变换及组合序列。该过程的目的是把未加工的输入数据转换成一种在最明确的方式下保留有用信息同时去掉大部分无关的“噪声”数据的形式。此外,可利用原始输入生成二级输入变量。通常事实上为非线性的这些变换还有助于减小自适应学习和分类功能块上的压力。
2.机械(实际)建模和仿真在该功能块中,利用关于特定疾病过程的可得到的知识以及信息建立某些正常过程的机械(实际)模型,这些正常过程(心理学上的,解剖学上的,药物学上的,病理学上的,分子生物学上的,遗传学上的,等)与患者测量数据的来源有关。这些患者数据包括例如下面的但不局限于下面的类型和变量电诊断方法脑电图心电图肌电图断层X射线照片神经传导试验成象诊断方法X射线NMRCT扫描PET扫描荧光X线照相术乳房X线照相术声谱仪红外线心回波图确定各种生物液中生物标记的临床检验室诊断方法血液尿唾液胃肠液生殖液脑脊髓液PCR基因标记放射免疫测定,ELISA色谱法受体测定组织学诊断法组织分析细胞学组织分型免疫细胞化学病理组织分析电子显微镜原位杂交药代动力学诊断法治疗药物监视受体特征和测定其它因素体格检查医疗史精神和心理史行为模式行为测试人口统计数据吸毒、饮酒、吸烟和饮食方式环境影响(职业、对化学品、射线、毒素等的暴露)普通病理学这些模型基于研究中的各个患者的输入数据,或者基于各个患者所属的一类患者的信息。这些模型的仿真输出形成了与观测到的患者数据进行比较的基础以及在下一功能块中检测差异和异常的基础。
3.差异和异常的检测该同时多访问推理技术系统的关键概念中的一个概念是利用已有知识(即CADRS和上面的诊断方法)以及正常和疾病过程中的事实来避免使数值化调整的模式分类子系统因患者状况不同带来的观测数据的正常变化而过载。在该块中,机械模型的输出结果和观测到的患者数据比较。接着把差异(不必是简单的值上的数值差)作为输入数据馈给自适应模式分类子系统以产生所需的临床指示。
4.自适应模式分类子系统由于临床问题的复杂特性,该功能块中的分类函数/算法通常实质上是非线性的,作为特殊情况也包括线性和分段线性系统。分类函数的建立以及它们的参数的确定是根据分类问题的已知性质的,并且最重要的是根据可使用训练数据中的隐含信息的。这种自适应分类系统的例子包括各种形式的分类信息的人工神经网络。
本发明还通过下述的示例进一步得到说明,这些示例不是按对本发明的范围施加限制的方式构建的。相反,在阅读本申请的说明之后,那些本领域内熟练的技术人员会清楚地理解到,在不违背本发明的精神和/或附属权利要求书的范围下,手段可以是各种其它实施方式、改进方式和同等方式。
在下述一些利用神经网络分析数据的示例里,利用NeuralShell2(1.5版本)(Ward System Group公司)神经网络开发程序在奔腾60兆赫计算机(Magitronic公司)上训练该神经网络。在其它示例中采用不同的计算机硬件。
示例1下例说明训练一个神经网络以预测前列腺癌。
总共52个样本划分成二组,一个训练组和一个普通测试组。训练组包括40个样本(28个稳定的和12个进展的),普遍测试组包括12个样本(9个稳定的和3个发展中的)。
根据分类任务的复杂程度选择初始的网络体系结构。采用多层前馈网络。初始体系结构的选择涉及选择隐藏层的数量以及每个隐藏层中神经元的数量。进行几次反复尝试以确定一种在训练样本组和普通测试样本组上都显示良好结果的足够设置。该网络具有一个带有九个神经元的隐藏层并具有二个输出神经元。
最初,随机地设定各神经元中的连接加权。该神经网络具有五个输入神经元,对应于前列腺癌的五个重要输入变量TPS、PSA、PAP、CEA和睾酮。图5中示出训练数据。在训练期间,每个患者的五个输入变量首先在0.0和1.0的连续范围内线性定标。接着把得到的五个数作为输入向量提交给该人工神经网络的输入神经元。
对每个输入向量,该网络根据网络神经元之间的连接加权产生一个输出。该输出可以是一个单值或者一个数值向量,其取决于所使用的输出神经元的数量。该网络具有二个输出神经元。通过下述数学式处理二个神经元的输出以产生单个诊断指标
网络中的每个神经元通过非线性S形函数(通常是一个逻辑函数)传送该神经元的所有输入的总和参与输出计算并且把结果发送给后面相郐层中的每个神经元。把产生的输出或每个输出神经元和所需的“目标”输出进行比较。0.1的值对应于稳定的诊断而0.9的输出对应进展中的诊断。该差异用于计算指导训练算法(即反向传播算法)的误差项,调整网络连接加权以力图减小训练样本组上的网络输出和目标值之间的差时。
在训练后,该神经网络正确地分类100%的样本。
当提供普通的检验结果时,该训练过的神经网络正确地分类100%的稳定样本和66%的正在发展的疾病的样本。
示例2在附属的图25中提供Prost AsureTM算法的数学描述。在图6和7中分别提供用于Prost AsureTM的训练数据和检验数据。训练数据组显示患者的年令、PSA、PAP、CK-BB、CK-MB、CK-MM、总CK、直肠指诊和种族的数据。
在对检验数据和训练数据的癌症检查上,Prost AsureTM显示出下述灵敏度和特异性(用百分比表示)检查的灵敏度 检测 训练前列腺癌(PC) 80.3% 84.4%2期PC85.3 85.1T2、T3期和TNXMI期(PC) 87.9 87.9把前列腺增生检查为BPH66.1 68.9辨别的特异性 百分比非癌症为非癌症 92.8% 91.8假定的正常为正常 67.6 68.2
*BPH=良性前列腺增生当用Pearson x2分布检验(x2分布值=128.8)并且自由度为4和P值<0.00001时,Prost AsureTM系统的这些结果是统计非常显著的。这些结果展示出在诊断前列腺癌、区分该病的阶段以及辨别良性前列腺增生及正常等等上Prost AsureTM系统的灵敏度和特异性。
示例3本例说明构建和训练用于诊断骨质疏松症的神经网络。训练和检验数据分别在图8和9中示出。QuiOsTM算法的数学描述附录在图26中。本例展示构建和训练用于诊断骨质疏松症的神经网络。
图8提供用于训练诊断骨质疏松症的神经网络的数据。所选的生物标记包括年令、钙、磷酸盐、雌二醇(ETWO)、孕酮、总碱性磷酸酶、总肠碱性磷酸酶以及肝碱性磷酸酶的百分比。图8还包括该神经网络得到的诊断指标。
图9提供用于检验按图8中的数据训练的网络的数据以及得到的神经网络诊断指标。
在实施本发明的一个方面中,通过一种或几种标准方法测量一组人或动物中具有不同严重性的疾病的严重性。然后赋予该测量一个和严重性标度对应的数字值。标度的范围从无病的人或动物至带有严重疾病的人或动物。该标度最好是一个数值标度。例如,可以指定一个值对应于正常或轻微的疾病,另一值对应中等的疾病,而第三个值代表严重的疾病。
接着确定一组具有疾病的不同严重性的人或动物中的血液成分预定集的浓度。根据本发明,最好测量由一种或几种常规方法测出其疾病严重性的相同一组人或动物的血液成分。骨质稀少症本发明的一种实施方式的例子是一种诊断患者骨质稀少症的方法。该方法最好利用六种血液成分。这些成分是钙、磷酸盐、总碱性磷酸酶、一种碱性磷酸酶同功酶、雌二醇和孕酮。实施本发明的碱性磷酸酶同功酶最好包括淋巴细胞衍生的碱性磷酸酶同功酶和骨、肝或肠碱性磷酸酶同功酶。本发明包括利用上述六种血液成分通过把这些供检验的值输入到在图26中附录的QuiOsTM算法计算骨密度商数。在QuiOsTM算法中还包括年令、体重和身高。
除了诊断患者的骨质稀少状态外,利用本发明可以确定骨质稀少症的根本病因的指示。例如,通过按本文所说明的方法实施本发明,可以确定患者的骨质稀少症是由于经绝后雌激素的缺乏引起的还是由于其它的状况如癌症引起的。这可使护理医生能更好地制定对骨质稀少症的治疗。
在本发明中采用五种临床检验室普遍进行的血清检验。对T-淋巴细胞衍生的碱性磷酸酶的检验只是试验的;但是,对血液、肝和肠的碱性磷酸酶同功酶的检验都是知道的。只要检验给出所测量的成分的准确血液浓度,这六种血清成分所使用的检验类型对本发明则不是关键性的。图10和11中所示的结果显示骨质稀少症诊断中的极好灵敏度和特异性。
示例4该例解释构建和训练用于计算机辅助诊断和预测疾病的分类器的方法。该分类器基于计算机的神经网络。下面的字母子节标题代表图13中的字母标记。
a.输入的初始选择按提取对诊断该疾病以及确定该疾病的发展阶段的有用信息的方式选择和该疾病过程有关的生物标记和其它测量(解剖的、生理的、病理的等等)。该选择很大地依赖于医疗经验、生物医学基础科学的现有知识以及临床研究的进展。
b.对辨别力的检测利用训练组中检验数据分别在线性和非线性组合下对选出的输入进行辨别力的统计分析。所使用的软件类型包括商用统计软件包(例如Math Works公司的MatLabTM,Statsoft公司用于Windows 4.5的Statistira)以及由Horus公司的人员开发的用输入变量的非线性组合和变换进行聚类分析的程度。采用科学数据显示技术引导非线性组合及变换的构建。从选择的输入组中去掉那些在训练数据中不显示对分离不同诊断类的患者数据特征有辨别力的输入。
c.对各种输入的分类几个初始确定的输入可能在疾病过程的相同方面是紧密相关的或者是简单的不同测量,并且可能提供类似的但略有差异的值。把它们组合到输入子集中。在开发基于神经网络的分类器(它们用神经网络补充提供分类系统)的过程中,一次只使用每个子集中的一个输入(首先是具有较高辨别力的一个)以构成分类器的实际输入表。在分组过程中利用生物标记专家知识。例如,可以把两个略有不同的对相同生物现象进行测量的检验,如CA125和CA125II归纳到一起。各输入间的交互影响、相关及相同的统计分析有助于确定这些分组(例如x2分布、配对t-检验等等)。
d.预处理预处理步骤包括输入值的准备,“预处理值”被用为基于神经网络的分类器的实际输入。该步骤包括对原始输入生物标记或人口统计值(它们可以是数字化值和/或利用原始输入值的线性或非线性组合建立的二级输入)的线性或非线性变换(例如改比例)。本步骤中使用的软件和过程类似于上面所说明的步骤b“对辨别力的检测”中的软件和过程。在步骤b中,目标是确定某特定的生物标记或者别的测量是否提供任何有用的信息。在本步骤中,利用统计、数学和计算工具帮助“预消化”信息。例如,按非线性公式组合的二个输入提供更明显的分类信息。增加一个利用该式的计算值的输入使训练更为容易。利用生物医学以及临床科学领域中的专家知识(例如某种类型的变换或组合在生物上是否是“似乎合理的”)并且利用模式分类中的经验。例如,通过观察输入变量空间中的样本,可以估定样本分布中的复杂性并利用该信息调整神经网络的结构。由于非线性运算以及在组合中常常使用大量输入值,对新建立的二次输入的有效性的直接数值评估可能是非常困难的。广泛使用科学数据显示技术以在构造和评估二级输入中提供指导。例如,彩色编码以及坐标系统变换允许观测高于三维空间的数据。这有助于理解输入变量空间中样本的分布和预处理步骤的结构。
预处理步骤是非常重要的。该领域中的以前的工作者设想神经网络的非线性特性可全面地利用以原始输入值为形式的训练数据中的信息(参见Astion,M.L.和Wilding,P.的“癌症诊断中神经网络对实验室数据的解释的应用”,Clinical Chemistry 3834-38(1992),该文中未提及预处理)。但是,该“解开”多线索的和相关的信息以方便对神经网络的训练的步骤在成功地开发基于神经网络的诊断系统中起着极为重要的作用。
e.选择具有最大辨别力的输入该步骤涉及从可能变换过的原始输入值中和从新建立的二次输入中选择输入变量以形成基于神经网络的分类器的实际输入表。该表中初始选择的输入数量基于步骤b和d中的辨别力评定结果以及可利用的有关该问题复杂性的知识。
f.检测/评估和分析各种输入的作用在该步骤中,利用检验数据组的数据评估基于训练过的神经网络的分类器的性能,该检验数据组没有在构建和训练该基于神经网络的分类器中涉及到,该分类器是一种利用神经网络作为其分类决策部件的分类系统。由于基于神经网络的计算中的非线性特性,通常不可能直接分析各种输入数据对产生神经网络分类器的最终结果的作用。采取下述步骤1)观察每个输入发出的网络连接强度;2)对随单个输入量改变的神经网络输出中相关变化进行比较的灵敏性分析;以及3)更完全的分析方法,例如利用Monte Carle取样法在多个输入同时改变方面建立一个灵敏表面。
g.选择训练得最好的神经网络分类器增加/删除输入值以及构造/评估神经网络分类器的重复处理产生多种构形的基于神经网络的诊断系统。对“最好”的选择基于两个基本考虑1)在绝对意义上以及和现有方法的比较上该系统的有效性;以及2)输入数据的数量以及相关的成本。
示例5构建和训练用于计算机辅助诊断设备的基于神经网络的分类器的过程下面逐条说明图14中所示的构造和训练过程中采用的步骤
1.若诊断组的总数量为2,转到下一步骤。否则,根据有关该疾病过程的已知因素;把分离的组组织到二进制分类判定树中。对每对需要二进制分类的组(是/否、阳性/阴性等等)重复步骤2-6。
2.在第一层上导出神经网络(ANN1,1至ANN1,M)a.选择用于训练和检验的适当数据组。
b.若记录的神经网络的总数超过预定数量,转到步骤3。
c.构建新的神经网络并且从总输入表中选择子集(通过设定神经网络选择器完成)。
d.利用不同的初始条件和训练参数训练相同结构的多个神经网络。对于每个训练过的神经网络,若结果明显地超过包括具有不同网络结构的网络在内的以前训练过的神经网络(根据各组中正确或错误分类的患者),去掉低品质性能的神经网络。重复进行直至在新训练的神经网络中不能观察到明显的性能改进或者直至用尽初始条件和参数的全部合理变化。
e.若用尽所有的合理网络结构以及它们的变型,转至下一步骤,否则转至步骤3。
3.比较所有记录的神经网络的性能并且去掉差的或重叠的神经网络。若二个神经网络提供类似的结果,去掉带有更复杂网络结构的一个。
4.记录所有保留的神经网络。
5.在第二层上导出神经网络(神经网络ANN2,1至神经网络2,N)。用第一层中保留的神经网络的输出变量扩大原始输入表,并且重复步骤2-4。
6.利用线性或非线性方法把一个或几个记录的神经网络的输出组合为单个分类指标。利用网络训练中未涉及到的检验数据评估其分离二个诊断组的性能。为这对诊断组选择最佳的二进制分类函数。
7.根据二进制分类判定树,组合得到的二进制分类函数以形成一个“超函数”,该“超函数”产生一个带有Horus任意单位和带有各个不同诊断组的基准范围的单值诊断指标。
示例6用于诊断前列腺癌的对患者数据进行神经网络分析的基于计算机的Prost AsureTM系统这是一个基于计算机的系统,它具备接收患者数据、利用训练过的神经网络分析数据、产生表示前列腺癌的存在或不存在的输出值、把该值发送到另一个计算机以及把该值发送到另一个位置的能力。在图15中概略表示该系统。图15中的各个方块被编号并在下述说明中被引用。该系统具备接收和分析大量的患者数据、迅速地产生诊断前列腺癌的输出值以及把结果任意地发送到远程位置的高能力。该系统允许迅速地分析大量的患者数据组并且向临床检验室和保健部门提供诊断值。应理解图15代表本发明的一种最佳实施方式,并且应理解在实施本发明以诊断包括前列腺癌在内的任何疾病时可采用其它的系统配置,例如涉及单计算机或多计算机的不同硬件配置。
数据文件包含为计算前列腺癌的诊断指标所需的患者检验数据。数据文件是标准的ASCII文件。每个患者记录为文件中的一行。文件的各行用回车;换行(CR/LF)对定界。记录中的字段用ASCII字符“,”定界,每条记录包含下述七个字段1)标识(ID)-字母数字;2)年令-数字;3)前列腺特有抗原(PSA)-数字;4)PAP-数字;5)CKBB-数字;6)CKMB-数字;7)CKMM-数字。每个字母数字字段包含一条由字母“a”到“z”、“A”到“Z”、数字“0”到“9”以及字符“-”、“-”、“.”、“$”组成的字符串。数字字段包含一条十进制数字的串。它可包含单个十进制小数点“.”。在数字中不允许出现空格字符“ ”和逗号字符“,”。
每个患者记录占据输入数据文件中的一行。一条记录中的数据字段用逗号分隔。在回送给Lab Corp的结果文件中,重复各输入值,后面跟有二个也用逗号分隔的附加数据字段计算出的ProstAsureTM(纽约州Rochester市的HORUS医疗公司)值和整数的误差代码。
在真正计算Prost AsureTM值之前,根据下述按图16中列出的次序的错误检查准则对患者记录进行错误检查。一旦出现代码130之外的错误,错误检查停止。不对该患者计算Prost AsureTM值。输出文件记录中的Prost AsureTM字段填入“xxxx”并且把第一非130错误代码附属为最后的字段。当检验了所有的准则并且没有查出错误或只查出代码130时,计算Prost AsureTM值并在结果文件记录中报告。相应地把错误代码0或130附属成最后的字段。
按如下定义错误代码错误代码110-该记录包括少于7个用逗号隔开的字段。后面跟着一个逗号的空字段仍当作一个字段并且不会触发本检查。错误代码100-第一字段(ID字段)是空的。错误代码120-其余的数字字段中的一个不是有效的数字格式(包括一个空字段)或者一个数字字段具有负值。错误代码130-检验室检验值中的一个值超过普通的患者参考范围的上限的五倍;或者三个或更多的检验室检验结果具有零值;或者年龄=0或>150。
Prost AsureTM系统由二台计算机工作站和有关的通信设备及连接设备组成(图15)。下一段是对该系统的概述。
Prost AsureTM站I(14)基本上是一个通信控制站。它经调制解调器(2)和电话线下载来自远程计算机系统(Lap Corp)(1)的检验数据,并且把Prost AsureTM结果上载到远程系统。通过一条直接的假调制解调器的电缆(7)在各自的相应串行端口上,站I(14)和站II(15)连接。站I(14)把成功下载的数据文件发送给站II(15)并且从站II接收用于上载的ProstAsureTM结果文件。站I控制下载间隔的定时。它通过取决于错误状况的重试和/或报警操作(13)处理错误状况。在上载(4)和(3)之前站I比较外出结果文件和进入数据文件(5)的数据部分以确保结果文件的完整性。
Prost AsureTM站II(15)是用于Prost AsureTM算法计算(11)的主计算站并且放置训练过的神经网络(11)。站II(15)接收来自站I(14)的数据文件并且把结果文件发送(8和9)给站I(14)。站II(15)读出和验证从站I接收的数据。若检查出(12和10)无效数据,用“x”字符标记Prost AsureTM的结果字段,并且还用具体的错误代码反映该状态。若检测出数据值是异常的但是有效的,将提供Prost AsureTM结果;但是,将用错误代码指示这种状况。站II调用动态连接库(DLL)以进行神经网络结构的计算,该库来自一种领先的神经网络软件-商用软件包NSHELL2的2.0版本(马里兰州Frederick镇的Ward SystemGroup公司)。站II包括错误处理程序(10)以处理各种错误状况。它在严重错误状况下向操作员(13)报警(9和10)。站II还负责原始数值文件和结果文件的存档。
Prost Asure系统利用哥伦比亚大学的Kermit软件在二个工作站站I和II之间以及在站I和远程计算机系统之间进行通信。Kermit是可靠的和充分测试过的通信协议。Prost AsureTM系统软件在微软的Windows环境下运行,该环境提供相容和用户友好的接口。为简化操作Prost AsureTM软件设计成是按全屏幕方式执行的。系统说明系统要求图15中提供系统的图示概述。站I(14)站I的要求包括如下奔腾计算机75兆赫或更高,一个不少于8Mb的RAM,一个不少于1.0Gb的硬盘机,一个速度为9600比特/秒或更高的内部调制解调器,一个SVGA监视器以及用于Work group的Microsoft Windows(WFW)3.11。站II(15)站II的要求包括如下奔腾75兆赫或更高,一个不少于8Mb的RAM,一个不小于1.0Gb的硬盘机,一个850MB的内部磁带机,一个超VGA监视器以及用于Work group的MicrosoftWindows(WFW)3.11。
该系统需要一个Microsoft Windows的打印器驱动程序支持的激光打印机。还需要用于经串行端口在站I和站II之间进行连接的假调制解调器7和RS-232电缆。
实际安装的系统一种实际安装系统的例子如下站I的构成NEC Ready Pentinm SystemsTM(奔腾100MHz CPU,16Mb RAM,1.0GB硬盘机)NEC Multisync XV17TM监视器;预装入用于Workgroup的MS Windows 3.11。站II的构成NEC Ready Pentiam SystemsTM(奔腾100MHz CPU,16Mb RAM,1.0Gb硬盘机)内部的850Mb磁带机NEC Multisync XV17TM监视器,预装入用于Workgroup的MS Windows。打印机HP Laser Jet III参考资料Operations Procedure;Ready Pentium Systems User’s Guide;NEC Ready Pentinm Systems Hardware Ref./Operations Guide;NEC Multisync XV17TMUser’s Guide。
系统功能在下述对程序的说明中,术语“紧急报警程序”定义为报告计算机软件或硬件系统中或者数据文件传送机制中需要人类操作员和/或运行管理者13的立即注意或介入的异常情况的自动程序。在“紧急报警程序中”,1)受到影响的计算机产生在设施外能听到的响亮警报声;2)受到影响的计算机屏幕闪烁并且显示出错信息和对应的错误代码;以及3)计算机系统自动地拨打当班人员的寻呼机号码。
站I(14)从主机(1)(HP3000 UNIX工作站)下载患者检验数据并且对主机(1)上载计算结果,主机(1)位于北卡罗来纳州的Research Triangle Park的美国LaboratoryCorporation(Lab Corp)的设备中。站I充当外部数据源(LabCorp主机)和Prost AsureTM处理工作站(站II)15之间的缓冲器和防火墙。下面是对站I提供的功能的详细说明。这些功能也是在系统有效性测试期间检查的功能。
I-1启动经过调制解调器对主机的远程连接。调用自动注册程序以利用MS DOS Kermit软件和下载程序得到供处理的新的患者数据。它利用Kermit ASCII文件传送协议。
I-2每60分钟自动地发生连接及文件下载。在连接失败的情况下,在10秒的间隔中自动反复再连接。在连续10次努力失败后,系统I发出错误代码#200并且启动“紧急报警程序”。
I-3一旦完成数据文件的下载,系统I启动和站II的连接并且把新接收的数据文件发送给站II。若站I反复十次失败发送数据,站I发出错误代码#230并且启动“紧急报警程序”。
站II处理接收的数据,为每个患者计算Prost AsureTM指标并且把结果和原始输入值一起发送给站I。
I-4在成功地接收完成后的结果数据文件之后,站I把结果数据文件中每个患者的输入值和原始接收的数据文件中的输入值进行比较以确保完全匹配。若出现错误,调用“紧急报警程序并且显示错误代码#300或#310(不匹配的记录数量)或#320(至少一个记录不和输入值匹配)。当发生300系列错误时,不向LabCorp主机发送结果并且立即通知运行管理者。
I-5连接Lab Corp并向Lab Corp主机发回数据(类似于I-1,除执行文件拒载代替文件下载之外)。
I-6类似于I-2,若连接努力失败,站I在10秒间隔中重复连接尝试。在连续10次尝试失败后,站I显示错误代码#290并且启动”紧急报警程序“。
站II从站I接收数据并且向站I发送数据。站II利用ProstAsureTM算法处理数据。站II提供下述功能。在系统有效性测试期间这些功能被测试。
II-1一旦建立由站I启动的连接,站II接收已发送的患者文件。
II-2站II利用Prost AsureTM算法顺序地处理数据文件中的患者记录(见图25)。
II-3一旦完成步骤II-2,站II启动和站I的连接,并且利用MS DOS Kermit ASCII文件传送程式向站I发送结果数据文件。若尝试10次不能发送文件,站II发出错误代码#260并且启动“紧急报警程序”。结果数据文件中的记录(行)由计算中使用的输入数据值和附加的二个字段组成,附加的二个字段是对患者计算的Prost AsureTM值以及一个指示计算正常或异常的三数字代码。在异常情况下,该代码是一个错误代码,它含有关于所出现的异常情况的类型的信息。
II-4在完成向站I发送结果数据文件后,数据文件和由该数据文件加上二个附加字段栏1)计算值和2)错误代码组成的结果文件归档到站II的二个指字目录“c\pacompu\padata\”和“c\pacompu\paresult”中,该目录带有反映编码日期和时间标记的文件名,形式为mmddhhnn.yy其中mm月份、dd日期、hh小时、nn分钟以及yy年。
示例7本发明包括利用计算机辅助神经网络诊断卵巢癌。这一新形式使用上面的卵巢癌II标题下列出包括CA125、M-CSF、OVXI、LASA、CAA7-24和CA19-9的生物标记。在用186个对象的独立数据组检验后,检测达到89%的灵敏性和89%的特异性。
当然,应该理解,上面的说明仅和本发明的最佳实施方式有关,并且在不违背附属权利要求书中所叙述的本发明的范围和精神下可对本文进行大量的修改和变更。
权利要求
1.一种诊断或预测患者的疾病的方法,包括把和该疾病相关的患者的生物标记的浓度转换成数字化值;预处理数字化值以得到预处理的值;把预处理的值输入到含有训练过的神经网络的计算机中;把预处理值引入到训练过的神经网络中,其中该训练过的神经网络是专门为诊断或预测该疾病训练的并且产生一个输出值,该输出值对应于患有或不患有该疾病或者该疾病的严重性;以及把来自该训练过的神经网络的输出值发送到和显示装置连接的输出值接收器。
2.权利要求1的方法,还包括把患者的生物统计数据转换成数字化值;预处理数字化值以产生预处理值;把预处理值输入到计算机;以及把预处理值引入到训练过的神经网络中。
3.权利要求1的方法,还包括把该训练过的神经网络的输出值以及来自患者生物标记的第二组预处理值或者任选的来自患者人口统计数据的第二组预处理值引入到计算机中的第二训练过的神经网络里,其中该第二训练过的神经网络训练成诊断或预测该疾病并且产生第二输出值,该第二输出值对应于患有或不患有该疾病或者对应于该疾病的严重性;以及把第二输出值从第二训练过的神经网络发送到和显示装置连接的输出值接收器。
4.权利要求1的方法,包括把患者生物标记数据以及任选的患者人口统计数据插入到患者记录中;把患者记录中的数据引入到计算机中,在其中对数据进行数据格式错误分析;把不带有格式错误的患者数据转换成数字化值;预处理数字化值以产生预处理值;把预处理值引入到训练过的神经网络中,其中该训练过的神经网络是专门为诊断或预测该疾病训练的,其产生一个表示患有或不患有该疾病或者该疾病的严重性的输出值;以及把该输出值和患者数据插入到该患者记录中。
5.权利要求1的方法,其中该疾病是从由骨质疏松症、骨质增生症、乳腺癌、卵巢癌、结肠癌、前列腺癌和睾丸癌组成的组中选择的。
6.一种用于训练基于计算机的神经网络来用于诊断和预测患者疾病的方法,包括随机选择基于计算机的神经网络中的连接加权;从一组患有一种疾病的患者得到和该疾病相关的患者生物标记的浓度;把生物标记的浓度转换成数字化值;预处理数字化值以产生预处理值;通过经该神经网络的输入端逐次地引入作为输入变量的每个患者的预处理值训练神经网络;从该神经网络得到一个输出值,其中该输出值表示神经网络的诊断并且对应于患有或不患有该疾病或者对应于该疾病的严重性;把神经网络的输出值和实际诊断进行比较;若神经网络的诊断不对应于实际诊断,调整连接加权;经过该神经网络的输入端引入作为输入变量的该组患者中的患者的预处理值;得到该神经网络的第二输出值;把该神经网络的第二输出值和实际诊断进行比较,若神经网络的诊断不对应于实际诊断,调整连接加权;重复上述向该神经网络引入该组患者中其它患者的预处理值、得到新的输出值、把新的输出值和实际诊断进行比较以及选择性地调整连接加权等步骤;以及任选地建立关于分类错误的判定极限。
7.一种设备,包括一个包含着训练过的神经网络的计算机,其中该训练过的神经网络训练成诊断或预测某种疾病。
8.权利要求7的设备,还包括用于把和该疾病相关的患者生物标记浓度转换成数字化值的设备;用于预处理数字化值以生成预处理值的装置;用于把预处理值输入到该训练过的神经网络的装置,从而该训练过的神经网络产生一个输出值,该输出值和是否患有该疾病或者和该疾病的严重性相对应;以及用于传送该输出值的装置。
9.权利要求7的设备,还包括用于把患者人口统计数据转换成数字化值的装置;用于预处理该数字化值以生成预处理值的装置;用于把预处理值输入到该训练过的神经网络的装置,从而该训练过的神经网络产生一个输出值,该输出值和是否患有该疾病或者和该疾病的严重性相对应;以及用于传送该输出值的装置。
10.权利要求8的设备,还包括多于一个的训练过的神经网络,其中这些训练过的神经网络训练成专门诊断或预测某种疾病并且各产生一个输出值,输出值和是否患有该疾病或者和该疾病的严重性相对应。
11.权利要求7的设备,其中疾病是从由骨质疏松症、骨质增生症、乳腺癌、卵巢癌、结肠癌、前列腺癌和睾丸癌组成的组中选择的。
全文摘要
本发明的同时、多访问推理技术系统利用现有的知识以及可从训练数据中数值化地提取的隐信息提供一种用于诊断疾病和治疗患者的方法及设备。该技术还包括一个用于从其它位置接收患者数据、在训练过的神经网络中分析数据、产生诊断值以及任意地把诊断值发送到其它地方的系统。
文档编号G06F19/00GK1194045SQ96196534
公开日1998年9月23日 申请日期1996年7月25日 优先权日1995年7月25日
发明者斯蒂芬D·巴恩希尔, 张振 申请人:好乐思治疗公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1