用于改善将具有相似简档的患者聚类在一起的聚类模型的性能的相关性反馈的制作方法

文档序号:15884784发布日期:2018-11-09 18:39阅读:164来源:国知局
用于改善将具有相似简档的患者聚类在一起的聚类模型的性能的相关性反馈的制作方法
下文总体涉及医学领域、电子临床决策支持(cds)领域、临床研究领域、基因组学领域以及相关领域。
背景技术
许多医学任务受益于识别具有相关相似性的患者群组。例如,在设计临床试验中的关键初始步骤是识别登记的临床试验中的患者。为了确保结果的有效性,登记的患者应当彼此足够相似,从而不同的患者结果能够被可靠地归因于临床试验的目标(例如,新的制药药物)而不是归因于由于诸如年龄差异、性别、种族、慢性医学状况的存在/不存在等外来因素(其中,这些与临床试验的目标无关)所导致的患者结果的差异。识别适合的患者以加入临床试验的任务是困难的,因为患者的结果会受到许多相关因素的影响。也能够在登记之后在对临床试验结果的分析期间实施群组识别。在登记之内,具有阳性结果相对于阴性结果的患者自然形成两个感兴趣群组。然而,可以基于阳性群组和阴性群组内的相似性和区别性来进一步分割这些群组,以识别和解释可能影响临床试验的原始数据结果的任何外来因素。相似群组识别任务是在其他类型的医学研究中执行的,例如以评估疾病风险因素或者执行组合来自许多先前研究的数据的“元研究”。其他医学任务包括对患者的临床诊断和处置。在这样的任务中,临床医师能够从当前患者与相似的过去的患者的比较中受益。同样地,识别“相似”患者的任务是具有挑战性的。没有两个患者是相同的,并且群组选择任务需要评估哪些差异是重要的还是不重要的。下文公开了解决上述问题和其他问题的新的并且经改进的系统和方法。技术实现要素:在一个公开的方面中,公开了一种患者群组识别设备。计算机具有显示部件和至少一个用户输入设备。所述计算机与存储患者数据的患者数据库通信,所述患者数据包括针对所述患者数据库中的患者的特征的值。所述计算机被编程为执行包括以下内容的患者群组识别方法。对所述患者数据执行自动特征选择过程以选择特征的集合,并且使用取决于所述特征的集合的患者比较度量来执行对所述患者数据库中的患者的自动聚类。执行至少一次迭代,其包括:在所述显示部件上显示关于根据所述自动聚类与查询患者相似或不相似的一个或多个样本患者的信息;经由所述至少一个用户输入设备接收用户输入的比较值,所述用户输入的比较值将所述一个或多个样本患者与所述查询患者进行比较;调节所述患者比较度量以增大将所述一个或多个样本患者与所述查询患者进行比较的由所述患者比较度量计算的比较值与所述用户输入的比较值之间的一致性,其中,所述调节包括调节所述患者比较度量的特征的集合和特征权重中的至少一个;并且使用经调节的患者比较度量来重复所述自动聚类。使用由最后一次迭代产生的经调节的患者比较度量来识别针对所述查询患者的患者群组。在另一公开的方面中,公开了一种患者群组识别设备。计算机具有显示部件和至少一个用户输入设备。所述计算机与存储患者数据的患者数据库通信,所述患者数据包括针对所述患者数据库中的患者的特征的值。所述计算机被编程为执行患者群组识别方法,所述方法包括:在所述显示部件上同时显示两个或更多个图形模态表示,其中,每个图形模态表示针对模态的两个或更多个坐标特征来绘制所述数据库中的患者;在一个图形模态表示中接收对患者的聚类的选择;并且响应于接收到所述选择,在其他同时显示的一个或多个图形模态表示中突出显示患者的所选择的聚类中的患者。在另一公开的方面中,公开了一种患者群组识别方法,其与计算机协同地执行,所述计算机具有显示部件和至少一个用户输入设备并且与存储患者数据的患者数据库通信,所述患者数据包括针对所述患者数据库中的患者的特征的值。所述患者群组识别方法包括以下内容。使用取决于特征的集合的患者比较度量来执行对所述患者数据库中的患者的自动聚类。执行至少一次迭代,所述迭代包括:在所述显示部件上显示关于根据所述自动聚类与查询患者相似或不相似的一个或多个样本患者的信息;经由所述至少一个用户输入设备接收用户输入的比较值,所述用户输入的比较值将所述一个或多个样本患者与所述查询患者进行比较;调节所述患者比较度量的特征的集合和特征权重中的至少一个,以生成经调节的患者比较度量,与没有所述调节的患者比较度量相比较,经调节的患者比较度量具有与用户输入的比较值的经改善的一致性;并且使用经调节的患者比较度量来重复所述自动聚类。针对所述查询患者的患者群组被识别为通过最后一次迭代的自动聚类重复而产生的包含所述查询患者的聚类的至少部分。一个优点在于提供了来自临床医师的相关性反馈以改进群组选择。另一优点在于基于临床医师的整体患者水平分析为群组选择提供了相关性反馈。另一优点在于提供了来自临床医师的用于选择相关特征的相关反馈,而无需临床医师执行特征水平分析。另一优点在于提供了图形用户界面,经由所述图形用户界面,临床医师能够对不同模态(临床学、放射学、基因组学、人口统计学、生理学等)的相互关系进行可视化。给定实施例可以不提供前述优点中的任何一个优点,可以提供前述优点中的一个、两个、更多个或全部优点,和/或可以提供其他优点,这对于本领域普通技术人员在阅读和理解本公开内容后将变得显而易见。附图说明本发明可以采用各种部件和部件布置以及各种步骤和步骤安排的形式。附图仅用于例示说明优选实施例的目的,而不应当被解释为限制本发明。图1示意性图示了患者群组识别设备。图2示意性图示了由图1的患者群组识别设备适当地执行的患者群组识别方法。图3和图4示意性示出了图2的方法的呈现操作的合适的实施例的两个例示性范例。图5示意性示出了如在本文中所描述的患者群组视觉表示和导航工具。具体实施方式在本文中认识到,通过选择适当的(缩减的)患者特征集合以将患者分组为群组能够降低选择群组的复杂性。用于选择群组的所述患者特征集合应当包括与手头的医学任务相关的那些患者特征(例如,选取患者加入临床试验,或者选取与当前在临床诊断中的患者相似的患者等),并且不应当包括与该医学任务不相关的那些患者特征。特征选择是重要的,因为可用的患者特征的数量通常是相当大的,并且例如可以包括:人口统计学数据(年龄、性别、体重、种族等);存在/不存在慢性行为状况(吸烟、重度饮酒、消费各种娱乐性药物等);存在/不存在各种慢性临床状况(高血压、糖尿病、哮喘、心脏病等);存在/不存在各种急性疾病(肺炎或其他急性呼吸系统疾病、各种肿瘤状况等);与其相关的特征(例如,癌症分期和分级);等等。快速发展的基因组学领域正在迅速添加到可用的患者特征的列表中,因为基因测序能够提供丰富的基因组标记,所述基因组标记与各种医学状况具有不同的已知或疑似的相关性。例如,一些医学数据库包含定义数几百个或更多个特征的数据,而基因组数据的可用性的持续扩展可能将患者的特征的数量增大到数千个。这样的大的特征空间对于选取针对临床任务的群组的“最佳”特征集合提出了重大挑战。已知许多无监督的(缩减的)特征集合选择技术。典型的自动特征选择技术测量特征的辨别力,并且选择最具辨别力的特征。一种这样的技术是主成分分析(pca),其选择特征以便捕获具有缩减数量的特征的数据集的方差。能够采用其他区别度量,诸如每个特征的信息增益(ig)或者各种成对特征相关性度量(例如,选择提供最高ig的特征,或者消除与其他特征强相关的特征)。尽管功能强大,但是无监督的自动特征集合选择技术当被用于选择识别患者群组的特征时具有显著的局限性。能够选择与临床任务不相关的高度辨别特征,而不是具有较低辨别力但是与医学任务相关的其他特征。无监督的特征集合选择技术也不能够考虑关于为什么特定特征应当是证明性的生理学基础。例如,考虑由于特定代谢途径的问题所导致的疑似临床状况。已知为该代谢途径的一部分的基因组标记在这种情况下可能是相关的,但是如果pca或另一无监督的特征选择技术的总体辨别力低,则其可能无法选择该基因组标记。原则上,这些问题可以通过由临床医师执行的手动特征选择来缓解,或者通过混合方法来缓解,在混合方法中,医师检查并调节由无监督的自动特征选择生成的初始特征集合(相关性反馈)。然而,在实践中,临床医师可能不能够依据特定特征而表达为什么患者被认为与感兴趣患者(在本文中被称为“查询患者”)相似或不相似。依据医师过去的经验和训练的总体情况,临床医师倾向于从整体上查看患者。因此,临床医师可以识别特定患者与查询患者相似或不相似,而不能够精确地表达哪些特征有效地囊括了相似性或不相似性。此外,让熟练的临床医师花费必要的时间来筛选数百个可用的候选特征以识别针对给定临床任务的证明性特征可能是不实际的。在本文中所公开的技术通过对使用自动选择的特征集合执行的自动聚类的检查,通过将无监督的特征选择与临床医师提供的患者水平的后续相关性反馈进行组合,来克服这些困难。在这些方法中,初始自动化的特征集合被用于执行无监督的自动化的患者聚类,以识别包括查询患者的患者聚类以及其他聚类。包含所述查询患者的聚类根据初始特征集合来定义相似患者的集合,而其他聚类对各种不太相似的患者进行分组。然后,临床医师检查这些聚类结果并且选择相似或不相似患者(相关性反馈)。然后,自动地调节所述特征集合以更好地符合这些临床医师选择,并且利用经调节的特征集来重复所述聚类。能够重复该过程,直到所述无监督的自动聚类产生对临床医师(至少基本上)满意的聚类。所述方法利用无监督的特征集合选择的功能来提供大的特征空间的初始近似遴选。使用由pca或另一无监督的特征选择过程生成的初始特征集合对患者进行聚类,以识别使用该初始特征集合测量到的与查询患者相对应的相似(或不相似)患者。向临床医师呈现一个或多个相似(或不相似)的样本患者,并且向临床医师提供用户界面,临床医师经由所述用户界面可以提供相关性反馈。例如,可以向临床医师呈现相似样本患者的集合{pc},其在初始聚类中被识别为与被诊断的患者(查询患者pq)相似。这些“相似”样本患者例如可以从所述聚类分配给查询患者pq的相同聚类中抽取,或者使用由初始特征集合定义的距离度量从具有最短距离|pq-pc|的聚类的子集中抽取。然后,临床医师能够使用排序标度1...5将患者排序为与查询患者pq相似或不相似,其中,1指示最相似,并且5指示最不相似。此后,执行特征集合调节以生成经调节的特征集合,所述经调节的特征集合与临床医师对所考虑的患者的相似性排序更紧密地对准。再次重复所述聚类,并且再次向临床医师呈现包含查询患者pq或者其一些子集的聚类以进行相似性排序。可以重复该过程,直到临床医师确信包含查询患者pq的聚类是用于执行手头的医学任务的适合的群组。有利地,这种用于相关性反馈的方法不需要临床医师评估特征空间的抽象水平的特征集合。相反,临床医师在比较和对比个体患者的更熟悉的环境中操作,从而临床医师能够利用医师的过去的经验和训练的总体来做出相关性反馈决策。优选地,用户界面使得临床医师能够查找所考虑的每个提出的相似患者pc的完整医学记录,以及查询患者pq的完整医学记录,以便使用与临床医师用于访问的相同的信息源进行相关性反馈评估。参考图1,患者群组识别设备包括具有显示部件和至少一个用户输入设备的计算机。例示性计算机包括两个计算机:服务器计算机10,其执行诸如特征选择或聚类的计算密集型操作;以及用户接口计算机12,诸如台式计算机、笔记本计算机、平板计算机等,其包括或可操作地连接显示部件14和至少一个用户输入部,所述用户输入部诸如是例示性键盘16和鼠标18(或者轨迹球、触控板、触摸屏或其他指示设备)。计算机10、12与患者数据库20通信,患者数据库20存储患者数据,所述患者数据包括针对所述患者数据库中的患者的特征的值。患者数据库20例如可以包括以下中的一项或多项:电子健康记录(ehr)、电子医学记录(emr)、图片存档和通信系统(pacs,用于放射学图像/数据)、心血管信息系统(cvis)、其各种组合等。各种部件10、12、20可以通过各种数据路径互连,诸如医院局域网(lan)、无线lan(wlan)、因特网、其各种组合等。计算机10、12被编程为实施各种过程。执行自动特征选择过程22以从被包含在患者数据库20中或者能从患者数据库20中包含的信息导出的可用特征的通常更大的集合中选择特征的缩减集合。特征选择过程22例如可以是主成分分析(pca)特征选择过程、信息增益(ig)特征排序过程、成对相关的特征移除过程等。自动特征选择过程22识别特征的集合24,通常选取具有高辨别力的特征。应当意识到,患者数据库20可以(明确地或隐含地,即,能根据其他存储的信息导出)存储针对每位患者的数十、数百或更多的特征。一些非限制性的例示性特征包括:人口统计学特征(患者年龄、性别、体重、种族等);指示存在或不存在慢性行为状况(吸烟、重度饮酒、消费各种娱乐性药物等)的特征;指示存在或不存在各种慢性临床状况(高血压、糖尿病、哮喘、心脏病等)的特征;指示存在或不存在各种急性疾病(肺炎或其他急性呼吸系统疾病、各种肿瘤状况等)的特征;条件特异性特征,诸如癌症分期、癌症分级;基因组特征,诸如特定基因的值,各种蛋白质表达水平或者其他遗传标记;等等。因此,生成患者数据集26,其中,针对特征的集合24中的特征,由从患者数据库20中抽取的值来注释或表示每位患者。聚类过程30执行无监督的学习以将患者数据集26中的患者分组到聚类的集合32中。通常,目标是识别与查询患者pq相似的患者的患者群组——因此,所述聚类的集合32包括:包含查询患者pq的聚类34(或者,换言之,聚类34是查询患者pq所属的由聚类过程30产生的聚类);以及由聚类过程生成的其他聚类36。所述聚类过程可以采用任何已知的聚类方法,诸如k均值聚类、基于连接性或分层的聚类、基于质心的聚类、期望最大化(em)聚类等。所述聚类使用依赖于特征的集合24的患者比较度量。对于两位患者pi和pj,在本文中使用简写符号|pi-pj|来写出比较这两位患者的患者比较度量的值。作为非限制性例示说明,所述患者比较度量可以是距离度量,其值对于更相似的患者而言更小。一些适合的距离度量是欧几里德距离:其中,n=1,...,n索引特征的集合24中的特征,fn,i和fn,j分别是针对患者pi和pj的第n个特征的值,并且wn是表达式(1)的欧几里德距离中的第n个特征的特征权重。作为另一范例,所述患者比较度量能够是欧几里德平方距离,其与表达式(1)相同,除了省略了平方根。替代距离度量,所述患者比较度量可以备选地是相似性度量,其值对于更相似的患者而言更大。这些仅仅是例示性的范例。通常,所述患者比较度量优选在功能上取决于特征的集合24,其中,个体特征的贡献由特征权重来控制(例如,表达式(1)的例示性欧几里德距离中的特征权重wn)。还预期采用不包括能调节的特征权重的患者比较度量。对于选取的聚类过程30,聚类结果32的特征取决于患者比较度量的细节,尤其是所述患者比较度量在功能上所依赖的特征的集合24,以及特征权重(如果是能调节的)。自动特征选择过程22基于对其辨别能力的评估来选择特征,但是该方法能够选取高度辨别特征而不是与手头的医学任务更强地相关的具有较低辨别力的特征,或者具有与手头的任务有关的一些生理基础的特征。在图1的例示性患者群组识别设备中,通过提供相关性反馈以改善患者比较度量来解决这些问题,例如,通过调节特征的集合24和/或特征权重。对此,例如在例示性实施例中的计算机12上实施图形用户接口(gui)过程40。gui过程40(在显示部件14上)呈现关于根据自动聚类与查询患者pq相似或不相似的一个或多个样本患者的信息。例如,所述样本患者可以是从包含查询患者pq的聚类34中(伪)随机选择的相似样本患者。备选地,可以从该聚类34中非随机地选择相似的样本患者,例如,选择最接近查询患者pq的患者,如通过患者比较度量所测量到的。额外地或备选地,例如可以随机地从其他聚类36中选择不相似样本患者,或者从其质心距离查询患者pq最远的其他聚类中选择不相似样本患者,如通过患者比较度量所测量到的。所述样本患者经由显示部件14被呈现给用户,要求临床医师提供比较一个或多个样本患者与查询患者的比较值。例如,可以要求临床医师以1-5的标度(或者1-10的标度,等等)对样本患者与查询患者的相似性进行排序。额外地或备选地,可以要求临床医师选择两个样本患者中的哪一个与查询患者最相似。应当注意,这样的方法不(至少不直接)要求临床医师评估特征水平的相似性,而是要求在患者水平进行评估。这利用了通常被训练以基于患者记录中的所有可用信息连同临床医师的教育和经验来分析患者的典型临床医师的力量。该方法避免要求医师执行特征水平分析,这不是临床医师的自然操作范畴。gui过程40经由至少一个用户输入设备16、18接收将一个或多个样本患者与查询患者进行比较的用户输入的比较值。这构成了“相关性反馈”。然后,患者比较度量调节过程42调节特征的集合24,和/或调节特征权重wn,以增大将一个或多个样本患者与查询患者pq进行比较的由患者比较度量计算的比较值与所述用户输入的比较值之间的一致性。在一种方法中,患者比较度量调节过程42执行特征集合调节迭代,所述迭代中的每次迭代如下地执行。在迭代的第一步骤中,通过向所述集合添加特征或者通过从所述集合中移除特征来调节特征的集合24,以产生特征的经调节的集合。然后,使用所述患者比较度量与所述候选的经调节的特征的集合来计算比较值,所述比较值将一个或多个样本患者与查询患者pq进行比较。基于所计算的比较值与所述用户输入的比较值的一致性是否分别增大或减小,来接受或拒绝候选的经调节的特征的集合。如果被拒绝,则舍弃候选的经调节的特征的集合。如果被接受,则候选的经调节的特征的集合变为特征的新的(即,经更新的)集合24。该过程能够重复固定次数,或者能够重复直到若干次连续迭代导致拒绝,或者能够使用一些其他停止标准。在另一种方法中,患者比较度量调节过程42执行特征权重调节迭代,所述迭代中的每次迭代如下地执行。在迭代的第一步骤中,通过增大或减小所述患者比较度量的至少一个特征权重的值来调节所述患者比较度量,以产生候选的经调节的患者比较度量。使用候选的经调节的患者比较度量来计算比较值,所述比较值将一个或多个样本患者与查询患者进行比较。基于所述比较值与用户输入的比较值的一致性是否分别增大或减小,来接受或拒绝所述候选的经调节的患者比较度量。如果被接受,则使用(一个或多个)新的特征权重;如果被拒绝,则将其舍弃。现在参考图2,描述了使用图1的患者群组识别设备执行的过程。在操作50中,执行特征选择过程22以选择特征的(初始)集合24。在操作52中,执行聚类过程30以生成(初始)聚类32。在操作54中,临床医师被呈现一个或多个相似和/或不相似样本患者,其中,使用患者比较度量相对于查询患者pq来测量相似性/不相似性。更具体地,呈现关于样本患者的信息,优选以对临床医师熟悉的方式制定的信息请求的形式,诸如将样本患者与查询患者的相似性进行排序,或者对于识别两个样本患者中的哪一个样本患者与查询患者最相似的请求。在操作56中,接收用户输入的比较值(例如,对样本患者的排序,或者对两个样本患者的集合中的更相似的样本患者的选择)。在操作60中,调节特征的集合24和/或特征权重wn以增大应用于样本患者的患者比较度量与用户输入的比较值的一致性。例如,如果用户将样本患者排序为与查询患者非常相似,则导致由(经调节的)患者比较度量测量到的较短的样本患者到查询患者距离的调节被接受,而增大该距离的调节被拒绝。在操作62中,利用经调节的患者比较度量来重复聚类过程30。然后,流程返回到操作54,通过操作54,根据经更新的聚类向临床医师呈现相似和/或不相似患者。该循环可以被重复任何次数,直到在操作64处,临床医师检查最新的聚类结果得出结论其是令人满意的。在下文中,公开了一些例示性方法,用于将操作60实施为从原始空间到新空间的自动映射,其中,根据临床专家(来自操作56)的相关特征表现出较小的距离。第一例示性方法使用降维方法,而第二例示性方法使用特征权重调节方法。在采用降维的第一例示性方法中,表示患者数据(v),其包含针对患者p={p1,...,pm}的特征f={f1,...,fn}。接下来,计算患者之间的距离以获得距离矩阵(sm;大小m×m;正方形,对称),并且使用经典多维尺度(mds)来获得该数据的较低维度投影。在例示性方法中,通过指定从2到(m-1)的维数并且针对每个较低维投影计算患者p1,...pm之间的成对(pairwise)欧几里德距离以获得距离矩阵d(2),...d(m-1)来执行mds分析。如果医生在操作56中认为特定患者(组或单独的对)预期更相似,则该组中的所有可能的对之间的成对距离被最小化。我们在{2,...(m-1)}中识别出该度量最小的k。使用矩阵表示法:以及其中,矩阵sm是对称的p≠q;p={1,...,m};q={1,...,m},并且mds函数取距离矩阵(大小m×m)和维数(l;l<m)。对于在{2,...(m-1)}范围内的l,计算m个点的成对距离以获得对称距离矩阵d(l)。基于医师反馈的相似患者的组被表示为g={g1,g2...},其中,gi是来自p的患者的集合。则有:以及其中,k是{2,...,(m-1)}中的整数,其表示将患者组放置在最接近的g中的最低维度。主成分分析(pca)或其他特征缩减算法被用于识别最重要的k个特征。这些k个特征被用于在操作62中对新的患者进行聚类。任选地,对医师通知组g进行划分以获得交叉验证并且防止过拟合问题。用于实施操作60的第二例示性方法通过调节这些特征的重要性的权重来表示新空间中的特征值。通过例示的方式,三个范例患者如下:患者p1具有特征值(3,2,4,7)患者p2具有特征值(3,3,3,3)患者p3具有特征值(4,3,3,7)在该表示法中,每位患者pi在列1至列4中具有值为(f1,f2,f3,f4)的特征。为了例示说明,假设以下距离:患者距离d(p1,p3)=3患者距离d(p1,p2)=6患者距离d(p2,p3)=5在初始聚类操作52中,使用曼哈顿距离,第一聚类包含患者p1和患者p3,并且患者p2在第二聚类中。然而,操作56中的医生指示患者p2和患者p3被视为更相似,可能是因为医生认为特征f2和f3更重要,并且因此,聚类被更新为p2和p3被分配给相同的聚类,而p1属于单独的聚类。新聚类的质心被计算为所述聚类中的特征值的平均值:pc=(3.5,3,3,5)。接下来,原始样本被映射到新空间,其中,两个样本到所述新空间中的质心的距离最小(可以预先指定或者可以由用户指定)。为了将坐标调节到所述新空间,原始坐标与针对每个特征的经调节的权重(新空间中的坐标)相乘。为了解决该问题,适合使用一组线性方程。然而,患者的数量n和特征的数量m通常不相同。因此,对于所选取的患者的数量p,其中,p<n,导出要被映射到所述新空间的一组最变化的特征。符号表示为:w1*f11+w2*f12+...+wp*f1p=d1w2*f21+w2*f22+...+wp*f2p=d2...wp*fp1+wp*fp2+...+wp*f2p=d2对此,计算针对所有特征的方差,并且选取前p个不同的特征。新矩阵具有维度p×p。针对该新矩阵,求解线性方程组以便找到适当的权重。一旦确定了权重,就将相同的权重应用于未被用户选择的患者——到新的空间上。在前述范例中,这将转化为:w1*3+w4*3=d1w1*4+w4*7=d2其中,假设w1和w4是权重,并且在列1和列4中的特征是变化最大的特征(针对患者p1和患者p2)。前述仅是例示性范例,并且还设想到了用于执行操作60的其他方法。还设想采用调节的组合,例如,执行降维(第一例示性方法),然后进行权重调节(第二例示性方法);或者反之亦然。参考图3,示出了显示部件14上的相似样本患者的例示性呈现(即,图2的操作54),针对的是例示性范例,其中,查询患者pq是患者“johnsmith”,并且由最后一次聚类迭代识别的两个相似样本患者是“bobbrown”和“mickeyred”。请求两个相关性反馈响应。第一个是以标度为1-5的“bobbrown”与“johnsmith”的相似性的请求的形式,其中,“1”最相似,而“5”最不相似或最不相似。临床医师能够使用鼠标指针来选择被标记为“1”至“5”的按钮中的一个,以便回答该请求。第二个请求是选择两个患者“bobbrown”和“mickeyred”中的哪一个与查询患者“johnsmith”最相似。临床医师能够通过使用鼠标指针选择“bobbrown”按钮或“mickeyred”按钮来回答该问题。为了有意义地回答这些请求,应当意识到,临床医师可能想要检查针对查询患者“johnsmith”以及针对每个样本患者“bobbrown”和“mickeyred”的医学记录或其他患者信息。对此,对这些患者中的一位患者的每个参考在图3的显示器中被示出为超链接(如通过强调患者姓名所指示的),并且显示器解释:“注意:您可以点击上面的任何患者姓名来在弹出窗口中查看患者医学记录”。因此,响应于临床医师使用鼠标指针点击“johnsmith”,出现弹出窗口(未示出),其中,优选利用适合的导航工具显示关于johnsmith的患者记录信息,以使临床医师能够浏览johnsmith的医学记录。类似地,如果鼠标点击出现的患者姓名“bobbrown”或“mickeyred”同样如此。这样的弹出显示可以包括患者特征信息,但是临床医师能够导航整个患者记录并且不被要求基于任何单个患者特征或小组患者特征来评估患者相似性。应当意识到,例如可以使用其他导航工具框架,而不是弹出窗口,可以在单独的显示部件上(如果可用;在图1中未示出)显示所述患者记录。参考图4,在其他实施例中,可以以其他方式显示关于样本患者的信息。例如,图4图示了一种可视化工具,其中,两个或更多个图形模态表示被同时显示在显示部件14上。图4的例示性范例包括三个同时显示的图形模态表示:一个用于基因组模态的图形模态表示70;一个用于放射学模态的图形模态表示72;以及一个用于临床模态的图形模态表示74。每个图形模态表示70、72、74针对模态的两个或更多个特征来绘制瀑布图(waterfallplot)中的一个或多个样本患者和查询患者(在例示性图4中,两个样本患者bobbrown和mickeyred以及查询患者johnsmith)。在例示性的图2中,基因组学模态表示70针对er、her2和pr基因组标记特征来绘制所述患者。放射学模态表示72针对纹理(粗糙度)、体积和形态学图像特征来绘制患者。临床模态表示74用于肿瘤学分期模态并且针对肿瘤大小(t)、淋巴结状态(n)和转移值(m)肿瘤特征来绘制患者。从图4中,临床医师能够容易地观察到,针对所表示的特征,与样本患者mickeyred相比,样本患者bobbrown看起来与查询患者johnsmith更相似。参考图5,注意到,图4的视觉表示更普遍适用,并且能够被用于导航患者数据库20以通过交互式图形可视化来识别患者群组。在图5的例示性范例中,再次显示图4的相同基因组学、放射学和临床模态表示70、72、74。在基因组学模态表示70中,gui过程40(参见图1)已经接收了对患者聚类的选择(通过合适的选择方法任意指定为患者{1,2,4,8},诸如个体地点击聚类中的每位患者,或者在例示性范例中,通过经由至少一个用户输入设备(例如,鼠标18,或轨迹球、触控板、触摸屏或其他指示设备)接收患者聚类{1,2,4,8}的包围圈80)。在其他同时显示的模态图形表示72、74的每个中,响应于选择80,所选择的患者聚类{1,2,4,8}中的患者也被突出显示。在例示性图5中,通过移除所有其他患者的显示而在其他模态图形表示72、74中完成该突出显示,以便仅显示患者1、2、4和8。所述突出显示能够使用其他方法,诸如以红色显示选择的聚类的患者并且继续以黑色显示所有其他患者。如在图5中看到的,患者1、4和8也在放射学图形表示72中很好地聚类,而患者2在该模态视图中是离群值。在临床模态图形表示74中,仅患者1和8聚类在一起,而患者2和4是离群值。基于这些结果,临床医师可能能够得出各种结论。例如,如果查询患者是患者1,则可以确定患者8是与查询患者1最接近的患者(因为患者8在所有三个视图中都接近患者1),而患者2被示为是最不相似的。在另一视图中,临床医师可以决定通过更新两个或更多个坐标特征来尝试改变表示72、74中的一个或多个——作为响应,gui过程40重新绘制经更新的图形模态表示以针对模态的经更新的两个或更多个坐标的特征来绘制患者。尽管图4和图5图示了针对基因组学、放射学和临床模态的可视化范例,但是各种图形模态表示可以更一般地包括诸如临床学、放射学、基因组学、人口统计学和/或生理学模态的模态。通常,用户可以从调色板或可用模态列表中选择要显示哪些模态,并且能够进一步选择要绘制的每种模态的哪些特征。在下文中,描述了由图1的gui过程40使用两个或更多个图形模态表示(诸如图4和图5的表示70、72、74)适当地执行的更详细的例示性视觉表示和导航过程。所述方法从选择查询患者开始,例如,经由搜索姓名或电子医学记录(emr)号码。可以显示针对该患者的基本信息,诸如姓名、年龄、主治医师、疾病等。显示包含图形模态表示70、72、74的用户工作空间。在图4和图5的例示性范例中,每个模态表示被呈现为圆圈,其中,相对于其绘制患者的模态特征以相等的间隔围绕该圆圈放置(诸如在基因组学模态的情况下存在与特定疾病相关联的生物标志物)。其他患者被自动地整合到该可视化中,从任何可用的群组中抽取出(例如,使用图1的患者群组识别设备生成)以填充该圆圈。这使感兴趣患者处于更大患者群体的背景中。默认情况下,同时显示所有模态,但是每个模式都能够被放大以个体地检查。能够选择沿着圆圈的周边放置的特征(即,相对于其绘制的特征)。随后,跨所有可用模态突出显示与赋值的患者相关联的任何值。能够对这些选择的患者进行后续分析。任选地,在用户选择患者时,在屏幕上显示统计学概要,其突出显示所选择的患者的显著特性。随着对患者的选择的更新,该概要被动态地更新。能够基于变量的性质:离散的或连续的,来描述所述概要的内容。鉴于大量可用的人口统计学、病理学、临床和基因组特征(例如,在一些患者数据库中为200或更多),提供了支持对诸如生物标记、签名、预后评分等特征以及群组样本的选择的导航工具,用于有效汇总和可视化与特定感兴趣上下文相关的数据。任选地,gui工具还允许临床医师定义和保存定制的选择,并且容易地从一个上下文切换至另一上下文。在图5的例示性范例中,临床医师在数据库或所选群组中的其他患者的上下文中检查所选患者的基因组图形视图70中的er、her2和pr受体状态,并且具有检查其他模态图形视图72、74中的相同患者的灵活性。临床医师能够例如使用包围圈80从基因组视图中选择/突出显示感兴趣患者子集,并且这些患者在其他视图72、74中突出显示。因此,例如,在临床(癌症分期)图形视图74中观察所选患者{1,2,4,8}的t、n、m分期,以便评估所选患者的t(肿瘤大小)、n(结节状态)和m(转移状态)分布的分布。(应当意识到,如果所选患者的数量大于四个所选患者的例示性范例,则将可能获得更明确定义的分布)。类似地,在成像图形视图72中,示出了mri特征,例如体积、洗入、洗出特性、纹理和形态特征。临床医师可以选择其他模态视图(未示出)。以这种方式,临床医师能够交互地测试针对不同模态之间的所选患者组的一种模态中的特征或特征组的关联性。作为另外的范例,更详细地描述了基因组图形视图70。基因组层被显示在圆圈上,如在图5所看到的,其中,具体示出了适合于评估乳腺癌的任务的范例。对于该任务,感兴趣特征包括er、pr和her2活性水平,其已经证明了针对乳腺肿瘤诊断和预后的临床效用。(自然,将选择其他显著的基因组特征来针对其他任务进行绘图)。当临床医师打开应用程序时,其将显示感兴趣患者(查询患者)连同所选群组中的其他患者(例如,使用图1的群组识别设备生成)。在例示性图5中,示出了三个瀑布图(以降序绘制的条),每个图表示er/pr/her2活动中的一个,跨基因组学圆圈70均匀地放置。在一种导航方法中,自动地选择查询患者以突出显示查询患者的圆圈上每个生物标记物相对于群体的其余患者的活动水平。线(未示出)任选从表示患者的这三个条绘制到圆圈的中心中的区域,其中,根据群组的er/pr/her2数据计算的机器学习算法(诸如主成分分析)已经被适当地可视化。线被精确地绘制到感兴趣患者相对于该群组的位置。从该总体可视化中,选择具有相似er/pr/her2表达水平的额外的患者,例如,使用包围圈80。在机器学习空间中选择的任何额外的患者将具有绘制到围绕该圆圈的其各自的er/pr/her2活动水平的线。还可以为所选择的组(例如,图5中的组{1,2,4,8})提供统计学概要。对于诸如年龄和基因的表达值的连续变量,可以计算所选择的组的平均值。对于诸如性别和er状态的离散变量,可以执行使用诸如超几何测试的测试的富集分析,并且以p值的降序对属性进行排序。表1中示出了针对乳腺癌数据集的选定患者的典型概要。表1-乳腺癌数据集的选定患者的概要平均年龄46p53的平均表达值2.3fpkm显性性别女性(p-值0.001)显性er状态正(p-值0.003)显性pr状态负(p-值0.005)显性her2状态正(p-值0.007)显性乳腺癌亚型基准(p-值0.009)在该表中,fpkm(每百万个读数的外显子的每千碱基的片段被映射)表示基于rna测序数据的p53基因的表达值。大量的这些变量对于乳腺癌诊断的例示性任务是特异性的,并且统计学概要元素适当地以针对每种疾病或临床任务的概要格式来预先描述。图4和图5的图形可视化和导航工具是例示性范例。除了例示性圆形几何形状之外,还能够采用其他几何形状。圆形几何形状的优点是其易于被更新为要相对其绘制的合理数量的模态特征(即,能够舒适地拟合在圆圈周围的任何数量的特征);然而,例如,方形几何结构仅适用于针对两种模态特征进行绘制。还设想在一个图形模态表示中选择患者的聚类的操作可以由除了操作(一个或多个)用户输入设备16、18的临床医师之外的实体/机构来执行(例如,以进行包围选择80,如在图5中)。例如,在图4的例示性范例中,在计算机10、12上执行的另一个程序,例如,聚类过程30,选择患者聚类,作为查询患者以及一组一个或多个样本患者(在例示性图4中,样本患者bobbrown和mickeyred以及查询患者johnsmith)。返回参考图1和图2,使用患者水平的相关性反馈的患者群组识别的另一例示性实施方式在下文中以文本方式描述,并且包括以下步骤:步骤1.使用对所有患者的分层聚类以及在大数据集上的选择的患者特征(在一些实施例中大于一百万个样本)进行无监督的学习。步骤2.确定聚类的数量并且计算聚类质心。步骤3.基于所有特征选取包含查询患者pq的聚类,并且从同一聚类中选择额外的种子。步骤4.针对每个种子,基于使用患者比较度量所测得的该患者与所有不同聚类质心的距离来找到最相似的患者。步骤5.基于相似患者(例如,属于单个聚类的患者)的优先列表,来选择样本以及与当前样本相似的样本。步骤6.通过一次移除一个特征来确定哪些特征使患者的这种相似性变得重要。步骤7.使用患者比较指标找到当前患者与所有选定患者之间的距离。步骤8.找到中位数接近0的列。舍弃具有高数值的列。步骤9.基于所选的特征,对整个数据集执行无监督的聚类——仅使用所选定的聚类。步骤10.最后呈现原始查询患者pq的聚类中的患者,或者大多数选定患者出现的位置。最后,迭代地重复上述步骤1-10,直到该组样本全部与临床医师相关。已经参考优选实施例描述了本发明。在阅读和理解前面的详细描述时,他人可能会想到修改和变更。本发明旨在被解释为包括所有这些修改和变化,只要其落入所附权利要求或者其等同物的范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1