经由样本跟踪链进行样本跟踪、系统和方法与流程

文档序号:18706148发布日期:2019-09-17 23:44阅读:365来源:国知局
经由样本跟踪链进行样本跟踪、系统和方法与流程

根据35usc119,本申请要求于2016年9月20日提交的美国临时专利申请序列号62/396,986的优先权,其内容通过引用整体并入本文。

本发明的领域是数字状态跟踪技术。



背景技术:

背景技术描述包括可用于理解本文描述的系统和方法的信息。这不是承认在此提供的任何信息是现有技术,或者具体或隐含地引用的任何出版物是现有技术。

许多医学治疗,尤其是肿瘤治疗需要分析取自患者的一种或更多种生物样本。通常,这些样本是外在标记的以用于跟踪或识别目的。例如,容器中的样本可能具有贴附在其容器上的条形码或患者标识符标签。当样本通过工作流程被处理时,技术人员可以扫描这些标签以确保样本在整个分析工作流程或其完整的生命周期中正确地以其方式工作。不幸的是,即使在今天的计算机驱动环境中,生物样本跟踪也充满了问题;其中许多是由于计算环境的性质而产生的。一个问题是标签是外在生成的,这为工人意外地或由于不正确的数据输入而在样本上放置错误的标签创造了机会。另一个问题是通过分析所生成的数据仅存储在只能经由外在信息(例如条形码、标签、患者姓名等)可访问的数据库中,而没有用于确认检索到的数据实际上与目标生物样本相关联的内置机制。

考虑应用于跟踪生物样本的以下努力。schutze等人在2003年11月20日在国际上提交的题为“sampleholderforareceptiondevicereceivingbiologicalobjectsandmicroscopesystemdesignedtooperateusingonesuchsampleholder”的美国专利8,431,078描述了一种试图通过显微切割装置确保样本的明确识别的系统。schutze系统要求样本架(holder)具有可以用于在显示器上向用户呈现选择功能的编码。虽然以适合于样本的方式控制显微切割装置是有用的,但是所公开的系统不能提供通过分析的整个生命周期跟踪生物样本以及创建内在审计(audit)追踪的见解。此外,如果样本架的编码被错误标记,则可能向技术人员呈现不正确的功能。

delatorre-bueno在2002年11月13日提交的题为“systemfortrackingbiologicalsamples”的美国专利8,676,509进一步取得了进展。delatorre-bueno寻求提供从收集到存储的样本的实时跟踪。样本与唯一条形码标识符相关联,该标识符链接到各种工作站处的处理步骤。这种方法有助于减少关于管理载玻片(slide)的可能的处理错误。然而,该系统仍然需要人类进行显着的交互以首先标记样本。同样,如果条形码在任何时候被不正确地使用,则载玻片可能会被错误管理。更进一步地,条形码标签可能随着时间的推移而劣化,从而降低了它们在长期研究中使用的效用。

另一个示例包括lefebvre在2014年5月28日提交的“automatedsystemandmethodofprocessingbiologicalspecimens”的美国专利9,354,147。lefebvre专注于将样品载玻片传送到成像单元和从成像单元传送样品载玻片的自动系统。此外,lefebvre指出载玻片以及系统中的其他项目可以用机器可理解的代码(例如,rfid、条形码等)来识别。同样,这种系统作为跟踪系统元件被认为是有用。但是,这些标签或代码可能会随着时间的推移而受损,从而导致它们不那么有用或代码;并且再一次,这些标签或代码可能会被错误处理。

进一步的努力仍然已经针对将患者信息与样本标识符信息以高水平绑定。例如,mattingly等人在2007年6月13日提交的题为“laboratoryinstrumentationinformationmanagementandcontrolnetwork”的美国专利申请公开us2008/0235055讨论了从患者的病例标识符和样品标识符形成协调的样品标识符。协调的样品标识符表示以定义的格式(可能是分层格式)布置的标识符的组合,其中各种标识符有助于在工作流程中的不同点处跟踪样品。然而,mattingly的协调的样品标识符也不能提供随时间推移的稳健性,并且缺乏对样品的内容物(content)的特定内在结合。因此,mattingly方法仍然仅依赖于样本外部的外在信息。

有趣的是,还存在经由模式识别算法对生物样本进行数字处理的额外努力。例如,lloyd等人在2013年1月18日在国际上提交的题为“histologyrecognitiontoautomaticallyscoreandquantifycancergradesandindividualuserdigitalwholehistologicalimagedevice”的美国专利申请公开2015/0003716讨论了基于成像细胞的特征进行癌细胞分类。不幸的是,lloyd也不能提供如何结合样品或载玻片内容物以创建稳健的跟踪系统的见解。

以相似的方式,kallioniemi等人的题为“methodandsystemforprocessingregionsofinterestforobjectscomprisingbiologicalmaterial”的国际专利申请公开wo02/48680也使用模式来处理生物样本。kallioniemi描述了使用生物样本内的参考点来找到感兴趣的区域。kallioniemi也缺乏对能够通过完整的分析生命周期跟踪样本或将载玻片内容物结合到跟踪信息的稳健跟踪系统的任何见解。

实现区块链技术的传统技术可能是计算密集的,从而导致显着的延迟并且依赖于专用硬件来进行计算。为了解决这些问题,诸如微软的机密联盟(microsoft’sconfidentialconsortium,coco)等的技术正在开发中,其目的是使基于区块链的系统更快,并提供对数据隐私的改进。

企业区块链方法包括开放链(www.openchain.org)和以太坊,它们是开源分布式账本技术平台。企业区块链解决方案旨在以稳健、可扩展和安全的方式管理数字数据,其中能力超越了加密货币的管理。

被设计为在可信执行环境中操作的其他方法包括因特尔的锯齿湖(intel’ssawtoothlake)(参见urlintelledger.github.io/0.7/introduction.html)。锯齿湖是一种分布式账本平台,使用一个或更多个交易系列实现数据模型和交易语言。与其他区块链方法不同,不需要专门的硬件,并且模拟表明这种方法可以扩展到数千个客户端。

在更理想的设置中,经由比仅用外在代码标记样本更可靠的技术来跟踪生物样本。因此,仍然需要新的系统或方法,通过该系统或方法,可以基于生物样本的内在特征而不是依赖于外在代码或信息在整个分析生命周期中跟踪生物样本。

本文中识别的所有出版物通过引用被并入,其程度如同每个单独的出版物或专利申请被具体和单独地指出为通过引用被并入。如果并入的引用中术语的定义或使用与本文提供的该术语的定义不一致或相反,则适用本文提供的该术语的定义,并且该术语在该引用中的定义不适用。

在一些实施例中,用于描述和要求保护本文描述的主题的某些实施例的表示组成部分、属性(诸如浓度)、反应条件等的量的数字应理解为在某些情况下通过术语“大约”修饰。因此,在一些实施例中,书面描述和所附权利要求书中阐述的数值参数是近似值,其可以根据由寻求由特定实施例获得的所需属性而变化。在一些实施例中,数值参数应根据报告的有效数字的数字并通过应用普通的舍入技术来解释。尽管阐述本文描述的主题的一些实施例的广泛范围的数值范围和参数是近似值,但是具体示例中阐述的数值在可行的范围内尽可能精确地报告。在本文描述的主题的一些实施例中呈现的数值可能包含由在其各自的测试测量值中发现的标准偏差必然导致的某些误差。

除非上下文指示相反的情况,否则本文阐述的所有范围应解释为包括其端点,并且开放式范围应解释为仅包括商业实用值。同样,除非上下文指示相反的情况,否则应将所有值的列表视为包括中间值。

如本文的描述和随附权利要求中所使用的,除非上下文另有明确规定,否则“一”、“一个”和“该/所述”的含义包括复数引用。此外,如本文的描述中所使用的,除非上下文另有明确规定,否则“在...中”的含义包括“在...中”和“在......上”。

本文中对数值范围的引用仅旨在用作单独提及落入该范围内的每个单独值的简写方法。除非本文另有说明,否则每个单独的值被并入说明书中,如同其在本文中单独引用一样。除非本文另有说明或以其他方式上下文明显矛盾,否则本文描述的所有方法均可以以任何合适的顺序执行。关于本文的某些实施例所提供的任何和所有示例或示例性语言(例如,“诸如”)的使用仅旨在更好地说明本文描述的主题,而不是对本文描述的以其他方式要求保护的主题的范围进行限制。说明书中的语言不应被解释为指示对于本文描述的主题的实践必不可少的任何未要求保护的元素。

本文公开的本文描述的主题的替代元素或实施例的分组不应解释为限制。每个组成员可以单独地或与组中的其他成员或本文中找到的其他元素进行任何组合而被提及和要求保护。出于方便和/或可专利性的原因,可以将组的一个或更多个成员包括在组中或从组中删除。当发生任何这样的包含或删除时,本说明书在此被认为包含经修改的组,从而实现所附权利要求中使用的所有马库什(markush)组的书面描述。



技术实现要素:

本文描述的主题提供了装置、系统、计算机可读介质或方法,其中可以通过生成样本状态的数字链(例如,区块链等),基于生物样本的观察的内在属性通过工作流程来电子跟踪生物样本。本文描述的主题的一个方面包括一种生物样本跟踪系统,其包括样本数据库、样本跟踪引擎以及可能的样本搜索引擎。样本数据库是被配置为在非暂时性计算机可读存储器上存储样本跟踪链(即,贯穿样本的生命周期的生物样本状态链)的计算设备。在典型实施例中,样本跟踪链包括链接的状态数字对象链,可能形成单个审计追踪,其中每个状态对象被实例化以表示在其生命周期的时间点处的目标生物样本。样本跟踪引擎还使用可能经由计算机网络或经由内部通信总线与样本数据库耦合的计算设备(例如,服务器、工作站、蜂窝电话、云设备等)来实现。样本跟踪引擎包括至少一个处理器和存储软件指令的计算机可读非暂时性存储器。在由处理器执行软件指令时,样本跟踪引擎可配置为处理目标生物样本的一个或更多个观察的状态。样本跟踪引擎获得对样本数据库中的至少一个样本跟踪链的访问权,其中样本跟踪链与目标生物样本有关。样本跟踪引擎还从样本跟踪链中检索至少一个先前的样本状态对象,例如来自先前的样本状态的块数据。样本跟踪引擎通过产生表示观察的状态的当前状态来继续,该观察的状态包括目标生物样本的内在属性或特征;包括例如整个载玻片图像、样本的显微切割图像、密度测量值或其他数字数据中的一个或更多个。使用先前的跟踪状态对象和当前状态,样本跟踪引擎实例化或以其他方式导出当前样本状态对象;新的数据块。样本跟踪引擎还将当前样本状态对象链接到样本跟踪链中的先前的样本状态对象。例如,先前的样本状态对象可以包括与先前的样本状态相关联的数据的散列摘要。先前的散列摘要可以与来自当前状态的数据连接(concatenate)以生成当前散列摘要,因此当前散列摘要依赖于先前的散列摘要,从而经由其散列值将当前样本状态对象链接到先前的样本状态对象。在一些实施例中,样本跟踪链包括可以被视为特定于样本的审计追踪的区块链。样本跟踪引擎还能够更新样本数据库中的样本跟踪链,使得样本跟踪链包括当前样本状态对象。

在其他方面,可以使用静态数据生成散列摘要,静态数据包括社会安全号码、出生日期、外部公证数据、或不根据时间变化的其他识别信息。在一些方面,可以存储来自静态数据的散列摘要以用于与相同静态数据的后续散列进行比较。这可以有利地提供静态数据未被破坏或修改的附加验证。在创世块由静态数据组成的情况下,这可以提供整个创世块的确认。

从以下优选实施例的详细描述以及附图中,本文描述的主题的各种目的、特征、方面和优点将变得更加明显,附图中相同的数字表示相同的部件。

附图说明

图1是根据本文公开的技术的实施例的生物样本生命周期的概述。

图2示出了根据本文公开的技术的实施例的利用样本的内在信息的生物样本跟踪系统的示例实施例。

图3呈现了根据本文公开的技术的实施例的作为数据结构的样本跟踪链的示例示意图,其中链包括内在样本状态信息的块。

图4表示根据本文公开的技术的实施例的经由创建或以其他方式管理样本跟踪链来跟踪生物样本的方法。

图5呈现了根据本文公开的技术的实施例的在显微切割之前和之后在载玻片上制备的肿瘤组织样品的真实示例图像。

具体实施方式

应当注意,应该读取针对计算机的任何语言以包括计算设备的任何合适的组合,该计算设备包括服务器、接口、系统、数据库、代理、对等体、引擎、控制器、模块、或单独或共同操作的其他类型的计算设备。应当理解,计算设备包括至少一个处理器,该处理器被配置为执行计算机程序产品,该计算机程序产品包括存储在有形的非暂时性计算机可读存储介质(例如,硬盘驱动器、fpga、pla、固态驱动器、ram、闪存、rom等)上的软件指令。软件指令配置或编程计算设备以提供角色、职责或其他功能,如下面关于所公开的装置所讨论的。此外,所公开的技术可以体现为计算机程序产品,其包括存储软件指令的非暂时性计算机可读介质,该软件指令致使处理器执行与基于计算机的算法、过程、方法或其他指令的实施方式相关联的所公开的步骤。在一些实施例中,各种服务器、系统、数据库或接口使用标准化协议或算法交换数据,标准化协议或算法可能基于http、https、tcp/ip、upd/ip、aes、公钥-私钥交换、web服务api、已知金融交易协议或其他电子信息交换方法。设备之间的数据交换可以通过分组交换网络、因特网、lan、wan、vpn或其他类型的分组交换网络;电路交换网络;蜂窝交换网络;或其他类型的网络进行。

如在本文的描述中以及随附权利要求中所使用的,当系统、引擎、服务器、设备、模块或其他计算元件被描述为被配置为对存储器中的数据进行或执行功能时,“被配置为”或“被编程为”的含义被定义为计算元件的一个或更多个处理器或核由存储在计算元件的存储器中的一组软件指令编程,以对存储在存储器中的目标数据或数据对象执行一组功能。应理解,“被配置为”或“被编程为”(或相似语言)的使用不应被解释为援引35usc112(f)下的解释。

应当理解,所公开的技术提供许多有利的技术效果,包括提供对生物样本数据的低延迟访问,同时还提供用于确认/验证相对于物理样本的样本跟踪变化中的数据的技术。因此,本技术提供了一种方法,其中极大地提高了数据的有效性,并且特别是与对象相对应的数据,该对象可以根据时间在外观上改变。例如,其他优点包括预测能力,诸如在处理步骤已发生之后预测样本的一个或更多个特性的能力。本文呈现的技术的其他优点包括能够将样本跟踪链回溯到先前的状态,例如从t3到t2,从t2到t1,从t1到t0,以便重建样本在先前的状态处看起来的样子。通过使用存储在存储器中的样本跟踪链数据结构,关于样本的内在信息(例如,大小、形状、纹理、特征等)可以用作直接访问样本信息的索引,而不需要外在信息(例如,条形码、rfid等)。此外,样本的内在特征可以用于确认样本的当前状态实际上是相对于相同样本的先前状态的样本的有效状态。

本文描述的所公开的主题的焦点是使得计算设备的构造或配置能够以超出人类能力方式的对生物样本数据的形式的大量数字数据进行操作。尽管数字数据表示生物样本或样本状态,但应当理解,数字数据是观察的样本的一个或更多个数字模型的表示,而不是样本本身。通过从(一个或更多个)计算设备的存储器中的样本的内在特征实例化这些数字模型,在这种情况下,样本跟踪链、(一个或更多个)计算设备能够以向计算设备的用户提供实用程序(utility)的方式管理数字数据或模型,在没有这样的工具的情况下,用户将缺少该实用程序。

以下讨论提供了本文描述的主题的许多示例实施例。尽管每个实施例表示发明元件的单个组合,但是本文描述的主题被认为包括所公开元件的所有可能组合。因此,如果一个实施例包括元件a、b和c,并且第二实施例包括元件b和d,那么本文描述的主题也被认为包括a、b、c或d的其他剩余组合,即使不是明确公开的。

如本文所使用的,并且除非上下文另有指示,否则术语“耦合到”旨在包括直接耦合(其中彼此信息耦合的两个元件彼此接触)和间接耦合(其中至少一个附加元件位于两个元件之间)。因此,术语“耦合到”和“与……耦合”同义使用。

图1呈现了示例样本工作流程环境100,其中采用了本文描述的主题。从流过分析工作流程的生物样本120a(例如,肿瘤样本、正常组织等)的角度呈现环境100,其中目的是产生用于生物分析(例如,质谱、全基因组测序、全外显子组测序、转录组测序(rna-seq)等)的一个或更多个显微切割样本。生物样本120a表示从患者110提取的组织样本;例如,肿瘤组织。尽管以下讨论从生物样本120a是肿瘤组织样本的角度呈现本文描述的主题,但应当理解,所公开的技术可以适用于其他类型的生物样本,包括从患者110获得的唾液、尿液、血液、粪便、皮肤、头发或其他样品。此外,患者110呈现为人。然而,患者110通常也可以是其他形式的哺乳动物或甚至其他动物。因此,所公开的技术在除人类医疗保健之外的其他市场中具有价值,其他市场包括兽医科学、畜牧业、环境研究、土壤样本、宝石切割、跟踪机器部件生产、艺术修复、地质研究、临床试验、长期纵向研究或其他需要随时间严格跟踪样本或样品的领域。例如,所公开的技术可以用于创建基于区块链的审计追踪。

可以使用已知技术或尚待发明的技术从患者110获得生物样本120a。通常,生物样本120a将以某种方式(例如,条形码、快速响应(qr)码、射频识别(rfid)等)利用外在信息进行标记或编码。例如,可以将生物样本120a放入生物安全容器中,qr码贴附到该生物安全容器。qr码可以用特定于患者的信息来编码,该信息包括患者姓名、患者标识符、时间戳或其他外在信息。更有趣的是,生物样本120a的性质,或者说生物样本120a的内在属性或特征,也可以用于识别和跟踪样本。例如,样本的以下内在属性中的一个或多个可以被编码到样品的标签中:大小、形状、颜色、质量、重量、密度、长度、宽度、体积、组织类型、细胞系、基因组序列、获得样本的位置、获得样本的日期、放置样本的容器的外观、样本的外观或关于一个或更多个样品的其他内在信息。如下所述,内在信息(尤其是样本状态信息)可以用于索引关于样本数据库内的生物样本120a的信息。

继续图1中的示例,考虑工作流程中的下一阶段,其中生物样本120a被转变到新状态,该新状态采取设置在一个或更多个载玻片上的多个组织切片的形式,如生物样本120b所表示的。需要明白,应该理解的是,在示例的该阶段,原始样品可能已经被转变成放置在载玻片上,但还未如所指示那样染色的多个不同的样品。在这样的转变之后,每个生物样本120b将具有其自身的内在属性或者可以具有共享的、类似的内在属性。例如,载玻片上的每个切片将具有其自己独特的特定内在形状或纹理,而切片整体可能具有类似的整体形状,尤其如果载玻片是来自样品的相邻切片。可以数字地量化这些内在属性中的一个或更多个以创建数字签名(即,内在特征),所述数字签名被用于单独地或共同地识别或跟踪样品。这些新创建的数字签名还可以用于索引关于生物样本120b的信息以及用于样品的当前状态的数字表示。更具体地,数字签名可以包括形状描述符(例如,圆形度、边缘等)、图像描述符(例如,sift、daisy等)、或样本的其他类型的数字特征。这些数字特征也称为内在特征或属性。此外,如下面参考图2更详细地讨论的,数字签名以及其他期望的信息可以被链接到先前的状态信息,从而形成样本状态链。

工作流程100中的下一阶段包括样品的另一个转变,其中使用一种或更多种染色剂对每个组织切片进行染色,从而形成生物样本120c。应当理解,在该具体示例中,物理样品是来自生物样本120b的相同样品。然而,生物样本120c表示物理样品的新状态。单个染色的载玻片可能被不同地染色以便突出样本的不同或各种结构。例如,一个载玻片可以用甲苯胺蓝染色以突出细胞结构,苏木精可以用于识别核酸,瑞氏(wright)染色可以用于识别血细胞,或者可以使用其他类型的染色剂。在该阶段,存在许多可能的内在属性,其可以从观察到的生物样本120c的状态导出。内在属性的示例包括细胞聚类、核密度或计数、颜色通道描述符(例如,红绿蓝(rgb)、色调(hue)饱和度值(hsv)、波长等),其可以取决于染色、形状、细胞边界、组织边界、或在染色后可能更明显的其他类型的内在属性。再次,正如上面所讨论的,表示内在属性的数字特征可以用于索引样本信息以及识别该特定状态。另外,同样如上面所讨论的,关于观察到的状态和数字特征的信息可以被链接到生物样本120b的先前的状态信息。

在一些实施例中,生物样本120c可以由一个或更多个技术专家检查以识别生物样本120c内的感兴趣区域。例如,在生物样本120c表示放置在载玻片上的肿瘤组织样本的情况下,病理学家可以审查每个载玻片以将细胞标记为癌性。病理学家可以识别感兴趣区域、显微切割掩模(microdissectionmask)或其他感兴趣点周围的边界。

工作流程100中所示的下一阶段包括生物样本120d,其可能经由激光捕获显微切割(lcm;参见ringeisen等人在2004年6月4日提交的题为“biologicallaserprinterfortissuemicrodissectionviaindirectphoton-biomaterialinteraction”的美国专利7,381,440)表示生物样本120c的显微切割版本。在该阶段,如图所示的示例工作流程100分成至少两个并行路径。在一个路径中,将从显微切割过程获得的捕获的细胞130送去进一步分析。例如,可以处理捕获的细胞130用于全基因组测序、rna测序、蛋白质组学分析、全外显子组测序或其他类型的分析。在一些实施例中,经由liquidsrm测定来处理显微切割的细胞,该测定诸如由expressionpathology提供的那些(参见urlwww.expressionpathology.com)或如darfler等人在2004年3月10日提交的题为“liquidtissuepreparationfromhistopathologicallyprocessedbiologicalsamples,tissuesandcells”的美国专利7,473,532中描述的。

在一些方面,可以制备导向器(director)载玻片作为模板,用于在其他载玻片(例如厚切片显微切割载玻片)中引导激光切割。可以基于本领域已知的技术制备导向器载玻片(参见例如urlwww.expressionpathology.com/director_microdissection.shtml)。导向器载玻片利用能量转移涂层,其被粘合到玻璃支撑件。将组织部分(例如,薄组织切片)放在能量涂层的顶部上,并且uv脉冲使能量涂层蒸发以将细胞推进收集管中,从而允许精确的激光切割和细胞的收集。

在通过显微切割处理多个载玻片的情况下,导向器载玻片可以用作处理后续载玻片(例如,厚切片)的模板。对于从患者获得的组织,可以对组织进行冷冻和切片,使得异常细胞相对于组织的特定空间位置被分布在多个切片中。通过使用导向器载玻片,技术人员可以确保导向器载玻片中靶向的区域还被靶向用于在随后的载玻片(相邻的组织切片)中的切割,有助于确保收集和处理分布在多个载玻片上的来自样本的特定区域的细胞。

一旦正确地制备,制备物(preparation)被通过质谱仪140以产生一个或更多个质谱145。应当理解,沿着工作流程100路径的每个步骤、阶段或状态也可以经由一个或更多个传感器(例如,数码相机、显微镜、探针、质谱仪等)观察到,以产生样本的相应状态的内在属性或特征。因此,甚至路径的最终结果(质谱145)也被认为是捕获的细胞130的内在属性以及生物样本120d的内在属性。

在显微切割后,在第二路径之后,生物样本120c的数字观察状态可以包括感兴趣的内在属性。作为一个示例,考虑样本120d中的显微切割后留下的孔。可以对每个孔进行数字表征以产生(在处理(例如,切割)之后)表示对应于生物样本的状态的数字特征120d。如在先前的阶段中,从生物样本120c导出的数字特征(例如,形状描述符、孔形状、孔布置等)可以用于索引关于样品的信息或识别样品。这些功能也可以用于链接回先前的状态。

最后,在所示的示例中,在工作流程100中实现最终状态。在这种情况下,样本的最终版本被存储在存储设施150中。存储位置信息也可以被链接回先前的状态,从而形成完整的生命周期样本跟踪链或区块链审计追踪。应该进一步理解,存储之外的附加阶段也可以存在,并且可以与样本跟踪链的先前状态相联系。例如,人可以从存储设施150检索样本以便进行进一步的审查。如果是这样,则可以在下面描述的样本跟踪链内记录和登记事件的一个或更多个方面(例如,样本的检索、检索样本的用户、样本的检索日期、样本从存储中移除的时间长度等)以及样本在时间点处的当前内在属性。

尽管从制备用于显微切割的生物样本的角度呈现了与工作流程100相关联的环境,但是应当理解,经由样本的内在特性跟踪样本的核心特征可以全部应用于除肿瘤样本之外的其他类型的样本。因此,本发明的主题被认为涵盖跟踪其他类型的样本,包括唾液、尿液、血液、卵子、精子、粪便、皮肤、汗液或其他类型的生物样本。还特别考虑的是,本发明的技术可以应用于除人类之外的其他类型的生物,包括一般的哺乳动物、野生动物、原生动物、真菌、植物或其他生物。此外,这些技术可以适用于除样本跟踪之外的其他场所,包括管理环境研究(例如,地质样本、地块(plot)研究样本、水样本、土壤样本等)、供应链管理、临床试验、研究和开发项目、宝石供应链跟踪、宝石切割、制造、笔记本(notebook)跟踪、畜牧业(例如,养殖马匹、狗等)、或可以经由对象的内在属性跟踪状态信息的场所。

图2示出了样本跟踪环境200,其中生物样本的内在属性或特征用于创建样本跟踪链212。样本数据库210存储样本跟踪链212中的一个或更多个,其中每个样本跟踪链212表示生物样本的生命周期或可能的审计追踪。尽管示出了一个利益相关者,即用户205,但是应当理解,环境可以支持希望与样本跟踪链212中的一个或更多个交互的多个用户或其他利益相关者。

样本跟踪链212表示存储在计算机可读非暂时性存储器上的一个或更多个数字数据记录。在所示的示例中,样本跟踪链212被存储在样本数据库210的存储器中;例如,作为文件系统中、硬盘上或ram中的记录。样本数据库210是被配置为基于可以根据样本数据库210的索引系统定义的一个或更多个查询标准来检索与样本跟踪链212有关的数据的计算设备。在一些实施例中,样本数据库210和/或样本跟踪引擎220可以作为样本跟踪搜索引擎操作。适用于构建样本数据库210的示例数据库技术包括mysql、nosql、mongodb、riak、couchdb、opencog或arangodb,仅举几个例子。在一些实施例中,样本数据库210还可以包括存储器中的查找表或甚至包括样本跟踪链212的整个区块链。当样本跟踪链212被实现为区块链时,样本数据库212可以被实现为被配置为接受查询的区块链浏览器。样本跟踪链212或其各个状态对象由样本的各种状态的相应内在属性索引。

样本数据库210与样本跟踪引擎220耦合以允许样本跟踪引擎220访问样本跟踪链212。在一些实施例中,如图所示,样本跟踪引擎220通过网络215(例如,因特网、内联网、wan、lan、wlan、p2p、无线、蜂窝、ad-hoc等)与样本数据库210通信地耦合。网络215可以包括无线网络(例如,wusb、802.11、802.15、802.16、蜂窝等)、有线网络(例如,以太网、电路交换网络、atm等)、或无线和有线网络的组合。

样本跟踪引擎220包括计算设备,该计算设备被配置为经由生物样本的内在属性或特征来跟踪生物样本。在一些实施例中,样本跟踪引擎220包括服务器系统,其经由web接口(例如,http、https、tcp/ip、udp/ip等)提供对其服务的访问。在其他实施例中,样本跟踪引擎220还可以包括工作站或甚至能够访问样本跟踪引擎220本地(例如,在相同计算机中、在相同网络上)或样本跟踪引擎220远程(例如,通过因特网、wan等)的样本数据库210的移动设备。然而在其他实施例中,样本跟踪引擎220可以可能地基于一个或更多个现有云系统(例如,amazonaws、microsoftazure、googlecloud等)而作为基于云的基础设施(例如,iaas、paas、saas、链即服务等)操作。

样本跟踪引擎220在环境200内具有关于帮助用户205跟踪、存储或访问与生物样本有关的信息的许多角色和职责。用户205(例如,病理学家)使用其状态信息作为样本跟踪链212被存储(或将被存储)的生物样本工作。用户205以观察的状态230的形式提供样本跟踪引擎220样本数据。例如,观察的状态230可以包括载玻片上的组织的数字图像,或者可以包括肿瘤组织的显微切割掩模信息。应当理解,观察的状态230包括经由用户205操作的计算设备从用户205接收或由用户205生成的数字数据。在观察的状态230包括图像数据的情况下,例如,观察的状态230可以包括处于40倍放大率或其他放大率的至少一部分样品载玻片的数字图像。尽管在本公开内容中详细讨论了数字图像数据,但是还考虑到观察的状态230可以包括其他数据模态,这取决于样本的性质。示例模态包括音频数据、口头话语数据、生物识别数据、动觉数据、触觉数据、嗅觉数据、味觉数据、传感器数据、纹理数据、或人类感觉内或人类感觉之外的其他数据模态。

样本跟踪引擎220利用观察的状态230多种方式继续跟踪样本。在第一路径之后,样本跟踪引擎220获得对来自样本数据库210的样本跟踪链212中的一个或更多个的访问权,其中样本跟踪链212与感兴趣的目标生物样本有关。样本跟踪引擎220从观察的状态230编制/编译(compile)与感兴趣样本有关的一条或更多条信息。在一些实施例中,观察的状态230可以包括表示患者标识符或样本标识/标识符的一条或更多条数据以及关于物理样本的内在数据。例如,样本跟踪引擎220利用编译的信息(例如,患者id、样本id、内在属性等)来构建搜索查询235,该搜索查询235靶向作为搜索引擎操作的样本数据库210的索引系统。例如,查询可以包括sql查询,该sql查询包括患者的社会安全号码和/或他们的姓名以及来自观察的状态230的导出特征。

取决于样本数据库210或样本跟踪引擎220的实施方式,搜索查询235可以采用许多不同的形式。在一些实施例中,搜索查询235可以是较少结构化的并且表示从观察的状态230或关键字导出的一组基于属性的值。然后可以将属性的值提交给样本数据库210,样本数据库210进而返回样本跟踪链212或具有满足搜索查询235的类似属性的样本跟踪链212的部分的结果集。在更感兴趣的实施例中,搜索查询235包括搜索标准,该搜索标准可以包括所需特征或包括可选特征。样本数据库210可以基于一个或更多个相似度测量(其基于物理样本的导出的内在属性来计算),根据每个结果多大程度可能地满足查询来返回排名的结果集。例如,相似度测量可以包括计算安装在载玻片上的组织的两个组织边界之间的圆形度的差异,或者可以是诸如导出的描述符的内在特征之间的“距离”。

在所示的示例中,样本跟踪引擎220基于搜索查询230从样本数据库210检索至少一个先前的样本状态对象240。先前的样本状态对象240是实例化数据对象,其表示目标生物样本的至少一个先前记录的状态。在该示例中,目标生物样本被示出为具有列出为t0、t1和t2的三个较老状态,其表示时间上的三次快照。尽管样本数据库210返回t2作为先前的样本状态对象240,但是应当理解,样本数据库210还可以返回指示未存在记录的null值、返回匹配样本跟踪变化212的一部分、或甚至返回完整样本跟踪链212。先前的样本状态对象240不一定需要是紧接在前的状态。然而,在大多数直接实施例中,先前的样本状态对象240是相对于在观察的状态230中观察到的数据的紧接在前的状态。

可以通过各种技术来封装先前的样本状态对象240。在一些实施例中,可以将先前的样本状态对象240以其原生形式呈现给样本跟踪引擎220;例如,作为二进制记录、文件、原始文本或存储先前的样本状态对象240的其他格式。在其他实施例中,样本数据库210可以将先前的样本状态对象240重新封装成期望的格式以便递送到样本跟踪引擎220。示例格式可以包括csv文件、二进制对象、blob、序列化数据结构(例如,yaml、xml、json等)或其他格式。特别感兴趣的是,先前的样本状态对象240可以包括块令牌(token)(通常是散列摘要(digest)),其表示或识别先前的样本状态对象240。在一些方面,散列摘要是固定大小的位串,例如,长度为大约128-256位或更多。散列函数可以用于将任意大小的数据映射到固定大小的散列摘要。如果任意数据的一位发生变化,则散列函数将生成不同的摘要。因此,散列摘要适用于跟踪数据完整性以及如本文所呈现的其他应用。在其他方面中,加密函数可以用于生成散列摘要(例如,sha-256、ripemd、scrypt等)。下面更详细地讨论块令牌。

样本跟踪引擎220还生成或以其他方式实例化表示感兴趣的目标生物样本的观察的状态230的当前状态250中的一个或更多个。当前状态250可以是在准备创建新状态对象中存储在样本跟踪引擎220的存储器中的中间数据结构。例如,当前状态250可以包括来自观察的状态230的数据的副本,其包括数字图像、视频、音频或其他形式的数据。当前状态250也可能仅是观察的状态230。然而,在一些实施例中,当前状态250还包括从观察的状态230导出的突出参数或特征以及为准备创建新状态对象而编译的其他数据。示例性突出参数可以包括从观察的状态230的数字数据生成或导出的一个或更多个数字签名(例如,描述符、特征等)。关于数字图像,当前状态250可以包括根据一个或更多个图像处理算法生成的一个或更多个描述符。描述符可以包括以下类型的描述符中的一个或更多个:sift、surf、gloh、tilt、daisy、hog、uncanny边缘、角点、斑点(blob)描述符、纹理、形状描述符或其他类型的描述符。在一些实施例中,描述符可以包括全局词汇表(vocabulary)的描述符,其与bing等人在2015年2月13日提交的题为“globalvisualvocabulary,systemsandmethods”的美国专利申请公开号2015/0262036相似。使用全局词汇表的一个优点是描述符更紧凑(即,传输更有效)并且相对于原始描述符更具确定性。应当理解,这些描述符表示代表目标生物样品的内在特征的值,因为它们是基于样本的直接观察而产生的。更进一步地,当前状态250可以包括外在数据,其根据需要包括条形码信息、rfid码、患者或供体标识符、样本标识符、用户205的标识符、时间戳、元数据、位置或其他类型的信息。

一旦已经收集了与当前状态250相关联的数据,样本跟踪引擎220就根据当前状态250和先前的样本状态对象230在存储器中实例化当前样本状态对象260。当当前样本状态对象260被实例化时,它最初可以被创建为具有null值,然后在实例化之后该null值被填充。可替代地,通过将数据从当前状态250和先前的样本状态对象240传递到当前样本状态对象260的构造函数方法,可以创建具有完全充实值的当前样本状态对象260。在一些实施例中,当前样本状态对象260还可以基于外部数据构造。更具体地,外部数据可以包括来自一个或更多个外部分布式公共账本(例如,比特币(bitcoin)、litecoin、以太坊(ethereum)等)的散列摘要。在一些情况下,与样本跟踪环境200相关联的时间戳可能变得损坏或不准确。根据某些方面,来自公共账本的外部数据(例如,与比特币相关联的散列摘要)可以用作公证人,从而提供与样本状态对象相关联的时间戳的有效性的独立测量。公共账本数据或散列摘要充当外部时间戳,其相对于特定时间点或之后的时间独立于样本跟踪链。因此,使用公共账本生成当前样本状态对象提供了来自相应块的数据未被篡改或修改的独立确认。

应当注意,由当前样本状态对象260表示的数据块紧密地取决于目标生物样本的先前的状态。因此,形成了内在状态的区块链。更进一步地,当前样本状态对象260可以包括一种或更多种类型的样本元数据,其可能包括时间数据、日期数据、过程数据、诊断数据、利益相关者数据、护理提供者数据、图像数据、地理位置数据、地址数据、样本数据、保险数据、工作站数据、工作流程数据、或与样本有关的其他类型的元数据。

样本跟踪引擎220将当前样本状态对象260链接到先前的样本状态对象230以继续构建样本跟踪链。例如,标记为t3以示出它在时间上处于下一个状态的当前样本状态对象260可以包括来自当前状态250的数据以及通过使来自当前状态250的数据散列化而生成的散列摘要以及来自先前的样本状态对象240的散列摘要。用于将先前的样本状态对象240与当前状态250组合或以其他方式将先前的样本状态对象240与当前状态250链接的链接功能由“circled-plus(圆圈加号)”符号示出。一旦当前样本状态对象260已被实例化和链接,样本跟踪引擎220利用新创建的和链接的当前样本状态对象260更新样本数据库210中的样本跟踪链212。样本跟踪链212可以通过样本跟踪引擎220通过网络215(可能以序列化格式(例如,xml、yaml、json等))将当前样本状态对象260发送到样本数据库210而被更新。此外,样本跟踪链212和当前样本状态对象260可以通过新生成的内在属性或从观察的状态230导出的特征而被索引。

构建状态链以形成样本跟踪链212的方法可以被认为是构建与许多加密货币中通常使用的区块链相似的区块链;例如,比特币。然而,存在显着差异。加密货币创建了表示曾经进行的所有交易的全部的单个区块链,这创造了一个不断增长和笨拙的数据结构。此外,加密货币通常需要对等计算设备(称为矿工)来提供工作量证明(proof-of-work)或权益证明(proof-of-stake),以便将块组合到区块链中,这可能在块添加到链之前产生大量时间,更不用说大量的计算资源了。所公开的方法没有这些缺点。相反,样本跟踪链212可以被实例化为单个样本的单个独立链,并且表示样本的生命周期或者甚至表示样本的审计追踪。因此,样本跟踪链212可以保持自含式(self-contained)且小而不会导致无限增长。此外,样本跟踪链212不需要大量工作来创建下一个块,而是样本跟踪引擎220可以快速执行期望的链接功能而无需解决耗时的加密谜题(puzzle)(例如,工作量证明、具有特定签名的散列摘要等)。仍然,应当理解,一旦解决了隐私问题,样本跟踪链212可以构成许多样本的更大更全面的区块链,或者甚至可以被集成到其他区块链(例如,以太坊等)中。

另外,根据其他方面,本技术与其他区块链方法之间的另一区别在于基于样本的工作流程更新样本跟踪链。在一些方面中,工作流程包括多个处理步骤,其中工作流程中的一个或更多个步骤改变样本的物理外观(例如,由于染色、切割、净化、结晶、悬浮或溶解在另一溶液中、添加一种或更多种试剂以致使化学反应等)。因此,样本跟踪链提供了一种通过整个工作流程跟踪生物样本的方式,从而在工作流程的各个步骤处保持外观和形态变化的记录。在一些方法中,工作流程的每个步骤可以被记录在样本跟踪链中。在其他方法中,工作流程的步骤的子集(例如,与物理外观的变化、位置的变化等相关联的步骤)被记录在样本跟踪链中。因此,这些技术适用于在工作流程的不同处理阶段处管理患者样本群体,以减少由于样本混淆发生的错误。这种技术不同于其他类型的基于交易的分布式账本,所述基于交易的分布式账本仅记录由于交易事件(而不是由于处理步骤)产生的账本中的变化。已经说明了这些优点,还特别考虑样本跟踪链212可以构建在私有(或公共)分布式区块链账本系统内。

样本跟踪链212及其各个块可以通过许多技术而被索引,这提供了快速检索或管理。鉴于样本跟踪链212包括许多状态,其中每个状态具有其自身的内在属性,则除了样本跟踪链212的对应部分之外,还可以使用从每个状态的内在属性导出的值或度量来索引样本跟踪链212。因此,当分析或观察物理样本时,可以使用与物理样本的内在属性相关联的一个或更多个度量来检索样本跟踪链212的对应部分或样本跟踪链212内的部分(例如,块等)。此外,可以基于关于相应物理样本的外在信息来索引样本跟踪链212。示例外在信息包括患者数据、保险数据、医疗保健提供者数据、利益相关者数据(例如,与用户205有关的识别信息等)、时间戳、研究或调查产品数据、元数据、或延伸超出从物理样本导出的内在属性的其他信息。

为了讨论起见,考虑一种情况,其中用户205是使用从患者的肿瘤创建的组织安装载玻片工作的病理学家。病理学家的任务是识别每个载玻片内的感兴趣区域,以确定哪些区域可能含有癌细胞。病理学家有几种选择来回忆与生物样本相关联的信息。在更多学究式场景中,进行观察的载玻片被标记或编码有与样本和/或患者有关的外在信息;例如,条形码。在更感兴趣的场景中,病理学家经由数字显微镜扫描载玻片以创建数字载玻片图像。当病理学家开始他的任务时,可以将数字载玻片图像作为观察的状态230发送到样本跟踪引擎215。样本跟踪引擎220对数字图像执行图像处理算法的一个或更多个实施方式以创建一个或更多个特征,通常称为描述符。示例特征可以包括边缘描述符、图像描述符(例如,sift、tilt、daisy等)、纹理描述符、形状描述符或其他类型的数字特征。应该理解,这些描述符直接从物理样本生成,并且因此被认为表示物理样本的内在性质。然后可以将特征组合到搜索查询235中,搜索查询235被提交给样本数据库210。作为响应,样本数据库210检索先前已根据这些特征和/或描述符被索引的样本跟踪链212。此时,样本跟踪引擎220已经检索了样本跟踪链212,或者如先前的样本状态对象240所表示的样本跟踪链212的至少一部分。应当理解,所考虑的样本的内在属性用于检索样本的历史数据。这种方法不排除使用外在信息(例如,条形码、qr码、标签、rfid等)来检索信息。然而,所公开的方法被认为优于外部信息的独占使用,因为内在属性确保访问样本信息在内部是一致的,这减少了由错误处理或错误标记样本所产生的潜在错误。在以下文件中描述了用于基于图像描述符存储和检索信息的示例技术:boncyk等人在2001年11月5日提交的题为“imagecaptureandidentificationsystemandprocess”的美国专利7,016,532;boncyk等人在2005年8月15日提交的题为“useofimage-derivedinformationassearchcriteriaforinternetandothersearchengines”的美国专利7,680,324;boncyk等人在2006年1月26日提交的题为“datacaptureandidentificationsystemandprocess”的美国专利7,565,008;以及boncyk等人在2009年9月28日提交的题为“objectinformationderivedfromobjectimages”的美国专利7,899,252。

继续该示例,病理学家通过创建一个或更多个显微切割掩模或肿瘤标记来识别感兴趣的区域,该显微切割掩模或肿瘤标记表示应经由lcm移除以进行进一步分析的组织区域。这里有几点值得注意。首先,可以针对在那些区域中发现的内在特征来分析感兴趣的区域。例如,如果区域要被显微切割,那么来自用于索引样品跟踪链212的区域的相应内在特征也将从样品中移除。然而,一旦从组织移除感兴趣的区域,这样的内在特征将不再存在于物理样本中。因此,这些“移除的”内在特征可以用样本数据库210中的元数据标记,以指示它们是可选的索引特征而不是在检索样本跟踪链212或对应的样本状态对象(240或260)时所需的索引特征。其次,根据形状分析算法的一个或更多个实施方式,可以经由一个或更多个形状描述符来量化感兴趣区域(例如,掩模)的形状。形状描述符可以被认为表示用于显微切割的部位的内在形状(参见图5,其示出具有带有显微切割掩模(左)和显微切割后的孔(右)的组织样品的载玻片)。掩模形状描述符可以被包括在当前状态250中,并且可以用于通过将切割前的形状描述符与实际的切割后的形状描述符进行比较来确认在显微切割后样本被正确处理。如果实际的切割后的形状描述符满足相对于切割前的形状描述符的匹配标准,则可以认为显微切割任务是有效的。可以使用的示例形状描述符包括由形状算法的一个或更多个实施方式生成的那些,其包括对于边界点分布的质心不变性、从最小惯性轴到边界的垂直距离的分布、平均弯曲能量的分布、偏心度的测量(例如,主轴法、最小边界矩形法等)、圆形度比、椭圆方差、矩形度、凸度、实性、欧拉数、剖面、孔面积比、质心距离分布、切线角分布、切线空间分布、轮廓曲率分布、面积分布、三角形面积分布、弦长分布、方形或极形(polar)形状矩阵、形状上下文、或其他类型的形状描述符(park,uciicamp2011“shapedescriptor/featureextractiontechniques”)。

尽管图1和图2提供了经历染色、切割和质谱分析的生物样本的示例工作流程,但是本文呈现的技术不限于该示例工作流程。通常,本文呈现的技术可以用于通过工作流程的一个或更多个步骤跟踪任何数量的样本。例如,提供遗传分析服务的公司可以利用本文提供的样本追踪技术,以在每个样本被处理(例如,通过dna测序工作流程、rna测序工作流程、蛋白质组学分析工作流程、免疫测定工作流程、生物标记分析工作流程、净化工作流程或其任何组合等的各个阶段)时监测每个样本,以大大减少由于手动处理样本引起的错误。另外,如果在稍后的时间点发现处理错误或差异(例如,由于由特定技术人员进行的错误处理、由于由特定器械引入的污染、由于在测定中使用有缺陷的试剂等),这些技术可以用于精确识别样本群体中的哪些样本已经受到影响,而不是假设整个群体已经受到影响。本文呈现的技术还可以应用于医院或其他医疗设施,以跟踪外科手术中使用的器械(尤其是在手术或诊断筛查期间重复使用的器械)的处理。作为一个示例,如果发现在多个外科手术中使用的特定手术器械未在手术之间进行正确的去污,则可以容易地识别与特定手术器械接触的患者群体,而不是特定的设施处经受外科手术的所有患者。

本文呈现的技术适用的其他示例包括跟踪艺术作品。可以跟踪一件艺术品(例如,雕像、绘画、钻石等)的内在属性并使该内在属性与(在博物馆)艺术品的销售或展示相结合。内在属性包括例如艺术品的重量;大小;针对绘画:框架类型、介质类型;针对雕塑;材料/介质类型;针对宝石:净度、辉度;等。

本文呈现的技术适用的其他示例包括土地或其他基础设施调查。可以根据时间跟踪一块土地的改变的属性(例如,用于跟踪由于更新的调查、土地或其部分的出售、商业用途的拨款、公共通道的添加、重新分区、景观美化、与土地相关联的结构、处于各种建造状态的建筑物、财产损失等引起改变的大小的图像和其他测量值)或基础设施的改变的属性(例如,用于跟踪桥梁、道路的劣化、损坏、修复或建造的图像和其他测量值,包括使用地形描述符(诸如lidar)来记录上述相同内容)。

其他示例包括制造工作流程,其包括汽车装配、半导体制造、宝石切割、大规模和小规模药物和生物制造以及其他类型的制造工艺等。可以根据时间跟踪制造工艺的内在属性,制造工艺包括:汽车工艺(通过跟踪部件、部件装配的顺序、技术人员、组装时间等);半导体制造工艺(例如,晶片大小、晶片形状、掺杂化学品、光刻/制造步骤、批号、制造后验证和测试、技术人员等);大规模和小规模药物和生物制造工艺(例如,试剂、试剂的添加时间、技术人员、杂质、产物的形成、病毒或细菌污染、副产物的形成等)。

本文呈现的技术适用的其他示例包括长时间跟踪生物样本(例如,在一生中可能需要对患者可用的脐带血)、跟踪可以从各种位置运输到中央存储设施的环境样本、用于跟踪在犯罪现场获得的生物样本或证据并在以后进行法医分析、用于作为流感病学研究的一部分来跟踪诸如流感或埃博拉病毒等的疾病已扩散到特定位置的程度。

图3示出了由样本跟踪链340表示的样本跟踪链的示例细节。样本跟踪链340表示样本状态数据结构链,其中数据结构的每个部分链接到下一部分。此外,每个状态包括数字数据,该数字数据包括关于相应生物样本的内在状态的信息。在所示的示例中,样本跟踪链340包括区块链,其中链的每个部分是由与相邻块耦合的块310-0到310-3(统称为块310)表示的数据块。块310中的每一个包括从物理样本的观察的状态导出的内在样本数据。应当理解,术语“区块链”在本文中以与关于加密货币(例如,比特币、litecoin、peercoin等)使用的方式相似的方式使用。样本跟踪链340表示经由样本的内在属性由样本的状态记录的一种或更多种生物样本的生命周期。

在其他实施例中,样本状态对象可以用于确认后续样本状态对象。作为一个示例,在组织病理学中,感兴趣区域被绘制到特定样本侧(例如,在块310-2处),并且因此,可以预测切割后的样本的形状(例如,在块310-3处)。因此,本文呈现的样本跟踪链技术可以提供一种预测处理步骤之后的样本将看起来是什么样的方式,并且可以识别(例如,由于样本混淆或处理错误引起的)差异。例如,如果切割后的样本与预测不在指定阈值内相关,则可以向技术人员发送警报。在一些实施方案中,导向器载玻片可以用于预测切割后的样品的形状。

为了增加样本跟踪链的完整性,可以实现各种方法以帮助确保添加到样本跟踪链的每个块是正确的。例如,区块链的后续块中的信息可以与较早的块相关,例如,对于定义的有序工作流中的步骤,诸如染色后跟显微切割,或者使用描述符或与该过程的特定步骤相关联的其他元数据,诸如,特定计算机、特定位置、特定技术人员、技术人员的相应工作时间表、特定类型的分析的医师订单等。作为一个示例,假设医师为患者a订购生物标记物血液测试并且为患者b订购染色和组织分析内的活组织检查。假设只有技术人员a在实验室n对器械a执行生物标记物分析,并且只有技术人员b使用器械b在实验室n进行组织的染色和切割,那么系统可以通过患者姓名将医师的订单与每个样本的处理进行相关,以检测区块链数据中的异常。因此,将被标记以供审查的样本状态对象或块包括:患者a、技术人员a和器械b;或患者b、技术人员a和器械b。

在其他方面,技术人员或自动程序可以将与特定载玻片相关联的感兴趣的细胞类型区域分类(例如,脂肪对比正常对比肿瘤)。由样本跟踪链捕获的载玻片的内在属性可以用于提高数据有效性,有助于避免样本混淆并确保相应的载玻片与适当的相应患者相关联。应当理解,所公开的建立确认的数据的技术为机器学习提供了极好的来源。随着样本跟踪链的累积,链中的信息可以编制成机器学习训练数据集,其然后可以用于训练机器学习算法的实施方式。例如,可以快速识别已经在载玻片中识别出癌细胞区域的样本跟踪链,以创建被训练以识别新载玻片中的癌细胞的神经网络。利益相关者将对训练数据集具有更高的信任度,因为载玻片链已经基本被确认。

为了讨论起见,样品跟踪链340在创建生物样本(例如肿瘤样本)时开始存在。最初,样本跟踪链340可以经由构造函数api调用实例化为null对象,其中样本跟踪链340的特征可以经由一个或更多个子序列api调用来填充。例如,样本跟踪链340可以通过创建创世(genesis)块310-0而被实例化。创世块310-0包括与生物样本的创建相关联的数据结构,其包括患者数据303、外部数据307或内在数据305。患者数据303包括与患者或生物样本的其他供体相关联的各种数字信息。示例患者数据包括姓名、社会安全号码、地址、保险信息、护理人员(例如,医生姓名等)或与患者相关联的其他信息。在一些实施例中,患者数据303还可以包括一个或更多个公共和/或私有患者密钥,其允许患者授权访问样本跟踪链340的一个或更多个部分。应当理解,样本跟踪链340可以经由患者数据303内的一个或更多个字段而被索引,使得利益相关者可以利用已知的患者信息来根据需要检索样本跟踪链340或其块。

外部数据307表示可以被包括在创世块310-0中的可选数据,其中外部数据307超出目标生物样本的内在性质或与患者有关。例如,外部数据307可以包括表示时间戳、工作流程信息、过程代码(例如,cpt代码)、提出的诊断代码(例如,icd代码)或其他信息的元数据。更有趣的是,一个专门考虑的外部数据包括外部散列摘要,该外部散列摘要可以用作样本跟踪链340的确认令牌。外部散列值可以从(可能来自一个或更多个加密货币的)公共可用的分布式账本(即公共区块链)获得。在一些实施例中,外部散列值可以是比特币区块链或以太坊区块链的最当前的确认块的散列摘要。外部散列值变为经确认的时间戳,其指示在生成外部散列值的时间之后,仅可以实例化创世块310-0。该方法被认为是有利的,因为它有效地将样本跟踪链340链接到可证实的外部来源。

尽管外部数据307被示为对创世块310-0有贡献,但是应当理解,外部数据307也可以被添加到样本跟踪链340中的每个后续块。例如,外部数据307还可以包括工作流程文档、工作流程数据(例如,过程代码、技术人员标识符等)、预期的下一状态、或与样本的处理有关的其他信息。

内在数据305表示目标生物样本的内在属性的数字表示。内在数据305的示例包括样本的(一个或更多个)类型、质量、大小、形状、密度、描述符、数字签名或与样本有关的其他特征。在更感兴趣的实施例中,内在数据305可以包括关于样本的不变的内在属性数据;处理目标样本时不会改变的内在属性。例如,基因组序列(例如,全基因组序列、全外显子组序列、已知突变、snp模式、转录组测序(rna-seq)数据、蛋白质组学等)将是一种不变的内在属性。此外,可以通过内在数据305内的一个或更多个属性在数据库内存储和索引样本跟踪链340。

在等于目标样本的零状态的时间(t0;t=0)实例化创世块310-0。创世块310-0包括从数据(例如,患者数据303、内在数据305、外部数据307等)的各种来源获得的相关数据,其可以在假定获得适当的认证或授权的情况下被检索。此外,创世块310-0还包括块令牌(参见ht0),该块令牌根据块中包括的数据生成并且可以用于识别块。在所示的示例中,块令牌是根据散列算法的实施方式并且根据输入数据生成的散列摘要(ht0)。应该注意,该方法可以(但不是必须)用于生成依赖于外部数据307的散列摘要(包括外部散列摘要),从而产生若干益处。第一,外部利益相关者可以通过从可用数据重新计算ht0来验证创世块310-0内的数据是有效的。第二,如果创世块310-0中的数据被改变,则利益相关者将能够检测到该改变,因为重新计算的散列将与存储在创世块310-0中的该值不同。第三,利益相关者可以确认创世块310-0中的数据存在于与外部公共来源确认的外部散列存在时相对应的时间帧。

在一些实施例中,可以使用静态数据形成创世块310-0。与患者相关联的一些数据在一段时间内可以是静态的,例如,社会安全号码、出生日期、获得患者样本的位置。其他数据可以是可变的,例如患者姓名、生物标记物水平、预后等。因此,在一些实施例中,可以使用静态数据形成创世块的散列摘要,并将其存储用于随后与相同的静态数据的散列摘要进行比较,以便验证创世块的完整性。在其他示例中,数据可以作为属性值对存储在数据库中,以便指示数据字段已经改变。因此,在一些实施例中,可以选择静态数据作为散列函数的输入,而在其他实施例中,可以选择静态数据和可变数据作为散列函数的输入。

尽管存在可以通过其生成块令牌的许多可能算法,但是这里包括散列算法的一些示例以供参考。示例散列函数包括md5、sha(例如,sha-1、sha-2、sha-3、sha-256、sha-512等)、whirlpool、blake2、scrypt或其他散列函数。通常,更期望更安全的散列函数,使得样本跟踪链340更加稳健以防止篡改。因此,相比md5更期望基于sha的散列,因为md5已被破坏。更进一步地,更感兴趣用于减少可能的冲突的产生更大摘要(即,散列值)的更期望的散列函数。因此,可以认为相比sha-256更期望sha-512。在一些实施例中,期望具有需要更长时间来生成摘要使得其在计算上难以破坏的散列函数。在这样的实施例中,相比sha-512可能更期望scrypt。

可以用于生成块令牌的其他类型的函数包括uuid生成功能(例如,rfc4122等)、guid生成函数或其他类型的标识符生成函数。在更感兴趣的实施例中,块令牌被生成为尽可能唯一,同时还取决于块中包括的数据并且可能基于外部数据(例如,外部散列摘要等)。示例异构块令牌可以包括具有guid加上从块数据以及guid导出的散列摘要的字符串。更进一步地,考虑可以利用非基于散列的函数,同时仍然遵守期望的品质。

返回到图3中呈现的示例,使读者的注意力集中在工作流程320。工作流程320表示总体工作流程的一部分,该部分集中于在从目标生物样本产生的组织载玻片上产生显微切割部位。尽管工作流程320表示总体工作流程的一部分,但是所公开的技术可以同样适用于具有许多步骤或任务的更复杂的工作流程。工作流程320开始于将目标生物样本设置在一个或更多个载玻片上,如由未染色的载玻片320-1a至320-1n所表示的,其统称为载玻片320-1,其中这些载玻片中的每一个包括目标样本的横截面(crosssection)。应当理解,可以认为载玻片320-1的集合表示样本的三维结构。因此,处于此阶段的样本的一个内在属性可以包括推断的3d模型或形状。因此,可以从来自目标生物样本的2d图像以及3d模型的一个或更多个样本状态对象生成各种块。

在所示的示例中,未染色的载玻片320-1共同表示生物样本的新状态。然后使用新状态在样本跟踪链340内创建新块(块310-1)。在这种情况下,载玻片320-1上的组织的内在属性可以单独地或共同地用作块310-1的基础,包括作为内在数据的载玻片的实际数字图像(例如,整个载玻片图像、组织图像等)。此外,还可以编制其他内在属性,包括组织的边界(例如,边缘、边界等)、形状、大小、特征、或组织的其他方面。与块310-0相似,块310-1还可以并入可能包括工作流程元数据的外部数据(例如,技术人员标识符、工作流程标识符、工作流程任务、审计追踪信息、iec62304合规性数据、时间戳等),或者并入甚至作为有效时间戳的另一个外部散列摘要,如先前所讨论的(例如,比特币当前块散列、litecoin当前块散列、公共账本散列等)。一旦编制了与新状态(示例中的状态t1)相关联的数据,则块310-1可以经由链接(link)330中的一个或更多个被链接到先前的状态。

在一些实施例中,每个块310可以作为单独的记录存储在数据存储或数据库中。在这种情况下,链接330可以包括块310-1的数据成员,该块310-1的数据成员具有与块310-0的标识符相对应的值。在其他实施例中,块310-0和310-1形成链表,可能是双链表,其中每个块指向另一个。又,在更感兴趣的实施例中,链接330基本上包括形成区块链的链接散列摘要,如上面所讨论的,其中当前样本状态对象经由基于先前的状态块令牌(例如,散列摘要等)和当前状态数据生成的散列摘要“链接”回到先前的样本状态对象。换句话说,块310-1可以包括块令牌(即,ht1),所述块令牌(即,ht1)具有通过使块310-1的数据以及块310-0的散列摘要(即,ht0)散列而生成的散列摘要的形式,其中块令牌本质上是链接330。在一些实施例中,采用基于散列的块令牌和指向相邻块的指针。

块310-1被示为具有来自未染色载玻片320-1a到320-1n的所有数据的汇编。然而,还考虑每个载玻片可以在样品跟踪链340内具有其自身的对应块。在这种情况下,样品跟踪链340可以具有许多较小块的链。仍然在其他实施例中,来自载玻片的信息可以被布置成树结构,其中树中的每个分支表示单个载玻片的状态,并且树的根表示块310-1。在这样的场景中,样本区块链340可以被布置为merkle树,以便于从多个较小的块生成散列摘要并用于低延迟访问。因此,本文描述的主题被认为包括除线性链之外的数据的其他布置,包括二叉树、avl树、侧链或其他数据结构。

工作流程320通过将未染色的载玻片320-1转变成染色的载玻片320-2a至320-2n而继续,载玻片320-2a至320-2n统称为染色的载玻片320-2。在该示例中,未染色的载玻片320-1与染色的载玻片320-2之间存在一对一的对应关系。然而,考虑在一些实施例中,不需要这种一对一的对应关系。例如,在一些实施例中,一个物理样品可以被分成多组子样品,其中每个组被不同地处理。可以各自使用相同的染色技术或使用不同的技术将染色的载玻片320-2染色。作为一个示例,染色的载玻片320-2a可以用苏木精染色,而另一个染色的载玻片320-2b可以用pas淀粉酶染色。在这种情况下,相应块310-2可以包括载玻片的染色识别信息。可以优选地根据标准化过程将染色的载玻片320-2a至320-2n中的每一个数字化,以创建载玻片的数字图像;例如,以svs格式存储的整个载玻片图像(即,openslide格式;参见urlopenslide.org/formats/aperio/)。其他格式可以包括hamamatsu格式、leica格式、mirax格式、philips格式、sakura格式、trestle格式、ventana格式、通用平铺(tiled)格式或其他类型的虚拟载玻片格式。这样的数字图像表示载玻片上样本的内在性质,并且可以成为块310-2的一部分。

更进一步地,在一些实施例中,通过对每个载玻片应用支持多重荧光免疫组织化学(ihc)表征,可以创建染色的载玻片320-2a至320-2n,可能利用提供的一种或更多种成像系统(例如,成像系统、fx多重生物标记物成像系统等)或optrasystemstm(例如,自动扫描和高分辨率扫描系统)。一旦成像,可以基于从载玻片产生的光谱从染色的载玻片创建虚拟载玻片。因此,染色的载玻片320-2a至320-2n中的每一个可以产生多个虚拟载玻片,其中每个对应的虚拟载玻片减弱相应样本的期望内在特征。来自ihc表征的每个载玻片图像或数据文件可以包括光谱信息,诸如观察到的光波长(例如,350nm至900nm等)。有趣的是,可以根据需要根据不同的算法对载玻片的每个“谱”视图进行数字分析,以生成一个或更多个附加的内在特征(例如,描述符、度量等)。此外,可以基于出现在区域中的集体内在特征来不同地分析载玻片的每个区域。例如,可以与具有高边缘描述符密度的区域不同地分析具有高核密度的区域。在jaber等人在2014年12月9日提交的题为“featuredensityobjectclassification,systemsandmethods”的美国专利申请公开2015/0161474中描述了使用基于密度的不同技术识别或分类图像的特定区域的示例技术。

然后可以编制数字化的载玻片图像(例如,文件、原始数据、blob、标记语言文件等),以并入到样本跟踪链340的下一个块,示例中的块310-2中。在一些实施例中,数字载玻片图像不需要是块的一部分。在这种情况下,块310-2可以包括指向存储载玻片图像的位置的指针。指针可以包括数字对象标识符(doi)、url、uri、载玻片标识符(例如,guid、uuid等),或者可以通过其访问载玻片的其他类型的地址。在利用公共分布式账本同时还要求保持实际数据私密的情况下,这种方法被认为是有利的。

除了染色载玻片320-2的数字化图像之外,块310-2还可以包括有助于在工作流程的该阶段识别样本的附加信息。每个数字化图像可以由图像处理算法的一个或更多个实施方式来处理以导出识别特征(例如,描述符、纹理、波长、密度、度量等)。如先前所讨论的,识别特征可以包括图像描述符(例如,sift、hog、边缘描述符、tilt等)。lowe在2000年3月6日提交的题为“methodandapparatusforidentifyingscaleinvariantfeaturesinanimageanduseofsameforlocatinganobjectinanimage”的美国专利6,711,293中更全面地描述了sift。song等人在2015年5月6日提交的题为“image-basedfeaturedetectionusingedgevectors”的美国专利9,412,176中描述了示例边缘描述符。由算法生成的结果描述符也可以编制到块320-2中,并且还用于索引样本跟踪链340和/或块320-2以供稍后检索。有趣的是,将这样的描述符并入到样本跟踪链340中的方法提供了使用基于图像的对象识别技术来检索块320-2,而不需要存在的可能是私有的实际图像数据。

一旦针对新生成的染色状态编制了数据,就可以通过创建其块令牌来最终确定块310-2。再次,与块310-1类似,块310-2的块令牌被示为新状态的编制数据的散列摘要以及来自先前状态的块310-1的散列摘要;在这种情况下ht1。新的散列摘要ht2实质上表示链接330返回到块310-1。在块310-2中,块320-2的一些实施例还可以包括其他形式的链接330(例如,guid、uuid、url、记录标识符等)。

为了简洁起见,示例工作流程320跳过可能出现在典型工作流程中的一个或更多个步骤,以便集中于显微切割的载玻片320-3a至320-3n(统称为显微切割的载玻片320-3),其是特别感兴趣的。显微切割的载玻片320-3表示在载玻片已经被(可能经由lcm)显微切割从而在载玻片上的组织样本中留下一个或更多个孔之后的目标生物样本的状态。作为参考,使读者的注意力集中在图5中,图5示出了示例载玻片图像。左图像显示了组织样本,其显示了肿瘤标记,肿瘤标记指示应该在哪发生显微切割。标记示出了由病理学家生成的多个显微切割掩模。右图像显示了显微切割后的相同精确组织样本,其对应于显微切割的载玻片320-3之一。注意,显微切割后的组织表示目标生物样本的另一种新状态,其中组织样本现在包括多个各种形状的孔。这些孔是样本的新内在特征,并且每个孔都可以进行数字化表征。如先前所讨论的,孔可以由一个或更多个形状描述符表征,其中形状描述符也可以用于索引新的样本状态和/或样本跟踪链340。还应该理解,显微切割载玻片320-3可以针对在工作流程320中的先前的阶段期间生成的肿瘤标记或掩模被确认。注意图5的左侧图像上的掩模形状相对于右侧图像的实际显微切割孔的相似度。之前和之后的每个区域的形状描述符(即,掩模与相应的孔)可以单独地以及共同地进行比较。在一些实施例中,如果之前和之后的形状描述符充分相似至阈值或其他相似度标准或在阈值或其他相似度标准内,那么显微切割后的载玻片被认为是相对于显微切割前的载玻片的有效状态。相似度测量可以基于两个形状描述符之间的欧几里德距离,这取决于形状描述符的性质。

还可以采用其他形式的确认。在其中每个块包括预期的下一状态数据(即,外部数据)的实施例中,处理样本跟踪链340的样本跟踪引擎可以将先前样本状态对象中的预期的下一状态与当前状态进行比较。如果预期的下一状态和当前状态之间存在一致,则可以将当前状态视为包括有效状态。先前呈现了关于显微切割掩模的一个示例。另一示例可以包括其中与未染色的载玻片320-1相关联的块310-1可以包括预期的染色信息(例如,光谱信息、预期的颜色等)的场景。当观察染色的载玻片320-2时,可以测量观察的颜色或光谱信息(例如,多重ihc等)并将其与预期的染色信息进行比较。如果两者在匹配标准内匹配,则染色的载玻片320-2可以被认为是有效的。因此,发明主题被认为包括根据样本跟踪链340实时确认工作流程状态的概念。

除了表征显微切割的载玻片320-3中的孔之外,可以表征载玻片中的孔的布置。隐喻地,载玻片中的孔可以被认为是载玻片的内在条形码。因此,一旦对载玻片进行成像,就可以对孔进行数字分析,从而生成一个或更多个整个载玻片描述符,该描述符然后可以被用于识别或索引载玻片。一个可能的描述符可以包括直方图,该直方图表示每个孔相对于整个组织所对应的面积的面积。直方图的区间(bin)可以通过从组织的质心到最外边缘的相对距离来布置。从组织质心到孔的质心的径向距离可以确定一个或更多个孔落入哪个区间。直方图中的区间数可以是任何实际数;例如,5、10、15或更多区间。这种描述符是旋转不变的并且图像分辨率是不变的。因此,用户不需要获取载玻片的相同图像以再现相似的描述符。

与先前的块和样本状态一样,图像数据和/或孔描述符可以被编制成数据集,以并入到表示目标组织的新状态的块310-3中。继续从构建区块链的角度来看,块310-3还具有块令牌,该块令牌表示根据块的数据(例如,显微切割的载玻片的一个或更多个图像、孔形状描述符、孔布置描述符等)以及先前状态的块令牌(即,来自块310-2的散列摘要;ht2)所生成的散列摘要(即,ht3)形式的状态。再次,新散列摘要ht3变为返回到块310-2的链接330。

如所呈现的样本跟踪链340仅具有四个示出的块,所述块表示用于说明性目的的四个状态,并且不被认为是限制性的。相反,对于读者应该明显的是,样本跟踪链340可以任意地包括任何大量的块和/或相应的状态。取决于链的性质,这样的链可以包括数千、数百万或甚至更多的块。

样品跟踪链340还被示出为单个独立链。在一些实施例中,样本跟踪链340可以组成具有许多其他特征的较大结构。例如,样本跟踪链340可以采用链接到患者的医疗保健区块链或从患者的医疗保健区块链分支的侧链的形式。在其他类似的场景中,样本跟踪链340可以是患者的医疗保健区块链的一部分。witchey在2015年5月13日提交的题为“healthcaretransactionvalidationviablockchainproof-of-work,systemsandmethods”的美国专利申请公开2015/0332283中描述了可以利用所公开的方法的示例医疗保健区块链。

样本跟踪链340不限于是患者或特定于样本结构的一部分,而是还可以是更大数据集合的一部分。更具体地,样本跟踪链340可以是包括与研究进展相关联的数据块的较大临床研究链的一部分。临床研究链的每个块可以被构造为记录研究的进展以及存档每个患者的医疗保健数据,其包括患者的个人跟踪链340,该个人跟踪链340可以是相对于研究的区块链的侧链。这种方法的优点很明显。提供这样的“研究跟踪链”确保一旦收集到数据,就不会在没有显着困难的情况下改变数据,因为必须重新构建整个链以便引入错误数据。因此,研究完成后,研究数据对于伪造是更加稳健的。在一些实施例中,使用公共(相对于私有)的分布式区块链,数据的伪造甚至更加困难,因为这种伪造不会抵抗公共外部监督。根据本文的技术,可以以时间有效的方式执行每个块的计算,从而最小化样本链的计算状态之间的滞后时间。

存在许多通过其可以实例化样本跟踪链340的可用技术。在简单的实施例中,样本跟踪链340包括通过递归散列摘要(可能连同指针一起)链接的一组数据块。每个块可以作为单独的记录存储在数据库中。然而,更感兴趣的实施例提供了样本跟踪链340实例化为真实的区块链,其中区块链可以是私有账本的一部分或分布式公共账本的一部分。可以适用于创建样本跟踪链340的现有技术包括比特币、以太坊(参见urlwww.ethereum.org)、或超级账本项目(参见urlwww.hyperledger.org),仅举几例。

鉴于区块链的块可以包括患者信息,可以经由一种或更多种加密技术(例如,3des、aes、ecc等)来保护数据。例如,可以基于患者的私钥来加密存储在样本跟踪链340的块中的私有数据。在从患者或其他授权代理商的授权下,可以允许利益相关者基于患者的密钥访问数据,可能使用现有的密钥交换技术。此外,如soon-shiong等人在2015年7月21日提交的题为“homomorphicencryptioninahealthcarenetworkenvironment,systemsandmethods”的美国专利申请公开u.s.2016/0105402中所讨论的,可以经由在同态环境中建立一个或更多个安全会话来访问样本跟踪链340内的私有数据。

有趣的是,样本跟踪链340可以存储如上所讨论的数据,或者可以作为文档被外部引用。例如,样本跟踪链340可以经由url被引用,其中url的域引用样本跟踪链340和/或块(例如,www.<样本链域名称>.com/<块id>/<数据成员id>/等)。样本跟踪链340也可以由doi引用或指向doi。此外,样本跟踪链340可以由与患者相关联的健康对象标识符(hoi)引用或指向与患者相关联的健康对象标识符(hoi)。soon-shiong在2014年1月3日提交的题为“healthcaremanagementobjects”的美国专利申请公开2014/0114675中更详细地讨论了hoi。

在一些实施例中,样本跟踪链340可以存储在图形数据库中。样本跟踪链340中的每个状态或块可以存储为图形数据库模式内的节点,其中从一个状态到另一个状态的转换表示节点之间的边。此外,外在信息可以存储为节点和/或边的属性。因此,图形数据库可以用于快速检索不仅关于个体样本跟踪链340的相关信息,而且检索来自具有带有相似属性的相似图形的样本跟踪链340的集合的相关信息。当存储或分析r&d研究或临床试验研究时,这种方法是有利的,其中系统跨越众多患者或针对大群组存储样本跟踪信息。可以用于存储样本跟踪链340的示例图形数据库实施方式包括neo4j、opencog和arangodb等。在一些实施例中,当样本跟踪链340耦合到患者的治疗和结果时,可能更期望提供ai框架的诸如opencog的图形数据库。这种耦合基于患者的样本跟踪链340与先前的已知样本跟踪链和结果的比较为产生关于新患者的可能结果的自动、合理的假设提供了坚实的基础。soon-shiong在2012年3月22日在国际上提交的题为“reasoningengines”的美国专利9,262,719中描述了可以适用于利用样本跟踪链340的图形数据库实施方式的示例推理引擎。

应当理解,样本跟踪链340还为遵守一个或更多个规定提供了坚实的基础。例如,样本跟踪链340可以包括符合iec62304审计追踪要求、21cfrpart11要求、hippa规则、hl7支持或其他特征的块级数据。

图4呈现了管理或创建数字样本跟踪链的示例计算机实现方法400。方法400的步骤可以由一个或更多个处理器根据存储在非暂时性计算机可读存储器中的软件指令来执行。可以被配置为作为样本跟踪引擎或搜索引擎根据方法400操作的示例计算设备包括医学成像设备(例如,载玻片扫描仪等)、蜂窝电话、网络服务器、工作站、平板计算机、基于云的服务器、或具有对样本内在状态信息的访问权的其他计算设备。

方法400开始于步骤410,其包括生成样本跟踪链的创世块。如上所讨论的创世块是数字数据块,其包括目标生物样本的内在属性或特征的表示。另外,内在属性表示通常刚从来源提取后的目标生物样本的初始状态。示例内在属性可以包括样本质量、样本形状、样本数量、组织类型、介电属性、机械属性、声学属性、密度、弹性或与样本有关的其他属性。创世块还可以包括与生物样本的供体或来源相关联的数据(例如,社会安全号码、姓名、供体标识符等)。在典型的实施例中,供体是人类患者;然而,供体也可以是其他类型的动物或活生物体。示例供体数据可以包括样本供体标识符,诸如样本位置、过程代码(例如,cpt代码等)、诊断代码(例如,icd代码等)、患者姓名、患者标识符、载玻片标识符、基因组序列、地址、保险标识符或其他供体信息。创世块还可以包括来自其他来源的外部或外在数据,其可能包括条形码、rfid码、标签、工作流标识符、任务标识符、审计追踪代码或其他信息。考虑包括在创世块中的一种特定类型的外部数据包括从先验存在的外部分布式公共账本(例如,比特币、以太坊、超级账本等)的块获得的散列值或摘要。外部散列摘要提供了权威且可验证的标记物或令牌,其指示样本是在特定时间点之后获得的。一旦编制了与样本跟踪链的创世块相关联的数据,就使用所收集的数据(例如,供体数据、内在样本数据、外部数据等)来生成基本上识别创世块的块令牌。在更优选的实施例中,块令牌包括块数据的散列摘要,其中根据散列算法的一个或更多个实施方式生成散列摘要。一旦创世块被实例化,它就可以被存储在由样本的内在属性或其他属性(例如,患者姓名、样本id等)索引的数据库或其他存储系统中。还考虑创世块可以被存储在公共或私有分布式账本中。创世块成为样本的相应样本跟踪链的初始块,其记录样本的生命。这种记录也被认为是为样本提供审计追踪。在一些实施例中,创世块可以由静态数据构造,静态数据例如社会安全号码、出生日期等。可以在本地存储散列摘要,以便使用在稍后的时间点处的相同的数据与重新生成的散列摘要进行比较。在此示例中,两个散列值应该相同,并且因此可以用于验证创世块的完整性。

步骤420集中于一旦样本跟踪链存在就提供对样本跟踪链的访问。因此,步骤420可以用作作为搜索引擎操作的设备的基础,或者用作作为样本跟踪引擎操作的设备的基础,该样本跟踪引擎基于观察的内在样本属性或特征用新的样本状态信息更新样本跟踪链。步骤420包括获得对目标生物样本的样本跟踪链的访问权的设备(例如,样本跟踪引擎、样本搜索引擎等)。从目标生物样本的数字表示导出一种或更多种内在属性。在一些场景中,数字表示包括原始传感器数据(例如,图像传感器数据、探测数据等)。在其他场景中,数字表示可以包括音频数据、图像数据、视频数据、或实时捕获或来自数字记录的其他数据模态。内部属性(可能和与样本有关的其他数据结合)可以被编制/编译到查询(例如,sql命令、关键字、查找索引等)中,然后可以将该查询提交到存储一个或更多个样本跟踪链的样本数据库。在更优选的实施例中,根据命名空间或模式构造查询,通过该命名空间或模式,在数据库中索引样本跟踪变化。例如,可以将从样本的数字图像导出的一个或更多个图像描述符作为查询提交给样本数据库。数据库返回具有零(即,不匹配或null匹配)的结果集或满足查询的更多样本跟踪链。返回到使用图像描述符的示例,样本数据库可以返回具有相似图像描述符的一个或更多个样本跟踪变化。如果返回不止一个样本跟踪链,则可以根据其图像描述符与查询图像描述符的匹配程度对它们进行排名。排名可以基于词频(例如,描述符)和逆文档频率(tf-idf)的变体。鉴于可以基于样本的内在属性以及其他数据(例如,供体名称、样本id、外在数据等)来构造查询,减轻了外在数据输入或样本标签中的错误。在先前的存档样本信息的方法中,用于索引样本信息的索引仅依赖于外在信息。这种外在信息可能由于不正确的数据输入、错误标记或其他因素而严重受到人为错误的影响。因此,所公开的方法还通过依赖于样本的实际内在特征来减少误报,从而提供对易出错的手动过程的改进。

步骤430包括从样本跟踪链检索先前的样本状态对象。先前的样本状态对象包括样本跟踪链的至少一个部分,其具有表示目标生物样本的先前状态的数据。如果基于新观察的状态重新创建样本跟踪链,则可以将先前的样本状态对象视为null对象或者视为可以基于新观察的状态进行充实的新实例化对象。如果样本跟踪链已经存在,那么先前的样本状态对象可以是来自区块链的数据块。块(如关于图3所讨论的)可以包括识别块的一个或更多个块令牌,并且块根据块的数据以及先前的状态信息而被生成;先前的状态信息为例如来自先前块的散列摘要。先前的样本状态对象被用作创建新块的基础。在典型的实施例中,先前的样本状态对象是紧接在前的块。然而,还考虑先前的样本状态对象可以是目标生物样本的任何先前状态,或者甚至可以是与目标生物样本相关联的完整区块链。

可以被认为是可选步骤的步骤440包括通过计算当前观察的状态与样本跟踪链中的先前的样本状态对象中的至少一个之间的相似度测量来确认目标生物样本。鉴于每个状态对象(即区块链中的每个块)包括生物样本的数字内在特征,可能将当前状态的数字特征与先前的样本状态对象中发现的数字特征进行比较。作为一个示例,考虑其中先前的样本状态对象表示整个载玻片图像并且包括多个图像描述符,可能包括从载玻片上的组织的轮廓或边界生成的边缘描述符。注意到,边缘描述符可以用于索引先前的样本状态对象以及相应的样本跟踪链。继续该示例,假设当前观察的状态包括显微切割后的相同载玻片的整个载玻片图像。尽管已经移除了组织样本的部分,因此可能移除了一个或更多个图像描述符,但是样本中的组织的轮廓可以保持基本上完整。这意味着与组织的边界相关联的边缘描述符很大程度上保持完整。因此,边缘描述符可以用于多种目的。第一,可以使用显微切割的载玻片中的组织边界的边缘描述符来检索样本跟踪链或先前的样本状态对象,可能基于最近邻搜索(例如,k-nn搜索、近似nn搜索等)。第二,可以将显微切割的组织的边界边缘描述符与显微切割之前的先前的边缘描述符进行比较,以产生相似度测量。可以根据显微切割之前和之后的边缘描述符的最相似的对之间的欧几里德距离来计算相似度测量。最后的相似测量可能只是欧几里德距离(可能在正规化(normalization)之后)的总和;当接近零时,两个组织样本状态非常相似,并且可以被认为是有效匹配。如果相似度测量具有大的正值,则状态不相似。用于这种相似测量的阈值将取决于描述符的性质、正规化测量、描述符的数量或其他因素。考虑基于样本特征的所有相似度测量。因此,当发现两个状态相似时,新状态可以被认为是所考虑的目标生物样本的有效状态。

步骤450包括生成表示目标生物样本的观察的状态的当前状态。观察的状态包括与一个或更多个传感器(例如,照相机、探针等)或其他数据来源相关联的原始数据或数据文件,并且其表示目标生物样本。在一些实施例中,观察的状态可以包括例如目标生物样本的数字图像。数字图像可以是整个样本的图像或样本的部分的图像。在某些情况下,数字图像可以是在各种放大率处捕获样本的部分的显微照片;放大率为10倍、20倍、40倍和/或更多。关于组织的载玻片图像,40倍放大率可能包括细胞级细节。从观察的状态实例化当前状态。在一些实施例中,当前状态存储与观察的状态相同的数据。在这种情况下,当前状态和观察的状态可以是相同的数据结构。仍然,在更感兴趣的实施例中,当前状态还包括来自观察的状态数据的一个或更多个数字特征(例如,图像描述符、边缘描述符、形状描述符、核密度、沃罗诺伊(voronoi)图等)。应当理解,术语“当前状态”和“观察的状态”用于指存储与生物样本有关的数据以准备创建完整块对象的中间数据对象。

步骤460集中于创建用于集成到样本跟踪链中的新块对象。步骤460包括根据当前状态(如关于步骤450所讨论的)以及先前的样本状态对象来导出当前样本状态对象。当前样本状态对象表示可以集成在样本跟踪链内的完全实例化的数据块。通常,当前样本状态对象包括来自当前状态的期望样本状态数据(例如,图像数据、描述符、音频数据、视频数据等),所述期望样本状态数据表示目标生物样本的内在特征。特别感兴趣的是,当前样本状态对象还包括块令牌,例如散列摘要,所述块令牌是从当前数据以及来自先前的样本状态对象的块令牌生成的。例如,如步骤465所指示的,生成当前样本状态对象的块令牌可以包括基于先前状态的散列摘要计算当前样本状态对象的散列摘要。这样的散列摘要可以是先前状态的散列和当前状态数据的连接。此外,散列摘要可以包括相同散列函数的多次迭代(例如,sha-512(sha-512(数据)))或散列函数的异构混合(例如,sha-512(scrypt(数据)))以减少散列冲突。在一些实施例中,当前样本状态对象的创建还可以包括通过解决作为工作量证明的加密谜题来在分布式账本系统(例如,以太坊、超级账本、比特币等)内创建块。在这种情况下,块令牌可以包括具有特定签名(例如,前导零的数量、期望的位模式等)的散列摘要。更进一步地,当前样本状态对象可以并入外部信息,例如外部公共账本散列摘要,以确认在某个明确定义的时间之前当前样本状态对象中的数据存在。

步骤470包括将当前样本状态对象链接到样本跟踪链中的先前的样本状态对象。在一些实施例中,如在步骤465中所描述的,从先前的样本状态对象生成散列摘要形成链接。而在其他实施例中,新创建或实例化的块可以包括返回先前的样本状态对象的指针,或可以使用指向新创建的当前样本状态对象的指针来更新先前的样本状态对象,从而形成双链表,其中每个块链接到其邻居。

步骤480包括利用当前样本状态对象更新样本跟踪链。取决于实施方式,此步骤可以具有不同的特性。在基于链表的系统中,当前样本状态对象可以存储在数据库中,并且可以使用如步骤470中所讨论的指针更新先前的样本状态对象。又,在其他区块链实施例中,更新样本跟踪链以并入表示当前样本状态对象的块,其中样本跟踪链是单个记录。当样本跟踪链是分布式账本的一部分时,位于对等设备上的样本跟踪链可以通过网络接收对样本跟踪链的更新。例如,可能基于工作量证明或其他“证明”模型而成功创建当前样本状态对象的样本跟踪引擎可以通过将当前样本状态对象打包为以一种或更多种数字格式(例如,xml、yaml、wsdl、二进制对象等)封装并经由一个或更多个协议(例如,tcp/ip、udp/ip、http、https、ftp等)发送的新块,将当前样本状态对象提交给分布式账本系统中的其他对等体。

另外,当账本是分布式的并且涉及多个计算机时,可以利用本领域中已知的用于更新区块链的共识技术,包括确保区块链中的下一个链接是可信的并且未被篡改的工作量证明算法、依靠验证器创建块并且用于其他计算机在块上签字(signoff)的权益证明算法等等。所有这些技术都被考虑为在本文中使用。

步骤485包括根据从目标生物样本的数字表示导出的数字样本特征来索引样本跟踪数据库中的样本跟踪链。数字样本特征可以包括全局样本特征(例如,整个载玻片图像描述符、组织边界边缘描述符等)、样本状态特征(例如,染色、颜色图等)或各种描述符(例如,图像描述符、边缘描述符、形状描述符、颜色描述符、纹理描述符等)。样本跟踪链以及当前样本状态对象可以使用从观察的状态导出的内在特征来索引。内在特征可以包括图像描述符、边缘描述符、数字签名、测量特征、形状描述符、度量、或可以从观察的状态的数字表示导出或测量的其他特征。如前面所讨论的,基于样本的内在特征索引样本跟踪链以及当前样本状态对象使得能够快速且有效地检索数据。尽管方法400集中于基于目标生物样本的内在属性或特征来构建样本跟踪信息,但是还考虑样本跟踪链及其状态对象(例如,样本跟踪区块链中的块等)也可以通过外在信息索引;外在信息为条形码、患者标识符、元数据等。

根据需要,样本跟踪链可以根据上述一个或更多个步骤继续生长。所产生的跟踪链具有许多明显的技术优势。第一,记录目标生物样本的生命周期,并且可以基于在任何时间点作为样本的数字索引操作的内在特征,经由计算设备快速地检索所述目标生物样本的生命周期。第二,可以由外部利益相关者经由利益相关者使用重新计算链中的各种块令牌的计算设备来确认样本数据。此外,利益相关者可以基于来自现有外部公共账本的外部散列摘要来确认在某些时间之前数据存在。

在一些实施例中,样本跟踪链可以是独立的数据结构,例如,单独的数据结构。在其他实施例中,样本跟踪链可以是更大的区块链基础设施的一部分,例如,作为超级账本或其他基于区块链的基础设施的一部分,或者样本跟踪链可以被集成到其他现有的样本跟踪链或区块链中。在其他实施例中,样本跟踪链可以是更大的区块链基础设施的一部分,例如,与技术人员或设施相关联等。可以在美国专利申请号14/711,740中找到将医疗保健数据存储在大区块链中以创建医疗保健历史区块链(hhbc)的示例,所述美国专利申请通过引用并入本文。

本文公开的技术还可以用作使用应用程序编程接口(api)的操作即服务(oaas)。可以对样本跟踪链执行各种分析,样本跟踪链包括散列摘要的链表。如果各种样本跟踪链存储在合适的基础设施上,则期望访问一个或更多个样本状态对象中的数据的医院、科学家、公司或其他实体可订阅服务以访问相关数据。另外,本文呈现的技术可用于存储数据的某些方面和保持数据的某些方面是私密的。例如,通过包括指向成像载玻片的指针,可以向第三方提供对载玻片而不是与载玻片相关联的机密患者信息的访问权。

例如,为了回顾可用于特定类型的肺癌或与特定临床研究相关的所有显微切割,可以审查样本跟踪链以识别相关样本(例如,仅肺显微切割部位)。在其他示例中,可以审查样本跟踪链以建立由特定数据技术人员或在特定设施处分析的数据样本。

为了便于识别相关数据,样本跟踪链可以包括元数据。可以收集各种类型的元数据并将其并入到样本状态对象中以描述样本的特征,例如,1mm样本厚度、癌症类型、临床试验信息等。数据库可以用于存储各种类型的元数据,所述元数据用于表征样本和/或便于识别感兴趣的数据,例如,作为oaas服务的一部分。对于本领域技术人员来说明显的是,在不脱离本发明概念的情况下,除了已经描述的那些之外的许多修改是可能的。因此,除了所附权利要求的精神之外,本发明的主题不受限制。此外,在解释说明书和权利要求时,所有术语应以与上下文一致的可能最宽的方式进行解释。特别地,术语“包括”和“包含”应该被解释为以非排他的方式指代元件、部件或步骤,从而指示所引用的元件、部件或步骤可以存在、或被利用、或与未明确引用的其他元件、部件或步骤组合。当说明书或权利要求涉及从由a、b、c......和n组成的组中选择的至少一种时,文本应被解释为只需要来自该组的一个元素,而不是a加n、或b加n等。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1