一种生物样本库的数据存储方法及其控制装置制造方法

文档序号：6623263阅读：208来源：国知局

一种生物样本库的数据存储方法及其控制装置制造方法
【专利摘要】本申请实施方式提供了一种生物样本库的数据存储方法。该方法包括：采集患者的唯一性标识，所述唯一性标识可在至少两个数据源范围内唯一对应患者；对该唯一性标识进行不可逆加密运算，得到全局性患者标识；针对不同的数据源对患者进行生物样本采集，以及对采集的数据进行分析，分别建立生物样本采集数据和分析结果数据与所述全局性患者标识之间的交叉索引；依据所述交叉索引存储所述生物样本采集数据和分析结果数据。本申请的实施方式还提供了一种生物样本库的数据存储控制装置。本申请实施方式可以提高生物样本数据的共享能力。
【专利说明】一种生物样本库的数据存储方法及其控制装置

【技术领域】
[0001] 本申请的实施方式涉及数据存储【技术领域】，尤其涉及一种生物样本存的数据存储方法及其控制装置。

【背景技术】
[0002] 在生物、医药等领域会产生各种各样的样本及其附随资料。比如，与一个患者紧密关联的组织、血浆、生物体液等样本，以及与这些生物样本相关的各种临床治疗、随访等资料。这些数据（指生物样本及其相关资料）即使在一个样本生成单位，比如，某家医院、科研院所，其数据量也相当大。为便于后续研究和利用，不仅需要将这些数据存储到专门的生物样本库（又称为生物银行），而且存储时必须有规律、有组织的存储，以便于迅速查找取用。
[0003] 由于生物样本库内存储的数据种类繁多、数量巨大，具体存储时需要对各个数据进行区别、标识。在现有技术中，将为各个数据建立一个ID号，依据该ID进行所有数据的存储。这类标有ID号的数据能够在一个生物样本库的系统内得到区分，并实现快速检索。但是，即便就一个样本生成单位而言，其具有各种不同的系统，比如，随着医院信息化建设的持续推进，目前医院信息系统在原有HIS系统的基础上，逐步出现了 LIS、RIS/PACS、手术麻醉、病理、心电、重症监护（ICU/CCU)、等系统，而这些系统通常来自不同的提供商，每个提供商提供的系统（数据源）的架构、数据格式、编码标准等均可能不同，使得利用一个系统 (一个数据源）内ID无法识别其他系统（另一个数据源）内与该ID对应的患者相关的数据，导致不同系统的患者信息和临床信息等不能实现共享。为解决该问题，现在出现的一种趋势是由HIS厂商托管患者信息的管理职能，由其在自己提供的生物样本系统中预留开放接口，但是，这种方法不仅增加了开发成本，而且也没有从根本上解决多系统内的数据共享的问题。

【发明内容】

[0004] 为了解决上述问题，本申请实施方式提供了一种生物样本库的数据存储方法及其控制装置，以便生物样本库的跨数据源能力。
[0005] 本申请实施方式提供的生物样本库的数据存储方法包括：
[0006] 采集患者的唯一性标识，对该唯一性标识进行不可逆加密运算，得到全局性患者标识；
[0007] 针对不同的数据源对患者进行生物样本采集，以及对采集的数据进行分析，分别建立生物样本采集数据和分析结果数据与所述全局性患者标识之间的交叉索引；
[0008] 依据所述交叉索引存储所述生物样本采集数据和分析结果数据。
[0009] 优选地,所述患者的唯一'丨生标识为一个数据共享区范围内能唯一标识患者的标识。
[0010] 进一步优选地，所述唯一性标识为患者身份证号码。 toon] 优选地，采用对称加密算法对所述交叉索引进行加密，将加密后的交叉索引保存到一个数据库中，并对保存有交叉索引的数据库进行加密。
[0012] 本申请实施方式还提供了一种生物样本库的数据存储控制装置。该装置包括：标识采集单元、不可逆运算单元、样本处理单元、索引建立单元和数据存储单元，其中：
[0013] 所述标识采集单元，用于采集患者的唯一性标识；
[0014] 所述不可逆运算单元，用于对该唯一性标识进行不可逆加密运算，得到全局性患者标识；
[0015] 所述样本处理单元，用于针对不同的数据源对患者进行生物样本采集，以及对采集的数据进行分析；
[0016] 所述索引建立单元，用于分别建立生物样本采集数据和分析结果数据与所述全局性患者标识之间的交叉索引；
[0017] 所述数据存储单元，用于依据所述交叉索引存储所述生物样本采集数据和分析结果数据。
[0018] 优选地,所述患者的唯一'丨生标识为一个数据共享区范围内能唯一标识患者的标识。
[0019] 进一步优选地，所述唯一性标识为患者身份证号码。
[0020] 优选地，所述装置包括索引保存单元和加密运算单元，其中：
[0021] 所述索引保存单元，用于将所述交叉索引保存到一个数据库中；
[0022] 所述加密运算单元，用于采用对称加密算法对所述交叉索引进行加密，以及对保存有交叉索引的数据库进行加密。
[0023] 本申请实施方式对采集到的患者的唯一性标识进行不可逆加密运算得到全局性患者标识，并依据该全局性患者标识建立与患者来自不同数据源的生物样本采集数据和分析结果数据之间的索引关系，以该索引关系来存储这些数据。与现有技术相比，针对不同的数据源，采用了全局性的患者标识，从而可以支持跨数据源操作，为不同系统之间进行患者数据的共享提供了条件。此外，通过对患者唯一性标识进行不可逆运算处理，即便别人得到不可逆运算结果的全局性患者标识，也无法逆向得到患者唯一性标识中带有的相关信息，从而最大程度地保护了患者隐私。

【专利附图】

【附图说明】
[0024] 通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：
[0025] 图1为本申请的生物样本库的数据存储方法的一个实施例的流程图；
[0026] 图2为本申请的一个实施例的实例示意图；
[0027] 图3为本申请的生物样本库的数据存储控制装置实施例的结构框图。

【具体实施方式】
[0028] 下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本申请的公开更加透彻和完整，并且能够将本申请公开的范围完整地传达给本领域的技术人员。
[0029] 参见图1，该图示出了本申请提供的生物样本库的数据存储方法的一个实施例的流程，该流程包括：
[0030] 步骤S11 :采集患者的唯一性标识，所述唯一性标识可在至少两个数据源范围内唯一对应患者；
[0031] 在数字化系统中，患者的身份需要被标定，标定的方式可以直接采取对患者设置一个标识即可，但是，基于标识的适用范围不同，需要设置一个级别较高的标识，即该标识能够唯一'丨生标识该患者，而不会出现一标识多个患者或者一个患者多个标识。当然，患者与标识之间的唯一性关系一定程度上取决于需要在几个数据源范围内实现数据的共享。比如，如果仅仅需要在一个医院内的多个系统之间共享患者信息，那么这里的患者唯一性标识可以仅在该家医院内具有唯一标识患者的作用。也就是说，希望在几个不同系统间实现数据共享，那么该标识在该几个不同系统之上具有全局性。
[0032] 步骤S12 :对该唯一性标识进行不可逆加密运算，得到全局性患者标识；
[0033] 采集到患者的唯一性标识之后，本申请对该唯一性标识进行加密运算，这里的加密运算具有不可逆特性，所谓不可逆特性是指由不可逆运算处理后的结果不能返回到原数据，即具有单向性。通过不可逆加密运算可以得到全局性患者标识。具体不可逆加密运算可以采取多种方式实现，比如哈希算法，哈希算法依赖哈希函数，哈希函数是一个数学方程式，它可用文本（如电子邮件信息）来生成称为信息摘要的代码，著名的哈希函数如：MD4、 MD5、SHS 等。
[0034] 步骤S13 :针对不同的数据源对患者进行生物样本采集，以及对采集的数据进行分析；
[0035] 如前所述，一个患者的生物样本及其附随材料可能来自于多个数据源，这里需要依据不同的数据源对患者的生物样本进行采集，采集之后还可以对采集的数据进行分析，得到分析结果数据。
[0036] 步骤S14 :分别建立生物样本采集数据和分析结果数据与所述全局性患者标识之间的交叉索引；
[0037] 按照前述步骤采集得到患者的相关信息后，可以建立这些数据与前述的全局性患者标识之间的交叉索引，即为来自不同系统但确定为同一个患者的记录建立交叉索引，从而可以将全局性患者标识作为交叉索引的连接点，追踪到生物样本采集数据以及分析结果数据。建立了交叉索引，有利于实现同一患者不同信息之间的钩稽，为跨系统的患者身份识别提供服务，而且，这种方式还可以避免对现有信息系统中的患者标识进行改造，降低了成本。
[0038] 步骤S15 :依据所述交叉索引存储所述生物样本采集数据和分析结果数据。
[0039] 本申请实施方式对采集到的患者的唯一性标识进行不可逆加密运算得到全局性患者标识，并依据该全局性患者标识建立与患者来自不同数据源的生物样本采集数据和分析结果数据之间的索引关系，以该索引关系来存储这些数据。与现有技术相比，针对不同的数据源，采用了全局性的患者标识，从而可以支持跨数据源操作，为不同系统之间进行患者数据的共享提供了条件。比如，在一个复杂的医疗体系内，通过全局性的患者标识可以将多个医疗信息系统有效地关联起来，以实现各个系统之间的互联互通，从而保证了对同一个患者，可以使分布在不同系统中的个人信息的采集具有更强的完整性和准确性。
[0040] 此外，通过对患者唯一性标识进行不可逆运算处理，即便别人得到不可逆运算结果的全局性患者标识，也无法逆向得到患者唯一性标识中带有的相关信息，从而最大程度地保护了患者隐私。
[0041] 在上述实施例中提到唯一性标识，认为该唯一性标识至少可在两个数据源范围内唯一对应患者，实际上，除了这种基于数据源来确定唯一性标识的"唯一性"外，还可以具有数据共享区的范围来确定。比如，某个省级单位希望在其辖区内的所有医疗系统内共享一个患者的数据，那么这里的唯一性标识应当能够在该省级单位的辖区内的所有医疗系统中具有唯一性。由此，唯一性标识可以在数据源的层面论及，也可以在数据共享区范围内论及，甚至将两者结合起来。在数据共享区内论及，一种最为普遍的唯一性标识可以是身份证号码，基于我国的实际情况，由于每个人出生时均被分配了唯一性的身份证号，因此该身份证号可以在我国范围内起到区分患者的目的，这样基于这种唯一性标识得到的全局性患者标识将可以在全国范围内区分该患者的数据与其它患者的数据，从而可以为最广泛的数据共享打下基础。当然，如果将本申请的技术方案适用于其他国家时，这里的身份证号码可以表现为其它的个人信息识别码，比如，在美国，可以将社会安全号码作为患者的唯一性标识，该号码一旦被分配，将用于识别一个人的一生的唯一标识，无论在卫生保健、保险、银行、驾照、兵役、信用卡交易等。再比如，在Swedish Biobank Information Management System中，可以采用公民注册号作为唯一性标识。
[0042] 但是，如果仅仅将作为国家管理公民的标识号（比如前述的身份证号码、社会安全号码、公民注册号等）作为患者的唯一性标识，将其当着全局性患者标识用于存储生物样本库内将要保存的数据，而不采取其它措施，将可能带来信息泄露。比如，对于身份证号码，在我国身份证号码包含了个人出生地、出生年月、本地区是否存在同名人等信息，如果直接使用身份证号码作为生物样本库的数据存储的索引关键字，将可能使得附着于身份证号码上的其它信息被破解，导致隐私泄露。为此，本申请恰好采取了对该唯一性标识进行不可逆加密运算，将不可逆加密运算的结果才作为全局性患者标识，这样，即便有人恶意拿到该全局性患者标识，那么由于该全局性患者标识的不可逆性，使其无法通过破解等手段得到相应的身份证号码，从而也就避免了个人信息的过多泄露，最大程度上保护了患者隐私。 [0043] 在前述实施例中提到交叉索引，设置交叉索引，可以用来查找各个子系统中的全局性患者标识，为了便于对交叉索引的利用，可以将建立的生物样本采集数据和分析结果数据与全局性患者标识之间的交叉索引保存到一个专门的数据库之中，比如Oracle数据库。在将交叉索引保存到数据库之前或者保存交叉索引之后，可以分别针对交叉索引和数据库进行加密，从而可以通过这些加密处理，从安全角度、效率角度更好地保护患者隐私。比如，将交叉索引保存到数据库之前，可以采取对称加密算法对交叉索引进行加密，通过这种加密可以进一步保护患者隐私。举例而言：在实际应用过程中，通常会出现这种情况，即将某些数据上传到某个系统时，会将患者在某个子系统内的标识同时上传上去，从而可能出现"反查询"泄漏掉患者的隐私，但是通过上述加密后，即便通过上传了患者在子系统内的标识，也不会被猜测到该子标识对应的患者是谁，从而起到了"混淆"的作用。此外，还可以对保存了交叉索引的数据库进行加密。参见图2,该图示出了本申请实施例的一个实例的大致原理，该图通过利用患者的身份证号进行哈希运算得到全局性患者标识（Global Patient ID)，利用该全局性患者标识生成了交叉索引，该交叉索引可以用于数据采集、数据分析等场合，即通过该全局性患者标识去对应采集的数据（该数据具有数据采集PID)，从而生成由该全局性患者标识标识的生物样本数据，通过该全局性患者标识去对应对采集的生物样本数据进行分析的结果数据（该数据具有数据分析PID)，从而生成由该全局性患者标识标识的分析结果数据。在进行数据搜索时，通过全局性患者标识可以查找到同一个患者在不同信息系统的相关数据，而且，针对无论输入哪个子系统的标识都可以唯一确定患者。如果按照前述的方式对数据库或交叉索引进行了加密，那么当进行搜索时，需要先进行解密，再进行查询。
[0044] 上述内容详细介绍了本申请的生物样本库的数据存储方法的实施例，相应地，本申请还提供了一种生物样本库的数据存储控制装置的实施例。参见图3，该图示出了本申请生物样本库的数据存储控制装置的一个实施例的结构框图。该装置实施例包括标识采集单元U31、不可逆运算单元U32、样本处理单元U33、索引建立单元U34和数据存储单元U35,其中：
[0045] 标识采集单元U31，用于采集患者的唯一性标识；
[0046] 不可逆运算单元U32,用于对该唯一性标识进行不可逆加密运算，得到全局性患者标识；
[0047] 样本处理单元U33,用于针对不同的数据源对患者进行生物样本采集，以及对采集的数据进行分析；
[0048] 索引建立单元U34,用于分别建立生物样本采集数据和分析结果数据与所述全局性患者标识之间的交叉索引；
[0049] 数据存储单元U35,用于依据所述交叉索引存储所述生物样本采集数据和分析结果数据。
[0050] 上述控制装置实施例的工作过程为：标识采集单元U31采集患者的唯一性标识，再由不可逆运算单元U32对该唯一性标识进行不可逆加密运算，得到全局性患者标识，然后样本处理单元U33针对不同的数据源对患者进行生物样本采集，以及对采集的数据进行分析，再由索引建立单元U34分别建立生物样本采集数据和分析结果数据与所述全局性患者标识之间的交叉索引，最后数据存储单元U35依据所述交叉索引存储所述生物样本采集数据和分析结果数据。
[0051] 在这个装置实施例中，需要说明的是该装置实施例为控制装置实施例，即这里应当区分对生物样本数据进行存储的生物样本库自身所在的装置与本装置实施例，本装置的实施方式是用于控制对生物样本数据的存储过程，但生物样本数据实际存储的地方应当是生物样本库自身所在的装置。本装置的实施方式同样能够取得与前述方式实施方式相同的技术效果，为避免重复，这里不再重复叙述。
[0052] 与前述方法实施方式类似，这里的患者唯一性标识可以为一个数据共享区范围内可以唯一标识患者的标识，也就是通过该限定，给患者的唯一性标识赋予了两方面的属性，一是跨数据源的属性，即要保证该唯一性标识可在至少两个数据源范围内具有唯一性；二是跨地域的属性，即要保证该唯一性标识可在数据共享区范围内具有唯一性。这两个属性在某些情况下具有同一性。此外，在强调唯一性标识的跨地域性的属性时，唯一性标识可以体现为患者的身份证号码，从而可以从更广泛的角度来论及患者的数据共享问题。
[0053] 本领域技术人员基于本申请所描述的本发明的核心精神，还可以基于各自实际需要对本申请的技术方案进行进一步改进或变形，从而得到更多可行的方案。比如，上述装置实施方式还可以包括：索引保存单元U36和加密运算单元U37,其中：索引保存单元U36,用于将所述交叉索引保存到一个数据库中；所述加密运算单元U37,用于采用对称加密算法对所述交叉索引进行加密，以及对保存有交叉索引的数据库进行加密。通过索引保存单元和加密运算单元的工作可以更好地保护患者隐私。
[0054] 值得说明的是，虽然前述内容已经参考若干【具体实施方式】描述了本发明创造的精神和原理，但是应该理解，本发明创造并不限于所公开的【具体实施方式】，对各方面的划分也不意味着这些方面中的特征不能组合，这种划分仅是为了表述的方便。本发明创造旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
【权利要求】
1. 一种生物样本库的数据存储方法，其特征在于，所述方法包括：采集患者的唯一'I"生标识，所述唯一'丨生标识可在至少两个数据源范围内唯一对应患者；对该唯一性标识进行不可逆加密运算，得到全局性患者标识；针对不同的数据源对患者进行生物样本采集，以及对采集的数据进行分析，分别建立生物样本采集数据和分析结果数据与所述全局性患者标识之间的交叉索引；依据所述交叉索引存储所述生物样本采集数据和分析结果数据。
2. 根据权利要求1所述的方法，其特征在于，所述患者的唯一性标识为一个数据共享区范围内能唯一标识患者的标识。
3. 根据权利要求2所述的方法，其特征在于，所述唯一性标识为患者身份证号码。
4. 根据权利要求1至3中任何一项所述的方法，其特征在于，采用对称加密算法对所述交叉索引进行加密，将加密后的交叉索引保存到一个数据库中，并对保存有交叉索引的数据库进行加密。
5. -种生物样本库的数据存储控制装置，其特征在于，该装置包括：标识采集单元、不可逆运算单元、样本处理单元、索引建立单元和数据存储单元，其中：所述标识采集单元，用于采集患者的唯一性标识；所述不可逆运算单元，用于对该唯一性标识进行不可逆加密运算，得到全局性患者标识；所述样本处理单元，用于针对不同的数据源对患者进行生物样本采集，以及对采集的数据进行分析；所述索引建立单元，用于分别建立生物样本采集数据和分析结果数据与所述全局性患者标识之间的交叉索引；所述数据存储单元，用于依据所述交叉索引存储所述生物样本采集数据和分析结果数据。
6. 根据权利要求5所述的装置，其特征在于，所述患者的唯一性标识为一个数据共享区范围内能唯一标识患者的标识。
7. 根据权利要求6所述的装置，其特征在于，所述唯一性标识为患者身份证号码。
8. 根据权利要求5至7中任何一项所述的装置，其特征在于，所述装置包括索引保存单元和加密运算单元，其中：所述索引保存单元，用于将所述交叉索引保存到一个数据库中；所述加密运算单元，用于采用对称加密算法对所述交叉索引进行加密，以及对保存有交叉索引的数据库进行加密。
【文档编号】G06F17/30GK104156434SQ201410395216
【公开日】2014年11月19日申请日期:2014年8月12日优先权日:2014年8月12日
【发明者】张翔, 甘伟申请人:北京嘉和美康信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张翔;甘伟
技术所有人：北京嘉和美康信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。