去隐私化去敏感化的数据处理方法与流程

文档序号:18466396发布日期:2019-08-17 02:30阅读:800来源:国知局
去隐私化去敏感化的数据处理方法与流程

本发明涉及数据处理技术领域,尤指一种去隐私化去敏感化的数据处理方法。



背景技术:

目前,大数据的分析处理已经被广泛应用于生活的方方面面。然而,在大数据的分析处理尚未提出防止个人身份信息泄露的解决方案。尤其是,多平台交互、涉及身份信息需要严格保密(比如,hiv携带者)的应用场景下,如果个人信息被不法分子获得,将会对人们的人身、财产、名誉等各方面造成严重的不良影响。因此,对于如何在数据处理过程中保护隐私,是亟待解决的主要问题。



技术实现要素:

本申请提供了一种去隐私化去敏感化的数据处理方法,能够实现去隐私化去敏感化的大数据处理。

本申请提供了如下技术方案。

一种去隐私化去敏感化的数据处理方法,包括:

数据处理平台记录对象在多个数据源中的多个虚拟标识,并将所述多个虚拟标识相关联;

所述数据处理平台通过访问接口向所述多个数据源中的一个数据源发送对待查询对象的查询请求时,至少携带所述待查询对象在该数据源中的虚拟标识;

所述数据处理平台根据从不同数据源分别查询得到的所述对象的信息进行数据分析。

其中,所述访问接口为所述数据处理平台对数据源进行单向访问的接口。

其中,同一对象在不同数据源中的虚拟标识不同。

其中,所述数据处理平台向所述多个数据源中的一个数据源发送对待查询对象的查询请求时,还携带所述待查询对象之外的其他对象的虚拟标识,在收到查询结果后,从中筛选出所述待查询对象的信息。

其中,所述数据处理平台记录对象在多个数据源中的多个虚拟标识,包括:所述数据处理平台通过一次或多次信息录入过程记录对象在多个数据源中的多个虚拟标识,其中:一次信息录入过程包括:信息录入模块获取对象的原始标识和在当前数据源的关联标识后,将所述原始标识和所述当前数据源的系统标识上传所述数据处理平台,所述数据处理平台基于所述原始标识生成所述对象在所述当前数据源中的虚拟标识,将所述生成的虚拟标识保存在所述当前数据源的虚拟标识池中,并将生成的虚拟标识返回给所述信息录入模块;所述信息录入模块将接收到的所述生成的虚拟标识和所述关联标识发送给所述当前数据源,所述当前数据源将所述生成的虚拟标识和所述关联标识对应保存。

其中,所述数据处理平台记录对象在多个数据源中的多个虚拟标识,包括:所述数据处理平台通过一次或多次信息录入过程记录对象在多个数据源中的多个虚拟标识,其中:一次信息录入过程包括:信息录入模块获取对象的原始标识和在当前数据源的关联标识后,基于所述原始标识生成所述对象在所述当前数据源中的虚拟标识,将所述生成的虚拟标识和所述当前数据源的系统标识上传数据处理平台,由所述数据处理平台将所述生成的虚拟标识保存在所述当前数据源的虚拟标识池中;所述信息录入模块所述生成的虚拟标识和所述关联标识发送给所述当前数据源,所述当前数据源将所述生成的虚拟标识和所述关联标识对应保存。

其中,所述当前数据源将所述生成的虚拟标识和所述关联标识对应保存,包括:所述当前数据源将所述生成的虚拟标识和所述关联标识保存并建立两者的直接对应关系;或者,所述当前数据源为所述关联标识分配一个虚拟的中间标识,建立所述关联标识与所述中间标识之间的对应关系,以及所述中间标识与所述虚拟标识之间的对应关系。

其中,所述对象的原始标识包括所述对象购买的疾病检测包上的标识;所述关联标识包括:所述对象在所述当前数据源中的身份标识,和/或,所述对象的行为在所述当前数据源中产生的标识。

其中,将所述多个虚拟标识关联包括:所述对象在多个数据源中的多个虚拟标识根据所述对象的原始标识和为所述多个数据源分别设置的虚拟标识生成算法计算得到,得到所述多个虚拟标识后丢弃所述对象的原始标识,通过为所述多个数据源分别设置的虚拟标识生成算法之间的关联关系建立所述多个虚拟标识之间的关联关系;或者,通过所述对象的原始标识将所述多个虚拟标识相关联。

其中,所述数据处理平台的客户端带有位置闭锁装置,在所述客户端所在装置移动到允许的位置范围之外时,即禁止所述数据处理平台被使用。

本申请的优点至少包括:

本发明实施例,利用不同虚拟id向不同数据源查询对象信息,可达到保护隐私的目的,实现去隐私化去敏感化的大数据处理。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。

图1为本申请去隐私化去敏感化的数据处理方法流程示意图;

图2为本申请计算设备的结构示意图;

图3为本申请的示例性应用环境结构示意图;

图4为本申请的示例性应用场景示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请所述的数据处理方法可通过数据处理平台实现,该数据处理平台可通过由多台可相互通信的计算设备形成的客户端-服务器架构来实现。本申请中所述的计算设备可以被体现为(但不限于)终端设备、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、平板计算机、分布式计算系统、多处理器系统、虚拟机、云服务器和/或被配置为执行相应功能的任何其他类型的计算设备。本申请中所述的终端设备可以以各种形式来实施。例如,本申请中描述的终端设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、导航装置、可穿戴设备等移动终端,以及诸如数字tv、台式计算机等固定终端。

如图1所示,本申请提供一种去隐私化去敏感化的数据处理方法,可以包括:

步骤101,数据处理平台记录对象在多个数据源中的多个虚拟标识,并将所述多个虚拟标识相关联;

步骤102,所述数据处理平台通过访问接口向所述多个数据源中的一个数据源发送对待查询对象的查询请求时,至少携带所述待查询对象在该数据源中的虚拟标识;

步骤103,所述数据处理平台根据从不同数据源分别查询得到的所述对象的信息进行数据分析。

本申请的数据处理方法,利用不同虚拟id向不同数据源查询对象信息,可达到保护隐私的目的,实现去隐私化去敏感化的大数据分析。

本申请中,针对同一待查询对象的、不同数据源的查询请求不是同时的。具体来说,可以是从一个数据源查询到对象的信息后,再从中选择要查询的对象,再向另一数据源查询。

本申请中,所述对象可以为人。除此之外,该对象还可以是物体、动物、植物或其他,对此,本文不予限制。

本申请的一种实现方式中,所述访问接口可以为所述数据处理平台对数据源进行单向访问的接口。如此,通过单向访问可进一步保护隐私。

本申请的一种实现方式中,同一对象在不同数据源中的虚拟标识可以不同。

本申请的一种实现方式中,所述数据处理平台向所述多个数据源中的一个数据源发送对待查询对象的查询请求时,还携带所述待查询对象之外的其他对象的虚拟标识,在收到查询结果后,从中筛选出所述待查询对象的信息。这样,在查询过程中通过真假数据的结合,进一步去敏感化,即使数据源不清楚真实的查询对象。实际应用中,不需要每次查询都采用此方式。比如,在需要了解所有的疾病检测结果,可以直接使用真数据进行查询。

本申请的一种实现方式中,所述数据处理平台记录对象在多个数据源中的多个虚拟标识,包括:所述数据处理平台通过一次或多次信息录入过程记录对象在多个数据源中的多个虚拟标识,其中:一次信息录入过程可以包括:信息录入模块获取对象的原始标识和在当前数据源的关联标识后,将所述原始标识和所述当前数据源的系统标识上传所述数据处理平台,所述数据处理平台基于所述原始标识生成所述对象在所述当前数据源中的虚拟标识,将所述生成的虚拟标识保存在所述当前数据源的虚拟标识池中,并将生成的虚拟标识返回给所述信息录入模块;所述信息录入模块将接收到的所述生成的虚拟标识和所述关联标识发送给所述当前数据源,所述当前数据源将所述生成的虚拟标识和所述关联标识对应保存。

本申请的另一种实现方式中,所述数据处理平台记录对象在多个数据源中的多个虚拟标识,可以包括:所述数据处理平台通过一次或多次信息录入过程记录对象在多个数据源中的多个虚拟标识,其中:一次信息录入过程可以包括:信息录入模块获取对象的原始标识和在当前数据源的关联标识后,基于所述原始标识生成所述对象在所述当前数据源中的虚拟标识,将所述生成的虚拟标识和所述当前数据源的系统标识上传数据处理平台,由所述数据处理平台将所述生成的虚拟标识保存在所述当前数据源的虚拟标识池中;所述信息录入模块将所述生成的虚拟标识和所述关联标识发送给所述当前数据源,所述当前数据源将所述生成的虚拟标识和所述关联标识对应保存。

本申请的一种实现方式中,所述当前数据源将所述生成的虚拟标识和所述关联标识对应保存,可以包括:所述当前数据源将所述生成的虚拟标识和所述关联标识保存并建立两者的直接对应关系;或者,所述当前数据源为所述关联标识分配一个虚拟的中间标识,建立所述关联标识与所述中间标识之间的对应关系,以及所述中间标识与所述虚拟标识之间的对应关系。除此之外,数据源中的关联标识还可以通过另一虚拟标识来建立与数据处理平台的虚拟标识之间的关系。

本申请的一种实现方式中,所述对象的原始标识包括所述对象购买的疾病检测包上的标识;所述关联标识包括:所述对象在所述当前数据源中的身份标识,和/或,所述对象的行为在所述当前数据源中产生的标识。实际应用中,身份标识可以如淘宝号、手机号等标识,行为标识指由对象行为在数据源中产生的标识,比如快递单号。本申请中,将所述多个虚拟标识关联可以包括:所述对象在多个数据源中的多个虚拟标识根据所述对象的原始标识和为所述多个数据源分别设置的虚拟标识生成算法计算得到,得到所述多个虚拟标识后丢弃所述对象的原始标识,通过为所述多个数据源分别设置的虚拟标识生成算法之间的关联关系建立所述多个虚拟标识之间的关联关系;或者,通过所述对象的原始标识将所述多个虚拟标识相关联。如此,可以丢掉原始编号,只有系统内置算法可以关联多个虚拟id,没有显式的关联信息,可进一步防止真实数据泄露。

一个示例中,可以是在信息录入过程(同时录入数据源的真实标识和对象的原始标识,如通过卖服务包的淘宝商家来执行,可以是手动或自动录入)通过数据处理平台生成,同时共享给在线购物平台(比如,淘宝系统)。

一个示例中,算法之间的关系如第一个数据源的算法是原始标识加10,第二个数据源的算法原始标识减10,则将第一个数据源的虚拟id减20就得到与其关联的第二个数据源的虚拟id,当然不限于加减运算,只要该算法可以进行逆运算,根据虚拟id进行逆运算得到原始id就可以。

在通过原始标识关联时,虚拟标识也可以是数据源生成的,由数据处理平台记录,也可以由数据源生成,数据源生成时也可以不采用算法生成,如随机生成一些虚拟id,在信息录入过程分配给对象并建立与对象原始id的对应关系就可以。

本申请中的一种实现方式中,所述数据处理平台的客户端可以带有位置闭锁装置,在所述客户端所在装置移动到允许的位置范围之外时,即禁止所述数据处理平台被使用。如此,通过使用有位置闭锁功能,可提高安全性。

本申请还提供一种数据处理平台,包括至少一台计算设备,如图2所示,一台计算设备可以包括:存储有计算机程序的存储器21;处理器22,配置为读取所述计算机程序以执行上述的数据处理方法。该数据处理平台的技术细节可参照上文方法部分。

本申请还提供一种计算机存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据处理方法。该计算机存储介质的技术细节可参照上文方法部分。

应用场景

本申请中的数据处理方法可适用于任何类型流行病的数据处理。这些流行病包括但不限于:艾滋病(hiv)、糖尿病、霍乱、脑膜炎、猪流感、禽流感、流行性感冒、肺结核、细菌性痢疾、甲型肝炎、乙型肝炎、疟疾、流行性乙型脑炎、丝虫病、淋病、梅毒、艾滋病、腮腺炎,麻疹等。

下面以艾滋病的数据处理为例对本申请数据处理方法进行详细说明。

本实例中,对象为使用检测包进行艾滋病检验的人,原始标识为检测包编号。本实施中,数据处理平台与其他各个系统之间的交互如图3所示。

本实例中,对象可购买疾病检测包,自己采集尿液等样本之后,将装有样本的采样管包装在疾病检测包中,通过物流商将疾病检测包寄送到检测中心的实验室,检测中心的检测人员对样本进行检验,并将采样管编号与检验结果(阳性或阴性)一同录入检测系统。一种场景中,对象可通过自动售货设备购买检测包,该场景的过程如图4所示。另一种场景中,对象可直接从销售检测包的实体店购买检测包并自己通过物流商将检测包邮寄到检测中心进行检测,

对象购买检测包的过程中,实体店店员使用实体店设备扫描检测包并扫描对象的在线支付码完成检测包的销售,在该过程中,安装在实体店设备上的信息录入模块获取对象的买家id1与检测包编号1,生成对应的虚拟标识1,将虚拟标识1及其对应的买家id1送至电商系统,电商系统将该虚拟标识1与买家id1对应保存,同时将虚拟标识1及其对应的检测包编号1送至数据处理平台,数据处理平台记录虚拟标识1及其对应的检测包编号1。通过自动售货装置购买检测过程的过程中,由安装在自动售货装置上的信息录入模块完成上述过程。

检测包通过物流商寄送到检测中心之后,检测中心的工作人员将相关的信息录入。此过程中,安装在检测中心设备上的信息录入模块获取快递单号1和采样管编号1,生成对应的虚拟标识2,将虚拟标识2及其对应的快递单号1送至物流系统,物流系统将该虚拟标识2与快递单号1对应保存,同时在检测中心系统查询到对应采样管编号1的检测包编号1,将虚拟标识2及其对应的检测包编号1送至数据处理平台,数据处理平台记录虚拟标识2及其对应的检测包编号1。

对检测包中的样本进行检验之后,检测中心的工作人员将检测结果录入。此过程中,安装在检测中心设备上的信息录入模块获取检测结果1(阴性或阳性)和采样管编号1,生成对应的虚拟标识3,将虚拟标识3及其对应的检测结果1送至检测中心系统,检测中心系统将该虚拟标识3与采样管编号1对应保存,同时在检测中心系统查询到对应采样管编号1的检测包编号1,将虚拟标识3及其对应的检测包编号1送至数据处理平台,数据处理平台记录虚拟标识3及其对应的检测包编号1。

经过上述处理之后,数据处理平台将虚拟标识1、虚拟标识2、虚拟标识3关联并对应保存,将检测包编号1丢弃。检测中心系统将虚拟标识3与检测结果1保存并建立两者的直接对应关系,物流系统将虚拟标识2与快递单号1保存并建立两者的直接对应关系,电商系统将虚拟标识1与买家id1保存并建立两者的直接对应关系。

数据处理平台可通过虚拟标识3向检测中心系统查询对象的检测结果,并按照检测结果与虚拟标识3、虚拟标识2、虚拟标识1进行关联并对应保存。一种实现方式中,数据处理平台可以将检测结果为阳性的虚拟标识3、虚拟标识2、虚拟标识1归为一类,将检测结果阴性的虚拟标识3、虚拟标识2、虚拟标识1归为另一类。

数据处理平台可通过虚拟标识1向电商系统查询指定对象的购买行为信息,并通过购买行为信息分析对象的购买行为,确定对象是否属于潜在传播者,并将表示对象是否属于潜在传播者的状态信息进行记录。此过程中,数据处理平台可以仅查询检测结果为阳性的虚拟标识1的购买行为信息,也可以将检测结果为阳性的虚拟标识1与检测结果为阴性的虚拟标识1掺杂在一起查询其购买行为信息,在获取购买行为信息之后从中筛选出检测结果为阳性的虚拟标识1的购买行为信息,并以此确定对象是否属于潜在传播者,并将表示对象是否属于潜在传播者的状态信息进行记录。同理,数据处理平台可通过虚拟标识2向物流系统查询指定对象的物流行为信息,并通过物流行为信息分析对象的物流行为,确定对象的地域信息,并将与虚拟标识2与地域信息进行对应记录。

需要说明的是,本实施例的计算机存储介质可以包括永久性和非永久性、可移动和非可移动存储介质,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom),快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1