一种隐私数据保护方法、系统及装置与流程

文档序号:21201946发布日期:2020-06-23 19:25阅读:272来源:国知局
一种隐私数据保护方法、系统及装置与流程

本说明书涉及数据处理领域,特别涉及一种隐私数据保护方法、系统及装置。



背景技术:

随着信息科技的发展,数据已然成为一项重要的网络资源。例如,智能终端,比如智能手机,的用户使用各种手机软件所产生的用户交互数据、软件运行数据等。通过对这些私密的数据进行分析和处理,可以更好的为用户提供服务(例如,软件bug修复、为用户进行个性化推荐等)。目前,这些私密的数据的获取方式之一是在用户的许可下通过监控用户客户端(比如智能手机)来收集。然而,用户数据是极其隐私的,在收集时如何保护数据的隐私安全至关重要。

因此,有必要提供一种隐私数据保护方法,以提高数据在收集及处理时隐私安全性。



技术实现要素:

本说明书实施例的一个方面提供一种隐私数据保护方法。所述隐私数据保护方法包括:可以分别从至少两个个数据源处获取隐私数据。可以对所述至少两个数据源的隐私数据执行第一处理操作,以获取至少两份第一处理数据,其中,所述第一处理操作用于对隐私数据的至少一部分进行隐匿。可以对第一处理数据执行第二处理操作,以获取第二处理数据,其中,所述第二处理操作用于将源自至少两个数据源的第一处理数据进行混合后划分为至少两个批次。可以依次传输所述第二处理数据中的至少两个批次至可信执行环境执行第三处理操作,其中,所述第三处理操作用于基于第二处理数据恢复出至少一份隐私数据中的至少一部分,并对所述至少一部分进行数据处理。

本说明书实施例的另一个方面提供一种隐私数据保护系统,所述系统包括:第一获取模块,可以用于分别从至少两个数据源处获取隐私数据。第一处理模块,可以用于对所述至少两个数据源的隐私数据执行第一处理操作,以获取至少两份第一处理数据,其中,所述第一处理操作用于对隐私数据的至少一部分进行隐匿。第二处理模块,可以用于对第一处理数据执行第二处理操作,以获取第二处理数据,其中,所述第二处理操作用于将源自至少两个数据源的第一处理数据进行混合后划分为至少两个批次。第三处理模块,可以用于依次传输所述第二处理数据中的至少两个批次至可信执行环境执行第三处理操作,其中,所述第三处理操作用于基于第二处理数据恢复出至少一份隐私数据中的至少一部分,并对所述至少一部分进行数据处理。

本说明书实施例的另一个方面提供一种隐私数据保护方法,所述方法包括:获取源自两个以上数据源的至少两份第一处理数据,其中,所述第一处理数据包括经过第一处理操作处理后的数据源的隐私数据,第一处理操作用于将隐私数据的至少一部分进行隐匿。可以对第一处理数据执行第二处理操作,以获取第二处理数据,其中,所述第二处理操作用于将源自至少两个数据源的第一处理数据进行混合后划分为至少两个批次。可以依次传输所述第二处理数据中的至少两个批次至可信执行环境执行第三处理操作,其中,所述第三处理操作用于基于第二处理数据恢复出至少一份隐私数据中的至少一部分,并对所述至少一部分进行数据处理。

本说明书实施例的另一个方面提供一种隐私数据保护系统,所述系统包括:第二获取模块,可以用于获取源自两个以上数据源的至少两份第一处理数据,其中,所述第一处理数据包括经过第一处理操作处理后的数据源的隐私数据,第一处理操作用于将隐私数据的至少一部分进行隐匿。第四处理模块,可以用于对第一处理数据执行第二处理操作,以获取第二处理数据,其中,所述第二处理操作用于将源自至少两个数据源的第一处理数据进行混合后划分为至少两个批次。第五处理模块,可以用于依次传输所述第二处理数据中的至少两个批次至可信执行环境执行第三处理操作,其中,所述第三处理操作用于基于第二处理数据恢复出至少一份隐私数据中的至少一部分,并对所述至少一部分进行数据处理。

本说明书实施例的另一个方面提供一种隐私数据保护装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现隐私数据保护方法。

附图说明

本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:

图1是根据本说明书一些实施例所示的隐私数据保护系统的示例性应用场景图;

图2是根据本说明书一些实施例所示的一种隐私数据保护方法的示例性流程图;

图3是根据本说明书一些实施例所示的对部分数据进行隔离的示例性流程图;

图4是根据本说明书一些实施例所示的一种隐私数据保护系统的示例性模块图;

图5是根据本说明书一些实施例所示的另一种隐私数据保护方法的示例性流程图;

图6是根据本说明书一些实施例所示的另一种隐私数据保护系统的示例性模块图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。

应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。

在一些实施例中,对于隐私数据的保护处理(例如,通过对前端运行的程序进行监控所获取的数据),可以是使用类似数据脱敏的方法,将数据中敏感信息(例如,数据来源)擦除,然后再进行处理。这种处理方式,方案简单,容易被攻击,难以真正有效地的保护隐私数据的安全。因此,本说明书又一些实施例披露了一种隐私数据保护方法,可以在数据的收集、传输及处理等过程中对数据进行全程保护,可以有效地提高对用户隐私数据保护的安全性。以下通过对附图的描述详细阐述本说明书披露的技术方案。

图1是根据本说明书一些实施例所示的隐私数据保护系统的示例性应用场景图。如图1所示,应用场景100可以包括隐私数据保护系统110、网络120、终端130、以及存储设备140。

隐私数据保护系统110可以执行一个或多个本说明书中描述的功能。例如,隐私数据保护系统110可以用于对隐私数据进行多次处理以保护隐私数据的安全。在一些实施例中,隐私数据保护系统110可以与应用场景100中的其他部件进行通信以进行数据传输。例如,隐私数据保护系统110可以与隐私数据保护系统100中的其他部件,例如,终端130和/或存储设备140进行通讯以获取数据和/或信息。在一些实施例中,隐私数据保护系统110可以包括有一个或以上功能的程序模块,例如,第一处理模块、第二处理模块以及第三处理模块。在一些实施例中,各个程序模块可以在不同的硬件设备上实现,如图1中所示的服务器110-1、服务器110-2、服务器110-3等。以上服务器可以是分布式的。在一些实施例中,第一处理模块可以集成在终端130中,用于直接对在终端130上收集到的隐私数据进行处理比如本说明书中所提到的第一处理操作。第二处理模块与第三处理模块可以设置在后端,如服务器110-2/110-3上,用于对接收到的数据进行进一步处理如本说明书中所提到的第二处理操作以及第三处理操作。在一些实施例中,多个服务器中的每一个可以单独或组合的完成本说明书所披露的一个或多个功能。例如,第一处理操作、第二处理操作以及第三处理操作可以分别由独立的服务器执行。又例如,服务器110-1可以执行第一处理操作,服务器110-2可以执行第二处理操作以及第三处理操作。各种变形仍在本说明书保护范围之内。在一些实施例中,隐私数据保护系统110中所包含的部分或全部服务器可在云平台上实现。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。

在一些实施例中,隐私数据保护系统110中的服务器可包含一个或多个处理设备(例如,单芯处理设备或多核多芯处理设备)。仅仅作为范例,处理设备可包含中央处理器(cpu)、专用集成电路(asic)、专用指令处理器(asip)、图形处理器(gpu)、物理处理器(ppu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编辑逻辑电路(pld)、控制器、微控制器单元、精简指令集电脑(risc)、微处理器等或以上任意组合。

网络120可促进应用场景100中的各个部件间数据和/或信息的交换。例如,隐私数据保护系统110可以通过网络120从终端130处获取终端130的使用者的隐私数据。在一些实施例中应用场景100中的一个或多个组件(例如,隐私数据保护系统110、终端130、存储设备140)可通过网络120发送数据和/或信息给应用场景100中的其他组件。在一些实施例中,网络120可是任意类型的有线或无线网络。例如,网络120可包括有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网(lan)、广域网(wan)、无线局域网(wlan)、城域网(man)、广域网(wan)、公共交换电话网络(pstn)、蓝牙网络、紫蜂网络、近场通讯(nfc)网络、全球移动通讯系统(gsm)网络、码分多址(cdma)网络、时分多址(tdma)网络、通用分组无线服务(gprs)网络、增强数据速率gsm演进(edge)网络、宽带码分多址接入(wcdma)网络、高速下行分组接入(hsdpa)网络、长期演进(lte)网络、用户数据报协议(udp)网络、传输控制协议/互联网协议(tcp/ip)网络、短讯息服务(sms)网络、无线应用协议(wap)网络、超宽带(uwb)网络、移动通信(1g、2g、3g、4g、5g)网络、wi-fi、li-fi、窄带物联网(nb-iot)、红外通信等中的一种或多种组合。在一些实施例中,网络120可包括一个或多个网络接入点。例如,网络120可包含有线或无线网络接入点。通过这些接入点,应用场景100中的一个或多个组件可连接到网络120上以交换数据和/或信息。

在一些实施例中,终端130可以是一台计算设备或计算设备组。所述计算设备可以包括智能手机130-1、平板电脑130-2、笔记本电脑130-3、台式计算机130-4等中的一种或其任意组合。所述计算设备组可以是集中式或分布式的。在一些实施例中,终端130可以将数据和/或信息发送到隐私数据保护系统110。例如,终端130可以是智能手机,其可以将安装于其上的应用程序在运行期间产生的数据发送(直接发送或经过处理例如第一处理操作后发送)至隐私数据保护系统110。相应地,隐私数据保护系统110可以将对数据和/或信息的处理结果发送到终端130。例如,隐私数据保护系统110可以将bug修复完毕的新版本应用程序发送至终端130以进行更新。

存储设备140可以用于存储数据和/或指令。数据可以包括由终端130产生的数据(例如,经过或未经过第一处理操作的隐私数据)、隐私数据保护系统110对于隐私数据的处理结果等。所述指令包括隐私数据保护系统110实现如本说明书所披露的功能时所需的指令。在一些实施例中,存储设备140可以在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现,也可以由多个个人设备和云服务器生成。在一些实施例中,存储设备140可包括大容量存储器、可移动存储器、挥发性读写存储器(例如,随机存取存储器ram)、只读存储器(rom)等或以上任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性易失性读写存储器可以包括随机存取存储器(ram)。示例性ram可包括动态随机存取存储器(dram)、双倍数据速率同步动态随机存取存储器(ddrsdram)、静态随机存取存储器(sram)、晶闸管随机存取存储器(t-ram)和零电容随机存取存储器(z-ram)等。示例性只读存储器可以包括掩模型只读存储器(mrom)、可编程只读存储器(prom)、可擦除可编程只读存储器(perom)、电可擦除可编程只读存储器(eeprom)、光盘只读存储器(cd-rom)和数字多功能磁盘只读存储器等。在一些实施例中,存储设备140可在云平台上实现。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等或以上任意组合。

在一些实施例中,存储设备140可与网络120连接以与应用场景100中的一个或多个组件(例如,隐私数据保护系统110、终端130等)通讯。应用场景100中的一个或多个组件可通过网络120访问存储于存储设备140中的数据或指令。在一些实施例中,存储设备140可直接与应用场景100中的一个或多个组件(例如,隐私数据保护系统110、终端130等)连接或通讯。在一些实施例中,存储设备140可以是隐私数据保护系统110的一部分。

应当注意的是,以上应用场景100中的各个部件的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对应用场景100中的部件进行添加或减少。然而,这些改变仍在本说明书的范围之内。

图2是根据本说明书一些实施例所示的隐私数据保护方法的示例性流程图。在一些实施例中,流程200可以由处理设备(例如,隐私数据保护系统400,或如图1中所示的隐私数据保护系统110)执行。例如,流程200可以以程序或指令的形式存储在存储装置(如处理设备的自带存储单元或外接存储设备)中,所述程序或指令在被执行时,可以实现流程200。如图2所示,流程200可以包括以下操作。

步骤202,分别从至少两个数据源处获取隐私数据。步骤202可以由第一获取模块410执行。

在一些实施例中,所述数据源可以是指隐私数据的产生来源。例如,终端130,比如智能手机,上安装有移动应用软件,移动软件在被使用过程中可以产生隐私数据。因此,终端130可以被称为数据源。所述隐私数据可以是需要防止被泄露被窃取从而产生恶性结果的数据的统称。继续参考上一示例,个人(本说明书中可以被称为用户)在使用终端130上的移动软件时,将产生各种交互数据(比如用户注册时所输入的个人信息、使用网络支付平台时所提交的资产数据等)、软件运行数据、软件错误报告等。这些数据如果被泄露则会造成恶性后果比如用户资产被盗、软件bug被攻击等。因此,这些数据可以被称为是隐私数据。所述隐私数据的表现形式可以是任意的,包括但不限于文字、图片、音频、视频等或其任意组合。

可以理解,由于终端130的用户不同,所产生的隐私数据也是不同的。因此,第一获取模块410获取的隐私数据可以分成多份,每一份隐私数据都有对应来源的数据源。例如,不同的终端130可以被看做是不同的数据源,来自同一个终端130的隐私数据将被作为一份。

在一些实施例中,第一获取模块410可以是多个,分别集成在不同的数据源处,并直接从数据源处获取所述隐私数据。例如,第一获取模块410可随应用软件一起安装至终端130上,在用户允许的情况下通过对终端130进行实时监控以获取隐私数据。在一些实施例中,所述隐私数据可以事先转存至存储装置中,例如,存储设备140中,或云中。第一获取模块410可以通过与存储装置进行通信以获取隐私数据。

步骤204,对所述至少两个数据源的隐私数据执行第一处理操作,以获取至少两份第一处理数据。步骤204可以由第一处理模块420执行。

在一些实施例中,所述第一处理操作可以是指对隐私数据的内容和/或形式进行改变,以使改变后的隐私数据区别于其原有形式的操作。例如,所述第一处理操作可以是对隐私数据的某些信息进行转换或删除以达到对整体的掩藏。在一些实施例中,第一处理操作可以用于对隐私数据的至少一部分进行隐匿。隐匿可以理解为处理过后的数据无法显式的反应原始数据,需要有特定的复原方法。示例性的,所述第一处理操作可以选自数据擦除、数据粗粒度化、数据分段、秘密分享以及差分隐私中的一个或以上个。

在一些实施例中,所述数据擦除可以用于将隐私数据中的至少一部分删除。例如,假定隐私数据包括了用户的身份信息比如身份证号、联系方式等,其属于用户的私有敏感数据,所述数据擦除可以将用户的身份信息从隐私数据中删除,或以无意义代号比如符号*来代表用户的身份信息的全部或部分。

在一些实施例中,所述数据粗粒度化可以用于降低隐私数据的精度。例如,假定隐私数据中包括了用户登录时间、隐私数据产生时间、用户在线时长等信息。这些时间信息在获取时是精确到秒的,所述数据粗粒度化可以将精确到秒的时间粗化到分钟、小时或天等。

在一些实施例中,所述数据分段可以用于按照数据量将隐私数据分成至少两个分片。其中,分片可以是指从隐私数据中剥离的部分数据。例如,隐私数据为100k的字符串,可以将该字符串截断成为两个50k的字符串、5个20k的字符串、10个10k的字符串等。

在一些实施例中,所述秘密分享可以用于将隐私数据分成至少两个运算分片,所述至少两个运算分片按照预设算法运算后能够恢复所述隐私数据。其中,所述运算分片可以是指利用特定的算法将隐私数据拆分后的数据分片。例如,假定秘密(比如隐私数据)隐藏于一多项式中(比如为多项式的常数项),将四个数值分别代入多项式中得到的计算结果,可以被认为是运算分片。又例如,可以将隐私数据分成多个含义不明的随机数加性分片。基于所述预算分片以恢复所述隐私数据所采用的预设算法可以包括加法运算、减法运算、乘法运算、平方根运算等。例如,对于以上举例的隐私数据的恢复,可以基于运算分片构建方程,或采用插值多项式公式进行求解,以获达到多项式恢复的目的。

在一些实施例中,所述差分隐私用于将隐私数据分成至少两个运算分片,并在至少两个运算分片中分别加入噪声,将全部运算分片按照预设算法进行运算后能够消除加入的噪声并恢复所述隐私数据。噪声可以包括拉普拉斯噪声、高斯噪声等。例如,假定所述隐私数据被分为两个运算分片a和b。则可以在a中加入正噪声,在b中加入负噪声。在数据恢复过程中可以通过加法运算将噪声抵消。

在一些实施例中,所述第一处理数据可以是指对所述隐私数据的至少一部分进行隐匿后所得到的数据。例如,将隐私数据中的用户账号删除后的数据、将用户数据中的时间粗粒化后的数据、将隐私数据按照数据量分成的数据分片、将隐私数据分成的运算分片以及加入了噪声的运算分片等。

在一些实施例中,第一处理模块420可以按照多种方式对所述至少两个数据源的隐私数据执行第一处理操作。作为示例,第一处理模块420在对隐私数据进行处理前可以获取对应于该份隐私数据的数据源的密级。密级为保密等级,例如,1级、2级、3级,等级越高,密级越高,隐私数据需要得到的保护等级越高,故处理越精细。密级可以根据用户要求(例如,用户可以指定密级为2级)或者用户类型确定,比如,金融、医疗等隐私程度较高的行业对应的数据源的密级可以设定为较高的等级。第一处理模块420可以基于所述密级,确定对该份隐私数据执行第一操作处理的类型和/或处理程度。类型可以是指以上提及的第一操作处理的内容,比如数据擦除、数据粗粒度化、数据分段、秘密分享以及差分隐私中的一种或多种。处理程度可以是指对隐私数据进行处理的精细程度。例如,数据擦除处理程度可以包括部分擦除、全部擦除、可恢复擦除、不可恢复擦除等,数据粗粒度化处理程度可以包括将精确到秒的时间粗粒化至分钟、小时或者天,数据分段处理程度可以包括将数据分为几个分片、几十个分片、几百个分片或几千个分片等。通过第一处理操作对隐私数据按照不同精细程度进行处理后,可以隐匿掉原隐私数据中的敏感信息,实现对隐私数据的隐私保护。

在一些实施例中,第一处理模块420在对隐私数据执行第一处理操作时,可以赋予处理后的隐私数据一个标识,用以区分处理后的隐私数据是属于哪个原始的原始数据。例如,假定第一处理模块420对某一份隐私数据执行秘密分享,所得到的多个运算分片将被赋予同一个标识,用于在后续操作中比如本说明书中提到的第三处理操作中识别该多个运算分片属于同一份隐私数据。

在一些实施例中,第一处理模块420可以与第一获取模块410同时集成在数据源处。当第一获取模块410直接从数据源处获取隐私数据后,第一处理模块420可以对隐私数据进行第一处理操作。如此,可以避免原始的隐私数据在传输过程中被攻击。

步骤206,对第一处理数据执行第二处理操作,以获取第二处理数据。步骤206可以由第二处理模块430执行。

在一些实施例中,所述第二处理操作可以是将源自至少两个数据源的第一处理数据混合后划分为至少两个批次,以达到对第一处理数据的混淆及隐藏的目的。可以理解,当将某些特定信息混杂于其他的信息中时,可以在一定程度上达到对该特定信息的掩藏。作为示例,假定来自于两个数据源的隐私信息在经过第一处理操作后得到的第一处理数据分别为数据分片abcdef以及数据分片123456。所述第二处理操作可以是将这12个数据分片混合打乱后,再随机进行划分。划分到一起的数据分片将被称为一个批次。例如,以上12个数据分片可以被划分为两个批次,分别为a3b2c1以及d5f6e4。

在一些实施例中,所述第二处理操作还可以用于数据匿名。所述数据匿名可以是指对第一处理数据中的某些信息进行隐匿,其包括第一处理数据的来源、第一处理数据的到达时间、第一处理数据的到达顺序等。所述第一处理数据的来源可以是指对应的隐私数据的数据源的地址,例如,数据源的原始ip地址。所述第一数据的到达时间可以是指对应的隐私数据的的获取时间,例如,具体的收集时刻。所述第一处理数据的到达顺序可以是指对应的隐私数据的获取顺序,例如,从三个数据源分别获取隐私数据时每份隐私数据的收集顺序。作为示例,假定某份第一处理数据对应的隐私数据来源于数据源a,到达时间为xxxx,同时在所有份数的隐私数据中是第3位被获取的,则第二处理操作可以通过更改或消除以上信息来达到数据匿名的目的。可以理解的是,对于第一处理数据的批次划分以及数据匿名的先后执行顺序没有限制,两者可以同时进行,也可以任意一项在前,本说明书不做限制。

在一些实施例中,所述第二处理操作还可以用于对第一处理数据中的部分数据进行隔离。所述隔离可以理解为限制该部分数据参与后续的处理,例如,本说明书提及的第三处理操作。第一处理数据在分批次后,第二处理模块430可以对每个批次中的数据包含的信息进行统计,并基于统计结果确定该批次是否需要被隔离。例如,假定从多个数据源获取的隐私数据是消费交易数据,第二处理模块430可以统计批次中消费金额的相关数据出现的次数,若统计次数小于预定的次数,则第二处理模块430可以将该批次的第一处理数据进行隔离。关于对第一处理数据中的部分数据进行隔离的其他描述可以参考本说明书图3部分。

基于以上的描述,所述第二处理数据可以是指对第一处理数据进行第二处理操作后得到的数据。例如,分批次后且进行数据匿名后的第一处理数据将被称为第二处理数据。通过第二处理操作对第一处理数据进行进一步的处理,可以去除第一处理数据中的敏感信息,同时将数据打乱分批可以使某些关键数据在大范围内进行隐藏(例如,将关键数据隐藏在多个批次中),使得隐私数据的安全得到进一步的保护。

步骤208,依次传输所述第二处理数据中的至少两个批次至可信执行环境执行第三处理操作。步骤208可以由440第三处理模块440执行。

在一些实施例中,第三处理模块440可以将所述第二处理数据传输至可信执行环境,并在可信执行环境中对所述第二处理数据进行第三处理操作。依次对所述第二处理数据中的至少两个批次进行传输,即使攻击者结果了某一批次或某几批次的数据,依旧无法恢复原有的隐私数据(因为关键信息被隐藏在多个批次中,并非依靠一个批次的数据就能够恢复)。这在数据传输过程中增加了安全性。在一些实施例中,所述第三处理操作可以用于基于第二处理数据恢复出至少一份隐私数据中的至少一部分,并对所述至少一部分进行数据处理。由于第二处理数据是经过两轮处理(第一处理操作以及第二处理操作)后得到的数据,需要进行恢复才能得到原本的隐私数据。所述第三处理操作可以理解为对第一处理操作和/或第二处理操作的逆向操作。第三处理模块440可以已知第一处理操作和/或第二处理操作的处理规则,例如,执行秘密分享的分片规则等。在接收到第二处理数据后,第三处理模块440可以从多个批次中获取对应于同一个数据源的数据,并将其进行恢复。数据恢复时需要部分和/或全部的处理后数据(来源于同一份隐私数据的处理后数据)。例如,当所述第一处理操作包括对某一份隐私数据进行数据分段,则第三处理模块440需要从所有的批次中基于在数据分段时赋予数据分片的标识确定同属于该份隐私数据的所有分片进行复原。又例如,当所述第一处理操作包括对某一份隐私数据进行秘密分享,则根据秘密分享的原理所述第三处理模块440只需从所有的批次中基于在秘密分享时赋予运算分片的标识获取预定数量的运算分片,即可基于预设算法进行数据恢复。

可信执行环境(tee,trustedexecutionenvironment)可以提供与不可信环境隔离的安全计算环境。在可信执行环境中执行第三处理操作,可以基于可信执行环境的特性保证数据处理流程不被篡改以及恢复的隐私数据不被截取,以保证隐私数据的安全。可信执行环境包括sgx(softwareguardextensions)、sev(secureencryptedvirtualization)、trustzone等。在一些实施例中,可以在处理设备(例如,隐私数据保护系统110中的服务器110-1/110-2/110-3)中部署可信执行环境并用于执行第三处理操作。在一些实施例中,第三处理模块440可以集成于可信执行环境中。

在一些实施例中,对恢复出的至少一部分隐私数据进行数据处理,可以是对该部分数据进行分析、组合、统计,以及利用该部分数据进行模型训练等。例如,对用户交互数据进行分析以确定用户喜好、对软件运行数据进行分析以对程序进行改进。本说明书实施例对恢复出的数据的处理方式不作限定。

本说明书实施例公开的技术方案中,不仅在收集隐私数据的环节对隐私数据进行了数据转换保护处理,在后续环节进一步地对转换后的数据进行混合打乱、隐匿来源等操作来确保收集的隐私数据的安全,从而有效地防止隐私数据的真实信息泄露,并且转换、打乱后的数据可以在可信执行环境中恢复成隐私数据,防止在数据恢复期间的泄露问题。相较于对隐私数据进行加密解密的方案,本说明书中所披露的隐私数据保护方法,可以在数据处理过程中对某些数据进行改变。例如,假定所搜集的隐私数据中有关于个人收入,经过处理这些个人收入之间可以相差不大,从而隐藏某些特定的高收入数据。即使数据被窃取也无法像加密解密的方法一样得到还原。这进一步加强了数据的保护。

应当注意的是,上述有关流程200的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程200进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,对本说明书有关流程步骤的改变,如添加预处理步骤和存储步骤等。

图3是根据本说明书一些实施例所示的对部分数据进行隔离的示例性流程图。在一些实施例中,流程300可以由处理设备(例如,隐私数据保护系统400,或如图1中所示的隐私数据保护系统110)执行。例如,流程300可以以程序或指令的形式存储在存储装置(如处理设备的自带存储单元或外接存储设备)中,所述程序或指令在被执行时,可以实现流程300。在一些实施例中,流程300可以由位于处理设备上的第二处理模块430执行,针对于每一个由步骤206所得到的批次。如图3所示,流程300可以包括以下操作。

步骤302,确定批次中所包含的数据中出现的目标信息的统计次数。

在一些实施例中,所述目标信息可以是与某个或某些关键词相关联的信息。关键词可以是由预先设定的。例如,假定隐私数据对应的数据源是安装有实现网络支付平台的终端,用户可在终端上使用网络支付平台进行各种操作比如在线支付、理财等。则所述关键词可以是用户账号、账户密码、账户金额、数据库等等,故目标信息可以是用户账号、账户金额数、交易金额数、账号密码、数据库访问/查询次数等。

所述统计次数可以是指所述目标信息在批次中出现的次数。例如,在一个批次的第一处理数据中,用户的账号金额数出现了10次、20次、或50次,则所述统计次数可以是10、20或50。

在一些实施例中,第二处理模型430可以通过信息匹配或的方式确定该批次中出现的目标信息的统计次数。

步骤304,将所述统计次数与预设阈值比较以获取比较结果。

在一些实施例中,所述预设阈值可以根据经验或实际需求设定,本说明书不做具体限定。例如,预设阈值可以是5、10、15、20等。

所述比较结果可以为统计次数与预设阈值之间的大小关系。例如,统计次数大于预设阈值、统计次数小于预设阈值、统计次数等于预设阈值。

步骤306,基于所述比较结果确定该批次是否隔离。

在一些实施例中,所述隔离可以理解为将该批次的数据与其他批次的数据相互分隔独立,被隔离的数据将限制参与第三处理操作。限制参与可以理解为在未经允许的情况下禁止参与第三处理操作。例如,被隔离的数据仅在获取隐私数据保护系统500(或如图1中所示的隐私数据保护系统110)的操作者的许可的情况下可以参与第三处理操作。

在一些实施例中,第二处理模块430可以将比较结果为统计次数小于预设阈值对应的批次的数据确定为需要隔离的数据。例如,预设阈值为50次,统计次数为30次,则对该批次的数据进行隔离。可以理解,目标信息是所搜集到的隐私数据中较为关键的部分,当其出现的次数未满足要求比如出现次数太少从而无法进行有效分析,或在分批时某一分批中的目标信息出现次数相较于其他批次中目标信息所出现的次数要小的多,此时可以认为改批次的目标信息对于整体的影响很小,可以忽略。另一方面,无需进行处理也可以节省计算资源。

应当注意的是,上述有关流程300的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程300进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,对本说明书有关流程步骤的改变,如添加预处理步骤和存储步骤等。

图4是根据本说明书一些实施例所示的隐私数据保护系统的示例性模块图。如图5所示,所述系统可以包括第一获取模块410、第一处理模块420、第二处理模块430以及第三处理模块440。

第一获取模块410可以分别从至少两个数据源处获取隐私数据。

在一些实施例中,所述数据源可以是指隐私数据的产生来源。所述隐私数据可以是需要防止被泄露被窃取从而产生恶性结果的数据的统称。由于数据源的不同,所产生的隐私数据也是不同,第一获取模块410可以获取多份隐私数据,每一份隐私数据都有对应来源的数据源。在一些实施例中,第一获取模块410可以是多个,分别集成在不同的数据源处,并直接从数据源处获取所述隐私数据。在一些实施例中,所述隐私数据可以事先转存至存储装置中,例如,存储设备140中,或云中。第一获取模块410可以通过与存储装置进行通信以获取隐私数据。

第一处理模块420可以对所述至少两个数据源的隐私数据执行第一处理操作,以获取至少一份第一处理数据。

在一些实施例中,所述第一处理操作可以是指对隐私数据的内容和/或形式进行改变,以使改变后的隐私数据区别于其原有形式的操作。所述第一处理操作可以用于对隐私数据的至少一部分进行隐匿。隐匿可以理解为处理过后的数据无法显式的反应原始数据,需要有特定的复原方法。示例性的,所述第一处理操作可以选自数据擦除、数据粗粒度化、数据分段、秘密分享以及差分隐私中的一个或以上个。

在一些实施例中,第一处理模块420可以按照多种方式对每一份隐私数据执行第一处理操作。作为示例,第一处理模块420在对隐私数据进行处理前可以获取对应于该份隐私数据的数据源的密级,并基于所述密级,确定对该份隐私数据执行第一操作处理的类型和/或程度。

第二处理模块430可以对第一处理数据执行第二处理操作,以获取第二处理数据。

在一些实施例中,所述第二处理操可以是将源自至少两个数据源的第一处理数据进行混合后划分为至少两个批次,以达到对第一处理数据的混淆及隐藏的目的。例如,第二处理模块430可以将两份第一处理数据:数据分片abcdef以及数据分片123456,混合打乱后,再随机进行划分为两个批次,分别为a3b2c1以及d5f6e4。在一些实施例中,所述第二处理操作还可以用于数据匿名。所述数据匿名可以是指对第一处理数据中的某些信息进行隐匿,其包括第一处理数据的来源、第一处理数据的到达时间、第一处理数据的到达顺序等。第二处理模块430可以通过更改或消除以上信息来达到数据匿名的目的。在一些实施例中,所述第二处理操作还可以用于对第一处理数据中的部分数据进行隔离。所述隔离可以理解为限制该部分数据参与后续的处理,例如,本说明书提及的第三处理操作。第一处理数据在分批次后,第二处理模块430可以对每个批次中的数据包含的信息进行统计,并基于统计结果确定该批次是否需要被隔离。

第三处理模块440可以依次传输所述第二处理数据中的至少两个批次至可信执行环境执行第三处理操作。

在一些实施例中,第三处理模块440可以将所述第二处理数据传输至可信执行环境,并在可信执行环境中对所述第二处理数据进行第三处理操作。所述第三处理操作可以用于基于第二处理数据恢复出至少一份隐私数据中的至少一部分,并对所述至少一部分进行数据处理。所述第三处理操作可以理解为对第一处理操作和/或第二处理操作的逆向操作。第三处理模块440可以已知第一处理操作和/或第二处理操作的处理规则,例如,执行秘密分享的分片规则等。在接收到第二处理数据后,第三处理模块440可以从多个批次中获取对应于同一个数据源的数据,并将其进行恢复。数据恢复时需要部分和/或全部的处理后数据(来源于同一份隐私数据的处理后数据)。

关于隐私数据保护系统的各模块的具体描述,可以参考本说明书流程图部分,例如,图2至图4的相关说明。

图5是根据本说明书一些实施例所示的隐私数据保护方法的示例性流程图。可以理解,在一些实施例中,第一处理模块可以部署在数据源处,后端设备可以直接从数据源处获取经过第一处理操作之后的数据进行后续处理。在一些实施例中,流程500直接对来自数据源的第一处理数据进行处理,其可以由部署在后端或云上的处理设备(例如,隐私数据保护系统600,或如图1中所示的隐私数据保护系统110)执行。例如,流程500可以以程序或指令的形式存储在存储装置(如处理设备的自带存储单元或外接存储设备)中,所述程序或指令在被执行时,可以实现流程500。如图5所示,流程500可以包括以下操作。

步骤502,获取源自两个以上数据源的至少两份第一处理数据。步骤502可以由第二获取模块610执行。

在一些实施例中,所述数据源可以是指隐私数据的产生来源。例如,终端130比如智能手机上安装有移动应用软件,移动应用软件在被使用过程中可以产生隐私数据。因此,终端130可以被称为数据源。所述隐私数据可以是需要防止被泄露被窃取从而产生恶性结果的数据的统称。例如上述示例中终端130在使用中所产生的运行数据、以及人机交互数据等。

在一些实施例中,所述第一处理数据可以是指对隐私数据的内容和/或形式进行改变,以使改变后的隐私数据区别于其原有形式的操作,可以选自数据擦除、数据粗粒度化、数据分段、秘密分享以及差分隐私中的一个或以上个。关于第一处理操作和隐私数据的更多描述,可以参考本说明书的图2及其相关描述,此处不再赘述。

在一些实施例中,所述第一处理数据可以是指对所述隐私数据的至少一部分进行隐匿后所得到的数据。所述数据源在获取隐私数据后可以对其执行第一处理操作以获取所述第一处理数据。第二获取模块610可以与数据源进行通信以获取所述第一处理数据。在一些实施例中,第二获取模块610可以从每一个数据源处获取一份第一处理数据。每个数据源也可以将各自的第一处理数据传输至一存储装置例如云中,第二获取模块610可以与云进行通信以获取总的一份第一处理数据。

步骤504,对第一处理数据执行第二处理操作,以获取第二处理数据。步骤604可以由第四处理模块620执行。

在一些实施例中,所述第二处理操可以是将源自至少两个数据源的第一处理数据进行混合后划分为至少两个批次,以达到对第一处理数据的混淆及隐藏的目的。所述第二处理数据可以为对第一处理数据进行第二处理操作后得到的数据。在一些实施例中,所述第二处理操作还可以用于数据匿名。所述数据匿名可以是指对第一处理数据中的某些信息进行隐匿包括第一处理数据的来源、第一处理数据的到达时间、第一处理数据的到达顺序等。

关于第二处理操作和第二处理数据的更多描述可以参考本说明书的图2及其相关描述,此处不再赘述。

步骤506,依次传输所述第二处理数据中的至少两个批次至可信执行环境执行第三处理操作。步骤506可以由第五确定模块630执行。

在一些实施例中,第五处理模块630可以将所述第二处理数据传输至可信执行环境,并在可信执行环境中对所述第二处理数据进行第三处理操作。所述第三处理操作可以用于基于第二处理数据恢复出至少一份隐私数据中的至少一部分,并对所述至少一部分进行数据处理。所述第三处理操作可以理解为对第一处理操作和/或第二处理操作的逆向操作。第五处理模块630可以已知第一处理操作和/或第二处理操作的处理规则,在接收第二处理数据后可基于处理规则对数据进行恢复。

在一些实施例中,对恢复出的至少一部分隐私数据进行数据处理,可以是对该部分数据进行分析、组合、统计,以及利用该部分数据进行模型训练等。例如,对用户交互数据进行分析以确定用户喜好、对软件运行数据进行分析以对程序进行改进。本说明书实施例对恢复出的数据的处理方式不作限定。

关于第三处理操作的更多描述可以参考本说明书的图2-图3及其相关描述,此处不再赘述。

应当注意的是,上述有关流程500的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流程500进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。

图6是根据本说明书一些实施例所示的隐私数据保护系统的模块图。如图6所示,所述系统可以包括第二获取模块610、第四处理模块620以及第五处理模块630。

第二获取模块610可以获取源自两个以上数据源的至少两份第一处理数据。

在一些实施例中,所述第一处理数据可以是指对所述隐私数据的至少一部分进行隐匿后所得到的数据。所述数据源在获取隐私数据后可以对其执行第一处理操作以获取所述第一处理数据。第二获取模块610可以与数据源进行通信以获取所述第一处理数据。在一些实施例中,第二获取模块610可以从每一个数据源处获取一份第一处理数据。每个数据源也可以将各自的第一处理数据传输至一存储装置例如云中,第二获取模块610可以与云进行通信以获取总的一份第一处理数据。

第四处理模块620可以对第一处理数据执行第二处理操作,以获取第二处理数据。

在一些实施例中,第四处理模块620可以通过对第一处理数据执行第二处理操作得到第二处理数据。所述第二处理操可以是将源自至少两个数据源的第一处理数据进行混合后划分为至少两个批次,以达到对第一处理数据的混淆及隐藏的目的。所述第二处理数据可以为对第一处理数据进行第二处理操作后得到的数据。在一些实施例中,所述第二处理操作还可以用于数据匿名。所述数据匿名可以是指对第一处理数据中的某些信息进行隐匿包括第一处理数据的来源、第一处理数据的到达时间、第一处理数据的到达顺序等。

第五处理模块630可以依次传输所述第二处理数据中的至少两个批次至可信执行环境执行第三处理操作。

在一些实施例中,第五处理模块630可以将所述第二处理数据传输至可信执行环境,并在可信执行环境中对所述第二处理数据进行第三处理操作。所述第三处理操作可以用于基于第二处理数据恢复出至少一份隐私数据中的至少一部分,并对所述至少一部分进行数据处理。所述第三处理操作可以理解为对第一处理操作和/或第二处理操作的逆向操作。第五处理模块630可以已知第一处理操作和/或第二处理操作的处理规则,在接收第二处理数据后可基于处理规则对数据进行恢复。

关于隐私数据保护系统的各模块的具体描述,可以参考本说明书流程图部分,例如,图5的相关说明。

应当理解,图4和图6所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。

需要注意的是,以上对于隐私数据保护系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,图4中披露的第一处理模块420、第二处理模块430、以及第三处理模块440可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,第二处理模块430、以及第三处理模块440可以是不同的处理模块用以分别执行不同的处理操作,也可以是集成为一个模块同时具备执行各种处理操作的功能。又例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。

本说明书实施例可能带来的有益效果包括但不限于:从收集隐私数据的环节即对隐私数据进行了数据转换保护处理,同时在后续环节以混合打乱、隐匿来源等方式对转换后的数据进一步地进行了保护处理,从而可以确保收集的隐私数据的安全,防止隐私数据的真实信息泄露。并且转换、打乱后的数据可以基于第三处理操作恢复成隐私数据,可以便于对隐私数据进行数据分析等应用,方案灵活,易于实施,具有良好的实用性。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、rf、或类似介质,或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如java、scala、smalltalk、eiffel、jade、emerald、c++、c#、vb.net、python等,常规程序化编程语言如c语言、visualbasic、fortran2003、perl、cobol2002、php、abap,动态编程语言如python、ruby和groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(lan)或广域网(wan),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(saas)。

此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。

同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。

最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1