用于检查数据匿名化的计算机实现的方法和系统与流程

文档序号:37090032发布日期:2024-02-20 21:47阅读:32来源:国知局
用于检查数据匿名化的计算机实现的方法和系统与流程

本发明涉及用于检查数据匿名化的计算机实现的方法和系统以及计算机程序产品。


背景技术:

1、数据收集是支持数据分析、过程挖掘、机器学习和/或人工智能的最重要的方面之一。然而,这种数据收集也引起了关于数据隐私和基于数据的用户识别的关注。随着越来越多的重要性和规定被应用于保护用户数据隐私,数据匿名化技术可用于确保保护用户身份。数据匿名化基本上在收集之前或收集期间,以及在将数据发送到数据收集器之前,去除数据的可识别部分。有各种技术方式来实现数据匿名化,但无论所使用的技术如何,最终结果都应符合数据隐私规定。然而,需要一种数据是否被正确匿名的自动审查机制。此外,通常没有匿名化是否正确执行的证明,例如,以用于以后的审计。

2、us2020/41 0135a1公开了一种用于提供对信息的访问的方法,包括用于匿名化数据的方法步骤。


技术实现思路

1、因此,本发明的目的是提供数据匿名化的验证。

2、该目的通过独立权利要求的特征来解决。从属权利要求包含本发明的进一步发展。

3、根据第一方面,本发明提供了一种用于检查数据匿名化的计算机实现的方法,所述方法包括以下步骤:

4、-读入数据隐私规则,

5、-存储分布式数据库的第一节点的原始数据,

6、-读入匿名化数据,其中匿名化数据是在由分布式数据库的第二节点取回原始数据时借助于匿名化方法并且依赖于原始数据而生成的,

7、-通过将数据隐私规则应用于原始数据来生成测试数据,

8、-对照测试数据的至少部分检查匿名化数据的至少部分,并输出检查结果,

9、-根据检查结果生成元数据,

10、以及

11、-将元数据发送到分布式数据库。

12、根据第二方面,本发明提供了一种用于检查数据匿名化的系统,所述系统包括:

13、-第一接口,其被配置为读入数据隐私规则,

14、-存储模块,其被配置为存储分布式数据库的第一节点的原始数据,

15、-第二接口,其被配置为读入匿名化数据,其中,匿名化数据是在由分布式数据库的第二节点取回原始数据时借助于匿名化方法并且依赖于原始数据而生成的,

16、-测试数据生成器,其被配置为通过将数据隐私规则应用于原始数据来生成测试数据,

17、-检查模块,其被配置为对照匿名化数据的至少部分检查测试数据的至少部分,并输出检查结果,

18、-元数据生成器,被配置为根据检查结果生成元数据,

19、以及

20、-输出模块,其被配置成将元数据发送到分布式数据库中。

21、除非在下面的描述中另有说明,否则术语“执行”、“运算”、“计算机辅助”、“计算”、“发现”、“生成”、“配置”、“重建”等优选地涉及改变和/或产生数据和/或将数据转换成其他数据的动作和/或过程和/或处理步骤,所述数据能够作为物理变量呈现或可用,特别地,例如作为电脉冲。特别地,表述“计算机”应该尽可能广义地解释,以便特别覆盖具有数据处理特性的所有电子设备。

22、因此,计算机可以是例如个人计算机、服务器、可编程逻辑控制器(plc)、手持计算机系统、掌上pc设备、移动无线电和能够以计算机辅助方式处理数据的其他通信设备、用于数据处理的处理器和其他电子设备。处理器特别地可以是中央处理单元(cpu)、微处理器或微控制器,例如可能与用于存储程序指令等的存储器单元相结合的专用集成电路或数字信号处理器等。作为示例,处理器也可以是ic(集成电路),特别是fpga(现场可编程门阵列)或asic(专用集成电路),或者dsp(数字信号处理器)或图形处理器gpu(图形处理单元)。处理器也可以理解为意为虚拟化处理器、虚拟机或软cpu。作为示例,它也可以是可编程处理器,其配备有用于执行根据本发明的实施例的方法的配置步骤,或者其通过配置步骤来配置,使得可编程处理器实现根据本发明的实施例的用于方法、组件、模块或本发明的实施例的其他方面和/或子方面的特征。

23、在本发明的实施例的上下文内,“模块”可以被理解为意为例如处理器和/或用于存储程序指令的存储器单元。作为示例,处理器被具体配置为执行程序指令,使得处理器执行功能以实现或执行根据本发明的实施例的方法或根据本发明的实施例的方法的步骤。作为示例,模块也可以是分布式数据库系统的节点,其例如执行/实现适用模块的特定功能/特征。作为示例,各个模块也可以是分离的或独立的模块的形式。为此,例如,适用模块可以包括另外的元件。这些元件例如是一个或多个接口(例如,数据库接口、通信接口——例如,网络接口、wlan接口)和/或评估单元(例如,处理器)和/或存储器单元。接口可以用于例如交换(例如,接收、传送、发送或提供)数据。评估单元可以用于例如以计算机辅助和/或自动化的方式比较、检查、处理、分配或计算数据。存储器单元可以用于例如以计算机辅助和/或自动化的方式存储、取回或提供数据。

24、在本发明的实施例的上下文内,“提供”,特别是关于数据和/或信息,可以理解为意为例如计算机辅助供应。例如经由接口(例如数据库接口、网络接口、到存储器单元的接口)实施供应。该接口可以用于例如在供应期间传送和/或发送和/或取回和/或接收适用数据和/或信息。

25、在本发明的实施例的上下文内,“供应”也可以被理解为意为例如加载或存储例如包含适用数据的事务。作为示例,这可以在存储器模块上实施或者由存储器模块实施。“供应”也可以被理解为意为例如从区块链或分布式数据库系统(或其基础设施)的一个节点向另一个节点传输(或发送或传送)适用数据。

26、在本发明的实施例的上下文内,“智能合同过程”可以被理解为意为特别是分布式数据库系统或其基础设施在过程中执行(例如,控制指令的)程序代码。

27、在本发明的实施例的上下文内,“插入到分布式数据库系统中”等可以被理解为意为例如,特别地,一个或多个事务或具有其事务的数据块被传送到分布式数据库系统的一个或多个节点。如果这些事务例如被成功验证(例如,通过一个或多个节点),则这些事务特别地与分布式数据库系统的至少一个现有数据块连结(concatenate)为新数据块。为此目的,适用事务被存储在例如新数据块中。特别地,这种验证和/或连结可以由可信节点(例如,挖掘节点、区块链预言机(oracle)或区块链平台)来执行。

28、在本发明的实施例的上下文内,“事务”或“多个事务”可以被理解为意为例如智能合同、数据结构或事务数据记录,特别地,每个包括事务之一或多个事务。在本发明的实施例的上下文内,“事务”或“多个事务”也可以理解为意为例如区块链的数据块的事务的数据。例如,事务特别地可以包括提供智能合同的程序代码。作为示例,在本发明的实施例的上下文内,事务也可以理解为意为控制事务和/或确认事务。替代地,作为示例,事务可以是存储数据(例如,控制指令)的数据结构。例如,事务特别地可以包括提供智能合同的程序代码。

29、在本发明的实施例的上下文内,“程序代码”(例如,智能合同)可以被理解为意为例如程序指令或多个程序指令,特别是存储在一个或多个事务中。程序代码特别是可执行的,并且例如由分布式数据库系统执行。这可以借助于执行环境(例如虚拟机)来实现,例如,执行环境或程序代码优选地是图灵完整的。程序代码优选地由分布式数据库系统的基础设施执行。这涉及例如由分布式数据库系统的基础设施实现的虚拟机。

30、在本发明的实施例的上下文内,“智能合同”可以被理解为意为例如可执行程序代码(特别地参见“程序代码”定义)。智能合同优选地存储在分布式数据库系统(例如,区块链)的事务中,例如存储在分布式数据库系统的数据块中。作为示例,智能合同可以以与“程序代码”的定义中所解释的相同方式来执行,特别是在本发明的实施例的上下文内。

31、在本发明的实施例的上下文内,作为示例,也可以被称为分布式数据库系统的“分布式数据库”可以被理解为意为例如本地分布式数据库、区块链、分布式账本、分布式存储器系统、基于分布式账本技术(dlt)的系统(dlts)、防修订数据库系统、云、云服务、云中的区块链或对等数据库。

32、“分布式数据库系统”也可以被理解为意为例如具有由云实现的其节点和/或设备和/或基础设施中的至少一些的分布式数据库系统。作为示例,适用组件被实现为云中的节点/设备(例如,虚拟机中的虚拟节点)。

33、例如,分布式数据库系统可以是公共分布式数据库系统(例如,公共区块链)或封闭(或私有)分布式数据库系统(例如,私有区块链)。

34、例如,分布式数据库系统也可以是用于数据交换的分布式通信系统或对等通信系统或对等应用。例如,这可以是网络或对等网络。例如,分布式数据库系统也可以是本地分布式数据库系统和/或本地分布式通信系统。

35、在本发明的实施例的上下文内,“区块链节点”、“节点”、“分布式数据库系统的节点”等可以被理解为意为例如为(利用)分布式数据库系统(例如区块链)执行操作的设备(例如现场设备)、计算机、智能电话、客户端或订户。作为示例,这种节点可以执行分布式数据库系统的事务或其数据块,或者借助于新数据块将新数据块与新事务一起插入或连结到分布式数据库系统中。

36、在本发明实施例的上下文内,“数据隐私规则”,也称为隐私规则或(隐私)规定,可以理解为包括关于数据隐私的定义、约束和/或规定。数据隐私规则可以例如基于数据分类,其中数据分类定义了哪些数据被分类为私有的。例如,数据隐私规则可以定义在收集或存储数据集时,数据集的哪一部分受到限制。对数据集应用数据隐私规则可以例如意味着删除或修改数据集的至少一部分以满足数据隐私规则。

37、在本发明实施例的上下文内,“匿名化”可以理解为使用已知的匿名化方法/技术的数据匿名化。匿名化方法可以例如包括抑制(suppression),其中信息被从数据中去除;一般化(generalization),其中信息被一般化/粗化;扰动(perturbation),其中例如通过向数据添加噪声来修改信息;以及置换(permutation),其中信息被交换。

38、本发明的一个优点是使数据匿名化的验证自动化,其中自动化可以由在分布式数据库系统上执行的智能合同来管理。由于这种智能合同是由分布式数据库系统的一组节点运行的,因此可以最小化个体疏忽的机会。

39、例如,可以通过将匿名化数据的数据结构的内容与测试数据的数据结构的内容进行比较来执行检查。然后,检查结果可以作为元数据提供。因此,元数据被链接到相应的原始数据。由于只提供元数据,所以在提供关于所执行的数据匿名化的证明的同时,维护了数据隐私。因此,还可以实现数据匿名化的未来审计。

40、根据该方法的实施例,在否定的检查结果的情况下,元数据可以包括关于匿名化数据与测试数据的偏差的信息。

41、因此,可以进一步分析和/或验证元数据。匿名化数据与测试数据的偏差可以是例如测试数据中不存在的包含在匿名化数据中的数据字段和/或特定信息。在肯定的检查结果的情况下,元数据优选地仅包括关于正确执行的匿名化的信息。

42、根据该方法的进一步实施例,匿名化方法可以由第二节点定义。

43、优选地,数据收集器,即第二节点,可以预定义/提供匿名化方法。当从第一节点收集/取回数据时,匿名化技术应该确保满足数据隐私规则。

44、根据该方法的进一步实施例,元数据可以包括关于匿名化方法的信息。

45、优选地,当由第二节点读取/收集原始数据时,自动生成元数据。元数据可以包括关于所执行的数据匿名化方法/技术的信息。优选地,元数据不包括敏感信息,而仅包括验证数据匿名化过程所需的信息。

46、根据该方法的进一步实施例,数据隐私规则可以定义原始数据的哪一部分需要被去除。

47、为此,数据隐私规则定义了数据集的哪一部分不应被公开。例如,数据隐私规则可以定义数据提供者/数据所有者的例如姓名、年龄、性别等不应由数据收集器收集。

48、根据该方法的进一步实施例,在否定的检查结果的情况下,可以标记所应用的匿名化方法和/或第二节点。

49、例如,审计员可以根据该标志进一步检查匿名化数据。

50、根据该方法的进一步实施例,元数据和/或检查结果可以存储在分布式数据库中。

51、例如,元数据可以插入到分布式数据库中。因此,关于数据匿名化过程的信息可以被不可变地存储,并且可以例如用于例如将来的审计。

52、根据该方法的进一步实施例,数据隐私规则可以由分布式数据库的选定节点来定义。

53、优选地,数据隐私规则可以由分布式数据库系统的节点的选定子集来管理。

54、根据该方法的进一步实施例,可以由分布式数据库的至少一个选定节点和/或外部实体对照数据隐私规则来验证元数据。

55、根据该方法的进一步实施例,元数据可以由分布式数据库的多个选定节点来验证,并且该验证基于由选定节点执行的共识方法。

56、这例如具有这样的优点,即匿名化过程由若干实体检查,从而确保匿名化被正确执行。

57、根据该方法的进一步实施例,该方法步骤可以通过由分布式数据库的节点执行的智能合同来实现。

58、因此,匿名化的验证可以自动化。由于智能合同可以由一组节点运行,因此个体疏忽的机会被最小化。此外,智能合同可以基于规则/规定进行更新,以保持持续的合规性。

59、根据该方法的进一步实施例,分布式数据库可以是区块链或分布式账本。

60、此外,要求保护一种计算机程序产品(具有指令的非暂时性计算机可读存储介质,当由处理器执行时,所述指令执行动作),所述计算机程序产品具有用于执行根据本发明的实施例的前述方法的程序指令,其中根据本发明的实施例的方法之一、根据本发明的实施例的所有方法或者根据本发明的实施例的方法的组合每次可通过计算机程序产品来执行。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1