对数据集进行动态数据最小化的方法和数据最小化装置与流程

文档序号:26813689发布日期:2021-09-29 03:28阅读:262来源:国知局
对数据集进行动态数据最小化的方法和数据最小化装置与流程

1.通常,个人相关的数据的处理和转发受到数据保护法限制。为了遵守数据保护法,包括个人相关的数据的数据集的数据最小化是重要的方法。在数据最小化的过程中确保:仅转发或处理数据集的对于相应的处理目的也必需的个人相关的数据。数据最小化能够达到匿名化。这表示:在执行数据最小化之后,能够排除数据集的任何人称指称。特别是对于敏感的个人相关的数据而言,如在医疗技术的领域中呈患者数据形式或在交通流量分析中存在的数据而言,数据最小化是重要的。


背景技术:

2.通常,许多个人相关的数据以结构化文件格式存储在数据集中。结构化的数据集通常包括至少一个属性。属性尤其描述了存储在数据集中的数据。通常存在预定义的和可定义的属性。预定义的属性包括在每个具有相同的参引的数据集中。定义的属性能够根据数据集的参引例如由用户定义。数据集的参引例如能够是医学检查和/或医疗设备等。在结构化的文件格式中,通常为每个属性分配属性值。属性描述分配给该属性的属性值,其方式为:所述属性包括用于值的名称或代码。
3.通常,在医学技术中将成像系统(例如计算机断层扫描设备、c型臂、磁共振断层扫描仪、正电子发射断层扫描设备、单光子发射计算机断层扫描设备等)的结果存储在数据集中,所述数据集根据dicom标准结构化。
4.目前,通常使用两种方法来将结构化的文件格式数据最小化:
5.‑
建黑名单:在建黑名单的情况下,在黑名单中定义如下属性,所述属性与分配给所述属性的属性值应从要最小化的数据集中移除或替换。
6.‑
建白名单:在建白名单的情况下,在白名单中定义如下属性,所述属性与分配给所述属性的属性值应保持不变或被修改。
7.在此,尤其从数据保护角度来看,建黑名单是成问题的,而尤其从应用角度来看,建白名单是成问题的。在这两种情况下都必须主动选择属性,要不然如有疑问,建黑名单过多地给出属性与所分配的属性值,而建白名单过少地给出属性与所分配的属性值。
8.在建黑名单时通常会存在以下风险:属性和其被分配的属性值不包括在黑名单中或者没有在黑名单中定义并进而被转发,尽管所述属性和其被分配的属性值可能会包含个人相关的数据。dicom标准的示例显示出该问题:直接在dicom标准中定义的属性(dicom标头属性)的数量目前超过4000,此外还存在数千个属性,其类型经由其它编码确定。dicom标准每年进行多次属性扩展,所述属性部分地是个人相关的。由于这种动态,难以在黑名单中定义所有个人相关的属性。
9.从数据保护角度来看,建白名单提供了明显更高的安全性。白名单仅包括下述属性,所述属性与其被分配的属性值被直接保留或者以修改后的形式(例如作为化名或以降低的精度)保留。尤其,所述白名单包括下述属性,所述属性的被分配的属性值对于进一步处理是必需的,并且所述属性值已根据数据保护事先进行了阐明。在这种方式中,问题是用
户对最小化的数据集的可管理性。通常仅在数据集的后续处理期间才发现:对于处理所需的属性或其被分配的属性值比在创建白名单时假定的属性或其被分配的属性值明显更多。在实践中,这会引起不确定的错误消息和冗长的错误搜索,也因为用户不知道未在白名单中定义的属性。因此,在数据保护方面优选的该方法的用户友好性受到很大损害。


技术实现要素:

10.因此,本发明的目的是,提供一种方法,所述方法能够基于白名单实现动态和灵活的数据最小化。
11.所述目的通过根据实施例所述的用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法、用于对数据集进行数据最小化的数据最小化装置、计算机程序产品和计算机可读的存储介质来实现。在下面的说明书中列出有利的改进方案。
12.下面关于要求保护的装置和要求保护的方法来描述根据本发明的目的的解决方案。在此提到的特征、优点或替选的实施形式同样也能够转用于其它要求保护的主题,并且反之亦然。换言之,本发明的实施例(所述实施例例如针对装置)也能够借助结合方法描述的或要求保护的特征来改进。所述方法的相应的功能特征在此通过相应的具体模块构成。
13.本发明涉及一种计算机实现的用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法,其中所述数据集包括第二集合的各个属性。所述方法具有第一次提供白名单的方法步骤。在此,所述白名单包括第一属性集合,其中第一属性集合是第二属性集合的子集。在此,最小化的数据集包括第一属性集合。该方法还具有第一次确定属性列表的方法步骤,其中所述属性列表包括第三属性集合。第三属性集合至少包括第一属性集合相对于第二属性集合的补集。该方法还具有通过中央实例第二次提供属性列表以用于在中央实例之外使用的方法步骤。
14.尤其,所述数据集由中央实例来管理。尤其,所述数据集能够是医学数据集。尤其,所述数据集能够包括患者信息。尤其,所述数据集能够包括用于记录医学图像的信息和/或参数。尤其,所述数据集能够以dicom标准中存在。尤其,所述数据集能够存在于电子健康记录(electronic health record(ehr))或电子病历(electronic medical record(emr))等中。尤其,所述数据集包括第二属性集合。属性包括存储在数据集中的数据的特性的名称。尤其,属性例如能够表示个人相关的数据的特性,例如“患者姓名”、“出生日期”、“过往疾病”等。尤其,属性也能够表示用于检测数据集的数据的测量的特性,如例如“记录时间”、“测量协议”等。尤其,属性也能够以编码形式表示相应的特性。尤其,第二集合能够不包含、包含一个或包含多于一个的属性。尤其,最小化的数据集能够是数据集的一部分。替选地,最小化的数据集能够对应于所述数据集。
15.第一次提供白名单和第二次提供属性列表的方法步骤尤其借助于接口进行。所述接口尤其是数据最小化装置的一部分。第一次确定属性列表尤其由计算单元执行。尤其,所述计算单元是数据最小化装置的一部分。尤其,所述数据最小化装置包括中央实例。尤其,所述中央实例能够包括接口和/或计算单元。
16.尤其,“朝向中央实例之外转发”能够表示:最小化的数据集借助接口提供以供用户和/或处理实例下载。尤其,这还表示:最小化的数据集加载到云中,进而可供用户和/或
处理实例使用。所述用户尤其能够是人。
17.尤其,“在中央实例之外”能够表示在用户和/或处理实例处。换言之,所述属性列表和/或所述最小化的数据集能够由中央实例例如借助于下载或经由云转发给用户和/或处理实例。尤其,所述用户和/或所述处理实例能够使用在最小化的数据集中包括的数据来对数据或最小化的数据集进行处理。尤其,所述用户和/或所述处理实例能够使用在中央实例之外的属性。
18.尤其,“用于使用”表示:用户和/或处理实例例如基于属性列表执行决策过程、方法的更新或白名单等。
19.白名单尤其能够由用户和/或处理实例提供。尤其,所述白名单能够由用户和/或处理实例创建并且借助于接口由中央实例接收。尤其,用户和/或处理实例在白名单中定义其对于处理最小化的数据集所需的第一属性集合。换言之,能够基于白名单将数据集最小化。
20.替选地,能够在中央实例内在内部提供白名单。尤其,所述中央实例能够提供一个或多个白名单。尤其,能够从多个白名单中选择白名单,借助该白名单将数据集最小化,使得最小化的数据集适合用于处理。尤其,能够选择为了特定地处理最小化的数据集而创建的白名单并且在中央实例内提供该白名单。
21.尤其,所述白名单包括第一属性集合。换言之,所述属性列表包括第一属性集合中的属性。尤其,第一属性集合是第二属性集合的子集。尤其,第一属性集合能够不包括、包括一个或包括多于一个的属性。尤其,第一属性集合能够最多包括第二属性集合中的所有属性。尤其,第一属性集合中的属性是下述属性,所述属性对于通过用户和/或处理实例处理最小化的数据集是必需的。尤其,最小化的数据集包括第一属性集合。
22.尤其,能够检查第一属性集合中的属性是否符合对于用户和/或处理实例和/或中央实例适用的数据保护法或数据保护准则。
23.在第一次确定的方法步骤中确定属性列表。尤其,所述属性列表包括第三属性集合。换言之,属性列表包括第三属性集合中的属性。
24.尤其,第三属性集合至少是第一属性集合相对于第二属性集合的补集。尤其,第三属性集合也能够包括在第一属性集合中包括的属性。尤其,第三属性集合也能够包括在第一和/或第二属性集合中不包括的属性。尤其,第三属性集合至少包括第二属性集合中的下述属性,所述属性不包括在第一属性集合中。换言之,因此,所述属性列表至少包括数据集的在白名单中并未已经包括的属性。尤其,第三属性集合能够不包括、包括一个或包括多于一个的属性。
25.尤其,第三属性集合能够恰好是第一属性集合相对于第二属性集合的补集。换言之,第三属性集合于是恰好包括第二属性集合中的下述属性,所述属性不包括在第一属性集合中。因此,换言之,所述属性列表包括数据集的在白名单中并未已经包括的属性。尤其,第三属性集合能够不包括、包括一个或包括多个一个的属性。
26.在借助于接口第二次提供属性列表的步骤中,提供属性列表用于在中央实例之外使用。尤其,能够将属性列表提供给用户和/或处理实例。换言之,所述属性列表被转发给用户和/或处理实例。尤其,用户和/或处理实例能够接收属性列表。尤其,用户和/或处理实例能够与已创建白名单的用户和/或处理实例不同。尤其,相同的用户和/或相同的处理实例
能够创建白名单并且接收属性列表。尤其,用户和/或处理实例借助于属性列表获得下述信息:除了通过第一属性集合定义的特性以外,哪些特性能够提供给数据集的数据。
27.尤其,“动态地”数据最小化表示:向用户提供下述信息:所述信息使用户能够实现,将数据最小化适配于其需求。尤其,借助来自属性列表的知识,用户能够将数据最小化动态地适配于对最小化的数据集的处理。
28.发明人已认识到,借助于属性列表,能够向用户和/或处理实例通知:除了在白名单中定义的属性之外,还提供哪些属性。此外,发明人已认识到,提供属性列表不会带来关于数据保护的问题,因为呈属性形式的属性列表仅包含关于存在数据集的哪些特性或数据的信息。所述属性列表不包含关于这种特性的值的信息。例如,所述属性列表能够包含属性“患者姓名”。因此,用户知道:在数据集中存在关于患者姓名的信息。但是,用户借助于属性列表没有获得关于患者姓名的信息。从用户接收到的最小化的数据集中,通过应用白名单过滤掉关于附加属性的信息,所述附加属性是没有在白名单中提及的属性。没有属性列表,用户将不知道还有哪些属性可用。
29.此外,发明人已认识到,在执行动态数据最小化的技术任务时通过提供属性列表对用户和/或处理实例进行辅助。尤其由于在属性列表中提供的信息,用户和/或处理实例能够将数据最小化动态地适配于最小化的数据集的延续的目的。此外,发明人已认识到,该方法尤其在医学领域中带来优势。医学数据集主要以结构化的文件格式如dicom标准存在。也就是说,数据集已经包括属性值对,并且所描述的方法能够直接在医学数据集上执行。此外,医学数据集包括大比例的敏感的个人相关的数据,因此可靠的数据最小化是至关重要的。因为一直有用于应用于医学数据集的新的应用程序投放市场,并且现有的应用被扩展或改进,所以需要动态地调整数据最小化,而不会遇到违反现行的数据保护准则的风险。发明人已认识到,借助所描述的方法,能够以有利的方式实现或满足这些目的或要求。
30.根据本发明的一个方面,所述白名单对于第一属性集合中的每个属性包括至少一个规则。此外,为第二属性集合中的每个属性分配属性值。该方法还包括以下方法步骤:将白名单的规则第一次应用于第一属性集合的属性的属性值,使得为第二属性集合中的每个属性确定修改后的属性值。该方法还包括第二次确定最小化的数据集的方法步骤,其中所述最小化的数据集包括第一属性集合,其中所述最小化的数据集对于第一属性集合中的每个属性包括修改后的属性值。此外,该方法包括通过中央实例第三次提供最小化的数据集以用于在中央实例之外使用的方法步骤。
31.为第二集合的每个属性分配属性值。换言之,第二集合的每个属性与相应的属性值形成属性值对。尤其,所述数据集包括属性值对,其中所述属性值对的属性包括在第二属性集合中。所述属性值说明数据集的通过相应的属性定义的属性的值。例如,属性“出生日期”的属性值包括数据集所分配给的患者的实际出生日期,或者属性“记录时间”的属性值包括数据集所分配给的记录所持续的以“ms”为单位的时间。
32.为第一集合中的每个属性分配规则。换言之,第一集合的属性和规则分别形成属性规则对。尤其,第一属性集合中的每个属性也包括在第二属性集合中。尤其,因此能够根据第二集合的属性值对为第一集合的每个属性分配属性值。规则描述:在白名单中定义的相应的属性的属性值应和/或允许如何转发到中央实例之外。尤其,所述规则能够符合数据保护规定。尤其,规则例如能够预设,是否应将属性值不改变地、假名化地、加密地转发和/
或甚至不转发。所述规则例如能够根据用户的需求预先确定,以用于处理数据集,和/或通过数据保护准则预先确定。
33.在将白名单的规则第一次应用于第一属性集合中的属性的属性值的方法步骤中,根据规则例如不改变、假名化、加密和/或删除属性值。通过应用相应的规则,能够为第一属性集合中的每个属性确定修改后的属性值。尤其,第一属性集合中的每个属性与修改后的属性值形成修改后的属性值对。
34.基于修改后的属性值对,在第二次确定的方法步骤中确定最小化的数据集。尤其,最小化的数据集包括修改后的属性值对。换言之,最小化的数据集包括第一属性集合中的属性和所属的修改后的属性值。
35.尤其,最小化的数据集能够对应于数据保护准则。尤其,最小化的数据集能够仅包括对于处理最小化的数据集所需的属性或修改后的属性值对。尤其能够根据数据保护准则来修改所述修改后的属性值。
36.在第三次提供的方法步骤中,提供最小化的数据集用于在中央实例之外使用。换言之,提供最小化的数据集用于处理所述最小化的数据集的数据。尤其,最小化的数据集能够提供给用户和/或处理实例。尤其,最小化的数据集能够通过接口提供。尤其,所述提供例如能够是提供最小化的数据集以供下载和/或在云中。
37.发明人已认识到,能够通过将规则应用于属性值来确保遵守数据保护准则。此外,发明人已认识到,能够根据第一属性集合中的相应的属性来建立对于该属性特定的规则。因此,尤其能够防止假名化或不转发所有属性值,或者防止对于一些属性值而言不遵守数据保护准则,以便提供足够的信息来处理最小化的数据集。
38.根据本发明的一个方面,在循环中执行该方法步骤,其中该循环包括至少一个循环遍历。在此,数据集具有多个单独的文件。在此,在循环中针对各个文件执行方法步骤,使得在每个循环遍历中将一个文件最小化。在此,在每个循环遍历中,针对循环遍历的文件调整属性列表。
39.数据集具有多个单独的文件。在此,数据集的每个文件都能够像自己的数据集那样被处理。尤其,能够如上文针对数据集所描述的那样对于每个文件执行每个方法步骤。
40.尤其,在不同的循环遍历中,所述文件能够成对地不同。换言之,能够在每个循环遍历中针对不同的文件执行方法步骤。尤其,在每个循环遍历中将文件最小化。尤其,第二属性集合中的属性在文件中能够至少部分地不同。
41.替选地,一个文件能够经历多个循环遍历。
42.尤其,能够在循环遍历中调整所述属性列表,使得所述属性列表包括来自之前的循环遍历的属性列表的所有属性。
43.尤其,能够比较来自不同的循环遍历的属性列表。尤其,能够以这种方式观察和/或分析在文件的属性中的变化。尤其,通过对更新后的属性列表进行比较能够识别到,何时在文件处添加新的属性。
44.发明人已认识到,通过调整属性列表,所述用户能够获得关于在文件中的属性发生变化的信息。发明人已认识到,所述信息改进了对数据最小化的调整。
45.根据本发明的一个方面,所述属性列表针对第三属性集合的第一子集中的每个属性包括标志,所述标志说明:在之前的循环遍历中的相应的属性是否已经包括在第三属性
集合中。
46.换言之,在下述属性列表中的每个属性设有标志,所述属性已经包括在之前的循环遍历中提供的属性列表中。设有标志的属性的集合形成当前的循环遍历的第三属性集合的第一子集。所述标志对用户已经认识的属性进行标记。换言之,所述标志对第三属性集合中的已经在之前的循环遍历中以属性列表的形式提供给用户的属性进行标记。
47.替选地,所有其它属性能够设有标志,并且不对第一子集中的属性进行标记。
48.替选地,能够对所有属性进行标记。在此,所述标志取决于相应的属性是否包括在第一子集中。
49.所述标志例如能够是分配给要标记的属性的值。该值例如能够是“0”或“1”。替选地,该值能够是“真(true)”或“假(false)”。替选地,所述属性列表能够包括两个子列表。在子列表之一中列出所标记的属性。在另一子列表中列出第三属性集合的所有其它属性。
50.发明人已认识到,标记已知的属性能够加速和简化对数据最小化的调整。尤其,不会多次检查已知的属性:所述属性是否适合用于调整数据最小化。
51.根据本发明的另一方面,所述属性列表针对第三属性集合的第二子集中的每个属性包括标志,所述标志说明相应的属性是否包含在第一集合中。
52.换言之,所述标志指示:第三属性集合中的属性是否包括在白名单中。
53.所述标志能够类似于上面的对标志的描述来构成。
54.尤其,对第一子集中的属性进行标记的标志和对第二子集中的属性进行标记的标志能够是相同的。替选地,这两个标志能够是不同的。
55.替选地,可以给并非第一子集和/或第二子集的一部分的所有其它属性设有标志,并且可以不标记第一子集和/或第二子集中的属性。
56.替选地,能够对所有属性进行标记。在此,对于包括在第一子集和/或第二子集中的属性以及对于第一属性集合中的其余属性,所述标记是不同的。
57.发明人已认识到,对已经包括在白名单中的属性进行标记能够加速和简化数据最小化的调整。尤其,对于用户和/或处理实例能够直接可见的是,所述用户和/或处理实例不再必须考虑哪些属性来调整最小化数据。
58.根据本发明的另一方面,所述属性列表对于第三属性集合中的每个属性包括频率值。所述频率值描述该属性在数据集中的出现频率。
59.尤其,用于属性的频率值能够描述该属性在所述数据集的第二属性集合中的出现频率。
60.尤其,在循环中能够对属性在数据集的多个文件中的出现进行连续计数。尤其,每个文件能够包括第二属性集合。在循环的遍历期间能够经由文件对属性列表进行依次扩展。对于已经包括在属性列表中的属性,当在第二集合中再次出现该属性时,将所述频率值增加一。
61.尤其,属性的频率值能够包括自然数,所述自然数描述该属性在数据集的集合中出现的频率。
62.发明人已认识到,从属性出现的频率中能够推导出该属性的重要性或该属性对数据集的影响。因此,所述频率值是能够用于调整数据最小化的另一因素。
63.根据本发明的另一方面,所述方法还包括方法步骤:基于所述属性列表,尤其基于
在所述属性列表中的属性的数量和/或关于属性的用户输入和/或关于属性列表的规则,第三次确定更新后的白名单。
64.尤其,能够在提供属性列表之后执行在上述方法中的第三次确定更新后的白名单的步骤。
65.尤其,在第三次确定更新后的白名单之前能够执行检查步骤。尤其,在该检查步骤中能够检查:是否应更新所述白名单。如果在检查步骤中检查是肯定的,则能够执行第三次确定更新后的白名单的方法步骤。
66.尤其,如果在循环中执行该方法,那么能够在每个循环遍历中执行第三次确定更新后的白名单的方法步骤。
67.替选地,如果在循环中执行该方法,那么不能在每个循环遍历中执行第三次确定更新后的白名单的方法步骤。尤其,能够在循环遍历中手动地和/或自动地和/或以触发的方式引发执行第三次确定更新后的白名单。尤其,在第三次确定更新后的白名单之后,在后续的循环遍历中将更新后的白名单提供作为白名单。
68.尤其,更新后的白名单将替换所述白名单。尤其,在下文中,术语白名单能够表示更新后的白名单或白名单。
69.尤其,能够通过确定更新后的白名单来调整数据最小化。尤其,确定更新后的白名单能够是对白名单的调整。尤其,所述白名单能够调整为,使得第一属性集合通过一个或多个属性来补充。尤其,对所述白名单进行更新,意图是:最小化的数据集更好地适合于通过用户和/或处理实例进行处理。
70.尤其,能够基于不同的因素来执行第三次确定更新后的白名单。换言之,能够通过不同的因素引发第三次确定更新后的白名单。换言之,能够通过不同的因素来触发第三次确定更新后的白名单。
71.尤其,在超过预先限定的阈值时,属性的频率值能够引发或触发第三次确定更新后的白名单。换言之,如果在属性列表中的属性的频率值超过阈值,则能够触发检查步骤。尤其,能够针对属性列表中的每个属性个体地确定阈值。在该检查步骤中能够检查:属性,具体而言其频率值引发所述检查步骤的属性是否应容纳在白名单中。如果情况如此,则执行第三次确定更新后的白名单的方法步骤。
72.尤其,能够排除作为对于检查步骤的引发器或触发器已经标记的属性。尤其,第一子集和/或第二子集的标志能够用于此。
73.尤其,在属性列表中的属性的数量能够是对于第三次确定更新后的白名单的引发器或触发器。尤其,在属性列表中的属性的数量能够是对于检查步骤的引发器或触发器。
74.尤其,能够通过用户输入来引发或触发第三次确定更新后的白名单。换言之,用户能够在任何时间更新所述白名单或者引发第三次确定更新后的白名单。
75.尤其,能够根据关于属性列表的规则来第三次确定更新后的白名单。
76.尤其,能够任意频繁地执行第三次确定。尤其,能够迭代地调整或更新所述白名单。
77.发明人已认识到,所述属性列表能够用作为用于更新所述白名单的基础。尤其,能够将关于能够将哪些可能的属性容纳到所述白名单中的信息提供给所述用户。发明人已认识到,该知识简化了对白名单的更新。此外,关于根据属性列表可用的属性的知识能够实
现:使用户能够将优化所述处理的属性添加到白名单。
78.根据本发明的另一方面,第三次确定包括第一次更新白名单的方法步骤,其中第一次更新包括将来自属性列表的属性添加到白名单。
79.尤其,能够将来自属性列表的多于一个的属性添加到白名单。
80.发明人已认识到,所述属性列表能够用作为用于更新所述白名单的基础。此外,发明人已认识到,通过将来自属性列表的合适的属性添加到白名单,能够将借助更新后的白名单确定的最小化的数据集适配于所述处理。
81.根据本发明的另一方面,第三次确定还包括从属性列表中第一次移除被添加到白名单的属性的方法步骤。
82.尤其,能够在第一次更新的方法步骤之后执行第一次移除的方法步骤。尤其,通过从属性列表中移除被添加到白名单的属性,能够防止:所述属性列表过长和/或不清楚。因此尤其,不会意外地将来自属性列表的同一属性添加到白名单两次。
83.发明人已认识到,通过从属性列表中移除所添加的属性,能够保持属性列表的清晰度。此外,发明人已认识到,因此能够避免属性的重复或冗余存储。尤其,能够节省存储空间。此外,因此,所提供的属性列表较小或包含较少的属性。尤其,因此必须传输较少的数据。
84.根据本发明的另一方面,第三次确定更新后的白名单以通过触发器引发的方式手动地执行。
85.尤其,所述触发器能够向用户输出触发信号,所述触发信号指示:应执行检查步骤。尤其,在本发明的该方面,用户是人。在检查步骤中,用户能够决定:是否应更新所述白名单。尤其,所述触发信号能够是光学的和/或声学的。替选地,所述触发信号例如能够是发送给用户的邮件。替选地,所述触发信号能够是出现在用户的屏幕上的弹出窗口。
86.尤其,所述触发器能够应用特定地和/或用户特定地设计。尤其,所述触发器能够根据频率值和/或在属性列表中的属性的数量和/或关于属性的用户输入和/或关于属性列表的规则来输出。优选,所述触发器能够是时间控制的。
87.尤其,第三次确定白名单通过用户手动地执行。尤其,用户能够基于属性列表决定:属性列表中的哪个或哪些属性应容纳到白名单或第一属性集合中。尤其,所述用户能够使用属性的频率值和/或属性的标志,作为在决策时的辅助。尤其,用户能够为要容纳到白名单中的每个属性确定规则。尤其,用户能够将属性规则对添加到白名单。
88.尤其,用户能够从属性列表中删除容纳到白名单中的每个属性。
89.发明人已认识到,通过应用触发器能够确保规律地和/或应用特定地执行用于更新所述白名单的检查步骤。尤其,发明人已认识到,所述触发器能够根据应用来特定地设计。此外,发明人已认识到,根据属性列表,能够手动地第三次确定更新后的白名单。
90.根据本发明的另一方面,触发器是时间控制的。
91.换言之,在经过特定的时长后所述触发器触发。尤其,在经过该时长之后,所述触发器能够触发或引发所述触发信号。尤其,能够从最后或前一的触发信号开始测量该时长。尤其,能够从最后更新白名单的时间点开始测量该时长。尤其,能够从最后的事件开始测量该时长。该事件例如能够是,在检查步骤期间,最后触发所述触发器和/或最后更新所述白名单和/或最后检查所述属性列表。尤其,对该时长的测量能够手动或自动化地开始。
92.尤其,触发器能够引发检查步骤。能够根据检查步骤的结果再次执行第三次确定更新后的白名单的方法步骤。尤其,在检查步骤的肯定结果的情况下,能够执行第三次确定更新后的白名单的方法步骤。
93.发明人已认识到,时间控制的触发器易于实现。尤其,能够借助时间控制的触发器来确保:以规则的时间间隔执行检查步骤,以检查:是否应执行第三次确定更新后的白名单。
94.根据本发明的另一方面,所述触发器通过在第三属性集合中的属性的数量来控制。
95.换言之,所述触发器通过在属性列表中的属性的数量来控制。尤其,当在第三属性集合中的属性的数量改变时,该触发器能够触发。尤其,当在第三属性集合中的属性的数量变大时,该触发器能够触发。尤其,所述触发器的触发能够与触发信号相关联。换言之,所述触发器的触发能够引发所述触发信号的输出。
96.尤其,所述触发器能够引发检查步骤,在该检查步骤中检查:是否应执行第三次确定更新后的白名单的方法步骤。
97.发明人已认识到,通过在第三属性集合中的属性的数量对触发器的控制确保:在属性列表改变时,执行检查步骤:是否应该更新所述白名单。此外,发明人已认识到,因此仅当发生某些改变时才执行检查步骤。因此尤其避免:基于相同的或不变的属性列表重复执行第三次确定。发明人已认识到,这样能够节省工作时间或计算时间,因为只有当属性列表已发生改变时,才执行第三次确定的检查步骤或方法步骤。
98.根据本发明的另一可能的方面,所述触发器通过频率值控制。
99.尤其,在属性的频率值超过预先限定的阈值时,能够触发所述触发器。所述阈值能够由用户确定。替选地,所述阈值能够与应用程序相关来预定义。尤其,能够为在属性列表中的每个属性个体地确定或预先限定阈值。
100.发明人已认识到,能够借助于频率值做出关于属性的重要性的陈述。此外,发明人已认识到,当属性在属性列表中被归类为重要时,应执行所述检查步骤。尤其,应借助触发器引发所述检查步骤。然后根据频率值的阈值进行归类。
101.根据本发明的另一可能的方面,所述触发器能够是时间控制的和/或通过属性的数量控制和/或通过频率值控制。
102.换言之,能够通过上述触发器的组合来控制所述触发器。尤其,在触发器基于属性的数量和/或频率值触发的情况下,能够重新开始测量在触发时间控制的触发器之前必须经过的时长。
103.发明人已认识到,通过触发器的组合一方面能够确保:以规则的时间间隔执行检查步骤。另一方面,借助于所述触发器能够对属性列表的改变及时做出反应,所述触发器通过属性的数量和频率值来控制。
104.根据本发明的一个替选的方面,第三次确定更新后的白名单以自动化的方式进行。在此,通过所述触发器引发第三次确定更新后的白名单。
105.所述触发器能够根据上文描述的方面来构成。在本发明的该方面中,第三次确定通过处理实例来执行。尤其,所述触发信号能够是用于处理实例的数据信号。尤其,所述数据信号能够通过处理实例引发所述检查步骤。尤其,能够在检查步骤中检查:是否应执行第
三次确定更新后的白名单的方法步骤。
106.尤其,对白名单的更新能够在无需用户动作的情况下进行。尤其,能够借助处理实例自动化地分析所述属性列表,并且能够在检查步骤中自动化地判断:是否应执行第三次确定更新后的白名单的方法步骤。尤其,第三次确定于是也自动化地进行。
107.发明人已认识到,在通过所述触发器触发的对白名单的自动化第三次确定时不需要用户动作。发明人已认识到,这有助于加速工作流程。
108.根据本发明的另一方面,自动化地第三次确定更新后的白名单还包括第四次确定在属性列表中的属性对于用户和/或处理实例而言是否未知的方法步骤。此外,该方法包括第五次确定未知属性的属性值的数据格式的方法步骤。此外,该方法还包括如下方法步骤:第一次检查:未知属性的属性值的数据格式是否与在第一属性集合中的匹配的属性的属性值的数据格式相匹配。
109.尤其,在本发明的该方面中,自动化地第三次确定更新后的白名单。尤其,能够根据分类进行第四次确定。尤其,属性列表的每个属性能够被分类为“已知”或“未知”。在下文中将分类为未知的属性称为未知属性。尤其,仅能够对第一属性集合中的一部分属性进行分类。尤其,能够最小程度地对第一属性集合中的一个属性进行分类。尤其,能够最大程度地对第一属性集合中的所有属性进行分类。尤其,能够对第一属性集合中在两个极值之间的任意数量的属性进行分类。
110.尤其,第四次确定能够借助于一个或多个标志进行。尤其,具有标志的属性被假定或分类为是已知的,其中所述标志对属性列表中的包括在白名单中的属性进行标记。尤其,借助标志进行标记的属性被分类为已知的,所述标志对已经包括在之前的属性列表的和/或由用户和/或处理实例在检查步骤中检查的属性进行标记。尤其,不带标志的属性被分类为未知的。
111.替选地,仅包括在属性列表中而不包括在白名单中的属性能够被分类为未知的。
112.替选地,能够将属性列表中的在之前的循环遍历中已经分类为未知一次的属性分类为已知。
113.尤其,能够将多于一个的属性分类为未知。
114.替选地,属性列表中的在之前的循环遍历中已经被分类为未知的所有属性能够包括在另外的列表中。在属性列表中的未包括在该列表和/或白名单中的所有属性都被假定为或分类为未知。
115.尤其,以数据格式检测每个属性值。尤其,数据格式例如能够是“字符串”、“日期值”、“货币值”、“数值”等。
116.尤其,根据数据集的属性值对,能够为在数据集中的每个未知属性分配相应的属性值。尤其,能够在第五次确定的步骤中确定该属性值的数据格式。
117.尤其,在第一次检查的方法步骤中能够检查:下述属性是否在第一属性集合中,分配给该属性的属性值具有与未知属性相同的数据格式。换言之,在第一次检查时检查:来自白名单中的属性的属性值是否具有与未知属性的属性值相同的数据格式。这样的属性称为匹配的属性。
118.发明人已认识到,能够根据未知属性的属性值的数据格式来执行自动化地第三次确定更新后的白名单。发明人已认识到,根据数据格式能够自动化地检查:具有相同的数据
格式的属性值的属性是否已经包括在白名单中。
119.根据本发明的另一方面,所述方法还包括下述方法步骤:如果第一次检查数据格式已得出匹配,则通过添加未知属性和匹配的属性的规则来第二次更新所述白名单。
120.在白名单中为第一属性集合中的每个属性分配规则。在第一次应用时,将规则应用于分配给所述属性的属性值,以便在第二次确定的方法步骤中确定最小化的数据集。所述规则尤其能够对于数据格式是特定的。尤其,然后,来自白名单的匹配的属性的规则也能够应用于未知属性的属性值。尤其,然后还能够将匹配的属性的规则分配给未知属性。然后,能够将该属性规则对添加到白名单。
121.尤其,多于一个的分配给第一属性集合中的属性的属性值的数据格式能够与未知属性的属性值的数据格式相匹配。换言之,能够为未知属性确定多个匹配的属性。尤其,多个匹配的属性的规则能够是相同的。然后能够如上所述进行。
122.替选地,能够将至少两个不同的规则分配给匹配的属性。这些不同的规则能够呈送给用户,所述用户决定:应将所述规则中的哪些规则分配给未知属性。替选地,能够对规则进行分类。该分类的类别例如能够描述通过规则修改属性值的程度。所述类别例如能够是“不变”、“假名化”、“匿名化”等。例如,类别“不变”包括下述规则,所述规则对属性值的修改程度不如类别“匿名化”。尤其,然后根据这种分类能够从不同的规则中找出下述规则,所述规则关于多个规则的类别被分配给具有最大程度修改的类别。尤其,能够将该规则分配给未知属性。尤其,能够借助该规则将未知属性添加到白名单。
123.发明人已认识到,基于已知的规则,能够完全自动化地或近似完全自动化地第三次确定更新后的白名单。此外,发明人已认识到,在从多个规则中进行选择时,具有最大程度修改的规则将被分配给未知属性。因此能够使转发过多信息的风险最小化。
124.根据本发明的另一方面,如果第一次检查数据格式没有得出匹配,则该方法包括另外的方法步骤。在这种情况下,该方法包括第三次更新白名单的方法步骤,其中第三次更新是手动执行的。在此,手动执行包括为未知属性创建规则,并且将未知属性和所属的规则添加到白名单。
125.尤其,在数据格式不匹配的情况下,执行手动检查步骤。尤其,手动检查步骤能够由用户执行。尤其,用户能够在检查步骤中决定:是否应将未知属性添加到白名单。
126.如果不应添加未知属性,则不进行进一步的步骤。如果该方法在循环中进行,则开始下一循环遍历。
127.当要将未知属性添加到白名单时,执行第三次更新白名单的方法步骤。在第三次更新时,用户首先为未知属性创建规则。该规则设计为,在将规则应用于属性值时,所述属性值能够符合数据保护准则。然后,在第三次更新白名单的方法步骤中,用户将未知属性和规则添加到白名单。
128.发明人已认识到,即使在手动更新白名单的情况下,如果已经从属性列表中自动化地提取了未知属性,也能够更有效地执行第三次确定更新后的白名单的方法步骤。因此,用户不再必须在属性列表中手动搜索更改或新的属性。
129.根据本发明的另一方面,该方法还包括从属性列表中第二次移除未知属性的方法步骤。
130.尤其,如果未知属性之前在第二次更新或第三次更新的步骤中已经被添加到白名
单,则能够将其从属性列表中移除。
131.发明人已认识到,通过从属性列表中移除在白名单中的属性能够改进属性列表的清晰度。尤其,因此能够将检查步骤加速并设计得更有效,因为在检查步骤中不检查在属性列表中的已知属性。此外,发明人已认识到,如果删除冗余信息,则能够节省存储空间。
132.根据本发明的另一方面,在通过用户和/或处理实例确认白名单和/或更新后的白名单之后,执行第一次应用所述规则、第二次确定最小化的数据集和第三次提供最小化的数据集的方法步骤。
133.尤其,在将规则应用于包括在白名单中的属性的属性值之前,能够执行第三次确定更新后的白名单。尤其,能够任意频繁地执行第三次确定更新后的白名单的步骤。尤其,能够在上述所有方面中执行第三次确定白名单的步骤。当用户和/或处理实例确认更新后的白名单时,才通过应用所述规则来将所述数据集最小化。尤其,因此仅应用更新后的白名单的或白名单的最新版本,以确定最小化的数据集。换言之,仅将规则应用于包括在更新后的白名单或白名单的最新版本中的属性的属性值。尤其,用户和/或处理实例能够省去第三次确定更新后的白名单的方法步骤,并且直接确认所述白名单。尤其,用户和/或处理实例能够基于属性列表来确认更新后的白名单或白名单。
134.发明人已认识到,经常需要以迭代的方式调整或更新所述白名单。为了节省计算时间,通过借助白名单的最新版本仅应用一次规则就确定了最小化的数据集。发明人已认识到,这引起方法的加速和节省计算时间。
135.本发明还涉及一种用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的数据最小化装置。在此,数据集包括第二集合的各个属性。在此,数据最小化装置包括接口和计算单元。所述接口构成为用于第一次提供白名单。在此,白名单包括第一属性集合。在此,第一属性集合是第二属性集合的子集。在此,最小化的数据集包括第一属性集合。计算单元构成为用于第一次确定属性列表,其中所述属性列表包括第三属性集合。在此,第三属性集合至少包括第一属性集合相对于第二属性集合的补集。所述接口还构成为用于通过中央实例第二次提供属性列表,以用于在中央实例之外使用。
136.这种数据最小化装置尤其能够构成为用于,执行上述的用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法及其方面。数据最小化装置构成为用于,执行该方法及其方面,其方式为:所述接口和所述计算单元构成为用于执行相应的方法步骤。
137.本发明还涉及一种具有计算机程序的计算机程序产品以及计算机可读的介质。在很大程度上基于软件的实施方案的优点在于,能够以简单的方式通过软件更新对至今使用的数据最小化装置进行改造,以便以所描述的方式工作。除了计算机程序之外,这种计算机程序产品必要时还包括附加的组成部分,例如文档,和/或附加的组件,以及硬件组件,例如硬件密钥(加密狗等),以用于使用软件。
138.尤其,本发明还涉及一种具有计算机程序的计算机程序产品,所述计算机程序能够直接加载到数据最小化装置的存储器中,所述计算机程序具有程序段,以便当由数据最小化装置执行程序段时,执行用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的所有步骤及其方面。
139.尤其,本发明涉及一种计算机可读的存储介质,在所述计算机可读的存储介质上存储有能够由确定系统和/或训练系统可读和可执行的程序段,以便当由数据最小化装置执行程序段时,能够执行用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的所有步骤及其方面。
附图说明
140.结合下述附图和其说明使本发明的上述特性、特征和优点变得更清楚和更易于理解。在此,附图和说明书不应限制本发明和其实施形式。在不同的附图中,相同的组件设有对应的附图标记。附图通常不是按比例尺的。
141.附图示出:
142.图1示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第一实施例的流程图;
143.图2示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第二实施例的流程图;
144.图3示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第三实施例的流程图;
145.图4示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第四实施例的流程图;
146.图5示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第五实施例的流程图;
147.图6示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第六实施例的流程图;
148.图7示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第七实施例的流程图;
149.图8示出第三次确定更新后的白名单的方法步骤的第一实施例的流程图;
150.图9示出第三次确定更新后的白名单的方法步骤的第二实施例的流程图;
151.图10示出数据最小化装置。
具体实施方式
152.图1示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第一实施例的流程图。
153.在中央实例中,基于白名单将数据集最小化。换言之,基于白名单确定最小化的数据集。所述数据集包括第二属性集合。为数据集或第二集合的每个属性分配属性值。换言之,属性描述了特性,而属性值描述了该特性的值。通常,数据集与医学检查、医疗设备等有关。通常,第二属性集合中的属性与该参引有关。换言之,通过该参引确定:哪些属性包括在第二集合中。所述白名单包括第一属性集合。换言之,所述白名单包括第一属性集合中的属性。第一属性集合是属性的第二集合的子集。最小化的数据集包括第一属性集合。
154.在第一次提供prov

1白名单的方法步骤中,通过用户u和/或处理实例w和/或在内部通过中央实例提供白名单。所述白名单经由接口提供。
155.在第一次确定det

1属性列表的方法步骤中,基于数据集和白名单来确定所述属性列表。在此,所述属性列表包括第三属性集合。换言之,所述属性列表包括第三属性集合中的属性。在此,所述属性列表至少包括来自数据集或来自第二属性集合的不包括在白名单或第一属性集合中的属性。换言之,所述属性列表或第三属性集合至少包括第一属性集合相对于第二属性集合的补集。
156.在第二次提供prov

2的方法步骤中,提供所述属性列表用于在中央实例之外使用。所述提供能够经由接口进行。所述提供例如能够以下载的形式和/或经由云进行。在中央实例之外能够是在用户u和/或处理实例w中。用户u是人。处理实例w是计算单元。用户u和/或处理实例w能够使用属性列表。尤其,借助于属性列表,能够向用户u和/或处理实例w通知:除了白名单的属性或第一属性集合之外,在数据集中还存在哪些属性。至今为止,用户u和/或处理实例w仅了解第一属性集合中的属性。因为在属性列表中不包括属性值,所以不存在对属性列表的数据保护疑虑。
157.图2示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第二实施例的流程图。
158.与根据图1的说明类似地,执行第一次提供prov

1白名单、第一次确定det

1属性列表和第二次提供prov

2属性列表的方法步骤。
159.因为来自第一属性集合中的每个属性也包括在第二属性集合中,所以能够为来自第一属性集合中的每个属性分配属性值。所述白名单包括关于第一属性列表中的每个属性的规则。该规则说明:应如何修改所分配的或所属的或相应的属性值,从而使所述属性值符合数据保护条件或数据保护准则。这种规则例如能够是“不转发”、“匿名”、“伪名”、“不变地转发”等。
160.在第一次应用app

1的方法步骤中,将在白名单中分配给属性的规则应用于所述属性值。在此,经由数据集将属性值分配给来自白名单中的该属性。通过应用所述规则为所述属性确定修改后的属性值。在方法步骤中,将白名单的每个规则应用于相应的属性值。以这种方式,为第一属性集合中的每个属性确定修改后的属性值。
161.在第二次确定det

2的方法步骤中,确定最小化的数据集。最小化的数据集在此包括第一属性集合和所属的修改后的属性值。
162.在第三次提供prov

3的方法步骤中,提供最小化的数据集用于在中央实例之外使用。尤其,最小化的数据集提供给用户u和/或处理实例w。所述提供经由接口进行。所述最小化的数据集能够作为下载和/或经由云提供。
163.在所示出的实施例中,与第一次确定det

1和第二次提供prov

2的方法步骤并行执行第一次应用app

1所述规则、第二次确定det

2所述最小化的数据集和第三次提供prov

3所述最小化的数据集的方法步骤。
164.图3示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第三实施例的流程图。
165.与根据图1的说明类似地,执行第一次提供prov

1所述白名单、第一次确定det

1所述属性列表和第二次提供prov

2所述属性列表的方法步骤。
166.与根据图2的说明类似地,执行第一次应用app

1所述规则、第二次确定det

2所述最小化的数据集和第三次提供prov

3所述最小化的数据集的方法步骤。
167.在该实施例中,在第二次提供prov

2所述属性列表之后执行第一次应用app

1所述规则、第二次确定det

2所述最小化的数据集和第三次提供prov

3所述最小化的数据集的方法步骤。
168.在第二次提供prov

2所述属性列表之后,用户u和/或处理实例w传送信号,使得该方法应继续进行。换言之,所述用户u和/或所述处理实例w用信号通知该方法的继续进行。所述信号例如能够是用户u的鼠标点击和/或处理实例w的数据流。所述信号在附图中标记为粗箭头。如果没有给出信号,则该方法在第二次提供prov

2属性列表之后等待,直至信号到达。
169.替选地,能够省去通过用户u和/或处理单元w发出的信号。在执行该方法时,于是在第二次提供prov

2属性列表之后自动地执行第一次应用app

1所述规则的方法步骤。也就是说,在没有来自外部的信号的情况下,按照顺序执行所述方法步骤。这也适用于下文描述的所有实施形式。
170.图4示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第四实施例的流程图。
171.与根据图1的说明类似地,执行第一次提供prov

1所述白名单、第一次确定det

1所述属性列表和第二次提供prov

2所述属性列表的方法步骤。
172.与根据图2的说明类似地,执行第一次应用app

1所述规则、第二次确定det

2所述最小化的数据集和第三次提供prov

3所述最小化的数据集的方法步骤。
173.在第三次确定det

3的方法步骤中,基于属性列表确定更新后的白名单。第三次确定det

3更新后的白名单能够通过用户u和/或处理实例w执行。借助来自属性列表的知识:除了来自白名单中的属性之外,所述数据集还包括哪些属性,能够更新白名单。在图8和图9中更详细地描述了第三次确定det

3更新后的白名单的方法步骤的实施例。
174.第一次提供prov

1所述白名单、第一次确定det

1所述属性列表、第二次提供prov

2所述属性列表和第三次确定det

3更新后的白名单的方法步骤能够在具有n个循环遍历的循环中执行。n在此是自然数。n尤其也能够是一。换言之,用户u和/或处理实例w能够迭代地更新所述白名单。在每次第一次提供prov

1白名单时提供更新后的白名单。
175.只有当用户u和/或处理实例w发出信号时,才应用最后的白名单以将数据集最小化。由此可以节省了计算时间,因为只有当用户u和/或处理实例w确认了更新后的白名单时,即当所述白名单适于处理最小化的数据集时,才将数据集最小化。
176.为了加速第三次确定det

3更新后的白名单,对于用户u和/或处理单元w已知的属性用标志进行标记。这种属性称为已知属性。所述属性例如能够是已经包括在白名单中的属性,和/或所述属性是用户u和/或处理实例w以其它方式已知的属性。所述标志例如能够是值“1”,所述值被分配给第三属性集合中的每个已知属性。所有其它属性都不能被标记或者例如能够用“0”来标记。替选地,能够对所有其它属性进行标记,而不标记所述已知属性。
177.图5示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第五实施例的流程图。
178.该方法基本上类似于根据图3的实施例执行。
179.但是,所有方法步骤在循环中执行。所述循环能够包括n个循环遍历。
180.对于同一数据集,所述循环能够执行n次。基于最小化的数据集和属性列表,用户u
和/或处理实例w能够在第三次确定det

3的方法步骤中确定更新后的白名单,基于所述更新后的白名单,确定循环遍历的最小化的数据集。
181.替选地,所述数据集能够具有至少n个单独的文件。在此,在每个单独的循环遍历中,对于文件执行如针对之前的附图所描述的方法步骤。在此,在第三次提供prov

3的方法步骤中,在每个循环遍历中都提供最小化的文件。如上文对于数据集所描述的那样,从循环遍历的相应的文件中确定最小化的文件。
182.在此,在第一次确定det

1属性列表的方法步骤中,在每个循环遍历中更新之前的循环遍历的属性列表。在此,所述属性容纳到属性列表中,这些属性包括在循环遍历的文件的第二属性集合中,但是到此为止尚未出现在属性列表中。尤其,所述属性列表对于第三属性集合中的每个属性都能够包括频率值。所述频率值描述了第三属性集合中的属性在循环遍历中总计的出现频率。每次,当所述属性在循环遍历中包括在第一属性集合中时,在属性列表中相应的属性的频率值将增加一。此外,如果在属性列表中的每个属性在之前的循环遍历中已经包括在属性列表中,那么对在属性列表中的每个属性如上所述地进行标记。
183.图6示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第六实施例的流程图。
184.该方法基本上类似于根据图5的实施例构成。
185.在第三次确定det

3更新后的白名单的方法步骤之后,用户u和/或处理实例w能够如在根据图4的实施例中那样决定:对于循环遍历的文件或数据集是否应再次执行第一次提供prov

1白名单、第一次确定det

1属性列表、第二次提供prov

2属性列表和第三次确定det

3更新后的白名单,或者是否应借助更新后的白名单继续进行该方法。
186.图7示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的方法的第七实施例的流程图。
187.如上所述执行所述方法步骤。所述循环能够针对数据集执行n次,或者能够针对数据集的n个文件执行。
188.并不在每个循环遍历中都执行第三次确定det

3更新后的白名单的方法步骤。只有当所述步骤通过触发器引发时,才执行第三次确定det

3更新后的白名单的方法步骤。所述触发器在此例如能够根据时间、根据在相应的循环遍历中的属性的数量和/或根据在属性列表中的频率值来触发。所述触发器尤其能够触发触发信号。所述触发信号能够以光学或声学的方式用信号通知用户u:必须执行检查步骤。替选地,所述触发信号能够是用于处理实例w的数据信号,以便所述处理实例执行检查步骤。在检查步骤中,用户u和/或处理实例w基于属性列表检查:是否应执行第三次确定det

3更新后的白名单的方法步骤。根据该决策,继续进行第三次确定det

3更新后的白名单的方法步骤或继续进行第一次应用app

1所述规则的方法步骤。在第三次确定det

3更新后的白名单之后,通过用户u和/或处理实例w能够发信号通知:应继续进行第一次应用app

1所述规则的方法步骤。
189.替选地,类似于根据图6的实施例,在第三次确定det

3更新后的白名单之后,能够建立另一决策循环。在该决策循环中,在第三次确定det

3更新后的白名单之后决定:该方法是否应继续进行,或者在相同的循环遍历中对于相同的文件或相同的数据集是否应再次执行第一次提供prov

1白名单、第一次确定det

1属性列表、第二次提供prov

2属性列表和第三次确定det

3更新后的白名单的方法步骤。
190.图8示出第三次确定更新后的白名单的方法步骤的第一实施例的流程图。
191.在所示出的实施例中,第三次确定det

3更新后的白名单的方法步骤包括第一次更新act

1白名单的方法步骤和从属性列表中第一次移除del

1被添加到白名单中的属性的可选的方法步骤。
192.在第一次更新act

1的方法步骤中,将来自属性列表中的属性添加到白名单中。在之前的检查步骤中,由用户u和/或处理实例w决定:应将来自属性列表中的至少一个属性添加到白名单。至少一个属性被添加到白名单。此外,对于添加到白名单中的每个属性添加规则。该规则例如能够由用户u根据数据保护准则来确定。替选地,该规则能够由处理实例w自动化地确定。
193.在第一次移除del

1的可选的方法步骤中,从属性列表中删除至少一个属性,所述属性在第一次更新act

1白名单的方法步骤中被添加到白名单。能够执行所述方法步骤,以便避免在不同的列表中的冗余信息并且为用户u和/或处理实例w确保更好的清晰度。
194.替选地,至少一个属性能够保留在属性列表中并且用标志来标记。所述标志向用户u和/或处理实例w显示:该属性已经容纳到白名单中,而不必再次检查。
195.图9示出第三次确定更新后的白名单的方法步骤的第二实施例的流程图。
196.在该实施例中,第三次确定det

3更新后的白名单能够通过处理实例w至少部分地自动化地执行。
197.在第四次确定det

4的方法步骤中确定:属性列表的属性对于用户u和/或处理实例w是否是未知的。为此,例如能够检查:属性列表是否包括至少一个没有标志的属性。尤其,为此,对属性列表的所有属性进行标记,这些属性已经包括在白名单中并且在之前的循环遍历中已经是属性列表的一部分。如果并非在每个循环遍历中都执行检查步骤,则对包括在白名单中的属性和在上一检查步骤中已经包括在属性列表中的属性进行标记。因此,未被标记的属性将被假定或分类为未知的。
198.在第五次确定det

5数据格式的方法步骤中,确定未知属性的属性值的数据格式。为此,在第二属性集合中搜索未知属性。为数据集的第二属性集合中的每个属性分配属性值。基于数据集确定所属的属性值的数据格式。所述数据格式例如能够是日期格式、货币格式、数字格式、字符串格式等。
199.在第一次检查check

1的方法步骤中检查:下述属性是否包括在白名单中,借助于数据集能够将具有与未知属性的属性值的数据格式相同的数据格式的属性值分配给该属性。这种属性称为匹配的属性。尤其,在检查时,在属性列表中不能找到、找到一个或找到多于一个的匹配的属性。在白名单中的每个属性都分配有规则,借助该规则能够修改所属的属性值,使得所述属性值符合数据保护准则。
200.在第一次检查check

1的方法步骤之后,根据该检查步骤的结果继续进行。
201.如果没有找到匹配的属性,则继续执行在第三次确定det

3更新后的白名单的方法步骤之后的方法步骤。
202.如果在属性列表中确定了匹配的属性,则能够借助来自白名单中的匹配的属性的规则将未知属性添加到白名单。这在第二次更新act

2白名单的步骤中执行。
203.如果确定了多于一个的匹配的属性,其中为在白名单中的匹配的属性分配了不同的规则,则将所述规则与未知属性一起添加到白名单,所述规则最大程度地修改了属性值。
为此,能够将所述规则划分成多个类别,所述类别描述了属性值的修改程度。少量修改在此表示:通过应用规则,不改变属性值。大量修改表示:通过应用规则删除了属性值。如果将具有最大程度的修改的规则分配给未知属性,则能够减少将过多的数据朝向中央实例之外转发的风险。替选地,能够将不同的规则呈现给用户u,所述用户手动地决定:应将所述规则中的哪些规则分配给未知属性。在第二次更新act

2的方法步骤中,将未知属性和以这种方式分配的规则添加到白名单。尤其,将未知属性添加给第一集合。能够针对多于一个的未知属性执行第二次更新act

2白名单的方法步骤。
204.类似于根据图8的第一次移除del

1的方法步骤的说明,能够在第二次移除del

2的方法步骤中从属性列表或第三属性集合中移除未知属性。该方法步骤能够可选地执行。
205.第四次确定det

4、第五次确定det

5所述数据格式、第一次检查check

1、第二次更新act

2所述白名单以及必要时第二次移除del

2未知属性的方法步骤尤其能够由处理实例w来执行。
206.如果在第一次检查check

1的方法步骤中没有找到匹配的属性,则由用户u手动地执行第三次更新act

3白名单以及必要时第三次移除del

3未知属性的方法步骤。
207.在此,在第三次更新act

3白名单的方法步骤中,所述用户u确定用于未知属性的规则。随后,将未知属性与规则一起添加到白名单。尤其,将未知属性添加给第一集合。
208.在第三次移除del

3未知属性的可选的方法步骤中,类似于第一次移除del

1和第二次移除del

2的方法步骤,能够从属性列表或第三属性集合中移除未知属性。
209.图10示出用于对数据集进行动态数据最小化以将最小化的数据集从中央实例朝向中央实例之外转发的数据最小化装置10。在此示出的数据最小化装置10设计为,执行根据本发明的方法。这种数据最小化装置10包括接口11、计算单元12、存储单元13以及输入和输出单元14。在此,所述接口11尤其能够包括另外的接口或子接口。此外,所述计算单元12尤其能够包括另外的计算单元或子计算单元。
210.所述数据最小化装置10尤其能够是计算机、微控制器或集成电路。替选地,所述数据最小化装置10能够是计算机的真实或虚拟集群(用于真实集群的英文技术术语是“cluster”,用于虚拟集群的英文技术术语是“cloud”)。
211.接口11能够是硬件或软件接口(例如pci总线、usb或火线)。计算单元12能够具有硬件元件或软件元件,例如微处理器或所谓的fpga(英文缩写为“field programmable gate array(现场可编程门阵列)”)。存储单元13能够被实现为非永久性工作存储器(随机存取存储器,简称为ram)或永久性大容量存储设备(硬盘驱动器、usb棒、sd卡、固态盘)。输入和输出单元14包括至少一个输入单元和/或至少一个输出单元。
212.输入单元14尤其能够借助于键盘和/或鼠标来实现。输出单元14尤其能够是屏幕。输出单元替选地也能够是构成为用于打印图像数据的打印机。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1