一种用于隐私数据传输的加密方法和装置与流程

文档序号:25490181发布日期:2021-06-15 21:55阅读:81来源:国知局
一种用于隐私数据传输的加密方法和装置与流程

本发明涉及大数据分析处理技术领域,具体涉及一种用于隐私数据传输的加密方法和装置。



背景技术:

随着计算机信息技术发展,人类社会已经全面进入了大数据时代,大数据分析处理在生产、生活的诸多方面已经成为了基础性架构。

大数据分析处理首先需要采集、聚合、存储海量的数据信息,进而进行数据信息的清洗、整合和结构化处理,形成便于分析的数据形态,之后展开数据信息的挖掘与分析,在用户、对象、行为、地点、时间、过程等方面获得数据信息之间潜在的相关规则;最后,基于相关规则评估事件发生概率,并按照概率给予相对应的响应。

然而,由于在大数据的应用场景中,绝大部分的数据信息来自于用户,其中存在着大量的隐私数据,例如:与用户的个体身份和通信方式相关的敏感信息,用户的健康状况和生理参数,用户行为的时间、地点等历史记录。这些隐私数据的泄露会极大损害用户自身的合法权益,带来人身和财产方面的安全风险,还可能危害社会的公序良俗。

目前,用户数据信息的获取、存储、分析、应用涉及到的部门单位较多,包括管理部门、金融机构、评估机构、企业乃至各类电子商务平台等等,由于涉及面广、体系庞杂,对于用户隐私数据难以形成充分有效的保障约束机制,泄露扩散用户隐私数据的情况仍然存在,治理存在困难。目前一些拥有数据权限的部门单位将大数据相关的存储、管理、分析交由第三方协助办理,又进一步加剧了上述情形。大数据的分析处理一般都要借助网络媒介展开数据传输,并且在云端的服务器实现存储聚合,这也带来了一定的数据安全风险。近年来,已经发生过多起通过黑客手段攻破大数据中心造成大范围、大量级用户信息泄露的案例。

因此,在大数据分析处理技术中,需要考虑如何减少和防范用户相关隐私数据在传输、聚合、存储、挖掘分析等环节的风险,包括但不限于避免用户数据的过度集中,以及减少用户隐私数据的直接网络传输和云端存储,在不影响大数据分析应用的前提下屏蔽加密用户数据中的隐私信息,降低泄露风险。



技术实现要素:

针对现有技术存在的上述不足,本发明的目的在于:提供一种用于隐私数据传输的加密方法和装置。对于在大数据分析应用过程中,需要通过网络媒介传输以及在网络侧进行存储和分析处理的隐私数据,本发明将其转化为同构映射处理后的加密表示数据,进而利用该加密表示数据与原始的隐私数据之间的同构属性,实现数据相关规则的挖掘分析,从而通过该加密表示数据屏蔽了用户隐私数据的有效内容,避免了用户隐私数据的直接网络传输以及在网络侧的集中存储,根本上降低了数据安全风险,保障了用户隐私权益。

本发明提供了一种用于隐私数据传输的加密方法,包括以下步骤:

映射关联结构构建步骤,构建映射关联结构,所述映射关联结构包括相互逻辑关联的映射域,以及每个映射域的域属性;

用户数据映射步骤,对于包含隐私数据的初始用户数据,根据初始用户数据与映射域的域属性的相关度,从初始用户数据中提取出相应映射域的域值;

同构加密步骤,将所述映射域的域值与同构分布模板进行匹配,通过域值与同构分布模板的匹配度,形成初始用户数据的加密表示数据;

传输步骤,向网络侧传输所述加密表示数据;

数据分析步骤,在网络侧对所述加密表示数据进行分析,获得所述加密表示数据的相关规则,基于所述加密表示数据与初始用户数据的同构属性,获得初始用户数据的相关规则。

优选的是,所述同构分布模板包括若干分布单元,每个分布单元包括与映射域对应的单元字段,每个单元字段具有预设取值区间。

优选的是,所述同构加密步骤中,根据所述映射域的域值与同构分布模板中的分布单元的匹配度,以及分布单元的权重估计值,获得所述加密表示数据。

优选的是,所述同构分布模板中,每个分布单元的权重估计值按照如下方式计算:

其中,n表示分布单元所具有的单元字段总数,k表示同构分布模板中分布单元序号,即第k个分布单元,wk表示第k个分布单元的权重估计值,i表示第k个分布单元的单元字段序号,即第k个分布单元的第i个单元字段,β1表示权重估计系数,β1是一个常数,ri表示第i个单元字段预设取值区间的区间长度量化值。

优选的是,根据所述映射域的域值与同构分布模板中的分布单元的匹配度,以及分布单元的权重估计值,按照如下方式计算所述加密表示数据:首先计算所述映射域的域值相对于同构分布模板中每个分布单元的表示数:

其中,wk为第k个分布单元的权重估计值,mk为所述映射域的域值与第k个分布单元的匹配度,β2为常数系数;

将所述映射域的域值对应于同构分布模板中的全部分布单元的表示数表示为:<e1,e2,...ek...>,作为所述加密表示数据。

本发明提供了一种用于隐私数据传输的加密装置,包括:

映射关联结构构建单元,用于构建映射关联结构,所述映射关联结构包括相互逻辑关联的映射域,以及每个映射域的域属性;

用户数据映射单元,对于包含隐私数据的初始用户数据,根据初始用户数据与映射域的域属性的相关度,从初始用户数据中提取出相应映射域的域值;

同构加密单元,将所述映射域的域值与同构分布模板进行匹配,通过域值与同构分布模板的匹配度,形成初始用户数据的加密表示数据;

传输单元,向网络侧传输所述加密表示数据;

数据分析单元,在网络侧对所述加密表示数据进行分析,获得所述加密表示数据的相关规则,基于所述加密表示数据与初始用户数据的同构属性,获得初始用户数据的相关规则。

优选的是,所述同构加密单元保存同构分布模板,所述同构分布模板包括若干分布单元,每个分布单元包括与映射域对应的单元字段,每个单元字段具有预设取值区间。

优选的是,所述同构加密单元根据所述映射域的域值与同构分布模板中的分布单元的匹配度,以及分布单元的权重估计值,获得所述加密表示数据。

优选的是,所述同构分布模板中,每个分布单元的权重估计值按照如下方式计算:

其中,n表示分布单元所具有的单元字段总数,k表示同构分布模板中分布单元序号,即第k个分布单元,wk表示第k个分布单元的权重估计值,i表示第k个分布单元的单元字段序号,即第k个分布单元的第i个单元字段,β1表示权重估计系数,β1是一个常数,ri表示第i个单元字段预设取值区间的区间长度量化值。

优选的是,所述同构加密单元根据所述映射域的域值与同构分布模板中的分布单元的匹配度,以及分布单元的权重估计值,按照如下方式计算所述加密表示数据:首先计算所述映射域的域值相对于同构分布模板中每个分布单元的表示数:

其中,wk为第k个分布单元的权重估计值,mk为所述映射域的域值与第k个分布单元的匹配度,β2为常数系数;

将所述映射域的域值对应于同构分布模板中的全部分布单元的表示数表示为:<e1,e2,...ek...>,作为所述加密表示数据。

相比于现有技术,本发明具有以下优点:

本发明提供的一种用于隐私数据传输的加密方法和装置。对于在大数据分析应用过程中,需要通过网络媒介传输以及在网络侧进行存储和分析处理的隐私数据,本发明将其转化为同构映射处理后的加密表示数据,进而利用该加密表示数据与原始的隐私数据之间的同构属性,实现数据相关规则的挖掘分析,从而通过该加密表示数据屏蔽了用户隐私数据的有效内容,避免了用户隐私数据的直接网络传输以及在网络侧的集中存储,根本上降低了数据安全风险,保障了用户隐私权益。

附图说明

图1为本发明实施例一中用于隐私数据传输的加密方法的流程图;

图2为本发明实施例二中用于隐私数据传输的加密装置的结构框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。

实施例一:

参照图1,一种用于隐私数据传输的加密方法,包括以下步骤:

映射关联结构构建步骤,构建映射关联结构,所述映射关联结构包括相互逻辑关联的映射域,以及每个映射域的域属性。

在具体的大数据分析应用场景下,根据面向用户所采集、聚合、存储的用户数据信息其中的具体数据内容和具体数据格式,构建与之相适配的映射关联结构。该映射关联结构包括一定数量的映射域,每个映射域对应用户数据信息的一个类型或者一个维度,例如用户基本信息、用户相关对象、用户行为、地点时间、轨迹路径、交易过程等,都可以分别对应为一个映射域。显然,这些用户数据信息当中,会存在于用户隐私相关的敏感信息,例如与用户的个体身份和通信方式相关的敏感信息,用户的健康状况和生理参数,用户行为的时间、地点等历史记录。对于每个映射域,也定义其域属性,域属性包括映射域的域名称以及域索引。域名称表示该映射域对应的用户数据信息的类型或者维度,域索引则是针对该用户数据信息的类型或者维度所构建的一组索引词库。映射域不是彼此孤立的,而是彼此之间按照逻辑关系相互进行关联的,逻辑关系包括并列关系、包含关系、因果关系、递进关系等。

用户数据映射步骤,对于包含隐私数据的初始用户数据,根据初始用户数据与映射域的域属性的相关度,从初始用户数据中提取出相应映射域的域值。

对于每一次加密传输而言,我们将未经加密处理的用户数据信息——例如用户基本信息、用户相关对象、用户行为、地点时间、轨迹路径、交易过程等——作为初始用户数据。初始用户数据中用户隐私相关的敏感信息是以未经加密的初始形态存在的。根据初始用户数据与映射域的域属性的相关度,从初始用户数据中提取出相应映射域的域值。其中,初始用户数据与映射域的域属性的相关度可以通过域名称匹配、域索引匹配、域名称和域索引联合逻辑匹配等方式来确定。如果初始用户数据是文本格式,则可以利用词频统计的方式,从初始用户数据中提取关键词,并且将关键词与每个映射域的域名称、域索引进行匹配,从而将与域名称、域索引匹配的关键词的累积数量作为该映射域的域值。如果初始用户数据是xml等标记语言格式,则将每个标记语言字段确定与每个映射域的域名称的匹配关系,进而根据每个标记语言字段的内容值,确定其与域名称相匹配的映射域的域索引的匹配关系,将与域名称、域索引匹配的标记语言字段内容值的累积数量作为该映射域的域值。

同构加密步骤,将所述映射域的域值与同构分布模板进行匹配,通过域值与同构分布模板的匹配度,形成初始用户数据的加密表示数据。本发明实现同构加密,将初始用户数据转化为加密表示数据,并且保证加密表示数据与初始用户数据之间的同构属性,即利用加密表示数据同样可以实现数据相关规则的挖掘分析,并且产生的数据相关规则与初始用户数据自身的数据相关规则具有一致性。

为了实现同构加密,本发明设置了同构分布模板,同构分布模板包括若干分布单元,每个分布单元包括与映射域对应的单元字段,每个单元字段具有预设取值区间。其中,同构分布模板的每个分布单元,基于其每个单元字段的字段名称,与一个或者多个映射域相对应;并且,每个单元字段具有预设取值区间。每个分布单元具有自身的权重估计值,该权重估计值与分布单元的单元字段的预设取值区间成反比,即分布单元单元字段的预设取值区间的覆盖范围越大,则该分布单元单元字段对应的权重估计值越低,反之,分布单元单元字段的预设取值区间的覆盖范围越小,则该分布单元单元字段对应的权重估计值越高。具体来说,每个分布单元的权重估计值按照如下方式计算:

其中,n表示分布单元所具有的单元字段总数,k表示同构分布模板中分布单元序号,即第k个分布单元,wk表示第k个分布单元的权重估计值,i表示第k个分布单元的单元字段序号,即第k个分布单元的第i个单元字段,β1表示权重估计系数,β1是一个常数,ri表示第i个单元字段预设取值区间的区间长度量化值。

在同构加密步骤中,将所述映射域的域值与同构分布模板进行匹配,根据所述映射域的域值与同构分布模板中的分布单元的匹配度,以及分布单元的权重估计值,按照如下方式计算所述加密表示数据:首先计算所述映射域的域值相对于同构分布模板中每个分布单元的表示数:

其中,wk为第k个分布单元的权重估计值,mk为所述映射域的域值与第k个分布单元的匹配度,β2为常数系数;其中,所述映射域的域值与第k个分布单元的匹配度mk,可以用映射域的域值乘以与每个分布单元对应的转换系数来进行表示;将所述映射域的域值对应于同构分布模板中的全部分布单元的表示数表示为:<e1,e2,...ek...>,作为所述加密表示数据。

传输步骤,向网络侧传输所述加密表示数据。

进而,在数据分析步骤中,在网络侧对所述加密表示数据进行分析,获得所述加密表示数据的相关规则,基于所述加密表示数据与初始用户数据的同构属性,获得初始用户数据的相关规则。在网络侧的大数据分析过程中,可以利用深度学习等评估挖掘方法,对所述加密表示数据直接进行分析,获得所述加密表示数据的相关规则,基于所述加密表示数据与初始用户数据的同构属性,获得初始用户数据的相关规则。例如,可以利用聚类算法对加密表示数据进行聚类,基于加密表示数据的聚类结果,后续将初始用户数据也聚合为相应类,归属于同一类的初始用户数据也具备共同的类别特征。对所述加密表示数据直接进行分析还可以包括神经网络分析、支持向量机分类、贝叶斯分析、回归分析等。

如图2所示,本发明也提供了一种用于隐私数据传输的加密装置,包括:

映射关联结构构建单元,用于构建映射关联结构,所述映射关联结构包括相互逻辑关联的映射域,以及每个映射域的域属性。映射关联结构构建单元根据面向用户所采集、聚合、存储的用户数据信息其中的具体数据内容和具体数据格式,构建与之相适配的映射关联结构,并且向后面介绍的用户数据映射单元提供该映射关联结构的调用。该映射关联结构包括一定数量的映射域,每个映射域对应用户数据信息的一个类型或者一个维度,例如用户基本信息、用户相关对象、用户行为、地点时间、轨迹路径、交易过程等,都可以分别对应为一个映射域。显然,这些用户数据信息当中,会存在于用户隐私相关的敏感信息,例如与用户的个体身份和通信方式相关的敏感信息,用户的健康状况和生理参数,用户行为的时间、地点等历史记录。对于每个映射域,也定义其域属性,域属性包括映射域的域名称以及域索引。域名称表示该映射域对应的用户数据信息的类型或者维度,域索引则是针对该用户数据信息的类型或者维度所构建的一组索引词库。映射域不是彼此孤立的,而是彼此之间按照逻辑关系相互进行关联的,逻辑关系包括并列关系、包含关系、因果关系、递进关系等。

用户数据映射单元,对于包含隐私数据的初始用户数据,根据初始用户数据与映射域的域属性的相关度,从初始用户数据中提取出相应映射域的域值。对于每一次加密传输而言,我们将未经加密处理的用户数据信息——例如用户基本信息、用户相关对象、用户行为、地点时间、轨迹路径、交易过程等——作为初始用户数据。初始用户数据中用户隐私相关的敏感信息是以未经加密的初始形态存在的。用户数据映射单元在数据源一侧运行,对于获得的初始用户数据,根据初始用户数据与映射域的域属性的相关度,从初始用户数据中提取出相应映射域的域值。其中,初始用户数据与映射域的域属性的相关度可以通过域名称匹配、域索引匹配、域名称和域索引联合逻辑匹配等方式来确定。如果初始用户数据是文本格式,则可以利用词频统计的方式,从初始用户数据中提取关键词,并且将关键词与每个映射域的域名称、域索引进行匹配,从而将与域名称、域索引匹配的关键词的累积数量作为该映射域的域值。如果初始用户数据是xml等标记语言格式,则将每个标记语言字段确定与每个映射域的域名称的匹配关系,进而根据每个标记语言字段的内容值,确定其与域名称相匹配的映射域的域索引的匹配关系,将与域名称、域索引匹配的标记语言字段内容值的累积数量作为该映射域的域值。

同构加密单元,将所述映射域的域值与同构分布模板进行匹配,通过域值与同构分布模板的匹配度,形成初始用户数据的加密表示数据。本发明实现同构加密,将初始用户数据转化为加密表示数据,并且保证加密表示数据与初始用户数据之间的同构属性,即利用加密表示数据同样可以实现数据相关规则的挖掘分析,并且产生的数据相关规则与初始用户数据自身的数据相关规则具有一致性。为了实现同构加密,本发明设置了同构分布模板,可以存储在同构加密单元之中。该同构分布模板包括若干分布单元,每个分布单元包括与映射域对应的单元字段,每个单元字段具有预设取值区间。其中,同构分布模板的每个分布单元,基于其每个单元字段的字段名称,与一个或者多个映射域相对应;并且,每个单元字段具有预设取值区间。每个分布单元具有自身的权重估计值,该权重估计值与分布单元的单元字段的预设取值区间成反比,即分布单元单元字段的预设取值区间的覆盖范围越大,则该分布单元单元字段对应的权重估计值越低,反之,分布单元单元字段的预设取值区间的覆盖范围越小,则该分布单元单元字段对应的权重估计值越高。具体来说,每个分布单元的权重估计值按照如下方式计算:

其中,n表示分布单元所具有的单元字段总数,k表示同构分布模板中分布单元序号,即第k个分布单元,wk表示第k个分布单元的权重估计值,i表示第k个分布单元的单元字段序号,即第k个分布单元的第i个单元字段,β1表示权重估计系数,β1是一个常数,ri表示第i个单元字段预设取值区间的区间长度量化值。在同构加密过程中,同构加密单元将所述映射域的域值与同构分布模板进行匹配,根据所述映射域的域值与同构分布模板中的分布单元的匹配度,以及分布单元的权重估计值,按照如下方式计算所述加密表示数据:首先计算所述映射域的域值相对于同构分布模板中每个分布单元的表示数:

其中,wk为第k个分布单元的权重估计值,mk为所述映射域的域值与第k个分布单元的匹配度,β2为常数系数;其中,所述映射域的域值与第k个分布单元的匹配度mk,可以用映射域的域值乘以与每个分布单元对应的转换系数来进行表示;将所述映射域的域值对应于同构分布模板中的全部分布单元的表示数表示为:<e1,e2,...ek...>,作为所述加密表示数据。

传输单元,向网络侧传输所述加密表示数据。

数据分析单元,在网络侧对所述加密表示数据进行分析,获得所述加密表示数据的相关规则,基于所述加密表示数据与初始用户数据的同构属性,获得初始用户数据的相关规则。在网络侧的大数据分析过程中,可以利用深度学习等评估挖掘方法,对所述加密表示数据直接进行分析,获得所述加密表示数据的相关规则,基于所述加密表示数据与初始用户数据的同构属性,获得初始用户数据的相关规则。例如,可以利用聚类算法对加密表示数据进行聚类,基于加密表示数据的聚类结果,后续将初始用户数据也聚合为相应类,归属于同一类的初始用户数据也具备共同的类别特征。对所述加密表示数据直接进行分析还可以包括神经网络分析、支持向量机分类、贝叶斯分析、回归分析等。

相比于现有技术,本发明具有以下优点:

本发明提供的一种用于隐私数据传输的加密方法和装置。对于在大数据分析应用过程中,需要通过网络媒介传输以及在网络侧进行存储和分析处理的隐私数据,本发明将其转化为同构映射处理后的加密表示数据,进而利用该加密表示数据与原始的隐私数据之间的同构属性,实现数据相关规则的挖掘分析,从而通过该加密表示数据屏蔽了用户隐私数据的有效内容,避免了用户隐私数据的直接网络传输以及在网络侧的集中存储,根本上降低了数据安全风险,保障了用户隐私权益。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的保护范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1