一种基于伽罗瓦域的流量日志多视图匿名方法与流程

文档序号:26792541发布日期:2021-09-28 23:53阅读:136来源:国知局
一种基于伽罗瓦域的流量日志多视图匿名方法与流程

1.本发明涉及流量日志多视图匿名方法,尤其涉及一种基于伽罗瓦域的流量日志多视图匿名方法。


背景技术:

2.收集到真实有效的流量数据并外包给专业机构进行分析,有助于促进企业的网络系统研究。将先进的流量分析技术应用到企业妥善收集和保存的流量数据上,对于企业而言有着重要的技术价值和商业价值,包括优化服务器部署、挖掘用户商业行为、审查网络安全等等。同时,随着企业网络流量的规模越来越大,对于流量数据的分析往往需要外包给专业的分析者。
3.然而企业面临着发布流量日志和保护隐私的困境。一个最主要的原因就是流量数据真实保存了很多敏感信息,特别是服务器ip地址,用户ip地址等等,这些敏感信息代表了企业和用户的隐私,而将未经处理的流量数据文件转交给第三方会有很大的可能导致隐私信息泄露。因此企业在将日志外包给专业的分析者时由于担心隐私被泄露而迟疑不决。流量日志中包含的真实数据特征代表了日志的有效性,暴露的真实信息反映了日志的隐私性,业界公认有效性和隐私性之间存在一种权衡,正是这种权衡给企业造成了困境。为了解决这一困境,匿名手段被广泛研究并且应用在流量日志中的ip地址字段。tcpdpriv采用随机映射的方式进行匿名。该方法随机的将ip地址一对一映射到一个32位的整数,经过这个方法匿名后的ip地址与匿名前的地址没有关联特征,很大程度上保护了隐私性;然而随机的映射使得分布式收集的ip地址无法进行统一的汇总,因此有效性随之大幅度降低。cryptopan使用前缀保留方案在分布式环境中替换原始ip。该方法不仅可以实现共享前缀的ip地址匿名后依然共享前缀,而且可以被部署在分布式环境中获取流量日志,这就意味着企业在不同流量节点获取的日志可以合并分析,因此一经提出就被广泛的采用;然而保留了前缀的日志也被实验证明在抵御指纹攻击和注入攻击时表现很脆弱,也就意味着牺牲了一部分的隐私性。
4.多视图方案提供了一种范式,将有效性和隐私性的权衡转移到有效性隐私性和计算开销的权衡。在匿名阶段,企业根据原始的流量日志生成多个流量日志,其中只有一个是真实的;在外包的阶段,企业同时将多个流量日志发布给分析机构进行分析。在这种情况下,保证有效性和隐私性是通过增加计算开销实现的。
5.为了拥有较小的通信开销,多视图方案根据流量日志生成一个种子日志以及多个参数作为沟通成本。其中每个参数可以跟种子日志进行运算生成新的日志,这样企业在与第三方通信的时候就不需要发布多个日志本身,仅需要发布种子日志和参数。
6.然而现有基于伪随机数的多视图方案有很多局限性,包括:
7.(1)对于企业指定的密钥有限制,否则不能保证有效性;
8.(2)对于流量日志本身的ip地址数据特征有很高的要求,否则不能保证隐私性;
9.(3)这种方案也不能实现分布式环境下的流量匿名;
10.(4)企业与第三方的沟通成本会随着日志中流量的增多而增加。


技术实现要素:

11.发明目的:本发明的目的是提供一种在保证有效性和隐私性的情况下,取消企业使用密钥的限制,对所有流量日志都适用,能够实现分布式环境下的流量日志匿名,以更小的沟通成本实现企业与第三方的基于伽罗瓦域的流量日志多视图匿名方法。
12.技术方案:本发明的流量日志多视图匿名方法,包括如下步骤:
13.(1)确定生成种子日志的算子选取方案;
14.(2)获取基于伽罗瓦域的分布式种子日志;
15.(3)确定生成多视图算子选取方案;
16.(4)企业将种子日志和多视图算子外包给分析机构。
17.进一步,步骤(1)中,所述生成种子日志的算子的步骤为:
18.(11)在部署前,企业需要选择伽罗瓦域中的求逆运算作为算子的一部分,将原始ip地址以符合双射标准的形式映射到匿名ip地址;
19.(12)通过伽罗瓦域中的求逆运算和不可约多项式实现ip地址的匿名转化。
20.进一步,步骤(2)中,种子日志由真实日志经过匿名得到,因此企业需要在收集真实日志的所有节点均部署所述步骤(1)得出的不可约多项式和相应求逆算法;部署后,进行分布式的流量日志获取同时匿名,包括步骤如下:
21.(21)获取经过流量节点的每个流量包;
22.(22)对每个流量包中的信息进行解析;
23.(23)将需要保存到种子日志中的具体信息进行提取;
24.(24)将提取的信息中的原始ip地址构造为多项式f(x),并选用拓展欧几里得算法对多项式f(x)进行关于不可约多项式的求逆运算,得到新的多项式f
‑1(x);再接着将多项式f
‑1(x)构造为匿名ip地址;
25.(25)最后使用匿名ip地址替换提取的信息中的原始ip地址,并将提取出来的信息组织成企业指定的格式写入种子日志。
26.进一步,步骤(3)中,所述生成多视图算子是基于伽罗瓦域的多项式求逆运算,包括步骤:
27.(31)首先企业选取多个不可约多项式组v,作为求逆运算的参数,求逆运算能保证不同的不可约多项式组得到与种子日志形成双射的不同日志;
28.(32)其次企业需要将步骤(1)中部署的不可约多项式组插入选取的不可约多项式组v中。
29.本发明与现有技术相比,其显著效果如下:1、求逆运算可以在不受时空影响地情况下确定性地将一个原始ip地址映射成一个匿名ip地址,所以种子日志能在分布式环境下生成;2、不可约多项式组v
l
用于将种子日志映射为真实日志,因而真实的分析报告能够生成;3、步骤(3)中的匿名v
l
和v中的其他不可约多项式组不可区分,即真实日志和伪日志不可区分,所以企业的隐私得以保护;4、伽罗瓦域不仅能够准确表示ip地址空间的结构特征,而且是从单个流量包的层面对ip地址进行映射,所以对于所有流量日志都适用;5、步骤(2)中使用伽罗瓦域可以根据任意不可约多项式实现原始ip地址到匿名ip地址的确定性映射,
所以企业能够任意指定不可约多项式,取消了对企业使用密钥的限制;6、通信成本的多视图算子m大小固定,且不会随着真实日志中地流量数增加而增加,所以企业和第三方分析机构的通信成本降低。
附图说明
30.图1为本发明的总流程示意图。
具体实施方式
31.下面结合说明书附图和具体实施方式对本发明做进一步详细描述。
32.本发明的总流程图如图1所示,以对流量日志中的ip地址进行匿名为例,包括如下步骤:
33.(1)确定生成种子日志的算子选取方案;
34.(2)获取基于伽罗瓦域的分布式种子日志;
35.(3)确定生成多视图的算子选取方案;
36.(4)企业和第三方进行通信,企业将种子日志和多视图算子外包给分析机构。
37.分别对真实日志、种子日志、伪日志和流量日志定义如下:
38.真实日志:指的是包含原始ip的日志。
39.种子日志:指的是包含匿名ip的日志,可用于生成真实日志和伪日志。
40.伪日志:指的是包含匿名ip的日志;在多视图中,伪日志与种子日志的区别是:种子日志只有一个,而伪日志的数量由企业随意指定。
41.流量日志:是真实日志、种子日志、伪日志的统称。
42.详细实现过程如下:
43.步骤1,生成种子日志的算子选取方案。
44.在伽罗瓦域中,每一个元素都存在一个逆,并且元素跟逆是两两匹配,这种映射方式是一种双射。本发明的多视图算子采用基于伽罗瓦域的求逆运算,将原始ip以符合双射的方式映射到匿名ip;此外,多视图算子在进行求逆运算时需要伽罗瓦域的一个不可约多项式的参与,因此要求企业为ip地址空间所代表的伽罗瓦域随机选择一个不可约多项式,以生成种子日志。实现步骤如下:
45.(11)在部署前,企业需要选择一个转换规则作为匿名算子,它的作用是将原始ip映射到一个匿名ip,且这种映射方式应该符合双射的标准。
46.(12)ip地址的匿名转化。
47.ip地址的匿名转化,意味着将原始ip映射到ip地址空间中的另一个ip作为匿名ip,而且这个映射符合双射的特点。本发明通过伽罗瓦域中的求逆运算和一个不可约多项式实现匿名转化过程。
48.伽罗瓦域表示一个有限元素集合以及元素间的运算法则,定义为gf(p
m
),其中p代表一个素数,m代表一个整数;当m>1时,伽罗瓦域gf(p
m
)中的任意元素都可以表示为多项式,形式为:
49.e(x)=a
m
‑1x
m
‑1+a
m
‑2x
m
‑2+

+a1x1+a0ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
50.式(1)中系数a
i
的取值范围为[0,p

1];对应到二进制,有限域为gf(2
m
),其中元素
的系数的取值范围为[0,1];对应到ip地址空间,系数a
i
(i=m

1,m

2,

,0)代表从右往左数第n

1位的数字。
[0051]
不可约多项式表示该多项式在gf(p
m
)中不能找到两个元素e1(x)和e2(x)使得p(x)=e1(x)
·
e2(x)。设系数取值范围为[0,p

1]的所有多项式集合为q,对于任意一个域gf(p
m
),都能找到一个不可约多项式p(x),使得:

q中的任意元素mod p(x)的结果在域中;

域中的任一元素e(x),都能在q中能找到一个元素q(x),使得q(x)mod p(x)=e(x)。不可约多项式的形式为:
[0052]
p(x)=k
m
x
m
+k
m
‑1x
m
‑1+

+k1x1+k0ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0053]
式(2)中,k
j
(j=m,m

1,

,0)取值范围为[0,p

1]。
[0054]
由式(2)可知,该不可约多项式的最高次项次数为m,即阶为m,因为只有这种形式才能保证gf(2
m
)中元素的逆与gf(2
m
)的元素是双射关系。对于给定的gf(2
m
),借助cantor

zassenhaus算法计算不可约多项式。
[0055]
在本发明中,由于将ip地址看作是4个多项式,所以生成种子日志的算子中不可约多项式是一个包含4个不可约多项式的不可约多项式组,用v
l
=[p
1l
,p
2l
,p
3l
,p
4l
]表示,其中,p
nl
(n=1,2,3,4)表示生成种子日志的不可约多项式组中第n个不可约多项式。
[0056]
对于gf(2
m
)中一个给定的多项式元素和对应的一个不可约多项式p(x),域中的任意非零元素a(x)的逆定义为:
[0057]
a
‑1(x)
·
a(x)≡1mod p(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0058]
步骤2,获取基于伽罗瓦域的分布式种子日志。
[0059]
种子日志由真实日志经过匿名得到,因此企业需要在收集真实日志的所有节点均部署所述步骤1得出的不可约多项式和相应求逆算法;部署后即可以进行分布式的流量日志获取同时匿名,实现步骤为:
[0060]
(21)首先获取经过流量节点的每个流量包;
[0061]
(22)然后对每个流量包中的信息进行解析;
[0062]
(23)接着将需要保存到种子日志中的具体信息进行提取;
[0063]
(24)其次将提取的信息中的原始ip地址构造为多项式f(x),并选用拓展欧几里得算法对多项式f(x)进行关于不可约多项式的求逆运算,得到新的多项式f
‑1(x);再接着将多项式f
‑1(x)转化为匿名ip地址;
[0064]
(25)最后使用匿名ip地址替换提取的信息中的原始ip地址,并将提取出来的信息组织成种子日志的格式写入种子日志。
[0065]
在生成种子日志之前,企业需要在路由器、服务器等收集流量日志的所有节点均部署步骤1得出的不可约多项式v
l
和相应的求逆算法。部署后,进行获取分布式的种子日志。
[0066]
其中涉及到伽罗瓦域的匿名:将ip地址转化为多项式f(x)

,选用拓展欧几里得算法对多项式f(x)进行关于不可约多项式的求逆运算i,得到新的f
‑1(x)多项式

,将多项式f
‑1(x)转化为匿名ip地址。详细步骤如下:
[0067]
(s21)将原始ip地址构造为多项式;地址空间可以表示为[b1.b2.b3.b4],其中b
j
(j=1,2,3,4)是一个字节,包含8个bit位,每个bit位的取值为0/1,因此b
j
构造为一个gf(2
m
)上的多项式,表示为a7x7+a6x6+

+a1x1+a0,其中a
i
(i=0,1,2,3,4,5,6,7)取值分别对应b
j

的第j

1个bit位。
[0068]
(s22)分别对每个b
j
采用拓展欧几里得算法,求关于步骤1部署的不可约多项式的逆,计算后的匿名ip可以表示为[b1‑1.b2‑1.b3‑1.b4‑1]。
[0069]
种子日志在不断地分布式写入,企业在外包流量日志(此处不变)进行分析时,指定节点与时间段即可汇总得到经过统一匿名的种子日志作为实际外包内容。
[0070]
步骤3,生成多视图算子的选取方案。
[0071]
在多视图范式中,真实日志和伪日志并不由企业进行生成,而是由一些参数表示,并且在第三方通过参数和种子日志生成,因此需要企业指定参数和多视图算子(此处不变)。多视图算子依然采取基于伽罗瓦域的的多项式求逆运算,步骤如下:
[0072]
(31)企业选取多个不可约多项式形成不可约多项式组,作为求逆运算的参数,求逆运算能保证不同的不可约多项式得到与种子日志形成双射的不同伪日志;
[0073]
(32)企业需要将步骤1中部署的不可约多项式插入新选取的不可约多项式组中,具体位置只有企业了解,通过这一步就能保证第三方生成的流量日志中包含真实日志。
[0074]
假定企业指定第三方需要分析日志数量为n,那么首先企业需要选取4*(n

1)个不可约多项式形成n

1个不可约多项式组v:
[0075]
v=[v1,v2,

v
n
‑1]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0076]
式(4)中,v
k
=[p1,p2,p3,p4],k=1,2,3

,n

1;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0077]
式(5)中,p
n
(n=1,2,3,4)为一个不可约多项式;
[0078]
其次企业需要将步骤1中部署的不可约多项式组v
l
插入新选取的不可约多项式组v中的任意位置r,通过这一步就能保证第三方生成的流量日志(包括真实日志和伪日志)中的第r个为真实日志,也即第r个分析报告为真实的分析报告,但是具体的r只有企业了解。
[0079]
步骤4,企业和第三方通信方案。
[0080]
企业将种子日志(不改变)和多视图算子(不可约多项式组v和求逆算法)外包给分析机构。通过这种方式,在此后的外包过程中,仅需要将种子日志和不可约多项式组v进行发布。不管真实日志中包含多少条流量记录,真实日志和伪日志仅由一个不可约多项式组表示,所以每次外包的参数成本都是相同且简短的,不会受到真实日志中包含流量条数的影响。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1