一种基于扩量ID的获取目标画像标签的数据处理系统的制作方法

文档序号:33192289发布日期:2023-02-04 09:04阅读:76来源:国知局
一种基于扩量ID的获取目标画像标签的数据处理系统的制作方法
一种基于扩量id的获取目标画像标签的数据处理系统
技术领域
1.本发明涉及用户id技术处理领域,特别是涉及一种基于扩量id的获取目标画像标签的数据处理系统。


背景技术:

2.随着大数据的普及和发展,全球范围内,如何运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力成为一种趋势,网络数据技术不断进步,用户的id信息被存储于各大数据库中,双方或者多方在进行数据交互时伴随个人信息泄露的风险,在进行数据交互时如何对数据库中的用户id信息进行加密保护,防止用户id信息的泄露并有效获取用户id标签成为当下热门研究话题。
3.目前,现有技术中,获取画像标签的方法为:根据初始id获取目标扩量id列表,输入至第一数据库中,在第一数据库中对初始id和目标扩量id进行模糊化,避免被第三方反解密出初始id,以上所述获取画像标签标签的方法存在的问题:
4.一方面,在对初始id和扩量id进行模糊化时未考虑扩量数量与模糊化字符串数量的临界值,使得在与从第二数据平台发送的第二扩量id数量过多,导致运行效率较低且存在获取到的画像标签混淆的情况;
5.另一方面,未考虑初始用户id扩量数量与模糊化位数之间的对应关系,未考虑在扩量数量和模糊化位数不同时也可匹配到相同的用户id数量的情况。


技术实现要素:

6.针对上述技术问题,本发明采用的技术方案为:一种基于扩量id的获取目标画像标签的数据处理系统,系统包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:
7.s100,接收标签获取请求,获取第一数据平台发送的初始用户id列表a={a1,a2,
……
,ai,
……
,an},ai为第i个初始用户id,i=1,2,
……
,n,n为初始用户id的数量。
8.s200,获取a对应的第一中间扩量id集a'={a'1,a'2,
……
,a'i,
……
,a'n},a'i={a'
i1
,a'
i2

……
,a'
ir

……
,a'
iz
},a'
ir
=(a'
1ir
,a'
2ir

……
,a'
yir

……
,a'
qir
),a'
yir
为ai对应的第r个第一中间扩量id中第y序列位对应的初始值,y=1,2,
……
,q,q为第一中间扩量id中初始值的数量,r=1,2,
……
,z,z为第一中间扩量id的数量。
9.s300,根据a',获取a'对应的第一目标扩量id集ba'={ba'1,ba'2,
……
,ba'i,
……
,ba'n},ba'i={ba'
i1
,ba'
i2

……
,ba'
ir

……
,ba'
iz
},ba'
ir
=(a'
1ir
,a'
2ir

……
,a'
δir
),a'
δir
为a'
ir
中第δ序列位对应的初始值且δ≤q。
10.s400,根据ba',获取ba'对应的第二中间扩量id集ax={ax1,ax2,
……
,axi,
……
,axn},axi={ax
i1
,ax
i2

……
,ax
ic

……
,ax
id(i)
},ax
ic
={ax
1ic
,ax
2ic

……
,ax
θic

……
,ax
ηic
},ax
θic
为ba'i对应的第c个第二中间扩量id列表中第θ个第二中间扩量id,θ=1,2,
……
,η,η为ba'i对应的第c个第二中间扩量id列表中第二中间扩量id的数量,c=1,2,
……
,d
(i),d(i)为ba'i对应的第二中间扩量id列表的数量。
11.s500,根据ax,获取ax对应的第一关键扩量id集ax0={ax
01
,ax
02

……
,ax
0i

……

12.ax
0n
},ax
0i
={ax
0i1
,ax
0i2

……
,ax
0ic

……
,ax
0id(i)
},ax
0ic
={ax
1ic
,ax
2ic

……
,ax
θ-1ic
,ax
13.θ+1ic

……
,ax
ηic
},其中,ax
0ic
为当ax
θic
=a'
ir
时,从ax
ic
中删除ax
θic
获取到的。
14.s600,根据a,获取a对应的第二关键扩量id集ya={ya1,ya2,
……
,yai,
……
,yan},yai={ya
1i
,ya
2i

……
,ya
ui

……
,ya
ψi
},ya
ui
为ai对应的第二关键扩量id列表中第u个第二关键扩量id,u=1,2,
……
,ψ,ψ为ai对应的第二关键扩量id的数量。
15.s700,根据ya和ax0,获取a对应的目标画像标签。
16.本发明提供了一种基于扩量id的获取目标画像标签的数据处理系统,系统包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:接收数据扩量请求,获取第一数据平台发送的初始用户id列表,根据初始用户id列表,获取初始用户id列表对应的第一中间扩量id列表,根据第一中间扩量id列表,获取第一中间扩量id列表对应的第一目标扩量id列表,根据第一目标扩量id列表,获取第一中间扩量id列表对应的第二目标扩量id列表,根据第二目标扩量id列表,获取第二目标扩量id列表对应的第二中间扩量id列表,对第二中间扩量id列表进行去重处理,获取对应的第二中间扩量id列表对应的第一关键扩量id列表,根据初始用户id列表,获取初始用户id列表对应的第三中间扩量id列表对应的第二关键扩量id列表,根据第一关键扩量id列表和第二关键扩量id列表,获取初始用户对应的目标画像标签。可知,一方面,在对初始用户id和扩量id进行模糊化时考虑到了扩量数量与模糊化字符串数量的临界值,保证了第二数据平台发送的扩量id数量从而使得运行效率较高且避免了获取到的画像标签混乱的情况;另一方面,考虑到了初始用户id扩量数量与模糊化位数之间的对应关系,考虑到在扩量数量和模糊化位数不同时也可匹配到相同的用户id数量的情况。
附图说明
17.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1为本发明实施例提供的一种一种基于扩量id的获取目标画像标签的数据处理系统的执行计算机程序的流程图。
19.图2为本发明实施例提供的s700的流程图。
具体实施方式
20.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第
二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
22.本发明提供了一种基于扩量id的获取目标画像标签的数据处理系统,所述系统包括:处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
23.s100,接收标签获取请求,获取第一数据平台发送的初始用户id列表a={a1,a2,
……
,ai,
……
,an},ai为第i个初始用户id,i=1,2,
……
,n,n为初始用户id的数量。
24.具体的,所述初始用户id表征为初始用户身份的唯一标识,例如,初始用户id为初始用户的移动设备对应的sim卡号。
25.具体的,所述标签获取请求为第一数据平台发出的获取用户标签的请求。
26.进一步的,所述第一数据平台为用户标签的获取方对应的数据平台。
27.具体的,n的取值范围为80~120,本领域技术人员根据实际需求进行初始用户id的数量的选取,在此不再赘述。
28.上述,通过设定初始用户id数量的临界值,能够确保所述计算机被处理器执行时运行效率的提高,避免因第一数据平台发送的初始用户id数据量过大从而导致运行效率降低甚至无法运转的情况。
29.s200,获取a对应的第一中间扩量id集a'={a'1,a'2,
……
,a'i,
……
,a'n},a'i={a'
i1
,a'
i2

……
,a'
ir

……
,a'
iz
},a'
ir
=(a'
1ir
,a'
2ir

……
,a'
yir

……
,a'
qir
),a'
yir
为ai对应的第r个第一中间扩量id中第y序列位对应的初始值,y=1,2,
……
,q,q为第一中间扩量id中初始值的数量,r=1,2,
……
,z,z为第一中间扩量id的数量。
30.具体的,所述第一中间扩量id中初始值的数量与初始用户id中初始值的数量一致。
31.具体的,所述第一中间扩量id为随机生成的与初始用户id不一致的用户id,其中,所述第一中间扩量id的类型与所述初始用户id的类型一致。
32.具体的,a'
i1
≠a'
i2

……
≠a'
ir

……
≠a'


……
≠a'
iz

33.s300,根据a',获取a'对应的第一目标扩量id集ba'={ba'1,ba'2,
……
,ba'i,
……
,ba'n},ba'i={ba'
i1
,ba'
i2

……
,ba'
ir

……
,ba'
iz
},ba'
ir
=(a'
1ir
,a'
2ir

……
,a'
δir
),a'
δir
为a'
ir
中第δ序列位对应的初始值且δ≤q;可以理解为:从a'
ir
中选取前δ序列位对应的初始值,构建成ba'
ir

34.s400,根据ba',获取ba'对应的第二中间扩量id集ax={ax1,ax2,
……
,axi,
……
,axn},axi={ax
i1
,ax
i2

……
,ax
ic

……
,ax
id(i)
},ax
ic
={ax
1ic
,ax
2ic

……
,ax
θic

……
,ax
ηic
},ax
θic
为ba'i对应的第c个第二中间扩量id列表中第θ个第二中间扩量id,θ=1,2,
……
,η,η为ba'i对应的第c个第二中间扩量id列表中第二中间扩量id的数量,c=1,2,
……
,d(i),d(i)为ba'i对应的第二中间扩量id列表的数量。
35.具体的,在s400中还包括如下步骤获取ax
θic

36.s401,对ba'进行去重处理,获取ba'对应的第二目标扩量id集ta'={ta'1,ta'2,
……
,ta'i,
……
,ta'n},ta'i={ta'
i1
,ta'
i2

……
,ta'
ic

……
,ta'
id(i)
},ta'
ic
为ba'i对应的第二目标扩量id列表中第c个第二目标扩量id;本领域人员知晓现有技术中任一去重处理的方法,均落入到本发明的保护范围,在此不再赘述。
37.上述,通过对获取到的第一目标扩量id进行去重处理,能够减少数据量,后续进行匹配时能够提高运行的效率,避免因数据重复进行重复扩量。
38.s403,根据ta'
ic
,获取ax
θic
=(ta'
ic
,ax
θ1ic

……
,ax
θγic

……
,ax
θξic
),ax
θγic
为ax
θic
中第γ序列位对应的调整值,γ=1,2,
……
,ξ,ξ为ax
θic
中调整值的数量。
39.具体的,任一所述调整值为0-9中任意一个数值。
40.进一步的,ξ=q-δ。
41.进一步的,ax
θγic
∈[l1,l2]中任一数值,其中,l1为所述初始用户id的类型对应的数值下限值,l2为所述初始用户id的类型对应的数值上限值,本领域技术人员知晓根据id的类型确定id中每一数值的取值下限值和上限值,在此不再赘述,例如,当初始用户id为初始用户的移动设备对应的sim卡号时,l1=0且l2=9。
[0042]
具体的,ax
1ic
≠ax
2ic

……
≠ax
θic

……
≠ax
ηic
,可以理解为:基于ax
θ1ic
至ax
θξic
,生成不同的第二中间扩量id。
[0043]
进一步的,η=c
ξq
且w1/z≤η≤w2/z,其中,w1为第一扩量id数量的下限值,w2为第一扩量id数量的上限值。
[0044]
进一步的,p(i)=η
×
z。
[0045]
s500,根据ax,获取ax对应的第一关键扩量id集ax0={ax
01
,ax
02

……
,ax
0i

……

[0046]
ax
0n
},ax
0i
={ax
0i1
,ax
0i2

……
,ax
0ic

……
,ax
0id(i)
},ax
0ic
={ax
1ic
,ax
2ic

……
,ax
θ-1ic
,ax
[0047]
θ+1ic

……
,ax
ηic
},其中,ax
0ic
为当ax
θic
=a'
ir
时,从ax
ic
中删除ax
θic
获取到的。
[0048]
s600,根据a,获取a对应的第二关键扩量id集ya={ya1,ya2,
……
,yai,
……
,yan},yai={ya
1i
,ya
2i

……
,ya
ui

……
,ya
ψi
},ya
ui
为ai对应的第二关键扩量id列表中第u个第二关键扩量id,u=1,2,
……
,ψ,ψ为ai对应的第二关键扩量id的数量。
[0049]
具体的,在s600中还包括如下步骤:
[0050]
s601,根据a,获取a对应的第一id集ca={ca1,ca2,
……
,cai,
……
,can},cai为ai对应的第一id列表;具体的,s601的步骤可以参照s300步骤,在此不再赘述。
[0051]
s603,根据ca,获取ca对应的中间id集ca'={ca'1,ca'2,
……
,ca'i,
……
,ca'n};ca'i为ai对应的中间id列表;具体的,s603的步骤可以参照s400步骤,在此不再赘述。
[0052]
s605,根据ca',获取ca'对应的第二关键扩量id集ya;具体的,s605的步骤可以参照s500步骤,在此不再赘述。
[0053]
上述,通过对初始用户id进行二次扩量,对初始用户id对应的每个第一中间扩量id的序列位进行数值的调整,增加调整数值,能够保证后续对第一中间扩量id进行机密后的反解密,使得在对第二中间扩量id进行解密时无法解出初始用户id,保证了第一扩量id数据的安全。
[0054]
s700,根据ya和ax0,获取a对应的目标画像标签。
[0055]
具体的,在s700中还包括如下步骤,如图2所示:
[0056]
s701,将yai和ax
0ic
插入至la'i中,获取到第一数据平台发送的a对应的第一扩量id集la={la1,la2,
……
,lai,
……
,lan},lai={ai,la'i},la'i={la
1i
,la
2i

……
,la
xi

……
,la
p(i)i
},la
xi
为ai对应的第x个第一扩量id,x=1,2,
……
,p(i),p(i)为ai对应的第一扩量id的数量。
[0057]
s703,将la发送至第二数据平台中,获取到第二数据平台发送的la对应的第二扩量id集b={b1,b2,
……
,bi,
……
,bn},bi={b
i1
,b
i2

……
,b
ij

……
,b
im
}以及b对应的中间画像标签集db={db1,db2,
……
,dbi,
……
,dbn},dbi={db
i1
,db
i2

……
,db
ij

……
,db
im
},b
ij
为lai对应的第j个第二扩量id,db
ij
为b
ij
对应的中间画像标签列表,j=1,2,
……
,m,m为第二扩量id的数量。
[0058]
具体的,所述第二数据平台为用户标签的提供方对应的数据平台。
[0059]
具体的,m符合如下条件:
[0060]
m=p(i)+1。
[0061]
具体的,在s703中还包括如下步骤:
[0062]
s7031,获取到第二数据平台发送的样本id列表c={c1,c2,
……
,cg,
……
,cs},其中,cg为第g个样本id,g=1,2,
……
,s,s为样本id的数量。
[0063]
进一步的,所述样本id是指第二数据平台中存储于第二数据平台中用户id,其中,所述样本id的类型与初始用户id的类型一致,即当初始用户id为初始用户的移动设备对应的sim卡号时,样本id为样本用户的移动设备对应的sim卡号。
[0064]
s7032,遍历c且当ai=cg时,将cg作为第二扩量id插入值bi中且获取cg对应的关键id列表dg={d
g1
,d
g2

……
,d
gt

……
,d
gk
},d
gt
为第cg对应的第t个关键id,t=1,2,
……
,k,k为关键id的数量。
[0065]
进一步的,cg对应的关键id为当ai=cg时从c中删除cg后的任一样本id。
[0066]
进一步的,k符合如下条件:
[0067]
k=s-1。
[0068]
s7033,遍历dg且当la
xi
=d
gt
时,将d
gt
作为第二扩量id插入值bi中。
[0069]
s7034,获取c对应的样本标签集c'={c'1,c'2,
……
,c'g,
……
,c's},c'g为cg对应的样本标签列表。
[0070]
进一步的,所述样本标签列表为样本id对应的用户的所有画像标签构建的标签列表。
[0071]
s7035,当ai=cg时,将c'g作为中间画像标签列表插入值dbi中且获取c'g对应的关键标签集d'g={d'
g1
,d'
g2

……
d'
gt

……
,d'
gk
},d'
gt
为第d
gt
对应的关键标签列表。
[0072]
进一步的,任一d'g中关键标签列表为当ai=cg时从c'中删除c'g后的任一样本标签列表。
[0073]
s7036,当la
xi
=d
gt
时,将d'
gt
作为中间画像标签列表插入值dbi中。
[0074]
上述,通过将处理后的初始用户id和样本id进行比较,获取处理后的初始用户id对应的第二扩量id列表以及第二扩量id列表对应的样本标签集,在此过程中,第二数据平台无法知晓初始用户id的信息,对初始用户id进行了保密,保证了数据的安全。
[0075]
s705,根据a,获取到第一数据平台发送的a对应的第一目标id列表fa={fa1,fa2,
……
,fai,
……
,fan},fai为ai对应的第一目标id。
[0076]
具体的,在s705中还包括如下步骤:
[0077]
s7051,获取ai=(a
1i
,a
2i

……
,a
yi

……
,a
qi
),a
yi
为ai对应的第y序列位对应的初始值。
[0078]
s7053,根据ai,获取ai对应的待加密id字符串a
0i
=(a
1i
,a
2i

……
,a
yi

……
,a
qi
,β),其中,β为id的加密数值。
[0079]
进一步的,β的取值范围为0-9中任一整数。
[0080]
s7055,对a
0i
进行加密处理,获取fai,其中,本领域技术人员知晓采用现有技术中任一加密处理方法获取加密后的id,均落入到本发明的保护范围;优先地,所述加密处理为sm3加密处理。
[0081]
s707,根据b,获取到第二数据平台发送的b对应的第二目标id列表fb={fb1,fb2,
……
,fbi,
……
,fbn},其中,fbi={fb
i1
,fb
i2

……
,fb
ij

……
,fb
im
},fb
ij
为b
ij
对应的第二目标id。
[0082]
具体的,所述fbi的获取方式与fai的获取方式一致。
[0083]
进一步的,在s707中还包括如下步骤:
[0084]
s7071,获取b
ij
=(b
1ij
,b
2ij

……
,b
yij

……
,b
qij
),b
yij
为b
ij
中第y序列位对应的id数值。
[0085]
s7073,根据b
ij
,获取b
ij
对应的待加密id字符串b
0ij
=(b
1ij
,b
2ij

……
,b
yij

……
,b
qij
,β),其中,b
0ij
中β与a
0i
中β一致。
[0086]
s7075,对b
0ij
进行加密处理,获取fb
ij
,其中,fb
ij
对应的加密处理方法与fai对应的加密处理方法一致,在此不再赘述。
[0087]
上述,通过对从样本id中获取到的第二扩量id列表进行加密,使得在进行数据交互时,能够对从第二数据库中发送的第二扩量id进行保护,使得在获取初始id对应的目标画像标签时,避免了第二数据库中发送的第二扩量id信息泄露的情况。
[0088]
s709,根据fa和fb,获取a对应的目标标签集u={u1,u2,
……
,ui,
……
,un},ui为ai对应的目标标签列表。
[0089]
具体的,在s709中还通过如下步骤获取ui:
[0090]
s7091,获取到第二数据平台发送的fb对应的待解析标签集fdb={fdb1,fdb2,
……
,fdbi,
……
,fdbn},fdbi={fdb
i1
,fdb
i2

……
,fdb
ij

……
,fdb
im
},fdb
ij
为db
ij
对应的待解析标签列表。
[0091]
具体的,所述待解析标签列表为对中间画像标签列表进行加密处理后的标签列表,其中,本领域技术人员知晓采用现有技术中任一加密处理方法获取加密后的id,均落入到本发明的保护范围。
[0092]
s7093,将fai与fb
ij
进行比对,获取到fai与fb
ij
之间的比对结果。
[0093]
具体的,在s7093中还包括如下步骤:
[0094]
s70931,获取fai对应的第一目标向量gfai={gfa
i1
,gfa
i2

……
,gfa
ie
,
……
,gfa
if
},gfa
ie
为fai对应的第一目标向量中第e位的bit值,e=1,2,
……
,f,f为fai对应的第一目标向量中bit维度。
[0095]
s70933,获取fb
ij
对应的第二目标向量gfb
ij
={gfb
1ij
,gfb
2ij

……
,gfb
eij
,
……
,gfb
fij
},gfb
ije
为fb
ij
对应的第二目标向量中第e位的bit值。
[0096]
s70935,根据gfai和gfb
ij
,获取gfai对应的目标相似度f
ji
,其中,f
ji
符合如下条件

[0097][0098]
s70937,当f
ji
=f0时,确定fai=fb
ij
作为fai与fb
ij
之间的比对结果,其中,f0为预设的相似度阈值。
[0099]
优先地,f0=100%。
[0100]
s7095,基于fai与fb
ij
之间的比对结果,获取到fdb
ij
对应的db
ij
;可以理解为:在s7095中,当fai=fb
ij
时,对fdb
ij
进行解密处理,以获取到fdb
ij
对应的db
ij
,其中,本领域技术人员知晓采用现有技术中任一加密和解密方法,在此不再赘述。
[0101]
s7097,将db
ij
作为ui发送至第一数据平台中。
[0102]
上述,通过数据交互过程,最终在与第一数据平台和第二数据平台无交集的环境下进行画像标签的解密,保证了双方数据的独立性,避免数据泄露的情况,实现了数据交互过程中第一数据平台与第二数据平台数据信息的安全性。
[0103]
本发明提供了一种基于扩量id的获取目标画像标签的数据处理系统,系统包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:接收数据扩量请求,获取第一数据平台发送的初始用户id列表,根据初始用户id列表,获取初始用户id列表对应的第一中间扩量id列表,根据第一中间扩量id列表,获取第一中间扩量id列表对应的第一目标扩量id列表,根据第一目标扩量id列表,获取第一中间扩量id列表对应的第二目标扩量id列表,根据第二目标扩量id列表,获取第二目标扩量id列表对应的第二中间扩量id列表,对第二中间扩量id列表进行去重处理,获取对应的第二中间扩量id列表对应的第一关键扩量id列表,根据初始用户id列表,获取初始用户id列表对应的第三中间扩量id列表对应的第二关键扩量id列表,根据第一关键扩量id列表和第二关键扩量id列表,获取初始用户对应的目标画像标签。可知,一方面,在对初始用户id和扩量id进行模糊化时考虑到了扩量数量与模糊化字符串数量的临界值,保证了第二数据平台发送的扩量id数量从而使得运行效率较高且避免了获取到的画像标签混乱的情况;另一方面,考虑到了初始用户id扩量数量与模糊化位数之间的对应关系,考虑到在扩量数量和模糊化位数不同时也可匹配到相同的用户id数量的情况。
[0104]
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1