一种基于pkg获取设备的数据处理系统的制作方法

文档序号:31729497发布日期:2022-10-05 01:31阅读:292来源:国知局
一种基于pkg获取设备的数据处理系统的制作方法

1.本发明涉及pkg数据处理领域,具体涉及一种基于pkg获取设备的数据处理系统。


背景技术:

2.随着普及电子设备的应用,大部分电子设备安装了大量pkg,这些pkg多用于生活或者工作等场景的使用,pkg也就是安装包配置文件,是制作安装程序的核心部分。它包含了制作安装文件所需要的全部信息,根据这个文件的内容,可以制作生成应用程序的安装程序,目前可以根据pkg获取使用过该pkg的设备id,然而并不能获得使用与该pkg相似的pkg的安装设备,从而在获取相似pkg的安装设备时没有形成一套系统,耗费大量人力物力,做不到无监督自行获取。


技术实现要素:

3.针对上述技术问题,本发明采用的技术方案为:一种基于pkg获取设备的数据处理系统,数据处理系统包括原始设备id列表,原始设备id列表中每一原始设备对应的原始向量,处理器和存储有计算机程序的存储器,所述原始设备id列表s={s1,

,sk,

,s
p
},sk={s
k1


,s
ky


,s
kt
},sk是指第k个设备id,s
ky
是指第k个设备id对应的第y个pkg,k的取值范围是1到p,p是原始设备的总数量,y的取值范围时1到t,t是指第k个原始设备id在预设时间段内安装的pkg的总数量;当所述计算机程序被处理器执行时,实现以下步骤:
4.s100,获取初始设备id列表b={b1,

,bi,

,bm},bi={b
i1


,b
ij


,b
in
},bi是指第i个初始设备id,i的取值范围是1到m,m是指初始设备的总数量,b
ij
是指第i个初始设备id对应的第j个pkg,j的取值范围是1到n,n是指bi在预设时间段内安装的pkg的总数量,其中,m《p;
5.s200,对每一s
ky
进行处理,获取到s对应的原始向量列表h={h1,

,hk,

,h
p
},hk是指sk对应的原始向量;
6.s300,对每一b
ij
进行处理,获取到b对应的初始向量列表c={c1,

,ci,

,cm},ci是指bi对应的初始向量;
7.s400,对c中所有ci进行均值处理,获得中心向量d;
8.s500,根据hk和d,获取相似度列表e={e1,

,ek,

,e
p
},ek是指hk和d的相似度,ek符合如下条件:
9.h
γk
是指原始向量hk中第γ个bit值,d
γ
是指中心向量d中第γ个bit值,γ的取值范围是1到φ,φ是指原始向量hk和中心向量d的总bit数;
10.s600,将相似度列表进行正向排序,获取前z项初始向量对应的设备作为目标设备。
11.本发明至少具有以下技术效果:根据实际需求获取指定pkg,在数据库中查询安装过指定pkg的初始设备的id,获取初始设备id在预设时间段内安装的初始pkg列表,将每一个初始pkg转化为向量,求得每一初始设备的初始向量,根据每一初始用户的初始向量做均值得到中心向量,中心向量用于表征初始设备,通过中心向量和原始向量的余弦相似度,找到相似度高的前n项作为目标设备,因此通过计算相似度更为准确地获取目标设备,从而形成基于pkg获取设备的系统,更加准确地获取指定pkg的相似pkg上安装的设备,而且不需要认为进行监督,节约人力消耗。
附图说明
12.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
13.图1为本发明实施例提供的一种基于pkg获取设备的数据处理系统的执行计算机程序的流程图。
具体实施方式
14.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
15.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
16.本发明实施例提供一种基于pkg获取设备的数据处理系统,其特征在于,数据处理系统包括原始设备id列表,原始设备id列表中每一原始设备对应的原始向量,处理器和存储有计算机程序的存储器,所述原始设备id列表s={s1,

,sk,

,s
p
},sk={s
k1


,s
ky


,s
kt
},sk是指第k个设备id,s
ky
是指第k个设备id对应的第y个原始pkg,k的取值范围是1到p,p是原始设备的总数量,y的取值范围时1到t,t是指第k个原始设备id在预设时间段内安装的原始pkg的总数量;当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
17.s100,获取初始设备id列表b={b1,

,bi,

,bm},bi={b
i1


,b
ij


,b
in
},bi是指第i个初始设备id,i的取值范围是1到m,m是指初始设备的总数量,b
ij
是指第i个初始设备id对应的第j个pkg,j的取值范围是1到n,n是指bi在预设时间段内安装的pkg的总数量,其中,m《p。
18.可选的,m/p《0.01;优选地,m/p《0.001。可以理解为,初始用户的数量小于甚至远
小于数据库中存储的原始用户的数量,保证pkg在获取目标设备时有足够的选择区域和空间。
19.优选地,所述预设时间段为一周。
20.具体地,在s100前还包括:
21.s10,获取指定pkg列表,所述指定pkg列表可根据实际需求进行输入;
22.s20,获取数据库中安装过任一指定pkg的设备id作为初始设备id;
23.本领域技术人员知晓,现有技术中任何一种获取设备id使用的pkg列表的方法均属于本发明保护范围之内,此处不再赘述。
24.进一步地,当数据库中查询不到使用指定pkg时,将此pkg进行删除,不再进行查询。
25.在本发明另一实施例中,s20可以替换为:s30,获取数据库中目前仍安装的任一指定pkg的用户id作为初始用户id;从而,将s20中安装过任一指定pkg更换为目前仍安装任一指定pkg,使得获取的初始设备id访问指定pkg的数据频次更高,访问量更高,在后续获取目标设备时更准确。
26.s200,对每一s
ky
进行处理,获取到s对应的原始向量列表h={h1,

,hk,

,h
p
},hk是指sk对应的原始向量。
27.进一步地,当p=0时,删除sk={s
k1


,s
ky


,s
kt
};可以理解为,sk在预设时间段内没有安装pkg;
28.在本发明另一实施例中,当sk在预设时间段内安装的pkg总数量t》pkg安装阈值t0时,删除sk={s
k1


,s
ky


,s
kt
},其中,t0可以根据实际需要进行输入。可以理解为当t》安装阈值t0时,sk在预设时间段内安装了过多pkg,存在刷机等异常情况,所以删除sk={s
k1


,s
ky


,s
kt
},排除了原始设备异常过渡安装pkg的情况,使后续基于pkg获取目标设备时更为准确。
29.具体地,s200包括如下步骤获取原始向量列表h:
30.s201,获取s
ky
对应的向量h

ky
=(h

1ky


,h

lky


,h

φky
),h
lky
是指向量h

ky
中第l个bit位,l的取值范围是1到φ,φ是指原始向量h

ky
总bit数;从而获得第k个原始设备id对应的的原始向量列表h
′k={h

k1


,h

ky


,h

kt
}。
31.其中,本领域技术人员知晓,现有技术中任何一种将词向量化的方法均属于本发明保护范围。
32.在本发明一个实施例中,使用word2vec模型获取a
ij
对应的向量c
ij

33.具体地,将q个原始pkg输入word2vec模型进行训练,获取每个原始pkg出现的次数;当任一原始pkg出现的次数《共同次数阈值时,将原始pkg进行删除,不进行后续操作;将原始pkg转化为φ位的原始向量,进行输出;从而获取pkg和向量对应的词向量对应表;其中,原始pkg是原始设备id上安装的pkg。
34.其中,φ可根据用户实际需求进行设定,优选地,φ为128。
35.进一步地,q可根据用户实际需求进行设定,q=50万。
36.基于此,输入原始pkg对word2vec模型进行训练,生成词向量对应表,将pkg转化为原始向量,使用向量来表征pkg,使得存储的数据更有利于后续进行计算,使用词向量对应表可以使得pkg转化为向量的速度更快,减少对于系统运行的消耗。
37.在另一个实施例中,原始pkg是原始设备id在预设时间段内新增的pkg。从而,将原始设备id上安装的pkg更换为原始设备id在预设时间段内新增的pkg,使得最后获取的词向量对应表更新,更准确。
38.s202,对h
′k进行均值处理,获得hk,其中,h
ky
符合如下条件:
39.h
ky
=∑
ty=1h′
ky

40.s203,基于hk,获取s对应的原始向量列表h={h1,

,hk,

,h
p
}。
41.基于s201-s203,通过获取原始设备id在预设时间段内pkg列表,且将pkg列表转化为原始向量用于表征原始设备id,从而获得原始向量列表,当进行相似度计算,可以直接进行调用计算,减小了调用时占用的系统性能。
42.s300,对每一b
ij
进行处理,获取到b对应的初始向量列表c={c1,

,ci,

,cm},ci是指bi对应的初始向量;
43.具体地,s300包括如下步骤获取初始向量列表c:
44.s301,获取b
ij
对应的向量c

ij
=(c

1ij


,c

vij


,c

φij
),c

vij
是指向量c

ij
中第v个bit位,v的取值范围是1到φ,从而获得第i个初始设备id对应的的初始向量列表c
′i={c

i1


,c

ij


,c

im
}。
45.在本发明一实施例中,可以根据词向量对应表获取b
ij
对应的向量c

ij

46.具体地,将pkg转化为向量时,使用同一平台。
47.具体地,当在词向量对应表中找不到b
ij
对应的向量c

ij
时,删除b
ij
,不进行后续步骤。
48.s302,对c
′i进行均值处理,获得ci=(c
1i


,c
ji


,c
φi
),c
ji
是指向量ci中第j个bit位,j的取值范围时1到φ,其中,c
ji
符合如下条件:
49.c
ji
=∑
nj=1c′
ij

50.s303,基于ci,获取c对应的初始向量列表c={c1,

,ci,

,cm}。
51.本领域技术人员知晓,s200和s300的执行顺序可以互换。
52.s400,对c中所有ci进行均值处理,获得中心向量d=(d1,

,dj,

,d
φ
),dj是指中心向量d的第j个bit位,dj符合如下条件:
53.dj=∑m
i=1cji
。可以理解为,使用中心向量d表征初始用户的id列表。
54.在本发明另一实施例中,使用k-means聚类算法将初始向量列表c={c1,

,ci,

,cm}进行聚合成中心向量d。
55.具体地,先随机选取k个向量作为初始向量质点,将其余初始向量与初始向量质点进行连接,形成k簇,重新计算每个簇直至每个簇的质心不在变化。
56.可选地,k的取值范围是1到5;优选地,k=1。
57.基于此,采用k-means聚类的方法,可以根据需求找出一个或多个聚合点,使得中心向量d的选择更聚集。
58.s500,根据hk和d,获取相似度列表e={e1,

,ek,

,e
p
},ek是指hk和d的相似度,ek符合如下条件:
59.h
γk
是指原始向量hk中第γ个bit值,d
γ
是指中心向量d中第γ个bit值,γ的取值范围是1到φ,φ是指原始向量hk和中心向量d的总bit数;
60.s600,将相似度列表进行正向排序,获取前z项初始向量对应的设备作为目标设备。
61.具体地,z可根据实际需求进行输入;
62.可选的,z/p≥0.6;优选地,z/p=0.6;可以理解为获取与初始pkg相似的pkg的安装设备作为目标设备。
63.基于此,根据实际需求获取指定pkg,在数据库中查询安装过指定pkg的初始设备的id,获取初始设备id在预设时间段内安装的初始pkg列表,将每一个初始pkg转化为向量,求得每一初始设备的初始向量,根据每一初始用户的初始向量做均值得到中心向量,中心向量用于表征初始设备,通过中心向量和原始向量的余弦相似度,找到相似度高的前n项作为目标设备,因此通过计算相似度更为准确地获取目标设备,从而形成基于pkg获取设备的系统,更加准确地获取目标设备,而且不需要认为进行监督,节约人力消耗。
64.虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1