一种用户统一标识生成方法与系统与流程

文档序号:31790682发布日期:2022-10-14 14:53阅读:128来源:国知局
一种用户统一标识生成方法与系统与流程

1.本发明涉及大数据技术领域,尤其涉及一种用户统一标识生成方法与系统。


背景技术:

2.当今时代,数据量大幅增长,从而形成一个个的“数据孤岛”。为了数据的最大化利用,就需要将这些不同渠道、不同来源的“id”进行统一拉齐和打通,将“数据孤岛”下的数据资产进行跨渠道共享,从而实现用户的精准画像、多渠道触达和智能推荐。
3.然而,在实际的业务中,用户可能使用各种各样的设备,有着各种各样的前端入口,甚至同一个用户拥有多个设备以及使用多种前端入口,就会出现日志中对同一人不同时间段所收集到的数据可能取到的标识个数,各类各不相同。如:用户可能会使用的设备包括:手机、平板电脑,手机又包括安卓手机、ios手机、winphone手机等,安卓也有各种不同的版本,同理,ios也必须各种不同的版本。
4.由此带来的问题:用户设备的标识没办法轻易定制一个规则来作为唯一标识、不同媒体app的取法不一样,常见的id标识各类如下:mac(手机网卡的物理地址)、imei(手机串号)、imsi(手机sim卡序号)、androidid(安卓id)、openuuid(app自己生成的序号)、idfa(广告跟踪码)等。从而导致有一些数据中,用户有登录帐号,而有些却没有,有一些数据中,有imei码、mac地址,而有些则没有mac地址和android。在此情形之下来生成用户的唯一标识,很可能错漏百出的。
5.公开号为cn114329211a的中国专利申请公开了一种用户画像确定方法、装置 及电子设备,涉及大数据技术领域,尤其涉及数据分析领域,具体实现方案为:获取目标平台端的数据集,所述数据集包括多个维度的数据信息;基于所述多个维度的数据信息,获得m个第一数仓表,每个第一数仓表包括至少一个维度的数 据信息,且不同的第一数仓表对应的维度不同,m为正整数;根据所述m个第一数仓表确定所述目标平台端的用户画像,但该方法存在生成用户统一标识准确性低,耗费资源多和应用有限的问题。


技术实现要素:

6.本发明的目的在于解决目前现有技术生成用户统一标识准确性低、耗费资源多和应用有限的技术问题,提供一种用户统一标识生成方法与系统。
7.本发明的目的是通过以下技术方案来实现的:一种用户统一标识生成方法,包括以下步骤:步骤1:从各数据源抽取数据;步骤2:将抽取的数据存入前置表,在前置表中进行数据预处理;步骤3:进行用户id匹配,获得用户各id的连通图;步骤4:对用户的初步连通图进行处理,构建统一标识模型;步骤5:将统一标识部署在应用平台中。
8.具体的,步骤1包括以下子步骤:
步骤11:使用大数据组件sqoop进行数据源抽取、hue进行任务调度,每天定时执行sqoop任务;步骤12:对取到的数据,进行分类存储到hive中。
9.具体的,步骤2包括以下子步骤:步骤21:使用shell编译器脚本工具,对存储在hive中的数据进行处理;步骤22:使用sql语言,对主键进行有效性检查,经去重和清洗后保留;步骤23:将处理后的主键数据,储存在点数据表中。
10.具体的,步骤3包括以下子步骤:步骤31:定义点集合;步骤32:划定权重,定边的规则,定义边集合;步骤33:形成连通图。
11.具体的,步骤4包括以下子步骤:步骤41:使用kruskal算法、pram 算法构建模型,对连通图根据权重进行处理;步骤42:生成统一标识。
12.一种用户统一标识生成系统,包括:数据抽取模块:用于从数据源进行抽取数据;数据预处理模块:用于将抽取数据存入前置表,在前置表中进行数据预处理;连通图生成模块:用于进行用户id匹配,获得用户各id的连通图;连通图处理模块:用于对用户的初步连通图进行处理,构建统一标识模型;部署模块:用于将统一标识部署在应用平台中。
13.具体的,所述数据抽取模块包括以下子模块:hue调度模块:使用大数据组件sqoop进行数据源抽取、hue进行任务调度,每天定时执行sqoop任务;hive存储模块:对取到的数据,进行分类存储到hive中。
14.具体的,所述数据预处理模块包括以下子模块:脚本处理数据模块:使用shell编译器脚本工具,对存储在hive中的数据进行处理;sql数据清洗模块:使用sql语言,对主键进行有效性检查、去重和清洗;主键数据存储模块:将处理后的主键数据,储存在点数据表中。
15.具体的,所述连通图生成模块包括以下子模块:点集合定义模块:定义点集合;边集合定义模块:划定权重,定边的规则,定义边集合;连通图形成模块:形成连通图。
16.具体的,所述连通图处理模块包括以下子模块:权重处理模块:使用kruskal算法、pram 算法构建模型,对连通图根据权重进行处理;统一标识生成模块:生成统一标识。
17.本发明的有益效果:(1)生成的统一标识准确性高,检验唯一性准确度达80%以上。
18.(2)生成过程中不仅耗费算力资源少且提升生成过程速度。
19.(3)生成出的统一标识兼容性好,可用于各个平台。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
21.图1是本发明的系统结构示意图;图2是本发明的流程图。
具体实施方式
22.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
23.为了对本发明的技术特征、目的和有益效果有更加清楚的理解,现对本发明的技术方案精选以下详细说明。显然,所描述的实施案例是本发明一部分实施例,而不是全部实施例,不能理解为对本发明可实施范围的限定。基于本发明的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的其他所有实施例,都属于本发明的保护范围。
24.实施例一:如图1所示,一种用户统一标识生成方法,包括以下步骤:步骤1:从各数据源抽取数据;步骤2:将抽取的数据存入前置表,在前置表中进行数据预处理;步骤3:进行用户id匹配,获得用户各id的连通图;步骤4:对用户的初步连通图进行处理,构建统一标识模型;步骤5:将统一标识部署在应用平台中。
25.具体的,步骤1包括以下子步骤:步骤11:使用大数据组件sqoop进行数据源抽取、hue进行任务调度,每天定时执行sqoop任务;步骤12:对取到的数据,进行分类存储到hive中。
26.具体的,步骤2包括以下子步骤:步骤21:使用shell编译器脚本工具,对存储在hive中的数据进行处理;步骤22:使用sql语言,对主键进行有效性检查,经去重和清洗后保留;步骤23:将处理后的主键数据,储存在点数据表中。
27.具体的,步骤3包括以下子步骤:步骤31:定义点集合;步骤32:划定权重,定边的规则,定义边集合;步骤33:形成连通图。
28.具体的,步骤4包括以下子步骤:步骤41:使用kruskal算法、pram 算法构建模型,对连通图根据权重进行处理;步骤42:生成统一标识。
29.如图2所示,一种用户统一标识生成系统,其特征在于,包括:数据抽取模块:用于从数据源进行抽取数据;数据预处理模块:用于将抽取数据存入前置表,在前置表中进行数据预处理;连通图生成模块:用于进行用户id匹配,获得用户各id的连通图;连通图处理模块:用于对用户的初步连通图进行处理,构建统一标识模型;部署模块:用于将统一标识部署在应用平台中。
30.具体的,所述数据抽取模块包括以下子模块:hue调度模块:使用大数据组件sqoop进行数据源抽取、hue进行任务调度,每天定时执行sqoop任务;hive存储模块:对取到的数据,进行分类存储到hive中。
31.具体的,所述数据预处理模块包括以下子模块:脚本处理数据模块:使用shell编译器脚本工具,对存储在hive中的数据进行处理;sql数据清洗模块:使用sql语言,对主键进行有效性检查、去重和清洗;主键数据存储模块:将处理后的主键数据,储存在点数据表中。
32.具体的,所述连通图生成模块包括以下子模块:点集合定义模块:定义点集合;边集合定义模块:划定权重,定边的规则,定义边集合;连通图形成模块:形成连通图。
33.具体的,所述连通图处理模块包括以下子模块:权重处理模块:使用kruskal算法、pram 算法构建模型,对连通图根据权重进行处理;统一标识生成模块:生成统一标识。
34.以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。
35.需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本技术所必须的。
36.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
37.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、rom、ram等。
38.以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1