本发明涉及数据处理领域,尤其涉及一种数据回溯方法、装置、设备及存储介质。
背景技术:
1、数据回溯是指在数据处理和分析过程中,追踪和重新追溯数据的流向和变化,以了解数据的来源、转换和使用情况。数据回溯可以帮助研究人员、分析师和数据科学家理解数据的历史变化,从而更好地理解数据的可靠性、质量和可用性,数据回溯广泛应用于金融、医疗保健、食品安全等领域。
2、当前数据回溯主流的实现方案是基于elasticsearch构建用户画像平台,该类方案的用户标签数据只能基于离线分析,无法实时构建用户标签表,此外,只能输出指定标签组合的用户集合,无法同时提供明细数据,对于后续数据校验及效果回检有较大障碍。
技术实现思路
1、本发明的主要目的在于提供一种数据回溯方法、装置、设备及存储介质,旨在解决标签位图表无法实时构建,且无法快速回溯标签源数据的问题。
2、为实现上述目的,本发明提供一种数据回溯方法,所述数据回溯方法包括以下步骤:
3、获取用户标签回溯信息;
4、根据所述用户标签回溯信息,通过预设的第一数据库,获取用户标签对应的标签位图表和用户数据锚定位图;
5、根据所述用户标签对应的标签位图表和用户数据锚定位图,通过预设的第二数据库进行回溯,获取用户标签对应的用户数据。
6、可选地,所述获取用户标签回溯信息的步骤之前还包括:
7、获取所述用户数据;
8、基于lambda方式,根据所述用户数据,构建所述标签位图表;
9、基于数据标记技术,根据所述用户数据和标签位图表,获得所述用户数据锚定位图;
10、将所述标签位图表和用户数据锚定位图存储至预设的第一数据库。
11、可选地,所述基于lambda方式,根据所述用户数据,构建所述标签位图表的步骤包括:
12、基于预设的计算引擎,对所述用户数据进行分析,获得用户标签数据;
13、根据所述用户标签数据,获取原始标签表;
14、将全局用户id映射表与所述原始标签表进行关联,所述全局用户id映射表存储于预设的第二数据库中;
15、根据所述原始标签表,构建所述标签位图表。
16、可选地,所述基于预设的计算引擎,对所述用户数据进行分析,获得用户标签数据的步骤包括:
17、基于所述预设的计算引擎中的第一计算引擎,对所述用户数据中的离线用户数据进行分析,获得离线用户标签数据;
18、基于所述预设的计算引擎中的第二计算引擎,对所述用户数据中的实时用户数据进行分析,获得实时用户标签数据;
19、根据所述离线用户标签数据和实时用户标签数据,得到所述用户标签数据。
20、可选地,所述基于lambda方式,根据所述用户数据,构建所述标签位图表的步骤之后还包括:
21、根据所述标签位图表,创建分布式表;
22、将所述原始标签表和分布式表存储至预设的第一数据库中。
23、可选地,所述基于数据标记技术,根据所述用户数据和标签位图表,获得所述用户数据锚定位图的步骤包括:
24、根据所述用户数据,构建用户标识数据;
25、根据所述标签位图表中的标签位图,对所述用户标识数据进行分类,获得用户标识数据集;
26、根据所述标签位图和用户标识数据集,生成所述用户数据锚定位图。
27、可选地,所述根据所述用户标签对应的标签位图表和用户数据锚定位图,通过预设的第二数据库进行回溯,获取用户标签对应的用户数据的步骤包括:
28、根据预设的用户id列表,对所述用户标签对应的标签位图表和用户数据锚定位图进行处理,获取用户标签对应的用户标识数据集;
29、根据所述用户标签对应的用户标识数据集,通过预设的第二数据库,对所述用户数据进行回溯,获取所述用户标签对应的用户数据。
30、此外,为实现上述目的,本发明还提供一种数据回溯装置,所述数据回溯装置包括:
31、获取模块,用于获取用户标签回溯信息;
32、图表调用模块,用于根据所述用户标签回溯信息,通过预设的第一数据库,获取用户标签对应的标签位图表和用户数据锚定位图;
33、回溯模块,用于根据所述用户标签对应的标签位图表和用户数据锚定位图,通过预设的第二数据库进行回溯,获取用户标签对应的用户数据。
34、本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据回溯程序,所述数据回溯程序被所述处理器执行时实现如上所述的数据回溯方法的步骤。
35、本发明实施例还提出一种计算器可读存储介质,所述计算机可读存储介质上存储有数据回溯程序,所述数据回溯程序被处理器执行时实现如上所述的数据回溯方法的步骤。
36、本发明实施例提出的一种数据回溯方法、装置、设备及存储介质,通过获取用户标签回溯信息;根据所述用户标签回溯信息,通过预设的第一数据库,获取用户标签对应的标签位图表和用户数据锚定位图;根据所述用户标签对应的标签位图表和用户数据锚定位图,通过预设的第二数据库进行回溯,获取用户标签对应的用户数据。通过调用标签位图表和用户数据锚定位图,得到了用户标签对应的用户数据。由此,实现了用户数据的回溯,解决了无法快速回溯标签源数据的技术问题。相较于现有技术,具有高效率、高准确率的优势。
37、以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
1.一种数据回溯方法,其特征在于,所述数据回溯方法包括以下步骤:
2.如权利要求1所述的数据回溯方法,其特征在于,所述获取用户标签回溯信息的步骤之前包括:
3.如权利要求2所述的数据回溯方法,其特征在于,所述基于lambda方式,根据所述用户数据,构建所述标签位图表的步骤包括:
4.如权利要求3所述的数据回溯方法,其特征在于,所述基于预设的计算引擎,对所述用户数据进行分析,获得用户标签数据的步骤包括:
5.如权利要求2所述的数据回溯方法,其特征在于,所述基于lambda方式,根据所述用户数据,构建所述标签位图表的步骤之后还包括:
6.如权利要求2所述的数据回溯方法,其特征在于,所述基于数据标记技术,根据所述用户数据和标签位图表,获得所述用户数据锚定位图的步骤包括:
7.如权利要求6所述的数据回溯方法,其特征在于,所述根据所述用户标签对应的标签位图表和用户数据锚定位图,通过预设的第二数据库进行回溯,获取用户标签对应的用户数据的步骤包括:
8.一种数据回溯装置,其特征在于,所述数据回溯装置包括:
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据回溯程序,所述数据回溯程序被所述处理器执行时实现如权利要求1-7中任一项所述的数据回溯方法的步骤。
10.一种计算器可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据回溯程序,所述数据回溯程序被处理器执行时实现如权利要求1-7中任一项所述的数据回溯方法的步骤。