数据聚合方法、装置、设备及计算机可读介质与流程

文档序号:29120910发布日期:2022-03-04 22:05阅读:130来源:国知局
数据聚合方法、装置、设备及计算机可读介质与流程

1.本技术涉及数据处理技术领域,尤其涉及一种数据聚合方法、装置、设备及计算机可读介质。


背景技术:

2.随着科技的发展,社会的进步,不管是传统企业还是互联网企业,生产资料都不能再局限于实物,还包括数据。伴随着dt(data technology,数据处理技术)时代的到来,数据渠道来源越来越多样化。产品的基础数据,产品营销的数据,消费者的数据,售后体验的数据
……
,各类数据数量呈现指数级增长的同时,又面临“数据孤岛”的局面。数据作为生产资料中不可获缺的一部分,只有将所有的数据一起加入到生产中才能发挥数据的最大价值,这对多渠道、海量的数据聚合提出了较大的挑战。
3.目前,相关技术中,由于不同领域、不同业务之间存在巨大差异,导致不同渠道来源的数据形态各不相同,在满足广度聚合需求的基础上难以再克服差异鸿沟来进一步深度挖掘数据,导致聚合后仍然无法打破差异鸿沟,各个渠道之间的数据未能构建基础关联,相当于各个渠道之间的数据仍然是孤立的,未能发挥数据的最大价值。
4.针对多渠道来源数据难以构建基础关联的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本技术提供了一种数据聚合方法、装置、设备及计算机可读介质,以解决多渠道来源数据难以构建基础关联的技术问题。
6.根据本技术实施例的一个方面,本技术提供了一种数据聚合方法,包括:
7.获取来源于至少一个渠道的原始数据,其中,每个渠道包括至少一条业务链上的至少一个服务节点,所述原始数据为所述服务节点上的生产数据;
8.将所述原始数据输入预设的数据清洗模型,以将所述原始数据清洗为元数据,其中,所述元数据用于表示所述原始数据的属性特征;
9.将所述元数据输入预设的解构模型,以将所述元数据解构为结构化数据,其中,所述结构化数据为可编译存储和可读的数据;
10.利用预设的字典模型对所述结构化数据进行分类并存储,以聚合数据。
11.可选地,获取来源于至少一个渠道的原始数据包括按照如下方式获取其中一个服务节点的所述原始数据:
12.链接至目标服务接口和/或目标数据查询接口,其中,所述目标服务接口为目标服务节点提供对应业务服务时所调用的实际生产线接口,所述目标数据查询接口为所述目标服务节点提供的数据查询接口;
13.按照预设数据范围从所述目标服务接口和所述目标数据接口二者至少之一截取所述原始数据,其中,所述预设数据范围为根据目标业务模型的配置参数确定的所述目标服务节点中所述原始数据的采集范围,所述目标业务模型为数据聚合后的下游应用模型。
14.可选地,所述方法还包括按照如下方式获取所述数据清洗模型:
15.获取初始训练集,其中,所述初始训练集中的训练数据均携带有标注信息,所述标注信息用于标注所述训练数据对应的清洗数据;
16.利用所述初始训练集迭代训练初始模型,直至所述初始模型输出的第一预测清洗结果与所述标注信息中的所述清洗数据的重合率的平均值大于或等于第一阈值时停止迭代,得到中间模型,其中,每次迭代所使用的的训练集的数据规模在迭代过程中逐渐减小,所述初始模型为深度神经网络模型,所述第一预测清洗结果包括对各个所述训练数据的预测清洗结果,所述重合率的平均值用于表示所述中间模型的预测准确率;
17.重新将所述初始训练集输入所述中间模型,并获取所述中间模型对所述初始训练集的第二预测清洗结果;
18.在基于所述第二预测清洗结果确定所述中间模型的所述预测准确率大于或等于所述第一阈值时,将所述中间模型确定为所述数据清洗模型。
19.可选地,利用所述初始训练集迭代训练初始模型的其中一个迭代过程包括:
20.获取前一次迭代所使用的第一中间训练集,并获取所述初始模型在前一次迭代中对所述第一中间训练集预测输出的所述第一预测清洗结果;
21.确定所述第一预测清洗结果与所述标注信息中的所述清洗数据的差异率的平均值;
22.利用所述差异率的平均值确定所述初始模型的目标函数的损失值;
23.根据所述损失值调整所述初始模型的模型参数;
24.将所述模型参数作为所述初始模型的新的初始参数,并缩减所述第一中间训练集的数据规模,得到第二中间训练集,其中,对所述初始模型进行首次训练时所用的所述初始参数为预设初始参数;
25.将所述第二中间训练集输入所述初始模型,以进行本次迭代训练。
26.可选地,缩减所述第一中间训练集的数据规模,得到第二中间训练集包括:
27.按照所述第一预测清洗结果与所述标注信息中的所述清洗数据的差异率对所述第一中间训练集中的各个训练数据进行排序;
28.从排序结果中提取位于目标排序位置之前的所述训练数据组成所述第二中间训练集。
29.可选地,利用预设的字典模型对所述结构化数据进行分类并存储之后,所述方法还包括:
30.在接收到目标对象对目标分类的数据调取请求的情况下,提取所述数据调取请求中携带的第一密钥;
31.在所述第一密钥与所述目标分类的第二密钥配对的情况下,将所述目标分类的数据访问接口发送至所述目标对象。
32.可选地,利用预设的字典模型对所述结构化数据进行分类并存储之后,所述方法还包括:
33.获取所述目标业务模型对所述结构化数据的使用频率和/或特征提取频率;
34.基于所述使用频率和/或所述特征提取频率确定用于所述数据清洗模型的第一参数调整量、用于所述解构模型的第二参数调整量以及用于所述字典模型的第三参数调整
量;
35.基于所述第一参数调整量迭代训练所述数据清洗模型,直至所述数据清洗模型对所述使用频率大于或等于第二阈值的数据的识别准确率大于或等于第三阈值,和/或,基于所述第一参数调整量迭代训练所述数据清洗模型,直至所述数据清洗模型对所述特征提取频率大于或等于第四阈值的特征的识别准确率大于或等于第五阈值,其中,每次迭代以所述第一参数调整量为调整步长调整所述数据清洗模型的模型参数;
36.基于所述第二参数调整量迭代训练所述解构模型,直至所述解构模型对所述使用频率大于或等于第六阈值的数据的识别准确率大于或等于第七阈值,和/或,基于所述第二参数调整量迭代训练所述解构模型,直至所述解构模型对所述特征提取频率大于或等于第八阈值的特征的识别准确率大于或等于第九阈值,其中,每次迭代以所述第二参数调整量为调整步长调整所述解构模型的模型参数;
37.基于所述第三参数调整量迭代训练所述字典模型,直至所述字典模型对所述使用频率大于或等于第十阈值的数据的识别准确率大于或等于第十一阈值,和/或,基于所述第三参数调整量迭代训练所述字典模型,直至所述字典模型对所述特征提取频率大于或等于第十二阈值的特征的识别准确率大于或等于第十三阈值,其中,每次迭代以所述第三参数调整量为调整步长调整所述字典模型的模型参数。
38.根据本技术实施例的另一方面,本技术提供了一种数据聚合装置,包括:
39.数据获取模块,用于获取来源于至少一个渠道的原始数据,其中,每个渠道包括至少一条业务链上的至少一个服务节点,所述原始数据为所述服务节点上的生产数据;
40.数据清洗模块,用于将所述原始数据输入预设的数据清洗模型,以将所述原始数据清洗为元数据,其中,所述元数据用于表示所述原始数据的属性特征;
41.数据解构模块,用于将所述元数据输入预设的解构模型,以将所述元数据解构为结构化数据,其中,所述结构化数据为可编译存储和可读的数据;
42.分类存储模块,用于利用预设的字典模型对所述结构化数据进行分类并存储,以聚合数据。
43.根据本技术实施例的另一方面,本技术提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法的步骤。
44.根据本技术实施例的另一方面,本技术还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。
45.本技术实施例提供的上述技术方案与相关技术相比具有如下优点:
46.本技术技术方案为获取来源于至少一个渠道的原始数据,其中,每个渠道包括至少一条业务链上的至少一个服务节点,原始数据为服务节点上的生产数据;将原始数据输入预设的数据清洗模型,以将原始数据清洗为元数据,其中,元数据用于表示原始数据的属性特征;数据解构模块,用于将元数据输入预设的解构模型,以将元数据解构为结构化数据,其中,结构化数据为可编译存储和可读的数据;利用预设的字典模型对结构化数据进行分类并存储,以聚合数据。本技术通过数据清洗模型、解构模型、和字典模型,对不同渠道来源的数据进行清洗,结构化和智能分类,构建多渠道来源数据的基础关联,使数据协同共震,形成数据资产,从而发挥数据的最大价值,解决了多渠道来源数据难以构建基础关联的
技术问题。
附图说明
47.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
48.为了更清楚地说明本技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
49.图1为根据本技术实施例提供的一种可选的数据聚合方法硬件环境示意图;
50.图2为根据本技术实施例提供的一种可选的数据聚合方法流程图;
51.图3为根据本技术实施例提供的一种可选的数据聚合装置框图;
52.图4为本技术实施例提供的一种可选的电子设备结构示意图。
具体实施方式
53.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
54.在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本技术的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
55.相关技术中,由于不同领域、不同业务之间存在巨大差异,导致不同渠道来源的数据形态各不相同,在满足广度聚合需求的基础上难以再克服差异鸿沟来进一步深度挖掘数据,导致聚合后仍然无法打破差异鸿沟,各个渠道之间的数据未能构建基础关联,相当于各个渠道之间的数据仍然是孤立的,未能发挥数据的最大价值。
56.为了解决背景技术中提及的问题,根据本技术实施例的一方面,提供了一种数据聚合方法的实施例。
57.可选地,在本技术实施例中,上述数据聚合方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如数据采集、数据清洗、数据解构、数据分类以及数据存储等),可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于pc、手机、平板电脑等。
58.本技术实施例中的一种数据聚合方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行,如图2所示,该方法可以包括以下步骤:
59.步骤s202,获取来源于至少一个渠道的原始数据,其中,每个渠道包括至少一条业务链上的至少一个服务节点,原始数据为服务节点上的生产数据。
60.本技术实施例中,数据来源可以是不同业务不同领域的,每个业务由多个服务节点组成业务链,如交易业务涉及下单、商品调库、物流配送、用户评价各个环节,每个环节为
一个服务节点,多个服务节点组成业务链。来自同一个服务节点的原始数据也可能存在差别,如商品基础数据、营销数据、库存数据、用户购买力数据等。原始数据包括结构化数据和图片、文档、文件、表格、视频、音频等非结构化数据。
61.步骤s204,将原始数据输入预设的数据清洗模型,以将原始数据清洗为元数据,其中,元数据用于表示所述原始数据的属性特征。
62.本技术实施例中,原始数据数量庞大,种类繁杂,且存在“脏”数据,原始数据通过数据清洗模型进行数据清洗,将缺失、错误、重复、异常等脏数据滤除,保留有效数据,即元数据。数据清洗能够有效的减少数据数量占用空间。
63.步骤s206,将元数据输入预设的解构模型,以将元数据解构为结构化数据,其中,结构化数据为可编译存储和可读的数据。
64.本技术实施例中,接收到的元数据存在多样化的格式数据,包括图片、文档、文件、表格、视频、音频等许多非结构化的数据,对非结构化的数据进行结构化处理至关重要,本技术通过解构模型,将非结构化的数据进行解构,使所有的数据解构成可编译存储和可读的数据,最终获得结构化数据。此时,所有渠道的原始数据均转化为了机器可编译、可识别的结构化数据,由此不同渠道来源的数据便具有了建立关联关系的基础。
65.步骤s208,利用预设的字典模型对结构化数据进行分类并存储,以聚合数据。
66.本技术实施例中,通过字典模型能够从结构化数据中提取数据特征,基于数据特征对结构化数据进行存储和分类,从而构建多渠道来源数据的基础关联,不仅实现了聚合数据,使得数据之间协同共震,能够发挥数据的最大价值,还使得多源数据之间关联性更强,提高了数据调取、查看的效率。
67.采用本技术技术方案,通过数据清洗模型、解构模型、和字典模型,对不同渠道来源的数据进行清洗,结构化和智能分类,构建多渠道来源数据的基础关联,使数据协同共震,形成数据资产,从而发挥数据的最大价值,解决了多渠道来源数据难以构建基础关联的技术问题。
68.可选地,获取来源于至少一个渠道的原始数据包括按照如下方式获取其中一个服务节点的所述原始数据:
69.步骤1,链接至目标服务接口和/或目标数据查询接口,其中,目标服务接口为目标服务节点提供对应业务服务时所调用的实际生产线接口,目标数据查询接口为目标服务节点提供的数据查询接口。
70.本技术实施例中,获取数据时需要链接至目标服务节点调用的目标服务接口,或者链接至目标服务节点提供的数据查询接口,目标服务接口为实际生产线上的接口,能够实时截取真实产生的原始数据,数据查询接口为目标服务节点提供的,通过该接口截取的原始数据针对性更强。
71.步骤2,按照预设数据范围从目标服务接口和目标数据接口二者至少之一截取原始数据,其中,预设数据范围为根据目标业务模型的配置参数确定的目标服务节点中原始数据的采集范围,目标业务模型为数据聚合后的下游应用模型。
72.本技术实施例中,数据聚合的目的是为了给下游应用模型提供数据基础,下游应用模型对应有其所要解决的实际问题,或对应有处于下游应用业务需求,根据业务需求或需要解决的实际问题对下游应用模型进行配置,再通过下游应用模型的配置参数确定数据
聚合时,所要采集的数据的数据范围。
73.本技术还提供了上述数据清洗模型的训练方法,下面对其进行说明。
74.可选地,所述方法还包括按照如下方式获取所述数据清洗模型:
75.步骤1,获取初始训练集,其中,初始训练集中的训练数据均携带有标注信息,标注信息用于标注训练数据对应的清洗数据;
76.步骤2,利用初始训练集迭代训练初始模型,直至初始模型输出的第一预测清洗结果与标注信息中的清洗数据的重合率的平均值大于或等于第一阈值时停止迭代,得到中间模型,其中,每次迭代所使用的的训练集的数据规模在迭代过程中逐渐减小,初始模型为深度神经网络模型,第一预测清洗结果包括对各个训练数据的预测清洗结果,重合率的平均值用于表示中间模型的预测准确率;
77.步骤3,重新将初始训练集输入所述中间模型,并获取中间模型对初始训练集的第二预测清洗结果;
78.步骤4,在基于第二预测清洗结果确定中间模型的预测准确率大于或等于第一阈值时,将中间模型确定为所述数据清洗模型。
79.本技术实施例中,初始训练集的数据规模最大,在迭代过程中训练集的数据规模逐渐减小,因为每次迭代训练结束后,需要剔除预测结果与实际标注差距过大的训练数据,这样一步步减少训练数据的过程中,同时也在一步步提升模型的预测准确率。
80.本技术实施例中,迭代训练完成后,还需要把训练好的中间模型应用到初始训练集的全量数据上进行验证,在达到同样预测准确率的情况下才将中间模型确定为可投入使用的数据清洗模型。
81.可选地,利用初始训练集迭代训练初始模型的其中一个迭代过程包括:
82.步骤1,获取前一次迭代所使用的第一中间训练集,并获取初始模型在前一次迭代中对第一中间训练集预测输出的第一预测清洗结果;
83.步骤2,确定第一预测清洗结果与标注信息中的清洗数据的差异率的平均值;
84.步骤3,利用差异率的平均值确定初始模型的目标函数的损失值;
85.步骤4,根据损失值调整初始模型的模型参数;
86.步骤5,将模型参数作为初始模型的新的初始参数,并缩减第一中间训练集的数据规模,得到第二中间训练集,其中,对初始模型进行首次训练时所用的初始参数为预设初始参数;
87.步骤6,将第二中间训练集输入初始模型,以进行本次迭代训练。
88.可选地,缩减第一中间训练集的数据规模,得到第二中间训练集包括:
89.步骤1,按照第一预测清洗结果与标注信息中的清洗数据的差异率对第一中间训练集中的各个训练数据进行排序;
90.步骤2,从排序结果中提取位于目标排序位置之前的训练数据组成第二中间训练集。
91.本技术实施例中,每次迭代前需要从前一次迭代的训练集中剔除预测结果与实际标注差距过大的训练数据,以此逐渐提高模型的预测准确率。
92.由于本技术打破了不同渠道的数据鸿沟,针对性地调取特定类别的数据更加方便快捷,因此需要保证数据安全。
93.可选地,利用预设的字典模型对所述结构化数据进行分类并存储之后,所述方法还包括:
94.在接收到目标对象对目标分类的数据调取请求的情况下,提取数据调取请求中携带的第一密钥;
95.在第一密钥与目标分类的第二密钥配对的情况下,将目标分类的数据访问接口发送至目标对象。
96.本技术实施例中,通过数据密钥的配对来保证数据安全,预先生成配对密钥,将其中一个关联特定的数据分类,将另一个分配给需要访问该分类下数据的用户,该用户每次调取该分类下数据时,都需要发送携带该密钥的数据调取请求,系统在密钥配对成功的情况下,才将该分类的数据访问接口开放给用户,保障数据安全。
97.本技术实施例中,不仅可以从数据类别的层面保障数据安全,还可以对数据进行更加精细的数据分级,用户需要达到对应的权限等级才可访问对应的数据。
98.本技术所提供的数据清洗模型、解构模型以及字典模型都可以在实际应用过程中对数据流向行为进行分析,进一步自我迭代,最终提高多渠道来源的数据的聚合效率和准确度。
99.可选地,利用预设的字典模型对所述结构化数据进行分类并存储之后,所述方法还包括:
100.获取目标业务模型对结构化数据的使用频率和/或特征提取频率;
101.基于使用频率和/或特征提取频率确定用于数据清洗模型的第一参数调整量、用于解构模型的第二参数调整量以及用于字典模型的第三参数调整量;
102.基于第一参数调整量迭代训练数据清洗模型,直至数据清洗模型对使用频率大于或等于第二阈值的数据的识别准确率大于或等于第三阈值,和/或,基于第一参数调整量迭代训练数据清洗模型,直至数据清洗模型对特征提取频率大于或等于第四阈值的特征的识别准确率大于或等于第五阈值,其中,每次迭代以第一参数调整量为调整步长调整数据清洗模型的模型参数;
103.基于第二参数调整量迭代训练解构模型,直至解构模型对使用频率大于或等于第六阈值的数据的识别准确率大于或等于第七阈值,和/或,基于第二参数调整量迭代训练解构模型,直至解构模型对特征提取频率大于或等于第八阈值的特征的识别准确率大于或等于第九阈值,其中,每次迭代以第二参数调整量为调整步长调整解构模型的模型参数;
104.基于第三参数调整量迭代训练字典模型,直至字典模型对使用频率大于或等于第十阈值的数据的识别准确率大于或等于第十一阈值,和/或,基于第三参数调整量迭代训练字典模型,直至字典模型对特征提取频率大于或等于第十二阈值的特征的识别准确率大于或等于第十三阈值,其中,每次迭代以第三参数调整量为调整步长调整字典模型的模型参数。
105.本技术实施例中,上述第一阈值至第十三阈值均可根据实际需求进行设置。
106.根据本技术实施例的又一方面,如图3所示,提供了一种数据聚合装置,包括:
107.数据获取模块301,用于获取来源于至少一个渠道的原始数据,其中,每个渠道包括至少一条业务链上的至少一个服务节点,原始数据为服务节点上的生产数据;
108.数据清洗模块303,用于将原始数据输入预设的数据清洗模型,以将原始数据清洗
为元数据,其中,元数据用于表示原始数据的属性特征;
109.数据解构模块305,用于将元数据输入预设的解构模型,以将元数据解构为结构化数据,其中,结构化数据为可编译存储和可读的数据;
110.分类存储模块307,用于利用预设的字典模型对结构化数据进行分类并存储,以聚合数据。
111.需要说明的是,该实施例中的数据获取模块301可以用于执行本技术实施例中的步骤s202,该实施例中的数据清洗模块303可以用于执行本技术实施例中的步骤s204,该实施例中的数据解构模块305可以用于执行本技术实施例中的步骤s206,该实施例中的分类存储模块307可以用于执行本技术实施例中的步骤s208。
112.此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
113.可选地,该数据获取模块具体用于按照如下方式获取其中一个服务节点的所述原始数据:
114.链接至目标服务接口和/或目标数据查询接口,其中,所述目标服务接口为目标服务节点提供对应业务服务时所调用的实际生产线接口,所述目标数据查询接口为所述目标服务节点提供的数据查询接口;
115.按照预设数据范围从所述目标服务接口和所述目标数据接口二者至少之一截取所述原始数据,其中,所述预设数据范围为根据目标业务模型的配置参数确定的所述目标服务节点中所述原始数据的采集范围,所述目标业务模型为数据聚合后的下游应用模型。
116.可选地,该数据聚合装置还包括数据清洗模型训练模块,用于:
117.获取初始训练集,其中,所述初始训练集中的训练数据均携带有标注信息,所述标注信息用于标注所述训练数据对应的清洗数据;
118.利用所述初始训练集迭代训练初始模型,直至所述初始模型输出的第一预测清洗结果与所述标注信息中的所述清洗数据的重合率的平均值大于或等于第一阈值时停止迭代,得到中间模型,其中,每次迭代所使用的的训练集的数据规模在迭代过程中逐渐减小,所述初始模型为深度神经网络模型,所述第一预测清洗结果包括对各个所述训练数据的预测清洗结果,所述重合率的平均值用于表示所述中间模型的预测准确率;
119.重新将所述初始训练集输入所述中间模型,并获取所述中间模型对所述初始训练集的第二预测清洗结果;
120.在基于所述第二预测清洗结果确定所述中间模型的所述预测准确率大于或等于所述第一阈值时,将所述中间模型确定为所述数据清洗模型。
121.可选地,该数据清洗模型训练模块还包括迭代训练单元,具体用于:
122.获取前一次迭代所使用的第一中间训练集,并获取所述初始模型在前一次迭代中对所述第一中间训练集预测输出的所述第一预测清洗结果;
123.确定所述第一预测清洗结果与所述标注信息中的所述清洗数据的差异率的平均值;
124.利用所述差异率的平均值确定所述初始模型的目标函数的损失值;
125.根据所述损失值调整所述初始模型的模型参数;
126.将所述模型参数作为所述初始模型的新的初始参数,并缩减所述第一中间训练集的数据规模,得到第二中间训练集,其中,对所述初始模型进行首次训练时所用的所述初始参数为预设初始参数;
127.将所述第二中间训练集输入所述初始模型,以进行本次迭代训练。
128.可选地,该迭代训练单元,还用于:
129.按照所述第一预测清洗结果与所述标注信息中的所述清洗数据的差异率对所述第一中间训练集中的各个训练数据进行排序;
130.从排序结果中提取位于目标排序位置之前的所述训练数据组成所述第二中间训练集。
131.可选地,该数据聚合装置还包括数据安全控制模块,具体用于:
132.在接收到目标对象对目标分类的数据调取请求的情况下,提取所述数据调取请求中携带的第一密钥;
133.在所述第一密钥与所述目标分类的第二密钥配对的情况下,将所述目标分类的数据访问接口发送至所述目标对象。
134.可选地,该数据聚合装置还包括模型优化模块,具体用于:
135.获取所述目标业务模型对所述结构化数据的使用频率和/或特征提取频率;
136.基于所述使用频率和/或所述特征提取频率确定用于所述数据清洗模型的第一参数调整量、用于所述解构模型的第二参数调整量以及用于所述字典模型的第三参数调整量;
137.基于所述第一参数调整量迭代训练所述数据清洗模型,直至所述数据清洗模型对所述使用频率大于或等于第二阈值的数据的识别准确率大于或等于第三阈值,和/或,基于所述第一参数调整量迭代训练所述数据清洗模型,直至所述数据清洗模型对所述特征提取频率大于或等于第四阈值的特征的识别准确率大于或等于第五阈值,其中,每次迭代以所述第一参数调整量为调整步长调整所述数据清洗模型的模型参数;
138.基于所述第二参数调整量迭代训练所述解构模型,直至所述解构模型对所述使用频率大于或等于第六阈值的数据的识别准确率大于或等于第七阈值,和/或,基于所述第二参数调整量迭代训练所述解构模型,直至所述解构模型对所述特征提取频率大于或等于第八阈值的特征的识别准确率大于或等于第九阈值,其中,每次迭代以所述第二参数调整量为调整步长调整所述解构模型的模型参数;
139.基于所述第三参数调整量迭代训练所述字典模型,直至所述字典模型对所述使用频率大于或等于第十阈值的数据的识别准确率大于或等于第十一阈值,和/或,基于所述第三参数调整量迭代训练所述字典模型,直至所述字典模型对所述特征提取频率大于或等于第十二阈值的特征的识别准确率大于或等于第十三阈值,其中,每次迭代以所述第三参数调整量为调整步长调整所述字典模型的模型参数。
140.根据本技术实施例的另一方面,本技术提供了一种电子设备,如图4所示,包括存储器401、处理器403、通信接口405及通信总线407,存储器401中存储有可在处理器403上运行的计算机程序,存储器401、处理器403通过通信接口405和通信总线407进行通信,处理器403执行计算机程序时实现上述方法的步骤。
141.上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信
总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
142.存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
143.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
144.根据本技术实施例的又一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例的步骤。
145.可选地,在本技术实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:
146.获取来源于至少一个渠道的原始数据,其中,每个渠道包括至少一条业务链上的至少一个服务节点,原始数据为服务节点上的生产数据;
147.将原始数据输入预设的数据清洗模型,以将原始数据清洗为元数据,其中,元数据用于表示原始数据的属性特征;
148.将元数据输入预设的解构模型,以将元数据解构为结构化数据,其中,结构化数据为可编译存储和可读的数据;
149.利用预设的字典模型对结构化数据进行分类并存储,以聚合数据。
150.可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
151.本技术实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
152.可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dsp device,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
153.对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
154.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出
本技术的范围。
155.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
156.在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
157.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
158.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
159.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
160.以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1