一种待维护特征数据整理方法及其相关设备与流程

文档序号:37484727发布日期:2024-04-01 13:53阅读:16来源:国知局
一种待维护特征数据整理方法及其相关设备与流程

本技术涉及金融科技,应用于金融业务大数据维护管理场景中,尤其涉及一种待维护特征数据整理方法及其相关设备。


背景技术:

1、随着互联网的飞速发展,各行各业都在依托互联网寻求行业突破点,近年来,金融行业也正在围绕着互联网进行线上业务拓展。由于金融行业涉及的业务量和数据量较大,也导致了金融业务特征数据的管理维护较为困难。

2、在多源数据端协同进行业务处理的架构模式下,每一个数据端都需要使用到特征数据,例如客户数据端、算法数据端、服务数据端,常见的方式是将用户的输入或者行为数据等转化为特征数据分别存储到相应的数据端;而相应的数据端也需要将这些特征数据存储,以供线上服务和训练时使用,这就导致了多源数据端存储的特征数据存在不同,例如客户数据端更偏向于存储客户信息,算法数据端更偏向于存储理赔金额、理赔费率等,服务数据端更偏向于存储服务信息,因此,导致了在对目标金融业务系统进行特征数据维护时,管理维护工作量较大。


技术实现思路

1、本技术实施例的目的在于提出一种待维护特征数据整理方法及其相关设备,以解决现有技术在对目标金融业务系统进行特征数据维护时,管理维护工作量较大的问题。

2、为了解决上述技术问题,本技术实施例提供待维护特征数据整理方法,采用了如下所述的技术方案:

3、一种待维护特征数据整理方法,包括下述步骤:

4、获取多源数据端发送的特征数据维护请求;

5、解析所述维护请求,获得相应数据端的特征数据存储信息;

6、基于所述存储信息和预设的统一维护函数,分别对所述多源数据端中的特征数据进行初步整理,获得初步整理日志;

7、根据预设的整合策略,对所述初步整理日志进行整合处理,获得基于所述多源数据端的整合型日志,完成对所述多源数据端的待维护特征数据的整理。

8、进一步的,所述基于所述存储信息和预设的统一维护函数,分别对所述多源数据端中的特征数据进行初步整理,获得初步整理日志的步骤,具体包括:

9、根据所述存储信息识别出当前数据端的区别标识、当前数据端中待维护特征数据所处的存储文件以及所述存储文件所在的各级存储夹;

10、基于所述区别标识、当前数据端中待维护特征数据所处的存储文件以及所述存储文件所在的各级存储夹对所述当前数据端中的待维护特征数据进行预处理,获得预处理后的特征数据;

11、采用所述统一维护函数对所述预处理后的特征数据进行初步整理,获得所述初步整理日志。

12、进一步的,所述基于所述区别标识、当前数据端中待维护特征数据所处的存储文件以及所述存储文件所在的各级存储夹对所述当前数据端中的待维护特征数据进行预处理,获得预处理后的特征数据的步骤,具体包括:

13、识别所述当前数据端中待维护特征数据所对应的特征类型,获得识别结果,其中,所述特征类型包括id类特征、标签类特征和文本类特征;

14、根据所述识别结果,筛选出所述待维护特征数据中的id类特征数据;

15、根据所述识别结果,筛选出所述待维护特征数据中的标签类特征数据;

16、根据所述识别结果,筛选出所述待维护特征数据中的文本类特征数据;

17、对所述id类特征数据,按照id码值从小到大顺序使用md5算法计算所有id码值分别对应的哈希值,并对所述哈希值进行转10进制处理,获得所有id码值分别对应的10进制处理转码结果;

18、对所述标签类特征数据,根据数据类型从中识别出字符串类型的特征数据,根据预设的字符串排序规则对所述字符串类型的特征数据按照从1至m进行递增编码排序,获得所述字符串类型的特征数据对应的编码排序结果,其中,m为正整数;

19、对所述文本类特征数据,根据所述当前数据端历史记录的文本类特征使用频率,确定所有文本类特征数据分别对应的使用频率,根据所述使用频率对所述所有文本类特征数据进行降序排序,获得文本类特征数据的排序结果。

20、进一步的,所述统一维护函数包括第一数值参数和第二数值参数,所述采用所述统一维护函数对所述预处理后的特征数据进行初步整理,获得所述初步整理日志的步骤,具体包括:

21、基于所述统一维护函数中的第一数值参数对获得的所述所有id码值分别对应的10进制处理转码结果进行转码结果筛选,筛选出后k个转码结果,其中,k为正整数,表示所述第一数值参数;

22、根据所述统一维护函数和所述字符串类型的特征数据对应的编码排序结果,获得所述字符串类型的特征数据对应的编码排序映射关系;

23、基于所述统一维护函数中的第二数值参数对所述文本类特征数据的排序结果进行筛选处理,筛选出前n个文本类特征数据,其中,n为正整数,表示所述第二数值参数;

24、将所述筛选出后k个转码结果、所述字符串类型的特征数据对应的编码排序映射关系以及所述筛选出前n个文本类特征数据,写入到预设的空白记录文件中,获得所述初步整理日志。

25、进一步的,所述基于所述统一维护函数中的第二数值参数对所述文本类特征数据的排序结果进行筛选处理,筛选出前n个文本类特征数据的步骤之后,所述方法还包括:

26、识别出所有数据端中未被筛选出的文本类特征数据;

27、根据未被筛选出的文本类特征数据分别对应的使用频率和预设的使用频率阈值,对所述未被筛选出的文本类特征数据进行清洗处理,具体清洗处理方式为:从所述未被筛选出的文本类特征数据中删除使用频率次数小于所述使用频率阈值的文本类特征数据。

28、进一步的,所述根据预设的整合策略,对所述初步整理日志进行整合处理,获得基于所述多源数据端的整合型日志,完成对所述多源数据端的待维护特征数据的整理的步骤,具体包括:

29、根据所有数据端分别对应的初步整理日志,确定所有数据端分别筛选出的后k个转码结果、所有数据端中字符串类型的特征数据所分别对应的编码排序映射关系以及所有数据端分别筛选出的前n个文本类特征数据;

30、对所有数据端分别筛选出的后k个转码结果进行码值比较,根据码值比较结果对相同码值的转码结果进行去重处理,获得码值去重处理结果;

31、对所有数据端中字符串类型的特征数据所分别对应的编码排序映射关系,添加所述区别标识,生成附带所述区别标识的字符串类型的特征数据对应的编码排序映射关系;

32、对所有数据端分别筛选出的前n个文本类特征数据,根据每个文本类特征数据分别在所有数据端中的使用频率,进行重新排序处理,获得文本类特征数据对应的重新排序结果;

33、将所述码值去重处理结果、附带所述区别标识的字符串类型的特征数据对应的编码排序映射关系以及文本类特征数据对应的重新排序结果作为所述整合型日志的记录信息,完成对所述多源数据端的待维护特征数据的整理。

34、进一步的,所述对所有数据端分别筛选出的前n个文本类特征数据,根据每个文本类特征数据分别在所有数据端中的使用频率,进行重新排序处理,获得文本类特征数据对应的重新排序结果的步骤,具体包括:

35、以所有数据端分别筛选出的前n个文本类特征数据依次为检索数据;

36、通过检索方式,分别获取每个检索数据分别在所有数据端中的使用频率;

37、根据所述区别标识和所述每个检索数据分别在所有数据端中的使用频率,进行累加求和,获得所述每个检索数据分别在所有数据端中的使用频率和值;

38、基于所述使用频率和值对所有数据端分别筛选出的前n个文本类特征数据进行降序排序,获得所述文本类特征数据对应的重新排序结果。

39、为了解决上述技术问题,本技术实施例还提供待维护特征数据整理装置,采用了如下所述的技术方案:

40、一种待维护特征数据整理装置,包括:

41、维护请求获取模块,用于获取多源数据端发送的特征数据维护请求;

42、维护请求解析模块,用于解析所述维护请求,获得相应数据端的特征数据存储信息;

43、特征数据初步整理模块,用于基于所述存储信息和预设的统一维护函数,分别对所述多源数据端中的特征数据进行初步整理,获得初步整理日志;

44、初步整理日志整合模块,用于根据预设的整合策略,对所述初步整理日志进行整合处理,获得基于所述多源数据端的整合型日志,完成对所述多源数据端的待维护特征数据的整理。

45、为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:

46、一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述所述的待维护特征数据整理方法的步骤。

47、为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:

48、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述所述的待维护特征数据整理方法的步骤。

49、与现有技术相比,本技术实施例主要有以下有益效果:

50、本技术实施例所述待维护特征数据整理方法,通过获取多源数据端发送的特征数据维护请求;解析所述维护请求,获得相应数据端的特征数据存储信息;基于所述存储信息和预设的统一维护函数,分别对所述多源数据端中的特征数据进行初步整理,获得初步整理日志;根据预设的整合策略,对所述初步整理日志进行整合处理,获得基于所述多源数据端的整合型日志,完成对所述多源数据端的待维护特征数据的整理。尤其在金融业务上,由于涉及的数据量较大以及数据端较多,通过分别对不同数据端的待维护特征数据进行初步整理,之后再进行整合,便于辅助运维人员对待维护特征数据进行整体维护,采用所述统一维护函数相较于不同数据端采用不同维护函数,一定程度上减少了整理维护的工作量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1