一种主数据管理方法、系统、设备及介质与流程

文档序号:35925263发布日期:2023-11-04 14:22阅读:30来源:国知局
一种主数据管理方法、系统、设备及介质与流程

本发明属于互联网服务,具体涉及一种主数据管理方法、系统、设备及介质。


背景技术:

1、主数据管理是一种数据管理方法,旨在维护和管理组织内部的核心数据,确保其准确性、一致性和完整性。随着各行各业出台的消费活动的数量迅猛增长,消费信息量随着消费活动的积累不断扩大,逐渐形成了大规模的基础数据。然而,面对消费信息量的不断扩大,目前还没有一种主数据管理是针对消费信息而形成的,导致庞大的消费信息无法得到合理的规范,从而也无法得到有效的利用。


技术实现思路

1、为解决现有技术中存在的上述问题,本发明提供了一种主数据管理方法、系统、设备及介质,通过获取原始消费信息,将原始消费信息进行数据清洗和分词处理得到消费信息,预设所述消费信息的群体特征表现为名称-业务-产业,将所述群体特征表现通过外键方式建立连接,最后,基于roberta算法对所述消费信息进行训练得到消费信息分类模型,并通过计算机器学习指标评估所述消费信息分类模型的综合度,为消费信息主数据管理提供管理方法及管理方法评估,针对消费信息实现主数据管理,统一消费信息主数据管理规范。

2、本发明的目的可以通过以下技术方案实现:

3、一种主数据管理方法,包括如下步骤:

4、s1:获取原始消费信息,所述原始消费信息携带获取标识信息,所述获取标识信息包括单次查询请求标识信息和批量导入请求标识信息;

5、s2:将所述原始消费信息进行数据清洗和分词处理得到消费信息,所述数据清洗包括对所述原始消费信息进行去干扰字符和特征补全;

6、s3:将所述消费信息的群体特征表现通过外键方式建立连接,所述群体特征表现为名称-业务-产业;

7、s4:基于roberta算法对所述消费信息进行训练得到消费信息分类模型;

8、s5:通过计算机器学习指标评估所述消费信息分类模型的综合度。

9、优选地,所述步骤s1具体包括:

10、判断携带单次查询请求标识信息的原始消费信息是否在数据库中,是,则返回第一预消费信息,所述第一预消费信息携带现有消费信息标识信息,否,则返回第二预消费信息,所述预消费信息携带更新消费信息标识信息;

11、在所述数据库中创建返回所述第二预消费信息的原始消费信息;

12、对携带批量导入请求标识信息的原始消费信息进行数据校验,判断是否通过消费信息字段检查,是,则返回第三预消费信息,所述第三预消费信息携带消费信息字段通过检查标识信息,否,则返回第一错误信息,所述第一错误信息携带消费信息字段未通过检查标识信息;

13、判断返回第三预消费信息的原始消费信息是否符合一致性操作,是,则返回一致性操作信息,所述一致性操作信息携带一致操作标识信息,否,则返回第二错误信息,所述第二错误信息携带分歧操作标识信息,所述一致性操作包括统计所述原始消费信息行数、导入mysql以及查询行数,若所述原始消费信息行数和所述数据库存储行数一致则符合所述一致性操作;

14、在所述数据库中创建返回所述第三预消费信息的原始消费信息和返回所述一致性操作信息的原始消费信息。

15、优选地,所述步骤s2具体包括清洗所述原始消费信息中的特殊字符及标点符号,通过elasticsearch搜索引擎配合ik_max_word根据原始消费信息的来源补全所述原始消费信息得到所述消费信息。

16、优选地,所述步骤s3具体包括:

17、根据所述群体特征表现分别建立名称表、业务表和产业表;

18、定义名称字段为所述名称表的主键,定义所述名称字段为所述业务表的外键,所述业务表与所述名称表通过所述名称字段建立连接,所述名称字段为所述名称表和所述业务表共同的字段;

19、定义业务字段为所述业务表的主键,定义所述业务字段为所述产业表的外键,所述产业表与所述业务表通过所述业务字段建立连接,所述业务字段为所述业务表和所述产业表共同的字段;

20、定义产业字段为所述产业表的主键,定义所述产业字段为所述名称表的外键,所述名称表与所述产业表通过所述产业字段建立连接,所述产业字段为所述产业表和所述名称表共同的字段。

21、优选地,所述步骤s4的具体实现方法为:

22、通过dataloader将所述消费信息进行数据装载转换为消费数据;

23、通过optimizer在所述roberta算法中添加消费数据分类层;

24、根据所述消费数据在所述消费数据分类层中通过epoch训练得到所述消费信息分类模型。

25、优选地,所述步骤s5的具体实现方法为:

26、计算所述消费信息分类模型准确度a,计算公式为:,其中,tp为正确预测正类消费信息样本数,tn为正确预测为负类消费信息样本数,fp为错误预测正类消费信息样本数,fn为错误预测为负类消费信息样本数;

27、计算所述消费信息分类模型精确度p,计算公式为:;

28、计算所述消费信息分类模型召回度r,计算公式为:;

29、根据所述消费信息分类模型精确度和所述消费信息分类模型召回度计算所述机器学习指标评估所述消费信息分类模型的综合度,计算公式为:。

30、一种主数据管理系统,所述主数据管理系统应用于上述主数据管理方法,包括:

31、数据获取模块,用于获取原始消费信息,所述原始消费信息携带获取标识信息,所述获取标识信息包括单次查询请求标识信息和批量导入请求标识信息;

32、数据处理模块,用于将所述原始消费信息进行数据清洗和分词处理得到消费信息,所述数据清洗包括对所述原始消费信息进行去干扰字符和特征补全;

33、模型构建模块,用于预设所述消费信息的群体特征表现为名称-业务-产业,将所述群体特征表现通过外键方式建立连接,基于roberta算法对所述消费信息进行训练得到消费信息分类模型;

34、综合输出模块,用于通过计算机器学习指标评估所述消费信息分类模型的综合度;

35、中央控制模块,用于通过单片机控制各个模块正常工作;

36、数据存储模块,用于存放所述数据库并存储各个模块所产生的数据。

37、一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述主数据管理方法。

38、一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述主数据管理方法。

39、本发明的有益效果为:

40、(1)通过elasticsearch搜索引擎配合ik_max_word根据原始消费数据来源补全原始消费数据得到消费信息,提高主数据库的检索效率并实现相似消费信息的快速召回;

41、通过将所述消费信息的群体特征表现通过外键方式建立连接,并通过基于roberta算法对所述消费信息进行训练得到消费信息分类模型,提高了消费信息主数据分类的有效性及综合性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1