本发明属于报文数据处理,具体涉及一种无规则报文全自动集市化解析脱敏落表方法、装置及存储介质。
背景技术:
1、各类it系统产出很多是非结构化报文,需要进行解析后才能进行分析读取及使用,这里的报文解析是指把不规则、可视化程度低、查询困难的报文解析成结构化的表单。现有技术中关于报文解析往往都是通过人工写脚本方式进行解析,这样就会导致报文有改动变化需要进行人工开发新的解析脚本,造成很多常规类解析工作需要人工反复写脚本,开发人力投入较多成本较大,每一期开发都意味着需要经过开发、测试、投产、验证等流程,就会导致无法快速响应对数据的查询需求。
技术实现思路
1、本发明旨在提供一种无规则报文全自动集市化解析脱敏落表方法、装置及存储介质,以实现对不同结构的各种无规则报文进行全自动集市化统一解析落表,并对敏感信息进行脱敏处理,避免常规类解析工作需要人工反复写同类型脚本以及脱敏字段需人工逐个进行查核而导致的开发人力投入较多成本较大的问题;且集市化落表能够更好的满足数据落表后的查询需求,提高落表数据的复用性,快速响应业务对报文数据的需求。
2、在银行的实际业务中,有很多需要查询客户信息的场景,这些客户信息是通过报文解析得到的,目前关于报文解析的效率低,且成本较大。
3、另外,客户的个人信息五要素往往为敏感信息,往往不可提供给业务或其他公司,由于银行系统报文中信息涵盖量较大,市面上往往报文解析后,需要人工进行肉眼比对,针对敏感字段进行人工逐个脱敏,存在人力投入大,敏感信息核对易出错等问题。
4、并且目前的常规报文解析方式为非集市化,即没有统一进行解析,导致现在的数据落表很多都是贴源层数据直接加工到指标层数据供业务使用,往往解决业务一次性需求,后续需求需重新按要求结构化处理。这样就会导致解析后的数据资源复用率低。
5、为实现以上目的,本发明采用以下技术方案:
6、提供一种无规则报文全自动集市化解析脱敏落表方法,该方法应用于数据处理设备中,以用于对无规则报文进行全自动集市化落表,并在集市化落表过程中对无规则报文中的敏感字段进行脱敏,所述方法包括:
7、采集非结构化、不规则的无规则报文并汇总整合成报文集市表;
8、对所述报文集市表中的无规则报文进行初步解析,并以行表的形式构建结构化的、分层的行表式数据,所述行表式数据是将所述无规则报文解析的信息以行表的形式进行数据整理,且所述行表式数据根据信息类型设有多层节点,各层节点下设有关于其对应的信息类型的字段;
9、对所述行表式数据进行解析得到多张结构化、前后嵌套的列表式数据,以将所述行表式数据的各层级节点中的信息转换到对应的列表式数据中,对各所述列式数据表中的敏感信息进行精确查询并加密;
10、将所述列表式数据落库落表。
11、优选的,所述采集非结构化、不规则的无规则报文并汇总整合成报文集市表包括:
12、通过分布式数据中转库统一接收数据源系统的无规则报文;
13、通过分布式数据处理平台采集所述分布式数据中转库中统一接收的无规则报文,并汇总整合成报文集市表。
14、优选的,所述对所述行表式数据进行解析得到多张结构化、前后嵌套的列表式数据包括:将所述行表式数据的当前层级节点中包含的层级属性、字段属性、字段数值这些信息进行数据平铺,并设置用于嵌套下一层节点中信息的字段空值,得到当前层级节点对应的列表式数据。
15、优选的,所述对各所述列式数据表中的敏感信息进行精确查询并加密包括:通过正则表达式匹配的方式识别各所述列式数据表中的敏感信息,对识别出的敏感信息统一进行加密。
16、优选的,所述将所述列表式数据落库落表包括:在数据库中,基于视图定期循环建表,将列表式数据由视图实际落库落表,使其能够被查询。
17、本发明还提供一种无规则报文全自动集市化解析脱敏落表装置,该装置应用于数据处理设备中,以用于对无规则报文进行全自动集市化落表,并在集市化落表过程中对无规则报文中的敏感字段进行脱敏,所述装置包括:
18、无规则报文汇总模块,用于采集非结构化、不规则的无规则报文并汇总整合成报文集市表;
19、行表式数据构建模块,用于对所述报文集市表中的无规则报文进行初步解析,并以行表的形式构建结构化的、分层的行表式数据,所述行表式数据是将所述无规则报文解析的信息以行表的形式进行数据整理,且所述行表式数据根据信息类型设有多层节点,各层节点下设有关于其对应的信息类型的字段;
20、数据转换模块,用于对所述行表式数据进行解析得到多张结构化、前后嵌套的列表式数据,以将所述行表式数据的各层级节点中的信息转换到对应的列表式数据中,对各所述列式数据表中的敏感信息进行精确查询并加密;
21、数据落表模块,用于将所述列表式数据落库落表。
22、优选的,所述无规则报文汇总模块包括:
23、数据中转单元,用于通过分布式数据中转库统一接收数据源系统的无规则报文;
24、数据采集单元,用于通过分布式数据处理平台采集所述分布式数据中转库中统一接收的无规则报文,并汇总整合成报文集市表。
25、优选的,所述数据转换模块包括:
26、列表式数据构建单元,用于将所述行表式数据的当前层级节点中包含的层级属性、字段属性、字段数值这些信息进行数据平铺,并设置用于嵌套下一层节点中信息的字段空值,得到当前层级节点对应的列表式数据;
27、数据脱敏单元,用于通过正则表达式匹配的方式识别各所述列式数据表中的敏感信息,对识别出的敏感信息统一进行加密。
28、优选的,所述数据落表模块包括循环建表单元,所述循环建表单元用于在数据库中,基于视图定期循环建表,将列表式数据由视图实际落库落表,使其能够被查询。
29、本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现前面任一项中所述的方法。
30、与现有技术相比,本发明的有益效果是:
31、1、该无规则报文全自动集市化解析脱敏落表方法能够用于对无规则报文进行全自动集市化落表,并在集市化落表过程中对无规则报文中的敏感字段进行脱敏,可实现无规则报文的全自动化解析,对报文中的字段智能识别脱敏,并达成集市化落表,能够适用于各种无规则报文的解析落表,人力投产成本低、脱敏全面、结构化表单复用性高。2、由于该方法为集市化落表,表中覆盖更多的信息,能够更好的满足查询需求,响应需求效率高,可实时达成业务查询需求。3、该方法兼容性强,对xml、json、list等类型报文均能正确进行解析,解析范围大,适用场景广。4、由于该方法是对报文集市化采集后进行集市化的落表方式,落表后数据的后续复用性均比常用指标类落表方式利用率高很多。
1.一种无规则报文全自动集市化解析脱敏落表方法,其特征在于,该方法应用于数据处理设备中,以用于对无规则报文进行全自动集市化落表,并在集市化落表过程中对无规则报文中的敏感字段进行脱敏,所述方法包括:
2.根据权利要求1所述的无规则报文全自动集市化解析脱敏落表方法,其特征在于,所述采集非结构化、不规则的无规则报文并汇总整合成报文集市表包括:
3.根据权利要求1所述的无规则报文全自动集市化解析脱敏落表方法,其特征在于,所述对所述行表式数据进行解析得到多张结构化、前后嵌套的列表式数据包括:将所述行表式数据的当前层级节点中包含的层级属性、字段属性、字段数值这些信息进行数据平铺,并设置用于嵌套下一层节点中信息的字段空值,得到当前层级节点对应的列表式数据。
4.根据权利要求1所述的无规则报文全自动集市化解析脱敏落表方法,其特征在于,所述对各所述列式数据表中的敏感信息进行精确查询并加密包括:通过正则表达式匹配的方式识别各所述列式数据表中的敏感信息,对识别出的敏感信息统一进行加密。
5.根据权利要求1所述的无规则报文全自动集市化解析脱敏落表方法,其特征在于,所述将所述列表式数据落库落表包括:在数据库中,基于视图定期循环建表,将列表式数据由视图实际落库落表,使其能够被查询。
6.一种无规则报文全自动集市化解析脱敏落表装置,其特征在于,该装置应用于数据处理设备中,以用于对无规则报文进行全自动集市化落表,并在集市化落表过程中对无规则报文中的敏感字段进行脱敏,所述装置包括:
7.根据权利要求6所述的无规则报文全自动集市化解析脱敏落表装置,其特征在于:
8.根据权利要求6所述的无规则报文全自动集市化解析脱敏落表装置,其特征在于,所述数据转换模块包括:
9.根据权利要求6所述的无规则报文全自动集市化解析脱敏落表装置,其特征在于,所述数据落表模块包括循环建表单元,所述循环建表单元用于在数据库中,基于视图定期循环建表,将列表式数据由视图实际落库落表,使其能够被查询。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至5任一项中所述的方法。