一种基于大数据技术的智能解析数据的方法与流程

文档序号:26361097发布日期:2021-08-20 20:37阅读:136来源:国知局

本发明涉及大数据技术领域,具体涉及一种基于大数据技术的智能解析数据的方法。



背景技术:

当今属于信息时代,数据的应用已经渗透到各行各业,大数据技术应然而生。大数据技术能对海量、不同类型的数据进行处理分析,挖掘获取深藏其中的、有价值的信息。

许多接口数据均会采用一定格式来进行存储,比如json数据格式,一是便于存储传输,二是便于调取。当应用平台获取到这些接口数据后,需要对接口数据进行解析处理才能获取其中的具体信息。对于这些数据格式下的接口数据,目前已经有一些解析函数用于解析这些数据了,但是现有的解析函数,都只是只能针对性地解析一部分数据,比如说某个字段的数据或者某一层的数据;而对于复杂的各类接口数据,目前还没有一种有效可行的方法可以快速便捷地进行全部解析。



技术实现要素:

为了解决现有技术中存在的难题,本发明的目的在于提供一种有效可行的基于大数据技术的智能解析数据的方法。

为实现上述目的,本发明采用如下方案。

一种基于大数据技术的智能解析数据的方法,包括:

识别所选数据内容的结构,将数据分段分析;

为分段数据匹配相应的数据解析工具进行解析;

将解析获得的数据写入数据表,并依据解析数据时所生成的主键和外键字段,自动关联存储数据表间的关系。

作为优选实施例,还包括,将解析数据的逻辑和流程自动生成sql脚本,并对应生成数据文件包或数据表,存储到对应的文件夹或数据库。

进一步地,将解析数据的逻辑和流程自动生成sql脚本,具体为:将解析数据的逻辑和流程自动生成sql脚本,具体为:依据解析数据所应用的数据解析工具的程序处理数据的过程对应生成sql脚本,以及程序处理数据的顺序生成对应sql脚本执行的数据流。

作为优选实施例,还包括,自动生成sql脚本后,形成数据解析任务文件,并形成流式处理的实时流或定时处理的批处理流程。

优选地,还包括,将各类数据解析函数集成到智能解析系统,形成数据解析工具。

优选地,还包括,根据存储的数据解析逻辑流程记录,自动推荐匹配的数据解析工具。

进一步地,识别所选数据内容的结构,将数据分段分析,包括,依据选定的符号,查找与选定符号对应的符号对,选定所述符号对所包含的数据段。

本发明的基于大数据技术的智能解析数据的方法可采用计算机程序自动实现,因此本发明还提供了一种计算机可读存储设备,存储有计算机程序,所述计算机程序被处理器执行以实现所述的基于大数据技术的智能解析数据的方法。

同时,本发明还提供了相应的终端、系统来实现上述基于大数据技术的智能解析数据的方法。

本发明的有益效果:本发明提供了一种基于大数据技术的智能解析数据的方法,可以从智能解析数据系统选择匹配数据解析工具对数据进行解析处理,极大地降低用户的技术门槛,同时也减少了数据解析处理的时间和成本。

具体实施方式

为了便于本领域技术人员的理解,下面结合实施例对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。

本发明实施例提供了一种基于大数据技术的智能解析数据的方法,方法包括以下步骤。

1、管理数据解析工具:根据实际数据需求或者现行的数据格式,形成各类数据解析函数,并集成到智能解析系统,组成应用系统中的数据解析工具;并可以在应用中不断扩充和增加数据解析工具到智能解析系统。

目前的数据基本上都是采用json格式或其它便于传送或调取的格式,对于此类数据,技术人员需要根据其数据格式,开发形成对应的数据解析函数,然后可以形成文件包,例如java开发环境,则形成为jar包。之后,通过解析工具配置管理器上传到服务器,并可以自定义解析工具名称,选择所上传的文件包名,形成数据解析工具。

在后续应用中,用户可以根据数据从系统选择相应的数据解析工具;解析工具配置管理器通过存储的解析工具路径,调用解析工具文件包程序,进行数据解析。

2、数据分段解析:识别所选数据的内容,识别数据内容的结构,将数据进行分段分析。例如所选数据是“{[”,则系统识别与其对应的“]}”,以此识别对应的符号所包括的数据,帮助用户快速识别有效的数据结构,并截取所需要的数据进行解析。

具体的,可以预先在系统配置数据识别的前置符号和对应的后置符号,之后,所选数据为前置符号时,则系统自动查找对应的后置符号,进而,可以截取前置符号和后置符号之间所包括的数据,以此为分段数据进行解析。

以下以前置符号‘{[’和后置符号‘]}’为例进行详细说明。

当用户选中的数据内容为前置符号‘{[’时,则系统从用户选中的前置符号‘{[’开始往后遍历数据;系统自动将用户选中的前置符号标记为第1个前置符号,然后逐步往后遍历查找;当系统查找到与用户所选前置符号相同的第n个数据时,标记其为第n个前置符号;当查找到第m个后置符号‘]}’时,标记其为第m个后置符号;n,m均为变量,均为从1递增的自然数:1,2,3,4,5……;在系统查找到第n个前置符号之后、且在查找到第n+1个前置符号之前,查找到第m个后置符号、且m=n时,则系统判定该第m个后置符号与用户所选的前置符号为一个符号对,系统自动选中这一符号对以内的数据信息。

当用户选中的数据内容为后置符号时,同理,则从用户选中的后置符号开始往前遍历数据,找出其对应的前置符号,并自动选中这一符号对以内的数据。

概言之,用户可以根据需要选中节点符号,系统通过对符号对的识别,查找到与所选节点符号对应的符号对,进而可以为用户自动选定当前符号对所包含的数据段,以便用户可以快速定位所查询的数据段,并据此选择相应的数据解析工具,或者也可以让系统通过历史解析记录来推荐数据解析工具。

此外,系统在解析数据时,通过智能识别所有符号对,将数据结构识别到的最小颗粒的符号对所包含的数据通过解析工具进行解析获取其包含字段及对应的数据,同时为此最小颗粒的符号对生成一个id1主键作为解析出的当前最小颗粒的结构化数据的主键字段,进而完成这一最小颗粒符号对所包含的数据存储;并将生成的id1主键作为当前最小颗粒符号对的数据结构的上一层数据的一个外键字段,并以id1代替此最小颗粒的符号对的这一段数据;同样方法,采用idn外键的方式完成替换当前上一层数据结构里面的所有最小颗粒符号对所包含的数据,进而当前上一层数据即转化为最小颗粒的符号对所包含的数据。系统循环执行以上方法,完成用户所选符号对范围内的所有数据的拆解、解析和数据存储。

通过对最小颗粒的符号对的识别,并将其作为解析数据的最小单位,从而可以对所选数据进行逐层/逐段地拆解和解析,这样利于系统为每层/段数据匹配到最合适的数据解析工具,以获得用户最想要的数据结果,进而提高数据解析的精准度,同时,也能提高数据解析效率。

3、匹配数据解析工具:用户选择需要解析的数据后,可以将这些数据放入智能解析系统,用户可以通过上述步骤2中所述的方法,对上述数据进行逐层或逐段选择,并选择相应的数据解析工具进行解析,例如通过第一段数据解析后,下一段的各段数据可以继续选择解析工具进行解析。

同时,系统记录用户解析成功的数据结构和对应的解析工具,从而为后续用户推荐匹配数据解析工具,减少用户数据解析的时间成本。具体的,在上述步骤2中,进行全段解析或分段解析后,用户确认数据解析过程后,系统记录当前解析数据的结构,以及对应数据结构层应用解析工具的名称。对于后续需要解析的数据,系统可以自动按上述步骤2中方法进行全段识别,或者按用户所选符号所限定的数据段来识别对应数据的结构,并根据系统记录的之前解析过的数据结构,对应匹配数据解析工具。

4、管理解析数据:在解析完各层的数据后,系统自动将各层解析后的数据写入临时数据表,并依据解析数据时所生成的主键和外键字段,自动关联存储数据表间的关系。

例如,解析数据包含了企业信息以及企业的交易记录,则这些解析数据对应的临时数据表包括企业信息表、以及每个企业的交易记录表;同时,系统会自动将交易记录数据结构外层的企业信息关联记录到对应企业的交易记录表中,由此记录复杂的数据存储结构解析之后的数据表之间的关系。

从而,实现了系统自动为用户解析数据,并将解析后的结果按数据关系存储成关系数据表,减少数据分析或解析的时间成本,以及极大地降低用户的技术门槛。而且,用户可以根据解析得到的关系数据表获得有价值的关联数据,而非单一数据,这也为后续的大数据分析提供很好的数据源。

此外,系统自动将解析后的数据首先写入临时数据表,是因为临时表是虚拟表,不占用系统的实际内存,但是系统通过将数据存储于临时表,可以为用户展示解析后的数据表;之后,当用户确认需要保存数据解析流时,可以选择需要存储的数据存储到实体表,具体的,系统则将解析后的数据存入数据库的实体表,存储的数据表关系与临时数据表一致。在后续的数据解析时,为保存数据表间的关系,系统依然会将中间数据或不保存的数据存储到临时表,从而便于数据关系的建立。

这样的存储方式可以很好地节省系统内存空间,提升处理速度,尤其是在系统处理海量数据时,如果将所有数据都存入数据库中,将会大量占用系统内存,极大地影响数据处理效率,同时也浪费系统空间资源。

5、存储解析过程:对于数据解析过程,尤其是对于重复调度的数据解析,系统可以将解析数据的逻辑和流程自动生成sql脚本,并对应生成数据文件包或数据表,存储到对应的文件夹或数据库。

上述步骤4中,是一次性通过解析工具将当前的复杂的非关系数据结构存储的数据进行解析并存储到临时表,或者更进一步将临时表最终定义为某最终数据表,但这一般只是适用于一次性解析数据的场景,亦或者是方便用户了解数据的场景。为了能将正确解析的数据解析逻辑和流程在后续持续复用或流式调用,系统可以将步骤4中调用解析工具文件包程序进行数据解析和存储数据于临时表的过程自动生成sql脚本,将数据解析的顺序作为数据流,并形成数据解析任务文件,用户可以根据需要将任务文件形成流式处理的实时流或定时处理的批处理流程,从而满足数据解析的复用需求。

具体的,当需要生成sql脚本时,系统依据解析数据所应用的解析工具的程序处理数据的过程对应生成sql脚本,以及程序处理数据的顺序生成对应sql脚本执行的数据流。用户可以依据数据解析的应用场景,设定sql脚本数据流是定时任务还是实时任务;如果是定时任务,则将sql脚本数据流放入任务监控机制,系统按照设定的时间定时调取待解析的数据表,可以增量解析数据表新入的数据,或者全量解析数据表全部的新旧数据;如果是实时任务,则将sql脚本数据流放入实时监控机制,当监控到待解析的数据表有新的数据入库时,调度sql脚本数据流执行数据解析。进而,满足不同应用场景下的不同数据解析需求,可以更为灵活地处理解析数据。

在大数据时代下,各种应用平台应各种需求而生,各种数据的获取也比以前更为便捷,但想从这些数据当中获取到想要的信息,还需要对相应数据进行解析处理。对于复杂数据而言,解析处理成本无疑是巨大的,且普通人员无法达成,需要专业技术人员才能进行处理。

而采用本实施例提供的基于大数据技术的智能解析数据的方法,则可以大大地降低数据处理成本和处理难度。本发明方案通过将各类数据解析函数集成到智能解析系统,形成数据解析工具;当需要解析处理数据时,无论是数据专业人员还是普通人员,均可以从智能解析系统选择数据解析工具对数据进行解析处理,或者更便捷地,直接由智能解析系统根据数据来推荐相应匹配的解析工具,对数据进行解析处理,从而极大地降低用户的技术门槛,同时也减少了数据解析处理的时间和成本。

而且,本实施例提供的方案尤其适用于需要解析复杂数据格式存储和传送的数据,因为采用本发明方案,可以将复杂数据格式逐段逐层地拆解,将数据以最小单位进行逐一解析,并且可以从智能解析系统中为每段每层数据分别选择匹配数据解析工具进行解析,从而可以实现对海量数据的全段解析或者部分解析,同时,还真正实际有效地提高数据解析的精准度和效率,降低数据处理的技术门槛。

另外需要说明的是,本领域普通技术人员可以理解:实现上述方法实施的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序指令可以存储于一计算机可读取存储介质或存储设备中,该程序指令在执行时,执行上述议价管理方法的步骤;而前述存储介质或存储设备包括但不限于:rom、ram、磁盘或者光盘等各种可以存储程序代码的介质。

因此相应地,本发明实施例还提供了一种计算机可读存储设备,存储有计算机程序,所述计算机程序被处理器执行以实现上述基于大数据技术的智能解析数据的方法。

进一步地,本发明还配套提供了一种相应的移动终端、系统来实现上述基于大数据技术的智能解析数据的方法,具体为:

一种移动终端,包括:

处理器,适于执行程序指令;

存储设备,适于存储程序指令,所述程序指令适于由处理器加载并执行以实现上述基于大数据技术的智能解析数据的方法。

一种基于大数据技术的智能解析数据的系统,包括服务器;服务器包括处理器和存储设备;

处理器,适于执行程序指令;

存储设备,适于存储程序指令,所述程序指令适于由处理器加载并执行以实现上述基于大数据技术的智能解析数据的方法。

以上内容仅为本发明的较佳实施例,对于本领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1