一种半结构化数据文件处理系统、方法、装置及存储介质与流程

文档序号:37336652发布日期:2024-03-18 18:02阅读:19来源:国知局
一种半结构化数据文件处理系统、方法、装置及存储介质与流程

本发明涉及数据处理,具体涉及一种半结构化数据文件处理系统、方法、装置及存储介质。


背景技术:

1、rpa技术(robotic process automation,机器人流程自动化)是一种应用技术,用于实现业务流程的自动化。它基于商业逻辑和既定规则控制,通过配置软件或机器人来抓取和解析应用程序、操作数据、触发响应以及与其他数字系统通信。rpa的目标是提高工作效率、降低成本,并减少人为错误。

2、rpa技术的发展受到多个因素的推动。首先,企业面临着大量重复性的、低附加值的任务,这些任务占据了员工的时间和资源。其次,数字化转型的趋势推动了企业采用自动化解决方案来提高效率和竞争力。同时,人工智能和机器学习的进步使得机器能够更好地模拟和执行人类的工作任务。

3、目前已有多个rpa解决方案供企业选择和使用,这些解决方案提供了可视化的工作流设计器、数据抓取和处理工具、自动化脚本编写和执行功能,以及与其他系统集成的能力。它们通过模拟人类的操作来执行任务,例如在应用程序中填写表单、复制粘贴数据、发送电子邮件等。

4、但是,尽管rpa技术在自动化业务流程方面具有显著的优势,但目前rpa只支持最简单的表格样式,不能很好地直接解读提取混合格式的半结构化表格。


技术实现思路

1、有鉴于此,本发明提供了一种半结构化数据文件处理系统、方法、装置及存储介质,以解决目前rpa只支持最简单的表格样式,不能很好地直接解读提取混合格式的半结构化表格的问题。

2、第一方面,本发明提供了一种半结构化数据文件处理系统,包括:rpa流程自动化模块和数据处理模块;rpa流程自动化模块,用于获取待处理半结构化数据文件,以及将待处理半结构化数据文件发送至数据处理模块;数据处理模块,用于利用预设python脚本对待处理半结构化数据文件进行处理,得到目标数据文件。

3、本发明提供的半结构化数据文件处理系统,通过预设python脚本在数据处理模块中将rpa流程自动化模块不能处理的半结构化数据文件进行处理,可以得到rpa流程自动化模块能够继续处理的目标数据文件,为rpa流程自动化模块处理半结构化数据文件时提供了灵活性和适应性。

4、在一种可选的实施方式中,rpa流程自动化模块,包括:第一登录子模块和获取子模块;第一登录子模块,用于获取第一登录账号信息和第一登录密码信息,以及基于第一登录账号信息和第一登录密码信息在预设网页中进行登录,并发送第一登录成功指令至获取子模块;获取子模块,用于基于第一登录成功指令,根据预设业务需求在预设网页中获取待处理半结构化数据文件。

5、在一种可选的实施方式中,第一登录子模块,包括:第一获取单元和抓取单元;第一获取单元,用于获取第一登录账号信息和第一登录密码信息,以及将第一登录账号信息和第一登录密码信息发送至抓取单元;抓取单元,用于基于预设网页的网页标签,在预设网页中进行抓取并确定目标输入框,以及将第一登录账号信息和第一登录密码信息输入目标输入框进行登录。

6、在一种可选的实施方式中,获取子模块,包括:访问单元和第一确定单元;访问单元,用于当接收到第一登录成功指令时,访问目标界面,并发送访问成功指令至第一确定单元;第一确定单元,用于当接收到访问成功指令时,根据预设业务需求在目标界面中获取待处理半结构化数据文件。

7、在一种可选的实施方式中,数据处理模块,包括:调用子模块、确定子模块和数据处理子模块;调用子模块,用于在预设脚本库中调用预设python脚本,以及将预设python脚本发送至数据处理子模块;确定子模块,用于基于待处理半结构化数据文件确定目标运行参数,以及将目标运行参数发送至数据处理子模块;数据处理子模块,用于基于目标运行参数,利用预设python脚本对待处理半结构化数据文件进行处理,得到目标数据文件。

8、本发明通过待处理半结构化数据文件可以确定预设python脚本的目标运行参数,进一步,在目标运行参数的基础上利用数据处理模块运行调用的预设python脚本对待处理半结构化数据文件进行处理,可以将rpa流程自动化模块不能处理的半结构化数据文件处理为rpa流程自动化模块能够继续处理的目标数据文件,为rpa流程自动化模块处理半结构化数据文件时提供了灵活性和适应性。

9、在一种可选的实施方式中,确定子模块,包括:第二确定单元、设置单元和第三确定单元;第二确定单元,用于基于待处理半结构化数据文件确定文件路径和目标账号信息,以及将目标账号信息发送至设置单元,将文件路径发送至第三确定单元;设置单元,用于基于目标账号信息设置数据类型和全局计算变量,以及将数据类型和全局计算变量发送至第三确定单元;第三确定单元,用于基于文件路径、数据类型和全局计算变量,确定目标运行参数。

10、在一种可选的实施方式中,数据处理子模块,包括:第一处理单元、生成单元和第四确定单元;第一处理单元,用于基于目标运行参数和预设第一条件,利用预设python脚本对待处理半结构化数据文件进行处理,得到第一数据集,以及将第一数据集发送至生成单元和第四确定单元;生成单元,用于基于第一数据集生成第一数据文件,并将第一数据文件发送至第四确定单元;第四确定单元,用于基于第一数据集确定第二数据集,并基于第二数据集和第一数据文件,确定目标数据文件。

11、在一种可选的实施方式中,第一处理单元,包括:获取子单元、调整子单元、第一处理子单元和确定子单元;获取子单元,用于基于目标运行参数,利用预设python脚本对待处理半结构化数据文件进行处理,得到满足预设第一条件的第一数据子集和不满足预设第一条件的第二数据子集,以及将第一数据子集发送至调整子单元,将第二数据子集发送至第一处理子单元;调整子单元,用于对第一数据子集中不满足预设数据格式的每个数据的数据格式进行调整,得到第一目标数据子集,以及将第一目标数据子集发送至确定子单元;第一处理子单元,用于利用预设占位符对第二数据子集进行处理,得到第二目标数据子集,以及将第二目标数据子集发送至确定子单元;确定子单元,用于基于第一目标数据子集和第二目标数据子集,确定第一数据集。

12、在一种可选的实施方式中,第四确定单元,包括:第二处理子单元、生成子单元和第三处理子单元;第二处理子单元,用于基于第二目标数据子集,经过预设处理方法,得到第二数据集,并将第二数据集发送至生成子单元;生成子单元,用于基于第二数据集和第一数据文件,生成第二数据文件,以及将第二数据文件发送至第三处理子单元;第三处理子单元,用于按照预设要求对第二数据文件进行处理,得到目标数据文件。

13、在一种可选的实施方式中,半结构化数据处理系统与spa系统连接;rpa流程自动化模块,还用于接收数据处理模块发送的目标数据文件,并将目标数据文件上传至spa系统。

14、在一种可选的实施方式中,rpa流程自动化模块,还包括:第二登录子模块和上传子模块;第二登录子模块,用于获取第二登录账号信息和第二登录密码信息,以及基于第二登录账号信息和第二登录密码信息在预设spa网页中进行登录,并发送第二登录成功指令至上传子模块;上传子模块,用于基于第二登录成功指令,将目标数据文件上传至spa系统。

15、在一种可选的实施方式中,上传子模块,包括:第二获取单元和上传单元;第二获取单元,用于获取目标事务代码和文件配置参数,以及将目标事务代码和文件配置参数发送至上传单元;上传单元,用于基于目标事务代码和文件配置参数,将目标数据文件上传至spa系统。

16、第二方面,本发明提供了一种半结构化数据文件处理方法,用于如上述第一方面或其对应的任一实施方式的半结构化数据文件处理系统;该方法包括:

17、获取待处理半结构化数据文件并在预设脚本库中调用预设python脚本;基于待处理半结构化数据文件确定目标运行参数;基于目标运行参数,利用预设python脚本对待处理半结构化数据文件进行处理,得到目标数据文件。

18、本发明提供的半结构化数据文件处理方法,利用本发明上述第一方面或其对应的任一实施方式的半结构化数据文件处理系统对半结构化数据文件进行处理,可以将rpa流程自动化模块不能处理的半结构化数据文件处理为rpa流程自动化模块能够继续处理的目标数据文件,为rpa流程自动化模块处理半结构化数据文件时提供了灵活性和适应性。

19、第三方面,本发明提供了一种半结构化数据文件处理装置,用于执行上述第二方面提供的半结构化数据文件处理方法;该装置包括:

20、获取模块,用于获取待处理半结构化数据文件并在预设脚本库中调用预设python脚本;确定模块,用于基于待处理半结构化数据文件确定目标运行参数;处理模块,用于基于目标运行参数,利用预设python脚本对待处理半结构化数据文件进行处理,得到目标数据文件。

21、第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第二方面提供的半结构化数据文件处理方法。

22、第五方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第二方面提供的半结构化数据文件处理方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1