提升Spark结构化流文件数据源读取性能方法及装置与流程

文档序号：23728444发布日期：2021-01-26 18:29阅读：来源：国知局

技术特征：
1.提升spark结构化流文件数据源读取性能方法，其特征在于，包括以下步骤：(1)对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件；(2)读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件，在元数据文件中，根据此偏移量，获取待消费的文件列表，进行处理；(3)读取状态文件列表，根据清理策略对上一批次的文件进行数据清理，并更新状态文件。2.根据权利要求1所述的提升spark结构化流文件数据源读取性能方法，其特征在于：将上述步骤发布为二进制jar包，在项目中调用，经过开发提交至spark的集群运行。3.根据权利要求1所述的提升spark结构化流文件数据源读取性能方法，其特征在于：将上述元数据文件和状态文件的路径作为改造过的spark structured streaming的filestreamsource数据源类的构造参数来用于读取文件列表；4.根据权利要求1所述的提升spark结构化流文件数据源读取性能方法，其特征在于：如果清理策略为删除，则删除上一批次对应的数据文件。如果清理策略为移动，则将上一批次对应的已完成处理的文件移动至已设置的目录进行备份；5.根据权利要求1所述的提升spark结构化流文件数据源读取性能方法，其特征在于：上述生成的元数据文件包括文件名、文件大小、修改时间、文件的状态等基本信息。6.一种提升spark结构化流文件数据源读取性能装置，其特征在于，该装置包括：元数据生成模块，用于对新批次的待监控数据源文件同步生成一份元数据文件；数据源读取模块，用于读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件，在元数据文件中，根据此偏移量，获取待消费的文件列表，进行处理；数据源清理模块，用于根据状态文件列表，根据清理策略对上一批次的文件进行数据清理，并更新状态文件。

完整全部详细技术资料下载

当前第2页1 2 3