技术总结
本发明公开了一种提升Spark Structured Streaming文件数据源读取性能的方法和装置。本发明通过对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件,在读取每个批次文件时,只需要遍历该元数据文件即可。同时,增加数据清理的逻辑,将已完成处理的文件执行删除或者移动至备份的目录,减少文件数据源目录下的文件数量,提升了读取性能,减少了处理工作量,降低了成本。降低了成本。降低了成本。
技术研发人员:周朝卫
受保护的技术使用者:中盈优创资讯科技有限公司
技术研发日:2020.11.13
技术公布日:2021/1/26