一种基于kettle解决图数据的准实时加载方法与流程

文档序号:33883169发布日期:2023-04-20 22:00阅读:64来源:国知局

本发明属于大数据领域,涉及对各种类数据的处理,通过数据抽取、质量检测、数据清洗、数据转换、数据过滤等过程,实现数据的准实时加载过程。


背景技术:

1、在当前大数据环境下,我们处理数据迁移、转换的工作会越来越多,数据仓库的概念也越来越被熟知,现在有很多成熟的工具提供etl功能,即将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。例如datastage做为最专业的etl,占据了不少的市场份额,但其价格昂贵;decisionstream和powercenter相对便宜一些,但同样价格不菲;owb和odi做为数据库厂商提供的etl工具,其局限性就是和oracle数据库的耦合度太深;etl automation提供了一套etl框架,但是其对数据库依赖性强。而kettle作为一个少有的开源的etl工具,绿色无需安装,数据抽取高效稳定,可以在window、linux、unix上运行,并且提供了一套界面操作的解决方案,从而可代替原有的程序开发,且可以开发其插件扩展原本功能。hugegraph-loader是hugegragh的数据导入组件,能够将多种数据源的数据转化为图的顶点和边并批量导入到图数据库中。


技术实现思路

1、本发明的目的是充分利用kettle的特性,提供一种基于kettle解决图数据的准实时加载方法,解决上述现有技术中存在的问题。

2、本发明的技术方案如下:

3、一种基于kettle解决图数据的准实时加载方法,其特征在于包括以下步骤:

4、(1)建立kettle转换1,目的是生成顶点和关系数据文本,若无文件生成,调度短信接口进行消息提醒;

5、(2)建立kettle转换2,目的是将指定目录下的文件推送至远程服务器指定目录,推送完成后将目录下文件删除,避免重复推送;

6、(3)建立job,由转换1和转换2构成,且定时执行;

7、(4)建立shell脚本,由hugegraph-loader加载指定目录下的文件至图数据库中,并生成日志;

8、(5)建立crontab任务,定时执行shell脚本。

9、本发明可自动化导入图数据,可实现可自动化运维。



技术特征:

1.一种基于kettle解决图数据的准实时加载方法,其特征在于包括以下步骤:


技术总结
本发明涉及一种基于kettle解决图数据的准实时加载方法,包括以下步骤:(1)建立kettle转换1,生成顶点和关系数据文本,若无文件生成,调度短信接口进行消息提醒;(2)建立kettle转换2,将指定目录下的文件推送至远程服务器指定目录,推送完成后将目录下文件删除,避免重复推送;(3)建立JOB,由转换1和转换2构成,且定时执行;(4)建立shell脚本,由HugeGraph‑Loader加载指定目录下的文件至图数据库中,并生成日志;(5)建立Crontab任务,定时执行shell脚本。本发明可自动化导入图数据,可实现可自动化运维。

技术研发人员:董雪梅
受保护的技术使用者:北京航天长峰科技工业集团有限公司
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1