大量数据同步、传输和入数据库的方法

文档序号:7954066阅读:233来源:国知局
专利名称:大量数据同步、传输和入数据库的方法
技术领域
本发明涉及数据存储方法,尤其涉及一种大量数据同步、传输和入数据库的方法。
背景技术
为移动运营商服务的系统,除了用户量非常巨大外,涉及到的业务数据量也非常巨大;而且移动业务系统往往涉及到多个系统间的数据交互,需要有大量的数据进行同步和传递,很多业务系统中每天需要同步的数据量超过几个GB,处理的业务记录数超过千万甚至上亿。

发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种大量数据同步、传输和入数据库的方法。
本发明的目的可以通过以下技术方案来实现大量数据同步、传输和入数据库的方法,其特征在于,该方法包括以下步骤1).设定一个文件传输协议(ftp)服务器作为数据的接收地,对每一个数据来源创建一个特定的帐号;2).对每一个数据源,在ftp服务器上创建有独立读写权限的目录作为数据交互地;3).用户需要数据同步给本系统时,按照一定的规则将数据生成到一系列文件,按照命名规则将这些文件命名后上传到ftp服务器的指定目录下;4).数据接收系统按照定期轮询的方式检查各数据源对应的目录,时间间隔可以根据业务需要灵活配置,以不影响数据的实时性为限;5).接收系统核查到有新的数据进入系统后,进行数据的分析和入库工作;6).数据处理完毕后,数据接收系统生成响应结果文件并存放在相应数据源的目录下;7).数据源在不停进行新数据上传的同时,也会定期核查ftp服务器相应目录下的响应文件,并根据响应文件的内容,重新上传数据。
所述的步骤3)中的规则包括A).文件名包括以便唯一标识的要素;B).文件的内容按照行进行组织,每行包含一条数据记录,数据记录中的各字段按照指定顺序排列,字段间以“,”为分隔符分隔;C).文件传输过程中文件名中增加temp,标识文件正在上传中,暂时不要处理;D).文件上传结束后对文件更名,删除temp标识,表示文件处理完毕,可以对此文件中的内容进行解析和处理。
所述的文件名包括以便唯一标识的要素,该要素包括A).生成时间,按照YYYYMMDDHHMMSS格式(如20060503102035,2006年5月3日10点20分35秒);B).数据特征如unsubrecordconfirm表示“退订请求确认”确认;C).本文件在整个数据集合中的序列号,如01,表示此次数据分布在多个文件中,而本文件为第一个。
所述的步骤6)中响应结果文件会作为数据源核对发送结果的依据。
所述的响应结果文件包括以下部分1).文件名命名文件名包含文件生成的时间戳,用于标识对不同文件的处理结果;2).文件中包含错误列表,内容包括出错文件名、出错记录详细信息、数据接收方判断的错误原因;3).文件中包括处理过的文件名列表。
本发明通过自定义的协议完成大容量数据在多个系统间的快速转移,并通过自定义的入库方法保证数据转移完成后能快速的插入数据库。


图1为本发明的结构示意图。
具体实施例方式
下面结合附图对本发明作进一步说明。
如图1所示,包括以下步骤1.设定一个ftp服务器作为数据的接收地,对每一个数据来源创建一个特定的帐号。
2.对每一个数据源,在ftp服务器上创建有独立读写权限的目录作为数据交互地。
3.用户需要数据同步给本系统时,按照一定的规则将数据生成到一系列文件,按照命名规则将这些文件命名后上传到ftp服务器的指定目录下。具体规则可能包括1).文件名包括如下要素以便唯一标识a)生成时间,按照YYYYMMDDHHMMSS格式(如20060503102035,2006年5月3日10点20分35秒)。
b)数据特征如unsubrecordconfirm表示“退订请求确认”确认c)本文件在整个数据集合中的序列号,如01,表示此次数据分布在多个文件中,而本文件为第一个。
2).文件的内容按照行进行组织,每行包含一条数据记录,数据记录中的各字段按照指定顺序排列,字段间以“,”为分隔符分隔。
3).文件传输过程中文件名中增加temp,标识文件正在上传中,暂时不要处理。
4).文件上传结束后对文件更名,删除temp标识,表示文件处理完毕,可以对此文件中的内容进行解析和处理。
4.数据接收系统按照定期轮询的方式检查各数据源对应的目录。时间间隔可以根据业务需要灵活配置,以不影响数据的实时性为限。
5.接收系统核查到有新的数据进入系统后,进行数据的分析和入库工作。具体流程如下1).修改文件名,增加going标识,标明数据文件正在处理中。
2).由于数据文件内容是按照指定的格式、顺序排列的,所以可以采用数据库批量入库的脚本进行大批量数据一次入库。
3).数据文件处理完毕后,进行数据备份,将处理完的数据文件从原始目录迁移到备份目录。
4).根据数据文件的处理结果,生成响应文件。对文件中的错误数据记录入响应文件,对正确处理数据的统计结果也同时记录入响应文件。
6.数据处理完毕后,数据接收系统生成响应结果文件并存放在相应数据源的目录下。响应结果文件会作为数据源核对发送结果的依据,会包括如下部分1).文件名命名文件名包含文件生成的时间戳,用于标识对不同文件的处理结果。
2).文件中包含错误列表,内容包括出错文件名、出错记录详细信息、数据接收方判断的错误原因。
3).文件中包括处理过的文件名列表。
7.数据源在不停进行新数据上传的同时,也会定期核查ftp服务器相应目录下的响应文件。并根据响应文件的内容,重新上传数据。
权利要求
1.大量数据同步、传输和入数据库的方法,其特征在于,该方法包括以下步骤1).设定一个文件传输协议(ftp)服务器作为数据的接收地,对每一个数据来源创建一个特定的帐号;2).对每一个数据源,在ftp服务器上创建有独立读写权限的目录作为数据交互地;3).用户需要数据同步给本系统时,按照一定的规则将数据生成到一系列文件,按照命名规则将这些文件命名后上传到ftp服务器的指定目录下;4).数据接收系统按照定期轮询的方式检查各数据源对应的目录,时间间隔可以根据业务需要灵活配置,以不影响数据的实时性为限;5).接收系统核查到有新的数据进入系统后,进行数据的分析和入库工作;6).数据处理完毕后,数据接收系统生成响应结果文件并存放在相应数据源的目录下;7).数据源在不停进行新数据上传的同时,也会定期核查ftp服务器相应目录下的响应文件,并根据响应文件的内容,重新上传数据。
2.根据权利要求1所述的大量数据同步、传输和入数据库的方法,其特征在于,所述的步骤3)中的规则包括A).文件名包括以便唯一标识的要素;B).文件的内容按照行进行组织,每行包含一条数据记录,数据记录中的各字段按照指定顺序排列,字段间以“,”为分隔符分隔;C).文件传输过程中文件名中增加temp,标识文件正在上传中,暂时不要处理;D).文件上传结束后对文件更名,删除temp标识,表示文件处理完毕,可以对此文件中的内容进行解析和处理。
3.根据权利要求2所述的大量数据同步、传输和入数据库的方法,其特征在于,所述的文件名包括以便唯一标识的要素,该要素包括A).生成时间,按照YYYYMMDDHHMMSS格式(如20060503102035,2006年5月3日10点20分35秒);B).数据特征如unsubrecordconfirm表示“退订请求确认”确认;C).本文件在整个数据集合中的序列号,如_01,表示此次数据分布在多个文件中,而本文件为第一个。
4.根据权利要求1所述的大量数据同步、传输和入数据库的方法,其特征在于,所述的步骤6)中响应结果文件会作为数据源核对发送结果的依据。
5.根据权利要求1或4所述的大量数据同步、传输和入数据库的方法,其特征在于,所述的响应结果文件包括以下部分1).文件名命名文件名包含文件生成的时间戳,用于标识对不同文件的处理结果;2).文件中包含错误列表,内容包括出错文件名、出错记录详细信息、数据接收方判断的错误原因;3).文件中包括处理过的文件名列表。
全文摘要
本发明涉及一种大量数据同步、传输和入数据库的方法,该方法包括以下步骤设定一个文件传输协议(ftp)服务器作为数据的接收地,对每一个数据来源创建一个特定的帐号;在ftp服务器上创建一目录作为数据交互地;将数据生成到一系列文件;数据接收系统定期检查各数据源对应的目录,核查到有新的数据进入系统后,进行数据的分析和入库工作;数据处理完毕后,数据接收系统生成响应结果文件并存放在相应数据源的目录下;数据源在不停进行新数据上传的同时,定期核查响应文件以决定是否重新上传数据。与现有技术相比,本发明可以极高的提高数据同步的速度和效率,改善了传统的实时数据接口方式的性能瓶颈。
文档编号H04L27/26GK101094026SQ200610027738
公开日2007年12月26日 申请日期2006年6月19日 优先权日2006年6月19日
发明者冯谧 申请人:上海全成通信技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1