数据处理方法及装置与流程

文档序号:15982397发布日期:2018-11-17 00:29阅读:169来源:国知局

本发明涉及数据处理技术领域,具体而言,涉及一种数据处理方法及装置。

背景技术

随着公司业务和产品的发展,用户、交易、资金等各方面数据增长迅速,如何高效地实现数据的分析处理,做到在数据支撑下的精细化运营和数字化营销,是公司需要解决的首要问题。

目前,大多数公司的业务数据使用流程是,业务部门向数据部门提出数据需求,数据部门通过邮件发送excel表格数据,业务部门自行处理。这样的方式低效、分散,无法做到数据统一管理。



技术实现要素:

有鉴于此,本发明实施例的目的在于提供一种数据处理方法及装置,以改善上述问题。

本发明是这样实现的:

第一方面,本发明实施例提供了一种数据处理方法,应用于与第二服务器通信连接的第一服务器,包括:

对所述第二服务器的数据库中的数据进行增量抽取;

当增量抽取失败时,以上一次增量抽取成功的时间为依据对所述数据库中的数据再次进行增量抽取;

将增量抽取的数据注入所述第一服务器的数据仓库;

对注入所述数据仓库的数据进行运算分析,得到分析结果。

可选地,所述对所述第二服务器的数据库中的数据进行增量抽取,包括:

依据历史抽取记录或用户终端上传的时间参数对所述数据库中的数据进行增量抽取。

可选地,所述对所述第二服务器的数据库中的数据进行增量抽取,包括:

调用多进程对所述数据库中的数据进行增量抽取。

可选地,所述方法还包括:

对所述增量抽取的流程进行shell封装。

可选地,所述方法还包括:

依据所述增量抽取的结果生成抽取日志,并将所述抽取日志发送给用户终端。

第二方面,本发明实施例提供了一种数据处理装置,应用于与第二服务器通信连接的第一服务器,数据处理装置包括:

抽取模块,用于对所述第二服务器的数据库中的数据进行增量抽取;

判断模块,用于判断增量抽取是否成功;

所述抽取模块还用于当增量抽取失败时,以上一次增量抽取成功的时间为依据对所述数据库中的数据再次进行增量抽取;

注入模块,用于将增量抽取的数据注入所述第一服务器的数据仓库;

运算分析模块,用于对注入所述数据仓库的数据进行运算分析,得到分析结果。

可选地,所述抽取模块用于依据历史抽取记录或用户终端上传的时间参数对所述数据库中的数据进行增量抽取。

可选地,所述抽取模块用于调用多进程对所述数据库中的数据进行增量抽取。

可选地,数据处理装置还包括:

封装模块,用于对所述增量抽取的流程进行shell封装。

可选地,数据处理装置还包括:

生成模块,用于依据所述增量抽取的结果生成抽取日志;

发送模块,用于将所述抽取日志发送给用户终端。

对于现有技术,本发明提供的数据处理方法及装置具有如下的有益效果:

本发明提供的数据处理方法及装置能够对公司的业务数据高效地进行分析处理,为实现精细化运营和精准营销提供了基础。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明较佳实施例提供的第一服务器与第二服务器以及用户终端进行交互的示意图。

图2为本发明较佳实施例提供的第一服务器的方框示意图。

图3为本发明较佳实施例提供的数据处理方法的流程图。

图4为本发明较佳实施例提供的数据处理装置的功能模块示意图。

100-第一服务器;110-数据处理装置;111-抽取模块;112-判断模块;113-注入模块;114-运算分析模块;115-封装模块;116-生成模块;117-发送模块;130-存储器;150-处理器;170-通信单元;200-第二服务器;300-用户终端;400-网络。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

如图1所示,是本发明较佳实施例提供的第一服务器100与第二服务器200以及用户终端300进行交互的示意图,所述第一服务器100通过网络400分别与第二服务器200以及用户终端300进行通信连接,以进行数据通信或交互。所述第一服务器100、所述第二服务器200可以是网络服务器、数据库服务器等,所述用户终端300可以是个人电脑(personalcomputer,pc)、平板电脑等,所述网络400可以是有线或无线网络。

如图2所示,是所述第一服务器100的方框示意图。所述第一服务器100包括数据处理装置110、存储器130、处理器150和通信单元170,各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。数据处理装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器130中的软件功能模块。所述处理器150用于执行所述存储器130中存储的可执行模块,例如数据处理装置110所包括的软件功能模块及计算机程序等。

其中,所述存储器130可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,存储器130用于存储程序,所述处理器150在接收到执行指令后,执行所述程序。所述通信单元170用于通过所述网络400建立所述第一服务器100与所述第二服务器200以及所述用户终端300之间的通信连接。

请参阅图3,是本发明较佳实施例提供的应用于图2所示的数据处理装置110的数据处理方法的流程图。下面将对图3所示的具体流程进行详细阐述。

步骤s101,对第二服务器的数据库中的数据进行增量抽取。

本发明实施例提供的数据处理方法应用于第一服务器100,用于对第二服务器200的数据库中的数据进行分析处理,所述第一服务器100分别与第二服务器200和用户终端300通信连接以进行数据交互。所述第二服务器200可以是需要进行数据分析处理的公司的服务器,数据库中的数据可以是指第二服务器200所对应公司的业务数据,所述用户终端300可以是用于对第一服务器100进行管控的后台管理终端。

在对第二服务器100中的数据进行分析处理的过程中,第一服务器100首先对第二服务器200的数据库中的数据进行增量抽取。对数据库中的数据进行增量抽取是指,对数据库中新增加的数据进行抽取。

具体的,第一服务器100调用多个进程对第二服务器200的数据库中的数据进行增量抽取,进程的数量可根据用户终端300进行预先设定,也可以是根据第一服务器100当前的负载进行调节。例如,当第一服务器100当前的负载较高时,进程的数量可适当减少,当第一服务器100当前的负载较低时,可以以最大进程数量进行增量抽取。如此,能够兼顾效率和第一服务器100的性能,确保数据抽取的能效。

进行增量抽取的依据可以是历史抽取记录或者用户终端300上传的时间参数,本发明实施例中不做具体限定。例如,可通过调用以往的数据抽取时间(每次进行数据抽取时,第一服务器100会记录数据抽取的时间),根据抽取的时间间隔确定是否需要抽取(例如,以往的历史记录是每隔24小时抽取一次,当前时间距离上一次抽取刚好24小时间隔时,则开始进行数据的增量抽取)。又例如,依据用户终端300上传的抽取的具体时间(时间参数)进行增量抽取。

进一步的,本发明实施例中,在对数据库中的数据进行增量抽取时,第一服务器100还可对增量抽取的流程进行shell封装。通过shell封装能够对数据进行压缩,减少数据量,提升数据传输效率。

本发明实施例中,对数据进行增量抽取可通过开源软件kettle实现。

步骤s102,判断增量抽取是否成功,如果是,执行步骤s104;如果否,执行步骤s103。

对第二服务器200的数据库中的数据进行增量抽取后,第一服务器100根据第二服务器200的数据库中新增的数据量(上一次增量抽取至本次增量抽取之间数据库中新增的数据量)和本次增量抽取的数据量进行比对,判断两者是否一致,如果一致则说明增量抽取成功,执行步骤s104。如果不一致则说明增量抽取失败,执行步骤s103以重新进行增量抽取。

步骤s103,以上一次增量抽取成功的时间为依据对数据库中的数据再次进行增量抽取。

当本次增量抽取失败时,第一服务器100以上一次增量抽取的时间为依据,对第二服务器200的数据库中在上一次增量抽取后新增的数据再次进行增量抽取,直到增量抽取成功。

步骤s104,依据所述增量抽取的结果生成抽取日志,并将抽取日志发送给用户终端。

在对第二服务器200的数据库中数据进行增量抽取的过程中,第一服务器100还会根据增量抽取的结果生成抽取日志,并将抽取日志发送给用户终端300以便在用户终端300的页面进行显示,以监控整个抽取流程。

步骤s105,将增量抽取的数据注入第一服务器的数据仓库。

当对第二服务器200的数据库中数据增量抽取成功后,第一服务器100将增量抽取的数据注入到其数据仓库中以便进行后续的分析处理。

进一步的,本发明实施例中,第一服务器100还可以将抽取的数据存入到备份数据库中以便实现数据备份。

步骤s106,对注入所述数据仓库的数据进行运算分析,得到分析结果。

第一服务器100将增量抽取的数据注入到数据仓库中后,根据预先建立的分析模型对注入到数据仓库中的数据进行处理并在对数据处理后进行分析,得到分析结果。

进一步的,在得到分析结果后可将分析结果发送给用户终端300或第二服务器200,以便对分析结果进行可视化展现,为实现精细化运营和精准营销提供了基础。

本发明实施例中,所述分析结果可以包括元数据、业务报表、业务分析、风险预警以及用户卡片等。

元数据是最小单元数据,是未经计算的数据明细,是其他专题分析的基础,该数据的权限可设置为不对外开放,仅供特定人员(如用户终端300端的后台管理人员)查询使用。

业务报表可以是元数据的统计和可视化展现。根据分公司(部门)提出的需求,数据部门进行报表设计及可视化展现,用于支撑各分公司(部门)业务分析和监控。

业务分析可以是综合性的图表和模型,主要供业务管理者和公司领导制定战略规划、市场策略和内控管理等。例如,业务分析可以包括5个方面:产品生命周期分析、用户生命周期分析、活动运营分析、推广渠道分析、用户投资行为分析。产品生命周期分析可以用于监控产品测试、发布初期、成熟期、衰退期等全过程的用户和资金的数据情况,用于产品和运营及时监控和调整产品策略和活动策略。用户生命周期分析可以用于分析用户注册、充值、投资、提现、参与活动等方面的数据分析,便于了解用户的活跃度、价值以及用户流失预警、做出沉默用户的唤醒等。活动运营分析可以用于运营部门评估活动效果,统计活动的投资回报率,活动拉新数据、活动净充值数据等。推广渠道分析可以用于衡量渠道的用户转化价值,通过分析渠道的资金投入、转化用户数、用户投资金额等数据,来选择合适的投放渠道以及投放方案。用户投资行为分析可以用于分析用户的投资偏好、用户投资行为的影响因素评估,为产品调整以及活动方案制定做数据支撑。

风险预警可以是通过数据模型的构建,为业务运营及部门管理人员提供各类风险预警,例如资金的流动性风险管理、用户提现风险、操作风险等等。

用户卡片功能可以是给每一位用户建立了一份数据档案,标明了用户的身份特征、投资偏好、行为数据、价值属性等等,为用户画像、活动运营、用户管理提供了一个详尽的数据库,是用户精细化运营以及精准营销的基础。

综上所述,本发明实施例提供的数据处理方法通过对第二服务器的数据库中的数据进行增量抽取,并当增量抽取失败时,以上一次增量抽取成功的时间为依据对数据库中的数据再次进行增量抽取,直到抽取成功,然后将增量抽取的数据注入第一服务器的数据仓库,并对注入数据仓库的数据进行运算分析,得到分析结果。如此,能够对公司的业务数据高效地进行分析处理,为实现精细化运营和精准营销提供了基础。同时,能够调用多个进程对数据库中的数据进行增量抽取,兼顾效率和第一服务器100的性能,确保数据抽取的能效。其次,对抽取流程进行shell封装能够对数据进行压缩,减少数据量,提升数据传输效率。另外,能够根据抽取结果生成抽取日志,并将抽取日志发送给用户终端300以便在用户终端300的页面进行显示,以监控整个抽取流程。最后,还可以将抽取的数据存入到备份数据库中以便实现数据备份。

请参阅图4,是本发明较佳实施例提供的图2所示的数据处理装置110的功能模块示意图。所述数据处理装置110包括抽取模块111、判断模块112、注入模块113、运算分析模块114、封装模块115、生成模块116和发送模块117。

所述抽取模块111对第二服务器的数据库中的数据进行增量抽取。

可以理解的,所述抽取模块111可以用于执行上述的步骤s101。

判断模块112用于判断增量抽取是否成功。

可以理解的,所述判断模块112可以用于执行上述的步骤s102。

所述抽取模块111还用于当增量抽取失败时,以上一次增量抽取成功的时间为依据对所述数据库中的数据再次进行增量抽取。

可以理解的,所述抽取模块111还可以用于执行上述的步骤s103。

所述封装模块115用于对所述增量抽取的流程进行shell封装。

所述生成模块116用于依据增量抽取的结果生成抽取日志。

可以理解的,所述生成模块116可以用于执行上述步骤s104中依据所述增量抽取的结果生成抽取日志这一流程。

所述发送模块117用于将抽取日志发送给用户终端。

可以理解的,所述发送模块117可以用于执行上述步骤s104中将抽取日志发送给用户终端这一流程。

所述注入模块113用于将增量抽取的数据注入第一服务器100的数据仓库.

可以理解的,所述注入模块113可以用于执行上述的步骤s105。

所述运算分析模块114用于对注入数据仓库的数据进行运算分析,得到分析结果。

可以理解的,所述运算分析模块114可以用于执行上述的步骤s106。

综上所述,本发明实施例提供的数据处理装置110能够对第二服务器的数据库中的数据进行增量抽取,并当增量抽取失败时,以上一次增量抽取成功的时间为依据对数据库中的数据再次进行增量抽取,直到抽取成功,然后将增量抽取的数据注入第一服务器的数据仓库,并对注入数据仓库的数据进行运算分析,得到分析结果。如此,能够对公司的业务数据高效地进行分析处理,为实现精细化运营和精准营销提供了基础。同时,能够调用多个进程对数据库中的数据进行增量抽取,兼顾效率和第一服务器100的性能,确保数据抽取的能效。其次,对抽取流程进行shell封装能够对数据进行压缩,减少数据量,提升数据传输效率。另外,能够根据抽取结果生成抽取日志,并将抽取日志发送给用户终端300以便在用户终端300的页面进行显示,以监控整个抽取流程。最后,还可以将抽取的数据存入到备份数据库中以便实现数据备份。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1