一种市场销售分析数据集市系统的制作方法

文档序号:8402792阅读:583来源:国知局
一种市场销售分析数据集市系统的制作方法
【技术领域】
[0001]本发明涉及业务数据分析系统,尤其涉及一种方便把业务数据迅速转化成为对市场不断优化,提升对市场变化的响应能力的销售分析数据集市系统。
【背景技术】
[0002]目前,对企业中如何把业务数据迅速转化成为对市场、对运营状况的认知,从而辅助企业决策,不断优化决策管理流程,提升对市场变化的响应能力,已经成为销售部门迫切需要解决的问题。因此需要利用数据集市建立完善的部门级数据平台,整合现有的系统数据和外部数据,及时有效地反映市场销售的情况,为决策分析支持提供依据。
[0003]但是,市场销售分析系统中主要存在以下几方面的问题:
[0004]1、数据分散,数据交换过于复杂
[0005]目前在线运行的子系统有多个,其中大部分子系统软硬件配置各不相同,普遍存在用于存放各自的管理数据和历史数据的本地数据库;并且源数据在各内部系统间的交换过于复杂,期间还夹杂着和外部数据源进行的数据交换。
[0006]由于缺乏统一的数据交换平台,数据零散缺乏系统管理,形成了错综复杂的数据交换链,一旦链条中某个环节出现问题,会导致部分系统受到影响,数据及时查询也会随之失效。此外数据在各系统间信息不能完全共享,使用中数据也未能实现闭环利用,造成各数据库之间存在大量冗余数据,数据的一致性差,数据量庞大而无序,严重影响了业务的协同开展,对销售分析决策的准确性和时效性作用都十分有限。
[0007]为了在新的竞争条件下取得成功,业务部门必须在很大程度上依靠有关销售信息和市场竞争信息的因素的统一并且及时的信息,例如:客户采购、定单、产品信息、竞争程度及营销效果等等。然而,仅仅拥有这些信息还不够,业务部门还要把恰当的信息交付到公司内部有关人员的手中。
[0008]2、报表是静态的,查询性能差异大
[0009]用户无法通过交互方式探测报表中的数据以获取更详细的信息,例如他们可以处理Microsoft Office Excel透视表。虽然现有的一组预定义报表足以供许多用户使用,但更高级的用户却需要对数据库进行直接查询访问,以进行交互式查询和访问专用报表。但是,由于当前的数据库系统非常复杂,因此,这类用户需要花费大量时间来掌握如何创建有效查询。
[0010]用户在对数据库进行操作时,由于所涉及的业务数据量不一样,就会导致有些查询只需几秒钟便可非常迅速地返回结果,而另一些查询需要几分钟才能返回结果。
[0011]3、聚合表难以管理、信息难以审核
[0012]在尝试缩短查询响应时间方面,技术人员已在数据库中生成几种聚合表。例如,他们生成了一种按月汇总销售额的表。然而,尽管这些聚合表可显著提高查询性能,但是,他们所生成的用于在一段时间内维护这些表的基础结构却容易破坏并出现错误。
[0013]业务部门主要把当前数据库当作进行大容量查询的数据源。然后,再将数据下载到单个电子表格中,并花费大量时间准备数据和处理电子表格。因此,很难在整个部门内准备、审核和管理部门的销售报表。
[0014]同时,业务用户很难构造一些专用查询,以组合两个相关的信息集(如销售额和销售配额)。此类查询会占用大量的数据库空间。此外,由于这些报表非常复杂,因此用户不愿尝试修改这些报表。
[0015]4、综合分析能较弱
[0016]目前在现有的系统中,已经基本实现了统计查询的系统功能。使用统计查询系统,可为日常管理业务提供分析报表,以及一定程度的查询功能。但目前的统计分析系统是基于联机事务处理系统(OLTP)来设计,主要反映当前低层次的小业务量的需求,这种设计方式无法为数据的合成、分析和综合提供强大的功能支持,无法动态反映多个层面,多粒度的信息;但是,随着销售分析管理要求的提高,对统计和查询的需求也不断提高和发展。尤其是,更高层次的、带有分析性质的综合查询统计需求不断被提出来。另一方面,对市场销售的发展调整需要进行科学的预测分析。这些需求,以目前的系统架构,是无法满足上述要求的。所以,建立合适数据架构平台、提高销售管理综合分析能力,是当前销售管理中十分紧迫的任务。
[0017]综上所述,针对现有技术中存在的缺陷,特别需要一种市场销售分析数据集市系统,以解决现有技术的不足。

【发明内容】

[0018]本发明的目的是提供一种市场销售分析数据集市系统,通过分析设计销售数据集市的必要性,然后通过对数据集成方法的讨论,分析ETL数据处理,包括噪声数据处理、数据的一致性和数据质量等问题,并通过数据迁移工具实现对各种数据源进行重新组织和加工,以解决现有技术的不足。
[0019]本发明为解决其技术问题所采用的技术方案是,
[0020]一种市场销售分析数据集市系统:
[0021]该系统模块包括:数据接入层、数据抽取模块、数据转化模块、数据清洗模块、日志与警告发送模块、数据加载模块;
[0022]数据接入层的数据包括有办公数据、外部数据、业务数据;
[0023]数据抽取模块包含有存放DW的数据库系统相同的数据源处理、Dff数据库系统不同的数据源、增量更新;
[0024]数据转换模块中对数据进行不一致数据转换、数据粒度的转换、商务规则的计算;
[0025]数据清洗模块包含有三大类:不完整的数据、错误的数据、重复的数据;
[0026]日志与警告发送模块记录系统运行时的日志及向系统管理员发送警告;
[0027]数据加载模块包含有数据准备单元、数据加载方式选择单元、大批量数据加载单元;
[0028]该系统的模型包括数据逻辑模型和数据物理模型;
[0029]数据逻辑模型进行分析主题域、粒度层次划分、确定数据分割策略、关系模式定义;
[0030]数据物理模型包含有存储结构单元、索引策略单元、存储策略单元。
[0031]进一步,所述的数据接入层的数据包括有办公数据主要是指市场销售部门的办公系统数据,这些数据分电子数据和非电子数据两种,以电子数据方式保存的数据,主要指电子表格、数据库和文字处理文档等形式保存的数据,非电子数据主要指那些文件、通知等公文,从数据的结构形式看,办公数据有的是以二维表格形式表示的结构化数据,有的是以文字文档处理文件表示的结构化数据,因此办公数据源的数据结构是十分复杂的,这就给数据集市的数据抽取、加载增加了很大的难度,有时甚至需要人工处理以后,才能加载到数据集市中;
[0032]外部数据指那些不为市场销售部门所操作、所拥有、所控制的数据,这些数据有的电子形式的,如第三方信息服务商以Web Service方式XML数据,有是非电子形式的,如分销商提供的有关报告文档等,这些数据源的使用难度与处理方式与办公数据大致相同;
[0033]业务数据是指从目前正在运行的业务处理系统那里收集到,并保存到业务处理系统数据库的数据,对业务数据,需要分析哪些数据应该加载到数据集市中。
[0034]进一步,所述的数据抽取模块包含有存放DW的数据库系统相同的数据源处理中这类数源在设计比较容易,DBMS(包括SQL Server, Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问;
[0035]DW数据库系统不同的数据源这类数据源一般情况下也可以通过ODBC的方式建立数据库链接,如Oracle和SQL Server之间,如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统文件导入到ODS中,另外一种方法通过程序接口来完成;
[0036]增量更新中对于数据量大的系统,必须考虑增量抽取,一般情况,市场销售业务系统会记录业务发生的时间,可以用作增量的标志,每次抽取之前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统数据库中取大于这个时间的所有记录。
[0037]进一步,所述的数据转换模块:不一致数据转换在市场销售分析系统中,来自不同数据源的数据存在数据内容不一致的情况,这就需要创建一个整合的过程,将不同业务系统的相同类型的数据统一;
[0038]数据粒度的转换在业务系统一般存储非常明细的数据,而数据集市中的数据是用来分析的,不需要非常明细的数据,一般情况下,会将业务系统数据按照数据集市粒度进行聚合;
[0039]商务规则的计算在市场销售分析系统中存在着不同的业务规则,不同的数据指标,这些指标有的时候不是简单的加减就能完成,这个时候需要在ETL过程中将这些数据指标计算好了之后存储在数据集市中,供分析使用。
[0040]进一步,所述的数据清洗模块中的不完整的数据是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区域信息缺失、业务系统中主表与明细表不能匹配等,需要将这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全,补全后再写入到数据集市;
[0041]错误的数据的产生的原因主要是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车、日期格式不正确、日期越界,这一类数据也要分类,对于类似于全角字符、数据前后有不面见字符的问题可以通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取;日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务部门进行修正,修正之后再抽取;
[0042]重复的数据问题在维表中比较常见,将重复的数据的记录所有字段导出来,然后让业务部门确认并整理。
[0043]进一步,所述的日志与警告发送模块中的日志包含有三类:
[0044]第一类是执行过程日志,是在ETL执行过程中每执行一步的记录,记录每次运行每一步骤的起始时间,影响了多少行数据,流水账形式;
[0045]第二类是错误日志,当某个模块出错的时候需要写错误日志,记录每次出错的时间,出错的模块以及出错的信息等;
[0046]第三类日志是总体日志,只记录ETL开始时间,结束时间是否成功信息;
[0047]警告发送在ETL出错后,不仅要写ETL出错日志而且要向系统管理员发送警告,发送警告的方式有多种,常用的就是给系统管理员发送邮件,并附上出错的信息,方便管理员排查错误。
[0048]进一步,所述的数据加载模块中:
[0049]数据准备单元:由于市场销售分析数据集市的数据抽取、清洗、加载需要较长的时间,因此在对数据进行处理时要设置一个作为数据准备区的临时数据库,专门用于数据抽取、清洗和加载的操作,在数据准备区里可以设置数据抽取、清洗和加载的重新启动机制,在数据的抽取、清洗和加载过程中,常常由于系统的原因或其它一些不可预知的因素导致这些活动失败,如果失败以后,重新开始将浪费系统的大量资源,为此,可以设置数据抽取、清洗和加载的
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1