一种市场销售分析数据集市系统的制作方法_2

文档序号:8402792阅读:来源:国知局
监控机制,对这些活动进行动态监控,一旦失败,就可以从失败处重新启动,而不必从头开始,如某一业务数据的抽取、清洗和加载需要8个步骤才能完成,当系统完成了其中的6个步骤,进入第7个步骤后,加载失败,系统在重新启动以后,就可以在第7步重新开始,而不必从头开始,为完成这一机制,需要将数据的抽取、清洗和加载活动明确地分成若干步骤,并在进入某一步骤时,保留当前的状态;
[0050]数据加载方式选择单元:数据加载的方式一般考虑批处理,因为数据的加载活动涉及的系统资源较多,需要数据源和数据集市的处理器、内存和外部存储设备,而大多数数据源会用于业务处理系统,在白天需要为用户提供实时服务,因此数据集市的数据加载往往选择在节假日或夜间进行,这就需要数据加载处理与其它相关的业务处理协调好;
[0051]大批量数据加载单元:市场销售分析数据集市中有的数据源被禁止用于单纯的大容量数据加载,这就需要采用一些特殊的技术来处理大量数据的加载,在大量数据加载过程中还涉及系统资源的使用限制问题,同时需要数据源和数据集市的处理器、网络与内存各方面的支持,而这些宝贵资源在应用中会遇到很大限制,市场销售分析数据集市中大批量数据的加载是通过采用数据复制技术来实现的,数据的复制技术可以保证数据加载过程中的完整性约束,不会受到系统失败等不测因素的影响,并且可以对数据的传送过程进行优化处理。
[0052]进一步,所述的数据逻辑模:
[0053]进行分析主题域:在概念模型设计中,我们确定了几个基本的主题域,但是,数据集市的设计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐步完成的;所以,我们必须对概念模型设计步骤中确定的几个基本主题域进行分析,一并选择首先要实施的主题域;选择第一个主题域所要考虑的是它要足够大,以便使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快地实施;如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的子集来进行开发,在每一次的反馈过程中,都要进行主题域的分析,市场销售分析数据集市的最核心的主题是产品在市场上的销售分析;
[0054]粒度层次划分:数据集市逻辑设计中要解决的一个重要问题是决定数据集市的粒度划分层次,粒度层次划分适当与否直接影响到数据集市中的数据量和所适合的查询类型,在数据集市中确定粒度级别时,需要考虑这样一些因素:要接受的分析类型、可接受的数据最低粒度和能存储的数据量,在市场销售分析数据集市中,采用双重数据粒度的方式,对时间较远的销售数据只保留粒度较大的汇总数据,用低粒度数据保存近期的销售数据和汇总数据,这样既可以销售近况进行细节分析,又可以利用汇总数据对销售趋势进行分析;
[0055]确定数据分割策略:在这一步里,要选择适当的数据分割的标准,主要考虑以下几方面因素:数据量(而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等,数据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的;我们还要考虑到所选择的数据分割标准应是自然的、易于实施的:同时也要考虑数据分割的标准与粒度划分层次是适应的;
[0056]关系模式定义包含有市场销售分析数据集市的事实表模型、市场销售分析数据集市的维表模型的设计;
[0057]市场销售分析数据集市的事实表模型:完成基于商务智能的市场销售分析系统数据集市的星形模型设计后,需用进一步确定在数据集市中,怎样的粒度数据才能满足管理人员对数据集市销售分析的需要,在数据集市的设计中一般首先考虑那些由于业务处理而获取的原子型数据,因为那些原子型数据具有高度维结构化,事实度量值越细微、越具有原子性,就能够确切地反映出更多的事实,因此原子型数据可以为管理分析提供最大限度的灵活性,可以接受各种形式的约束,并能以各种可能的形式展现给用户,随时满足用户的各种查询需要;
[0058]市场销售分析数据集市的维表模型的设计内包括有日期维、产品维、分销商维、地区维、会计科目维、业务部门维。
[0059]本发明的优点在于,本发明首先分析设计销售数据集市的必要性,然后通过对数据集成方法的讨论,分析ETL数据处理,包括噪声数据处理、数据的一致性和数据质量等问题,并通过数据迁移工具实现对各种数据源进行重新组织和加工。在此基础上,在概念模型根据主题分析需要,确定数据集市的多维模型。其中在逻辑模型中确定以企业的产品销售分析为主题,以客户、产品、时间和地区等作为数据集市的维度,采用星型和雪花型数据模型相结合,讨论各个维度的粒度划分层次和数据分割策略。而在数据集市的物理模型中则是依据逻辑模型建立的物理表结构实现。最后,展望数据集市在市场销售分析中的应用前旦
-5^ O
【附图说明】
[0060]下面结合附图和【具体实施方式】来详细说明本发明:
[0061]图1是本发明提出架构示意图;
【具体实施方式】
[0062]为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合图示与具体实施例,进一步阐述本发明。
[0063]参见图1,本发明提出的一种市场销售分析数据集市系统:
[0064]该系统模块包括:数据接入层、数据抽取模块、数据转化模块、数据清洗模块、日志与警告发送模块、数据加载模块;
[0065]数据接入层的数据包括有办公数据、外部数据、业务数据;
[0066]数据抽取模块包含有存放DW的数据库系统相同的数据源处理、Dff数据库系统不同的数据源、增量更新;
[0067]数据转换模块中对数据进行不一致数据转换、数据粒度的转换、商务规则的计算;
[0068]数据清洗模块包含有三大类:不完整的数据、错误的数据、重复的数据;
[0069]日志与警告发送模块记录系统运行时的日志及向系统管理员发送警告;
[0070]数据加载模块包含有数据准备单元、数据加载方式选择单元、大批量数据加载单元;
[0071]该系统的模型包括数据逻辑模型和数据物理模型;
[0072]数据逻辑模型进行分析主题域、粒度层次划分、确定数据分割策略、关系模式定义;
[0073]数据物理模型包含有存储结构单元、索引策略单元、存储策略单元。
[0074]进一步,所述的数据接入层的数据包括有办公数据主要是指市场销售部门的办公系统数据,这些数据分电子数据和非电子数据两种,以电子数据方式保存的数据,主要指电子表格、数据库和文字处理文档等形式保存的数据,非电子数据主要指那些文件、通知等公文,从数据的结构形式看,办公数据有的是以二维表格形式表示的结构化数据,有的是以文字文档处理文件表示的结构化数据,因此办公数据源的数据结构是十分复杂的,这就给数据集市的数据抽取、加载增加了很大的难度,有时甚至需要人工处理以后,才能加载到数据集市中;
[0075]外部数据指那些不为市场销售部门所操作、所拥有、所控制的数据,这些数据有的电子形式的,如第三方信息服务商以Web Service方式XML数据,有是非电子形式的,如分销商提供的有关报告文档等,这些数据源的使用难度与处理方式与办公数据大致相同;
[0076]业务数据是指从目前正在运行的业务处理系统那里收集到,并保存到业务处理系统数据库的数据,对业务数据,需要分析哪些数据应该加载到数据集市中。
[0077]市场销售中的数据经过抽取、清理、转换后,进行基本分析,并将数据加载到数据准备区域中,同进也抽取来自其它系统的数据,一并将它们加载到数据准备区域中。数据一到准备区域,市场销售数据必须经过许多程序的处理,而且还需要根据用户需求,进一步过滤不需要的数据,有时过滤任务也会在数据加载到数据准备区域时执行。在所有的数据处理成可用形式后,再组装到维表的数据。
[0078]ETL系统中还包括对数据的后加载处理,后加载处理包括备份超过数据集市时间窗口的旧数据,建立聚合表和对数据库重新编排索引,同时确认最近加载数据的有效性。
[0079]进一步,所述的数据抽取模块包含有存放DW的数据库系统相同的数据源处理中这类数源在设计比较容易,DBMS(包括SQL Server, Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问;
[0080]DW数据库系统不同的数据源这类数据源一般情况下也可以通过ODBC的方式建立数据库链接,如Oracle和SQL Server之间,如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统文件导入到ODS中,另外一种方法通过程序接口来完成;
[0081]对于文件类型数据源(.txt,,xls),可以借助SQL SERVER2005的SSIS服务的平面数据源和平面目标等组件导入ODS中去。
[0082]销售分析系统中的数据源有很大一部分来自于业务人员提供的Excel文件,在日常工作中,业务人员需要对某些数据进行调整后才能显示正确的报表内容,这就需要把这些数据导入数据集市系统中来。
[0083]通过SSIS工具的XML Source控件可以很容易的实示对XML文件中数据读取操作。在源数据工具集中选择XML数据源组件,然后指定XML文件所对应的位置,通过设置筛选条件、聚合相应的数据项等方法为目标数据库提供规范有效的数据。
[0084]增量更新中对于数据量大的系统,必须考虑增量抽取,一般情况,市场销售业务系统会记录业务发生的时间,可以用作增量的标志,每次抽取之前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统数据库中取大于这个时间的所有记录。
[0085]进一步,所述的数据转换模块:不一致数据转换在市场销售分析系统中,来自不同数据源的数据存在数据内容不一致的情况,这就需要创建一个整合的过程,将不同业务系统的相同类型的数据统一;
[0086]数据粒度的转换在业务系统一般存储非常明细的数据,而数据集市中的数据是用来分析的,不需要非常明细的数据,一般情况下,会将业务系统数据按照数据集市粒度进行聚合;
[0087]市场销售业务系统中储存了分销商产品米购的详细信息,有时候一笔定单中会根据产品类别分成多条数据进行记录,如果把这些数据全部抽取到当前数据集市中,会给数据集市带来很多冗余数据,同时会给数据集市的性能带来严重的影响。因此需要对业务系统中的以天为单位进行转换、聚合后,然后存储到数据集市中去。
[0088]商务规则的计算在市场销售分析系统中存在着不同的业务规则,不同的数据指标,这些指标有的时候不是简单的加减就能完成,这个时候需要在ETL过程中将这些数据指标计算好了之后存储在数据集市中,供分析使用。
[0089]如市场销售部门的管理人员比较关注于销售量达到一定数量分销商的经营状况,会采取相应的激励措施来继续进行合作,以避免分销商被竞争对手夺走,从而保证产品在市场中的核
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1