一种市场销售分析数据集市系统的制作方法_3

文档序号:8402792阅读:来源:国知局
心竞争力。
[0090]市场销售分析系统中数据清洗的任务是过滤那些不符合要求的数据,同时将过滤的结果交给业务部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。在市场销售分析系统中,不符合要求的数据主要是有不完整的数据、错误的数据和重复的数据三大类。
[0091]不完整的数据是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区域信息缺失、业务系统中主表与明细表不能匹配等,需要将这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全,补全后再写入到数据集市;
[0092]错误的数据的产生的原因主要是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车、日期格式不正确、日期越界,这一类数据也要分类,对于类似于全角字符、数据前后有不面见字符的问题可以通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取;日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务部门进行修正,修正之后再抽取;
[0093]重复的数据问题在维表中比较常见,将重复的数据的记录所有字段导出来,然后让业务部门确认并整理。
[0094]市场销售分析系统中的数据清洗是一个反复的过程,不可能在短期内完成,只有不断的发现问题,解决问题。对于是否过滤、是否修正一般要求业务部门人员进行确认;对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期定期向业务人员发送过滤数据的邮件,促使他们尽快的修正错误,同时也可以作为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉了,对于每个过滤规则认真进行验证,并要业务人员确认后才行。
[0095]在市场销售分析系统中对客户信息的清洗过程,在对业务系统和外部数据中的客户信息进行抽取时,由于数据集市中已经存在客户信息,首先将源数据和数据集市中的数据进行完全匹配,若匹配不成功,则采用模糊匹配的方式,如忽略“,.;:-〃’&/\@!?()〈>[]H |#*~%”这些标点信息等,同时设置相似度,如70%,将模糊匹配的数据同完全匹配的数据进行合并,然后更新数据集市中的客户信息,对于模糊匹配不成功的客户信息,通过分组聚合后插入到客户信息表中去。
[0096]市场销售分析系统中的ETL在执行过程中,由于数据质量、网络原因会造成任务执行失败,这就需要对出错信息进行记录,并将日志信息发送给相关负责人员进行处理,
[0097]日志与警告发送模块中的日志包含有三类:
[0098]第一类是执行过程日志,是在ETL执行过程中每执行一步的记录,记录每次运行每一步骤的起始时间,影响了多少行数据,流水账形式;
[0099]第二类是错误日志,当某个模块出错的时候需要写错误日志,记录每次出错的时间,出错的模块以及出错的信息等;
[0100]第三类日志是总体日志,只记录ETL开始时间,结束时间是否成功信息;
[0101]警告发送在ETL出错后,不仅要写ETL出错日志而且要向系统管理员发送警告,发送警告的方式有多种,常用的就是给系统管理员发送邮件,并附上出错的信息,方便管理员排查错误。
[0102]进一步,所述的数据加载模块中:
[0103]数据准备单元:由于市场销售分析数据集市的数据抽取、清洗、加载需要较长的时间,因此在对数据进行处理时要设置一个作为数据准备区的临时数据库,专门用于数据抽取、清洗和加载的操作,在数据准备区里可以设置数据抽取、清洗和加载的重新启动机制,在数据的抽取、清洗和加载过程中,常常由于系统的原因或其它一些不可预知的因素导致这些活动失败,如果失败以后,重新开始将浪费系统的大量资源,为此,可以设置数据抽取、清洗和加载的监控机制,对这些活动进行动态监控,一旦失败,就可以从失败处重新启动,而不必从头开始,如某一业务数据的抽取、清洗和加载需要8个步骤才能完成,当系统完成了其中的6个步骤,进入第7个步骤后,加载失败,系统在重新启动以后,就可以在第7步重新开始,而不必从头开始,为完成这一机制,需要将数据的抽取、清洗和加载活动明确地分成若干步骤,并在进入某一步骤时,保留当前的状态;
[0104]数据加载方式选择单元:数据加载的方式一般考虑批处理,因为数据的加载活动涉及的系统资源较多,需要数据源和数据集市的处理器、内存和外部存储设备,而大多数数据源会用于业务处理系统,在白天需要为用户提供实时服务,因此数据集市的数据加载往往选择在节假日或夜间进行,这就需要数据加载处理与其它相关的业务处理协调好;
[0105]大批量数据加载单元:市场销售分析数据集市中有的数据源被禁止用于单纯的大容量数据加载,这就需要采用一些特殊的技术来处理大量数据的加载,在大量数据加载过程中还涉及系统资源的使用限制问题,同时需要数据源和数据集市的处理器、网络与内存各方面的支持,而这些宝贵资源在应用中会遇到很大限制,市场销售分析数据集市中大批量数据的加载是通过采用数据复制技术来实现的,数据的复制技术可以保证数据加载过程中的完整性约束,不会受到系统失败等不测因素的影响,并且可以对数据的传送过程进行优化处理。
[0106]数据模型的是设计数据集市、进行数据整合操作的前提。数据模型是对现实事物的反映和抽象,可以更加清晰地反映客观世界。传统的OLTP系统是按照应用来建立它的模型。也就是说,OLTP系统是面向应用的。而数据集市是面向主题的,一般按照主题来建模。主题是一个在较高层次将数据进行归类的标准,每个主题基本对应一个宏观的分析领域,满足该领域决策的需要。本文从整个市场销售分析系统的角度考虑,其数据模型不再面向个别应用,而是面向整个市场销售分析系统的主题,如对分销商、产品、地区、时间、市场销售等主题的抽取是按照分析的要求来确定的。
[0107]市场销售分析数据集市的设计并非一件轻而易举的事情。这需要经历一个从现实环境到抽象模型,从抽象模型到具体实现的过程。要完成这一过程,必须依靠各种不同的数据模型。在从现实到抽象的过程中需要依靠概念模型的支持,要将现实的决策分析环境抽象成一个概念数据模型。然后,将此概念模型逻辑化。最后,再将逻辑模型向数据集市的物理模型转化,一旦完成数据集市的物理模型,就可以说数据集市的具体实现有了可靠的设计方案。
[0108]逻辑建模是市场销售分析数据集市实施过程中的重要一环,因为它能直接反映出市场销售部门的需求,同时对系统的物理实施有着重要的指导作用。通过实体和关系勾勒出真个企业的数据蓝图。在这一步里进行的工作主要有:
[0109]进行分析主题域:在概念模型设计中,我们确定了几个基本的主题域,但是,数据集市的设计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐步完成的;所以,我们必须对概念模型设计步骤中确定的几个基本主题域进行分析,一并选择首先要实施的主题域;选择第一个主题域所要考虑的是它要足够大,以便使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快地实施;如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的子集来进行开发,在每一次的反馈过程中,都要进行主题域的分析,市场销售分析数据集市的最核心的主题是产品在市场上的销售分析;
[0110]粒度层次划分:数据集市逻辑设计中要解决的一个重要问题是决定数据集市的粒度划分层次,粒度层次划分适当与否直接影响到数据集市中的数据量和所适合的查询类型,在数据集市中确定粒度级别时,需要考虑这样一些因素:要接受的分析类型、可接受的数据最低粒度和能存储的数据量,在市场销售分析数据集市中,采用双重数据粒度的方式,对时间较远的销售数据只保留粒度较大的汇总数据,用低粒度数据保存近期的销售数据和汇总数据,这样既可以销售近况进行细节分析,又可以利用汇总数据对销售趋势进行分析;
[0111]确定数据分割策略:在这一步里,要选择适当的数据分割的标准,主要考虑以下几方面因素:数据量(而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等,数据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的;我们还要考虑到所选择的数据分割标准应是自然的、易于实施的:同时也要考虑数据分割的标准与粒度划分层次是适应的;
[0112]关系模式定义包含有市场销售分析数据集市的事实表模型、市场销售分析数据集市的维表模型的设计;
[0113]数据集市的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。在概念模型设计时,就确定了数据集市的基本主题,并对每个主题的公共码键、基本内容等做了描述。在这一步里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。
[0114]对逻辑模型的评估,就是对逻辑模型质量的考察,对模型质量要求不仅仅单纯指单纯的业务规则,还包括模型满足用户分析需求的程度,它是一个包含丰富内涵、具有多维因素的综合性概念。
[0115]在市场销售业务中涉及到几个主要的业务指标(KPI),如销售量、销售额、库存量和库存数量等,它们日积月累,数量庞大。在设计的时候把这些指标作为事实表的度量。销售发生的时间、分销商及销售的是何种商品等因素是分析销售业务的视角,把它们作为维度。在粒度划分上,时间维可以按日计,也可按周、按月、按季度和按年计,按照“最小粒度原则”,把时间维细化到了“日”的层次;对于商品维,由于分析的时候层次需求较为明显,可以分为商品单品、细分类、小分类、中分类和大分类等层次。其他维度都可以按照类似的方法来确定,最后可以得到销售分析数据集市的逻辑模型。
[0116]市场销售分析数据集市的主要采用星形模型的设计模式。它主要由包含市场销售数据的主题表和日期维度表、分销商维度表、产品维度表、地区维度表、会计科目维度表、业务部门维度表等组成。
[0117]市场销售分析数据集市的事实表模型:完成基于商务智能的市场销售分析系统数据集市的星形模型设计后,需用进一步确定在数据集市中,怎样的粒度数据才能满足管理人员对数据集市销售分析的需要,在数据集市的设计中一般首先考虑那些由于业务处理而获取的原子型数据,因为那些原子型数据具有高度维结构化,事实度量值越细微、越具有原子性,就能够确切地反映出更多的事实,因此原子型数据可以为管理分析提供最大限度的灵活性,可以接受各种形式的约束,并能以各种可能的形式展现给用户,随时满足用户的各种查询需要;
[0118]在市场销售分析主题中,最理想的原子数据是来自业务系统的销售事务数据。同时,在构造数据集市模型之前,还需要分析通过哪些角度,即需要通过哪些维来考察、选择销售方案。一般情况下,在确定市场分析策略时,管理人员通过日期、分销商、产品、地区、会计科目、业务部门等六个维对销售方案进行分析,了解销售方案的可用性和效果。
[0119]在基
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1