一种市场销售分析数据集市系统的制作方法_5

文档序号:8402792阅读:来源:国知局
属性进行处理。
[0171]大多数维度表随时间的迁移是缓慢变化的。比如增加了新的产品,或者产品的ID号码修改了,或者产品增加了一个新的属性,此时,维度表就会被修改或者增加新的记录行。这样,在设计维度和使用维度的过程中,就要考虑到缓慢变化维度的处理。
[0172]维度的缓慢变化有3种不同情况,其对应的处理方法也有所不同。
[0173]1、历史数据需要修改
[0174]这种情况主要是发生在业务数据库中的数据出现错误,在分析过程中需要修改。
[0175]处理办法是用直接覆盖法,即使用UPDATE方法来修改维度表中的数据。
[0176]2、新增数据维度成员改变了属性
[0177]若某维度成员新加入了 I列,该列在历史数据中不能基于它浏览,而在当前数据和将来数据中可以按照它浏览。此时的解决方法是增加数据行来记录新成员。可以使用存储过程或程序生成新的维度属性,在后续的数据中将基于新的属性进行查看。
[0178]3、历史数据保留,新增数据也要保留
[0179]在这种需求下的解决方法是创建额外字段来记录这些数据之间的关系,例如将该维度打上时间戳,即将历史数据生效的时间段作为它的一个属性,在与原始匹配生成事实表时将按照时间段进行关联,这种方法其最大的优点在数据更改时,不需要创建额外的数据行,也不需要改变维表中的键值结构,因此可以在现有的数据行中查看所有历史纪录。而最大的缺点是由时间点来判断更新的数据很难查询,如果数据经常变化,则此方法并不适口 O
[0180]处理维度的历史记录是ETL解决方案比较复杂的一个原因。对于销售分析体系统,维度加载情况不仅涉及处理历史属性和更改属性,还涉及维度更改类型以及与维度关联无法同步的事实数据。
[0181]渐变维度处理:
[0182]通过SSIS工具可以基本达到这一效果,在SSIS中有一个向导,它基于源维度架构和目标维度架构,通过一系列步骤使开发人员可以确定更改的特征。然后此向导建立处理该维度所需要的转换。即使要求改变,也可以重新调用该向导,通过允许修改原来的选择以便处理新的过程[18]。
[0183]对于销售分析系统,渐变维度工具很有优势。除了一个星型架构维度表以外,其他所有星型架构维度表都使用渐变维度转换。极大地缩短了维度处理所用的开发时间。为了显示渐变维度向导的工作方式,Store维度提供了该向导最全面的使用方法。Store维度的要求包括:
[0184](I)新建维度成员-新维度成员添加到源中;
[0185](2)更改维度属性-以前的类型I列更改,其中每次源列值更改时历史记录被覆盖;
[0186](3)历史维度属性-以前的类型2列,其中通过添加一个新维度记录将历史记录保存到下一次更改之前,添加的新维度记录与所有新事实数据记录相关联;
[0187](4)推断成员-即在事实数据处理运行之前维度成员尚未加载到维度表中的情况,这样会添加一个占位符记录,一旦完整的源维度可用,该占位符将随后更新。
[0188]唯一维处理:
[0189]唯一维不使用渐变维度转换的维度处理数据包是Item维度。其要求是唯一,其大小需要对可伸缩性进行特殊处理。
[0190]数据集市的事实表更新处理:
[0191]事实数据表处理在很大程度上与维度处理不同。并且,一个事实数据表处理与下一个也有很大不同。但是,大多数事实数据表处理包含事实数据行对比和维度键查询。
[0192]对事实表的提取主要包括两部分:全部源提取,其中无法标识更改的或新的记录;递增提取,其中只提取新的记录和更改的记录。
[0193]全部源提取:
[0194]在源系统上,这些记录包含在表中,该表不标识新的或已修改的记录,因此ETL过程必须比较库存源和事实数据表之间的记录以标识更改发生的时间。然后正确地处理插入或更新。
[0195]采取的方法是对源表和目标表使用全部合并连接和完整数据集。全部连接有助于标识记录添加到源中的时间或完全删除的时间。对于此解决方案,要求指定删除的源记录在事实数据表中需要被跟踪为数据库初始化时的位置-使用配置为全部连接的MergeJoin转换满足此要求。
[0196]递增源提取:
[0197]当提取过程可以在源系统中隔离一组更新和插入时,这可以极大地提高相关ETL过程的性能。如果需要整个数据源(比如说二千万条记录)来处理日常更改,则一天中将没有足够的时间来处理其他任务。但是由于数据可以递增提取,因此处理窗口缩至一个非常易于管理的窗口。
[0198]递增提取过程可以使用缓存查询来帮助确定递增记录是插入的记录还是更新的记录。有助于此过程的是中间的分段过程,它用来在查询中过滤记录,优化处理,从而有助于总体实现。
[0199]市场销售分析数据集市的客户端界面的设计:
[0200]完成数据集市模型的设计后,就面临着如何将数据集市中的数据提供给用户使用的问题。一般情况下,是不允许用户直接进入到数据集市进行数据的浏览和使用的。因此需要将一般用户的数据集市应用功能事先设计好,形成定制的报表和浏览数据传送到客户端提供用户使用。
[0201]用户对数据集市的使用主要集中在主题多维数据集展现、数据挖掘结果的查看浏览、管理决策的预测和数据集市内容的动态查询。
[0202](I)主题多维数据集的展现。多维数据集是用户使用数据集市的主要方式,市场销售分析系统中的用户通过对主题多维数据集的不同维、不同层次的上卷、下钻,可以方便地查看数据集市中的内容。
[0203](2)数据挖掘结果的查看和浏览对数据集市的用户极为重要,许多有价值的管理决策方案往往来自数据挖掘的结果。例如:在产品促销策略分析中,通过对数据挖掘结果的展现,用户可能会发现,某些促销策略的应用会在某些地区、某些时间段、某些商品上发挥极佳的效果;而在其它一些地区、其他一些时间段对其它商品的效果则可能不明显,甚至无效。这将促使管理决策人员对促销策略的制定更加准确和有效。
[0204]管理决策的预测。对管理决策的预测是用户使用数据集市的一项主要内容,市场销售管理人员需要将一些成功的促销策略用于从未用过的产品和从未用过的时间段上。此时市场销售部门的管理决策层就需要对促销策略的使用效果进行预测,以确定是否可以采用这些促销策略。
[0205](4)数据集市内容的动态查询。市场销售部门的管理决策层常常需要紧密观察已经或正在执行的促销策略的效果,以根据促销策略的执行效果决定是否继续执行已经开始的促销策略,是否加强促销策略的执行力度。这种动态查询对于管理决策者来说是日常管理工作的一部分。用户在使用数据集市进行动态查询时需要注意数据集市中数据的刷新时间,如果数据集市中的数据是每天加载刷新一次,那管理决策层大可放心动态查询结果的真实性;如果数据集市中的数据是每周甚至每月才加载刷新一次,那就需要管理决策者注意数据查询数据的及时性对管理决策的影响。
[0206]在确定了客户端界面展现的内容后,就需要分别将每一个展现内容分配到具体的展现界面上,作为展现界面具体设计的依据。同时在设计展现界面时一定要注意为用户提供人性化的展现界面,使用户能够很容易地从展现界面上了解他所需要的数据内容和其相互关系,使他们很容易从这些数据中了解到管理决策的效果和隐藏在这些数据后面的商务动向。
[0207]本系统采用ETL的主要用途包括以下几方面:
[0208]1、合并来自异类数据存储区的数据
[0209]Integrat1n Services包含一些数据源组件,这些组件负责从包含所连接的数据源中的平面文件、Excel电子表格、XML文档和关系数据库中的表及视图提取数据。然后,通常要用Integrat1n Services包含的转换功能对数据进行转换。数据转换为兼容格式后,就可以将其物理合并到一个数据集中。数据在合并成功且应用转换后,通常会被加载到一个或多个目标。Integrat1n Services包含将数据加载到平面文件、原始文件和关系数据库时所用的目标。数据也可以加载到内存中的记录集中,供其他包元素访问。
[0210]2、填充数据仓库和数据集市
[0211]数据仓库和数据集市中的数据通常会频繁更新,因此数据加载量通常会很大。可以用SSIS包加载数据库中的维度表和事实数据表。如果维度表的源数据存储在多个数据源中,包可以将该数据合并到一个数据集中,并在单个进程中加载维度表,而不是为每个数据源使用单独的进程。Integrat1n Services还可以在数据加载到其目标之前计算函数。
[0212]3、清除数据和将数据标准化
[0213]无论数据是加载到联机事务处理(OLTP)、联机分析处理(OLAP)数据库、Excel电子表格还是加载到文件,都需要在加载前将数据进行清理和标准化。
[0214]Integrat1n Services包含一些内置转换,可将其添加到包中以清理数据和将数据标准化、更改数据的大小写、将数据转换为不同类型或格式或者根据表达式创建新列值。例如,包可将姓列和名列连接成单个全名列,然后将字符更改为大写。
[0215]Integrat1n Services包还可以使用精确查找或模糊查找来找到引用表中的值,通过将列中的值替换为引用表中的值来清理数据。通常,包首先使用精确查找,如果该查找方式失败,再使用模糊查找。例如,包首先尝试通过使用产品的主键值来查找引用表中的产品名。如果此搜索无法找到产品名,包再尝试使用产品名模糊匹配方式进行搜索。
[0216]4、将商业智能置入数据转换过程
[0217]数据转换过程需要内置逻辑来动态响应其访问和处理的数据。
[0218]可能需要根据数据值对数据进行汇总、转换和分发。根据对列值的评估,该过程甚至可能需要拒绝数据。
[0219]Integrat1n Services提供了用于将商业智能置入SSIS包的容器、任务和转换。还可以将一个数据集发送到多个目标,然后对此相同数据应用不同的转换集。例如,一组转换可以汇总此数据,而另一组转换通过查找引用表中的值并添加其他源的数据来扩展此数据。
[0220]5、使管理功能和数据加载自动化
[0221]管理员经常希望将管理功能自动化,例如备份和还原数据库、复制SQLServer数据库及其包含的对象、复制SQL Server对象和加载数据。Integrat1n Services包可以执行这些功能。
[0222]以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。
【主权项】
1.一种市场销售分析数据集市系统,其特征在于: 该系统模块包括:数
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1