分布式互联网交易信息存储处理方法_2

文档序号:9217253阅读:来源:国知局
构如图2所示。
[0021]在本发明提供的一种分布式互联网交易信息存储处理方法的实施例中,如图2和图4所示,包括:
操作数据存储功能模块从外部数据层抽取结构化的交易信息数据;
分布式数据仓库和非关系型数据库分别从分布式文件系统中读取非结构化的网络日志数据;
互联网交易信息数据仓库从所述操作数据存储功能模块和所述分布式数据仓库中分别抽取转换加载所述交易信息数据和网络日志数据后进行整合为数据元组,并以星型模型存储该数据元组;
数据集市根从所述互联网交易信息数据仓库,和/或所述分布式数据仓库中抽取转换加载集市指定数据;
商业智能系统根据数据分析需要从所述数据集市,和/或所述非关系型数据库中获取分析所需数据。
[0022]所述抽取转换加载为ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
[0023]随着电子商务的发展,需要实时对用户的交易行为进行在线分析,比如显示某个网上店铺的所有历史访问和询盘记录,同时实时追踪显示这个店铺在电商平台上正在被访问的页面等信息,采用传统的支持离线分析和复杂查询的关系型数据库难以满足这样的需求。同时,电子商务行业越来越多的网站日志、用户行为这样的半结构化的大数据处理结合复杂的数据挖掘处理,因此本发明采用力石科技的大数据平台或Hadoop来实现海量数据册处理工具。力石科技大数据处理核心模块主要包含云数据库、云存储、搜索引擎和数据分析,能处理结构化、半结构化、非结构化数据,支持标准接口,提供一站式自动化的数据部署、迀移、备份、恢复、容灾等功能。数据仓库的原理框架如图3所示。
[0024]数据仓库的数据通过标准的数据接口,来源自互联网电子商务交易平台并且开放给外部应用。数据仓库按照数据流向分成三层结构:数据层、信息层和分析层,如图4所示。
[0025]数据层
通过推送式的标准数据接口,使用和电商平台数据库一致模型或者中间表的方式获取电商平台的外部数据,再由ODS进行数据抽取或者说数据抓取,抽取的格式包括XML和TXT等。
[0026]信息层
在数据层和互联网交易信息数据仓库层中间增加操作数据存储功能模块(0DS:Operat1n Data Storage)ο目的是作为一个缓冲库,将多个数据源的数据集成到一个临时缓冲区中供数据仓库使用,来有效减轻数据源和ETL的压力。
[0027]其中,ODS包括三层结构:
映射层:把外部数据层的数据原表的字段映射到操作数据存储功能模块的本地数据库中,完成数据从业务层到分析层的关联,对于外部数据也是通过系统管理到映射层进行集中。
[0028]数据预处理层:对所述交易信息数据进行预处理,该预处理包括整合、筛选和增加关联表,目的在于简化和提升ETL的工作;
数据清洗:对于有质量问题的交易信息数据进行数据清洗操作。
[0029]ODS存储的都是从各类电商平台抓取的互联网交易信息数据。
[0030]分析层
通过BI系统和Hadoop工具对各类电商平台的交易信息数据和非结构化的网站日志进行数据挖掘、企业分析、客户分析、数据支持和在线分析等处理。所述智能商务系统用于数据挖掘、企业分析、客户分析、数据文件分析以及在线分析。
[0031]对于存储处理结构化交易信息数据的互联网易信息数据仓库采用关系数据库、内存数据库和分布式数据库的综合体,对于关系数据库采用适合传统的BI服务进行分析处理;对于大量的实时数据的存储和实时查询分析采用支持HBase的Hadoop分布式文件系统HDFS为基础的非关系型数据库(Nosql )。
[0032]如图4所示的实施例中,所述数据集市包括交易集市、销售集市以及客服集市; 所述交易集市、销售集市根据业务需要从所述互联网交易信息数据仓库抽取转换加载所述集市指定数据;
所述客服集市根据业务需要从所述分布式数据仓库中抽取转换加载所述集市指定数据。
[0033]所述交易集市用于存储处理买家和店铺的交易相关信息,如交易时间、交易数量等。
[0034]所述销售集市用于存储处理店铺的销售相关数据,如店铺访问量、销售情况等。
[0035]所述客服集市用于存储处理买家的投诉信息和交易中的双方交互。
[0036]本实施例中的分布式数据仓库是力石云数据库,提供高性能、高可用的分布式关系型数据库一体机,能支持OLAP、OLTP及混合性应用,支持高性能(分布式)、高可用,支持热迀移、热备份、热恢复,支持标准SQL、支持主流开发语言,支持基于x86、龙芯、飞腾、PowerPC等芯片服务器、对硬件要求低。
[0037]也可以采用HBase,即Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。
[0038]图4中分布式数据仓库和非关系型数据库分别从分布式文件系统中读取非结构化的网络日志数据。在客服需要调取交易记录和与之对应的交易数据时,从HBASE中直接通过ETL方式抽取,而如果是第三方的商业智能系统需要对互联网交易数据进行统计分析,无需详细的交易信息,则直接从所述NOSQL中获取各类电商平台的网络日志数据即可。由此提高了运行速度,使得系统存储处理更加高效。
[0039]作为一种实施例,所述客服集市与所述商业智能系统之间还经过MemCache缓存系统进行数据传输;
所述商业智能系统在向所述客服集市获取分析所需数据时先查看所请求的分析所需的数据是否在MemCache缓存系统中,若有,则直接从MemCache缓存系统中获取,若不在,则从所述客服集市获取分析所需数据并在MemCache缓存系统中缓存一份。
[0040]Memcache是一个高性能的分布式的内存对象缓存系统,通过在内存里维护一个统一的巨大的hash表,它能够用来存储各种格式的数据,包括图像、视频、文件以及数据库检索的结果等。简单的说就是将数据调用到内存中,然后从内存中读取,从而大大提高读取速度。
[0041]互联网交易信息数据仓库的元数据存储模式采用适合维度和事实分离的星型模型,如图5所示。数据已经经过预处理,关于事实的维度信息已经从事实中抽离出来建立在相应的维表中。处理流程是:0DS层从业务层抽取到关于业务流程相关的数据;在仓库层(DW层)按照业务功能进行数据层设计(主要包括时间维度表、地域维度表等公共维度);事实表(DM层)是历史数据的事实,不具有在业务上的重复出现,对应为业务关联关系表、信誉表、访问量等,事实表是星星结构的核心,记录主体的主干内容。
[0042]在如图5所示的实施例中,所述星型模型位于星形中心的事实表包括若干条数据元组的时间地址、地域地址、店铺地址、产品地址以及该条数据元组对应的交易数量和交易金额;
所述星型模型的维表包括店铺维表、时间维表、产品维表和地域维表;
所述店铺维表包含电商平台信息、平台板块信息和店铺管理信息;
所述时间维表包含时间信息;
所述产品维表包含产品名称、产品描述、产品售价以及产品质量;
所述地域维表包含地理位置信息,该地理位置信息包含国家、省份、城市。
[0043]作为一种实施例,如图6所示,所述操作数据存储功能模块使用全量加载方式,具体为:
SlOl,清空所述操作数据存储功能模块的目标表,
S102,将外部数据层的全量交易信息数据插入该目标表。
[0044]作为一种实施例,如图7所示,所述操作数据存储功能模块使用增量加载方式,具体为:
S201,清空所述操作数据存储功能模块的临时表,
S202,将外部数据层的增量交易信息数据插入该临时表,
S203,删除目标表与该临时表重复的数据,
S204,将临时表中的数据插入目标表中后返回步骤SI直至数据全部抽取结束。
[0045]作为一种实施例,如图8所示,所述互联网交易信息数据仓库的维表为增量加载方式,事实表为全量加载方式;
互联网交易信息数据仓库的维表增量加载过程具体为:
S301,在临时表中对增量数据按照维表历史数据的行号计算排序,
S302,将具有所述排序的增量数据插入临时表,
S303,清空互联网交易信息数据仓库的维表,
S304,将所述操
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1