应用于电子商务的数据分析方法及系统的制作方法

文档序号:6607027阅读:171来源:国知局
专利名称:应用于电子商务的数据分析方法及系统的制作方法
技术领域
本发明涉及电子商务技术领域,尤其涉及一种应用于电子商务的数据分析方法及 系统。
背景技术
目前,在互联网产业高速发展的大环境下,行业间以及行业内的竞争日益激烈,互 联网企业运营中的数据以爆炸的速度产生,其中信息的含金量越来越影响到企业的生存, 而依靠传统数据库或者数据仓库软件来对数据进行常规分析的成本越来越昂贵,同时其实 时性也无法得到保障,在现代社会,过时的信息不但不能给企业带来利益,反而可能会误导 决策给企业造成危害。现有技术中,基于Web的数据挖掘是指使用数据挖掘技术在Web数据中发现潜在 的、有用的模式或信息。关于Web数据挖掘的应用包括三个主要方向一、面向商业智能的网站日志挖掘随着Internet的迅速发展,越来越多的企业 和个人在Internet上建立了网站,通过其网站实现关键任务的Internet应用来获得战略 性优势。Web站点服务器每天产生大量的日志,其中蕴涵了用户在网站上的行为,分析这些 数据可以找出用户的访问模式,确定产品的市场战略,提高商业活动的效率。二、面向复杂系统研究的Web结构挖掘基于Web结构的数据挖掘是对Web页面超 链关系、文档内部结构、文档URL中的目录路径结构等的挖掘。对于基于Web结构的数据挖 掘而言,一个重要的问题是获得有关不同网页间相似度及关联度的信息有助于用户找到相 关主题的权威站点。三、面向社会信息分析的网页内容挖掘Web内容挖掘的对象包括文本、图象、音 频、视频、多媒体和其他各种类型的数据。现有技术中常见的数据挖掘方案包括使用已有的大型数据库或者数据仓库管理 软件(如0racle/DB2)充当存储管理资源,采用通用的PC SERVER或者小型机充当计算资 源,通过已有的数据ETL(数据提取清洗加载)工具进行流程控制,最终得到分析结果。然而,现有技术存在以下缺点对于互联网而言,数据的非结构化和无序性非常严 重,在海量数据的情况下,分析得到有用信息的成本过于昂贵,且实时性无法得到保障。

发明内容
本发明的主要目的在于提供一种应用于电子商务的数据分析方法及系统,旨在降 低数据计算资源成本并缩短数据从分析到应用的周期。本发明提出一种应用于电子商务的数据分析方法,包括获取待分析处理数据,对所述待分析处理数据进行抽样处理;将抽样处理后的所述待分析处理数据存储于数据库中;根据用户策略为所述待分析处理数据选择对应的预置数学模型;根据所述对应的预置数学模型对所述待分析处理数据进行计算分析处理,得到计算分析处理结果;将所述计算分析处理结果进行商务智能展示。优选地,所述待分析处理数据包括站点访问数据、站内营销行为数据、站外市场 分析数据、Web页面超级链接关系数据和/或SNS数据。优选地,所述对待分析处理数据进行抽样处理具体包括将分布的、异构数据源中 的待分析处理数据抽取到临时中间层后进行清洗、转换、集成和加载。优选地,所述计算分析处理具体为嵌入式计算分析处理。优选地,所述将抽样处理后的所述待分析处理数据存储于数据库中的步骤之前还 包括对抽样处理后的待分析处理数据进行缓存。优选地,所述获取待分析处理数据的步骤之前还包括根据业务规则和数据结构建立相应的预置数学模型。本发明还提出一种应用于电子商务的数据分析系统,包括ETL控制器,用于获取待分析处理数据,对所述待分析处理数据进行抽样处理;数据库服务器,用于将抽样处理后的所述待分析处理数据存储于数据库中;数学模型控制中心,用于根据用户策略为所述待分析处理数据选择对应的预置数 学模型;计算中心,用于根据所述对应的预置数学模型对所述待分析处理数据进行计算分 析处理,得到计算分析处理结果;商务智能展示中心,用于将所述计算分析处理结果进行商务智能展示;作业控制器,用于控制上述各功能服务器或中心工作以完成相应的数据流向与作 业流程。优选地,所述ETL控制器,还用于将分布的、异构数据源中的待分析处理数据抽取 到临时中间层后进行清洗、转换、集成和加载。优选地,所述系统还包括分布式缓存服务器,连接在所述ETL控制器与数据库服 务器之间,用于对抽样处理后的待分析处理数据进行缓存。优选地,所述系统还包括创建模块,与所述ETL控制器连接,用于根据业务规则和 数据结构建立相应的预置数学模型。本发明提出一种应用于电子商务的数据分析方法及系统,针对电子商务的 CRM (Customer Relationship Management,客户关系管理)领域,分析出通用的客户行为模 型,具体通过提取站点访问数据、站内营销行为数据、站外市场分析数据、Web页面超级链接 关系数据和/或SNS数据等待分析处理数据,应用现代数据挖掘的成熟算法,对待分析处 理数据进行嵌入式计算分析处理,并采用嵌入式技术将计算中心固化成高速计算的专用芯 片,不需进行数据库的全库统计,降低计算资源成本,同时大大缩短数据从分析到应用的周 期。


图1是本发明应用于电子商务的数据分析系统一实施例结构示意图;图2是本发明应用于电子商务的数据分析系统另一实施例结构示意图;图3是本发明应用于电子商务的数据分析方法一实施例流程示意图4是本发明应用于电子商务的数据分析方法另一实施例流程示意图。为了使本发明的技术方案更加清楚、明了,下面将结合附图作进一步详述。
具体实施例方式本发明实施例解决方案主要是对获取的站点访问数据、站内营销行为数据、站外 市场分析数据、Web页面超级链接关系数据和/或SNS(SocialNetworking Services,社交 网络服务)等待分析处理数据,应用现代数据挖掘的成熟算法,对待分析处理数据进行嵌 入式计算分析处理,并根据嵌入式分析处理结果进行商务智能展示。如图1所示,本发明一实施例提出一种应用于电子商务的数据分析系统,包括ET L(Extraction-Transformation-Loading,数据提取、转换和加载)控制器101、数据库服务 器102、数学模型控制中心103、计算中心104、商务智能展示中心105以及作业控制器106, 其中ETL控制器101,用于获取待分析处理数据,对待分析处理数据进行抽样处理;在本实施例中,ETL控制器101对待分析处理数据进行抽样处理可以具体为将分 布的、异构数据源中的待分析处理数据抽取到临时中间层后进行清洗、转换、集成,最后加 载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。本实施例待分析处理数据包括站点访问数据、站内营销行为数据、站外市场分析 数据、Web页面超级链接关系数据和/或SNS数据等。其中站点访问数据,是指当客户访问站点时会在Web服务器上留下相应的日志数据, 这些日志数据通常以文本文件的形式存储在服务器上。一般包括SeVerl0gS、err0r logs、 cookie logs等。*. log文件是日志文件,里面主要记录了系统、硬件、软件等的使用记录。 日志数据是电子商务站点在服务器上产生的一种典型数据。例如,对于在线客户也许会搜 索一些产品或某些广告信息,这些搜索查询信息就通过cookie或是登记信息连接到服务 器的访问日志上。站内营销行为数据,主要是传统关系数据库里存储的本站站点客户资料、客户消 费情况、商品信息等数据。站外市场分析数据,主要是指关联企业的公开信息管理,例如可能的供应商信息 以及可能的竞争对手情报分析,这些数据往往是分散的、异介质的的非结构化数据。Web页面超级链接关系数据,主要是指页面之间存在的超级链接关系,这是一种重 要的资源,通过各大网站有效的互利合作,能最大限度的实现有效推送,将最合适的信息送 达最多的可能客户。对于SNS数据,SNS全称即社交网络服务,专指旨在帮助人们建立社会性网络的互 联网应用服务,也指社会现有已成熟普及的信息载体,如短信SMS服务。SNS的另一种常用 解释全称Social Network Site,S卩“社交网站”或“社交网”。在SNS中,在朋友圈内关系 往往较真实,粘着度很高,互相之间不存在所谓网络的“假面具”,因此,比较容易实现实名 制;SNS基于人传人联系网络,一传多,多传多,利用网络这一低廉而快速的平台,网络建立 的速度非常快,由此使得建立人脉网络的成本进一步降低。数据库服务器102,用于将抽样处理后的待分析处理数据存储于数据库中;本实施例中,数据库服务器102具体采用Berkeley DB(伯克利数据库服务器),
5Berkeley DB是一个高性能的嵌入数据库编程库,和C语言、C++、Java,Perl、Python、PHP、 Tcl以及其他很多语言都有绑定。Berkeley DB可以保存任意类型的键/值对,而且可以为 一个键保存多个数据。Berkeley DB可以支持数千的并发线程同时操作数据库,支持最大 256TB的数据,广泛用于各种操作系统包括大多数Unix类操作系统和Windows操作系统以 及实时操作系统。本实施例将其应用于存储所有已经被转换过的待处理数据。数学模型控制中心103,用于根据用户策略为待分析处理数据选择对应的预置数 学模型;本实施例中,用户策略是指用户根据业务模型和数据结构对待分析处理数据的预 期处理方式,比如用户预期想通过某个网站的浏览次数对该网站的浏览者的购买行为进行 关联分析等的策略。数学模型控制中心103根据用户策略为待分析处理数据选择对应的预置数学模 型,不同的用户策略对应不同的数学模型,数学模型可以预先设置或创建但必须是由计算 中心104支持的预置数学模型。根据业务模型和数据结构选择不同的数学模型,从原有的 数据库全库统计模式调整为抽样数理统计分析模式,在保证数据统计有效性的情况下科学 的降低了数据的计算量,并实现了数据从输入到输出的匹配。计算中心104,用于根据对应的预置数学模型对待分析处理数据进行计算分析处 理,得到计算分析处理结果;本实施例中,具体通过嵌入式计算处理中心104来进行嵌入式计算分析处理。该 嵌入式计算处理中心104为DSP (digital signal processor,数字信号处理器),DSP是一 种独特的微处理器,是以数字信号来处理大量信息的器件。它不仅具有可编程性,而且其实 时运行速度可达每秒数以千万条复杂指令程序,远远超过通用微处理器。本实施例将其应 用于专业的数学函数计算,以解决对数据进行快速计算的问题。商务智能展示中心105,用于将计算分析处理结果进行商务智能展示;在本实施例中,通过商务智能展示中心105将嵌入式计算处理中心104计算分析 处理的结果嵌入Business Objects专业商务智能(Bi)软件,其形式多样且数据透视效果 明显,可以帮助企业更加深入的跟踪和了解该企业业务状况,改善企业决策水平,优化企业 绩效。作业控制器106,用于控制各功能服务器或中心协调工作以完成数据流向与作业流程。本实施例中,作业控制器106采用TCLSH可以实现多服务器的远程控制,协调若干 机器的数据流向和作业流程。TCLSH是一种通用的脚本语言,其功能强大,几乎可以在所有 的平台上解释运行。如图2所示,本发明另一实施例提出一种应用于电子商务的数据分析系统,在上 述实施例的基础上,其中,该系统还包括分布式缓存服务器1012,连接在ETL控制器101与 数据库服务器102之间,用于对抽样处理后的待分析处理数据进行缓存。在本实施例中,该系统还包括创建模块100,与ETL控制器101连接,用于根据业务 规则和数据结构建立相应的预置数学模型。本实施例通过建立符合一般电子商务企业业务标准的工作模型,对异构数据的采 集、结构化与重新加载,并根据业务规则和数据挖掘原理建立可运算的数学模型以及对边缘计算技术进行融合,包括对数据挖掘技术、嵌入式开发技术、ETL数据流控制以及嵌入式 数据库的使用,实现了对海量Web数据的采集、抽样、嵌入式计算与统计分析,降低了计算 资源成本,同时大大缩短数据从分析到应用的周期。如图3所示,本发明一实施例提出一种应用于电子商务的数据分析方法,包括步骤S101,获取待分析处理数据,对待分析处理数据进行抽样处理;本实施例方法运行环境基于电子商务的CRM领域,包括作业控制器(WorkFlow controller)、ETL 控制器(ETL controller)、分布式缓存服务器(Memcached Server) M 据库服务器(Database Server)、数学模型控制中心(Math model selecter)、嵌入式计算 中心(Embedded Computing)以及商务智能展示中心(BusinessObjects Gallery)等,由作 业控制器控制其他功能服务器或控制中心完成相应的数据流向与作业流程。作业控制器采 用TCLSH可以实现多服务器的远程控制,协调若干机器的数据流向和作业流程。TCLSH是一 种通用的脚本语言,其功能强大,几乎可以在所有的平台上解释运行。在本实施例中,由ETL控制器从数据源获取待分析处理数据,并对待分析处理数 据进行抽样处理。ETL控制器将分布的、异构数据源中的待分析处理数据如关系数据、平 面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市 中,成为联机分析处理、数据挖掘的基础。本实施例待分析处理数据具体包括站点访问数据、站内营销行为数据、站外市场 分析数据、Web页面超级链接关系数据和/或SNS数据等。其中站点访问数据,是指当客户访问站点时会在Web服务器上留下相应的日志数据, 这些日志数据通常以文本文件的形式存储在服务器上。一般包括SeVerl0gS、err0r logs、 cookie logs等。*. log文件是日志文件,里面主要记录了系统、硬件、软件等的使用记录。 日志数据是电子商务站点在服务器上产生的一种典型数据。例如,对于在线客户也许会搜 索一些产品或某些广告信息,这些搜索查询信息就通过cookie或是登记信息连接到服务 器的访问日志上。站内营销行为数据,主要是传统关系数据库里存储的本站站点客户资料、客户消 费情况、商品信息等数据。站外市场分析数据,主要是指关联企业的公开信息管理,例如可能的供应商信息 以及可能的竞争对手情报分析,这些数据往往是分散的、异介质的的非结构化数据。Web页面超级链接关系数据,主要是指页面之间存在的超级链接关系,这是一种重 要的资源,通过各大网站有效的互利合作,能最大限度的实现有效推送,将最合适的信息送 达最多的可能客户。对于SNS数据,SNS全称即社交网络服务,专指旨在帮助人们建立社会性网络的互 联网应用服务,也指社会现有已成熟普及的信息载体,如短信SMS服务。SNS的另一种常用 解释全称Social Network Site,S卩“社交网站”或“社交网”。在SNS中,在朋友圈内关系 往往较真实,粘着度很高,互相之间不存在所谓网络的“假面具”,因此,比较容易实现实名 制;SNS基于人传人联系网络,一传多,多传多,利用网络这一低廉而快速的平台,网络建立 的速度非常快,这使得建立人脉网络的成本进一步降低。步骤S102,将抽样处理后的待分析处理数据存储于数据库中;本实施例中,可以由数据库服务器存储上述抽样处理后的待分析处理数据。数据库服务器具体采用Berkeley DB (伯克利数据库服务器),Berkeley DB是一个高性能的嵌 入数据库编程库,和C语言、C++、Java、Perl、Python、PHP、TCl以及其他很多语言都有绑定。 Berkeley DB可以保存任意类型的键/值对,而且可以为一个键保存多个数据。Berkeley DB可以支持数千的并发线程同时操作数据库,支持最大256TB的数据,广泛用于各种操作 系统包括大多数Unix类操作系统和Windows操作系统以及实时操作系统。本实施例将其 应用于存储所有已经被转换过的待处理数据。步骤S103,根据用户策略为待分析处理数据选择对应的预置数学模型;本实施例中,用户策略是指用户根据业务模型和数据结构对待分析处理数据的预 期处理方式,比如用户预期想通过某个网站的浏览次数对该网站的浏览者的购买行为进行 关联分析等的策略。当获取到待分析处理数据并将待分析处理数据进行清洗、转换、集成等抽样处理 之后,根据用户策略为待分析处理数据选择对应的预置数学模型,不同的用户策略对应不 同的数学模型,数学模型可以预先设置或创建但必须是由以下所述的嵌入式计算处理中心 支持的预置数学模型。根据业务模型和数据结构选择不同的数学模型,从原有的数据库全 库统计模式调整为抽样数理统计分析模式,在保证数据统计有效性的情况下科学的降低了 数据的计算量,并实现了数据从输入到输出的匹配。步骤S104,根据对应的预置数学模型对待分析处理数据进行计算分析处理,得到 计算分析处理结果;本实施例中,计算分析处理具体为嵌入式计算分析处理,通过嵌入式计算处理中 心来实现。该嵌入式计算处理中心为DSP,DSP是一种独特的微处理器,是以数字信号来处 理大量信息的器件。它不仅具有可编程性,而且其实时运行速度可达每秒数以千万条复杂 指令程序,远远超过通用微处理器。本实施例将其应用于专业的数学函数计算,以解决对数 据进行快速计算的问题。步骤S105,将计算分析处理结果进行商务智能展示。在本实施例中,通过商务智能展示中心将嵌入式计算处理中心计算分析处理的结 果嵌入Business Ob jects专业商务智能(Bi)软件表现,其形式多样且数据透视效果明显。 Business Objects是全球领先的商务智能软件公司,其可以帮助企业更加深入的跟踪和了 解该企业业务状况,改善企业决策水平,优化企业绩效。下面以某种商品的网络浏览量与成交情况的关联分析为例,对本发明技术方案进 行说明该例数据计算环境为0S= WinXP SP2 ;RAM = IG ;CPU = AMD Athlon 64X2Dual 5000+ ;Disk = 160G ;默认簇大小为 4K。以浏览次数600万计算,需要插入的实际数据量为600*10000*2*sizeof(int)/1024/1024 ^ 45. 78MByte ;实际测试结果为记录数量=600万;页尺寸=4K ;真实数据量=45. 78MByte ;数据库文件大小= 160M ;时间消耗为34. 13秒,即代表给定配置情况下,系统可以在40秒内记录600万点击的 请求。对插入的数据进行全部统计分析,实际测试结果为时间消耗为8. 03秒,即代表现有配置情况下系统可以在9秒内分析出600万浏览者的购买行为。由此可知,在短短的时间内即可对海量数据进行统计分析,并得到统计分析结果, 极大降低了数据计算资源成本,同时大大缩短数据从分析到应用的周期,由此,可以帮助企 业更加深入的跟踪和了解企业业务,改善企业决策水平,优化企业绩效。现有网络业务模式因采用传统电子商务领域/SNS/网络游戏等多个互联网领域 相结合的模式,业务发展迅速,数据异常庞大,若通过常规办法(如数据仓库及通用计算技 术)则很难实现低廉高速的信息加工。本实施例针对电子商务的CRM领域,分析出通用的客户行为模型,对获取的站点 访问数据、站内营销行为数据、站外市场分析数据、Web页面超级链接关系数据和/或SNS数 据等待分析处理数据,应用现代数据挖掘的成熟算法,对待分析处理数据进行嵌入式计算 分析处理,并采用嵌入式技术将计算中心固化成高速计算的专用芯片,不需进行数据库的 全库统计,降低计算资源成本,同时大大缩短数据从分析到应用的周期。如图4所示,本发明另一实施例提出一种应用于电子商务的数据分析方法,在上 述实施例的基础上,其中,在步骤SlOl之前还包括步骤S100,根据业务规则和数据结构建立相应的预置数学模型;如上所述,不同的用户策略对应不同的数学模型,在本实施例中,可以根据业务规 则或模型以及数据结构或数据挖掘原理建立相应的预置数学模型。在步骤S102之前还包括步骤S1023,对抽样处理后的待分析处理数据进行缓存。在本实施例中,可以采用分布式缓存服务器(Memcached Server)对抽样处理后的 待分析处理数据进行缓存,Memcached是一个高性能的分布式内存对象缓存系统,用于动态 Web应用以减轻数据库负载。本实施例采用Memcached进行数据缓存以加快数据运算速度。综上所述,本发明实施例通过建立符合一般电子商务企业业务标准的工作模型、 对异构数据的采集、结构化与重新加载,并根据业务规则和数据挖掘原理建立可运算的数 学模型以及对边缘计算技术进行融合,包括对数据挖掘技术、嵌入式开发技术、ETL数据流 控制以及嵌入式数据库的使用,实现了对海量Web数据的采集、抽样、嵌入式计算与统计分 析,降低了计算资源成本,同时大大缩短数据从分析到应用的周期。也就是说,本发明实施 例在业务模式相对固定的前提下,用一个统一的框架整合了嵌入式计算(硬件)和数据挖 掘(软件)两个领域的基础设施,对电子商务行业的WEB海量数据从商务智能的角度进行 了数学加工,以获取其背后隐藏的商业含义和销售商机。以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用 本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其他相关的技 术领域,均同理包括在本发明的专利保护范围内。
权利要求
一种应用于电子商务的数据分析方法,其特征在于,包括获取待分析处理数据,对所述待分析处理数据进行抽样处理;将抽样处理后的所述待分析处理数据存储于数据库中;根据用户策略为所述待分析处理数据选择对应的预置数学模型;根据所述对应的预置数学模型对所述待分析处理数据进行计算分析处理,得到计算分析处理结果;将所述计算分析处理结果进行商务智能展示。
2.根据权利要求1所述的方法,其特征在于,所述待分析处理数据包括站点访问数 据、站内营销行为数据、站外市场分析数据、Web页面超级链接关系数据和/或社交网络服 务SNS数据。
3.根据权利要求1所述的方法,其特征在于,所述对待分析处理数据进行抽样处理具 体包括将分布的、异构数据源中的待分析处理数据抽取到临时中间层后进行清洗、转换、 集成和加载。
4.根据权利要求1所述的方法,其特征在于,所述计算分析处理具体为嵌入式计算分 析处理。
5.根据权利要求1所述的方法,其特征在于,所述将抽样处理后的所述待分析处理数 据存储于数据库中的步骤之前还包括对抽样处理后的待分析处理数据进行缓存。
6.根据权利要求1、2、3、4或5所述的方法,其特征在于,所述获取待分析处理数据的步 骤之前还包括根据业务规则和数据结构建立相应的预置数学模型。
7.一种应用于电子商务的数据分析系统,其特征在于,包括ETL控制器,用于获取待分析处理数据,对所述待分析处理数据进行抽样处理; 数据库服务器,用于将抽样处理后的所述待分析处理数据存储于数据库中; 数学模型控制中心,用于根据用户策略为所述待分析处理数据选择对应的预置数学模型;计算中心,用于根据所述对应的预置数学模型对所述待分析处理数据进行计算分析处 理,得到计算分析处理结果;商务智能展示中心,用于将所述计算分析处理结果进行商务智能展示; 作业控制器,用于控制上述各功能服务器或中心工作以完成相应的数据流向与作业流程。
8.根据权利要求7所述的系统,其特征在于,所述ETL控制器,还用于将分布的、异构数 据源中的待分析处理数据抽取到临时中间层后进行清洗、转换、集成和加载。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括分布式缓存服务器,连接 在所述ETL控制器与数据库服务器之间,用于对抽样处理后的待分析处理数据进行缓存。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括创建模块,与所述ETL控 制器连接,用于根据业务规则和数据结构建立相应的预置数学模型。
全文摘要
本发明涉及一种应用于电子商务的数据分析方法及系统,其方法包括获取待分析处理数据,对待分析处理数据进行抽样处理;将抽样处理后的待分析处理数据存储于数据库中;根据用户策略为待分析处理数据选择对应的预置数学模型;根据对应的预置数学模型对所述待分析处理数据进行计算分析处理,得到计算分析处理结果;将计算分析处理结果进行商务智能展示。本发明应用现代数据挖掘的成熟算法,对待分析处理数据进行嵌入式计算分析处理,并采用嵌入式技术将计算中心固化成高速计算的专用芯片,不需进行数据库的全库统计,降低计算资源成本,同时大大缩短数据从分析到应用的周期。
文档编号G06Q30/00GK101908191SQ20101024369
公开日2010年12月8日 申请日期2010年8月3日 优先权日2010年8月3日
发明者张津铭 申请人:深圳市她秀时尚电子商务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1