可实现多维度自由剖析的流量数据处理方法

文档序号:6599682阅读:431来源:国知局
专利名称:可实现多维度自由剖析的流量数据处理方法
技术领域
本发明涉及Web流量分析,尤其涉及一种可实现多维度自由剖析的流量数据处理方法。
背景技术
目前常用的Web流量分析系统,都会内置一些常用的报表,例如省份报表,搜索引 擎报表,关键词报表等,这些构成数据流量的维度,其所采用的数据处理方法是每个报表就 只需要对其中一张数据库表进行聚合运算即可,报表与报表之间是没有关联的,所以这些 报表都是“静态”的,也就是说,客户拿到这些报表之后,他无法进行其他操作。他即使对报 表中的部分数据产生疑问,也没有办法做什么,因为所有分析维度,都是针对全部流量数据 的,而不是针对某个报表的其中一部分流量数据。看起来提供了不少分析的维度,但是维度 之间都是孤立的,所有维度都是基于全部的流量数据(当然,这里所说的全部的流量数据, 准确的说,应该是某一段时间内的全部流量数据)进行分析的,此时,客户只能看到类似图 1所示孤立的三张报表。客户拿到此报表之后,也只能对自己的流量有个粗浅的认识,如果 客户有更高级的需求,想交叉分析报表,想对其中一张报表中的部分数据单独进行分析,例 如,客户想查看来自“北京”和“广东”的、并且是通过Google搜索过来的流量中,这些访客 都搜索了哪些关键词,以及每个关键词最后都购买了哪些商品,那么这类工具就无法解决 了。

发明内容
针对以上缺陷,本发明的目的是提供一种流量数据处理方法,可以实现流量数据 的多维度自由剖析。为实现上述目的,本发明通过以下技术方案实现一种可实现多维度自由剖析的流量数据处理方法,采用0LAP(OnlineanalytiCal processing联机分析处理)技术,包括以下步骤(1)、将原始流量数据进行规范并相应的划分为6个类别,分别是页面访问数据、 会话访问数据、访客访问数据、广告数据、电子商务数据和鼠标点击数据,为这几个类别分 别建立OLAP事实表(FactTable),不同流量数据之间通过会话标识符和访客身份标识符建 立相应的关联;(2)、针对每个数据类别建立适当的维度,将相似的维度归到一类,建立相应的维 度表,表中数据生成唯一主键,然后分别和上述6大类别的流量数据会话进行关联;(3)、根据上述事实表和维度表建立OLAP数据立方体,通过 MDX(Multidimensional Expressions多维表达式)语言生成最终报表。本发明通过对原始流量数据进行相应的归类并建立相应的关联,同时,对于每个 类别的流量数据和所有维度之间,也建立了相应的关联。使所有归类后的数据都共用这些 维度数据,因此可以使用多维度去逐层剖析数据,实现了对流量数据的多维度自由剖析,用户可以取出报表中任意一部分流量数据,使用多个维度进行逐步自由的剖析,不断的筛选, 直至得到最终想要的数据报表。


下面根据实施例与附图对本发明作进一步的详细说明。图1是现有Web流量分析系统所生成的相互孤立的报表形式示意图;图2是采用本发明所述方法归类之后的数据之间的相关关系图;图3是示例中会话数据的流量数据和维度之间的关系图;图4-图6是针对原始数据建立维度表和由维度表生成事实表的原理图;图7是根据事实表和维度表所建立的OLAP数据立方体。
具体实施例方式为了实现多维度自由的剖析流量数据,我们WebDissector后台系统采用了 OLAP(online analytical processing联机分析处理)技术,将原始流量数据进行规范并相 应的划分为6个类别,分别是页面访问数据、会话访问数据、访客访问数据、广告数据、电子 商务数据和鼠标点击数据,归类之后的数据并不是孤立的,而是有一定关联,关系图如图2 所示。他们之间的关联,是通过两个核心的标识符来实现的,其中一个是会话标识符,用来 将同一次会话(我们将同个访客相近的页面访问归结到一次会话中)的数据,包括广告数 据,点击数据等串到一起;另外一个是访客身份标识符,用来唯一标示一个访客的,我们用 此标识符来将一个访客长期以来的访问数据串到一起。所有归类之后的流量数据都包含了 这两个重要的标示符,因此才能建立上图中的各种复杂的关系。针对每个数据类别建立适当的维度,对于每个类别的流量数据和所有维度之间, 也是有相应的关联;举会话数据为例,如图3所示。如图4所示,给出了一个会话的原始数据,其中省份和城市是同一类的,将其归为 “地理环境表”作为一个维度,建立相应的维度表,搜索引擎和关键词是一类的,将其纳入 “会话来源表”作为一个维度,建立相应的维度表,并为每一个维度表中的数据分配一个主 键;通过引用相应维度表的主键,建立相应的OLAP事实表(FactTable)。即通过建立事实 表和维度表来组织数据之间的关系,这样就产生了如图5所示结构。通过这种方式,后台系统的存储复杂性就大大降低了,数据的一致性得以保证,同 时,可通过引用相应维度表中的主键,得到流量数据生成相应的报表,不同事实表之间可以 重用相同的维度表,例如电子商务的数据也可以引用同样的地理维度表和来源维度表,如 图6所示。由于一个事实表直接关联着几个维度表,我们就能建立如图7所示的数据仓库储存结构,它是一个典型的3维的数据立方体,每个单元格都对应着一批会话。客户可以按照 自己的意愿精准定位出他关注的流量,例如图7中深色单元格所示的,是“来自北京”并且 通过“Sogou搜索引擎”搜索“推广”关键词来到网站的流量,总共有37次访问,通过建立这 种OLAP数据立方体,进一步可利用MDX (Multidimensional Expressions多维表达式)语 言生成最终报表。上述例子展示的是3维的剖析过程,我们甚至可以把这个“流量单元格”取出来,作为一个新的数据立方体,使用新的维度进行剖析,最终能达到采用多维度去逐层剖析数据,不断的筛选,直至得到最终想要的数据报表。
权利要求
一种可实现多维度自由剖析的流量数据处理方法,采用OLAP(onlineanalytical processing联机分析处理)技术,其特征在于包括以下步骤(1)、将原始流量数据进行规范并相应的划分为6个类别,分别是页面访问数据、会话访问数据、访客访问数据、广告数据、电子商务数据和鼠标点击数据,为这几个类别分别建立OLAP事实表(FactTable),不同流量数据之间通过会话标识符和访客身份标识符建立相应的关联;(2)、针对每个数据类别建立适当的维度,将相似的维度归到一类,建立相应的维度表,表中数据生成唯一主键,然后分别和上述6大类别的流量数据会话进行关联;(3)、根据上述事实表和维度表建立OLAP数据立方体,通过MDX(Multidimensional Expressions多维表达式)语言生成最终报表。
全文摘要
本发明提供了一种可实现多维度自由剖析的流量数据处理方法,采用OLAP(online analytical processing联机分析处理)技术,通过对原始流量数据进行相应的归类并建立相应的关联,同时,对于每个类别的流量数据和所有维度之间,也建立了相应的关联,并使所有归类后的数据都共用这些维度数据,因此可以使用多维度去逐层剖析数据,实现了对流量数据的多维度自由剖析,用户可以取出报表中任意一部分流量数据,使用多个维度进行逐步自由的剖析,不断的筛选,直至得到最终想要的数据报表。
文档编号G06F17/30GK101799830SQ20101013155
公开日2010年8月11日 申请日期2010年3月25日 优先权日2010年3月25日
发明者吴充, 杨基彬, 祁国晟, 钟志龙, 黄勇坚 申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1