互联网大数据技术架构在企业内业务分析中的应用方法与流程

文档序号:13760487阅读:241来源:国知局

本发明涉及企业级B/S(浏览器/服务器)软件研发技术领域,具体涉及一种互联网大数据技术架构在企业内业务分析中的应用方法,涉及互联网大数据技术架构在企业内B/S(浏览器/服务器)业务系统中智能分析用户行为分析的方法。



背景技术:

B/S结构(Browser/Server,浏览器/服务器模式),是WEB兴起后的一种网络结构模式,WEB浏览器是客户端最主要的应用软件。这种模式统一了客户端,将系统功能实现的核心部分集中到服务器上,简化了系统的开发、维护和使用。客户机上只要安装一个浏览器(Browser),如Netscape Navigator或Internet Explorer,服务器安装SQL Server、Oracle、MYSQL等数据库。浏览器通过Web Server 同数据库进行数据交互。

随着烟草行业内部电商平台的发展,对电商平台用户行为分析的需求越来越强烈,要求越来越高。

电子商务平台即是一个为企业或个人提供网上交易洽谈的平台。企业电子商务平台是建立在Internet网上进行商务活动的虚拟网络空间和保障商务顺利运营的管理环境;是协调、整合信息流、物质流、资金流有序、关联、高效流动的重要场所。企业、商家可充分利用电子商务平台提供的网络基础设施、支付平台、安全平台、管理平台等共享资源有效地、低成本地开展自己的商业活动。



技术实现要素:

本发明要解决的技术问题是:本发明综合烟草电商平台网站户行为分析的开发、运维、使用等效果,结合当前大数据技术的发展,提供一种互联网大数据技术架构在企业内业务分析中的应用方法,实现统一的既支持开放电商网站同时又支持封闭式烟草行业内部电商网站的用户行为分析需求的用户行为分析方案。

本发明所采用的技术方案为:

互联网大数据技术架构在企业内业务分析中的应用方法,所述方法基于大数据架构对电商平台用户行为进行收集,通过日志应用集群对用户行为日志数据进行清洗后,将数据放入mq消息队列中,经过流计算技术,综合访客和访问用户精确分析出用户访问指标,结合访问用户的附加信息赋予各种业务含义进行统计分析,并将分析的结构放入云数据库中备用。

所述方法对电商平台用户行为的分析,主要针对页面浏览量、页面元素的点击量、页面停留时间三个维度,综合访客、访问用户两个层次,进行交叉分析,其中结合访客,主要实现在用户访问之前的开放网站的访问;结合访问用户,精确的分析具体用户的访问指标;结合访问用户的附加信息,赋予各种业务含义进行统计分析。

用户行为分析的需求,分为网站整体访问情况、页面浏览情况、访客访问情况、用户访问情况、定制分析几个方面:

网站整体访问情况主要从网站整体角度统计分析网站按时间维度的访问量、点击量、访客量、用户量、停留时间;

页面浏览量主要统计按时间维度的每个页面的浏览量、点击量、访客数、用户数、点击图、热力图、轨迹;

访客访问情况主要统计按时间维度的访客量、访客环境、停留时间、平均访问页面、访问次数、登陆次数;

用户访问情况主要统计按时间维度的访客量、用户环境、停留时间、平均访问页面、访问次数、登陆次数;

定制分析主要支持基于营销的定制化分析,结合页面业务含义和用户业务含义,进行定制化分析。

网站用户行为分析的实现,主要涉及用户行为数据采集、数据清洗、数据计算、数据展现四个部分:

数据采集主要依赖javascript监控页面收集用户操作,收集数据不能影响页面的正常操作;

数据清洗主要将url中的噪音参数去掉,便于归类统计;

数据计算主要实现各维度的数据计算,为展现提供数据结果;

数据展现主要负责将计算好的数据,以图表、列表、点击图、热力图、轨迹图方式实现。

网站用户访问网站时的数据收集通过数据采集脚本uba.js实现,通过在需要收集数据的网站页面的公共部分加载数据采集脚本uba.js,没有公共页面的网站需要在每一个页面加载该数据采集脚本,单次登陆的一个页面,数据采集脚本uba.js会写一个全局cookie,用于标识本终端的单次访问,需要统计用户访问情况的网站,在用户登录后,将用户信息、登陆会话信息写入全局cookie(user)。

所述数据采集脚本采集的信息主要包括如下四个方面的数据:1)、页面浏览,2)、元素点击,3)、页面停留,4)、页面任意点点击,其中页面浏览为全信息数据,后面三个为页面内操作,通过页面标识与页面浏览采集数据关联。

所述方法使用基于web的应用服务,做日志收集tag服务器,应用服务器主要包括:负责响应前端脚本请求的servlet和负责将数据写入mq的线程池两部分,其中:负责接收前端脚本请求的servlet只负责接收参数,将参数交给负责写mq的线程,就返回;负责将数据写入mq的线程池负责维护,堆写mq的线程,将行为数据写入mq,写mq时需完成数据的清洗工作。

所述mq消息队列采用异步消息队列存储行为数据,平台后端通过流计算的方式,从mq消息队列里消费数据,按照事先定义好的计算模型进行计算。

所述流计算为基于Spark Streaming的流计算,包含Spark平台和流计算引擎,其中Spark平台是采用HDFS+Spark集群,流计算引擎是基于Spark Streaming定义的各种统计分析的汇总计算模型,计算结果存储至MySql集群。

所述方法提供基于网站的行为数据展现,按照网站建设,一个网站一个展示系统,其功能包括用户行为分析的通用功能和个性化定制功能,其中:通用功能主要提供网站概览、页面浏览、用户统计、环境统计功能;个性化定制功能主要用户基于营销的定制分析;并按照时间维度展示今日实时、昨日对比、最近七日、最近30天的网站整体页面浏览量、点击量、访客量、用户量、访问次数、IP数、停留时间以及访问前二十的url,子域名访问量。

本发明的有益效果为:

本发明协助企业收集用户行为信息,统计用户在线数量,分析用户页面停留时间,分析哪些页面对用户的吸引力度较大,分析每个页面用户点击频率将这些信息通过友好的可视化工具展现给企业网站管理员,有力于企业实时掌握用户喜好,及时转变企业电商战略,精准的为用户投放广告,大幅度提高企业电商网站对市场需求的把控力度,最大程度的吸引客户消费,并且为用户提供个性化的广告展示,用户可以节省大量的互联网检索查找需要的信息的时间。

附图说明

图1为本发明方法系统框图。

具体实施方式

下面结合附图,根据具体实施方式对本发明进一步说明:

实施例1:

如图1所示,互联网大数据技术架构在企业内业务分析中的应用方法,所述方法基于大数据架构对电商平台用户行为进行收集,通过日志应用集群对用户行为日志数据进行清洗后,将数据放入mq消息队列中,经过流计算等技术,综合访客和访问用户精确分析出用户访问指标,结合访问用户的附加信息赋予各种业务含义进行统计分析,并将分析的结构放入云数据库中备用。

实施例2

在实施例1的基础上,本实施例所述方法对电商平台用户行为的分析,主要针对页面浏览量(PV)、页面元素的点击量(CV)、页面停留时间(SV)三个维度,综合访客(UV)、访问用户(UUV)两个层次,进行交叉分析,以及衍生的点击图、热力图、访问轨迹等高级功能,

结合访客,主要实现在用户访问之前的开放网站的访问;

结合访问用户,可以精确的分析具体用户的访问指标;

结合访问用户的附加信息,赋予各种业务含义进行统计分析。

其中,页面赋予商家、社区等业务含义,统计分析网站子页面或模块的访问指标。

用户访问的操作系统、浏览器版本、所属运营商等作为行为分析的附加功能。

用户行为分析的数据统计区间为按天、月累计,按天的统计以实时累计的方式,延迟不会超过5分钟。

实施例3

在实施例2的基础上,本实施例用户行为分析的需求,分为网站整体访问情况、页面浏览情况、访客访问情况、用户访问情况、定制分析几个方面:

网站整体访问情况主要从网站整体角度统计分析网站按时间维度的访问量、点击量、访客量、用户量、停留时间等;

页面浏览量主要统计按时间维度的每个页面的浏览量、点击量、访客数、用户数、点击图、热力图、轨迹等;

访客访问情况主要统计按时间维度的访客量、访客环境、停留时间、平均访问页面、访问次数、登陆次数等;

用户访问情况主要统计按时间维度的访客量、用户环境、停留时间、平均访问页面、访问次数、登陆次数等;

定制分析主要支持基于营销的定制化分析,结合页面业务含义和用户业务含义,进行定制化分析。

实施例4

在实施例2或3的基础上,本实施例网站用户行为分析的实现,主要涉及用户行为数据采集、数据清洗、数据计算、数据展现四个部分:

数据采集主要依赖javascript监控页面收集用户操作,收集数据不能影响页面的正常操作;

数据清洗主要将url中的噪音参数去掉,便于归类统计;

数据计算主要实现各维度的数据计算,为展现提供数据结果;

数据展现主要负责将计算好的数据,以图表、列表、点击图、热力图、轨迹图等方式实现。

实施例5

在实施例4的基础上,本实施例网站用户访问网站时的数据收集通过数据采集脚本uba.js实现,通过在需要收集数据的网站页面的公共部分加载数据采集脚本uba.js,没有公共页面的网站需要在每一个页面加载该数据采集脚本,单次登陆的一个页面,数据采集脚本uba.js会写一个全局cookie,用于标识本终端的单次访问,需要统计用户访问情况的网站,在用户登录后,将用户信息、登陆会话信息写入全局cookie(user)。

实施例6

在实施例5的基础上,本实施例所述数据采集脚本采集的信息主要包括如下四个方面的数据:1)、页面浏览,2)、元素点击,3)、页面停留,4)、页面任意点点击,其中页面浏览为全信息数据,后面三个为页面内操作,通过页面标识与页面浏览采集数据关联。

所述页面浏览数据采集:

进入页面时(页面加载完成)采集一次数据,具体采集的数据明细如下:

1)、page=页面的唯一标识,由页面路径、clientID、页面加载时间组成;

2)、ts=访问时间;

3)、engine=浏览器引擎名称;

4)、engine_version=浏览器引擎版本;

5)、browser=浏览器类型;

6)、browser_version=浏览器版本;

7)、platform=操作系统版本;

8)、platform_version=操作系统版本;

9)、screen_size=屏幕分辨率;

10)、url=当前页面完整url (采集时记录全url,记录时做清洗);

11)、prev_url=来源页面url;

12)、user=用户-公司号,监控网站的登录功能写的cookie,单次登陆有效,开放网站公司号为空;

13)、loginID=标识某个终端单次登陆,第一个页面写的cookie,关了浏览器即失效,用户登录后,如果userID已在cookie中存在,且和cookie中不一致,则更新;

14)、clientID=标识某个终端,对于开放网站用来标识访客,第一个页面写的永久ID,用户登录后,如果userID已在cookie中存在,且和cookie中不一致,对于开放网站更新,新商盟不更新;

15)、site=网站主域名;

16)、te=终端。

所述元素点击数据的采集:在一个页面中,每10 次点击发送一次,或至多每 1 分钟发送一次,或点击元素为表单提交的每次点击立即发送,关闭页面时,将缓存中的所有数据批量发送,具体采集的数据明细如下:

1)、page=页面的唯一标识,由页面路径、clientID、页面加载时间组成;

2)、ts=发送时间;

3)、data_length=数据长度;

4)、data=[(data为json数据);

5)、tag:元素的标签类型;

6)、time:元素的点击时间,单位秒;

7)、id:元素的 id 属性;(将能标识这个页面元素的id、name、超链接、或其他作为ID,唯一标识该元素);

8)、cls:元素的 class 属性。

9)、href:元素的 href 属性,超链接使用;

10)、name:元素的 name 属性,表单按钮使用;

11)、type:元素的 type 属性,表单按钮使用;

12)、extra:元素的特殊需要记录的数据。

所述页面停留时间根据页面唯一标识字段汇总所有数据,取最大停留时间,具体采集的数据明细如下:

1)、page=页面的唯一标识,由页面路径、clientID、页面加载时间组成。

2)、ts=访问时间

3)、stay=停留时间

所述页面任意点击记录点击的坐标和点击事件,每 30 次点击,或至多每 1 分钟发送一次,具体采集的数据明细如下:

1)、page=页面的唯一标识,由页面路径、会话唯一编号、页面加载时间组成。

2)、ts=访问时间

3)、data_length:数据长度

4)、data:[(多组点击数据)[x,y,时间],]。

实施例7

在实施例6的基础上,本实施例所述方法使用基于web的应用服务,做日志收集tag服务器,不再使用apache做tag服务器,应用服务器主要包括:负责响应前端脚本请求的servlet和负责将数据写入mq的线程池两部分,其中:负责接收前端脚本请求的servlet只负责接收参数,将参数交给负责写mq的线程,就返回;负责将数据写入mq的线程池负责维护,堆写mq的线程,将行为数据写入mq,写mq时需完成数据的清洗工作。

实施例8

在实施例7的基础上,本实施例所述mq消息队列采用异步消息队列存储行为数据,平台后端通过流计算的方式,从mq消息队列里消费数据,按照事先定义好的计算模型进行计算。

实施例9

在实施例8的基础上,本实施例所述流计算为基于Spark Streaming的流计算,包含Spark平台和流计算引擎,其中Spark平台是采用HDFS+Spark集群,流计算引擎是基于Spark Streaming定义的各种统计分析的汇总计算模型,计算结果存储至MySql集群。

实施例10

在实施例9的基础上,本实施例所述方法提供基于网站的行为数据展现,按照网站建设,一个网站一个展示系统,可以个性化定制,其功能包括用户行为分析的通用功能和个性化定制功能,其中:通用功能主要提供网站概览、页面浏览、用户统计、环境统计等功能;个性化定制功能主要用户基于营销的定制分析;并按照时间维度展示今日实时、昨日对比、最近七日、最近30天的网站整体页面浏览量、点击量、访客量、用户量、访问次数、IP数、停留时间等以及访问前二十的url,子域名访问量等。

所述方法提供访客分析,按照时间今日实时、昨日、最近七日、最近30天分析用户的地域分布、浏览器环境情况、运营商情况、用户访问页面数分布,其中按地域统计访客数、访问次数、用户数、平均访问页面数、平均访问时长;按时间统计访客的浏览器环境、pc端、移动端访问情况;按时间统计访客的运营商分布;统计用户访问页面数的聚类分布。

实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1