一种广电用户收视行为数据切片系统、架构及方法与流程

文档序号:18899956发布日期:2019-10-18 21:48阅读:320来源:国知局
一种广电用户收视行为数据切片系统、架构及方法与流程

本发明涉及大数据技术领域,更具体的说是涉及一种广电用户收视行为数据切片系统、架构及方法。



背景技术:

随着机顶盒业务的升级创新,双向网机顶盒已经应用于千家万户,用户的收视行为数据可以定期采集回传。广电大数据的出现催生了广告精准营销,个性节目推荐,用户肖像刻画等扩展业务,电视台、广告商、政府、企业、网络运营商等多部分的应用拓展,使得广电大数据发挥了更大的价值。面对庞大且持续增长的用户行为数据,高效的数据采集、存储、处理分析及合理应用成为最关键的问题。

目前,广电行业未涉及针对广电用户行为数据的切片技术应用,在数据交易中更多的是买家提出需求,卖家针对需求提取数据进行清洗封装,再上架出售,这一过程对于卖家而言会造成时间和经济成本等资源的大量消耗。

因此,如何提供一种将数据清洗、拼接、统计计算、切片、可视化等功能封装于系统中,数据卖家通过便捷操作便可以获取种类繁多的数据产品,同时具备按需提取功能的系统、架构及方法是本领域技术人员亟需解决的问题。



技术实现要素:

有鉴于此,本发明提供了广电用户收视行为数据切片系统、架构及方法,采用hadoop分布式技术实现了广电大数据交易的数据切片处理功能,同时将各维度数据统计结果动态展示于前端页面,便于数据拥有者更加便捷清晰的掌握数据详情、收视变化趋势,以及直观性快速定价。用户可以按照需求在页面点击按钮进行数据不同维度切片,存储及下载切片数据,用于数据交易以及定价研究。系统以三台服务器作为底层集群环境,实现数据并发读取、统计计算、切片等功能,数据处理过程快捷高效。

为了实现上述目的,本发明提供如下技术方案:

一种广电用户收视行为数据切片系统,包括:数据文件传输模块、数据切片功能模块和数据可视化模块;其中,所述数据文件传输模块将采集的用户数据与节目单数据传输给所述数据切片功能模块,并通过所述数据可视化模块进行展示。

优选的,在上述一种广电用户收视行为数据切片系统中,所述数据文件传输模块包括数据存储单元、数据处理单元和数据输出单元;用户数据与节目单数据上传后存储在所述数据存储单元内;所述数据处理单元将用户数据与节目单数据按照固定规则进行文件拼接得到用户收视行为数据;所述数据输出单元将所述用户收视行为数据输出。

优选的,在上述一种广电用户收视行为数据切片系统中,还包括:帮助说明模块;所述帮助说明模块内置使用说明和注意事项。

优选的,在上述一种广电用户收视行为数据切片系统中,所述数据切片功能模块根据不同的特征属性进行切片处理。

优选的,在上述一种广电用户收视行为数据切片系统中,所述特征属性包括:时间、地区、用户行为、频道和节目。

一种广电用户收视行为数据切片系统的架构,包括为表示层、控制层、业务层、数据层;表示层:负责用户页面展示;控制层:负责管理任务流以及数据的传输;业务层:负责系统功能模块的具体实现逻辑;数据层:数据层为hadoop分布式集群环境,负责数据的存储、读取、计算操作;所述表示层、所述控制层、所述业务层、所述数据层彼此通信与配合。

一种广电用户收视行为数据切片方法,包括如下具体步骤:

将用户数据与节目单数据进行数据清洗,并进行数据拼接得到用户收视行为数据;

所述用户收视行为数据进行切片处理;

数据可视化模块显示切片数据。

优选的,在上述一种广电用户收视行为数据切片方法中,所述切片处理根据特征属性的个数分为单维度数据切片和组合维度数据切片。

优选的,在上述一种广电用户收视行为数据切片方法中,所述单维度数据切片具体步骤包括:用户选择切片维度,后台自动执行切片程序;切片程序第一步:遍历检索切片属性的个数;第二步:自定义各属性输出流路径;第三步:输出切片数据。

优选的,在上述一种广电用户收视行为数据切片方法中,所述组合维度数据切片:切片条件选择界面点击地区输入框,选择的地区编号;频道输入框选择频道名称;时间输入框选择日期,进行切分;提交切分请求后,后台执行数据切分并输出,用户可以在输出路径直接获取切片数据。

经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种广电用户收视行为数据切片系统、架构及方法,将数据清洗、拼接、统计计算、切片、可视化等功能封装于系统中,数据卖家通过便捷操作便可以获取种类繁多的数据产品,对数据交易流程中待交易数据处理以及定价研究提出数据切片系统的设计,数据切片系统的功能是在数据交易流程的起始端将待交易数据进行切片处理,按照数据不同属性,将数据进行进一步分区别类,按照切片数据各自的价值分别出售给数据购买方。广电用户数据涉及地域、时间、用户、收视行为、频道和节目等不同的基础维度数据;7大收视指标的描述性统计分析数据以及不同需求方的广告投放和节目推荐等通用报告和个性报告的分析数据等。面对海量数据,全维度和细颗粒度的数据切片既可以为数据价值评估提供模型参数指标支撑,同时能够最大化用户需求和效用。

本发明与现有技术相比,技术效果在于:

第一:便于交易。帮助数据交易双方开展小额数据交易,提升数据交易便捷性,便于存储及传递,数据产品多样化。

第二:快速定价。帮助数据交易双方细化定价策略,增加专项数据定价以及快速定价策略,提供颗粒度数据支持。

第三:便捷取用。集数据清洗、切片、统计、可视化于一体,分布式架构环境支撑,实现数据快捷取用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1附图为本发明的特征属性切片示意图;

图2附图为本发明平台部署示意图;

图3附图为本发明系统开发架构图;

图4附图为本发明数据处理流程图;

图5附图为本发明单维度切片功能操作流程图;

图6附图为本发明可视化展示示意图;

图7附图为本发明系统界面示意图;

图8附图为本发明组合维度切片功能操作流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种广电用户收视行为数据切片系统、架构及方法,采用hadoop分布式技术实现了广电大数据交易的数据切片处理功能,同时将各维度数据统计结果动态展示于前端页面,便于数据拥有者更加便捷清晰的掌握数据详情、收视变化趋势,以及直观性快速定价。用户可以按照需求在页面点击按钮进行数据不同维度切片,存储及下载切片数据,用于数据交易以及定价研究。系统以三台服务器作为底层集群环境,实现数据并发读取、统计计算、切片等功能,数据处理过程快捷高效。

(1)数据切片策略

如图1所示,时间维度:按照时间划分为年、季度、月、周、日。时间维度切片包含以上5个切片功能:年切片、季度切片、月切片、周切片、日切片。

地区维度:地区切片功能按照国内某省地区划分。

收视行为维度:收视行为切片功能按照收视行为划分为直播、点播、回看、其它四种数据切片,其它包括开机行为、关机行为、心跳、错误数据等。

频道维度:按照频道划分,频道维度有三个切片功能,频道切片、卫视频道切片、央视频道切片。通过频道切片功能批量获取不同频道的切片数据。

节目维度:按照节目名称划分,节目维度有三个切片功能:节目切片、节目类型切片、节目子类型切片。节目切片功能可以自动识别原始数据中包含节目个数,根据节目名称批量产出各节目数据切片。

(2)平台部署

如图2所示,本发明采用hadoop为底层处理环境,hdfs为数据文件存储系统,mapreduce为数据处理的编程模型,yarn为集群资源分配组件,ssm框架为整体应用的开发架构,java为后台开发语言,springmvc为数据及功能传递模块。

(3)系统架构设计

系统整体架构为表示层、控制层、业务层、数据层。如下图3所示:四个模块各自负责相应的职能,彼此通信与配合,共同完成整个系统的功能。四个模块的具体职能如下:1)表示层:负责用户页面展示。2)控制层:负责管理任务流以及数据的传输。3)业务层:负责系统功能模块的具体实现逻辑。4)数据层:数据层为hadoop分布式集群环境,负责数据的存储、读取、计算等操作。

(4)数据处理流程

数据处理流程首先进行数据清洗、文件格式统一,然后将用户数据与节目单数据按照既定规则进行文件拼接得到用户收视行为数据,最后按照各个维度实现相应切片功能与统计计算。具体流程设计图如图4所示。

其中,文件拼接所采用的数据是国内某省机顶盒用户的影视收视数据,包括用户数据与节目单数据,两个数据文件格式不同、字段不同,拼接处理后使得两个数据文件统一格式后按照相同字段拼接不同字段,介绍如下:用户数据文件以文本文档格式存储,具体字段如下表5-1所示。

表5-1收视数据字段

节目单数据以表格格式存储,节目单数据的具体字段如下表5-2所示。

表5-2节目单数据字段

首先进行数据清洗,将不符合要求的用户数据与节目单数据进行处理;其次将清洗之后的数据进行文件格式统一,均转化为文本格式,以便后续数据处理;最后将用户数据与节目单数据按照既定规则进行文件拼接得到用户收视行为数据,使得用户数据与其所观看节目数据进行整合。数据拼接过程由mapreduce程序完成,拼接的条件如下:

1)用户数据的收视频道编号与节目数据的频道编号相同。

2)用户数据的收视流入时间大于节目开始时间。

3)用户数据的收视流入时间小于节目结束时间。

4)用户数据的收视日期等于节目播出日期。

拼接后数据字段如表5-3所示:

表5-3拼接后数据字段

数据清洗的步骤包括:

第一步:缺失值清洗(根据缺失值重要性决定清洗方法为:1、删除含缺失值的收视数据;2、特殊值补充。);

第二步:去掉不需要的字段(删除收视数据与节目单数据中无关字段);

第三步:格式清洗(统一文本格式,统一字段顺序安排)。

(5)功能模块设计

根据系统功能需求,广电用户行为数据切片系统的功能模块设计包括以下四个部分:数据切片功能模块、数据文件传输模块、数据可视化模块、帮助说明模块。以下将具体介绍各模块实现的功能效果。

1)数据文件传输模块。此模块的作用是:一方面,用户在使用前上传需要处理的用户数据文件和节目单数据文件。文件上传后会保存在hdfs中,用户可以通过命令行语句查看,也可以在hadoop内部浏览器进行查看。另一方面,对于处理后的切片数据文件进行下载操作。

2)数据切片功能模块。此模块的作用就是按照切片策略制定的五大维度对数据进行切片处理以及组合切片输出。切片功能包括单维度数据切片和组合维度数据切片两个功能。

a:单维度切片功能设计。本文研究的单维度数据切片功能要实现的效果是根据数据各维度的不同属性进行分区切片,获取某单一维度的批量切片数据。单维度切片功能操作流程如图5所示。

首先用户选择切片维度,点击切片按钮,通过springmvc功能传递,后台自动执行切片程序。切片程序第一步通过map方法遍历数据,检索到切片属性的个数。第二步通过recordwriter定义各属性输出流路径。第三步自定义outputformat重载recordwriter方法,输出切片数据。切片程序执行完成后,用户可在hdfs查看下载切片数据。

b:组合维度切片功能设计。在组合维度切片功能切片条件选择界面点击地区输入框,选择想要选择的地区编号,频道输入框选择频道名称,时间输入框选择日期,点击切分按钮即可完成操作。提交切分请求后,后台执行数据切分并输出,执行完毕后页面跳转为true页面,用户可以在输出路径直接获取切片数据。组合维度切片功能类似于数据库数据查询功能,任意组合时间、频道、地区三个切分条件,即可输出一个满足条件的数据文件。

具体实现步骤介绍如下,如图8所示:

第一步:组合维度条件选择。web页面程序提供三个下拉框,分别选择切分的频道、地区、时间条件,命名为channelselect、areaselect、timeselect,作为数据筛选条件。

第二步:与单维度数据切片功能不同,组合维度数据切片功能依赖于前端页面反馈的切分条件,而切分条件的传递则由springmvc框架完成,后台程序在webcontroller获取切片条件。

第三步:编写mapper端。mapper端的代码功能即实现数据按切分条件进行筛选输出,从webcontroller获取到channelselect、areaselect、timeselect,通过嵌套if从句进行条件筛选。因为底层数据有一个特点,直播收视数据拼接到直接频道信息,所以每条数据长度大于9,而其他收视数据无法拼接到直播频道信息,所以数据长度小于6。第一个if从句筛选条件为数据长度小于等于6且频道切分条件为空,如果返回值为true,说明数据为非直播数据,可以进行时间和地区切分条件的筛选;如果返回值为false,说明数据存在三种情况:非直播数据且频道筛选条件不为空,直播数据且频道筛选条件为空,直播数据且频道筛选条件不为空,所以进行下一级if判定。true线路第二级if判定条件为:地区筛选条件为空或地区编号等于地区筛选条件,同时满足时间筛选条件为空或时间等于时间筛选条件,满足这个if判定说明数据为满足切分条件的数据,进行数据写出,不满足if判定说明数据不满足切分条件,数据不写出。false线路第二级if判定条件为:数据长度大于9,即返回false说明数据为非直播数据且频道筛选条件不为空,不满足切分条件,不写出;返回true说明为直播数据,进入第三级if判定;第三级if判定条件为同时满足:地区筛选条件为空或地区编号等于地区筛选条件,时间筛选条件为空或时间等于时间筛选条件,频道筛选条件为空或频道名称等于频道筛选条件,即满足判定条件的为满足切分条件的直播数据,数据写出。

第四步:编写driver部分。driver部分作为程序提交的端口,说明所有描述的job对象,声明mapper类、driver类、定义输入输出数据类型、声明输入输出文件路径。当页面有切分请求时,被webcontroller程序调用执行。

3)数据可视化模块

数据可视化模块,即系统的前台页面展示模块。系统页面展示的目的,一方面是方便用户操作系统,便捷执行系统功能,得到切片数据;另一方面,对于系统的输入的用户收视行为数据以及输出的各维度切片数据,进行数据可视化展示,便于用户对底层数据以及输出数据有更清晰的认知,对于选取哪一维度的切片数据有参考价值,同时,对于了解收视数据所展示的收视变化趋势以及基础收视指标,比如:收视率、到达率等,可以更加直观的展示。实现效果如图6所示。

4)帮助说明模块

此模块的设立是为了帮助用户快速学习使用此系统。此模块包括使用说明和注意事项两项。对于如何在集群中启动系统,如何操作系统,如何下载以及查看数据文件都会有详细的解释说明,节约用户的时间成本。

(6)系统首页界面

如图7所示:主要展示功能包括:系统名称、总收视人次数、收视指标、全国收视地图。

左侧能够用来选择特征属性,包括时间、地区、收视行为、频道和节目五个维度,以及组合切片功能和帮助说明;其中,时间维度页面主要展示时间维度的收视情况,包括24小时收视趋势图、周收视雷达图、月收视面积图、时间维度切片按钮。时间切片按钮包括年切片、季度切片、月切片、周切片以及日切片。

地区切片页面的展示内容包括地域分布收视用户数对比图、地域分布收视户次数对比图、地域分布收视折线图、地区切片按钮。

收视行为维度页面展示包括直播-点播收视人次趋势图、各收视行为收视数据统计结果展示、收视行为切片按钮。

频道维度展示包括:排行榜前十频道收视用户及收视人次对比图、收视前三频道信息表、频道类别占比图、频道切片按钮。切片按钮包括频道切片、央视频道切片、卫视频道切片三个按钮。

节目维度的页面展示包括:节目类型占比图、各节目类型收视人次对比图、节目子类个数折线图、节目子类占比图、节目切片按钮,切片按钮包括节目切片、节目类型切片、节目子类型切片三个功能按钮。

组合维度切片:三个选择框分别代表三个切分条件,本文研究的数据切片系统在组合切片模块提供三个切分条件,分别为地区、频道、时间。当点击选择框时,弹出下拉菜单,菜单内容为自动检测数据文件中包含的该属性所有情况,选择任意条件或者不选择均可,点击切分按钮,控制器获取任务,输出切片数据文件。

帮助说明按钮:页面展示操作文档,包括系统启动及使用过程中必备步骤说明以及操作方法。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1