基于海量跨屏行为数据的用户画像方法与流程

文档序号:11677655阅读:372来源:国知局

技术领域:

本发明涉及传媒领域网络信息处理技术,特别涉及一种基于海量跨屏行为数据的用户画像方法。



背景技术:

随着广电网络公司后平移时代的到来,数字电视业务发展日益成熟,付费频道、时移回看、vod点播、其他增值业务(股票、电视商城、游戏等)等多种双向互动新业务在不断的充实广电网络运营商的业务服务内容,广电网络运营商的发展重点逐渐从数字平台搭建、双向网络改造转向了更加多元化的业务经营和盈利模式。

虽然增值业务的发展成为广电网络运营商增利增效的重要抓手,但是由于没有数据支持、缺乏对用户的立体了解,往往增值业务的建设和运营与用户的实际需求存在较大偏差,造成业务立项无标准,功能上线没人用的尴尬状态,如何获取网内用户画像,全面掌握用户潜在需求,根据用户需求去精准指导业务发展,成为了运营商丞待解决的问题。

另一方面,广电网络运营商对用户的了解方式,还停留在基础业务营销的层面,通过历史发展经验来判断用户的使用习惯和潜在需求,难以量化,该方式不能为广电网络运营商业务运营提供精准的数据支撑。



技术实现要素:

有鉴于此,本发明提供了一种基于海量跨屏行为数据的用户画像方法。该方法主要解决的是面对越来越灵活的双向新媒体业务,面对百万级,甚至千万级用户的海量行为数据,将采集到的用户行为数据进行hdfs分布式存储,经过etl模块对数据进行提取、转换和加载之后,由符合传媒行业特点的优化组合算法将海量的用户行为数据融合内容标签、用户标签、消费标签、地理标签、设备标签、用户属性等进行高效的数据预处理,并最终形成用户画像,再通过web应用程序调用相关的用户画像,为广电网络运营商业务运营提供精准的数据支撑。

本发明的具体技术方案如下:

基于海量跨屏行为数据的用户画像方法,包括以下步骤:

(1)设置终端数据采集模块、hdfs分布式存储模块、etl模块、画像模块、web应用模块;

(2)终端数据采集模块用于采集用户在多媒体信息播放终端的收视行为数据,并将所采集的数据转发给hdfs分布式存储模块负责存储;

(3)hdfs分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据;

(4)etl模块负责从hdfs分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为画像模块中的行为建模模块提供基础元素数据;

(5)画像模块包括行为建模、画像标签、模型预测,用户画像这些模块;

(6)web应用模块为终端内嵌的web应用程序,用于用户标签的可视化展示和下载。

上述方案中,所述多媒体信息播放终端包括dvbstb(数字电视机顶盒)、ott(互联网机顶盒)、智能电视、手机、平板电脑。

上述方案中,所述其他第三方系统异构数据为pv、uv这些页面浏览数据。

上述方案中,所述标画像块中的行为建模模块用以对上阶段etl后的数据进行行为建模,以抽象出用户的画像标签,此阶段注重大概率事件,通过数学算法模型尽可能地排除用户的偶然行为;该行为建模算法包括、文本挖掘、自然语言处理、预测算法、聚类算法、机器学习算法等。

上述方案中,所述画像模块中的画像标签模块是在模型可靠性验证的基础上形成的标签,其定义了包括内容标签、用户属性、行为标签、用户标签、消费标签、地理标签、设备标签;所述内容标签由终端采集模块采集epg(电子节目单)片单数据获得,内容标签定义了一级标签、标签维度、详细标签等维度,为算法处理模块提供基于节目信息的标签数据;所述用户属性定义了标签对象的主体,用户属性基本元素据包含用户编号、数字电视机顶盒mac地址、所属区域等信息;所述行为标签通过终端采集模块获取的终端设备收视行为数据,通过分析用户收视行为数据,获取用户收视时长、收视次数、收视频次等数据,为算法处理模块提供计算基础;所述用户标签定义了用户的收视偏好;该用户标签所有基础元数据来自于机器的自动采集和处理,采集标准规范,全程无人工干预,是一种标准化的用户标签分类体系;该用户标签包含:体育竞技、电影、综艺娱乐、生活服务、少儿动漫、科教、电视栏目、新闻节目、纪录片、金融财经、电视剧、其他等。所述消费标签定义了用户的消费偏好标签;消费标签包含购物品类、浏览次数、单页面停留时间、访问时长、交易频次、评分、收藏等;所述地理标签定义了用户行为历史地址信息;地理标签包含经纬度、结构化地址信息、商圈信息等;所述设备标签定义了用户的设备信息;设备标签包含设备类型、品牌、型号、设备特性等。

上述方案中,所述画像模块中的模型预测模块通过对业务的分析,将画像标签与营销模型、业务模型等相结合,形成用户价值模型、内容热度模型用户忠诚度模型、身高体型模型、用户流失模型等;所述用户价值模型通过rfm模型计算基于用户收视行为的价值模型;变量值r=最近观看时间f=观看频次m=周期内总观看时长;所述内容热度模型通过热度排名算法,形成视频内容热度预测;关键指标:浏览量、顶、踩、时间;再结合用户兴趣标签各个元素的权重比,通过加权计算为每一个内容打分,通过分数形成热度列表;所述用户忠诚度模型通过业务规则、画像标签、聚类算法判断用户的忠诚度;所述身高体重模型通过用户购买服装、鞋、帽等商品和消费标签进行判断;所述用户流失模型通过用户行为标签、业务规则、时间维度、消费频次等进行判断。

上述方案中,所述画像模块中的用户画像模块为基本成型的标签化体系,包含用户价值、活跃度、忠诚度、影响力、心里特征、社交网络、人群属性、消费能力、当下需求、潜在需求等多级标签和多级分类。

通过上述本发明所述方法可使广电网络运营商充分利用现有的双向网络通道获取到的海量用户行为数据,融合其他第三方消费数据、地理数据等,快速有效的得到立体的用户画像和精准的用户需求,为运营商提供运营决策依据。同时在资源利用率上,较现有的抽样调查技术可节省大量的硬件设备资源及人员成本。

附图说明:

以下结合附图和具体实施方式来进一步说明本发明。

图1为本发明所述基于海量跨屏行为数据的用户画像方法的步骤框图。

具体实施方式:

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。

如图1所示,本发明所述的基于海量跨屏行为数据的用户画像方法,首先是设置终端数据采集模块、hdfs分布式存储模块、etl模块、画像模块、web应用模块;其次,终端数据采集模块用于采集用户在多媒体信息播放终端(包括dvbstb(数字电视机顶盒)、ott(互联网机顶盒)、智能电视、手机、平板电脑等)的收视行为数据,并将所采集的数据转发给hdfs分布式存储模块负责存储;hdfs分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据(pv、uv这些页面浏览数据);etl模块负责从hdfs分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为画像模块中的行为建模模块提供基础元素数据;画像模块包括行为建模、画像标签、模型预测,用户画像这些模块;web应用模块为终端内嵌的web应用程序,用于用户标签的可视化展示和下载。

需要指出的是标画像块中的行为建模模块用以对上阶段etl后的数据进行行为建模,以抽象出用户的画像标签,此阶段注重大概率事件,通过数学算法模型尽可能地排除用户的偶然行为;该行为建模算法包括、文本挖掘、自然语言处理、预测算法、聚类算法、机器学习算法等。

画像模块中的画像标签模块是在模型可靠性验证的基础上形成的标签,其定义了包括内容标签、用户属性、行为标签、用户标签、消费标签、地理标签、设备标签;内容标签由终端采集模块采集epg(电子节目单)片单数据获得,内容标签定义了一级标签、标签维度、详细标签等维度,为算法处理模块提供基于节目信息的标签数据;用户属性定义了标签对象的主体,用户属性基本元素据包含用户编号、数字电视机顶盒mac地址、所属区域等信息;行为标签通过终端采集模块获取的终端设备收视行为数据,通过分析用户收视行为数据,获取用户收视时长、收视次数、收视频次等数据,为算法处理模块提供计算基础;用户标签定义了用户的收视偏好;该用户标签所有基础元数据来自于机器的自动采集和处理,采集标准规范,全程无人工干预,是一种标准化的用户标签分类体系;该用户标签包含:体育竞技、电影、综艺娱乐、生活服务、少儿动漫、科教、电视栏目、新闻节目、纪录片、金融财经、电视剧、其他等。消费标签定义了用户的消费偏好标签;消费标签包含购物品类、浏览次数、单页面停留时间、访问时长、交易频次、评分、收藏等;地理标签定义了用户行为历史地址信息;地理标签包含经纬度、结构化地址信息、商圈信息等;设备标签定义了用户的设备信息;设备标签包含设备类型、品牌、型号、设备特性等。

画像模块中的模型预测模块通过对业务的分析,将画像标签与营销模型、业务模型等相结合,形成用户价值模型、内容热度模型用户忠诚度模型、身高体型模型、用户流失模型等;用户价值模型通过rfm模型计算基于用户收视行为的价值模型;变量值r=最近观看时间f=观看频次m=周期内总观看时长;内容热度模型通过热度排名算法,形成视频内容热度预测;关键指标:浏览量、顶、踩、时间;再结合用户兴趣标签各个元素的权重比,通过加权计算为每一个内容打分,通过分数形成热度列表;用户忠诚度模型通过业务规则、画像标签、聚类算法判断用户的忠诚度;身高体重模型通过用户购买服装、鞋、帽等商品和消费标签进行判断;用户流失模型通过用户行为标签、业务规则、时间维度、消费频次等进行判断。

画像模块中的用户画像模块为基本成型的标签化体系,包含用户价值、活跃度、忠诚度、影响力、心里特征、社交网络、人群属性、消费能力、当下需求、潜在需求等多级标签和多级分类。

由于上述方法中采用了优化组合的算法包及数据模型进行海量的数据预处理操作,每次的用户标签的处理,只需要从经过数据预处理的数据中提取相关数据参与实时运算,不需要从完整的原始海量行为数据中进行查询和运算,分析运算效率由现有技术所需的几个小时,十几个小时的漫长等待时间,提升为秒级,甚至毫秒级的实时响应,大大提高了数据运算效率,同时整个数据运算过程完全采用机器自学习算法,只需要普通的pc服务器资源即可完成,大大节省了人力资源投入和硬件服务器资源的投入。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1