基于多屏用户行为数据的人员属性标识方法

文档序号:9567482阅读:151来源:国知局
基于多屏用户行为数据的人员属性标识方法
【技术领域】
[0001]本发明属于数据处理领域,尤其涉及一种基于多屏用户行为数据的人员属性标识方法。
【背景技术】
[0002]随着广电网络公司后平移时代的到来,数字电视业务发展日益成熟,付费频道、时移回看、V0D(Video On Demand)即视频点播、其他增值业务(股票、电视商城、游戏等)等多种双向互动新业务在不断的充实广电网络运营商的业务服务内容,广电网络运营商的发展重点逐渐从数字平台搭建、双向网络改造转向了更加多元化的业务经营和盈利模式。同时,随着互联网的普及,基于互联网视频业务的OTT (Over The Top,指通过互联网向用户提供各种应用服务)、IPTV(交互式网络电视)、智能电视、手机及平板电脑等智能终端的市场占有率都呈现快速增长趋势。
[0003]从最终用户的角度来说,用户获取视频内容的渠道已经从单屏(电视机第一大屏)逐步向多屏获取的方向发展。而无论是业务推广,还是广告投放,或是信息宣传都需要了解用户的属性,用户的具体属性决定了业务、广告、信息等投放内容是否能够有效传递至最终用户。
[0004]传统的抽样调查方法,是利用统计学原理,将众多用户按照一定的规则和比例进行分类,并从中抽取一定量的样本户,通过对这些样本户基本信息的深入调查来获取样本户的基本属性,从而推及全体,即每一个样本户的基本属性信息都代表了一定数量的用户属性。
[0005]但传统的抽样调查方法由于同一样本属性的用户还存在不同的习惯、兴趣爱好等差异化情况,故调查结果会存在较大的误差,直接影响到最终的业务、广告、信息的投放传递效果,如果要减少误差范围,就需要将调查精度及广度进行大幅度提升,而这样会直接增加调查难度和调查成本。而进行上百万、上千万、甚至上亿用户的全样本调查,其调查难度可想而知,所需的调查成本将是一个天文数字。
[0006]如何以最经济的投入,快速有效地、精确地获取最终用户的属性信息,成为了传媒行业丞待解决的问题。

【发明内容】

[0007]本发明主要解决的是面对越来越灵活的双向新媒体业务,通过双向网络及互联网的信息回传优势,将DVB (Digital Video Broadcasting)双向终端、IPTV、0TT、智能电视、手机、平板电脑等智能终端用户的多屏行为数据进行采集,并融合时间数据、频道数据、节目数据、广告数据等基本信息数据,通过HDFS(Hadoop Distributed File System)分布式存储,ETL(Extract-Transform-Load)提取转换加载,利用算法处理模块及多维度分析模块,将海量多屏用户行为数据进行多维度分析,通过分析用户的行为趋势,来了解用户的不同属性,并进行属性分类及属性标识,将不同的用户标识不同属性的标签,通过标识不同的属性标签来获知用户的行为趋势,并抽象化得到趋近于最终用户行为趋势的人员轮廓。
[0008]通过该方法可利用运营商双向网络及互联网的信息回传优势,以最经济的投入获取海量用户的多屏行为数据,并快速有效地、精确地分析出用户属性信息,并得到用户的人员轮廓及其行为趋势。同时可以根据分析得出的用户人员轮廓及其行为趋势,实时为业务、广告、信息的投放及传递提供数据支撑及精准定位,提升业务、广告、信息的投放效果及传递效果,将获得的收益最大化。大大降低了海量用户属性调查难度及调查成本。
【附图说明】
[0009]图1为本发明实施例提供的基于多屏用户行为数据的人员属性标识方法的实现流程图。
【具体实施方式】
[0010]下面结合附图并通过【具体实施方式】来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0011]如图1所示,为本发明实施例提供的基于多屏用户行为数据的人员属性标识方法的实现流程图,详述如下:
[0012]在步骤S1中,首先将通过双向网络及互联网的信息回传优势,将DVB双向终端、IPTV、0ΤΤ、智能电视、手机、平板电脑等智能终端用户的多屏行为数据进行采集,并融合时间数据、频道数据、节目数据、广告数据等基本信息数据及第三方采集系统获取到的用户聊天数据、电视数据、论坛发贴、搜索记录、网址访问等非视频行为数据;
[0013]在步骤S2中,通过HDFS分布式存储模块进行三备份分布式存储;
[0014]在步骤S3中,由ETL模块完成对海量行为数据的提取、转化及加载,即将不符合用户行为特点规律的数据进行剔除,将过滤后较为零散的、较为混乱的原始数据进行标准格式的转化,并加载在固定的数据表中;
[0015]在步骤S4中,然后再由算法处理模块,结合传媒行业的特点,对转化后的海量行为数据,利用基本统计分析算法,例如描述性统计分析、假设检验、回归分析、多元统计分析、方差分析、线性时间序列分析、参数贝叶斯方法、修正收视媒体指标分析方法等,得到需要标识用户的群体特点;再利用高级数据分析算法,例如关联规则挖掘涉及的Apr1ri算法、基于划分的算法、F-P数频集算法,分类分析涉及的判定树归纳分类、贝叶斯分类、向后传播分类,聚类分析涉及的K-means、CLARANS、BIRCHXURE、DBSCAN,等并结合第一步计算得到的群体特点参考,对用户行为特点聚类、分类;从视频观看内容以及第三方数据中,利用智能关联规则挖掘算法、节目评估模型以及内容关键词作为关联标签一并计入。,经过上述处理之后,可以得到时间、社交、偏好、行为、价值、空间、兴趣等的多维度分析,以得出用户的行为趋势及其属性,并利用群体特点、行为分类以及内容关键词对用户进行属性分类及属性标识,将不同的用户标识不同属性的标签,通过标识不同的属性标签来获知用户的行为趋势,并抽象化得到趋近于最终用户行为趋势的人员轮廓;
[0016]在步骤S5中,由业务、广告、信息投放模块根据得出的用户人员轮廓及用户属性标识,进行精准定位及精准投放,以提升业务、广告、信息的投放效果及传递效果,将获得的收益最大化。
[0017]由于利用运营商双向网络及互联网的信息回传优势,以最经济的投入获取海量用户的多屏行为数据,同时由于采用了优化组合的算法包及数据模型进行海量的数据预处理操作,并进行多维度分析,使进行海量全样本调查成为可能,能快速有效地、精确地分析出用户属性信息,并得到用户的人员轮廓及其行为趋势。可以实时为业务、广告、信息的投放及传递提供数据支撑及精准定位,提升业务、广告、信息的投放效果及传递效果,将获得的收益最大化。大大降低了海量用户属性调查难度及调查成本。
[0018]通过该方法可利用运营商双向网络及互联网的信息回传优势,以最经济的投入获取海量用户的多屏行为数据,并快速有效地、精确地分析出用户属性信息,并得到用户的人员轮廓及其行为趋势。同时可以根据分析得出的用户人员轮廓及其行为趋势,实时为业务、广告、信息的投放及传递提供数据支撑及精准定位,提升业务、广告、信息的投放效果及传递效果,将获得的收益最大化。大大降低了海量用户属性调查难度及调查成本。
[0019]以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种基于多屏用户行为数据的人员属性标识方法,其特征在于:所述方法包括如下步骤: A、将海量多屏用户行为数据进行采集,并融合基本信息数据及非视频行为数据; B、通过分布式存储模块对步骤A中的数据进行三备份分布式存储; C、通过ETL模块完成对海量行为数据的提取、转化及加载,然后再由算法处理模块,结合传媒行业的特点,对转化后的海量行为数据,利用统计分析算法,包括描述性统计分析、假设检验、回归分析、多元统计分析、方差分析、线性时间序列分析、参数贝叶斯方法和/或修正收视媒体指标分析方法,或利用高级数据分析算法,包括关联规则挖掘涉及的Apr1ri算法、基于划分的算法、F-P数频集算法,分类分析涉及的判定树归纳分类、贝叶斯分类、向后传播分类,聚类分析涉及的K-means、CLARANS、BIRCH、CURE、DBSCAN,神经网络算法和/或高维数据统计分析,或利用智能关联规则挖掘算法、节目评估模型和/或高级时间序列预测方法,通过将上述算法结合符合传媒行业的特点,进行算法间优化组合,形成特定的算法包及数据模型,针对转化后的海量行为数据进行数据的查询、分析、运算、模型演化等数据预处理操作,然后通过多维度分析模块,将预处理之后的海量多屏行为数据进行时间、社交、偏好、行为、价值、空间等的多维度分析,以得出用户的行为趋势及其属性,并对用户进行属性分类及属性标识; D、将不同的用户标识不同属性的标签,通过标识不同的属性标签来获知用户的行为趋势,并抽象化得到趋近于最终用户行为趋势的人员轮廓,最后由业务、广告、信息投放模块根据得出的用户人员轮廓及用户属性标识。2.如权利要求1所述的方法,其特征在于:所述多屏用户行为数据包括DVB双向终端、IPTV、0TT、智能电视、手机和/或平板电脑的多屏行为数据。3.如权利要求1所述的方法,其特征在于:所述基本信息数据包括时间数据、频道数据、节目数据和/或广告数据。4.如权利要求1所述的方法,其特征在于:所述非视频行为数据包括第三方采集系统获取到的用户聊天数据、电视数据、论坛发贴、搜索记录和/或网址访问。
【专利摘要】本发明主要解决的是面对越来越灵活的双向新媒体业务,通过双向网络及互联网的信息回传优势,将DVB双向终端、IPTV、OTT、智能电视、手机、平板电脑等智能终端用户的多屏行为数据进行采集,并融合时间数据、频道数据、节目数据、广告数据等基本信息数据,通过HDFS分布式存储,ETL提取转换加载,利用算法处理模块及多维度分析模块,将海量多屏用户行为数据进行多维度分析,通过分析用户的行为趋势,来了解用户的不同属性,并进行属性分类及属性标识,将不同的用户标识不同属性的标签,通过标识不同的属性标签来获知用户的行为趋势,并抽象化得到趋近于最终用户行为趋势的人员轮廓。
【IPC分类】H04N21/458, H04N21/258, H04N21/2668
【公开号】CN105323601
【申请号】CN201410344200
【发明人】李馥岑, 孙鑫, 张旭明
【申请人】上海星红桉数据科技有限公司
【公开日】2016年2月10日
【申请日】2014年7月18日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1