一种IPTV用户分类预测方法和系统与流程

文档序号:31184123发布日期:2022-08-19 18:52阅读:62来源:国知局
一种IPTV用户分类预测方法和系统与流程
一种iptv用户分类预测方法和系统
技术领域
1.本发明涉及大数据及ai技术领域,更具体地,涉及一种iptv用户分类预测方法和系统。


背景技术:

2.随着大数据和云计算的广泛应用,如何充分利用iptv在线系统中的海量日志,对用户行为数据进行深入分析和挖掘,发现用户行为数据中的内在规律和价值变得越来越重要。在用户需求瞬息万变的今天,业务方很容易忽视潜在用户和成长用户之间关系的构建和管理。用户价值是用户细分的关键变量,针对不同类型的用户价值设计相应的产品或营销方案是实现差异化服务的关键。用户价值研究对企业的价值在于用户细分不仅要考虑用户当前的利润贡献,还要考虑用户的生命周期价值;即既要考虑用户的现有价值,又要考虑用户的潜力。
3.用户行为复杂且难以刻画。目前,对于用户价值分类预测的相关研究较少,至今仍没有较为通用的解释分析模型。


技术实现要素:

4.提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
5.将模型算法用于特征提取,预测性能能够得到显著的提升。本发明根据创新地基于牛顿冷却定律按营销场景对用户分类,并提出了iptv用户价值集成算法,聚集多种类型的预测分类器,针对分类用户进行价值预测。
6.本发明旨在解决通过对iptv用户的现有价值和潜在价值进行分析,对用户进行细分。在此基础上,企业可结合行业的特征找出各类用户的特点,实行差异化服务策略,让更好的资源和服务提供给最有价值用户,从而达到顾客满意、企业盈利的目的。可应用于不同渠道的用户价值分析研究,作为数据挖掘技术中的一种重要的方法,用户价值体系方法分析可以用于大量用户群细分。按不同特征将用户分群后,就可以为每一群开发独立的预测模型,并根据每一群的不同特点进行分析,从而提供差异化服务或产品。
7.根据本发明的一个方面,提供了一种用于训练iptv用户分类模型的方法,方法包括:
8.获取原始数据,所述原始数据至少包括用户信息以及用户行为数据;
9.对所述原始数据进行数据预处理,得到特征数据集;
10.对所述特征数据集进行分析以确定多个用户分类标签;以及
11.为特征数据集添加所述用户分类标签作为训练数据来进行模型训练,其中模型训练包括训练多个单分类器,并基于每一个单分类器的预测效果确定分类器组合作为经训练的所述iptv用户分类模型。
12.根据本发明的进一步实施例,对所述原始数据进行数据预处理进一步包括:
13.从原始数据中抽取特征数据;
14.对抽取的特征数据进行清洗;以及
15.基于用户id进行关联,形成特征数据集。
16.根据本发明的进一步实施例,对所述原始数据进行数据预处理进一步包括:
17.为特征数据添加用户偏好标签,其中所述用户偏好标签是基于分时段标签模型、使用牛顿冷却定律建立的用户画像模型中的标签。
18.根据本发明的进一步实施例,在所述用户画像模型中,同一维度的标签值随时间衰减,使得时间越久的用户历史行为对于确定的用户偏好标签的影响越少。
19.根据本发明的进一步实施例,模型训练进一步包括针对不同场景分别进行模型训练。
20.根据本发明的进一步实施例,基于每一个单分类器的预测效果确定分类器组合作为经训练的所述iptv用户分类模型进一步包括:
21.选择预测准确率最高的若干个单分类器作为分类器组合;以及
22.保存所述分类器组合结果作为所述iptv用户分类模型的分类器库文件。
23.根据本发明的另一方面,提供了一种用于预测iptv用户分类的方法,所述方法包括:
24.获取待预测原始数据,所述待预测原始数据至少包括用户信息以及用户行为数据;
25.对所述待预测原始数据进行数据预处理,得到待预测特征数据;以及
26.将所述待预测特征数据输入根据本发明所述的方法训练而成的iptv用户分类模型,得到预测用户分类标签,其中得到预测的用户分类标签进一步包括:
27.通过分类器组合中所包括的多个单分类器分别进行用户分类标签预测;以及
28.基于每一个单分类器的预测结果通过投票机制确定输出的预测用户分类标签。
29.根据本发明的又一方面,提供了一种用于预测iptv用户分类的系统,系统包括:
30.数据预处理模块,所述数据预处理模块被配置成:
31.获取原始数据,所述原始数据至少包括用户信息以及用户行为数据;
32.对所述原始数据进行数据预处理,得到特征数据集;以及
33.对所述用户行为数据进行分析以确定多个用户分类标签;以及
34.模型训练模块,所述模型训练模块被配置成:
35.为特征数据集添加所述用户分类标签作为训练数据来进行模型训练,其中模型训练包括训练多个单分类器,并基于每一个单分类器的预测效果确定分类器组合作为经训练的所述iptv用户分类模型。
36.根据本发明的进一步实施例,所述数据预处理模块被进一步配置成:
37.获取待预测原始数据,所述待预测原始数据至少包括用户信息以及用户行为数据;以及
38.对所述待预测原始数据进行数据预处理,得到待预测特征数据,
39.所述系统进一步包括用户分类预测模块,所述用户分类预测模块被配置成:
40.将所述待预测特征数据输入根据本发明所描述的方法训练而成的iptv用户分类
模型,得到预测用户分类标签,
41.其中得到预测的用户分类标签进一步包括:
42.通过分类器组合中所包括的多个单分类器分别进行用户分类标签预测;以及
43.基于每一个单分类器的预测结果通过投票机制来确定输出的预测用户分类标签。
44.根据本发明的进一步实施例,所述模型训练模块被进一步配置成针对不同场景分别进行模型训练,并且保存针对每一个不同场景的分类器组合,并且
45.所述用户分类预测模块被进一步配置成:针对当前场景加载相应的分类器组合,并使用加载的分类器组合来预测用户分类标签。
46.与现有技术中的方案相比,本发明所提供的iptv用户分类预测方法和系统至少具有以下优点:
47.本发明基于牛顿冷却定律(newton's law of cooling),结合iptv用户使用行为数据,建立“用户使用行为热度”与“时间”之间的函数关系,结合iptv 内容媒资标签库,对用户进行关联聚类分析,用户分群细分维度超600项,细分颗粒度远超传统用户分群方式,支持按营销场景(电影、电视剧、少儿等产品)颗粒度细分用户群。此外,本发明还通过时间间隔recency、消费频率 frequency、消费金额monetary、观看时长duration、入网时间activetime构建了rfmdt特征体系,集成了adaboost、extra trees、gradient boosting、bagging、 naive bayes、mlp、xgboost等13项预测分类器,集成输出最优预测器选择,预测准确率较单分类器提升20%以上(由70%提升至95%以上),其中针对高价值预测用户已开展试点营销,试点营销过程中,营销成功率较同期提升20%以上。
48.通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
49.为了能详细地理解本发明的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本发明的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
50.图1是根据本发明的一个实施例的用于训练iptv用户分类模型的方法的示例流程图。
51.图2是根据本发明的一个实施例的用于预测iptv用户分类的方法的示例流程图。
52.图3是根据本发明的一个实施例的示出分类模型投票机制的示意图。
53.图4是根据本发明的一个实施例的用于预测iptv用户分类的系统的示例结构图。
具体实施方式
54.下面结合附图详细描述本发明,本发明的特点将在以下的具体描述中得到进一步的显现。
55.图1是根据本发明的一个实施例的用于训练iptv用户分类模型的方法 100的示例流程图。如图1中所示,方法100开始于步骤102,获取原始数据。在一个示例中,原始数据至
少包括用户信息以及用户行为数据。例如,用户信息可包括但不限于用户的个人信息(例如姓名、性别、年龄、职业、所在城市等等)、以及用户的业务相关信息,例如入网时间(activetime)。用户行为数据可包括但不限于观影时长(duration)、最近一次订购(recency)、订购次数(frequency)、订购金额(monetary)等等。原始数据可来自于多个不同的数据源,包括iptv在线系统中获得的日志数据,例如用户的原始订购记录和原始观影记录等。
56.在步骤104,对原始数据进行数据预处理,得到特征数据集。根据本发明的一个实施例,数据预处理可进一步包括从原始数据中抽取特征数据。例如,基于经典的rfm用户价值模型,结合iptv实际业务场景,可引入上述提到的最近一次订购recency、订购次数(frequency)订购金额(monetary)、观影时长(duration)以及入网时间(activetime),建立rfmdt特征体系,相应地提取对应特征的数据文件。此外,根据数据源的不同,抽取的数据可形成入网特征数据集、订购特征数据集、以及观影特征数据集。
57.可以理解,本文中为了便于说明而以仅包含上述五个特征的特征体系来作为示例描述,但根据实际需要,建立的特征体系可包括更多或更少特征,具体的特征也不受限于上述例举的特征。
58.随后,可对抽取出的特征数据进行清洗。本领域技术人员可以理解,数据清洗的主要目的是对特征数据进行缺失值、重复值、或异常值的处理。
59.在数据清洗完之后,可基于例如用户id对不同来源的数据进行关联,形成统一的特征数据集。在这一示例中,该特征数据集包括用户历史的五维度特征数据(即rfmdt特征数据)。
60.数据预处理可进一步包括为特征数据添加用户偏好标签,为后面根据实际的内容场景(例如电视剧、电影、综艺、纪录片、教育、少儿等iptv常用内容场景)建模及预测用户分类奠定基础。
61.根据本发明的一个实施例,本技术的用户偏好标签可以是基于分时段标签模型、使用牛顿冷却定律(newton's law of cooling)建立的用户画像模型中的标签。经典的牛顿冷却定律反映物体的热度与时间的函数。本示例中,利用这一概念,可类似地建立用户历史行为热度与时间的函数关系,例如:
62.h(t)=e-λ
·
t
63.其中,t表示用户行为发生当日距观察日期的时间,λ表示衰减系数,h(t) 表示对应时间t的用户行为热度。在一个示例中,衰减系数λ可以是0.1535。从上式中可以看出,随着时间的流失,热度值降低。换言之,在这一用户画像模型中,同一维度的标签值将随时间衰减,使得时间越久的用户历史行为对于确定的用户偏好标签的影响越少。
64.在此基础上,可将iptv用户历史使用行为与现有的iptv内容媒质标签库相结合,对用户进行关联聚类分析,建立与用户偏好有关的用户偏好标签模型。这一用户偏好标签模型与传统的按场景大类来设置的偏好类别数量相比 (传统内容类别通常只有与内容场景对应的电视剧、电影、综艺、纪录片、教育、少儿等几个大类),可将用户偏好细分为数量多得多的偏好标签,因为通过结合iptv用户历史使用行为与现有的iptv内容媒质标签库,可将诸如用户属性、历史行为、价值、终端、内容偏好等5大类600余项现有标签和指标考虑在内。并且,由于在确定偏好标签时创新性地引入了用户历史行为对最终标签确定的随时间
衰减的影响,由此确定的用户偏好标签将动态地反映用户当前的偏好,比现有的静态偏好标签(例如通过用户自己在用户资料中选择偏好类别)体系更为准确。
65.可选地,数据预处理可进一步包括数据过滤及归一化处理,例如将一些特征值转换成0-1之间的值,便于后续处理。
66.经预处理后得到的特征数据集可具有如下的示例数据结构:
67.序号字段简称具体描述1userid用户id2user_type用户类型3duration观影时长4activetime入网时长5recency最近一次订购6frequency订购频数7monetary订购金额
68.其中用户类型即上述的用户偏好标签。
69.在步骤106,对特征数据集进行分析以确定多个用户分类标签。在一个示例中,这一步骤可包括对特征值进行排序,并根据每类特征值中特征值的大小进行转换来实现。例如,可针对上述特征数据中的每一个特征进行排序,并根据特征值的大小划分多个评分标签,例如可根据特征的值分为a、b、c、d、e。在一个示例中,a表示最好,e表示最差,具体的划分规则可根据实际需要制定。随后,将特征数据值转换成相应的评分,并拼接成一个评分标签,如以下的表中所例示的:
70.activetimedurationfrequencyrecencymonetaryconcat_labels3431187.52638914.04508.70baaaa247267.05583312.013194.70ccadb97289.8591673.045138.63eeddb347265.5080566.04134.70accac2167192.7211116.05120.00dacbc
71.通过上述过程,可确定多个用户分类标签。例如,aaaaa可以被认为是一类用户(例如,高价值用户,代表其购买服务的可能性很高),相对的,eeeee 也代表一类用户,该类用户的购买服务的可能性极低,诸如此类。可以理解,用户分类标签的数量可通过调整每一特征划分的评分等级数量来增加或减少,以适应实际需要。例如,含4个以上a的标签就可被认为是高价值用户。
72.在步骤108,为特征数据集添加用户分类标签作为训练数据来进行模型训练。根据一个示例,训练数据可通过以下迭代过程来准备。
73.步骤1:构造训练集。在一个示例中,可分别选择5a(即含5个a)、5b、 5c、5d、5e标签命名为标签0、标签1、标签2、标签3、标签4,将具有相应标签的特征用户数据提取出来,构成训练集。
74.步骤2:构造测试集。在一个示例中,可依次按4x(即含4个a、4个 b、
……
、4个e)、3x(即含3个a、3个b、
……
、3个e)、2x、1x的顺序构造测试集,其中优先选择和训练集空间距离更接近的样本。
75.步骤3:将生成样本集作为新的训练集,并从初始样本中构造新的测试集,进行迭代,直至生成样本集和初始样本集数量一致。
76.准备完成的训练数据可随后被用于分类器模型训练。根据本发明的一个示例,为了提高模型训练的准确性,本发明的用户分类预测模型可聚集多个单分类器,包括但不限于adaboost、extra trees、gradient boosting、bagging、naivebayes、mlp、xgboost等预测分类器。然后,基于每一个单分类器的预测效果确定最优分类器组合,作为iptv用户分类模型。在实际预测时,iptv用户分类模型可以调用最优分类器组合,由其中包括的每个单分类器进行预测,并进行投票确定输出的预测结果。这样不会使单一的偏好处于主导地位,降低过拟合可能性。
77.根据本发明的一个实施例,训练过程可包括如下过程:
78.步骤1:建模。在一个示例中,为每个单预测分类器设定模型参数,并设定相同的模型预测效果评估参数,例如准确率(accuracy)、召回率(recall)、查准率(precision)和f值(f-measure),这些评估参数可分别基于以下方式来计算:
79.设tp为真实值为1、预测值为1的计数;
80.tn为真实值为0、预测值为0的计数;
81.fn为真实值为1、预测值为0的计数;并且
82.fp为真实值为0、预测值为1的计数,则
[0083][0084][0085][0086][0087]
步骤2:训练模型。将训练集传入算法,进行各个单分类器的模型训练。随后,按各个单分类器模型的预测效果评估得分降序排列,取最优的若干个例如5个,并将这一结果保存为最优模型。在本发明的示例中,这一最优模型可以joblib文件形式来保存。在针对不同场景分别建模的示例中,可得到针对每个场景的最优模型(joblib文件),例如分别针对电视剧、电影、综艺、纪录片、教育、少儿等电视剧、电影、综艺、纪录片、教育、少儿等场景保存最优模型,即最优分类器组合。
[0088]
通过上述训练,得到的分类器组合即可作为经训练的ipt用户分类模型。
[0089]
图2是根据本发明的一个实施例的用于预测iptv用户分类的方法200的示例流程图。如图2中所示,方法200开始于步骤202,获取待预测原始数据。与图1中的训练过程类似的,待预测原始数据可包括用户信息以及用户行为数据,例如用户订购数据和用户观影数据。
[0090]
在步骤204,对待预测原始数据进行数据预处理,得到待预测特征数据。这一步骤与图1中对应步骤的类似,例如可提取出rfmdt特征数据。
[0091]
在步骤206,将待预测特征数据输入根据如结合图1描述的方法训练而成的iptv用户分类模型,得到预测用户分类标签。例如,在针对不同场景分别建模的示例中,可加载每个场景的最优模型/joblib文件(即最优分类器组合),随后将带预测特征数据输入最优模型中包括的每一个单分类器,分别得到各单分类器的用户分类标签预测。对于这些用户分类标签预测,可采用投票机制来确定最终的预测用户分类标签,作为预测结果输出。如图3中所示出的,投票机制可采用少数服从多数机制。在图3中,5个单分类器模型分别给出了针对输入特征数据的标签预测,其中有2个模型的预测为标签a,3个模型的预测为标签b,因此通过投票,最终结果为标签b。
[0092]
类似的,可对全量数据应用方法200,得到用户的预测标签,预测结果可被保存成标签文件,用于后续的用户组群可视化探索和族群标签解释。
[0093]
图4是根据本发明的一个实施例的用于预测iptv用户分类的系统400的示例结构图。如图4中所示,系统400可包括数据预处理模块401、模型训练模块402、以及用户分类预测模块403。
[0094]
数据预处理模块401可被配置成:获取原始数据,原始数据可至少包括用户信息以及用户行为数据;对原始数据进行数据预处理,得到特征数据集;以及对用户行为数据进行分析以确定多个用户分类标签。在预测时,数据预处理模块401可被配置成:获取待预测原始数据,以及对待预测原始数据进行数据预处理,得到待预测特征数据。
[0095]
模型训练模块402可被配置成:为特征数据集添加用户分类标签作为训练数据来进行模型训练,其中模型训练包括训练多个单分类器,并基于每一个单分类器的预测效果确定分类器组合作为经训练的iptv用户分类模型。
[0096]
用户分类预测模块403可被配置成:将待预测特征数据输入经训练的iptv 用户分类模型,得到预测用户分类标签。例如,可通过分类器组合中所包括的多个单分类器分别进行用户分类标签预测;以及基于每一个单分类器的预测结果通过投票机制来确定输出的预测用户分类标签。
[0097]
在一个实施例中,模型训练模块402可被进一步配置成针对不同场景分别进行模型训练,并且保存针对每一个不同场景的分类器组合。用户分类预测模块403可相应地被进一步配置成:针对当前场景加载相应的分类器组合,并使用加载的分类器组合来预测用户分类标签。
[0098]
以上描述了本发明的iptv用户分类预测方案。这一方案基于经典的rfm 用户价值模型,结合iptv实际业务场景,引入观影时长duration、入网时间 activetime指标和最近一次订购recency,订购次数frequency,订购金额 monetary,建立了rfmdt特征体系,并且通过对数据集进行清洗,剔除异常值等预处理后,取交集,形成用户历史的特征数据。创新地使用内容偏好标签定义内容用户,为后面根据实际的营销内容场景(电视剧、电影、综艺、纪录片、教育、少儿等场景)建模及预测用户分群奠定基础,在本发明数据预处理模块中提出了通过特征数据转化及划分,迭代预测数据标签,准确地为历史用户标记了标签。本发明模型训练模块创新地使用了集成方法,聚集adaboost、 extra trees、gradient boosting、bagging、naive bayes、mlp、xgboost等多个预测分类器,通过投票分类器,通过多个模型的集成降低方差,从而提高了用户分群的准确性。
[0099]
以上所已经描述的内容包括所要求保护主题的各方面的示例。当然,出于描绘所
要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,所要求保护主题的许多进一步的组合和排列都是可能的。从而,所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1