用户数据处理方法、装置、设备及可读存储介质与流程

文档序号:17160872发布日期:2019-03-20 00:41阅读:176来源:国知局
用户数据处理方法、装置、设备及可读存储介质与流程

本发明实施例涉及通信技术领域,尤其涉及一种用户数据处理方法、装置、设备及可读存储介质。



背景技术:

从各运营商的发展来看,用户的每用户平均收入(averagerevenueperuser,arpu)值呈现出逐年下降的趋势,提升单个用户的arpu值势在必行。

为了提高用户的arpu值,需要将用户划分为多个用户簇,针对不同的用户簇制定不同的行销策略。目前,运营商通过技术人员根据用户单一行为特征数据,例如流量数据,通过设定几个分界值来将用户粗略地划分为几个不同的用户簇。但是传统的用户簇的划分粒度较粗,不能准确反应用户每月消费行为特征的变化。



技术实现要素:

本发明实施例提供一种用户数据处理方法、装置、设备及可读存储介质,用以解决传统的用户簇的划分粒度较粗,不能准确反应用户每月消费行为特征的变化的问题。

本发明实施例的一个方面是提供一种用户数据处理方法,包括:

获取用户的行为特征数据;

基于用户的arpu值对所述行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据;

采用预设聚类算法,对所述目标用户的行为特征数据进行聚类分析处理,得到多个用户簇。

本发明实施例的另一个方面是提供一种用户数据处理装置,包括:

数据获取模块,用于获取用户的行为特征数据;

预处理模块,用于基于用户的arpu值对所述行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据;

聚类处理模块,用于采用预设聚类算法,对所述目标用户的行为特征数据进行聚类分析处理,得到多个用户簇。

本发明实施例的另一个方面是提供一种用户数据处理设备,包括:

存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,

所述处理器运行所述计算机程序时实现上述所述的用户数据处理方法。

本发明实施例的另一个方面是提供一种计算机可读存储介质,存储有计算机程序,

所述计算机程序被处理器执行时实现上述所述的用户数据处理方法。

本发明实施例提供的用户数据处理方法、装置、设备及可读存储介质,通过获取用户的行为特征数据;基于用户的arpu值对所述行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据;采用预设聚类算法,对所述目标用户的行为特征数据进行聚类分析处理,得到多个用户簇,实现了基于用户arpi值确定营销对象群体,并根据用户的多维度的行为特征数据,实时高效地聚类得到多个用户簇,用户簇的划分更加精准,效率更高,从而可以进一步地实现有针对性地为不同的用户簇提供用于提高用户arpu值的营销策略。

附图说明

图1为本发明实施例一提供的用户数据处理方法流程图;

图2为本发明实施例二提供的用户数据处理方法流程图;

图3为本发明实施例三提供的用户数据处理装置的结构示意图;

图4为本发明实施例五提供的用户数据处理设备的结构示意图。

通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明实施例构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。

首先对本发明实施例所涉及的名词进行解释:

可视化方法:是指在原始数据转换为可视化元素后,利用形象直观的表现形式来显示复杂的资源内容。从而加深用户的理解。常见的有散点图、直方图、时间轴和树图等。

独热编码:即one-hot编码,又称一位有效编码,其方法是使用n位状态寄存器来对n个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。

此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。

实施例一

图1为本发明实施例一提供的用户数据处理方法流程图。本发明实施例针对传统的用户簇的划分粒度较粗,不能准确反应用户每月消费行为特征的变化的问题,提供了用户数据处理方法。如图1所示,该方法具体步骤如下:

步骤s101、获取用户的行为特征数据。

本实施例中,用户的行为特征数据可以包括多种类型的特征数据。例如,行为特征数据可以包括:用户的业务套餐数据,例如,套餐内的流量、语音等数据;用户的业务用量数据,例如,流量使用量、通话时长、消费金额等等;以及用户属性数据等。

另外,用户的行为特征数据可以包括离散型数据和连续型数据。例如,离散型数据可以包括用户的性别,用户使用业务套餐的类别等等;连续型数据可以包括流量使用量、通话时长等等。

本实施例中对用户的行为特征数据具体包括的数据的种类,可以由技术人员根据实际需要进行设定或者修改,本实施例此处不做具体限定。

步骤s102、基于用户的arpu值对行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据。

其中,预设范围可以由技术人员根据实际需要进行设定,本实施例此处不做具体限定。

本实施例中,可以根据实际需要设定arpu值的预设范围,来确定本次营销对象。例如,若要对高端用户进行营销处理,则将arpu值的预设范围设定为一个较高的范围;若要对中低端用户进行营销处理,则将arpu值的预设范围设定为一个较低的范围。

该步骤中,基于用户的arpu值对行为特征数据进行筛选,保留arpu值在预设范围内的目标用户的行为特征数据。

具体的,基于用户的arpu值对行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据,具体可以采用如下方式实现:

根据用户的行为特征数据,计算每个用户的arpu值;将arpu值在预设范围内的用户确定为目标用户;从用户的行为特征数据中筛选出目标用户的行为特征数据。

步骤s103、采用预设聚类算法,对目标用户的行为特征数据进行聚类分析处理,得到多个用户簇。

本实施例中,对目标用户的行为特征数据进行聚类分析处理所采用的预设聚类算法可以由技术人员根据实际需要设定,本实施例此处不做具体限定。

本发明实施例通过获取用户的行为特征数据;基于用户的arpu值对行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据;采用预设聚类算法,对目标用户的行为特征数据进行聚类分析处理,得到多个用户簇,实现了基于用户arpi值确定营销对象群体,并根据用户的多维度的行为特征数据,实时高效地聚类得到多个用户簇,用户簇的划分更加精准,效率更高,从而可以进一步地实现有针对性地为不同的用户簇提供用于提高用户arpu值的营销策略。

实施例二

图2为本发明实施例二提供的用户数据处理方法流程图。在上述实施例一的基础上,本实施例中,基于用户的arpu值对行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据之后,还包括:根据预设特征数据类型,确定每个目标用户的行为特征数据中是否缺失了某一种类的特征数据;对每个缺失了至少一个种类的特征数据的目标用户的行为特征数据进行数据填充处理。如图2所示,该方法具体步骤如下:

步骤s201、获取用户的行为特征数据。

本实施例中,用户的行为特征数据可以包括多种类型的特征数据。例如,行为特征数据可以包括:用户的业务套餐数据,例如,套餐内的流量、语音等数据;用户的业务用量数据,例如,流量使用量、通话时长、消费金额等等;以及用户属性数据等。

另外,用户的行为特征数据可以包括离散型数据和连续型数据。例如,离散型数据可以包括用户的性别,用户使用业务套餐的类别等等;连续型数据可以包括流量使用量、通话时长等等。

本实施例中对用户的行为特征数据具体包括的数据内容,可以由技术人员根据实际需要进行设定或者修改,本实施例此处不做具体限定。

步骤s202、基于用户的arpu值对行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据。

其中,预设范围可以由技术人员根据实际需要进行设定,本实施例此处不做具体限定。

本实施例中,可以根据实际需要设定arpu值的预设范围,来确定本次营销对象。例如,若要对高端用户进行营销处理,则将arpu值的预设范围设定为一个较高的范围;若要对中低端用户进行营销处理,则将arpu值的预设范围设定为一个较低的范围。

该步骤中,基于用户的arpu值对行为特征数据进行筛选,保留arpu值在预设范围内的目标用户的行为特征数据。

具体的,基于用户的arpu值对行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据,具体可以采用如下方式实现:

根据用户的行为特征数据,计算每个用户的arpu值;将arpu值在预设范围内的用户确定为目标用户;从用户的行为特征数据中筛选出目标用户的行为特征数据。

步骤s203、根据预设特征数据类型,对缺失了至少一个种类的特征数据的目标用户的行为特征数据进行数据填充处理。

其中,预设特征数据类型是指用户的行为特征数据包括的特征数据的种类。

由于获取用户的行为特征数据的时候,可能会因机器或者人为等各种因素导致行为特征数据缺失了预设特征数据类型中某一种或者多种特征数据。可选的,在得到目标用户的行为特征数据之后,可以采用可视化方法对目标用户的行为特征数据的缺失数据进行可视化处理,以便于技术人员根据可视化结果对目标用户的行为特征数据进行再次筛选,删除数据缺失严重的目标用户的行为特征数据。

本实施例中,对缺失了至少一个种类的特征数据的目标用户的行为特征数据进行数据填充处理,以确保用户行为特征数据的完整性。

具体的,该步骤具体可以采用如下方式实现:

根据预设特征数据类型,确定每个目标用户的行为特征数据中是否缺失了至少一个种类的特征数据;若确定某一个或者多个目标用户的行为特征数据中缺失了至少一个种类的特征数据,对缺失了至少一个种类的特征数据的目标用户的行为特征数据进行数据填充处理。

具体的,对缺失了至少一个种类的特征数据的目标用户的行为特征数据进行数据填充处理,包括:

若某目标用户的行为特征数据中缺失的某种类的特征数据为连续型数据,则使用其他目标用户的行为特征数据中同种类的特征数据的中位数进行填充。若某目标用户的行为特征数据中缺失的某种类的特征数据为离散型数据,则使用其他目标用户的行为特征数据中同种类的特征数据的众数进行填充。

可选的,若确定某一个或者多个目标用户的行为特征数据中缺失了至少一个种类的特征数据之后,还可以计算缺失部分数据的目标用户缺失的数据所占的比例,根据缺失的数据所占的比例将缺失数据严重的目标用户的行为特征数据去除,以防止对目标用户的行为特征数据进行聚类分析处理的结果产生严重偏差,可以提高用户簇划分的准确性。

步骤s204、对目标用户的行为特征数据中的连续型数据进行中心化和标准化处理;对目标用户的行为特征数据中的离散型数据进行独热编码处理。

本实施例中,在对目标用户的行为特征数据进行聚类分析处理之前,还可以对目标用户的行为特征数据进行清洗及预处理,保证目标用户的行为特征数据的可用性,从而可以提高用户簇划分的准确性。

例如,连续型数据由于单位等不同,例如,流量数据的单位可以是kb,mb等,需要对连续型数据进行中心化和标准化的处理。

例如,离散型的数据例如性别,需要进行独热编码变成男性对应于(1,0),女性对应于(0,1),等等。

另外,本实施例中,对目标用户的行为特征数据中的连续型数据进行中心化和标准化处理具体可以采用现有技术中的任意一种对连续型数据进行中心化和标准化处理的方法来实现,本实施例此处不再赘述。

可选的,在对目标用户的行为特征数据进行聚类分析处理,得到多个用户簇之前,还可以对目标用户的行为特征数据中包括的特征数据的类型进行筛选,保留部分类型的特征数据。

步骤s205、采用预设的k-prototype聚类算法,对目标用户的行为特征数据进行聚类分析处理,得到多个用户簇。

本实施例中,考虑到目标用户的行为特征数据包括连续型数据和离散型数据,采用针对混合属性的k-prototype聚类算法对目标用户的行为特征数据进行聚类分析处理得到多个用户簇。

具体的,假设有n个待聚类样本,每个样本包括m个特征数据,其中连续型的特征数据的有n个,离散型的特征数据有m个,m=m+n,簇的个数为k,其中,n,m,m,n,k均为整数。k-prototype聚类算法,可以采用如下步骤实现:

步骤一:随机确定k个簇中心c1,c2...ck,其中ci表示长度为m的向量,ci=[c1i,c2i,...,cmi,,,,c(m+n)i]。

步骤二:对于样本xj(j=1,2,...,n),分别比较其与k个中心之间的距离。

其中,对于连续型的特征数据,这里的距离采用欧氏距离。对于离散型的特征数据,这里的距离为不同特征数据值的个数。

步骤三:根据最小距离准则,将xj划分到簇中心与xj的距离最小的簇,在全部的样本都被划分完毕之后,确定本次划分结果对应的聚类指标值(记为d值);从迭代次数为1开始,判断聚类指标值变动量是否小于预设阈值,变动率不小于预设阈值时,令迭代次数加1,重新确定k个簇中心c1,c2...ck,将向量ci中的每一个分量都更新为对应簇中个样本的对应分量的众数,并重复执行步骤二和步骤三,直至聚类指标值变动量小于预设阈值,聚类结束,得到最终的聚类结果。

其中,聚类指标值(d值)用于表示簇中样本的相关性。

另外,k-prototype聚类算法中聚类指标值(d值)的计算方法可以采用现有技术k-prototype聚类算法中计算聚类得到的某一分类内样本的相关度的方法实现,本实施例此处不再赘述。

例如,k-prototype聚类算法是结合k-means算法与k-modes算法,针对混合属性的行为特征数据,对于连续型的特征数据,采用k-means算法进行聚类处理,得到第一聚类指标值p1,对于离散型的特征数据,采用k-modes算法进行聚类处理,得到第二聚类指标值p2,那么最终的聚类指标值d为:p1+w*p2,其中w是预设权重。

其中,预设权重可以由技术人员根据实际需要进行设定,例如,如果觉得离散型的特征数据重要,则增加w,否则减少w;若设定w=0时,则表示只根据离散型的特征数据进行聚类分析。

另外,本实施例中,k-prototype聚类算法中更新一个簇的中心的方法,可以采用现有技术中结合k-means算法与k-modes算法中更新一个簇的中心的方法实现,本实施例此处不再赘述。

步骤s206、对不同的用户簇中的目标用户,采用不同的营销策略向该用户簇内的目标用户推送业务信息。

本实施例中,在对目标用户的行为特征数据进行聚类分析处理,得到多个用户簇之后,可以对不同的用户簇中的目标用户,采用不同的营销策略向该用户簇内的目标用户推送业务信息。

本发明实施例通过获取用户的行为特征数据;基于用户的arpu值对行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据;采用预设聚类算法,对目标用户的行为特征数据进行聚类分析处理,得到多个用户簇,实现了基于用户arpi值确定营销对象群体,并根据用户的多维度的行为特征数据,实时高效地聚类得到多个用户簇,用户簇的划分更加精准,效率更高,从而可以进一步地实现有针对性地为不同的用户簇提供用于提高用户arpu值的营销策略。

实施例三

图3为本发明实施例三提供的用户数据处理装置的结构示意图。本发明实施例提供的用户数据处理装置可以执行用户数据处理方法实施例提供的处理流程。如图3所示,该装置30包括:数据获取模块301,预处理模块302和聚类处理模块303。

具体地,数据获取模块301用于获取用户的行为特征数据。

预处理模块302用于基于用户的arpu值对行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据。

聚类处理模块303用于采用预设聚类算法,对目标用户的行为特征数据进行聚类分析处理,得到多个用户簇。

本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例,具体功能此处不再赘述。

本发明实施例通过获取用户的行为特征数据;基于用户的arpu值对行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据;采用预设聚类算法,对目标用户的行为特征数据进行聚类分析处理,得到多个用户簇,实现了基于用户arpi值确定营销对象群体,并根据用户的多维度的行为特征数据,实时高效地聚类得到多个用户簇,用户簇的划分更加精准,效率更高,从而可以进一步地实现有针对性地为不同的用户簇提供用于提高用户arpu值的营销策略。

实施例四

在上述实施例三的基础上,本实施例中,预处理模块还用于:

根据预设特征数据类型,确定每个目标用户的行为特征数据中是否缺失了至少一个种类的特征数据;对缺失了至少一个种类的特征数据的目标用户的行为特征数据进行数据填充处理。

可选的,预处理模块还用于:

若某目标用户的行为特征数据中缺失的某种类的特征数据为连续型数据,则使用其他目标用户的行为特征数据中同种类的特征数据的中位数进行填充;若某目标用户的行为特征数据中缺失的某种类的特征数据为离散型数据,则使用其他目标用户的行为特征数据中同种类的特征数据的众数进行填充。

可选的,预处理模块还用于:

对目标用户的行为特征数据中的连续型数据进行中心化和标准化处理;对目标用户的行为特征数据中的离散型数据进行独热编码处理。

可选的,聚类处理模块还用于:

采用预设的k-prototype聚类算法,对目标用户的行为特征数据进行聚类分析处理,得到多个用户簇。

可选的,本实施例中,用户数据处理装置还可以包括推送模块,用于:对不同的用户簇中的目标用户,采用不同的营销策略向该用户簇内的目标用户推送业务信息。

本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例,具体功能此处不再赘述。

本发明实施例通过获取用户的行为特征数据;基于用户的arpu值对行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据;采用预设聚类算法,对目标用户的行为特征数据进行聚类分析处理,得到多个用户簇,实现了基于用户arpi值确定营销对象群体,并根据用户的多维度的行为特征数据,实时高效地聚类得到多个用户簇,用户簇的划分更加精准,效率更高,从而可以进一步地实现有针对性地为不同的用户簇提供用于提高用户arpu值的营销策略。

实施例五

图4为本发明实施例五提供的用户数据处理设备的结构示意图。如图4所示,该用户数据处理设备40包括:处理器401,存储器402,以及存储在存储器402上并可由处理器401执行的计算机程序。

处理器401在执行存储在存储器402上的计算机程序时实现上述任一方法实施例提供的用户数据处理方法。

本发明实施例通过获取用户的行为特征数据;基于用户的arpu值对行为特征数据进行筛选,得到arpu值在预设范围内的目标用户的行为特征数据;采用预设聚类算法,对目标用户的行为特征数据进行聚类分析处理,得到多个用户簇,实现了基于用户arpi值确定营销对象群体,并根据用户的多维度的行为特征数据,实时高效地聚类得到多个用户簇,用户簇的划分更加精准,效率更高,从而可以进一步地实现有针对性地为不同的用户簇提供用于提高用户arpu值的营销策略。

另外,本发明实施例还提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述任一方法实施例提供的用户数据处理方法。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1