智能电视用户分类方法、计算机设备及存储介质与流程

文档序号:24240877发布日期:2021-03-12 13:15阅读:137来源:国知局
智能电视用户分类方法、计算机设备及存储介质与流程

本发明涉及大数据技术领域,特别涉及一种基于大数据平台的智能电视用户分类方法、计算机设备及存储介质。



背景技术:

许多企业都希望通过引进客户关系管理系统来改善企业目前客户管理以及服务现状,拥有有效的用户管理前提是要进行用户分类管理,所以在用户管理中就必须根据用户的信息进行分类管理。用户分类是基于用户的属性特征所进行的有效性识别和差异性区分。将用户划分为更具象的群体,无论是任何营销目的,在运营手段上,越针对某一细化群体,达成目的的概率就越大。

用户分类的目的不仅仅是实现企业内部对于用户的统一有效识别,也常常用于指导企业用户管理的战略性资源配置与战术性服务营销对策应用,支撑企业以用户为中心的个性化服务与专业化营销。

用户分类通常采用聚类的方法。聚类的方法就是一种自然的聚合,将一个对象的集合分成不同的类,来描述数据。利用聚类可以进行数据预处理,可以获得数据的基本概况,在此基础丧进行特征抽取或者分类,可以提高精确度和挖掘效率,也可以将聚类结果用于进一步关联分析,以为进一步获得有用的信息。

但是这类算法的缺点在于应用在大数据集和高维数据集时效果不好,另外这类算法发现的聚类个数常常依赖于用户参数的制定,这对于用户来说很困难,并且对于高维数据就更难确定了,因此也会导致聚类质量较差。

用户分类的正确与否取决于分类指标和分类方法的选择。对用户进行分类使用的传统方法是聚类算法。聚类分析中,k-均值算法是应用较为广泛的一种算法。传统的k-均值聚类算法方法简单、执行速度快且效率高,但同时也有一个弱点是它对初始值敏感而且容易陷入局部最小值,而且算法需要人为地预先指定类别个数,在实际应用中类别的个数不能简单明确的指定。

如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳。如果采用迭代方法,得到的结果只是局部最优。而且传统的聚类算法对噪音和异常点比较的敏感,数据量大以后,算法的准确性会大打折扣。

目前用户可作为分析的维度越来越多,用户量越来越大,行为数据等的量也是量级增长,传统的数据存储以及分析效率跟不上。

以上传统聚类分类的缺点,都能用基于大数据平台的蚁群算法得到解决

蚁群算法又称蚂蚁算法,是一种用来在图中寻找优化路径的机率型算法。它由marcodorigo于1992年在他的博士论文中提出,其灵感来源于蚂蚁在寻找食物过程中发现路径的行为。蚁群算法是一种模拟进化算法,初步的研究表明该算法具有许多优良的性质。针对pid控制器参数优化设计问题,将蚁群算法设计的结果与遗传算法设计的结果进行了比较,数值仿真结果表明,蚁群算法具有一种新的模拟进化优化方法的有效性和应用价值。



技术实现要素:

本发明的目的是克服上述背景技术中不足,提供一种基于大数据平台的智能电视用户分类方法、计算机设备及存储介质,采用大数据与蚁群算法结合,提高数据处理量级和算法准确性,解决容易陷入局部最小值和噪音敏感的问题。

为了达到上述的技术效果,本发明采取以下技术方案:

基于大数据平台的智能电视用户分类方法,包括:

步骤1.确定用户在某个指标上的值作为其在n维空间中的坐标值,其中,n为所有的指标数;

步骤2.将若干待聚类的用户按照其坐标值分布于n维空间区域内,并设置初始聚类中心;

步骤3.依据概率转移函数判断某待聚类的用户是否属于某一类,同时,不断修正聚类中心;

步骤4.计算各类间的类间距,对类间距小于间距阈值的两个类进行合并,直至所有类间的类间距均不小于间距阈值,并重新确定合并后的类的新的聚类中心;

步骤5.完成用户分类,获得不同偏好特征的客户群体。

进一步地,所述步骤3具体包括:

步骤3.1.计算待聚类的用户到任一聚类中心的距离d,判断d是否等于0,若是,进入步骤3.4;否则,进入步骤3.2;

步骤3.2.判断是否满足d≤r,若d≤r,则进入步骤3.3,其中,r为预设距离阈值;

步骤3.3.计算待聚类的用户与该聚类中心的隶属度p,判断是否满足p≥p0,若满足,则进入步骤3.4,否则,将该待聚类的用户记为孤立点;其中,p0为预设隶属度阈值;

步骤3.4.判定该待聚类的用户属于该选择的聚类中心所在类,计算在本轮循环中信息量的增加值δτ(t),更新信息量,同时更新该聚类中心所在类的新的聚类中心。

进一步地,所述步骤3.1中待聚类的用户到任一聚类中心的距离d的计算公式如下:

其中,dij表示待聚类的用户xi到聚类中心xj的加权欧式距离;1≤k≤n;a={xi|xi=(xi1,xi2,...,xin)},1≤i≤l;a表示具有l个用户数据对象的集合;p为加权因子,根据各指标不同的权重所设定。

进一步地,所述步骤3.3具体包括:

步骤3.3.1.计算待聚类的用户与该聚类中心的群体相似度f(oi):

其中,nrigh(r)代表局部环境,d(oi,oj)代表对象属性空间里的对象oi,oj之间的距离,且d(oi,oj)=dij;w表示群体相似系数;

步骤3.3.2.计算t时刻待聚类的用户xi到聚类中心xj的路径上残留的信息量τij(t),其中,

初始阶段:

经过n个时刻,蚂蚁完成一次循环,路径上的信息量:

τij(t)=ρτij(t)+δτij(t);其中,ρ为信息量的衰减程度,δτij(t)为在最新一轮循环中信息量的增加值,且其中,k为最新一轮循环中走过该路径的蚂蚁数;

步骤3.3.3.计算待聚类的用户xi到聚类中心xj的隶属度pij:

其中,s={xi|dij≤r,s=1,2,...,n};α、β为控制参数,用于决定τij和f(xi)对聚类决策的相对影响,τij=τij(t);f(xi)=f(oi);

步骤3.3.4.判断是否满足pij≥p0,若满足,则进入步骤3.4,否则,将该待聚类的用户记为孤立点。

进一步地,所述步骤4中类间距采用加权欧式距离表示。

进一步地,所述步骤5具体为:

步骤5.1.判断当前是否还有待聚类的对象,若有,则为待聚类对象赋坐标值并返回步骤3,否则进入步骤5.2;

步骤5.2.完成用户分类,获得不同偏好特征的客户群体。

同时,本发明还公开了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据平台的智能电视用户分类方法的步骤。

同时,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于大数据平台的智能电视用户分类方法的步骤。

本发明与现有技术相比,具有以下的有益效果:

本发明的基于大数据平台的智能电视用户分类方法、计算机设备及存储介质,利用大数据的优势,与蚁群算法相结合,互补弱点,得出最优用户分类方案。蚁群算法能以最小智能自治的个体利用个体与个体和个体与环境的相互作用实现完全分布式控制,具有组织性,可拓展性和健壮性等优点,能很好地应用于组合优化,本方案可较好的应用于智能电视,面对智能电视用户,采集用户基础信息数据、用户行为数据等,在大数据平台上进行数据分析形成用户画像以及用户标签,运用特定算法,算出最适合的用户分类类别,使营销策略更精准。

其中,在本发明的基于大数据平台的智能电视用户分类方法中,通过使用蚁群算法基于大数据平台对用户数据进行分析,为当前使用智能电视用户进行用户分类,由此获得不同偏好特征的用户群体。基于大数据平台提高数据处理量级,提高算法准确性。改进得到初始分区的方法,在某种程度上,降低准则函数收敛为一个局部最小值的可能性,且不需要人为指定类别个数。

附图说明

图1是本发明的基于大数据平台的智能电视用户分类方法的流程示意图。

具体实施方式

下面结合本发明的实施例对本发明作进一步的阐述和说明。

实施例:

实施例一:

一种基于大数据平台的智能电视用户分类方法,主要应用于智能电视,面对智能电视用户,采集用户基础信息数据、用户行为数据等,在大数据平台上进行数据分析形成用户画像以及用户标签。运用特定算法,算出最适合的用户分类类别,使营销策略更精准。

如图1所示,具体包括以下步骤:

步骤1.确定用户在某个指标上的值作为其在n维空间中的坐标值,其中,n为所有的指标数。

具体是基于现有的大数据平台,通过智能电视端、电视关联手机app、线上线下销售数据等采集用户基础数据以及用户行为数据库,做好数据准备。

具体的,本实施例中,首先获取由智能电视端、电视关联手机app、销售数据中采集的用户基础数据以及用户行为数据,在大数据平台上分析整理后作为数据源。

步骤2.首先将参数初始化。然后将若干待聚类的用户按照其坐标值分布于n维空间区域内,并设置初始聚类中心。

将算法中要用到的参数初始化,在定义时需要注意,如果每只蚂蚁都将任务分配给信息素浓度最高的节点处理,那么就会出现停滞现象。也就是算法过早地收敛至一个局部最优解,无法发现全局最优解。因此需要一部分蚂蚁遵循信息素最高的分配策略,还需要一部分蚂蚁遵循随机分配的策略,以发现新的局部最优解。

如假设用户分类指标是两个时,具有l个用户数据对象的集合a可以表示为:a={(xi,yi)|1<i<l};其中xi,yi分别为第i个客户对象在考评指标上的得分,这样就得到了平面坐标上的x坐标和y坐标,从而确定了平面上的点,将所有的l个对象投影到平面上,将要聚类的区域分为m*n个网格,对落入每个网格的对象计数,第i行第j列的对象计数标记为antij(1<i<m,1<j<n),antij则为每个网格区域内客户数据对象密度。在初始状态下每一个网格中只有一只蚂蚁,蚁群中蚂蚁总数为m*n个,每一个蚂蚁标记的下标表示了起始网格的位置,代表了每个客户在两个指标上面的评分。然后蚁群开始群体运动,通过概率转换函数得到拾起或放下蚂蚁的概率,并以这个概率为基础,决定这只蚂蚁的下一步运动方向。通过蚁群大量的相互作用和共同运动,在平面上形成了若干个聚类中心后,清点每一个网格内的蚂蚁个数antij,再采用递归算法收集聚类结果,获得不同特征的用户分类模式。

在实际用户分类时,用户分类指标会有多个,用户数据对象处于一个多维的空间中。此时:a={xi|xi=(xi1,xi2,...,xin)}。

如本实施例中,假设现有的电视用户的n种指标,比如购买次数、购买总金额、最近购买时间等,则可以得到一系列n维的客户数据。

在设置初始聚类中心时是初始选定几个具有代表性的聚类中心,即具有代表性的用户分类类型数据即可。

步骤3.依据概率转移函数判断某待聚类的用户是否属于某一类,同时,不断修正聚类中心。

具体包括:

步骤3.1.计算待聚类的用户到任一聚类中心的距离d,判断d是否等于0,若是,进入步骤3.4;否则,进入步骤3.2。

具体的,本实施例中用dij表示待聚类的用户xi到聚类中心xj的加权欧式距离:

其中,1≤k≤n;1≤i≤l;1≤j≤l;l为用户数据对象个数;p为加权因子,根据各指标不同的权重所设定。

步骤3.2.判断是否满足d≤r,若d≤r,则进入步骤3.3,其中,r为预设距离阈值,实际中即为聚类半径。

步骤3.3.计算待聚类的用户与该聚类中心的隶属度p,判断是否满足p≥p0,若满足,则进入步骤3.4,否则,将该待聚类的用户记为孤立点;其中,p0为预设隶属度阈值。

所述步骤3.3具体包括:

步骤3.3.1.计算待聚类的用户与该聚类中心的群体相似度f(oi):

其中,nrigh(r)代表局部环境,d(oi,oj)代表对象属性空间里的对象oi,oj之间的距离,本实施例中d(oi,oj)=dij,即二者计算方式相同,w表示群体相似系数;本实施例中,因蚁群算法的计算量非常大,所以增加设置初始聚类中心并进行引导,以相似度作为引导的依据,减少运算量以加快运算速度。

步骤3.3.2.计算t时刻待聚类的用户xi到聚类中心xj的路径上残留的信息量τij(t),其中,

初始阶段:其中,τij(0)=0即在初始时刻各条路径上的信息量均为0。

随着蚁群的移动,各路径上的信息量也会发生变化,经过n个时刻,蚂蚁完成一次循环,待聚类的用户xi到聚类中心xj的路径上的信息量:τij(t)=ρτij(t)+δτij(t);其中,ρ为信息量的衰减程度,δτij(t)为在最新一轮循环中信息量的增加值,且其中,k为最新一轮循环中走过该路径的蚂蚁数;

步骤3.3.3.计算待聚类的用户xi到聚类中心xj的隶属度pij:

其中,s={xi|dij≤r,s=1,2,...,n};α、β为控制参数,用于决定τij和f(xi)对聚类决策的相对影响,τij=τij(t);f(xi)=f(oi);

步骤3.3.4.判断是否满足pij≥p0,若满足,则进入步骤3.4,否则,将该待聚类的用户记为孤立点。

步骤3.4.判定该待聚类的用户属于该选择的聚类中心所在类,将xi归并到xj的领域,计算在本轮循环中信息量的增加值δτ(t),更新信息量,同时更新第j类的聚类中心。

步骤4.计算各类间的类间距,对类间距小于间距阈值ε的两个类进行合并,直至所有类间的类间距均不小于间距阈值ε,并重新确定合并后的类的新的聚类中心;

步骤5.判断当前是否还有待聚类的对象,若有,则为待聚类对象赋坐标值并返回步骤3,否则,完成用户分类,获得不同偏好特征的客户群体。

每次迭代完成后都会挑选出一个当前最优方案,并提升该方案的信息素浓度,从而保证在下一次迭代中,选择该方案的概率较高。选出更加具有代表性的多维数据作为聚类中心。并且还使用一定概率的蚂蚁采用随机分配策略,以发现更优的方案。

最后完成将所有的用户进行用户分类,在过程中不断优化数据,得到最优的用户分类。因使用用户数据量大,故在数据存储方面采用分布式的数据存储方式。在进行用户分类计算的过程中,将对结果多次合并并重新计算对应聚类中心。

由此用户分类完成,避免了人为分类,且考虑到用户的差异性和发展变化,以及不同的用户对于电视端终身价值的问题。后期的数据会越来越多,形成存储与分析智能用户数据的大数据平台。大数据平台中因为数据量的原因通常采用分布式储存,故有一些执行方式的改变。

在单机执行用户分类的蚁群算法中,多次循环后各信息量进行变化,更新定义聚类中心以及各对象的隶属完成用户分类。数据量级变大后采用分布式储存,此方法在分布式环境下采用的策略是可结合遗传算法收敛较快的优势,对最终连接关系进行编码和并行遗传操作,得到一组相对较优的数据,并将其转化为并行蚁群算法的初始信息量分布,进行计算从而完成用户分类。

实施例三

本实施例中公开了一种计算机设备,该计算机设备可以是服务器,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于大数据平台的智能电视用户分类方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于大数据平台的智能电视用户分类方法。

在另一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例一中基于大数据平台的智能电视用户分类方法的步骤。为避免重复,这里不再赘述。

在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例一中基于大数据平台的智能电视用户分类方法的步骤。为避免重复,这里不再赘述。

可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1