本发明涉及大数据和人工智能技术领域,具体涉及一种基于使用行为区分电视归属属性的系统与方法。
背景技术:
在大数据背景下,采集终端的数据进行分析是大多数终端生产者都在做的事情,智能电视也不例外,电视终端从被激活开始,其数据一直在被采集,大数据平台开发者想要分析的是用户的数据,但是,这个终端可能被用户使用,或者在卖场做展示,也有可能存在工厂或者卖场仓库中,对于判断哪一台属于用户正在使用的存在一定困难。
目前使用的区分方式是通过电视上报的经纬度排除其是卖场、工厂机,但是经度1度表示111.11公里,数据稍微有一点点偏差,计算出的地理位置差异很大,而往往终端上报的经纬度精确度是不够的,因此,这种方法的准确率很低。也有利用ip来计算地理位置的,但用户和卖场的ip都经常变化,计算出的地理位置更不准确。前述的利用上报经纬度或者ip来计算地理位置的方法,由于经度1度代表的实际地理距离为111.11公里,纬度一度在中国范围内代表的实际距离也很大,要把地理距离精确度控制在1公里范围内,经纬度需要精确到小数点后三位,而方圆1公里的精确度都不能准确区分卖场、工厂或者用户。事实证明,现在的电视终端上报的经纬度完全达不到准确计算地理位置的要求。而ip,由于用户和卖场的ip不是固定ip,也不能准确的计算地理位置。地理位置计算不准,终端就没办法区分卖场、工厂或者用户。
技术实现要素:
本发明克服了现有技术的不足,提供一种基于使用行为区分电视归属属性的系统与方法,用于解决判断终端归属状态不准确的技术问题。
考虑到现有技术的上述问题,根据本发明公开的一个方面,本发明采用以下技术方案:
一种基于使用行为区分电视归属属性的方法,包括以下步骤:
步骤一:将电视激活当天开机时间小于一时间设定值且激活后不再开机的、以及所述电视与工厂的距离小于一距离设定值的判定为工厂库存电视;反之,则将所述电视判定为卖场电视或用户终端;
步骤二:收集所述卖场电视或用户终端的使用行为数据,将所述使用行为数据做k-means聚类,根据聚类后各数据在质心中的值的分布来确定对电视归属属性分类有用的数据;
步骤三:根据k-means聚类得到的对电视归属属性分类有用的数据重新做k-means聚类,聚类得到的质心用于计算gmm算法的初始期望、方差,以及初始分布概率;
步骤四:用步骤三中计算出来的参数对卖场电视、用户终端做gmm聚类,得到卖场电视和用户终端的正态分布的期望和标准差,以及某一电视属于所述卖场电视或用户终端的概率,根据概率大小确定电视的归属属性。
为了更好地实现本发明,进一步的技术方案是:
根据本发明的一个实施方案,所述步骤一中的时间设定值为5分钟。
根据本发明的另一个实施方案,所述使用行为数据包括:最近卖场的大概距离、某段时间内平均整机开机时长、平均主场景的使用次数和时长、平均app的使用次数和时长。
根据本发明的另一个实施方案,所述步骤二的k-means聚类中,观察聚类后各类类型的质心对应到各数据的值,如果某类数据在各质心的值层次分明,那么这类数据能有效分类,如果某类数据在各质心较相近,或毫无规律,则它对有效分类作用不大。
根据本发明的另一个实施方案,所述步骤二中筛选后得到的对电视归属属性分类有用的数据包括终端与卖场的距离和整机开机时长。
根据本发明的另一个实施方案,还包括定期抽样用户终端,并计算该用户终端被分为卖场类的比例。
根据本发明的另一个实施方案,还包括定期抽样查询在卖场展示终端的mac,并查看这些mac被分为用户终端的比例。
根据本发明的另一个实施方案,在步骤6与步骤7的比例之和大于一设定比例值的情况下,将数据平台上所有终端重新做gmm聚类。
根据本发明的另一个实施方案,还包括终端属性状态更新:
每天检查已被分为工厂的终端是否有开机,在有开机的情况,则该终端不再为工厂类,判定被置为卖场或者用户状态。
本发明还可以是:
一种基于使用行为区分电视归属属性的系统,包括以下:
用于实现将电视激活当天开机时间小于一时间设定值且激活后不再开机的、以及所述电视与工厂的距离小于一距离设定值的判定为工厂库存电视,反之,则将所述电视判定为卖场电视或用户终端的模块;
用于实现收集所述卖场电视或用户终端的使用行为数据,将所述使用行为数据做k-means聚类,根据聚类后各数据在质心中的值的分布来确定对电视归属属性分类有用的数据的模块;
用于实现根据k-means聚类得到的对电视归属属性分类有用的数据重新做k-means聚类,聚类得到的质心用于计算gmm算法的初始期望、方差,以及初始分布概率的模块;
用于实现根据计算出来的参数对卖场电视、用户终端做gmm聚类,得到卖场电视和用户终端的正态分布的期望和标准差,以及某一电视属于所述卖场电视或用户终端的概率,根据概率确定电视的归属属性的模块。
与现有技术相比,本发明的有益效果之一是:
本发明的一种基于使用行为区分电视归属属性的系统与方法,可以从现有已经激活的智能电视终端中准确的区分出工厂终端、用户终端和卖场终端,以及可跟踪终端,及时判断出其归属状态的变化;本发明对判断终端属性的准确性和灵活性更高,对单一数据的依赖性大大降低。
附图说明
为了更清楚的说明本申请文件实施例或现有技术中的技术方案,下面将对实施例或现有技术的描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅是对本申请文件中一些实施例的参考,对于本领域技术人员来讲,在不付出创造性劳动的情况下,还可以根据这些附图得到其它的附图。
图1示出了根据本发明一个实施例的电视归属属性转换流程框图。
图2示出了根据本发明一个实施例的聚类流程框图。
图3示出了根据本发明一个实施例的状态更新流程框图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1
一种基于使用行为区分电视归属属性的方法,包括两条主线,一条是对电视终端进行属性分类,一条是根据使用行为及时更新终端的属性状态,具体地:
(一)电视终端属性分类:
步骤一:将电视激活当天开机时间小于一时间设定值且激活后不再开机的、以及所述电视与工厂的距离小于一距离设定值的判定为工厂库存电视;反之,则将所述电视判定为卖场电视或用户终端。
由于工厂在电视生产出来后需要对其做测试,然后存入库存中,如果在联网测试时被激活,一般测试时间在5分钟以内,且当天不再开机。同时,工厂的地址有限。因此,优选将开机时长小于等于5分钟,地理位置离工厂较近的终端判定为工厂终端。
步骤二:收集所述卖场电视或用户终端的使用行为数据,将所述使用行为数据做k-means聚类,根据聚类后各数据在质心中的值的分布来确定对电视归属属性分类有用的数据。
由于除开工厂终端外,非工厂电视终端的归属类型不可知,没有样本数据,无法直接使用分类算法训练分类模型,因此,本实施例首先以大数据平台上收集到的所有非工厂的用户的使用行为数据做k-means聚类,根据聚类后各数据在k个质心(中心点)中的值的分布来确定哪些数据对分类有用。
步骤三:根据k-means聚类得到的对电视归属属性分类有用的数据重新做k-means聚类,聚类得到的质心用于计算gmm算法的初始期望、方差,以及初始分布概率。
k-means聚类的原理是将训练样本分为k个簇,在不断迭代的过程中,让每个样本与其所属簇的质心的距离最近,那么每个样本的类型确定了,且质心各特征的值也确定了。如果某一个特征在k个簇的质心值较相似,或者层次不清,那么说明这个数据特征对分类不起作用,或者作用不明显。因此,k-means聚类能发现哪些用户行为对分类有效,哪些行为无用,以此来选择对分类有效的数据,拿这些有用的数据再深入聚类。
步骤四:用步骤三中计算出来的参数对卖场电视、用户终端做gmm聚类,得到卖场电视和用户终端的正态分布的期望和标准差,以及某一电视属于所述卖场电视或用户终端的概率,根据概率确定电视的归属属性。
由于用户和卖场的特征范围没有明显的界定,更符合正态分布。k-means不能准确的聚出用户和卖场的特征,用基于em算法(最大期望算法)做极大似然的gmm模型(混合高斯模型)对卖场、用户终端进行聚类,分出卖场和用户终端,并得到卖场和用户的正态分布特征参数。
gmm算法认为所有数据组成的分布都是由多个高斯分布(即正态分布)混合而成。用gmm来对卖场和用户聚类,认为卖场和用户使用终端的行为服从各自的正态分布,两个正态分布的特征有明显差异。要使gmm中各高斯分布最优,就要找到各分布的极大似然值,而gmm的极大似然函数属于凹函数,凹函数的最大似然值在其所有输入数据的均值处得到,因此,然均值最大。那么gmm的极大似然值最大,因此,通过em(期望最大)算法逼近gmm的最大似然值,求卖场和用户的最优分布。gmm聚类的过程就是通过大量终端有效分类数据不断迭代计算,求最大期望的过程,当达到最大期望,得到两个正态分布的特征(期望、方差),以及根据特征和终端数据计算出各终端属于两类的概率。后续分类时只需通过聚类得到的两个分布的特征值,计算该终端在两个分布中的概率即可,在某分布中概率更大,则属于该类。
依据以上描述,工厂、卖场、用户三种终端的特征和分类方法均已找出。同时,为了验证模型的准确性,以及卖场和用户使用行为是否有变化,采用了两种验证方法验证当下模型的准确性,一是定期抽样用户终端,用其有效使用行为数据重新做分类验证,看其是否依然满足用户概率大于卖场概率,计算分类失误的比例。同时,定期随机选择卖场,调查卖场终端的部分mac地址,检查此部分mac是否属于卖场终端的mac,并计算分类失误比例。分类比例大于p,重新收集数据做gmm聚类。
(二)属性状态更新:
电视从激活到报废整个生命周期中归属状态的转换过程如图1所示:首先,终端被激活有两种可能,一种是激活当天开机时长小于等于5分钟,且地理位置距离工厂较近,这时工厂激活,激活后变为库存(如图1中步骤1)。另一种是非工厂激活(如步骤2),库存终端卖出或者投放到卖场展示,则也变为非工厂终端(如步骤3)。非工厂终端有两种可能:卖场终端、用户终端。根据以上描述中聚类得到的特征,以及终端上报的数据分别计算在两个高斯分布中的概率,从而被分类为卖场终端或者用户终端(如步骤4、5)。卖场终端在展示完成后基本上也会变为用户终端,因而,定期对卖场终端的数据分类,监测卖场终端是否变为用户终端(如步骤6)。
由于工厂终端还会被运往卖场终端或者卖给用户,卖场终端也可能卖给用户,只有用户终端属性不会再变化,因此,本发明除了对未分类的终端进行分类外,还定期跟踪工厂和卖场终端,直到他们变为用户终端,实现了终端归属属性定期更新,动态变化。
实施例2
一种基于使用行为区分电视归属属性的方法,参见图2所示:
(1)首先,工厂测试终端的时间在5分钟以内,且测试完成后终端作为库存,不再开机。因此,工厂电视的特点:激活当天开机时长小于5分钟,且激活后不再开机。
(2)将数据平台上除工厂电视以外的所有电视可用的数据都整理出来,如终端与最近卖场的大概距离、某段时间内平均整机开机时长、平均主场景的使用次数和时长、平均app的使用次数和时长。
(3)用这些数据进行k-means聚类,类型数量为6,观察聚类后6类类型的质心对应到各数据的值,如果某类数据在各质心的值层次分明,那么这类数据能有效分类,如果某类数据在各质心较相近,或毫无规律,那么,它对有效分类作用不大。经过这样的筛选,发现最有效的数据是终端与卖场的距离、整机开机时长。
(4)用终端和卖场的距离、此前10天整机开机作为聚类数据平均时长重新做k-means聚类,聚2类,聚类得到的质心用于计算gmm算法的初始期望、方差,以及初始分布概率。
(5)用步骤(4)中计算出来的初始参数对聚类数据做gmm聚类,聚2类,聚类得到2个正态分布的期望和标准差,以及每一个用户终端被分为以上两种类型的概率,其中开机时长期望小,距离期望大的那一类为用户类。根据概率对终端进行分类,概率大的那一类即为其被分的类型。
如图3所示,终端属性状态更新:
对于数据平台上已经激活的电视终端,在聚类获取特征时,即可被分为工厂、用户或者卖场类型,具体步骤:
(1)每天新增的终端首先判断当天开机时长是否小于5分钟,且距离工厂较近,如果是,则为工厂终端,如果不是,则存为卖场或用户状态(如图1)。
(2)每天检查已被分为工厂的终端是否有开机,有开机,则此终端不再为工厂类,被置为卖场或者用户状态
(3)将10天前转为卖场或者用户状态的用gmm聚类得到的两类正态分布特征参数,分别计算被分为用户、卖场类型的概率,如果为卖场概率大,则被分为卖场类大于卖场类,否则为用户类。
(4)每天计算卖场类与卖场的距离、前10天的平均开机时长,用这两个数据和2类正态分类对卖场终端进行分类,检查卖场类是否转变为用户类。
(5)定期(周期较长)按1%抽样用户终端,用于卖场的距离、10天平均开机时长分类,计算被分为卖场类的比例;
(6)定期(周期较长)联系20个卖场,查询在卖场展示终端的mac,并查看这些mac被分为用户终端的比例,与(5)中比例相加大于n%,将数据平台上所有终端重新做gmm聚类。
以上实施步骤中,聚类过程的步骤做一次即可,而对于终端属性状态更新的步骤一般每天定时执行。
综上所述,本发明提出了一种基于电视使用行为分析电视归属状态的算法,利用电视的开机时长、地理位置、ip状态、对应用的使用情况等行为运用机器学习算法对电视的使用行为特征进行聚类,剔除工厂、卖场终端,最后剩下的就是用户终端。此套方法可动态追踪任何一台电视从激活、库存、到用户或者卖场整个过程中归属属性的变化。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似部分相互参见即可。
在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”、等,指的是结合该实施例描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说,结合任一实施例描述一个具体特征、结构或者特点时,所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本发明的范围内。
尽管这里参照本发明的多个解释性实施例对本发明进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开和权利要求的范围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外,对于本领域技术人员来说,其他的用途也将是明显的。