基于大数据的画像分析方法、装置、计算机设备及存储介质与流程

文档序号:18943363发布日期:2019-10-23 01:20阅读:183来源:国知局
基于大数据的画像分析方法、装置、计算机设备及存储介质与流程

本发明涉及数据处理领域,尤其涉及一种基于大数据的画像分析方法、装置、计算机设备及存储介质。



背景技术:

当前公司为了更好地安排企业员工的工作,一般通过聚类方法对企业员工的用户画像数据进行聚类分析,以确定企业员工的群体属性,以便更好地安排工作。或者,当前公司为了更好的扩展企业业务,一般通过聚类方法对企业客户的用户画像数据进行聚类分析,以确定企业客户的群体属性,以便更好地扩展企业业务。

当前用户画像数据分析过程中,用户画像数据对应的画像因子的数量巨大,且这些画像因子对应的维度较多或者存在类似的维度,采用经典的聚类方法对数量巨大的画像因子对应的用户画像数据进行聚类时,不但存在运算量大和花费时间长的缺点,而且聚类效果不理想。



技术实现要素:

本发明实施例提供一种基于大数据的画像分析方法、装置、计算机设备及存储介质,以解决用户画像数据分析时存在运算量大、时间长且聚类效果不理想的问题。

一种基于大数据的画像分析方法,包括:

获取画像分析请求,基于所述画像分析请求从用户画像数据库中,筛选出符合目标筛选条件的待分析画像数据,所述待分析画像数据包括待分析画像因子和每一所述待分析画像因子对应的待分析因子值;

对所述待分析画像因子对应的待分析因子值进行标准化处理,获取所述待分析画像因子对应的标准化因子值;

采用critic方法对所述待分析画像因子和对应的标准化因子值进行权重分析,获取每一所述待分析画像因子对应的权重值;

依据每一所述待分析画像因子对应的权重值对所述待分析画像因子进行筛选,确定待选择画像因子;

采用pca法对所述待选择画像因子进行降维,将降维后的前m个待选择画像因子确定为目标画像因子;

采用kmeans聚类算法对所述目标画像因子和对应的标准化因子值进行聚类,获取k个聚类类簇,根据每个所述聚类类簇对应的标准化因子值确定对应的用户群体属性;

根据每一聚类类簇对应的用户群体属性查询目标用户数据库,获取与所述用户群体属性相对应的目标对象。

一种基于大数据的画像分析装置,包括:

待分析画像数据筛选模块,用于获取画像分析请求,基于所述画像分析请求从用户画像数据库中,筛选出符合目标筛选条件的待分析画像数据,所述待分析画像数据包括待分析画像因子和每一所述待分析画像因子对应的待分析因子值;

标准化因子值获取模块,用于对所述待分析画像因子对应的待分析因子值进行标准化处理,获取所述待分析画像因子对应的标准化因子值;

权重值获取模块,用于采用critic方法对所述待分析画像因子和对应的标准化因子值进行权重分析,获取每一所述待分析画像因子对应的权重值;

待选择画像因子确定模块,用于依据每一所述待分析画像因子对应的权重值对所述待分析画像因子进行筛选,确定待选择画像因子;

目标画像因子确定模块,用于采用pca法对所述待选择画像因子进行降维,将降维后的前m个待选择画像因子确定为目标画像因子;

用户群体属性确定模块,用于采用kmeans聚类算法对所述目标画像因子和对应的标准化因子值进行聚类,获取k个聚类类簇,根据每个所述聚类类簇对应的标准化因子值确定对应的用户群体属性;

目标对象获取模块,用于根据每一聚类类簇对应的用户群体属性查询目标用户数据库,获取与所述用户群体属性相对应的目标对象。

一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据的画像分析方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于大数据的画像分析方法的步骤。

上述基于大数据的画像分析方法、装置、计算机设备及存储介质,从用户画像数据库中筛选出符合目标筛选条件的待分析画像数据,对所述待分析画像因子对应的待分析因子值进行标准化处理,获取所述待分析画像因子对应的标准化因子值,使得各标准化因子都处于同一个级别上,确保对后续处理数据的准确性;采用critic方法对所述待分析画像因子和对应的标准化因子值进行权重分析,获取每一所述待分析画像因子对应的权重值,确保待分析画像因子的权重值具有客观性,提高后续运算结果的准确度;依据每一所述待分析画像因子对应的权重值对所述待分析画像因子进行筛选,确定待选择画像因子,以除去不重要的待分析画像因子,减小后续运算复杂度。采用pca法对所述待选择画像因子进行降维,将降维后的前m个待选择画像因子确定为目标画像因子,以简化后续运算,降低运算开销;传统kmeans聚类算法对干扰数据非常敏感,少量干扰数据就能对聚类效果产生极大影响,使得聚类效果不理想,采用critic方法和pca法对数据进行降维,除去干扰数据,降低数据维度,然后采用kmeans聚类算法对所述目标画像因子和对应的标准化因子值进行聚类,获取k个聚类类簇,根据每个所述聚类类簇对应的标准化因子值确定对应的用户群体属性,根据每一聚类类簇对应的用户群体属性查询用户画像数据库,以精确获取与所述用户群体属性相对应的目标对象,从而筛选出符合目标筛选条件的目标对象。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于大数据的画像分析方法的一应用环境示意图;

图2是本发明一实施例中基于大数据的画像分析方法的一流程图;

图3是本发明一实施例中基于大数据的画像分析方法的另一流程图;

图4是本发明一实施例中基于大数据的画像分析方法的另一流程图;

图5是本发明一实施例中基于大数据的画像分析方法的另一流程图;

图6是本发明一实施例中基于大数据的画像分析方法的另一流程图;

图7是本发明一实施例中基于大数据的画像分析方法的另一流程图;

图8是本发明一实施例中基于大数据的画像分析装置的一示意图;

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的基于大数据的画像分析方法,该基于大数据的画像分析方法可应用如图1所示的应用环境中。具体地,该基于大数据的画像分析方法应用在画像分析系统中,该画像分析系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现对用户画像数据中的画像因子进行降维,并对降维后的数据进行聚类,以提高聚类效率。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中,如图2所示,提供一种基于大数据的画像分析方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:

s201:获取画像分析请求,基于画像分析请求从用户画像数据库中,筛选出符合目标筛选条件的待分析画像数据,待分析画像数据包括待分析画像因子和每一待分析画像因子对应的待分析因子值。

其中,画像分析请求是指对用户画像数据进行分析的请求。用户画像数据库是指存储原始画像数据的数据库。原始画像数据是指存储在用户画像数据库中的每一用户对应的用户画像数据。该原始画像数据是基于大数据方法获得的用户画像数据,例如,若原始画像数据对应的用户为企业员工,则其对应的原始画像数据包括但不限于每一用户的个人基本信息(如出生年月、籍贯)、展业行为信息(如频繁出入场所、工作时间、工作地址、职业)和维度客户信息(如客户数量、客户类型等)。目标筛选条件是指本次画像分析时,用于对原始画像数据进行筛选的条件,以筛选出要进行分析的用户对应的用户画像数据,一般来说,在客户端触发画像分析请求时,会携带本次画像分析对应的目标筛选条件。待分析画像数据是指从原始画像数据中筛选出满足目标筛选条件的画像数据,以便后续对待分析画像数据进行分析。待分析画像因子是指待分析画像数据中一个具体的画像因子,可以理解为维度例如,出生时间、籍贯和职业分别表示3个待分析画像因子。待分析因子值是指待分析画像因子对应的值,该待分析画像因子和待分析因子值形成一组key-value对,例如,出生年月-1990年1月、籍贯-广东深圳和职业-用户等。

具体地,用户画像数据库中预先存储有多个用户对应的原始画像数据,根据目标筛选条件查询用户画像数据库,从用户画像数据库中的原始画像数据筛选出满足目标筛选条件的用户画像数据作为待分析画像数据。例如,若需要分析业绩达标的企业员工的用户画像数据,则可以将目标筛选条件设定为业绩达标,从原始画像数据中筛选出业绩达标的企业员工对应的原始画像数据确定为待分析画像数据,该待分析画像数据包括待分析画像因子和对应的待分析因子值。

s202:对待分析画像因子对应的待分析因子值进行标准化处理,获取待分析画像因子对应的标准化因子值。

其中,标准化处理是指对待分析因子值进行处理,使得待分析因子值处于同一数量级的过程。标准化因子值是指待分析画像因子经过标准化处理后对应的值,标准化因子值均处于同一数量级,以便后续对标准化因子值进行分析,避免出现由于数据多样性而造成数据分析结果出现错误。例如,籍贯可能为广东深圳、广东广州和广东东莞等,为了便于后续分析,可将其转成为特定的数值,如采用0001代表广东深圳、0002代表广东广告和0003代表广东东莞。

由于待分析画像因子的对应的待分析因子值的取值具有多样性,即每一待分析因子值的取值具有不同的量化单位,不利于进行数据分析处理,因此,本实施例对待分析因子值进行标准化处理,将待分析因子值转换为无量纲化指标的值,即将待分析因子值转换为无量纲化的标准化因子值,使得各标准化因子都处于同一个级别上,确保对后续处理数据的准确性。

s203:采用critic方法对待分析画像因子和对应的标准化因子值进行权重分析,获取每一待分析画像因子对应的权重值。

其中,critic方法(criteriaimportancethoughintercrieriacorrelation)即权重确定方法,critic方法是由diakoulaki提出的一种客观权重赋权法。本实施例中,采用critic方法确定待分析画像因子的客观权重,具体通过对比强度和指标之间的冲突性这两个基本概念作为基础确定待分析画像因子的客观权重。其中,对比强度用于表示同一指标各个评价方案取值差距的大小,以标准差的形式来表现,即标准差的大小表明了在同一指标内各方案的取值差距的大小,标准差越大各方案的取值差距越大。指标之间的冲突性是以指标之间的相关性为基础,即指标之间的冲突性用于表示待分析画像因子之间的冲突性,若两个待分析画像因子之间具有较强的正相关,说明两个指标冲突性较低。权重值是指对待分析画像因子和对应的标准化因子值进行权重分析后,确定该待分析画像因子的重要程度的值。

具体地,在对用户画像数据进行分析时,由于每一用户对应的待分析画像数据具有非常多个待分析画像因子,若采用传统的聚类对待分析画像因子对应的待分析因子值进行聚类,由于待分析画像因子的数量过多将使得运算困难且聚类结果也不准确。本实施例中,采用critic方法对待分析画像因子和对应的标准化因子值进行权重分析,然后将标准化因子值与每一待分析画像因子的权重占比相乘得到每一待分析画像因子的权重值,以确定待分析画像因子的相对重要性,采用critic方法确定待分析画像因子的权重值,确保待分析画像因子的权重值具有客观性,提高后续运算结果的准确度。

s204:依据每一待分析画像因子对应的权重值对待分析画像因子进行筛选,确定待选择画像因子。

其中,待选择画像因子是指对待分析画像因子经过权重分析后获取的权重值较高的因子。具体是对待分析画像因子采用critic方法确定每一待分析画像因子的权重,筛选出权重值大于预设权重阈值的待分析画像因子,并将这些待分析画像因子确定为待选择画像因子,以排除权重值低对应的待分析画像因子,即过滤不重要的待分析画像因子,从而减低运算数量,提高分析效率。其中,预设权重阈值是指预先设定,用于筛选出待分析画像因子的值。

具体地,为了减小运算复杂度同时确保聚类时可以准确得到待分析画像因子对应的用户群体属性,在待分析画像因子对应的权重值大于或等于预设权重阈值时,将待分析画像因子确定为待选择画像因子。例如,本次画像分析中,待分析画像因子为成单类型的权重值大于预设权重阈值,则将该待分析画像因子筛选出来,确定为待选择画像因子。在待分析画像因子对应的权重值小于预设权重阈值时,则说明该待分析画像因子相对于整体分析并不是关键的,例如,若待分析画像因子为出生年月的权重值小于预设权重阈值时,则说明出生年月这一待分析画像因子相对于本次画像分析并不重要,因此,需删除该待分析画像因子。依据每一待分析画像因子对应的权重值对待分析画像因子进行筛选,以除去不重要的待分析画像因子,减小后续运算复杂度,进而提高分析效率。

s205:采用pca法对待选择画像因子进行降维,将降维后的前m个待选择画像因子确定为目标画像因子。

其中,pca法(principalcomponentanalysis)即主成分分析法,也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复。pca法在引进多方面变量的同时将复杂因素归结为几个主成分,使问题简单化,同时得到的结果更加科学有效的数据信息。

具体地,由于采用critic方法对待分析画像因子和对应的标准化因子值进行权重分析只得出每一待分析画像因子对应的权重值,为了更好地实现聚类,还需要采用pca法对待选择画像因子进行降维,以得到待选择画像因子的数据特征,进一步实现数据降维,降低聚类运算复杂度。

pca法对待选择画像因子进行降维的具体步骤,包括:首先,将待选择画像因子对应的标准化因子值按行列组成矩阵队列l,将矩阵队列中的每一行(即所有用户的同一属性的待选择画像因子对应的标准化因子值)进行零均值化处理,即减去这一行的均值;然后,求协方差矩阵,求协方差的特征值和特征向量;接着,将特征向量按对应特征值大于从上到下按行排列成矩阵,取前z(z为正整数)行组成矩阵p;y=pl即为降维到后的数据,其中l为降维前的矩阵队列,y为矩阵p乘以原始的矩阵队列l,就得到了我们需要的降维后的数据矩阵y,通过pca法对待选择画像因子对应的标准化因子值进行降维可保存原始数据的信息且有效减少数据的维度,可有效简化后续聚类运算,降低运算开销,提高聚类效果。

s206:采用kmeans聚类算法对目标画像因子和对应的标准化因子值进行聚类,获取k个聚类类簇,根据每个聚类类簇对应的标准化因子值确定对应的用户群体属性。

其中,kmeans聚类算法是指以空间中k个点为初始聚类中心对最靠近初始聚类中心的点进行归类的算法,即将目标画像因子对应的标准化因子值划分为归属于不同初始聚类中心的标准化因子值。用户群体属性是用于表示每个聚类类簇对应的用户的共有属性。可以理解为,用户群体属性根据分析目的有所不同。例如,若分析目的是指分析业务人员的工作类型,则用户群体属性可以是工作类型,即将人群画像分为适合处理投诉型、适合产品推广类型和适合处理售后服务型等。例如,若目标筛选条件是分析业绩达标时,则通过critic方法和pca法处理后获取的目标画像因子是影响业绩是否达标的若干关键因子(如包括a、b、c和d这四个目标画像因子),由于不同待分析画像数据中,每一目标画像因子均对应一标准化因子值(如a这一目标画像因子可以对应a1、a2……an中的任一值,如用户1对应的标准化因子值可以a1、b2、c3和d1,用户2对应的标准化因子值可以a2、b2、c1和d4……),在对这些目标画像因子对应的标准化因子进行聚类之后,确定的k个聚类类簇后,根据每个聚类类簇对应的标准化因子值确定其对应的用户群体属性。根据每个聚类类簇对应的标准化因子值确定其对应的用户群体属性,具体是指对每个聚类类簇中各个目标画像因子对应的标准化因子值进行归纳分析,以提取其共有属性的过程。

具体地,采用kmeans聚类算法对目标画像因子和对应的标准化因子值进行聚类的步骤包括:(1)从数据中选择k个目标画像因子对应的标准化因子值作为初始聚类中心;(2)计算每个聚类对象(目标画像因子对应的标准化因子值)到聚类中心的距离,按照最小距离原则将聚类对象分配到最近的初始聚类中心;(3)根据聚类结果,再次计算k个聚类的中心,并作为新的聚类中心;(4)计算标准测度函数(通常采用均方差作为标准测度函数),不断重复计算以得到新的聚类中心的过程直到标准测度函数开始收敛为止,即直到达到最大迭代次数,则停止,否则,继续操作从而获得k个聚类类簇。根据处于每一聚类类簇范围内的标准化因子值查询因子数据表确定对应的用户群体属性。采用kmeans聚类算法对经过critic方法和pca法处理后的数据进行聚类,提高聚类效率以获得精确用户群体属性。

s207:根据每一聚类类簇对应的用户群体属性查询目标用户数据库,获取与用户群体属性相对应的目标对象。

其中,目标用户数据库是指存储有用户数据的数据库,目标对象是指符合用户群体属性的用户。在本实施例中,由于每一用户画像数据库中存储有每一用户的所有数据,在计算出每一聚类类簇后,根据每一聚类类簇对应的用户群体属性查询用户画像数据库,获得与用户群体属性相对应的目标对象,为后续分析提供精准数据。

本实施例所提供的基于大数据的画像分析方法中,从用户画像数据库中筛选出符合目标筛选条件的待分析画像数据,对待分析画像因子对应的待分析因子值进行标准化处理,获取待分析画像因子对应的标准化因子值,使得各标准化因子都处于同一个级别上,确保对后续处理数据的准确性;采用critic方法对待分析画像因子和对应的标准化因子值进行权重分析,获取每一待分析画像因子对应的权重值,确保待分析画像因子的权重值具有客观性,提高后续运算结果的准确度;依据每一待分析画像因子对应的权重值对待分析画像因子进行筛选,确定待选择画像因子,以除去不重要的待分析画像因子,减小后续运算复杂度。采用pca法对待选择画像因子进行降维,将降维后的前m个待选择画像因子确定为目标画像因子,以简化后续运算,降低运算开销;传统kmeans聚类算法对干扰数据非常敏感,少量干扰数据就能对聚类效果产生极大影响,使得聚类效果不理想,采用critic方法和pca法对数据进行降维,除去干扰数据,降低数据维度,然后采用kmeans聚类算法对目标画像因子和对应的标准化因子值进行聚类,获取k个聚类类簇,根据每个聚类类簇对应的标准化因子值确定对应的用户群体属性,根据每一聚类类簇对应的用户群体属性查询用户画像数据库,以精确获取与用户群体属性相对应的目标对象,从而筛选出符合目标筛选条件的目标对象。

在一实施例中,如图3所示,目标筛选条件包括待筛选维度和与待筛选维度相对应的维度阈值,步骤s201,即基于画像分析请求从用户画像数据库中,筛选出符合目标筛选条件的待分析画像数据,包括:

s301:基于画像分析请求查询用户画像数据库,确定每一原始画像数据中与待筛选维度相对应的原始维度值。

其中,待筛选维度是指对原始画像因子进行筛选的标准,以选择出符合画像分析目的的画像因子,例如,若本次画像分析是为了分析业务员的工作表现,则待筛选维度包括业务员的工作绩效、工作年龄、客户类型、和客户工作领域等。维度阈值是指待筛选维度对应的值,该维度阈值是人为设定的,例如,若待筛选维度为业务员的业务绩效,为分析业绩较好的业务员的工作表现,则将维度阈值设为70%,以便后续分析业绩较好的业务员的工作表现。原始维度值是通过用户的原始画像数据得出的该用户同一维度的值,例如,获取原始画像数据中业务员的业务绩效维度,统计该业务员的业务绩效平均值作为原始维度值并记录中原始画像数据表中。

具体地,可以将同一用户的画像收集在原始画像数据表并存储在用户画像数据库中,该原始画像数据表包括每一用户的原始画像数据,然后服务器对原始画像数据表中与待筛选维度相对应的维度进行判断,以快速筛选出符合待筛选维度的维度,加快分析进度。其中,原始画像数据表是指用于存储将同一用户的画像数据的表,不同用户对应不同的原始画像数据表。

s302:若原始维度值与维度阈值相匹配,则将原始画像数据确定为符合目标筛选条件的待分析画像数据。

具体地,在服务器获取到与待筛选维度对应的原始维度值后,可以采用查询条件指令查询画像数据表中的数据,依据维度阈值以快速从原始画像数据中筛选出原始维度值与维度阈值相匹配的原始画像数据并确定为待分析画像数据,以除去不需要进行分析的画像数据,减小后续的运算复杂度,便后续对待分析画像数据进行分析。

本实施例所提供的基于大数据的画像分析方法中,将原始维度值与维度阈值相匹配的原始画像数据确定为待分析画像数据,以除去不需要进行分析的画像数据,减小后续的运算复杂度,便后续对待分析画像数据进行分析。

在一实施例中,如图4所示,步骤s202,即对待分析画像因子对应的待分析因子值进行标准化处理,获取待分析画像因子对应的标准化因子值,包括:

s401:获取与待分析画像因子相对应的数值转换规则或者标准化转换公式。

其中,数值转换规则是指将待分析因子值转化为同一量级的数据的规则,例如,对于性别男女就转换成0/1,籍贯转换成相应的编码,确保数据具有可比性。标准化转换公式是指将待分析因子值转化为同一量级的数据的公式。可以理解,数值转换规则和标准化转换公式均用于将待分析因子值转化为同一量级的标准化因子值,以确保后续数据处理的准确性,使数据分析结果更加可靠。

s402:若待分析因子值为类别型数据,则采用数值转换规则对待分析因子值进行数值转换,获取与待分析画像因子相对应的标准化因子值。

其中,类别型数据是指待分析因子值为用于表示特定类别的数值,而不是连续型数据。例如,类别型数据可以是指性别、籍贯或者业务类型等。在待分析因子值为类别型数据时,采用数值转换规则将待分析因子值转换成对应的阿拉伯数字,以获取待分析画像因子对应的标准化因子值,例如,性别为男或者女时,男性转化为0,女性转化为1。

s403:若待分析因子值为连续型数据,则采用标准化转换公式对待处理因子值进行标准化处理,获取与待分析画像因子相对应的标准化因子值。

连续型数据是指待分析因子值为连续区间的数据,连续型数据包括但不限于工作时间、客户数量和客户购买额度等连续数值。具体地,待分析因子值为连续型数据且数据越大越好时,如客户数量或者客户购买额度时,即要求第l个待分析画像因子越大越好,则其标准化转换公式为n用于限定标准化因子值的数值范围。当待分析因子值为连续型数据且数据越小越好时,例如,客户投诉率或者客户误解率等,即要求第l个待分析画像因子越大越好,则其标准化转换公式为n用于限定标准化因子值的数值范围。

本实施例所提供的基于大数据的画像分析方法中,获取与待分析画像因子相对应的数值转换规则或者标准化转换公式,以便根据数值转换规则将类别型数据转换为标准化因子值,根据标准化转换公式将连续型数据转换为标准化因子值,将待分析画像因子对应的数值转换为同一量级的标准化因子值使得因子值具有可比性,确保后续数据处理的准确性,使数据分析结果更加可靠。

在一实施例中,如图5所示,步骤s203,即采用critic方法对待分析画像因子和对应的标准化因子值进行权重分析,获取每一待分析画像因子对应的权重值,包括:

s501:基于任意两个待分析画像因子对应的标准化因子值进行相关度计算,获取任意两个待分析画像因子对应的相关系数。

其中,相关系数是用于反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度,确保获得相关系数具有可靠性。计算相关系数的公式为ri,j是指相关系数,i和j用于表示任意两个待分析画像因子对应的标准化因子值。相关系数的值介于-1与1之间,其性质如下:1)若r>0时,表示两标准化因子值正相关,r<0时,表示两变量负相关;2)当|r|=1时,表示两标准化因子值为完全线性相关,即为函数关系;3)当r=0时,表示两标准化因子值间无线性相关关系。当0<|r|<1时,表示两标准化因子值存在一定程度的线性相关,且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,两变量间线性关系越弱。

s502:根据任意两个待分析画像因子对应的相关系数,计算每一待分析画像因子对应的量化指标。

量化指标是用于衡量每一待分析画像因子与其他待分析画像因子的冲突性大小的指标。具体地,每一待分析画像因子的量化指标可以通过计算得到,其中,ri,j为第i个待分析画像因子与第j个待分析画像因子之间的相关系数。可以理解地,若两个待分析画像因子的相关性越强,则量化指标越小。

s503:采用每一待分析画像因子对应的量化指标,计算每一待分析画像因子对应的信息量。

信息量是指用于评判待分析画像因子的重要程度的值。具体地,采用计算每一待分析画像因子的信息量,其中,cj为第j个待分析画像因子所包括的信息量,b为本实施例中第b个待分析画像因子。一般来说,cj越大,说明第j个待分析画像因子所包含的信息量越大,该待分析画像因子的相对重要性也大,δj是指标准差。根据量化指标确定每一待分析画像因子对应的信息量,以确定每一待分析画像因子相对全部待分析画像因子的重要程度。

s504:根据每一待分析画像因子对应的信息量,确定每一待分析画像因子对应的权重值。

具体地,根据每一待分析画像因子的权重占比计算公式计算得到每一待分析画像因子的权重占比,根据每一待分析画像因子对应的标准化因子值乘以对应的待分析画像因子的权重占比值,确定每一待分析画像因子对应的权重值,确保每一待分析画像因子对应的权重值具有可靠性,其中,wj为待分析画像因子对应的权重值,m为所有待分析画像因子的数量,cj为第j个待分析画像因子所包括的信息量。

本实施例所提供的基于大数据的画像分析方法中,基于任意两个待分析画像因子对应的标准化因子值进行相关度计算,确保获得的相关系数具有可靠性;根据任意两个待分析画像因子对应的相关系数,计算每一待分析画像因子对应的量化指标;采用每一待分析画像因子对应的量化指标,计算每一待分析画像因子对应的信息量,以确定每一待分析画像因子相对全部待分析画像因子的重要程度;根据每一待分析画像因子对应的信息量,确定每一待分析画像因子对应的权重值,以保证获取的待分析画像因子对应的权重值的客观性。

在一实施例中,如图6所示,步骤s204,依据每一待分析画像因子对应的权重值对待分析画像因子进行筛选,确定待选择画像因子,包括:

s601:对所有待分析画像因子对应的权重值进行排序,获取权重值排序结果。

其中,权重值排序结果是指根据每一待分析画像因子的权重值进行排序的结果。具体地,可以采用正序(即权重值由高到低的顺序)依次显示在显示设备上,也可以采用倒序(即权重值由低到高的顺序)依次显示在显示设备上,直观显示权重值排序结果。其中,显示设备是指用于存储、显示和运算的设备,可以是计算机等。

s602:计算权重值排序结果中,前x个待分析画像因子对应的权重值之和相对于所有待分析画像因子对应的权重值之和的总权重占比。

其中,总权重占比可以理解为部分待分析画像因子对应的权重值之和占中权重值之和的比例。具体地,可以选取前x(x≧1)个待分析画像因子对应的权重之和除以所有待分析画像因子对应的权重值之和进行计算,以快速得到总权重占比。

s603:若总权重占比大于预设占比阈值,则将权重值排序结果中前x个待分析画像因子确定为待选择画像因子。

其中,预设占比阈值是指预先设定的阈值,用于评判前x个待分析画像因子对应的权重值之和是否达到标准。具体地,在总权重占比大于预设占比阈值时,将权重值排序结果中前x个待分析画像因子确定为待选择画像因子,从而除去干扰因子,降低运算维度,提高聚类准确率。

本实施例所提供的基于大数据的画像分析方法中,对所有待分析画像因子对应的权重值进行排序,获取权重值排序结果;计算权重值排序结果中,前x个待分析画像因子对应的权重值之和相对于所有待分析画像因子对应的权重值之和的总权重占比;在总权重占比大于预设占比阈值时,则将权重值排序结果中前x个待分析画像因子确定为待选择画像因子,从而除去干扰因子,降低运算维度,提高聚类准确率。

在一实施例中,如图7所示,步骤s206,即根据每个聚类类簇对应的标准化因子值确定对应的用户群体属性,包括:

s701:获取每个聚类类簇对应的目标画像因子,对目标画像因子对应的待分析因子值按预设的分类规则进行分类,获取至少两个分类属性。

其中,分类规则是指预先设定的用于对标准化因子值进行分类的规则,例如,在目标画像因子为工作时间时,可以将分类规则设为0-2、2-4、4-6、4-8……等工作时间段,即按按2年一个分类属性进行划分,得到至少两个分类属性,以确定每一分类属性对应的数量。

s702:统计每一分类属性对应的目标画像因子的类别数量,依据类别数量进行降序排序,获取降序排序结果。

其中,类别数量是指目标画像因子中符合同一分类属性应的全部数值的数量。降序排序结果是显示相同目标画像因子中每一分类属性中的数量由多到少的结果,该降序排序结果包括类别数量和对应的类别属性,可直观显示于显示设备上,便于查看。例如,在目标画像因子为工作时间时,设0-2这一分类属性对应的类别数量为100个,2-4这一分类属性对应的类别数量为300个,4-6这一分类属性对应的类别数量为250个,6-8这一类别数量对应的200个,8-10这一分类属性对应的类别数量为150个。在依据类别数量进行降序排序,获取降序排序结果时,可获取300-2-4、250-4-6、200-6-8、150-8-10和100-0-2类别数量和工作时间段对应的降序排序结果。

s703:计算降序排序结果中,前s个类别数量的和值与所有类别数量的和值对应的目标比例值。

其中,目标比列值是指部分类别数量占整体类别数量比例的值,具体是通过目标比列值计算公式以便捷计算得到目标比例值,其中,p为目标比例值,qi为每一第i个分类属性对应的类别数量,m为分类属性的数量,s为降序排序结果中第s个分类属性的位置。

s704:若目标比例值大于预设比例阈值,则将前s个类别数量对应的分类属性的并集确定为目标画像因子对应的因子群体属性。

其中,预设比例阈值是指预先设定的用于判断目标比例值是否符合标准的值。该预设比例阈值可以可以根据实际情况设定,以限定目标画像因子中群体属性的范围。

具体地,在目标比例值大于预设比例阈值时,则将前x个类别数量对应的分类属性的并集确定为目标画像因子对应的因子群体属性,可以排除离散型数值对聚类分析结果的干扰。例如,在目标画像因子为工作时间时,将预设比例阈值设定为90%,根据即降序排列结果则将前4个分类属性的并集确定因子群体属性,即将2-4、4-6、6-8和8-10的并集确定因子群体属性。

s705:基于目标画像因子对应的因子群体属性,确定与聚类类簇相对应的用户群体属性。

具体地,将所有目标画像因子对应的因子群体属性的集合,确定为与聚类类簇相对应的用户群体属性,该用户群体属性是符合目标筛选条件下的用户对应的共性属性,以便后续基于该用户群体属性进行业务扩展,例如人员招聘、客户分配等场景下均可适用。

本实施例所提供的基于大数据的画像分析方法中,对每个聚类类簇对应的目标画像因子的待分析因子值按的分类规则进行分类,以确定每一分类属性对应的数量,并依据类别数量进行降序排序,将降序排序结果直观显示在显示设备上;计算降序排序结果中,前s个类别数量的和值与所有类别数量的和值对应的目标比例值;在目标比例值大于预设比例阈值时,则将前s个类别数量对应的分类属性的并集确定为目标画像因子对应的因子群体属性,基于目标画像因子对应的因子群体属性,确定与聚类类簇相对应的用户群体属性,以便后续基于该用户群体属性进行业务扩展,例如人员招聘、客户分配等场景下均可适用。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

在一实施例中,提供一种基于大数据的画像分析装置,该基于大数据的画像分析装置与上述实施例中基于大数据的画像分析方法一一对应。如图8所示,该基于大数据的画像分析装置包括待分析画像数据筛选模块801、标准化因子值获取模块802、权重值获取模块803、待选择画像因子确定模块804、目标画像因子确定模块805、用户群体属性确定模块806和目标对象获取模块807。各功能模块详细说明如下:

待分析画像数据筛选模块801,用于获取画像分析请求,基于画像分析请求从用户画像数据库中,筛选出符合目标筛选条件的待分析画像数据,待分析画像数据包括待分析画像因子和每一待分析画像因子对应的待分析因子值。

标准化因子值获取模块802,用于对待分析画像因子对应的待分析因子值进行标准化处理,获取待分析画像因子对应的标准化因子值。

权重值获取模块803,用于采用critic方法对待分析画像因子和对应的标准化因子值进行权重分析,获取每一待分析画像因子对应的权重值。

待选择画像因子确定模块804,用于依据每一待分析画像因子对应的权重值对待分析画像因子进行筛选,确定待选择画像因子。

目标画像因子确定模块805,用于采用pca法对待选择画像因子进行降维,将降维后的前m个待选择画像因子确定为目标画像因子。

用户群体属性确定模块806,用于采用kmeans聚类算法对目标画像因子和对应的标准化因子值进行聚类,获取k个聚类类簇,根据每个聚类类簇对应的标准化因子值确定对应的用户群体属性。

目标对象获取模块807,用于根据每一聚类类簇对应的用户群体属性查询目标用户数据库,获取与用户群体属性相对应的目标对象。

优选地,目标筛选条件包括待筛选维度和与待筛选维度相对应的维度阈值;待分析画像数据筛选模块801,包括:原始维度值确定单元和第一判断单元。

原始维度值确定单元,用于基于画像分析请求查询用户画像数据库,确定每一原始画像数据中与待筛选维度相对应的原始维度值。

第一判断单元,用于若原始维度值与维度阈值相匹配,则将原始画像数据确定为符合目标筛选条件的待分析画像数据。

优选地,标准化因子值获取模块802,包括:因子转换单元、类别型数据转换单元和连续型数据转换单元。

因子转换单元,用于获取与待分析画像因子相对应的数值转换规则或者标准化转换公式。

类别型数据转换单元,用于若待分析因子值为类别型数据,则采用数值转换规则对待分析因子值进行数值转换,获取与待分析画像因子相对应的标准化因子值。

连续型数据转换单元,用于若待分析因子值为连续型数据,则采用标准化转换公式对待处理因子值进行标准化处理,获取与待分析画像因子相对应的标准化因子值。

优选地,权重值获取模块803,包括:相关系数获取单元、量化指标计算单元、信息量计算单元和权重值确定单元。

相关系数获取单元,用于基于任意两个待分析画像因子对应的标准化因子值进行相关度计算,获取任意两个待分析画像因子对应的相关系数。

量化指标计算单元,用于根据任意两个待分析画像因子对应的相关系数,计算每一待分析画像因子对应的量化指标。

信息量计算单元,用于采用每一待分析画像因子对应的量化指标,计算每一待分析画像因子对应的信息量。

权重值确定单元,用于根据每一待分析画像因子对应的信息量,确定每一待分析画像因子对应的权重值。

优选地,待选择画像因子确定模块804,包括:权重值排序结果获取单元、总权重占比计算单元和第二判断单元。

权重值排序结果获取单元,用于对所有待分析画像因子对应的权重值进行排序,获取权重值排序结果。

总权重占比计算单元,用于计算权重值排序结果中,前x个待分析画像因子对应的权重值之和相对于所有待分析画像因子对应的权重值之和的总权重占比。

第二判断单元,用于若总权重占比大于预设占比阈值,则将权重值排序结果中前x个待分析画像因子确定为待选择画像因子。

优选地,用户群体属性确定模块806,包括:分类属性获取单元、降序排序结果获取单元、目标比例值计算单元、因子群体属性确定单元和用户群体属性确定单元。

分类属性获取单元,用于获取每个聚类类簇对应的目标画像因子,对目标画像因子对应的待分析因子值按预设的分类规则进行分类,获取至少两个分类属性。

降序排序结果获取单元,用于统计每一分类属性对应的目标画像因子的类别数量,依据类别数量进行降序排序,获取降序排序结果。

目标比例值计算单元,用于计算降序排序结果中,前s个类别数量的和值与所有类别数量的和值对应的目标比例值。

因子群体属性确定单元,用于若目标比例值大于预设比例阈值,则将前s个类别数量对应的分类属性的并集确定为目标画像因子对应的因子群体属性。

用户群体属性确定单元,用于基于目标画像因子对应的因子群体属性,确定与聚类类簇相对应的用户群体属性。

关于基于大数据的画像分析装置的具体限定可以参见上文中对于基于大数据的画像分析方法的限定,在此不再赘述。上述基于大数据的画像分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库执行上述基于大数据的画像分析方法过程中采用或者生成的数据,如目标画像因子。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大数据的画像分析方法。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中基于大数据的画像分析方法,例如图2所示s201-s207,或者图3至图7中所示,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现基于大数据的画像分析装置这一实施例中的各模块/单元的功能,例如图8所示的待分析画像数据筛选模块801、标准化因子值获取模块802、权重值获取模块803、待选择画像因子确定模块804、目标画像因子确定模块805、用户群体属性确定模块806和目标对象获取模块807的功能,为避免重复,这里不再赘述。

在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中基于大数据的画像分析方法,例如图2所示s201-s207,或者图3至图7中所示,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现基于大数据的画像分析装置这一实施例中的各模块/单元的功能,例如图8所示的待分析画像数据筛选模块801、标准化因子值获取模块802、权重值获取模块803、待选择画像因子确定模块804、目标画像因子确定模块805、用户群体属性确定模块806和目标对象获取模块807的功能,为避免重复,这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1