一种用户画像方法、装置、可读存储介质及终端设备与流程

文档序号:17929153发布日期:2019-06-15 00:40阅读:152来源:国知局
一种用户画像方法、装置、可读存储介质及终端设备与流程

本发明属于计算机技术领域,尤其涉及一种用户画像方法、装置、计算机可读存储介质及终端设备。



背景技术:

随着互联网的普及与发展,越来越多的数据可以被各个互联网运营商收集起来。例如,对于电商网站,可以获得用户的购买记录、浏览记录等信息;对于搜索引擎,可以获得用户的搜索记录、点击记录等信息。为了更好的利用这样的信息,以提供更为高效优质的服务,用户画像这一技术得到了普遍重视。用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。

但是,目前的用户画像一般都是针对单一的标签进行的,然而,在很多实际场景中,一个用户可能同时具有多个不同维度的标签。针对这种多标签的场景,现有技术一般会将各个不同的标签维度独立进行处理,分别在各个标签维度上进行用户画像,这种方式未能充分考虑到各个标签维度之间的关联性,往往导致用户画像的准确率较低。



技术实现要素:

有鉴于此,本发明实施例提供了一种用户画像方法、装置、计算机可读存储介质及终端设备,以解决现有技术一般会将各个不同的标签维度独立进行处理,导致用户画像的准确率较低的问题。

本发明实施例的第一方面提供了一种用户画像方法,可以包括:

获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;

将所述用户的特征向量输入到预设的分类器序列中进行处理,得到所述用户的标签向量,其中,所述分类器序列中包括两个以上的不同分类器,且各个分类器的排列顺序通过在训练过程中对各种排列顺序进行遍历确定,所述标签向量包括两个以上的标签维度上的标签值,每个分类器用于确定一个标签维度上的标签值。

本发明实施例的第二方面提供了一种用户画像装置,可以包括:

特征向量构造模块,用于获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;

分类器处理模块,用于将所述用户的特征向量输入到预设的分类器序列中进行处理,得到所述用户的标签向量,其中,所述分类器序列中包括两个以上的不同分类器,且各个分类器的排列顺序通过在训练过程中对各种排列顺序进行遍历确定,所述标签向量包括两个以上的标签维度上的标签值,每个分类器用于确定一个标签维度上的标签值。

本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:

获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;

将所述用户的特征向量输入到预设的分类器序列中进行处理,得到所述用户的标签向量,其中,所述分类器序列中包括两个以上的不同分类器,且各个分类器的排列顺序通过在训练过程中对各种排列顺序进行遍历确定,所述标签向量包括两个以上的标签维度上的标签值,每个分类器用于确定一个标签维度上的标签值。

本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:

获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;

将所述用户的特征向量输入到预设的分类器序列中进行处理,得到所述用户的标签向量,其中,所述分类器序列中包括两个以上的不同分类器,且各个分类器的排列顺序通过在训练过程中对各种排列顺序进行遍历确定,所述标签向量包括两个以上的标签维度上的标签值,每个分类器用于确定一个标签维度上的标签值。

本发明实施例与现有技术相比存在的有益效果是:本发明实施例预先构造出一个分类器序列,其中的各个分类器的排列顺序通过在训练过程中对各种排列顺序进行遍历确定,每个分类器用于确定一个标签维度上的标签值,通过这样的方式,排列顺序在前的分类器对用户的特征向量的处理结果会传递到排列顺序在后的分类器中,并参与到排列顺序在后的分类器的处理过程之中,从而将各个分类器有机的耦合在一起,充分利用了这些分类器之间的关联性,大大提升了用户画像的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1为本发明实施例中一种用户画像方法的一个实施例流程图;

图2为分类器序列的构造过程的示意流程图;

图3为各个分类器之间的网状拓扑结构的示意图;

图4为在网状拓扑结构中的优选路径的示意图;

图5为构造出的分类器序列的示意图;

图6为示例中4个分类器之间的网状拓扑结构的示意图;

图7为选取出的优选路径的示意图;

图8为本发明实施例中一种用户画像装置的一个实施例结构图;

图9为本发明实施例中一种终端设备的示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1,本发明实施例中一种用户画像方法的一个实施例可以包括:

步骤s101、获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量。

具体的评估维度可以根据实际情况进行设置,例如,若要判断用户对某些产品的购买意向,则所需的评估维度包括但不限于性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息等等。

由于上述各个评估维度上的特征信息并不是数值化的信息,不利于进行分析计算,因此,需要首先对各个维度的信息进行数值化处理。

例如,对于性别信息这一评估维度而言,若性别为男性,则可将该评估维度的取值数值化为1,若性别为女性,则可将该评估维度的取值数值化为0;对于年龄这一评估维度而言,若年龄为20岁以下,则可将该评估维度的取值数值化为0,若年龄为20岁至40岁,则可将该评估维度的取值数值化为1,若年龄为40岁至60岁,则可将该评估维度的取值数值化为2,若年龄为60岁以上,则可将该评估维度的取值数值化为3;对于受教育程度这一评估维度而言,若受教育程度为高中及高中以下,则可将该评估维度的取值数值化为0,若受教育程度为本科,则可将该评估维度的取值数值化为1,若受教育程度为硕士研究生,则可将该评估维度的取值数值化为2,若受教育程度为博士研究生及以上,则可将该评估维度的取值数值化为3;其它各个评估维度的数值化处理过程与之类似,此处不再赘述。

需要注意的是,以上的数值化处理过程只是一种可能的数值化处理方式,还可以根据实际情况进行其它类似的数值化处理,此处不对其做具体限制。

在进行完数值化处理之后,则可将各个评估维度上的特征信息构造为如下所示的特征向量:

eigenvec=(eigenval1,eigenval2,...,eigenvalen,...,eigenvalen)

其中,eigenvec为所述用户的特征向量,eigenvalen为所述用户的特征向量在第en个评估维度上的特征信息,1≤en≤en,en为评估维度的总数。

步骤s102、将所述用户的特征向量输入到预设的分类器序列中进行处理,得到所述用户的标签向量。

所述分类器序列中包括两个以上的不同分类器,且各个分类器的排列顺序通过在训练过程中对各种排列顺序进行遍历确定,所述标签向量包括两个以上的标签维度上的标签值,每个分类器用于确定一个标签维度上的标签值。这些分类器可以是基于决策树、朴素贝叶斯、支持向量机、神经网络、遗传算法中的任意一种算法,各个分类器可以基于相同的算法,也可以基于不同的算法。

如图2所示,所述分类器序列的构造过程具体可以包括:

步骤s201、从预设的历史用户信息数据库中选取n个训练样本,并组成训练样本集合。

n为正整数,其具体取值可以根据实际情况进行设置,一般地,为了保证训练结果的准确性,训练样本的数目应尽量的大,例如,可以将其设置为10000、20000、50000或者其它取值等等。

所述训练样本集合中的每个训练样本均包括一个历史用户的特征向量和标签向量,即:

samplen=(eigenvecn,labelvecn)

其中,samplen为所述训练样本集合中的第n个训练样本,1≤n≤n,eigenvecn为第n个训练样本的特征向量,且:

eigenvecn=(eigenvaln,1,eigenvaln,2,...,eigenvaln,en,...,eigenvaln,en),

eigenvaln,en为第n个训练样本的特征向量在第en个评估维度上的特征信息,1≤en≤en,en为评估维度的总数,labelvecn为第n个训练样本的标签向量,且:

labelvecn=(labelvaln,1,labelvaln,2,...,labelvaln,ln,...,labelvaln,ln),

labelvaln,ln为第n个训练样本的标签向量在第ln个标签维度上的标签值,1≤ln≤ln,ln为标签维度的总数。

为了保证训练结果的准确性,所述训练样本集合在任一标签维度上的标签值均应是均衡分布的,将第ln个标签维度上的标签值的可能取值的个数记为lvnln,每个取值的序号记为lvnln,1≤lvnln≤lvnln,第lvnln个取值在所述训练样本集合中的数目记为则应满足下列条件:

其中,threshold为预设的均衡度阈值,其具体取值可以根据实际情况进行设置,例如,可以将其设置为50、100、200或者其它取值等等。

步骤s202、将预设的分类器集合中的各个分类器的各种排列顺序进行遍历,使用所述训练样本集合分别对各种排列顺序的分类器进行训练,并分别计算各种排列顺序的分类精准度。

各个分类器之间可以建立如图3所示的网状拓扑结构,图3中给出了ln=2,ln=3,ln=4,ln=5这四种情况下各个分类器之间的网状拓扑结构,其中,圆圈表示分类器,箭头表示分类器的传递方向,任意两个分类器之间均有双向的路径连接,其它情况可以依此类推。

对于由ln个分类器所组成的网状拓扑结构,依次遍历各个分类器节点且每个分类器节点仅遍历一次的路径共有ln的阶乘,即ln!=1×2×3×…×(ln-1)×ln,本实施例中即是要通过对所有可能的路径进行遍历选择一条如图4所示的优选路径。

其中,使用所述训练样本集合分别对第candisq种排列顺序的分类器进行训练的过程可以包括:

首先,根据下式对所述训练样本集合的各个训练样本的特征向量进行扩展:

exeigenveccandisq,ln,n=(exeigenveccandisq,ln-1,n,sellabelvalcandisq,ln-1,n)

其中,exeigenveccandisq,ln,n为第n个训练样本在对第candisq种排列顺序中的第ln个分类器的训练过程中扩展得到的特征向量,1≤candisq≤ln!,ln!为ln的阶乘,特殊地,设置exeigenveccandisq,0,n=eigenvecn,sellabelvalcandisq,ln,n为第n个训练样本与第candisq种排列顺序中的第ln个分类器对应的标签值,特殊地,设置即将其设为空,由此可知,exeigenveccandisq,1,n=eigenvecn。

然后,使用所述训练样本集合分别对各个分类器进行训练。

分类器的输入为所述训练样本集合中各个训练样本扩展得到的特征向量,输出为预测标签值。由于本实施例中的分类器可以是基于决策树、朴素贝叶斯、支持向量机、神经网络、遗传算法中的任意一种算法或者其它算法,具体的训练过程与其所基于的算法训练过程相同,此处不再赘述。

所述分别计算各种排列顺序的分类精准度可以包括:

根据下式分别计算各种排列顺序的分类精准度:

其中,totalaccidxcandisq为第candisq种排列顺序的分类精准度,accidxcandisq,ln为第candisq种排列顺序中的第ln个分类器的分类精准度,

或:reallabelvalcandisq,ln,n为在第n个训练样本中与第candisq种排列顺序中的第ln个分类器对应的标签值,prelabelvalcandisq,ln,n为第n个训练样本经过第candisq种排列顺序中的第ln个分类器处理得到的预测标签值。

具体使用中,可以任意选择上述的任意一种方式进行计算,但同一轮筛选中,各个不同的分类器需要使用同一种计算方式,从而便于进行比较。

步骤s203、从各种排列顺序中选取分类精准度最高的一种排列顺序作为优选路径,并按照所述优选路径构造所述分类器序列。

首先,将计算得到的各种排列顺序的分类精准度构造为如下所示的精准度序列:

totalaccidxsq=(totalaccidx1,totalaccidx2,...,totalaccidxcandisq,...,totalaccidxln!)

其中,totalaccidxsq即为所述精准度序列。

然后,从中选取分类精准度最高的一种排列顺序作为优选路径,即:

selpath=argmax(totalaccidxsq)

=argmax(totalaccidx1,totalaccidx2,...,totalaccidxcandisq,...,totalaccidxln!)

其中,argmax为最大自变量函数,selpath即为选取出的优选路径的序号。

最后,将所述分类器集合中的各个分类器按照所述优选路径构造成所述分类器序列。

经过上述的过程,确定了分类器所组成的网状拓扑结构的优选路径,按照该路径中各个分类器的顺序依次连接,即可构造出如图5所示的分类器序列。

后续在对用户进行多标签画像时,即可使用该分类器序列进行处理。举例具体说明如下:

若采集的用户数据分别为性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息,现需要根据这些信息分别评估该用户对产品a、产品b、产品c、产品d这四类产品的购买意向,即4个标签值。

预先设置4个分类器,其中,分类器a用于对用户对产品a的购买意向进行评估,分类器b用于对用户对产品b的购买意向进行评估,分类器c用于对用户对产品c的购买意向进行评估,分类器d用于对用户对产品d的购买意向进行评估,4个分类器构成图6所示的网状拓扑结构。

其中的可选路径共有24种,分别为:

分类器a→分类器b→分类器c→分类器d

分类器a→分类器b→分类器d→分类器c

分类器a→分类器c→分类器b→分类器d

分类器a→分类器c→分类器d→分类器b

分类器a→分类器d→分类器b→分类器c

分类器a→分类器d→分类器c→分类器b

……

……

按照前述方式使用所述训练样本集合分别对各种排列顺序的分类器进行训练,并分别计算各种排列顺序的分类精准度,最终计算得到分类精准度最高的优选路径如7所示,则最终构造出的分类器序列即为:

分类器c→分类器b→分类器a→分类器d。

使用该分类器序列进行用户的多标签画像,首先,将待评估的用户的性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息这5个维度上的特征信息输入到分类器c中,得到该用户对产品c的购买意向,然后,将该用户的性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息以及对产品c的购买意向这6个维度上的特征信息输入到分类器b中,得到该用户对产品b的购买意向,再将该用户的性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息以及对产品c的购买意向、对产品b的购买意向这7个维度上的特征信息输入到分类器a中,得到该用户对产品a的购买意向,最后,将该用户的性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息以及对产品c的购买意向、对产品b的购买意向、对产品a的购买意向这8个维度上的特征信息输入到分类器d中,得到该用户对产品d的购买意向。

综上所述,本发明实施例预先构造出一个分类器序列,其中的各个分类器的排列顺序通过在训练过程中对各种排列顺序进行遍历确定,每个分类器用于确定一个标签维度上的标签值,通过这样的方式,排列顺序在前的分类器对用户的特征向量的处理结果会传递到排列顺序在后的分类器中,并参与到排列顺序在后的分类器的处理过程之中,从而将各个分类器有机的耦合在一起,充分利用了这些分类器之间的关联性,大大提升了用户画像的准确率。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的一种用户画像方法,图8示出了本发明实施例提供的一种用户画像装置的一个实施例结构图。

本实施例中,一种用户画像装置可以包括:

特征向量构造模块801,用于获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;

分类器处理模块802,用于将所述用户的特征向量输入到预设的分类器序列中进行处理,得到所述用户的标签向量,其中,所述分类器序列中包括两个以上的不同分类器,且各个分类器的排列顺序通过在训练过程中对各种排列顺序进行遍历确定,所述标签向量包括两个以上的标签维度上的标签值,每个分类器用于确定一个标签维度上的标签值。

进一步地,所述用户画像装置还可以包括:

训练样本选取模块,用于从预设的历史用户信息数据库中选取n个训练样本,并组成训练样本集合,n为正整数,所述训练样本集合中的每个训练样本均包括一个历史用户的特征向量和标签向量,即:

samplen=(eigenvecn,labelvecn)

其中,samplen为所述训练样本集合中的第n个训练样本,1≤n≤n,eigenvecn为第n个训练样本的特征向量,且:

eigenvecn=(eigenvaln,1,eigenvaln,2,...,eigenvaln,en,...,eigenvaln,en),eigenvaln,en为第n个训练样本的特征向量在第en个评估维度上的特征信息,1≤en≤en,en为评估维度的总数,labelvecn为第n个训练样本的标签向量,且:labelvecn=(labelvaln,1,labelvaln,2,...,labelvaln,ln,...,labelvaln,ln),labelvaln,ln为第n个训练样本的标签向量在第ln个标签维度上的标签值,1≤ln≤ln。

遍历训练模块,用于将预设的分类器集合中的各个分类器的各种排列顺序进行遍历,使用所述训练样本集合分别对各种排列顺序的分类器进行训练;

分类精准度计算模块,用于分别计算各种排列顺序的分类精准度;

分类器序列构造模块,用于从各种排列顺序中选取分类精准度最高的一种排列顺序作为优选路径,并按照所述优选路径构造所述分类器序列。

进一步地,所述遍历训练模块可以包括:

特征向量扩展单元,用于根据下式对所述训练样本集合的各个训练样本的特征向量进行扩展:

exeigenveccandisq,ln,n=(exeigenveccandisq,ln-1,n,sellabelvalcandisq,ln-1,n)

其中,exeigenveccandisq,ln,n为第n个训练样本在对第candisq种排列顺序中的第ln个分类器的训练过程中扩展得到的特征向量,1≤candisq≤ln!,ln!为ln的阶乘,特殊地,设置exeigenveccandisq,0,n=eigenvecn,sellabelvalcandisq,ln,n为第n个训练样本与第candisq种排列顺序中的第ln个分类器对应的标签值,特殊地,设置

分类器训练单元,用于使用所述训练样本集合分别对各个分类器进行训练,其中,分类器的输入为所述训练样本集合中各个训练样本扩展得到的特征向量,输出为预测标签值。

进一步地,所述分类精准度计算模块具体用于根据下式分别计算各种排列顺序的分类精准度:

其中,totalaccidxcandisq为第candisq种排列顺序的分类精准度,accidxcandisq,ln为第candisq种排列顺序中的第ln个分类器的分类精准度,

或:reallabelvalcandisq,ln,n为在第n个训练样本中与第candisq种排列顺序中的第ln个分类器对应的标签值,prelabelvalcandisq,ln,n为第n个训练样本经过第candisq种排列顺序中的第ln个分类器处理得到的预测标签值。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

图9示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。

在本实施例中,所述终端设备9可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备9可包括:处理器90、存储器91以及存储在所述存储器91中并可在所述处理器90上运行的计算机可读指令92,例如执行上述的用户画像方法的计算机可读指令。所述处理器90执行所述计算机可读指令92时实现上述各个用户画像方法实施例中的步骤,例如图1所示的步骤s101至s102。或者,所述处理器90执行所述计算机可读指令92时实现上述各装置实施例中各模块/单元的功能,例如图8所示模块801至802的功能。

示例性的,所述计算机可读指令92可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器91中,并由所述处理器90执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令92在所述终端设备9中的执行过程。

所述处理器90可以是中央处理单元(centralprocessingunit,cpu),还可以是其它通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器91可以是所述终端设备9的内部存储单元,例如终端设备9的硬盘或内存。所述存储器91也可以是所述终端设备9的外部存储设备,例如所述终端设备9上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器91还可以既包括所述终端设备9的内部存储单元也包括外部存储设备。所述存储器91用于存储所述计算机可读指令以及所述终端设备9所需的其它指令和数据。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1