人群画像分类模型的建立方法、装置、设备和存储介质与流程

文档序号:17624669发布日期:2019-05-10 23:31阅读:465来源:国知局
人群画像分类模型的建立方法、装置、设备和存储介质与流程

本发明涉及数据处理技术领域,特别是涉及的人群画像分类模型的建立方法、装置、计算机设备和存储介质。



背景技术:

人群画像分类是指通过人群画像分类模型,对新输入的用户数据进行人群画像分类的过程。其中,人群画像分类模型是利用预设模型对海量的用户数据进行训练而构建的。

以员工画像分类为例,员工数据包括:员工的职位、工龄、教育、性别、部门等多个员工属性。利用预设模型对海量的员工数据进行训练,构建出员工画像分类模型,再通过员工画像分类模型得到若干的员工画像,从而完成对各个员工的分类。在员工画像分类的过程中,可以利用员工的离职情况构建员工离职预测模型,进而通过员工离职预测模型,预测某个员工离职的概率。

目前,构建人群画像分类模型所基于的预设模型主要是分类模型和聚类模型,例如svm,神经网络,k-means等。然而,在对现有技术的研究与实践中,本发明的发明人发现,现有技术存在以下问题:无论是基于分类模型还是聚类模型构建人群画像分类模型,构建得到的人群画像分类模型仅能够用于分类,其解释性较差,不能很好地反映出用户数据的各个用户属性之间的相关性以及用户数据的各个用户属性与类别归属的关联。



技术实现要素:

基于此,有必要针对目前构建出的人群画像分类模型的解释性较差,不能很好地反映出用户数据的各个用户属性之间的相关性的问题,提供一种人群画像分类模型的建立方法、装置、计算机设备和存储介质。

一种人群画像分类模型的建立方法,所述人群画像分类模型的建立方法包括:获取待进行人群画像分类的用户数据,其中每一条用户数据包括该用户对应的多个用户属性;将每个用户属性作为chow-liu算法的一个因子,利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子,得到贝叶斯网络模型;将所述用户数据输入到所述贝叶斯网络模型中进行训练,得到所述人群画像分类模型。

在其中一个实施例中,所述方法还包括:对所述用户数据进行数据预处理。

在其中一个实施例中,所述数据预处理包括:数据清洗以及标准化处理;所述数据清洗包括:删除用户数据中的空缺数据、噪声数据、重复数据以及错误数据;所述标准化处理包括:将同一个用户对应的多个数据进行整合。

在其中一个实施例中,所述利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子,包括:对于每一个因子,根据公式一在所有未选取的因子中选择与其kl距离最小的因子作为该因子的关联因子,直至所有因子均被选取;

所述公式一为:

kl(p(x)||t(x))=-∑i(xi,pa(xi))+∑h(xi)-h(x1,x2...,xn)

其中,kl(p(x)||t(x))表示该因子与所有未选择的因子中任一因子的kl距离,p(x)表示进行关联之前所有因子的分布情况,t(x)表示进行关联之后所有因子的分布情况;

xi表示第i个因子,h表示熵,pa(xi)表示xi的父节点;

i表示互信息,是通过公式二计算得到的,所述公式二为:

其中,p(a)表示数值a出现的概率,p(b)表示数值b出现的概率,p(a,b)表示数值b出现的前提下数值b出现的概率,x1和x2代表所述多个用户属性中任两个用户属性,数值a为属于用户属性x1的任一数值,数值b为属于用户属性x2的任一数值。

在其中一个实施例中,所述用户数据中包括标签数据以及未标签数据,所述将所述用户数据输入到所述贝叶斯网络模型中进行训练的步骤包括:采用半监督学习方法对输入到贝叶斯网络模型中的用户数据进行训练。

在其中一个实施例中,所述采用半监督学习方法对输入到贝叶斯网络模型中的用户数据进行训练,包括:利用所述贝叶斯网络模型对未标签数据进行标签预测;利用所述贝叶斯网络模型对标签数据进行训练;重复交替执行上述两个步骤,直至训练过程收敛。

在其中一个实施例中,所述方法还包括:在接收到新输入的用户数据时,利用所述人群画像分类模型对所述用户数据进行人群画像分类,得到对应的分类结果。

一种人群画像分类模型的建立装置,所述人群画像分类模型的建立装置包括:数据获取单元,用于获取待进行人群画像分类的用户数据,其中每一条用户数据包括该用户对应的多个用户属性;因子关联单元,用于将每个用户属性作为chow-liu算法的一个因子,利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子,得到贝叶斯网络模型;数据训练单元,用于将所述用户数据输入到所述贝叶斯网络模型中进行训练,得到所述人群画像分类模型。

在其中一个实施例中,所述装置还包括:包括预处理单元802,用于对所述用户数据进行数据预处理。

在其中一个实施例中,当数据预处理包括:数据清洗以及标准化处理时,所述预处理单元包括:数据清洗模块和标准化处理模块。所述数据清洗模块,用于删除用户数据中的空缺数据、噪声数据、重复数据以及错误数据;所述标准化处理模块,用于将同一个用户对应的多个数据进行整合。

在其中一个实施例中,因子关联单元704具体用于执行以下步骤:

对于每一个因子,根据公式一在所有未选取的因子中选择与其kl距离最小的因子作为该因子的关联因子,直至所有因子均被选取;

所述公式一为:

kl(p(x)||t(x))=-∑i(xi,pa(xi))+∑h(xi)-h(x1,x2...,xn)

其中,kl(p(x)||t(x))表示该因子与所有未选择的因子中任一因子的kl距离,p(x)表示进行关联之前所有因子的分布情况,t(x)表示进行关联之后所有因子的分布情况;

xi表示第i个因子,h表示熵,pa(xi)表示xi的父节点;

i表示互信息,是通过公式二计算得到的,所述公式二为:

其中,p(a)表示数值a出现的概率,p(b)表示数值b出现的概率,p(a,b)表示数值b出现的前提下数值b出现的概率,x1和x2代表所述多个用户属性中任两个用户属性,数值a为属于用户属性x1的任一数值,数值b为属于用户属性x2的任一数值。

在其中一个实施例中,当用户数据中包括标签数据以及未标签数据时,所述数据训练单元具体用于采用半监督学习方法对输入到贝叶斯网络模型中的用户数据进行训练。

在其中一个实施例中,当用户数据中包括标签数据以及未标签数据时,数据训练单元具体用于执行以下步骤:利用所述贝叶斯网络模型对未标签数据进行标签预测;利用所述贝叶斯网络模型对标签数据进行训练;重复交替执行上述两个步骤,直至训练过程收敛。

在其中一个实施例中,人群画像分类模型的建立装置还可以包括分类单元,用于在接收到新输入的用户数据时,利用所述人群画像分类模型对所述用户数据进行人群画像分类,得到对应的分类结果。

一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述人群画像分类模型的建立方法的步骤。

一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述人群画像分类模型的建立方法的步骤。

上述人群画像分类模型的建立方法、装置、计算机设备和存储介质,获取待进行人群画像分类的用户数据,其中每一条用户数据包括该用户对应的多个用户属性;将每个用户属性作为chow-liu算法的一个因子,利用chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子,得到贝叶斯网络模型;将用户数据输入到贝叶斯网络模型中进行训练,得到人群画像分类模型。上述人群画像分类模型的建立方法,将用户数据包括的多个用户属性中每个用户属性作为chow-liu算法的一个因子,利用chow-liu算法进行因子选择以及关联,由于chow-liu算法能够较好反映地各个因子之间的关联,同时能够反映因子与类别归属的关联,所以基于chow-liu算法构建的人群画像分类模型能够很好地反映出用户数据的各个用户属性之间的相关性,同时能够反映用户数据的各个用户属性与类别归属的关联。

附图说明

图1为一个实施例中提供的人群画像分类模型的建立方法的实施环境图;

图2为一个实施例中计算机设备的内部结构框图;

图3为一个实施例中人群画像分类模型的建立方法的流程图;

图4为一个实施例中人群画像分类模型的建立方法的流程图;

图5为一个实施例中人群画像分类的方法的流程图;

图6为一个实施例中人群画像分类模型的建立方法的流程图;

图7为一个实施例中人群画像分类模型的建立装置的结构框图;

图8为一个实施例中人群画像分类模型的建立装置的结构框图;

图9为一个实施例中预处理单元的结构框图;

图10为一个实施例中人群画像分类模型的建立装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

图1为一个实施例中提供的人群画像分类模型的建立方法的实施环境图,如图1所示,在该实施环境中,包括计算机设备110以及数据库120。

数据库120中存储有待进行人群画像分类的用户数据以及新输入的用户数据。在预先对待进行人群画像分类的用户数据中的部分用户数据打标签的情况下,数据库120中存储的待进行人群画像分类的用户数据包括标签数据和未标签数据。

计算机设备110为用于对用户数据进行处理以建立人群画像分类模型的设备,计算机设备110从数据库120中获取待进行人群画像分类的用户数据以及新输入的用户数据。在数据库120中存储的待进行人群画像分类的用户数据包括标签数据和未标签数据的情况下,计算机设备110从数据库120中获取标签数据和未标签数据。

当需要建立人群画像分类模型时,模型建立人员可以利用计算机设备110获取待进行人群画像分类的用户数据,然后根据该用户数据包括的多个用户属性,得到贝叶斯网络模型,然后将待进行人群画像分类的用户数据输入该贝叶斯网络模型进行训练,得到人群画像分类模型。

需要说明的是,计算机设备110和数据库120均分别可为智能手机、平板电脑、笔记本电脑、台式计算机、服务器等,但并不局限于此。计算机设备110与数据库120可以通过蓝牙、usb(universalserialbus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。数据库120可以独立于计算机设备110(如图1所示),或者,数据库120可以集成与计算机设备110内部(图1未示出)。

图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有待进行人群画像分类的用户数据以及新输入的用户数据。在预先对待进行人群画像分类的用户数据中的部分用户数据打标签的情况下,数据库中存储的待进行人群画像分类的用户数据包括标签数据和未标签数据。该计算机可读指令被处理器执行时,可使得处理器实现一种人群画像分类模型的建立方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种人群画像分类模型的建立方法。该计算机设备的网络接口用于与外部通信连接。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

如图3所示,在一个实施例中,提出了一种人群画像分类模型的建立方法,该人群画像分类模型的建立方法可以应用于上述的计算机设备110中,包括以下步骤:

步骤s302,获取待进行人群画像分类的用户数据,其中每一条用户数据包括该用户对应的多个用户属性;

在本实施例中,用户数据包括用户对应的多个用户属性。以用户数据是员工数据为例,员工数据包括员工对应的多个员工属性:职位、工龄、教育、性别、部门等。

针对多个用户属性中的每个用户属性,属于该用户属性的数值有若干个,若干个数值与若干条用户数据一一对应,也即与若干个用户一一对应。示例地,以用户数据是员工数据为例,员工数据包括员工对应的多个员工属性:职位、工龄、教育、性别、部门等,假设有员工a和员工b,员工a和员工b的员工数据分别如表1所示。

表1员工数据示意图

从表1可以看出,属于职位这一用户属性的数值有2个:0011和0012,分别与员工a的职位以及员工b的职位一一对应,也即分别与员工a和员工b一一对应。同理,属于工龄这一用户属性的数值有2个:5和2,分别与员工a的工龄以及员工b的工龄一一对应,也即分别与员工a和员工b一一对应。

待进行人群画像分类的用户数据是将要输入预设模型的样本数据,该预设模型为根据多个用户属性得到的贝叶斯网络模型。

步骤s304,将每个用户属性作为chow-liu算法的一个因子,利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子,得到贝叶斯网络模型;

在本实施例中,考虑到chow-liu算法能够较好地反映各个因子之间的关联,同时能够反映因子与类别归属的关联。进而在进行预测的同时,能够从模型中归纳各个因子对于预测结果的影响。示例地,以对员工离职的概率进行预测为例,通过利用chow-liu算法,可以预测某个员工离职的概率,同时发现哪个员工属性是导致高离职率的影响因素,从而为后续的员工招聘工作提供参考。

在具体实施过程中,执行多次关联。第一次关联的过程为:首先,将多个用户属性中的任何一个用户属性作为chow-liu算法的第一个因子,然后,将多个用户属性中剩余的各个用户属性作为chow-liu算法的其他各个因子,从这些其他各个因子中选择一个因子与第一个因子关联。第二次关联的过程为:将上一次关联过程中剩余的各个用户属性中的任何一个用户属性作为chow-liu算法的第二个因子,将本次关联过程中剩余的各个用户属性作为chow-liu算法的其他各个因子,从这些其他各个因子中选择一个因子与第二个因子关联。第三次关联过程与第二次关联过程类似。如此进行多次关联,直至关联所有的因子。需要注意的是,每次关联过程中需要避免产生回路。

在一种实施方式中,步骤304包括:

对于每一个因子,根据公式一在所有未选取的因子中选择与其kl距离最小的因子作为该因子的关联因子,直至所有因子均被选取;

所述公式一为:

kl(p(x)||t(x))=-∑i(xi,pa(xi))+∑h(xi)-h(x1,x2...,xn)

其中,kl(p(x)||t(x))表示该因子与所有未选择的因子中任一因子的kl距离,p(x)表示进行关联之前所有因子的分布情况,t(x)表示进行关联之后所有因子的分布情况;

xi表示第i个因子,h表示熵,pa(xi)表示xi的父节点;

i表示互信息,是通过公式二计算得到的,所述公式二为:

其中,p(a)表示数值a出现的概率,p(b)表示数值b出现的概率,p(a,b)表示数值b出现的前提下数值b出现的概率,x1和x2代表所述多个用户属性中任两个用户属性,数值a为属于用户属性x1的任一数值,数值b为属于用户属性x2的任一数值。

在具体实施过程中,从多个因子中选择一个因子与另一个因子关联,包括以下步骤:

步骤1):根据公式一和公式二,计算多个因子中每个因子与该另一个因子的kl距离,公式一和公式二分别为:

kl(p(x)||t(x))=-∑i(xi,pa(xi))+∑h(xi)-h(x1,x2...,xn)公式一

步骤2):从多个因子中确定出与该另一个因子的kl距离最小的因子,第一次确定过程的标准为kl距离最小,第二次确定过程的标准为kl距离次小,第三次确定过程的标准为kl距离第三小,依次类推;

步骤3):判断如果确定出的因子与该另一个因子关联,是否会产生回路,若判断结果为否,则转入步骤4);若判断结果为是,则返回步骤2);

步骤4):将确定出的因子与该另一个因子关联。

步骤s306,将所述用户数据输入到所述贝叶斯网络模型中进行训练,得到所述人群画像分类模型。

在根据多个用户属性得到的贝叶斯网络模型,再将待进行人群画像分类的用户数据输入贝叶斯网络模型进行训练,得到人群画像分类模型。

示例地,以用户数据是员工数据且构建员工离职预测模型为例,针对待进行离职概率预测的员工数据,首先,根据员工数据包括员工对应的多个员工属性:职位、工龄、教育、性别、部门等,得到贝叶斯网络模型;然后,将员工数据输入到得到的贝叶斯网络模型进行训练,得到员工离职预测模型。

上述人群画像分类模型的建立方法,将用户数据包括的多个用户属性中每个用户属性作为chow-liu算法的一个因子,利用chow-liu算法进行因子选择以及关联,由于chow-liu算法能够较好反映地各个因子之间的关联,同时能够反映因子与类别归属的关联,所以基于chow-liu算法构建的人群画像分类模型能够很好地反映出用户数据的各个用户属性之间的相关性,同时能够反映用户数据的各个用户属性与类别归属的关联。

图4示出了在一个实施例中,当用户数据中包括标签数据以及未标签数据时,人群画像分类模型的建立方法的实现流程图,包括以下步骤:

步骤s402,获取待进行人群画像分类的用户数据,其中每一条用户数据包括该用户对应的多个用户属性;

步骤s404,将每个用户属性作为chow-liu算法的一个因子,利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子,得到贝叶斯网络模型;

步骤s406,采用半监督学习方法对输入到贝叶斯网络模型中的用户数据进行训练,得到所述人群画像分类模型。

其中,步骤s402以及步骤s404的实现过程分别与步骤s302以及步骤s304的实现过程类似,在此就不再赘述。

为了提升得到的人群画像分类模型的精度,可以预先对部分待进行人群画像分类的用户数据打标签,因而待进行人群画像分类的用户数据包括标签数据以及未标签数据,然后将标签数据和未标签数据输入贝叶斯网络模型进行训练,得到精度更高的人群画像分类模型。

示例地,以用户数据是员工数据且构建员工离职预测模型为例,针对待进行离职概率预测的员工数据,一方面,根据员工数据包括员工对应的多个员工属性:职位、工龄、教育、性别、部门等,得到贝叶斯网络模型;另一方面,对部分员工数据打标签,根据这部分员工的实际离职情况,对这部分员工数据打标签:已离职员工和为离职员工。然后,将打标签的员工数据(已知离职情况)和未打标签的员工数据(未知离职情况)输入得到的贝叶斯网络模型进行训练,得到员工离职预测模型。

在一种实施方式中,步骤s406包括以下步骤:

利用所述贝叶斯网络模型对未标签数据进行标签预测;

利用所述贝叶斯网络模型对标签数据进行训练;

重复交替执行上述两个步骤,直至训练过程收敛。

在具体实施过中,半监督学习方法包括e-step和m-step。用户数据包括标签数据以及未标签数据。将用户数据输入到执行步骤s404后得到的贝叶斯网络模型中进行训练的过程如下:

首先,进行e-step,即利用执行步骤s404后得到的贝叶斯网络模型对未标签数据进行标签预测。随后,进行m-step,即利用标签数据,重新训练贝叶斯网络模型,并交替重复e-step与m-step,直至训练过程收敛,最终得到人群画像分类模型。

在本实施例中,当获取的待进行人群画像分类的用户数据包括未标签数据时,根据多个用户属性得到的贝叶斯网络模型同样能够将此类未标签数据用于训练,也就是说,除将标签数据作为训练数据外,可以加入未标签数据作为训练数据,以避免训练数据量过低的问题,从而提升最终得到的人群画像分类模型的精度。

图5示出了一个实施例中人群画像分类的方法的实现流程图,包括以下步骤:

步骤s502,获取待进行人群画像分类的用户数据,其中每一条用户数据包括该用户对应的多个用户属性;

步骤s504,将每个用户属性作为chow-liu算法的一个因子,利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子,得到贝叶斯网络模型;

步骤s506,将所述用户数据输入到所述贝叶斯网络模型中进行训练,得到所述人群画像分类模型;

步骤s508,在接收到新输入的用户数据时,利用所述人群画像分类模型对所述用户数据进行人群画像分类,得到对应的分类结果。

其中,步骤s502-步骤s506的实现过程分别与步骤s302-步骤s306的实现过程类似,在此就不再赘述。

在得到人群画像分类模型之后,即可利用该人群画像分类模型实现人群画像分类。具体地,接收新输入的用户数据,然后将该用户数据输入执行步骤s502-步骤s506后所得到的人群画像分类模型,该人群画像分类模型的输出即为分类结果。

示例地,以用户数据是员工数据且人群画像分类模型是员工离职预测模型为例,将一个某个员工的员工数据输入该员工离职预测模型,通过该员工离职预测模型即可预测该员工离职的概率,也即是说,该员工离职预测模型的输出即为该员工离职的概率。

图6示出了一个实施例中人群画像分类模型的建立方法的实现流程图,包括以下步骤:

步骤s602,获取待进行人群画像分类的用户数据,其中每一条用户数据包括该用户对应的多个用户属性;

步骤s604,对所述用户数据进行数据预处理;

步骤s606,将每个用户属性作为chow-liu算法的一个因子,利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子,得到贝叶斯网络模型;

步骤s608,将所述用户数据输入到所述贝叶斯网络模型中进行训练,得到所述人群画像分类模型。

其中,步骤s602的实现过程与步骤s302的实现过程类似,在此就不再赘述。

在一种实施方式中,步骤s604中的数据预处理包括:数据清洗以及标准化处理;

所述数据清洗包括:删除用户数据中的空缺数据、噪声数据、重复数据以及错误数据;

所述标准化处理包括:将同一个用户对应的多个数据进行整合。

在本实施例中,考虑到执行步骤s602后原始获取的用户数据存在“脏数据”,包括数据空缺和噪声、不一致、重复、错误等问题,为了保证后期数据处理的准确性,以及,在利用人群画像分类模型得到分类结果后,为了减少该分类结果对最终决策造成的影响,有必要对原始获取的用户数据进行预处理。即删除原始获取的用户数据中的空缺数据、噪声数据、重复数据以及错误数据。

此外,人群画像的建立需要有整合多源数据的能力,例如一个用户可能使用多个设备,在网络上拥有多个账号。因此需要把同一用户的多个账号组合,即将同一个用户对应的多个数据进行整合,进而建立统一的标准,以完整标识用户的人群画像。

在执行完步骤s604之后,步骤s606中将经过步骤s604中的预处理后的用户数据包括的每个用户属性作为chow-liu算法的一个因子,其余与步骤s304类似。同理,步骤s606中将经过步骤s604中的预处理后的用户数据,输入到执行步骤s606后所得到的贝叶斯网络模型中进行训练,其余与步骤s306类似。

如图7所示,在一个实施例中,提供了一种人群画像分类模型的建立装置,该人群画像分类模型的建立装置可以集成于上述的计算机设备110中,可以包括数据获取单元702、因子关联单元704、以及数据训练单元706。

数据获取单元702,用于获取待进行人群画像分类的用户数据,其中每一条用户数据包括该用户对应的多个用户属性;

因子关联单元704,用于将每个用户属性作为chow-liu算法的一个因子,利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子,得到贝叶斯网络模型;

数据训练单元706,用于将所述用户数据输入到所述贝叶斯网络模型中进行训练,得到所述人群画像分类模型。

如图8所示,人群画像分类模型的建立装置还可以包括预处理单元802。

预处理单元802,用于对所述用户数据进行数据预处理。

如图9所示,在一个实施例中,当数据预处理包括:数据清洗以及标准化处理时,预处理单元802包括:数据清洗模块802a和标准化处理模块802b。

数据清洗模块802a,用于删除用户数据中的空缺数据、噪声数据、重复数据以及错误数据;

标准化处理模块802b,用于将同一个用户对应的多个数据进行整合。

在一个实施例中,因子关联单元704具体用于执行以下步骤:

对于每一个因子,根据公式一在所有未选取的因子中选择与其kl距离最小的因子作为该因子的关联因子,直至所有因子均被选取;

所述公式一为:

kl(p(x)||t(x))=-∑i(xi,pa(xi))+∑h(xi)-h(x1,x2...,xn)

其中,kl(p(x)||t(x))表示该因子与所有未选择的因子中任一因子的kl距离,p(x)表示进行关联之前所有因子的分布情况,t(x)表示进行关联之后所有因子的分布情况;

xi表示第i个因子,h表示熵,pa(xi)表示xi的父节点;

i表示互信息,是通过公式二计算得到的,所述公式二为:

其中,p(a)表示数值a出现的概率,p(b)表示数值b出现的概率,p(a,b)表示数值b出现的前提下数值b出现的概率,x1和x2代表所述多个用户属性中任两个用户属性,数值a为属于用户属性x1的任一数值,数值b为属于用户属性x2的任一数值。

在一个实施例中,当用户数据中包括标签数据以及未标签数据时,数据训练单元706具体用于采用半监督学习方法对输入到贝叶斯网络模型中的用户数据进行训练。

在一个实施例中,当用户数据中包括标签数据以及未标签数据时,数据训练单元706具体用于执行以下步骤:

利用所述贝叶斯网络模型对未标签数据进行标签预测;

利用所述贝叶斯网络模型对标签数据进行训练;

重复交替执行上述两个步骤,直至训练过程收敛。

如图10所示,人群画像分类模型的建立装置还可以包括分类单元1002。

分类单元1002,用于在接收到新输入的用户数据时,利用所述人群画像分类模型对所述用户数据进行人群画像分类,得到对应的分类结果。

在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待进行人群画像分类的用户数据,其中每一条用户数据包括该用户对应的多个用户属性;将每个用户属性作为chow-liu算法的一个因子,利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子,得到贝叶斯网络模型;将所述用户数据输入到所述贝叶斯网络模型中进行训练,得到所述人群画像分类模型。

在一个实施例中,处理器执行计算机可读指令时还执行以下步骤:对所述用户数据进行数据预处理。

在一个实施例中,所述数据预处理包括:数据清洗以及标准化处理;所述处理器所执行的对所述用户数据进行数据预处理的步骤包括:删除用户数据中的空缺数据、噪声数据、重复数据以及错误数据;将同一个用户对应的多个数据进行整合。

在一个实施例中,所述处理器所执行的利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子的步骤包括:对于每一个因子,根据公式一在所有未选取的因子中选择与其kl距离最小的因子作为该因子的关联因子,直至所有因子均被选取;

所述公式一为:

kl(p(x)||t(x))=-∑i(xi,pa(xi))+∑h(xi)-h(x1,x2...,xn)

其中,kl(p(x)||t(x))表示该因子与所有未选择的因子中任一因子的kl距离,p(x)表示进行关联之前所有因子的分布情况,t(x)表示进行关联之后所有因子的分布情况;

xi表示第i个因子,h表示熵,pa(xi)表示xi的父节点;

i表示互信息,是通过公式二计算得到的,所述公式二为:

其中,p(a)表示数值a出现的概率,p(b)表示数值b出现的概率,p(a,b)表示数值b出现的前提下数值b出现的概率,x1和x2代表所述多个用户属性中任两个用户属性,数值a为属于用户属性x1的任一数值,数值b为属于用户属性x2的任一数值。

在一个实施例中,所述用户数据中包括标签数据以及未标签数据,所述处理器所执行的将所述用户数据输入到所述贝叶斯网络模型中进行训练的步骤包括:采用半监督学习方法对输入到贝叶斯网络模型中的用户数据进行训练。

在一个实施例中,所述处理器所执行的采用半监督学习方法对输入到贝叶斯网络模型中的用户数据进行训练的步骤包括:利用所述贝叶斯网络模型对未标签数据进行标签预测;利用所述贝叶斯网络模型对标签数据进行训练;重复交替执行上述两个步骤,直至训练过程收敛。

在一个实施例中,处理器执行计算机可读指令时还执行以下步骤:在接收到新输入的用户数据时,利用所述人群画像分类模型对所述用户数据进行人群画像分类,得到对应的分类结果。

在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取待进行人群画像分类的用户数据,其中每一条用户数据包括该用户对应的多个用户属性;将每个用户属性作为chow-liu算法的一个因子,利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子,得到贝叶斯网络模型;将所述用户数据输入到所述贝叶斯网络模型中进行训练,得到所述人群画像分类模型。

在一个实施例中,处理器执行计算机可读指令时还执行以下步骤:对所述用户数据进行数据预处理。

在一个实施例中,所述数据预处理包括:数据清洗以及标准化处理;所述处理器所执行的对所述用户数据进行数据预处理的步骤包括:删除用户数据中的空缺数据、噪声数据、重复数据以及错误数据;将同一个用户对应的多个数据进行整合。

在一个实施例中,所述处理器所执行的利用所述chow-liu算法在所有因子中选择因子进行关联,直至关联所有的因子的步骤包括:对于每一个因子,根据公式一在所有未选取的因子中选择与其kl距离最小的因子作为该因子的关联因子,直至所有因子均被选取;

所述公式一为:

kl(p(x)||t(x))=-∑i(xi,pa(xi))+∑h(xi)-h(x1,x2...,xn)

其中,kl(p(x)||t(x))表示该因子与所有未选择的因子中任一因子的kl距离,p(x)表示进行关联之前所有因子的分布情况,t(x)表示进行关联之后所有因子的分布情况;

xi表示第i个因子,h表示熵,pa(xi)表示xi的父节点;

i表示互信息,是通过公式二计算得到的,所述公式二为:

其中,p(a)表示数值a出现的概率,p(b)表示数值b出现的概率,p(a,b)表示数值b出现的前提下数值b出现的概率,x1和x2代表所述多个用户属性中任两个用户属性,数值a为属于用户属性x1的任一数值,数值b为属于用户属性x2的任一数值。

在一个实施例中,所述用户数据中包括标签数据以及未标签数据,所述处理器所执行的将所述用户数据输入到所述贝叶斯网络模型中进行训练的步骤包括:采用半监督学习方法对输入到贝叶斯网络模型中的用户数据进行训练。

在一个实施例中,所述处理器所执行的采用半监督学习方法对输入到贝叶斯网络模型中的用户数据进行训练的步骤包括:利用所述贝叶斯网络模型对未标签数据进行标签预测;利用所述贝叶斯网络模型对标签数据进行训练;重复交替执行上述两个步骤,直至训练过程收敛。

在一个实施例中,处理器执行计算机可读指令时还执行以下步骤:在接收到新输入的用户数据时,利用所述人群画像分类模型对所述用户数据进行人群画像分类,得到对应的分类结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)等非易失性存储介质,或随机存储记忆体(randomaccessmemory,ram)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1