画像标签预测方法、装置、设备及存储介质与流程

文档序号:30596002发布日期:2022-07-01 20:40阅读:80来源:国知局
画像标签预测方法、装置、设备及存储介质与流程

1.本发明涉及数据处理技术领域,尤其涉及一种画像标签预测方法、装置、设备及存储介质。


背景技术:

2.目前,在对用户进行分析的场景下,需要对用户进行画像标签的预测,以便于利用画像标签精准完成对用户的分析。
3.在现有技术中,是基于机器学习的方式对画像标签进行预测,主要采用scikit-learn单机版机器学习包和hadoop mahout提供的分类或聚类模型两种方式实现。在实际应用中,在按照画像标签进行广告定向投放时,需要面对海量的数据,但是采用scikit-learn单机版机器学习包无法满足大数据运算处理,而采用hadoop mahout提供的分类或聚类模型虽然可以处理海量的数据,但是因其算法不够丰富,在对海量数据进行处理时,性能相对低下,导致不能准确预测画像标签。
4.由此可知,采用现有技术的方式进行画像标签预测时,存在无法满足对海量数据的处理,或者对画像标签的预测不准确的问题。


技术实现要素:

5.有鉴于此,本发明实施例提供一种画像标签预测方法、装置、设备及存储介质,采用本发明技术方案,进行画像标签预测时,能满足海量数据的处理,也能准确预测画像标签。
6.为实现上述目的,本发明实施例提供如下技术方案:
7.第一方面,一种画像标签预测方法,包括:获取对待预测设备进行广告监测得到的广告监测数据,所述广告监测数据至少包括设备数据;基于sparkml特征工程提取所述广告监测数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到测试集;将所述测试集分别输入预先构建的第一用户属性预测模型和第二用户属性预测模型进行预测,得到第一用户属性预测结果和第二用户属性预测结果,其中,所述第一用户属性预测模型利用第一用户属性进行随机森林模型训练构建,所述第二用户属性预测模型利用第二用户属性进行随机森林模型训练构建;将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。
8.第二方面,一种画像标签预测装置,所述装置包括:获取模块,用于获取对待预测设备进行广告监测得到的广告监测数据,所述广告监测数据至少包括设备数据;特征处理模块,用于基于sparkml特征工程提取所述广告监测数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到测试集;预测模块,用于将所述测试集分别输入预先构建的第一用户属性预测模型和第二用户属性预测模型进行预测,得到第一用户属性预测结果和第二用户属性预测结果,其中,所述第一用户属性预测模型利用第一用户属性进行随机森林模型训练构建,所述第二用户属性预测模型利用第二用户属性进行随机森林模型训练构
建;合并模块,用于将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。
9.第三方面,一种存储介质,包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的画像标签预测方法。
10.第四方面,一种电子设备,包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序,所述程序至少用于实现上述的画像标签预测方法。
11.基于上述本发明实施例提供的一种画像标签预测方法、装置、设备及存储介质,通过获取对待预测设备进行广告监测得到的广告监测数据,所述广告监测数据至少包括设备数据;基于sparkml特征工程提取所述广告监测数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到测试集;将所述测试集分别输入预先构建的第一用户属性预测模型和第二用户属性预测模型进行预测,得到第一用户属性预测结果和第二用户属性预测结果,其中,所述第一用户属性预测模型利用第一用户属性进行随机森林模型训练构建,所述第二用户属性预测模型利用第二用户属性进行随机森林模型训练构建;将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。在本发明中,通过预先基于用户属性和随机森林模型进行训练,得到满足对海量数据进行预测的用户属性预测模型,利用sparkml特征工程对待预测设备的广告监测数据进行特征提取,并将提取的特征转换为测试集,利用用户属性预测模型对测试集进行预测,以实现在满足海量数据处理的同时得到准确画像标签的目的。
附图说明
12.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
13.图1为本发明实施例提供的一种画像标签预测方法的流程示意图;
14.图2为本发明实施例提供的一种构建画像标签预测模型的流程示意图;
15.图3为本发明实施例提供的将数据添加至预测模型的流程示意图;
16.图4为本发明实施例提供的一种画像标签预测装置的结构框图;
17.图5为本发明实施例提供的一种数据处理设备的结构框图。
具体实施方式
18.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
19.在本技术中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没
有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
20.由背景技术可知,在按照画像标签进行广告定向投放时,需要面对海量的数据,但是采用scikit-learn单机版机器学习包无法满足大数据运算处理,而采用hadoop mahout提供的分类或聚类模型虽然可以处理海量的数据,但是因其算法不够丰富,在对海量数据进行处理时,性能相对低下,导致不能准确预测画像标签。
21.因此,本发明实施例提供一种画像标签预测方法及装置,在对用户进行画像标签预测时,通过预先基于用户属性和随机森林模型进行训练,得到满足对海量数据进行预测的用户属性预测模型,并结合对sparkml特征工程完成画像标签预测,实现在满足海量数据处理的同时得到准确画像标签的目的。
22.参考图1,示出了本发明实施例提供的一种画像标签预测方法的流程图,所述画像标签预测方法包括以下步骤:
23.步骤s101:获取对待预测设备进行广告监测得到的广告监测数据。
24.在步骤s101中,所述广告监测数据至少包括设备数据,还可以包括广告曝光数据和点击广告的用户行为数据。在本发明实施例中,广告曝光数据和点击广告的用户行为数据指用户浏览广告和点击广告的次数或者频率。设备数据包括但不限于设备id,设备品牌和设备类型。
25.在步骤s101中,待预测设备为本次广告投放所涉及到的多种设备、终端或终端系统。通过对该多种设备、终端或终端系统进行广告监测,能够得到广告监测数据。
26.在具体实现步骤s101的过程,接收广告监测系统实时对待预测设备进行广告监测时所得到的广告监测数据。
27.步骤s102:基于sparkml特征工程提取所述广告监测数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到测试集。
28.在步骤s102中,sparkml特征工程为sparkmllib机器学习过程中的重要组成部分,通过sparkml特征工程对广告监测数据进行特征处理,能够在满足对海量数据的处理的同时,提高针对海量数据进行处理的运算性能。
29.广告监测数据中的目标特征可以由技术人员进行设置,包括但不限于待预测设备的设备id,设备品牌、设备类型,以及生成广告监测数据的时间和地理位置等特征信息。
30.在具体实现步骤s102的过程,确定要提取的目标特征,利用sparkml特征工程从广告监测数据中提取目标特征,并将提取到的目标特征转换为后续可进行预测的数据。通常情况下,可由技术人员根据后续测试的需求预先确定所采用的特征转换方式,从而得到预测格式的特征,并将转换后的目标特征进行集合,得到测试集。
31.可选的,在具体实现目标特征转换的过程中,可以通过预先构建目标特征与数字的对应关系,将所述目标特征转换为对应的数字并进行集合,得到测试集。
32.如表1所示,为目标特征和数字的对应关系。
33.表1:
[0034][0035]
以上表1为举例,具体的数字可以由技术人员进行设置。
[0036]
步骤s103:将所述测试集分别输入预先构建的第一用户属性预测模型和第二用户属性预测模型进行预测,得到第一用户属性预测结果和第二用户属性预测结果。
[0037]
在步骤s103中,所述第一用户属性预测模型利用第一用户属性进行随机森林模型训练构建,所述第二用户属性预测模型利用第二用户属性进行随机森林模型训练构建。第一用户属性和第二用户属性用于指示不同的用户属性。该用户属性包括但不限于用户年龄、用户性别、用户学历、用户国籍等。
[0038]
在具体实现步骤s103的过程,基于第一用户属性和sparkmllib机器学习提供的随机森林模型构建的第一用户属性预测模型对输入的测试集进行预测,得到第一用户属性预测结果。
[0039]
同理,基于第二用户属性和sparkmllib机器学习提供的随机森林模型构建的第二用户属性预测模型对输入的测试集进行预测,得到第二用户属性预测结果。
[0040]
需要说明的是,若第一用户属性为用户性别,则利用用户性别和sparkmllib机器学习提供的二分类随机森林模型构建的第一用户属性预测模型。若第二用户属性可以为用户年龄,则利用用户年龄和sparkmllib机器学习提供的多分类随机森林模型构建的第二用户属性预测模型。
[0041]
步骤s104:将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。
[0042]
在具体实现步骤s104的过程,将第一用户属性预测结果和第二用户属性预测结果进行集合,将得到的集合作为待预测设备的画像标签。
[0043]
基于本发明实施例提供的一种画像标签预测方法,通过获取对待预测设备进行广告监测得到的广告监测数据,基于sparkml特征工程提取广告监测数据中的目标特征并进行转换,得到测试集;将测试集分别输入预先基于不同用户属性和随机森林模型进行训练构建的第一用户属性预测模型和第二用户属性预测模型进行预测,将得到第一用户属性预测结果和第二用户属性预测结果合并作为待预测设备的画像标签。在本发明实施例中,通过预先基于用户属性和随机森林模型进行训练,得到满足对海量数据进行预测的用户属性
预测模型,利用sparkml特征工程对待预测设备的广告监测数据进行特征提取,并将提取的特征转换为测试集,利用用户属性预测模型对测试集进行预测,以实现在满足海量数据处理的同时得到准确画像标签的目的。
[0044]
基于上述本发明实施例提供的一种画像标签预测方法,在执行步骤s103时涉及到预先构建的第一用户属性预测模型和第二用户属性预测模型。如图2所示,为本发明实施例提供的一种预先构建第一用户属性预测模型和第二用户属性预测模型的流程示意图,主要包括如下步骤:
[0045]
步骤s201:获取样本设备的广告监测数据。
[0046]
在步骤s201中,该样本设备为已知画像标签的设备。
[0047]
所述广告监测数据至少包括设备数据、广告曝光数据和点击广告的用户行为数据。
[0048]
该设备数据则包括但不限于样本设备的设备id,设备品牌和设备类型。
[0049]
在具体实现步骤s201的过程中,获取广告监测系统监测的多个样本设备的广告监测数据。
[0050]
步骤s202:根据所述样本设备的设备id将所述广告监测数据与具有同样设备id的样本库数据进行关联,得到所述样本设备的原始数据。
[0051]
在步骤s202中,样本库用于存储用户属性、设备信息等信息。可选的,可以为上数样本库。
[0052]
在样本库中,每条样本库数据都对应一个设备id,以表明其来源。每个样本库数据至少包括第一用户属性和第二用户属性。
[0053]
在本发明实施例中第一用户属性和第二用户属性仅用于区别不同的用户属性,并不限制样本库数据属性的个数。
[0054]
在具体实现步骤s202的过程中,针对每一样本设备,查找与样本设备的设备id相同的样本库数据,将该样本库数据与具有相同设备id的样本设备的广告监测数据进行关联,得到样本设备的原始数据。若存在多个样本设备,则得到与多个样本设备相关的原始数据。
[0055]
例如,对三个样本设备对应的样本数据与具有相同设备id的样本设备的广告监测数据进行关联后得到的原始数据,可以采用表的方式表示,如表2所示:
[0056]
表2:
[0057][0058]
以上表2仅为举例。
[0059]
步骤s203:基于sparkml特征工程提取所述原始数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到样本数据集。
[0060]
在步骤s203中,所述目标特征至少包括所述样本设备的设备数据,每一所述目标
特征均与所述第一用户属性和第二用户属性关联。
[0061]
在具体实现步骤s203的过程中,基于表2示出的原始数据,可选的,基于sparkml特征工程提取原始数据中的设备品牌、设备类型和地理位置,并基于表1示出目标特征和数字的对应关系对目标特征进行转换,得到样本数据集。
[0062]
该样本数据集同样可以采用表3的方式进行表示。
[0063]
表3:
[0064][0065]
步骤s204:将所述样本数据集划分为训练集和验证集。
[0066]
在步骤s204中,训练集用于训练用户属性预测模型。验证集则用于验证用户属性预测模型。
[0067]
在具体实现步骤s204中,将样本数据集按照样本设备的个数随机划分为两部分,其中一部分作为训练集,另一部分作为验证集。
[0068]
可选的,对样本数据集进行不重复抽样,将样本数据集随机划分为k份,将其中的n份作为训练集,将剩余的k-n份去除关联的用户属性后作为验证集。其中,k的取值为大于2的正整数,n的取值为大于1的正整数。
[0069]
以表3为例,进行划分后,得到表4和表5。其中表4表示一份训练集,表5表示一份验证集。
[0070]
表4:
[0071][0072]
表5:
[0073][0074]
步骤s205:基于第一用户属性和所述第二用户属性将所述训练集划分为标签为第一用户属性的第一训练集,以及标签为第二用户属性的第二训练集。
[0075]
在具体实现步骤s205的过程中,以对表4为例进行说明,表6所展示的为划分标签为第一用户属性的一份第一训练集的参与训练所涉及到的字段信息。表7所展示的为划分标签为第二用户属性的一份第二训练集的参与训练所涉及到的字段信息。
[0076]
需要说明的是,有多少份训练集则会划分出多少份第一训练集和第二训练集。
[0077]
表6:
[0078][0079]
表7:
[0080][0081]
步骤s206:分别对所述第一训练集和所述第二训练集进行随机森林模型训练,得到第一用户属性预测模型和第二用户属性预测模型;
[0082]
在具体实现步骤s206的过程中,获取随机森林模型参数,该随机森林模型参数用于构建随机森林模型,基于sparkmllib机器学习和随机森林模型参数构建随机森林训练模型,将第一训练集作为随机森林训练模型的输入量训练随机森林训练模型,得到第一用户属性预测模型。
[0083]
同理,基于sparkmllib机器学习和随机森林模型参数构建随机森林训练模型,将第二训练集作为随机森林训练模型的输入量训练随机森林训练模型,得到第二用户属性预测模型。
[0084]
需要说明的是,若第一训练集和第二训练集为多份,则会得到多个第一用户属性预测模型和多个第二用户属性预测模型。
[0085]
这里以第一用户属性预测模型为性别预测模型,所述第二用户属性预测模型为年龄预测模型为例进行说明。
[0086]
如图3所示,为本发明实施例提供的一种性别预测模型和年龄预测模型训练的流程示意图,主要包括如下步骤:
[0087]
步骤s301:获取二分类随机森林模型参数。
[0088]
在步骤s301,二分类随机森林模型参数用于参与性别预测模型的训练。
[0089]
步骤s302:将所述第一训练集和所述二分类随机森林模型参数作为sparkmllib机器学习模型的输入进行二分类随机森林模型训练,输出所述第一训练集对应的二分类随机森林模型,将所述二分类随机森林模型作为性别预测模型。
[0090]
步骤s303:获取多分类随机森林模型参数。
[0091]
在步骤s303,多分类随机森林模型参数用于参与年龄预测模型的训练。
[0092]
步骤s304:将所述第二训练集和所述多分类随机森林模型参数作为sparkmllib机器学习模型的输入进行多分类随机森林模型训练,输出所述第二训练集对应的多分类随机森林模型,将所述多分类随机森林模型作为年龄预测模型。
[0093]
步骤s207:基于所述验证集对所述第一用户属性模型和所述第二用户属性模型进行验证,若验证通过,执行步骤s208,若验证未通过,继续执行步骤s206。
[0094]
在具体实现步骤s207的过程中,将验证集分别输入多个第一用户属性模型和多个第二用户属性模型,若得到的第一用户属性与验证集中各个样本设备对应的真实第一用户属性相同或相似,且得到的第二用户属性与验证集中各个样本设备对应的真实第二用户属性相同相似,则确定验证通过,反之,任意一个存在不同,则确定验证为通过,继续对多个第一用户属性模型和多个第二用户属性模型进行训练,直至验证通过。
[0095]
可选的,针对通过验证的第一用户属性模型和第二用户属性模型,选取预测结果最接近或与真实第一用户属性相同的第一用户属性模型为最终的第一用户属性模型。同理,选取预测结果最接近或与真实第二用户属性相同的第二户属性模型为最终的第二用户属性模型。
[0096]
在一种可选的实现方式中,首先,将所述验证集中的待测目标特征分别作为所述第一用户属性预测模型和所述第二用户属性预测模型的输入进行预测,得到第一用户属性预测结果和第二用户属性预测结果。
[0097]
然后,将所述第一用户属性预测结果与所述待测目标特征关联的第一用户属性进行偏差值计算,以及将所述第二用户属性预测结果与所述待测目标特征关联的第二用户属性进行偏差值计算。
[0098]
若所述偏差值小于阈值,确定验证通过;
[0099]
若所述偏差值不小于阈值,确定验证未通过。
[0100]
最后,从验证通过的第一用户属性预测模型和第二用户属性预测模型中,选取偏差值最小的第一用户属性预测模型和第二用户属性预测模型作为最终的第一用户属性预测模型和第二用户属性预测模型。
[0101]
步骤s208:确定构建完成第一用户属性模型和第二用户属性模型。
[0102]
在本发明实施例中,通过预先基于用户属性和随机森林模型进行训练,得到满足对海量数据进行预测的用户属性预测模型,有利于后续对待预测设备进行画像标签预测时,结合sparkml特征工程对待预测设备的特征处理,利用用户属性预测模型对测试集进行预测,从而实现在满足海量数据处理的同时得到准确画像标签的目的。
[0103]
与上述本发明实施例示出的一种画像标签预测方法相对应,参考图4,为本发明实施例提供的一种画像标签预测装置的结构框图,所述画像标签预测装置包括:获取模块401、特征处理模块402、预测模块403和合并模块404。
[0104]
获取模块401,用于获取对待预测设备进行广告监测得到的广告监测数据,所述广告监测数据至少包括设备数据。
[0105]
特征处理模块402,用于基于sparkml特征工程提取所述广告监测数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到测试集。
[0106]
所述特征处理模块402可选的包括:
[0107]
提取单元,用于基于sparkml特征工程提取所述广告监测数据中的目标特征。
[0108]
转换单元,用于根据预先构建的目标特征与数字的对应关系,将所述目标特征转换为对应的数字并进行集合,得到测试集。
[0109]
预测模块403,用于将所述测试集分别输入预先构建的第一用户属性预测模型和
第二用户属性预测模型进行预测,得到第一用户属性预测结果和第二用户属性预测结果,其中,所述第一用户属性预测模型利用第一用户属性进行随机森林模型训练构建,所述第二用户属性预测模型利用第二用户属性进行随机森林模型训练构建。
[0110]
合并模块404,用于将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。
[0111]
可选的,该画像标签预测装置还包括构建模块,该构建模块包括:
[0112]
获取单元,用于获取样本设备的广告监测数据,所述广告监测数据至少包括设备数据、广告曝光数据和点击广告的用户行为数据,所述设备数据至少包括所述样本设备的设备id;
[0113]
关联单元,用于根据所述样本设备的设备id将所述样本设备的广告监测数据与具有同样设备id的样本库数据进行关联,得到所述样本设备的原始数据,所述样本库数据至少包括第一用户属性和第二用户属性;
[0114]
特征处理单元,用于基于sparkml特征工程提取所述原始数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到样本数据集,所述目标特征至少包括所述样本设备的设备数据,每一所述目标特征均与所述第一用户属性和第二用户属性关联;
[0115]
划分单元,用于将所述样本数据集划分为训练集和验证集,以及基于第一用户属性和所述第二用户属性将所述训练集划分为标签为第一用户属性的第一训练集,以及标签为第二用户属性的第二训练集。
[0116]
训练单元,用于分别对所述第一训练集和所述第二训练集进行随机森林模型训练,得到第一用户属性预测模型和第二用户属性预测模型。
[0117]
需要说明的是,若所述第一用户属性预测模型为性别预测模型,所述第二用户属性预测模型为年龄预测模型,则训练单元具体用于:
[0118]
获取二分类随机森林模型参数;将所述第一训练集和所述二分类随机森林模型参数作为sparkmllib机器学习模型的输入进行二分类随机森林模型训练,输出所述第一训练集对应的二分类随机森林模型,将所述二分类随机森林模型作为性别预测模型;以及获取多分类随机森林模型参数;将所述第二训练集和所述多分类随机森林模型参数作为sparkmllib机器学习模型的输入进行多分类随机森林模型训练,输出所述第二训练集对应的多分类随机森林模型,将所述多分类随机森林模型作为年龄预测模型。
[0119]
验证单元,用于基于所述验证集对所述第一用户属性模型和所述第二用户属性模型进行验证;若验证通过,确定构建完成第一用户属性模型和第二用户属性模型,若验证未通过,继续执行所述训练单元。
[0120]
可选的,该验证单元具体用于:将所述验证集中的待测目标特征分别作为所述第一用户属性预测模型和所述第二用户属性预测模型的输入进行预测,得到第一用户属性预测结果和第二用户属性预测结果;将所述第一用户属性预测结果与所述待测目标特征关联的第一用户属性进行偏差值计算,以及将所述第二用户属性预测结果与所述待测目标特征关联的第二用户属性进行偏差值计算;若所述偏差值小于阈值,确定验证通过;若所述偏差值不小于阈值,确定验证未通过。
[0121]
在本发明提供的画像标签预测装置中,通过获取对待预测设备进行广告监测得到的广告监测数据,基于sparkml特征工程提取广告监测数据中的目标特征并进行转换,得到
测试集;将测试集分别输入预先基于不同用户属性和随机森林模型进行训练构建的第一用户属性预测模型和第二用户属性预测模型进行预测,将得到第一用户属性预测结果和第二用户属性预测结果合并作为待预测设备的画像标签。在本发明实施例中,通过预先基于用户属性和随机森林模型进行训练,得到满足对海量数据进行预测的用户属性预测模型,并结合对sparkml特征工程完成画像标签预测,实现在满足海量数据处理的同时得到准确画像标签的目的。
[0122]
基于上述本发明实施例公开的数据处理装置,上述各个模块和单元可以通过一种由处理器和存储器构成的硬件设备实现。具体为:上述各个模块和单元作为程序单元存储于存储器中,由处理器执行存储在存储器中的上述程序单元来实现数据处理。
[0123]
其中,处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现数据处理。
[0124]
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现画像标签预测处理。
[0125]
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行图1至图2任意公开的画像标签预测方法。
[0126]
本发明实施例提供了一种数据处理设备50,如图5所示,示出了本发明实施例提供的一种数据处理设备50的结构示意图。
[0127]
本发明实施例中的数据处理设备可以是服务器、pc、pad、手机等。
[0128]
该数据处理设备包括至少一个处理器501,以及与处理器连接的至少一个存储器502,以及总线503。
[0129]
处理器501、存储器502通过总线503完成相互间的通信。处理器501,用于执行存储器502中存储的程序。
[0130]
存储器502,用于存储程序,该程序至少用于:获取对待预测设备进行广告监测得到的广告监测数据,所述广告监测数据至少包括设备数据;基于sparkml特征工程提取所述广告监测数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到测试集;将所述测试集分别输入预先构建的第一用户属性预测模型和第二用户属性预测模型进行预测,得到第一用户属性预测结果和第二用户属性预测结果,其中,所述第一用户属性预测模型利用第一用户属性进行随机森林模型训练构建,所述第二用户属性预测模型利用第二用户属性进行随机森林模型训练构建;将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。
[0131]
本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
[0132]
获取对待预测设备进行广告监测得到的广告监测数据;基于sparkml特征工程提取所述广告监测数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到测试集;将所述测试集分别输入预先构建的第一用户属性预测模型和第二用户属性预测模型进行预测,得到第一用户属性预测结果和第二用户属性预测结果;将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。
[0133]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0134]
在一个典型的配置中,设备包括一个或多个处理器(cpu)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
[0135]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
[0136]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0137]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0138]
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
[0139]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1