收入预测方法及装置与流程

文档序号:16318983发布日期:2018-12-19 05:36阅读:280来源:国知局
收入预测方法及装置与流程
本申请涉及数据处理领域,尤其涉及一种收入预测方法及装置。
背景技术
随着信息技术的快速发展,互联网技术在人们的生活、工作中的得到了广泛的应用。例如,人们可以通过互联网进行广告的展示、下载应用程序或者进行交易等等。一般,针对某个对象,可以通过多种渠道在网上进行投放,例如,可以在百度网站、谷歌网站等各种网站进行投放。因此,用户也可以从不同的渠道对该对象执行操作。例如,通过百度网站对其执行操作等。在某些情况下,用户需要对对象的投放渠道进行筛选,一般在进行筛选时需要依据渠道的收入情况,这时,就需要对各个渠道下某对象的收入进行预测。现有技术中,一般通过使用回归模型对渠道的历史收入进行拟合,对各个渠道下某对象的收入进行预测时。因此,若是无法获取各个渠道的历史收入数据,则无法对各个渠道的收入进行预测。因此,有必要提出一种收入预测方法,在无法获取各个渠道的历史收入数据时,也可以对各个渠道的收入进行预测。技术实现要素:本申请实施例的目的是提供一种收入预测方法及装置,以解决现有技术中在无法获取到各个渠道的历史收入数据的情况下,无法对各个渠道的收入进行预测的问题。为解决上述技术问题,本申请实施例是这样实现的:本申请实施例提供了一种收入预测方法,包括:获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息;其中,所述相关信息中包括所述用户对所述目标对象执行操作的渠道标识;以及,所述用户对所述目标对象执行操作的设备相关信息和/或操作相关信息;根据每个用户的相关信息,确定该用户对所述目标对象执行操作的相关特征所对应的特征值;根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定所述待预测群体中通过每种渠道对所述目标对象执行操作的用户的相关特征所对应的群体特征值;根据每种渠道的相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下所述目标对象的收入进行预测。本申请还实施例提供了一种收入预测装置,包括:获取模块,用于获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息;其中,所述相关信息中包括所述用户对所述目标对象执行操作的渠道标识;以及,所述用户对所述目标对象执行操作的设备相关信息和/或操作相关信息;第一确定模块,用于根据每个用户的相关信息,确定该用户对所述目标对象执行操作的相关特征所对应的特征值;第二确定模块,用于根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定所述待预测群体中通过每种渠道对所述目标对象执行操作的用户的相关特征所对应的群体特征值;预测模块,用于根据每种渠道下的相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下所述目标对象的收入进行预测。本申请实施例还提供了一种收入预测设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述所述的收入预测方法的步骤。本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的收入预测方法的步骤。本申请实施例提供的收入预测方法,通过获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息;然后根据每个用户的相关信息,确定该用户对目标对象执行操作的相关特征所对应的特征值;并根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定待预测群体中通过每种渠道对目标对象执行操作的用户的相关特征所对应的群体特征值;最后,根据每种渠道下相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下目标对象的收入进行预测;在本申请实施例中,根据每个用户对目标对象执行操作的渠道标识,可以确定出待预测群体中通过每种渠道对目标对象执行操作的用户的相关特征的群体特征值;根据每种渠道下用户的相关特征的群体特征值,就可以对该渠道下目标对象的收入进行预测,不需要使用渠道历史收入,实现了在无法获取某个渠道的历史收入数据的情况下,对该渠道的收入进行预测。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的收入预测方法的第一种方法流程图;图2为本申请实施例提供的收入预测方法中,使用渠道收入预测子模型进行渠道收入预测的示意图之一;图3为本申请实施例提供的收入预测方法的第二种方法流程图;图4为本申请实施例提供的收入预测装置的模块示意图;图5为本申请实施例提供的收入预测设备的结构示意图。具体实施方式为了使本
技术领域
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。本申请实施例的思想在于,根据待预测群体中每个用户对目标对象执行操作时所使用渠道的渠道标识,对群体进行划分,得到通过每种渠道对目标对象执行操作的用户群体;通过每个用户群体对目标对象执行操作的相关特征的群体特征值,实现对每种渠道下目标对象的收入进行预测。基于此思想,本申请实施例提供了一种收入预测方法及装置,下面将详细进行介绍。图1为本申请实施例提供的收入预测方法的第一种方法流程图,图1所示的方法,至少包括如下步骤:步骤102,获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息;其中,上述相关信息包括用户对目标对象执行操作的渠道标识;以及用户对目标对象执行操作的设备相关信息和/或操作相关信息。具体的,上述预测周期可以是一天、半天等时间长度。其中,上述目标对象可以为展示在网页上的广告位、应用程序、产品、音视频等。具体的,若是上述目标对象为展示在网页上的广告位,相应的,用户对目标对象执行的操作可以是点击操作;若是上述目标对象为展示在网页上的应用程序,上述对目标对象执行的操作可以是下载操作或者点击操作;若是上述目标对象为展示在网页上的产品,上述对目标对象执行的操作可以是浏览操作或者购买操作等。当然,此处指示示例性的介绍目标对象、对目标对象执行的操作的具体内容,并不构成对目标对象、对目标对象执行的具体操作的限定。不难理解,针对每个目标对象,可能会存在多种投放渠道。例如,可以投放在不同网站的网页上,如百度网页、谷歌网页等等。不同的用户可能会通过不同的网站浏览到目标对象,并对目标对象执行操作,这种情况可以称为用户通过不同的渠道对目标对象执行操作。当用户在通过不同的渠道对目标对象执行操作时,会记录用户对目标对象执行操作的相关信息。具体的,该相关信息中需要携带有用户对目标对象执行操作的渠道标识;除此之外,该相关信息中还携带有用户对目标对象执行操作的设备相关信息和/或操作相关信息。具体的,在本申请实施例中,上述相关信息除了携带渠道标识外,可以只包括设备相关信息;或者,上述相关信息除了携带渠道标识外,还可以只包括操作相关信息;还或者,上述相关信息除了携带渠道标识外,还包括设备相关信息和操作相关信息;还或者,在包括设备相关信息和操作相关信息的基础上,还包括其它相关的信息,如,用户所处的地理位置信息、用户执行操作使用的语言信息等。其中,用户对目标对象执行操作时所使用的设备相关信息可以包括如下信息:所使用的设备的型号、设备总内存、设备的厂商、设备的宽高等。上述设备一般可以是手机、平板电脑、计算机等设备。用户对目标对象执行操作的操作相关信息可以包括如下信息:用户对目标对象执行操作的时间信息、用户对目标对象执行操作的次数、向用户展示目标对象的次数等信息。步骤104,根据每个用户的相关信息,确定该用户对目标对象执行操作的相关特征所对应的特征值。其中,上述相关特征可以包括设备相关特征和/或操作相关特征;具体的,若是上述相关信息中包括设备相关信息,则该相关特征包括设备相关特征;也若是上述相关信息中包括操作相关信息,则该相关特征可以包括操作相关特征;或者,若是上述相关信息中包括操作相关信息和设备相关信息,则该相关特征可以同时包括设备相关特征和操作相关特征。当然,在具体实施时,上述相关特征可以在同时包括设备相关特征、操作相关特征的基础上,还包括其它的特征。具体的,相关特征所包括的具体特征与上述相关信息的具体内容有关。其中,上述设备相关特征可以包括以下特征中的一种或者多种:设备厂商特征、设备型号特征、设备内存特征、设备大小特征等等。在一种具体实施例中,若是上述相关特征为设备相关特征;则在上述步骤104中,根据每个用户的相关信息,确定该用户对目标对象执行操作的相关特征所对应的特征值,具体包括如下步骤(1)、步骤(2)和步骤(3);步骤(1)、根据用户对应的设备相关信息,确定每个设备相关特征的取值;步骤(2)、判断上述设备相关特征的取值是否为离散型变量;步骤(3)、若是,则对上述设备相关特征的取值进行编码转换,得到上述设备相关特征所对应的特征值;否则,将上述设备相关特征的取值进行离散化处理,并确定上述设备相关特征所对应的特征值。其中,在每个用户所对应的设备相关信息中,包括该用户对目标对象执行操作所使用的设备的各个特征的取值。例如,包括用户对目标对象执行操作时所使用设备的设备厂商、设备的总内存、设备的型号、设备的长宽等的取值。因此,在本申请实施例中,在确定每个设备相关特征所对应的特征值时,可以直接从每个用户所对应的设备相关信息中读取每个设备相关特征所对应的取值。具体的,若是某个设备相关特征的取值为离散型变量,则可以直接对该设备相关特征的取值进行编码,从而得到该设备相关特征所对应的特征值。在本申请实施例中,可以采用one-hot编码的方法对设备特征的值进行编码。对于某个特征而言,若是该特征存在m个可能的取值,采用one-hot对该取值进行编码后,就变成了m个二元特征。例如,针对成绩这一特征而言,可能的取值有好、中、差三种,那么采用one-hot对成绩所对应的取值进行编码后,可以得到成绩对应的特征值为100、010、001。例如,在一种具体实施方式中,上述一个可能的设备相关特征为设备厂商特征。根据用户所对应的相关信息中得知用户对目标对象执行操作时所使用设备的设备厂商为oppo。因此,oppo就是设备厂商特征所对应的取值。然后,对设备厂商特征所对应的取值进行编码,就可以得到设备厂商特征的特征值。在本申请实施例中,可以采用one-hot的方法对厂商特征的取值进行编码。当然,除了上述所列举的采用one-hot的方法确定设备相关特征的特征值之外,还可以按照预先设定的各个厂商与特征值的对应关系,确定厂商特征的特征值。其中,预先设定的厂商与特征值的一种可能的对应关系如表1所示。当然,在表1中,以举例的方式示例性的列举了几个厂商以及其所对应的特征值,用户所使用设备的厂商并不局限于此。另外,上述各个设备厂商所对应的特征值的具体值也不局限于此。表1厂商特征值oppo1.0vivo1.2苹果1.1另外,若是在步骤(2)中,判断出设备相关特征的取值并不是离散型变量,即为连续性变量,这时,可以通过对设备相关特征的取值进行离散化处理的方式确定设备相关特征所对应的特征值。在一种具体实施方式中,可以采用等宽分箱处理的方法,对设备特征的取值进行离散化处理。所谓等宽分箱处理,一般是将某个特征的最大取值和最小取值之间的所有取值划分为多个区间,并且每个区间的长度是相等的。例如,若是某个特征的最大取值为b,最小取值为a,将该特征的取值划分为n个区间,则每个区间的长度可以通过如下公式计算:w=(b-a)/n其中,在上述公式中,w表示每个区间的宽度。然后,各个区间边界的取值为a、a+w、a+2w…b,具体的,一个区间则为一个分箱。为了便于理解当设备相关特征的取值不是离散型变量时,确定设备相关特征所对应的特征值,下述将举例进行说明。设备内存的取值属于连续型变量,因此,在确定设备内容特征的特征值时,需要对设备内存的取值进行离散化处理。一般的,设备内存的最大取值为4096m,最小取值为0m。先采用等宽分箱法,将设备内存的取值划分为多个区间。在本申请实施例中,将设备内容的取值划分为四个区间,通过上述公式计算每个区间的长度;w=(4096-0)/4=1024上述计算出来的每个区间的长度为1024m,因此,可以确定出划分后的四个区间分别为(0,1024m]、(1024m,2048m]、(2048m,3072m]、(3072m,4096m]。在此处所举例中,选取的是左开右闭形式的区间,具体选择左开右闭形式的区间还是左闭右开形式的区间,可以根据实际应用场景进行选择。当将设备内存的取值划分为上述四个区间后,设定每个区间所对应的特征值。在具体实施时,当确定出每个区间后,可以采用one-hot的方法对各个区间的取值进行编码,从而得到各个区间所对应的特征值。或者,还可以通过预先设置各个区间所对应的特征值的方式,设置的设备内存的取值的各个区间与特征值的一种对应关系如表2所示。表2设备内存的取值区间特征值(0,1024m]1.0(1024m,2048m]1.1(2048m,3072m]1.2(3072m,4096m]1.3具体的,上述只是以设备内存的最大取值、以及划分为四个区间为例进行说明的,并且表2中各个区间所对应的特征值均是示例性说明,并不构成对本申请实施例的限定。在一种具体实施方式中,若是用户所使用设备的设备内存的取值为1024m。将该取值与上述四个区间分别进行匹配,确定出该取值所对应的区间,然后将该区间所对应的特征值确定为用户所使用设备的设备内存的特征值。在本实施例中,设备的内容为1024m,属于区间(0,1024m],因此,可以将区间(0,1024m]所对应的数值确定为设备内存特征所对应的特征值。在本申请实施例中,通过上述步骤(1)、步骤(2)和步骤(3),可以得到每个设备相关特征所对应的特征值,得到的每个设备相关特征的可以记为如下格式:<f,v>,其中,f表示特征名称,v表示对应的特征值。例如,针对上述举例列举的设备内存特征和设备厂商特征这两个特征而言,可以记为:<设备内存特征,1.0>、<设备厂商特征,1.0>。具体的,上述相关特征除了为设备相关特征外,还可以为操作相关特征。因此,在本申请实施例中,若是上述相关特征为操作相关特征;则在步骤104中,根据每个用户的相关信息,确定该用户对目标对象执行操作的相关特征的特征值,具体包括如下步骤(a)、步骤(b)和步骤(c);步骤(a)、根据每个用户的相关信息,统计该用户对目标对象执行操作的次数以及向该用户展示目标对象的次数;步骤(b)、根据用户对目标对象执行操作的次数以及向用户展示目标对象的次数,计算用户对目标对象执行操作的点击通过率(click-through-rate,ctr)值;步骤(c)、根据上述用户的ctr值,确定用户的ctr特征值。具体的,在本申请实施例中,可以通过如下公式计算用户对目标对象执行操作的ctr值:ctr=x/y其中,在上述公式中,x表示用户对目标对象执行操作的次数,y表示向用户展示目标对象的次数,ctr则表示用户对目标对象执行操作的ctr值。例如,若是上述目标对象为展示在网页上的广告位,则x可以表示用户点击广告位的次数,y表示向用户展示广告位的次数。由于后续在确定每种渠道所对应的群体特征值时,需要将同一渠道下的所有用户相同的相关特征所对应的特征值进行合并。但是,由于ctr特征值无法直接进行累加。因此,在本申请实施例中,需要对ctr值进行分箱处理。具体的,对ctr值进行分箱处理的具体过程可参考上述对设备内存特征进行分箱的具体过程,此处不再赘述。在对ctr值进行分箱处理后,可以采用one-hot的方法确定每个ctr区间所对应的特征值。这样,当计算出每个用户所对应的ctr值后,将该ctr值与上述ctr区间进行匹配,以确定计算出的ctr值落在哪个ctr区间内,然后将该ctr区间所对应的特征值确定出该用户的ctr特征值。当然,在本申请实施例中,上述相关特征除了设备相关特征、操作相关特征之外,还可以是用户对目标对象执行操作时所处的地理位置特征、用户对目标对象执行操作时所使用的语言特征以及用户对目标对象执行操作的时间特征等。在本申请实施例中,当确定出待预测群体中每个用户的每种相关特征所对应的特征值后,则需要执行步骤106,即确定每种渠道的每种相关特征所对应的群体特征值。步骤106,根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定上述待预测群体中通过每种渠道对目标对象执行操作的所有用户的相关特征所对应的群体特征值。具体的,上述步骤106中,根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定上述待预测群体中通过每种渠道对目标对象执行操作的用户的相关特征所对应的群体特征值,具体包括如下步骤一和步骤二;步骤一、针对每种渠道,将待预测群体中通过该种渠道对目标对象执行操作的用户中相同的相关特征所对应的特征值进行合并;步骤二、将合并后的每个相关特征的特征值确定为通过该种渠道对目标对象执行操作的用户的相关特征所对应的群体特征值。具体的,上述步骤一中,针对每种渠道,将待预测群体中通过该渠道对目标对象执行操作的用户中相同的相关特征所对应的特征值进行合并,具体包括如下步骤:根据每个用户对目标对象执行操作的渠道标识,将待预测群体划分为多个子用户群体;其中,每个子用户群体中的所有用户对目标对象执行操作的渠道标识相同;将每个子用户群体中相同的相关特征所对应的特征值进行累加。需要说明的是,在本申请实施例中,上述一个子用户群体中的用户使用同一个渠道对目标对象执行操作。在本申请实施例中,根据每个用户对目标对象执行操作的渠道标识,将待预测群体中使用同一个渠道对目标对象执行操作的用户筛选出来,组成一个子用户群体,这样,可以将到预测群体拆分成多个子用户群体,并且,每个子用户群体中的用户使用同一种渠道对目标对象执行操作。为便于理解,下述将举例进行说明。例如,上述待预测群体包括用户a、用户b、用户c、用户d、用户e和用户f,其中,用户a和用户c通过渠道1对目标对象执行操作,用户b、用户d和用户e通过渠道2对目标对象执行操作,用户f通过渠道3对目标对象执行操作。因此,可以将上述待预测群体划分为三个子用户群体,子用户群体1为使用渠道1对目标对象执行操作的用户,包括用户a和用户c;子用户群体2为使用渠道2对目标对象执行操作的用户,包括用户b、用户d和用户f;子用户群体3为使用渠道3对目标对象执行操作的用户,包括用户f。在本申请实施例中,当将待预测群体划分为多个子用户群体后,针对每个子用户群体,将子用户群体中每个用户相同的每个相关特征所对应的特征值进行累加,这样,可以得到该子用户群体的相关特征所对应的群体特征值。为便于理解,下述将举例进行说明。继续沿用上例,例如,针对渠道1而言,使用渠道1对目标对象执行操作的用户群体为子用户群体1,子用户群体1包括用户a和用户c,用户a的所有相关特征为:<用户a>→[<f_1,v_1>];用户c的所有相关特征为:<用户c>→[<f_1,v_2>,<f_2,v_3>];其中,f_1和f_2表示的是不同的相关特征,v_1、v_2和v_3则表示相应的相关特征所对应的特征值。上述用户a和用户c均具有相关特征f_2,因此,将用户a和用户c中相同的相关特征的特征值进行累加,可以得到子用户群体1的相关特征所对应的群体特征值,即:<子用户群体1>→[<f_1>,v_1+v_2>,<f_2,v_3]具体的,在上述举例中,子用户群体1所对应的各个相关特征的群体特征1则为渠道1所对应的群体特征值。另外,除了根据每个用户的相关特征,通过合并的方式获取每种渠道的相关特征所对应的群体特征值外,在本申请实施例中,每种渠道的相关特征还可以包括直接获取某些群体特征的群体特征值。具体的,在本申请实施例中,每种渠道的相关特征还包括:收入相关特征;相应的,在执行步骤108之前,本申请实施例提供的方法还包括:根据预测周期前设定时间长度内待预测群体所对应的收入信息和操作相关信息,确定每种渠道的收入相关特征所对应的群体特征值。其中,上述收入相关特征可以包括每点击收入(cpc)特征以及每种渠道的预测收入特征等。在本申请实施例中,可以通过如下公式计算设定时间长度内的cpc值;cpc=总收入/总操作次数其中,在上述公式中,总收入表示的是待预测群体在设定时间长度内的总收入,总操作次数表示的是待预测群体在设定时间长度内对目标对象执行操作的总操作次数。具体的,上述预测周期可以为一天,相应的,上述设定时间长度可以为预测日前1天、前3天、前5天、前15天等任意一天,由于考虑到太久之前的数据与预测日的关系可能不大,因此,最早可以选择预测日前第15天的数据。另外,考虑到不同周的同一星期数的数据可能具有较强的关系,因此,在本申请实施例中,优选的,可以选取预测日前7天当前的数据或者预测日前14天当天的数据。例如,预测日为星期三,则可以选取上周三的数据或者上上周三的数据计算cpc值。在本申请实施例中,可以直接将待预测群体的cpc值作为每种渠道所对应的cpc群体特征值。当确定出每种渠道所对应的cpc群体特征值后,根据待预测群体中使用每种渠道对目标对象执行操作的用户在预测周期内对目标对象执行操作的总操作次数,以及该种渠道所对应的cpc群体特征值,通过如下公式计算该种渠道在预测周期的预测收入特征值;s=cpc值×总操作次数其中,在上述公式中,s表示某渠道的预测收入群体特征值,此处的总操作次数指的是待预测群体中使用该渠道对目标对象执行操作的用户的总操作次数。另外,在本申请实施例中,可以直接获取的相关特征除了收入相关特征外,还可以包括目标对象本身的一些特征。例如,若是目标对象的广告位,则上述每种渠道的相关特征还可以包括广告位上的广告填充特征值以及广告请求特征值等。在本申请实施例中,在获取到每种渠道的相关特征的特征值后,为了方便对相关特征的管理,可以采用稀疏向量的方式表示每种渠道的相关特征及其对应的群体特征值。例如,若是某个渠道包括如下三个相关特征:[<f_1,v_1>,<f_2,v_2>,<f_3,v_3>]其中,f_1、f_2和f_3表示三种相关特征,v_1、v_2和v_3则表示对应的群体特征值。使用稀疏向量可以表示为:(n,(1,2,3),(v_1,v_2,v_3))其中,n表示相关特征的总特征长度,即相关特征的个数。步骤108,根据每种渠道的相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下目标对象的收入进行预测。在本申请实施例中,上述预先训练的渠道收入预测模型可以为回归模型。具体的,在本申请实施例中,采用树回归模型。可以理解为,在本申请实施例中,预先训练的渠道收入预测模型是由多个渠道收入预测子模型构成的,每个渠道收入预测子模型中设置有不同的相关特征所对应的预测规则。因此,在具体实施时,上述步骤108中,根据每种渠道下的相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下目标对象的收入进行预测,具体包括如下步骤1)和步骤2):步骤1)、将每种渠道下相关特征所对应的群体特征值分别输入每个渠道收入预测子模型,得到每个渠道收入预测子模型对应的子预测值;其中,每个渠道收入预测子模型中设置有不同的相关特征所对应的预测规则;步骤2)、将每种渠道所对应的所有子预测值相加,得到目标对象在该种渠道下的预测收入值。为便于理解上述渠道收入预测子模型,下述将举例进行说明。例如,在一种具体实施方式中,预先训练的渠道收入预测模型包括三个渠道收入预测子模型,分别记为渠道收入预测子模型1、渠道收入预测子模型2和渠道收入预测子模型3;渠道收入预测子模型1中设置有相关特征1和相关特征2所对应的预测规则,渠道收入预测子模型2中设置有相关特征3和相关特征3所对应的预测规则,渠道收入预测子模型3中设置有相关特征2和相关特征3所对应的预测规则。这样,当得到每种渠道的相关特征1、相关特征2、相关特征3和相关特征4所对应的群体特征值后,分别输入上述四个渠道收入预测子模型,相应的得到四个子预测值,将上述四个子预测值相加,即可得到目标对象在该种渠道下的预测收入值。为便于理解各个渠道收入预测子模型如何根据相关特征进行预测,下述将以将相关特征1、相关特征2、相关特征3和相关特征4输入渠道收入预测子模型1中为例,进行详细介绍。图2示出了本申请实施例中渠道收入预测子模型1的一种模型示意图,在渠道收入预测子模型1中设置有相关特征1和相关特征2所对应的预测规则。将渠道1的相关特征1、相关特征2、相关特征3和相关特征4所对应的群体特征值分别输入渠道收入预测子模型1中。在渠道收入预测子模型1中,根节点以相关特征1做划分,若是相关特征1所对应的群体特征值小于x1,则划分到左子树,若是相关特征1所对应的群体特征值大于或等于x1,则划分到右子树;然后在划分好的左子树或者右子树上以相关特征2做进一步的划分,若是相关特征2所对应的群体特征值小于x2,则划分到左叶子,若是相关特征2所对应的群体特征值大于或等于x2,则划分到右叶子,每一个子叶子对应一个子预测值。通过上述方法就可以预测出渠道1在渠道收入预测子模型1中所对应的子预测值。另外,在采用本申请实施例提供的方法对各个渠道进行收入预测之前,还需要训练渠道收入预测模型。因此,在采用本申请实施例提供的方法进行收入预测之前,需要执行如下步骤:确定多个群体中每个群体的相关特征的群体特征值以及每个群体的收入值;根据每个群体所对应的群体特征值和收入值,训练上述渠道收入预测模型。在本申请实施例中,可以按照本申请实施例中上述所列举的方法,根据多个群体中每个群体的历史相关信息,训练多个群体的相关特征所对应的群体特征值,并且,还可以根据每个群体的历史收入数据,得到该群体所对应的总收入。将上述多个群体所对应的群体特征值以及收入值可以称为一组训练数据,在本申请实施例中,可以将上述训练数据放入回归模型中进行交叉训练。具体的,在进行模型训练时,可以从一组训练数据中随机选取80%的训练数据作为训练集,进行模型的训练,剩余的20%的训练数据作为测试集,用于对训练得到的模型进行验证。对于每一组数据都重复上述步骤,即可训练出模型的最优参数。为便于理解本申请实施例所提供的收入预测方法,下述将以目标对象为“广告位”、对目标对象执行的操作为对“广告位”的“点击”操作为例,介绍本申请实施例所提供的收入预测方法。图3示出了本申请实施例提供的收入预测模型的第二种方法流程图,图3所示的方法,至少包括如下步骤:步骤302,获取待预测群体中每个用户在预测日对广告位进行点击的相关信息。其中,上述相关信息中包括用户点击广告位所使用渠道的渠道标识,还包括用户点击广告位所使用的设备相关信息和对广告位进行点击的点击行为信息。具体的,上述设备相关信息可以包括所使用设备的型号、设备总内存、设备的厂商、设备的宽高等。上述点击行为信息可以包括用户对广告位的点击次数、向用户展示广告位的次数、用户点击广告位的时间信息等。其中,上述相关信息中还可以包括用户所处的国家信息、用户所使用的语言信息等。步骤304,根据每个用户的设备相关信息,确定该用户点击广告位所使用设备的设备相关特征所对应的特征值;以及根据每个用户的点击行为信息,确定该用户点击广告位的点击行为相关特征。其中,在本申请实施例中,每个设备相关特征或者点击行为相关特征均可以通过如下方式进行表征:<国家,广告位,user_1>→[<f_1,v_1>]<国家,广告位,user_2>→[<f_1,v_2>,<f_2,v_3>]其中,user_1和user_2分别表示用户1和用户2,f_1和f_2表示设备相关特征或者点击行为相关特征。v_1表示user_1的特征f_1所对应的特征值,v_2表示user_2的特征f_1所对应的特征值,v_3表示user_2的特征f_2所对应的特征值。步骤306,根据每个用户在点击广位时所使用渠道的渠道标识,将待预测群体划分为多个子用户群体;其中,每个子用户群体中所有用户所对应的渠道标识相同。此处具体将待预测群体划分为多个子用户群体的过程可参考图1、图2所对应实施例,此处不再赘述。步骤308,将每个子用户群体中相同的设备相关特征所对应的特征值进行累加,以及将每个子用户群体中相同的点击行为相关特征所对应的特征值进行累加。继续沿用上例,将上述user_1和user_2中相同的行为特征所对应的特征值进行累加后,可以得到:<国家,广告位>→[<f_1,v_1+v_2>,<f_2,v_3>]由于user_1和user_2中具有相同的特征f_1,因此,可以将特征f_1所对应的特征值进行累加。步骤310,将累加后得到的各个特征值确定为每种渠道的相关特征所对应的群体特征值。在本申请实施例中,若是某个渠道所对应的子用户群体只包括上述user_1和user_2,则v_1+v_2确定为该渠道的特征f_1所对应的群体特征值,将v_3确定为该渠道的特征f_2所对应的群体特征值。步骤312,获取每种渠道的cpc群体特征值。在本申请实施例中,cpc群体特征值需要根据待预测群体的历史数据确定,由于无法获取待预测群体的历史数据中各个用户所使用的渠道标识,因为无法获取各个渠道所对应的cpc特征值。在本申请实施例中,则直接将待预测群体的cpc特征值确定为每种渠道的cpc群体特征值。步骤314,根据每种渠道的cpc群体特征值,确定每种渠道的预测收入群体特征值。具体的,上述预测收入群体特征值的确定方法可以参考图1、图2所对应实施例,此处不再赘述。步骤316,将每种渠道的相关特征所对应的群体特征值分别输入每个渠道收入预测子模型中,得到每个渠道收入预测子模型对应的子预测值。其中,每个渠道收入预测子模型中设置有不同的相关特征所对应的预测规则。步骤318,将每种渠道所对应的所有子预测值相加,得到广告位在该种渠道下的预测收入值。图3所对应实施例中各个步骤的具体实现过程,与图1、图2所对应实施例中各个步骤的具体实现过程相同,因此,图3所对应实施例中各个步骤的具体实现过程可参考图1、图2所对应实施例,此处不再赘述。本申请实施例提供的收入预测方法,通过获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息;然后根据每个用户的相关信息,确定该用户对目标对象执行操作的相关特征所对应的特征值;并根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定待预测群体中通过每种渠道对目标对象执行操作的用户的相关特征所对应的群体特征值;最后,根据每种渠道下相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下目标对象的收入进行预测;在本申请实施例中,根据每个用户对目标对象执行操作的渠道标识,可以确定出待预测群体中通过每种渠道对目标对象执行操作的用户的相关特征的群体特征值;根据每种渠道下用户的相关特征的群体特征值,就可以对该渠道下目标对象的收入进行预测,不需要使用渠道历史收入,实现了在无法获取某个渠道的历史收入数据的情况下,对该渠道的收入进行预测。对应上述的方法,本申请实施例还提供了一种收入预测装置,用于执行上述实施例提供的收入预测方法。图4为本申请实施例提供的收入预测装置的模块组成示意图,图4所示的装置,至少包括:获取模块401,用于获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息;其中,上述相关信息包括该用户对目标对象执行操作的渠道标识;以及,该用户对目标对象执行操作的设备相关信息和/或操作相关信息;第一确定模块402,用于根据每个用户的相关信息,确定该用户对目标对象执行操作的相关特征所对应的特征值;第二确定模块403,用于根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定该预测群体中通过每种渠道对目标对象执行操作的用户的相关特征所对应的群体特征值;预测模块404,用于根据每种渠道的相关特征所对应的群体特征值以及预先训练的渠道收入预测模块,对每种渠道下目标对象的收入进行预测。可选的,上述第二确定模块403,包括:合并单元,用于针对每种渠道,将待预测群体中通过该种渠道对目标对象执行操作的用户中相同的相关特征所对应的特征值进行合并;第一确定单元,用于将合并后的每个相关特征的特征值确定为通过该种渠道对目标对象执行操作的用户的相关特征所对应的群体特征值。可选的,上述合并单元,具体用于:根据每个用户对目标对象执行操作的渠道标识,将待预测群体划分为多个子用户群体;其中,每个子用户群体中所有用户对目标对象执行操作的渠道标识相同;将每个子用户群体中相同的相关特征所对应的特征值进行累加。可选的,上述预测模块404,包括:输入单元,用于将每种渠道的相关特征所对应的群体特征值分别输入每个渠道收入预测子模型中,得到每个渠道收入预测子模型对应的子预测值;其中,每个渠道收入预测模型中设置有不同的相关特征所对应的预测规则;相加单元,用于将每种渠道所对应的子预测规则相加,得到目标对象在该种渠道下的预测收入值。可选的,上述相关特征为设备相关特征;相应的,上述第一确定模块402,包括:第二确定单元,用于根据上述用户对应的设备相关信息,确定每个设备相关特征的取值;判断单元,用于判断上述设备相关特征的取值是否为离散型变量;处理单元,用于若上述设备相关特征的取值为离散型变量,则对上述设备相关特征的取值进行编码转换,得到上述设备相关特征所对应的特征值;若上述设备相关特征的取值不是离散型变量,对上述设备相关特征的取值进行离散化处理,并确定上述设备相关特征所对应的特征值。可选的,上述相关特征为操作相关特征;相应的,上述第一确定模块402,包括:第三确定单元,用于根据每个上述用户的操作相关信息,确定该用户对上述目标对象执行操作的次数以及向该用户展示上述目标对象的次数;计算单元,用于根据上述用户对上述目标对象执行操作的次数以及向上述用户展示上述目标对象的次数,计算上述用户对上述目标对象执行操作的点击通过率ctr值;第四确定单元,用于根据上述用户的ctr值,确定上述用户的ctr特征值。可选的,上述每种渠道的相关特征还包括:收入相关特征;相应的,上述装置还包括:第三确定模块,用于根据上述预测周期前设定时间长度内上述待预测群体所对应的收入信息和操作相关信息,确定上述每种渠道的收入相关特征所对应的群体特征值。可选的,本申请实施例提供的装置,还包括:第四确定模块,用于确定上述多个群体中每个群体的相关特征所对应的群体特征值以及每个群体的收入值;训练模块,用于根据每个群体所对应的群体特征值和收入值,训练渠道收入预测模型。本申请实施例提供的收入预测装置,通过获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息;然后根据每个用户的相关信息,确定该用户对目标对象执行操作的相关特征所对应的特征值;并根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定待预测群体中通过每种渠道对目标对象执行操作的用户的相关特征所对应的群体特征值;最后,根据每种渠道下相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下目标对象的收入进行预测;在本申请实施例中,根据每个用户对目标对象执行操作的渠道标识,可以确定出待预测群体中通过每种渠道对目标对象执行操作的用户的相关特征的群体特征值;根据每种渠道下用户的相关特征的群体特征值,就可以对该渠道下目标对象的收入进行预测,不需要使用渠道历史收入,实现了在无法获取某个渠道的历史收入数据的情况下,对该渠道的收入进行预测。进一步地,基于上述的方法,本申请实施例还提供了一种收入预测设备,图5为本申请实施例提供的收入预测设备的结构示意图。如图5所示,收入预测设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器501和存储器502,存储器502中可以存储有一个或一个以上存储应用程序或数据。其中,存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对收入预测设备中的一系列计算机可执行指令。更进一步地,处理器501可以设置为与存储器502通信,在收入预测设备上执行存储器502中的一系列计算机可执行指令。收入预测设备还可以包括一个或一个以上电源503,一个或一个以上有线或无线网络接口504,一个或一个以上输入输出接口505,一个或一个以上键盘506等。在一个具体的实施例中,收入预测设备包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述收入预测方法实施例的各个过程,具体包括以下步骤:获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息;其中,上述相关信息中包括上述用户对上述目标对象执行操作的渠道标识;以及,上述用户对上述目标对象执行操作的设备相关信息和/或操作相关信息;根据每个用户的相关信息,确定该用户对上述目标对象执行操作的相关特征所对应的特征值;根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定上述待预测群体中通过每种渠道对上述目标对象执行操作的用户的相关特征所对应的群体特征值;根据每种渠道的相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下上述目标对象的收入进行预测。可选的,计算机可执行指令在被执行时,根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定上述待预测群体中通过每种渠道对上述目标对象执行操作的用户的相关特征所对应的群体特征值,包括:针对每种渠道,将上述待预测群体中通过该种渠道对上述目标对象执行操作的用户中相同的相关特征所对应的特征值进行合并;将合并后的每个相关特征的特征值确定为通过该种渠道对上述目标对象执行操作的用户的相关特征所对应的群体特征值。可选的,计算机可执行指令在被执行时,针对每种渠道,将上述待预测群体中通过该种渠道对上述目标对象执行操作的用户中相同的相关特征所对应的特征值进行合并,包括:根据每个用户对目标对象执行操作的渠道标识,将上述待预测群体划分为多个子用户群体;其中,每个子用户群体中所有用户对目标对象执行操作的渠道标识相同;将每个子用户群体中相同的相关特征所对应的特征值进行累加。可选的,计算机可执行指令在被执行时,根据每种渠道下的相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下上述目标对象的收入进行预测,包括:将每种渠道下相关特征所对应的群体特征值分别输入每个渠道收入预测子模型中,得到每个渠道收入预测子模型对应的子预测值;其中,每个渠道收入预测模型中设置有不同的相关特征所对应的预测规则;将每种渠道所对应的子预测规则相加,得到目标对象在该种渠道下的预测收入值。可选的,计算机可执行指令在被执行时,上述相关特征为设备相关特征;相应的,上述根据每个用户的相关信息,确定该用户对上述目标对象执行操作的相关特征所对应的特征值,包括:根据上述用户对应的设备相关信息,确定每个设备相关特征的取值;判断上述设备相关特征的取值是否为离散型变量;若是,则对上述设备相关特征的取值进行编码转换,得到上述设备相关特征所对应的特征值;否则,对上述设备相关特征的取值进行离散化处理,并确定上述设备相关特征所对应的特征值。可选的,计算机可执行指令在被执行时,上述相关特征为操作相关特征;相应的,上述根据每个用户的相关信息,确定该用户对上述目标对象执行操作的相关特征所对应的特征值,包括:根据每个上述用户的操作相关信息,确定该用户对上述目标对象执行操作的次数以及向该用户展示上述目标对象的次数;根据上述用户对上述目标对象执行操作的次数以及向上述用户展示上述目标对象的次数,计算上述用户对上述目标对象执行操作的点击通过率ctr值;根据上述用户的ctr值,确定上述用户的ctr特征值。可选的,计算机可执行指令在被执行时,所述每种渠道的相关特征还包括:收入相关特征:相应的,上述根据每种渠道的相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下上述目标对象的收入进行预测之前,上述方法还包括:根据上述预测周期前设定时间长度内上述待预测群体所对应的收入信息和操作相关信息,确定上述每种渠道的收入相关特征所对应的群体特征值。可选的,计算机可执行指令在被执行时,获取待预测群体中每个用户对目标对象执行操作的相关信息之前,上述方法还包括:确定上述多个群体中每个群体的相关特征所对应的群体特征值以及每个群体的收入值;根据每个群体所对应的群体特征值和收入值,训练渠道收入预测模型。本申请实施例提供的收入预测设备,通过获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息;然后根据每个用户的相关信息,确定该用户对目标对象执行操作的相关特征所对应的特征值;并根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定待预测群体中通过每种渠道对目标对象执行操作的用户的相关特征所对应的群体特征值;最后,根据每种渠道下相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下目标对象的收入进行预测;在本申请实施例中,根据每个用户对目标对象执行操作的渠道标识,可以确定出待预测群体中通过每种渠道对目标对象执行操作的用户的相关特征的群体特征值;根据每种渠道下用户的相关特征的群体特征值,就可以对该渠道下目标对象的收入进行预测,不需要使用渠道历史收入,实现了在无法获取某个渠道的历史收入数据的情况下,对该渠道的收入进行预测。进一步地,基于上述的收入预测方法,本申请实施例还提供一种计算机可读存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为u盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息;其中,上述相关信息中包括上述用户对上述目标对象执行操作的渠道标识;以及,上述用户对上述目标对象执行操作的设备相关信息和/或操作相关信息;根据每个用户的相关信息,确定该用户对上述目标对象执行操作的相关特征所对应的特征值;其中,上述相关特征包括以下特征中的至少一项:设备相关特征、操作相关特征;根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定上述待预测群体中通过每种渠道对上述目标对象执行操作的用户的相关特征所对应的群体特征值;根据每种渠道下的相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下上述目标对象的收入进行预测。可选的,该存储介质存储的计算机可执行指令在被处理器执行时,根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定上述待预测群体中通过每种渠道对上述目标对象执行操作的用户的相关特征所对应的群体特征值,包括:针对每种渠道,将上述待预测群体中通过该种渠道对上述目标对象执行操作的用户中相同的相关特征所对应的特征值进行合并;将合并后的每个相关特征的特征值确定为通过该种渠道对上述目标对象执行操作的用户的相关特征所对应的群体特征值。可选的,该存储介质存储的计算机可执行指令在被处理器执行时,针对每种渠道,将上述待预测群体中通过该种渠道对上述目标对象执行操作的用户中相同的相关特征所对应的特征值进行合并,包括:根据每个用户对目标对象执行操作的渠道标识,将上述待预测群体划分为多个子用户群体;其中,每个子用户群体中所有用户对目标对象执行操作的渠道标识相同;将每个子用户群体中相同的相关特征所对应的特征值进行累加。可选的,该存储介质存储的计算机可执行指令在被处理器执行时,根据每种渠道下的相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下上述目标对象的收入进行预测,包括:将每种渠道下相关特征所对应的群体特征值分别输入每个渠道收入预测子模型中,得到每个渠道收入预测子模型对应的子预测值;其中,每个渠道收入预测模型中设置有不同的相关特征所对应的预测规则;将每种渠道所对应的子预测规则相加,得到目标对象在该种渠道下的预测收入值。可选的,该存储介质存储的计算机可执行指令在被处理器执行时,上述相关特征为设备相关特征;相应的,上述根据每个用户的相关信息,确定该用户对上述目标对象执行操作的相关特征所对应的特征值,包括:根据上述用户对应的设备相关信息,确定每个设备相关特征的取值;判断上述设备相关特征的取值是否为离散型变量;若是,则对上述设备相关特征的取值进行编码转换,得到上述设备相关特征所对应的特征值;否则,对上述设备相关特征的取值进行离散化处理,并确定上述设备相关特征所对应的特征值。可选的,该存储介质存储的计算机可执行指令在被处理器执行时,上述相关特征为操作相关特征;相应的,上述根据每个用户的相关信息,确定该用户对上述目标对象执行操作的相关特征所对应的特征值,包括:根据每个上述用户的操作相关信息,确定该用户对上述目标对象执行操作的次数以及向该用户展示上述目标对象的次数;根据上述用户对上述目标对象执行操作的次数以及向上述用户展示上述目标对象的次数,计算上述用户对上述目标对象执行操作的点击通过率ctr值;根据上述用户的ctr值,确定上述用户的ctr特征值。可选的,该存储介质存储的计算机可执行指令在被处理器执行时,上述每种渠道的相关特征还包括:收入相关特征:相应的,上述根据每种渠道的相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下上述目标对象的收入进行预测之前,上述方法还包括:根据上述预测周期前设定时间长度内上述待预测群体所对应的收入信息和操作相关信息,确定上述每种渠道的收入相关特征所对应的群体特征值。可选的,该存储介质存储的计算机可执行指令在被处理器执行时,获取待预测群体中每个用户对目标对象执行操作的相关信息之前,上述方法还包括:确定上述多个群体中每个群体的相关特征所对应的群体特征值以及每个群体的收入值;根据每个群体所对应的群体特征值和收入值,训练渠道收入预测模型。本申请实施例提供的存储介质存储的计算机可执行指令在被处理器执行时,通过获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息;然后根据每个用户的相关信息,确定该用户对目标对象执行操作的相关特征所对应的特征值;并根据每个用户的相关特征所对应的特征值以及每个用户所对应的渠道标识,确定待预测群体中通过每种渠道对目标对象执行操作的用户的相关特征所对应的群体特征值;最后,根据每种渠道下相关特征所对应的群体特征值以及预先训练的渠道收入预测模型,对每种渠道下目标对象的收入进行预测;在本申请实施例中,根据每个用户对目标对象执行操作的渠道标识,可以确定出待预测群体中通过每种渠道对目标对象执行操作的用户的相关特征的群体特征值;根据每种渠道下用户的相关特征的群体特征值,就可以对该渠道下目标对象的收入进行预测,不需要使用渠道历史收入,实现了在无法获取某个渠道的历史收入数据的情况下,对该渠道的收入进行预测。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1