用于DSP的出价方法及装置、存储介质、终端与流程

文档序号:16319268发布日期:2018-12-19 05:36阅读:217来源:国知局
用于DSP的出价方法及装置、存储介质、终端与流程
本发明涉及互联网
技术领域
,尤其涉及一种用于dsp的出价方法及装置、存储介质、终端。
背景技术
在展示内容投放行业中,例如广告行业或者新闻推送行业,实时竞价(realtimebidding,rtb)是近年来逐渐流行的一种采买方式。与传统的合约广告不同,rtb允许广告主或者展示内容提供方对每一个展示机会进行竞价,从而以人群购买取代了广告位购买。需求方平台(demandsideplatform,dsp)作为广告主或者展示内容提供方的代理,需要对每个广告请求进行决策是否参与竞价,以及出价多少。进行实时出价的方式有多种,例如每千名受众成本(costperthousand,cpm)出价,受限点击成本出价,也称为每点击成本(costperclick,cpc)出价,定值出价,随机出价等。在现有技术中,通常利用历史竞价数据来指导竞价操作,但是竞价环境处在不断变化之中,历史竞价数据的指导往往具有滞后性,并不能实时准确的调整竞价操作。技术实现要素:本发明解决的技术问题是如何实时准确的调整竞价操作。为解决上述技术问题,本发明实施例提供一种用于dsp的出价方法,包括如下步骤:采用预设训练数据对出价模型进行训练,以得到回报列表,其中,所述预设训练数据为竞价获胜的历史数据;利用配置有所述回报列表的出价模型对竞价请求进行出价,并统计出价的实际回报;利用所述实际回报对所述回报列表进行实时更新,并将更新后的回报列表配置给所述出价模型,以对新的竞价请求进行出价。可选的,采用预设训练数据对出价模型进行训练,以得到回报列表包括:确定第一参数和第二参数,其中所述回报列表由所述第一参数和第二参数定义,所述第一参数为状态参数,所述第二参数为动作参数;依次将每个第一参数和第二参数构成的参数组合配置到所述出价模型并进行出价,若所述出价大于或等于所述预设训练数据中的成交价,则记录所述出价以及出价之后的点击量,用以计算所述参数组合对应的回报,直至遍历完成多组所述参数组合,或者,所述出价的总和达到出价预算。可选的,所述动作参数为价格调整系数,所述价格调整系数与预估出价基数的乘积即为所述出价,其中,所述预估出价基数在竞价请求发生之前预估得到。可选的,所述动作参数为胜出率,每个胜出率均对应一个所述出价,其中,所述胜出率与所述出价的对应分布图在竞价请求发生之前预估得到。可选的,利用配置有所述回报列表的出价模型对竞价请求进行出价包括:确定所述竞价请求发生时的状态参数,所述状态参数包括时间节点,以及在所述时间节点做出的所述动作参数生效时间段内的出价预算;确定所述状态参数下回报的最大值所对应的动作参数,利用所述动作参数确定所述出价。可选的,所述出价模型为q-learning算法模型,所述回报列表为q表。为解决上述技术问题,本发明实施例还提供了一种用于dsp的出价装置,包括:训练模块,适于采用预设训练数据对出价模型进行训练,以得到回报列表,其中,所述预设训练数据为竞价获胜的历史数据;竞价模块,适于利用配置有所述回报列表的出价模型对竞价请求进行出价,并统计出价的实际回报;反馈模块,适于利用所述实际回报对所述回报列表进行实时更新,并将更新后的回报列表配置给所述出价模型,以对新的竞价请求进行出价。可选的,所述训练模块包括:参数确定子模块,适于确定第一参数和第二参数,其中所述回报列表由所述第一参数和第二参数定义,所述第一参数为状态参数,所述第二参数为动作参数;训练执行子模块,适于依次将每个第一参数和第二参数构成的参数组合配置到所述出价模型并进行出价,若所述出价大于或等于所述预设训练数据中的成交价,则记录所述出价以及出价之后的点击量,用以计算所述参数组合对应的回报,直至遍历完成多组所述参数组合,或者,所述出价的总和达到出价预算。可选的,所述动作参数为价格调整系数,所述价格调整系数与预估出价基数的乘积即为所述出价,其中,所述预估出价基数在竞价请求发生之前预估得到。可选的,所述动作参数为胜出率,每个胜出率均对应一个所述出价,其中,所述胜出率与所述出价的对应分布图在竞价请求发生之前预估得到。可选的,所述竞价模块包括:实时参数确定子模块,适于确定所述竞价请求发生时的状态参数,所述状态参数包括时间节点,以及在所述时间节点做出的所述动作参数生效时间段内的出价预算;实时出价子模块,适于确定所述状态参数下回报的最大值所对应的动作参数,利用所述动作参数确定所述出价。可选的,所述出价模型为q-learning算法模型,所述回报列表为q表。为解决上述技术问题,本发明实施例还提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述的用于dsp的出价方法的步骤。为解决上述技术问题,本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述的用于dsp的出价方法的步骤。与现有技术相比,本发明实施例的技术方案具有以下有益效果:本发明实施例采用预设训练数据对出价模型进行训练,以得到回报列表,其中,所述预设训练数据为竞价获胜的历史数据;利用配置有所述回报列表的出价模型对竞价请求进行出价,并统计出价的实际回报;利用所述实际回报对所述回报列表进行实时更新,并将更新后的回报列表配置给所述出价模型,以对新的竞价请求进行出价。由于回报列表是根据出价的实际回报实时更新的,因此可以实时准确的调整竞价操作,提高竞价获胜的概率。进一步,本发明实施例的动作参数可以为价格调整系数或胜出率,所述价格调整系数与预估出价基数的乘积即为所述出价,或者,每个胜出率均对应一个所述出价,其中,所述预估出价基数或胜出率与所述出价的对应分布图在竞价请求发生之前预估得到。由此,在执行竞价操作时,通过竞价模型直接输出价格调整系数或者胜出率,再通过价格调整系数与预估出价基数的乘积便可得到预估出价,或者,通过胜出率与预估出价的分布图得到预估出价,避免了复杂的计算转换过程,提高了出价效率。进一步,本发明实施例在训练出价模型时,依次将每个第一参数和第二参数构成的参数组合配置到所述出价模型并进行出价,若所述出价大于或等于所述预设训练数据中的成交价,则记录所述出价以及出价之后的点击量,用以计算所述参数组合对应的回报,直至遍历完成多组所述参数组合,或者,所述出价的总和达到出价预算。由此,可以实现在消耗完预算的情况下,优化每次点击的成本,并可以提高展示效果。附图说明图1是本发明实施例一种用于dsp的出价方法的流程图;图2是图1中步骤s11的一种具体实施方式的流程图;图3是本发明实施例一种用于dsp的出价装置的结构示意图。具体实施方式本领域技术人员理解,在现有技术中,通常利用历史竞价数据来指导竞价操作,但是竞价环境处在不断变化之中,历史竞价数据的指导往往具有滞后性,并不能实时准确的调整竞价操作。本发明技术方案通过采用预设训练数据对出价模型进行训练,以得到回报列表,其中,所述预设训练数据为竞价获胜的历史数据;随后利用配置有所述回报列表的出价模型对竞价请求进行出价,并统计出价的实际回报;接下来,再利用所述实际回报对所述回报列表进行实时更新,并将更新后的回报列表配置给所述出价模型,以对新的竞价请求进行出价。由此,可以实时准确的调整竞价操作,提高竞价获胜的概率。为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。图1是本发明实施例一种用于dsp的出价方法的流程图。图1所示的用于dsp的出价方法可以包括以下步骤:步骤s11:采用预设训练数据对出价模型进行训练,以得到回报列表,其中,所述预设训练数据为竞价获胜的历史数据;步骤s12:利用配置有所述回报列表的出价模型对竞价请求进行出价,并统计出价的实际回报;步骤s13:利用所述实际回报对所述回报列表进行实时更新,并将更新后的回报列表配置给所述出价模型,以对新的竞价请求进行出价。在步骤s11的具体实施中,对出价模型训练的过程可以是出价模型自学习的过程。出价模型采用预设训练数据进行出价模拟以及自学习,在训练完成后,出价模型可以在线上竞价时输出模型的最优的动作参数,所述最优的动作参数可以与最优出价对应。进一步地,所述竞价获胜的历史数据可以包括如下字段中的一种或多种:时间戳(time_stamp)、成交价(win_price)、点击量(clk)、胜出率与出价的对应分布图、预估出价基数(pwp)等。具体地,所述预估出价基数或者胜出率与出价的对应分布图可以通过winprice模型输出。winprice模型的具体配置可以是现有技术中任何适当的配置。更具体地,所述winprice模型可以在针对某条流量的竞价操作执行之前,输出用于指导出价操作的预估出价基数或者胜出率与出价的对应分布图。进一步地,所述采用预设训练数据对出价模型进行训练,以得到回报列表可以通过图2所示的步骤实现。请参见图2,图2为本发明实施例步骤s11的一个具体实施方式,其具体包括如下步骤:步骤s21:确定第一参数和第二参数,其中所述回报列表由所述第一参数和第二参数定义,所述第一参数为状态参数,所述第二参数为动作参数;步骤s22:依次将每个第一参数和第二参数构成的参数组合配置到所述出价模型并进行出价,若所述出价大于或等于所述预设训练数据中的成交价,则记录所述出价以及出价之后的点击量,用以计算所述参数组合对应的回报,直至遍历完成多组所述参数组合,或者,所述出价的总和达到出价预算。在具体实施步骤s21时,可以根据业务类型来确定第一参数和第二参数,所述第一参数可以为状态参数,所述第二参数可以为动作参数。进一步地,所述状态参数可以包括时间节点,以及在所述时间节点做出的所述动作参数生效时间段内的出价预算,例如:时间节点为3点,在3点时做出的动作参数其生效时间段可以为3点-4点,所述出价预算即为3点-4点这个时间段内可用的预算。具体地,所述出价预算可以由预算比例来表示。更具体地,所述预算比例可以是,在每个时间节点(例如:3点)所对应的动作参数的生效时间段(例如:3点-4点之间的时间段)内,针对所述业务类型的历史竞价获胜流量与所有历史流量的比值,所述预算比例与总预算的乘积为所述出价预算。进一步地,所述动作参数可以为价格调整系数或胜出率,所述价格调整系数与预估出价基数的乘积可以表示为所述出价,每个胜出率也可以均对应一个所述出价。其中,所述价格调整系数以及所述胜出率与所述出价的对应分布图可以在竞价请求发生之前由前述的winprice模型预估得到。在具体实施步骤s22时,可以依次将每个状态参数和动作参数构成的参数组合配置到所述出价模型并进行出价。在一个优选的实施例中,所述出价模型可以为q-learning算法模型,相应地,所述回报列表为q表。其中,q表可以由状态参数(state)和动作参数(action)定义,q表中的回报可以为长远回报,所述长远回报是指在当前状态下做出动作参数后,未来若干个状态的回报累积和。具体而言,所述状态参数的时间节点可以选择数列形式,例如可以是[12345……24]。若所述动作参数为价格调整系数,则所述价格调整系数可以选择数列的形式,例如可以是[0.20.40.60.81.0……],也可以是[0.10.20.30.40.50.6……]。若所述动作参数为胜出率,则所述胜出率可以选择数列的形式,例如可以是[0.20.40.60.81.0……],也可以是[0.10.20.30.40.50.6……]。所述时间节点、价格调整系数、胜出率的形式可以根据具体的业务类型来确定,本发明实施例对此不做限制。接下来,可以将状态参数和动作参数写入下表(q表):动作参数a1动作参数a2动作参数a3动作参数a4……动作参数an状态参数s1q(s1,a1)q(s1,a2)q(s1,a3)q(s1,a4)……q(s1,an)状态参数s2q(s2,a1)q(s2,a2)q(s2,a3)q(s2,a4)……q(s2,an)状态参数s3q(s3,a1)q(s3,a2)q(s3,a3)q(s3,a4)……q(s3,an)……………………………………状态参数snq(sn,a1)q(sn,a2)q(sn,a3)q(sn,a4)……q(sn,an)其中,n为大于0的整数。j代表当前状态的编号,i代表下一个状态的编号,q(sj,a)表示在状态sj时,采取动作a能够得到的长远回报。上述的q表中有n个状态,则所述长远回报是未来n-j个状态的回报累积和。例如,q(s1,a)表示在状态s1时,从状态s2至状态sn的回报累积和。γ代表学习参数,γ的取值范围可以根据业务类型不同而在0~1之间任意选择。reward可以表示在当前动作参数的生效时间段(例如:一个小时的时间段)内是否用完预算的相关奖励。例如:可以将没有用完预算定义为负奖励,其大小可以通过-1*cpc来计算;可以将用完预算定义为正奖励,其大小可以通过1/cpc来计算。伪代码表示如下:costprogress=hourcost/hourbudgetcpc=hourcost/hourclkif(0.8<costprogress)reward=1/cpcelse-1*cpc其中,costprogress代表每小时预算花费进度;hourcost代表每小时实际花费;hourbudget代表每小时的出价预算;cpc代表每次点击成本;hourclk代表每个小时的点击总数。在一个具体的应用场景中,例如,采用某网页广告位的历史竞价数据进行训练,所述历史竞价数据可以包括如下字段:竞价操作发生在4点,成交价为20元,winprice模型输出的预估出价基数为10元,成交之后的点击量是500点击。对于已经由状态参数和价格调整系数定义的q表来说,若选择(4,1)这一参数组合来进行出价,其中(4,1)中的4代表状态参数里的时间节点,1代表在时间节点4选择的价格调整系数,同时,在时间节点为4时,将出价预算设置为100元。利用所述的参数组合(4,1)进行出价操作,所述出价为预估出价基数(10元)与价格调整系数(1)的乘积,即出价为10元,小于成交价20元。此时,表示在时间节点为4时,采用价格调整系数1出价失败,也就是说采用价格调整系数1买不到这条网页广告位。若选择(4,2)这一参数组合来进行出价操作,其中(4,2)中的4代表状态参数里的时间节点,2代表在时间节点4选择的价格调整系数,在时间节点为4时,出价预算设置为100元。利用参数组合(4,2)进行出价操作,所述出价为预估出价基数(10元)与价格调整系数(2)的乘积,即出价为20元,等于成交价20元。此时,表示在时间节点为4时,采用价格调整系数2出价成功,也就是说采用价格调整系数2可以买到这条网页广告位。接下来,利用此时的出价(20元)、出价预算(100元)以及点击量(500元)来计算相关奖励(reward)。由于此时出价预算(100元)并没有花完,还剩余80元,因此,时间节点4还可以与其他的出价系数继续构成参数组合进行出价模拟,直到花完出价预算(100元),或者遍历完成时间节点4与其他的所有出价系数构成的参数组合。进一步地,对于出价成功的每个参数组合来说,都可以计算奖励(reward)。所述奖励(reward)可以用于迭代计算q表中的长远回报,并将所述长远回报填写入q表。所述长远回报的更新逻辑可以采用如下方式:q(sj,a)←(1-α)q(sj,a)+α[rewardj+γ*maxaq(sj+1,a)]其中,maxaq(sj+1,a)表示第j+1个状态下的最大长远回报,γ和α都代表学习参数,γ和α的取值范围都可以根据业务类型不同而在0~1之间任意选择。q(sj,a)表示第j个状态下的长远回报,rewardj表示状态j下是否花完钱对应的奖励。例如:若j=1,则当状态s2下的长远回报更新后,状态s1的长远回报由上述的更新逻辑进行更新。若j=3,则当状态s4下的长远回报更新后,状态s3的长远回报由上述逻辑进行更新,在状态s3的长远回报更新后,状态s2和状态s1的长远回报也会根据上述更新逻辑依次进行更新。所述q表经过多次的迭代更新后,q表会逐渐趋于稳定状态,此时,对于每一个状态(q表中的一个行),存在一个最大的q值,也就是最大的长远回报值,该最大的q值所对应的动作参数即为所述状态下最优的动作参数,该动作参数可以是所述出价系数或者所述胜出率。进一步地,对于不同的业务类型,可以分别进行训练,分别得到最优的动作参数,以使得出价模型在针对不同业务类型的竞价请求进行出价时,都能够准确指导出价。更进一步地,对于同一业务类型,在动作参数生效时间段内分配不同的出价预算进行训练,得到指导出价的最优动作参数也可以不一样。接下来,可以利用配置有所述回报列表的出价模型对竞价请求进行出价,并统计出价的实际回报。请继续参考图1,在具体实施步骤s12的过程中,首先需要确定所述竞价请求发生时的状态,该状态可以与q表中的状态参数对应。例如,实际的竞价请求发生时,时间节点为5点。在竞价之前,通过现有的winprice模型得到胜出率与出价的对应分布图或者预估出价基数。随后,将实际竞价的状态对应至出价模型中的状态参数,例如:state5。接下来,确定所述状态参数下回报的最大值所对应的动作参数,例如,可以查找state5所在的行中最大的长远回报值,所述最大的长远回报值所在的列对应的动作参数即为出价模型可以输出的针对此次实际竞价操作的动作参数。接下来,利用所述动作参数确定所述出价。具体地,若所述动作参数为价格调整系数,则所述价格调整系数与所述预估出价基数的乘积即为所述出价。具体地,若所述动作参数为胜出率,则所述胜出率可以对应输出一个具体的出价。进一步地,在实际竞价操作中,对于某一个具体状态参数,能够以90%的概率选择最大的长期回报所对应的动作参数,以10%的概率随机选择动作参数。如此设置可以避免出价模型在第一次输出最大的长期回报所对应的动作参数后,其在后续的出价操作时只能识别上一次的动作参数,保证出价模型能够更加智能的辅助进行不同状态下的竞价操作。进一步地,出价完成后,统计出价的实际回报值,若采用q-learning算法模型,则可以统计出价后的实际长远回报值。更进一步地,所述实际回报可以与最优的动作参数在训练模型中对应的理论回报值相等或者不相等。接下来,执行步骤s13,将所述实际回报反馈至所述出价模型,更新所述回报列表,也就是利用所述实际回报替换所述理论回报。若采用q-learning算法模型,则按照q表的更新逻辑更新所述q表,更新后的q表配置给所述出价模型,以对新的竞价请求进行出价。由上,本发明技术方案采用预设训练数据对出价模型进行训练,以得到回报列表,随后利用配置有所述回报列表的出价模型对竞价请求进行出价,并统计出价的实际回报;接下来,利用所述实际回报对所述回报列表进行实时更新,并将更新后的回报列表配置给所述出价模型,以对新的竞价请求进行出价。由此,可以实时准确的调整竞价操作,提高竞价获胜的概率。采用价格调整系数或胜出率作为动作参数,在执行竞价操作时,通过竞价模型直接输出价格调整系数或者胜出率,再通过价格调整系数与预估出价基数的乘积便可得到预估出价,或者,通过胜出率与预估出价的分布图得到预估出价,避免了复杂的计算转换过程,提高了出价效率。在训练出价模型时,依次将每个第一参数和第二参数构成的参数组合配置到所述出价模型并进行出价,若所述出价大于或等于所述预设训练数据中的成交价,则记录所述出价以及出价之后的点击量,用以计算所述参数组合对应的回报,直至遍历完成多组所述参数组合,或者,所述出价的总和达到出价预算。由此,可以实现在消耗完预算的情况下,优化每次点击的成本,并可以提高展示效果。进一步地,本发明实施例还公开了一种用于dsp的出价装置。请参考图3,所述用于dsp的出价装置包括:训练模块30,适于采用预设训练数据对出价模型进行训练,以得到回报列表,其中,所述预设训练数据为竞价获胜的历史数据;竞价模块33,适于利用配置有所述回报列表的出价模型对竞价请求进行出价,并统计出价的实际回报;反馈模块34,适于利用所述实际回报对所述回报列表进行实时更新,并将更新后的回报列表配置给所述出价模型,以对新的竞价请求进行出价。进一步地,所述训练模块30包括:参数确定子模块31,适于确定第一参数和第二参数,其中所述回报列表由所述第一参数和第二参数定义,所述第一参数为状态参数,所述第二参数为动作参数;训练执行子模块35,适于依次将每个第一参数和第二参数构成的参数组合配置到所述出价模型并进行出价,若所述出价大于或等于所述预设训练数据中的成交价,则记录所述出价以及出价之后的点击量,用以计算所述参数组合对应的回报,直至遍历完成多组所述参数组合,或者,所述出价的总和达到出价预算。进一步地,所述动作参数为价格调整系数,所述价格调整系数与预估出价基数的乘积即为所述出价,其中,所述预估出价基数在竞价请求发生之前预估得到。进一步地,所述动作参数为胜出率,每个胜出率均对应一个所述出价,其中,所述胜出率与所述出价的对应分布图在竞价请求发生之前预估得到。进一步地,所述竞价模块33包括:实时参数确定子模块32,适于确定所述竞价请求发生时的状态参数,所述状态参数包括时间节点,以及在所述时间节点做出的所述动作参数生效时间段内的出价预算;实时出价子模块36,适于确定所述状态参数下回报的最大值所对应的动作参数,利用所述动作参数确定所述出价。进一步地,所述出价模型为q-learning算法模型,所述回报列表为q表。关于图3所示的用于dsp的出价装置的工作原理、工作方式的更多信息,可以参照图1-2及其相关描述,这里不再赘述。进一步地,本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述图1-2所示实施例中所述用于dsp的出价方法的技术方案。优选地,所述存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。所述存储介质可以包括rom、ram、磁盘或光盘等。进一步地,本发明实施例还公开了一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述图1-2所示实施例中所述的用于dsp的出价方法的技术方案。虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1