广告竞价方法、装置、电子装置及计算机可读介质与流程

文档序号:22548871发布日期:2020-10-17 02:22阅读:92来源:国知局
广告竞价方法、装置、电子装置及计算机可读介质与流程

本申请是申请日为2017年05月22日,申请号为201710363782.9,名称为“广告竞价方法、装置、电子装置及计算机可读介质”的发明专利申请的分案申请。

本公开总体涉及互联网技术领域,具体而言,涉及一种广告竞价方法、装置、电子装置及计算机可读介质。



背景技术:

需求方平台(demand-sideplatform,简称dsp)是一种服务于广告主的广告投放平台,接受广告主在多个广告交易平台(adexchange,简称adx)投放广告的请求,参与实时的广告竞价,购买目标受众。同付费搜索相似,dsp允许广告主基于关键绩效指标(performanceindicator,简称kpi)优化广告投放策略,比如千次点击花费(effectivecostperclick,简称ecpc)等。实时竞价(real-timebidding,简称rtb)是一种以单次展现为单位,买卖广告库存(媒体广告位)的程序化竞价方式。

以常见的应用场景为例,广告投放平台购买媒体的展现机会,赢得本次竞价后,广告会展现在媒体的广告位,用户点击广告链接,带来流量,媒体对广告投放平台计费;用户点击广告主投放的广告并达到计费标准后,系统对广告主计费。因此,对于每次展现机会的出价策略,决定了广告主的投资回报率以及平台的盈利能力。

基于上述,现有技术方案中至少存在如下问题:

由于有各项人工干预系数,出价模型的优化目标与竞价系统的目标并不一致,系统效果需要大量人工调整参数才能实现最优。因此,现有技术中的技术方案还存在有待改进之处。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本公开提供一种广告竞价方法、装置、电子装置及计算机可读介质,解决上述技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的一方面,提供一种竞价方法,包括:

基于增强学习算法进行建模,得到竞价请求、出价与收益之间关系的竞价模型;

对所述竞价模型进行优化,得到优化的出价策略;

对于实时的竞价请求通过所述竞价模型以及所述优化的出价策略,给出与所述实时的竞价请求相对应的出价。

在本公开的一个实施例中,所述基于增强学习算法进行建模包括:

响应所述竞价请求进行竞价,得到所述出价;

对所述出价进行离散化处理,得到多个出价离散值;

如果竞价成功则根据所述多个出价离散值分别计算得到所述收益,其中所述收益为需求方平台对广告主的计费与广告交易平台对所述需求方平台的计费之差。

在本公开的一个实施例中,响应所述竞价请求之前,还包括:

将所述竞价请求变换为自然语言。

在本公开的一个实施例中,得到多个出价离散值之后,还包括:

当每一个所述出价离散值高于实际价格时,复制一次实时数据流;

所述实时数据流为(x,b,r,p),其中x为所述竞价请求,b为所述出价,r为所述收益,p为所述实际价格。

在本公开的一个实施例中,在建模过程中,对曝光数据、点击日志以及计费日志按照时间顺序进行实时拼接,得到所述实时数据流,其中所述曝光数据为针对所述竞价请求竞价成功展现给用户的数据,所述点击日志为用户点击媒体广告位时生成的日志数据,所述计费日志为所述用户点击所述媒体广告位时需求方平台对广告主的计费以及广告交易平台对所述需求方平台的计费的日志数据。

在本公开的一个实施例中,所述竞价模型建模之前还包括:

基于已有的竞价信息优化得到初始出价策略。

根据本公开的再一方面,提供一种广告竞价装置,包括:

建模模块,用于基于增强学习算法进行建模,得到竞价请求、出价与收益之间关系的竞价模型;

优化模块,用于对所述竞价模型进行优化,得到优化的出价策略;

出价模块,用于对于实时的竞价请求通过所述竞价模型以及所述优化的出价策略,给出与所述实时的竞价请求相对应的出价。

在本公开的一个实施例中,所述建模模块包括:

响应子模块,用于响应所述竞价请求进行竞价,得到所述出价;

离散子模块,用于对所述出价进行离散化处理,得到多个出价离散值;

计算子模块,用于如果竞价成功则根据所述多个出价离散值分别计算得到所述收益,其中所述收益为需求方平台对广告主的计费与广告交易平台对所述需求方平台的计费之差。

根据本公开的又一方面,提供一种电子装置,包括处理器;存储器,存储用于所述处理器控制如上所述的操作的指令。

根据本公开的另一方面,提供一种计算机可读介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如上所述的广告竞价方法。

根据本公开实施例提供的广告竞价方法、装置、电子装置及计算机可读介质,其中广告竞价方法基于增强学习算法进行建模,得到竞价请求、收益与出价之间的关系,无需进行大量的人工参数调整,降低复杂度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1示出本公开一实施例中提供的一种广告竞价方法的步骤流程图。

图2示出本公开一实施例中步骤s10的步骤流程图。

图3示出本公开实施例中竞价过程请求转移示意图。

图4示出本公开实施例中完成广告竞价的架构图。

图5示出本公开实施例中用户与广告交易平台和需求方平台交互的示意图。

图6示出本公开实施例中竞价模型和竞价环境逐步优化的过程示意图。

图7示出本公开另一实施例中提供的一种广告竞价装置的示意图。

图8示出本公开一实施例提供的适于用来实现本申请实施例的电子装置的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

以广告竞价为例,使用商品的平均每千次展现所需要的花费(effectivecostpermille,简称ecpm)作为出价。ecpm=pctr*ecpc,其中ecpc是商品的平均千次点击所带来的花费或预估花费,pctr是商品在请求目标广告位的点击率预估值。在实际应用中,系统出价还会有其他人工干预可调节的系数,控制出价。使用增强学习预估目标商品在某一次请求的出价,例如ss-mdp(sponsoredsearchmdp,搜索引擎马尔科夫决策过程,微软提出的一种将搜索引擎账户优化抽象为mdp的方式)或rlb(reinforcementtobid,一种基于增强学习的账户优化方法),但是现有的增强学习方案,均用于账户出价优化,在已知用户对于当前广告请求的出价策略或用户余额预算的情况下,预估某一个时刻广告请求的出价,系统的目标往往是最大化点击率,对于不能获取出价策略或余额预算的场景并不适用。

这样会带来如下缺陷:

1.在现有最大化ecpm方案中,因为有各项人工干预系数,出价模型的优化目标与竞价系统的目标并不一致,不能保证当前的出价策略最优,系统效果需要大量人工调参才能实现最优。其次,人工干预系数相对主观,很难找到最优值,实现最好的效果。另外,当数据分布发生改变,参数需要重新调整。

2.现有增强学习的方案,通过减少出价的空间,来解决在某些出价数据稀疏的问题,导致出价的行为空间相对较小。因此对于竞价成功的广告,系统出价往往集中在某些小区间,而对于大量的出价行为,可以利用的数据并不多,这会引起增强学习模型的欠拟合问题。

3.ss-mdp方法,预估值与请求上下文信息无关,不能充分应用用户、媒体以及商品信息等。

4.rlb方法依然需要预估点击率,需要同时构建点击率预估模型和出价模型,系统实现更复杂,时间复杂度增加。

5.现有的技术方案大多是离线t+1模型,使用前t天的数据建模,在t+1天用于出价预估,不能实时的模拟竞价环境。

基于上述可知,现有增强学习模型对不能直接实现最优,而且稀疏性和实时性都较差。

图1示出本公开一实施例中提供的一种广告竞价方法的步骤流程图,包括以下步骤:

如图1所示,在步骤s10中,基于增强学习算法进行建模,得到竞价请求、出价与收益之间关系的竞价模型。也就是说,本实施例中是基于dqn(deepq-network,一种由googledeepmind开发的深度学习人工智能算法)来进行建模的。

如图1所示,在步骤s20中,对竞价模型进行优化,得到优化的出价策略。

如图1所示,在步骤s30中,对于实时的竞价请求通过竞价模型以及优化的出价策略,给出与实时的竞价请求相对应的出价。

该广告竞价方法基于增强学习算法框架重新定义广告竞价问题,使用增强学习q-learning算法构建出竞价请求、出价与收益之间关系的竞价模型,以竞价请求作为输入,利用竞价模型以及优化的出价策略给出当前广告请求出价的预估值,以给出最佳的出价策略,简化复杂度。

图2示出本实施例中步骤s10基于增强学习算法进行建模的步骤流程图,包括以下步骤:

如图2所示,在步骤s11中,响应竞价请求进行竞价,得到出价。

竞价请求中包含参与竞价的广告位、商品以及用户的信息,需求方平台对于来自广告交易平台的广告的竞价请求x给出出价b,需要说明的是,本实施例中将竞价请求变换为自然语言,也就是将竞价请求处理成特殊格式的自然语言,这样竞价模型能够直接理解广告的竞价请求,除了以自然语言描述请求外,不需任何特征提取工作。

例如:对于在上午9点访问sports.sina.com.cn的用户王玉,即将展现给用户的商品是iphone7、ps4和macbook,将这条请求信息转化成如下英文描述:

userwang2yu4isaccessingsinasportsat9:00am,we’lldisplayiphone7,ps4,andmacbooktohim。

接下来描述用户、网站、商品各自的特点,包括但不限于用户购买历史、用户浏览历史、用户年龄、用户性别、商品价格、商品好评数等数据。

如图2所示,在步骤s12中,对出价进行离散化处理,得到多个出价离散值。

假设需求方平台的出价的最小单位是b,将系统的出价离散化成0,b,2b,…,(n-1)b,nb;其中nb是需求方平台允许的最大出价。例如,如果系统出价上限是50元,可以按照每一毛作为一个出价,一共离散成0,1,2,…,500一共501个出价。

如图2所示,在步骤s13中,如果竞价成功则根据多个出价离散值分别计算得到收益,其中收益为需求方平台对广告主的计费与广告交易平台对需求方平台的计费之差。

对于每次竞价请求x,需求方平台给出多个出价,每个出价都是b的整数倍,如果竞价成功,就会产生相应的收益r,并且得到广告位的实际价格p,然后下一次请求x+1到达;如果竞价没有成功则收益就是0。

图3示出竞价过程请求转移示意图,假设从请求x转移到请求x+1的过程,收益r只与请求x有关,和x之前的请求是相互独立的。也就是说,竞价过程满足马尔科夫属性,得到一个马尔科夫决策过程(markovdecisionprocesse,简称mdp)。mdp提供了一种用于建模决策过程的数学框架,每一次的决策的收益,仅仅和当前的决策有关,与之前的状态无关,mdp问题可以使用动态规划或者增强学习来解决。

当每一个出价离散值高于实际价格p时,复制一次实时数据流。实时数据流为(x,b,r,p),其中x为竞价请求,b为出价,r为收益,p为实际价格。

需要说明的是,本实施例中使用实时数据流(x,b,p,r)来作为竞价模型的训练数据。mdp的时间顺序很重要,因此为了维护曝光数据(也就是竞价成功并且展现给用户的数据)的时间顺序,本实施例在建模过程中,对曝光数据、点击日志以及计费日志按照时间顺序进行实时拼接,得到实时数据流,其中曝光数据为针对竞价请求竞价成功展现给用户的数据,点击日志为用户点击媒体广告位时生成的日志数据,计费日志为用户点击媒体广告位时需求方平台对广告主的计费以及广告交易平台对需求方平台的计费的日志数据。

图4示出本实施例中完成广告竞价的架构图,如图4所示,包括服务层、模型训练以及数据层。其中数据层包括广告请求日志(x,b)、竞价成功日志(r,p)以及基于kafka拼接的实时数据流(x,b,r,p)。服务层包括广告的竞价请求x、模型加载和出价b。

图4中,在服务层广告请求dsp进行竞价,由竞价模型给出出价,记录请求日志;adx接收竞价请求,如果竞价成功,广告被展现给用户,用户点击媒体广告位时,adx生成并返回计费等信息,dsp记录竞价成功日志;用户点击广告主投放的广告时,dsp向广告主计费,此时生成点击日志。

图5示出本公开实施例中用户与广告交易平台和需求方平台交互的示意图,交互过程所涉及到广告竞价中的主体,即用户、媒体广告位、adx、dsp、广告主以及广告主投放的广告。

如图5所示,首先,用户浏览媒体,媒体就向adx请求广告,adx向dsp发送广告竞价请求x,dsp返回竞价b给adx,adx向媒体返回广告,媒体就向用户展现广告。接下来,用户点击媒体广告位,媒体开始计费并发送给adx,adx记录媒体的扣费信息也就是实际价格p。之后,如果用户点击广告主投放的广告,dsp就向广告主计费。

由于训练数据分别存在于不同日志中,基于kafka对曝光、点击以及计费日志数据流,做实时拼接。曝光数据、点击数据和计费数据之间存在时间差,因此,在拼接生成实时数据流(x,b,r,p)进行训练时,曝光数据需要等待点击数据与计费数据生成,因此,出价b与能观察到的反馈(r,p)之间有一定的延迟,数据流只能做到准实时。现有技术方案都是离线模型,不能实时的反应竞价环境的变化,本实施例使用准实时数据(延迟1小时内)训练,可以解决实时性问题。

通过使用准实时的用户点击数据等,可以实时的感知到盈亏以及点击率的变化,对于盈利流量,可以尽快实现盈利最大化;对于亏损流量,可以及时止损,保证平台的可持续性发展。

在本实施例图4中,模型训练一般分为两个阶段:离线训练阶段和线上训练阶段。一般来说dqn使用的都是modelfree(不使用其他策略用于出价,仅使用dqn作为出价模型)实时训练的方式。但是,模型的实时训练与服务是同时进行的,为了能在模型初次上线时,就能有比较好的效果,需要在实时训练之前,dqn模型基于已有的竞价信息(x,b,r,p)优化得到初始化策略。实时训练阶段,模型对线上请求给出合理的出价策略,观察到相应的反馈以后,基于实时的训练数据,不断优化出价策略,直至实现最优。如图6示出本公开实施例中竞价模型和竞价环境逐步优化的过程示意图,也就是竞价模型给出出价b到竞价环境中,然后再根据收益r以及实际价格p不断来优化竞价模型。

这样,竞价模型使用实时数据流进行训练,不断优化当前策略,模型训练生成的模型文件实时同步至线上,作为竞价策略,实现模型的实时更新,从而保证了模型能实时的反应竞价环境的变化。

由于大量出价往往集中在某些小区间或某几个出价上,其余出价数据量稀少,就会导致数据稀疏性问题。为了解决数据的稀疏性问题,可以针对竞价成功的竞价请求,得到相应的实际价格,当出价高于实际价格时,就能赢得本次竞价,并且成交价格不变,盈利不变。因此对高于成交价格的每一个出价,都复制一次曝光数据,因此曝光数据被复制(最大出价-p)次。比如,曝光数据(x,b,r,p),复制以后分别是:(x,int(p)+i,r,p)。其中,int(p)表示对p取整,并且int(p)+i<p_max,p_max表示允许的最大出价,也就是出价离散值中的nb。

综上所述,基于dqn构建的竞价模型,再基于关键绩效指标(keyperformanceindicator,简称kpi)进行优化,直接建模了收益(r)与出价(b)之间的关系。因为只有当用户点击后行为达到计费标准,广告系统才能计费并产生收入,该次请求才能盈利,系统优化的目标同时兼顾了系统可持续性(盈利)以及点击率等指标,直接建模出价与kpi之间的关系可以更高的消费和盈利。其中计费标准是指在互联网广告业务里指用户在广告上的行为达成某一标准才能计费,如点击深度为n的点击计费(一般是1次点击计费或2次点击计费),又如转化计费(用户发生购买/发出订单等转化行为才计费)。该竞价模型以竞价请求作为输入,以最大化收益(收益或者点击率)为目的,直接给出当前广告请求出价的预估值,不仅简化了系统复杂度,还因为直接建模了请求和出价的关系,可以保证当前的出价策略就是最优解。

另外,直接建模出价、请求以及盈利的关系,省去了ctr(clickthroughrate,点击通过率,互联网广告术语,等于点击除以展现)预估以及ecpc预估等中间步骤,也取消了大量的人工参数,不仅系统实现更简单,而且人工干预更小。从原理上保证了系统效果的最优,在存在可以人工调整的参数时,很难保证系统达到最优。

图7示出本公开另一实施例提供的一种广告竞价装置的示意图,如图7所示,该广告竞价装置100中包括:建模模块110、优化模块120和出价模块130。

建模模块110用于基于增强学习算法进行建模,得到竞价请求、出价与收益之间关系的竞价模型。优化模块120用于对竞价模型进行优化,得到优化的出价策略。出价模块130用于对于实时的竞价请求通过竞价模型以及优化的出价策略,给出与实时的竞价请求相对应的出价。

其中建模模块110包括:响应子模块、离散子模块和计算子模块,响应子模块用于响应竞价请求进行竞价,得到出价;离散子模块用于对出价进行离散化处理,得到多个出价离散值;计算子模块用于如果竞价成功则根据多个出价离散值分别计算得到收益,其中收益为需求方平台对广告主的计费与广告交易平台对需求方平台的计费之差。

该广告竞价装置可以实现如上述实施例提供的广告竞价方法相同的技术效果,此处不再赘述。

另一方面,本公开还提供了一种电子装置,包括处理器和存储器,存储器存储用于上述处理器控制以下的操作的指令:

基于增强学习算法进行建模,得到竞价请求、出价与收益之间关系的竞价模型;对竞价模型进行优化,得到优化的出价策略;对于实时的竞价请求通过竞价模型以及优化的出价策略,给出与实时的竞价请求相对应的出价。

下面参考图8,其示出了适于用来实现本申请实施例的电子装置的计算机系统800的结构示意图。图8示出的电子装置仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示,计算机系统800包括中央处理单元(cpu)801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram803中,还存储有系统800操作所需的各种程序和数据。cpu801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。

以下部件连接至i/o接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(cpu)801执行时,执行本申请的系统中限定的上述功能。

需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。

另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:基于增强学习算法进行建模,得到竞价请求、出价与收益之间关系的竞价模型;对竞价模型进行优化,得到优化的出价策略;对于实时的竞价请求通过竞价模型以及优化的出价策略,给出与实时的竞价请求相对应的出价。

应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施方式。

以上具体地示出和描述了本公开的示例性实施方式。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1