基于多智能体深度强化学习的广告位拍卖均衡求解方法

文档序号：37339481发布日期：2024-03-18 18:07阅读：来源：国知局

技术特征：

1.基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：在一个竞拍场景中具有多个竞拍者，每个竞拍者建模为一个深度强化学习的独立的智能体；每个智能体会根据上一轮出价策略、剩余需求、自身估值、获胜者出价对当前策略进行调整直至竞拍广告位数量为零，完成竞拍得到每个竞拍者的预期总利润。

2.如权利要求1所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：所述求解方法包括：

3.如权利要求2所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

4.如权利要求3所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

5.如权利要求4所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

6.如权利要求2-5任一所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

7.如权利要求2-5任一所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：奖励值采用奖惩函数进行获取，奖励函数通过以下方法获得：

8.如权利要求2-5任一所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

9.如权利要求3所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：策略网络与评估网络的输入分别为当前智能体i的观测oi与观测动作对(oi，ai)，策略网络包含四个全连接层，最后两层全连接层的输出分别为高斯分布的均值与标准差，策略网络首先在[0，1]间采样，将采样值乘以标准差加上均值，最后映射至对应智能体的估值范围内，作为该智能体的动作输出；策略网络同样给出该动作的概率的对数；评估网络由四个结构相同的网络构成，由三个全连接层组成，输出维度都为1，为观测动作对的q值q(o，a)。

技术总结
本发明公开了基于多智能体深度强化学习的广告位拍卖均衡求解方法，在一个竞拍场景中具有多个竞拍者，每个竞拍者建模为一个深度强化学习的独立的智能体；每个智能体会根据上一轮出价策略、剩余需求、自身估值、获胜者出价对当前策略进行调整直至竞拍广告位数量为零，完成竞拍得到每个竞拍者的预期总利润。本发明的优点在于：可以通过智能体模拟的方式对竞拍所得利润进行模拟研究，为解决了优化所有在线广告位拍卖者的出价策略，使每个竞拍者的期望利润最大化。

技术研发人员：杜同春,王波,曾能民,接标,程浩然,高朝文,刘杰
受保护的技术使用者：安徽师范大学
技术研发日：
技术公布日：2024/3/17

完整全部详细技术资料下载

当前第2页1 2