1.基于多智能体深度强化学习的广告位拍卖均衡求解方法,其特征在于:在一个竞拍场景中具有多个竞拍者,每个竞拍者建模为一个深度强化学习的独立的智能体;每个智能体会根据上一轮出价策略、剩余需求、自身估值、获胜者出价对当前策略进行调整直至竞拍广告位数量为零,完成竞拍得到每个竞拍者的预期总利润。
2.如权利要求1所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法,其特征在于:所述求解方法包括:
3.如权利要求2所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法,其特征在于:
4.如权利要求3所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法,其特征在于:
5.如权利要求4所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法,其特征在于:
6.如权利要求2-5任一所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法,其特征在于:
7.如权利要求2-5任一所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法,其特征在于:奖励值采用奖惩函数进行获取,奖励函数通过以下方法获得:
8.如权利要求2-5任一所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法,其特征在于:
9.如权利要求3所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法,其特征在于:策略网络与评估网络的输入分别为当前智能体i的观测oi与观测动作对(oi,ai),策略网络包含四个全连接层,最后两层全连接层的输出分别为高斯分布的均值与标准差,策略网络首先在[0,1]间采样,将采样值乘以标准差加上均值,最后映射至对应智能体的估值范围内,作为该智能体的动作输出;策略网络同样给出该动作的概率的对数;评估网络由四个结构相同的网络构成,由三个全连接层组成,输出维度都为1,为观测动作对的q值q(o,a)。