连续动作空间上的纳什均衡策略及社交网络舆论演变模型的制作方法

文档序号：17151776发布日期：2019-03-19 23:30阅读：549来源：国知局

本发明涉及一种纳什均衡策略，尤其涉及一种连续动作空间上的纳什均衡策略，还涉及一种基于所述连续动作空间上的纳什均衡策略的社交网络舆论演变模型。

背景技术：

在连续动作空间的环境中，一方面，智能体对动作的选择是无限的，传统的基于q的表格类算法也无法存储无限多的回报的估计；另一方面，多智能体环境中，连续的动作空间也会增加问题的难度。

在多智能体强化学习算法领域，智能体的动作空间可以是离散的有限集，也可以是连续的集合。因为强化学习的本质是通过不断的试错来寻找最优，而连续的动作空间具有无穷多的动作选择，而多智能体环境又增加了动作空间的维度，这使得一般的强化学习算法很难学习到全局最优(或均衡)。

目前大部分算法都是基于函数逼近技术解决连续问题，这类算法可分为两类：值近似算法[1-5]和策略近似算法[6-9]。值近似算法探索动作空间并根据回报估计对应的值函数，而策略近似算法将策略定义为连续动作空间上的概率分布函数并直接学习策略。这类算法的性能取决于对值函数或者策略的估计的准确性，在处理复杂问题如非线性控制问题时往往力不从心。此外，还有一种基于采样的算法[10、11]，这类算法维持一个离散的动作集，然后使用传统离散类算法选择动作集中的最优动作，最后根据一种重采样机制更新动作集从而逐渐学习到最优。这类算法可以很方便的与传统离散类算法结合，缺点是算法需要较长的收敛时间。上述所有算法都是以计算单智能体环境中的最优策略为目标设计的，并不能直接应用在多智能体环境的学习中。

近年来很多工作使用智能体仿真技术研究社交网络中的舆论演变[12-14]。给定的不同组具有不同观念分布的群体，研究群体在相互交往过程中其观念最终是会达成共识，或者两级分化还是始终处于混乱状态[15]。解决这一问题的关键是如何了解舆论演变的动态，从而得到引发舆论走向一致的内在原因[15]。针对社交网络中的舆论演变问题，研究者提出了多种多智能体学习模型[16-20]研究了不同信息共享或交换程度等因素对舆论演变的影响。其中[21–23]研究了不同信息共享或交换程度等因素对舆论演变的影响。[1424-28]等工作采用演化博弈论模型来研究智能体的行为(例如背叛和合作)如何从同伴互动中演变而来。这些工作对智能体的行为建模，并假设所有智能体都是相同的。然而，在实际情况中，个体在社会中会扮演不同的角色(例如，领导者或追随者)，而这根据上述方法是不能准确建模的。为此，quattrociochi等人[12]将社交群体分为媒体和大众两部分并分别建模，其中大众的观念受其追随的媒体以及其它大众影响，而媒体的观念受媒体中的佼佼者影响。随后，zhao等人[29]提出了一个基于领导追随者(leader-follower)类型的舆论模型来探索舆论的形成。在这两个工作中，智能体观念的调整策略都是模仿领导者或者成功的同行。基于模仿的相关工作还有localmajority[30]、conformity[31]和imitatingneighbor[32]。然而，现实环境中，人们在做决策中采取的策略要比简单的模仿复杂的多。人们往往是通过不断的与未知环境交互，并结合自己以掌握的知识，来决策自己的行为。此外，基于模仿的策略也不能保证算法能够学习到的是全局最优，因为其智能体策略的好坏要取决于领导者或者被模仿者的策略，而领导者的策略也并不都是最好的。

技术实现要素：

为解决现有技术中的问题，本发明提供一种连续动作空间上的纳什均衡策略，本发明还提供了一种基于所述连续动作空间上的纳什均衡策略的社交网络舆论演变模型。

本发明包括如下步骤：

(1)设置常数αub和αus，其中，αub＞αus,αq,ασ∈(0,1)为学习率；

(2)初始化参数，其中，所述参数包括智能体i期望动作u的均值ui、累计平均策略常数c、方差σi和累计平均回报qi；

(3)重复以下步骤直至智能体i的采样动作的累计平均策略收敛，

(3.1)按一定探索率依正态分布n(ui,σj)随机选择一个动作xi；

(3.2)执行动作xi，然后从环境中获取回报ri；

(3.3)如果智能体i执行动作xi后收到的回报ri大于当前的累计平均回报qi，那么ui的学习率为αub，反之学习率为αus，根据选定的学习率更新ui；

(3.4)根据学习到ui的更新方差σi；

(3.5)如果智能体i执行动作xi后收到的回报ri大于当前的累计平均回报qi，那么ui的学习率为αub，反之学习率为αus，根据选定的学习率更新qi；

(3.6)根据常数c和动作xi更新

(4)输出累计平均策略作为智能体i的最终动作。。

本发明作进一步改进，在步骤(3.3)和步骤(3.5)中，q的更新步长和u的更新步长同步，在ui的邻域内，qi关于ui的映射能够线性化为qi＝kui+c，其中斜率

本发明作进一步改进，给定正数σl和正数k，两个智能体的连续动作空间上的纳什均衡策略最终可以收敛到纳什均衡，其中，σl是方差σ的下界。

本发明还提供了一种基于所述连续动作空间上的纳什均衡策略的社交网络舆论演变模型，所述社交网络舆论演变模型包括两类智能体，分别为模拟社交网络中普通大众的gossiper类智能体和模拟社交网络中以吸引普通大众为目的的媒体或公众人物的media类智能体，其中，所述media类智能体采用所述连续动作空间上的纳什均衡策略计算对其回报最优的观念，更新其观念并在社交网络中广播。

本发明作进一步改进，包括如下步骤：

s1：每个gossiper和media的观念被随机的初始化为动作空间[0,1]上的一个值；

s2：在每一次交互中，各智能体按照以下策略调整自己的观念，直至各智能体都不再改变观念；s21：对任意一个gossiper类智能体，按照设定概率在gossiper网络中随机选择一个邻居，根据bcm(theboundedconfidencemodel，有界置信模型)策略更新其观念及追随的media；

s22：随机采样gossiper网络g的一个子集将子集g′中的gossiper观念广播给所有media；

s23：对任意一个media，使用连续动作空间上的纳什均衡策略计算其回报最优的观念，并将更新后的观念广播到整个社交网络中。

本发明作进一步改进，在步骤s21中，所述gossiper类智能体的操作方法为：

a1：观念初始化：xi^τ＝xi^τ-1；

a2：观念更新：当该智能体与选择的智能体的观念相差小于设定阈值，更新该智能体的观念；

a3：该智能体对比自己与其它media观念的差别，依概率选择一个media追随。

本发明作进一步改进，在步骤a2中，如果当前选择的邻居是gossiperj，并且|xj^τ-xi^τ|＜dg，则xi^τ←xi^τ+αg(xj^τ-xi^τ)；如果当前选择的邻居是mediak，并且|yk^τ-xi^τ|＜dm，则xi^τ←xi^τ+αm(yk^τ-xi^τ)，其中，dg和dm分别为针对不同类型的邻居的观念设定的阈值，ɑg和ɑm分别为针对不同类型的邻居的学习率。

本发明作进一步改进，在步骤a3中，依概率追随mediak，其中，

本发明作进一步改进，在步骤s23中，mediaj当前的回报rj被定义为g′中选择追随j的gossiper的人数所占g′中总人数的比例，pij表示gossiperi追随mediaj的概率。

本发明作进一步改进，一个media的存在，会加速各gossiper智能体的舆论趋向统一；当存在多个media竞争的环境下，各gossiper智能体观念的动态变化为受各media影响的加权平均。

与现有技术相比，本发明的有益效果是：在连续动作空间的环境下，智能体与其它智能体交互的过程中既能够最大化自己的利益，又最终能学习到纳什均衡。

附图说明

图1为本发明r＝0.7＞2/3,a＝0.4,b＝0.6，两个智能体收敛到纳什均衡点示意图；

图2为本发明r＝0.6＜2/3,a＝0.4,b＝0.6，两个智能体收敛到纳什均衡点示意图；

图3为gossiper-media模型在全连通网络没有media时各网络的舆论演变示意图；

图4为gossiper-media模型在小世界网络没有media时各网络的舆论演变示意图；

图5为gossiper-media模型在全连通网络具有一个media时各网络的舆论演变示意图；

图6为gossiper-media模型在小世界网络具有一个media时各网络的舆论演变示意图；

图7为gossiper-media模型在全连通网络具有两个竞争的media时各网络的舆论演变示意图；

图8为gossiper-media模型在小世界网络具有两个竞争的media时各网络的舆论演变示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

本发明的连续动作空间上的纳什均衡策略扩展自单智能体强化学习算法cala[7](continuousactionlearningautomata，连续动作学习自动机)，通过引入wols(winorlearnslow，赢则快速学习)学习机制，使得算法可以有效的处理多智能体环境中的学习问题，因此，本发明的纳什均衡策略简称为：wols-cala(winorlearnslowcontinuousactionlearningautomaton，赢则快-连续动作学习自动机)。本发明首先对所述cala进行详细说明。

连续动作学习自动机(cala)[7]是一个解决连续动作空间的学习问题的策略梯度强化学习算法。其中，智能体的策略被定义为动作空间上的服从正态分布n(u^t,σ^t)的概率密度函数。

cala智能体的策略更新如下：在时刻t，智能体根据正态分布n(u^t,σ^t)选择一个动作x^t；执行动作x^t和u^t，然后从环境分别获得对应的回报v(x^t)和v(u^t)，这意味着算法在每次与环境交互的过程中需要执行两次动作；最后，按照下面公式更新正态分布n(u^t,σ^t)的均值和方差，

其中，

这里αu和ασ为学习率，k是一个正常数，用来控制算法收敛性。具体的，k的大小与算法的学习次数有关，通常设为1/n的数量级，n为算法迭代次数，σl是方差σ的下界。算法持续更新均值和方差直到u不变且σ^t趋向于σl。算法收敛后均值u将指向问题的一个最最优解。方程(2)中σ的大小决定了cala算法的探索能力：σ^t越大，cala越有可能寻找到潜在的更好的动作。

按定义，cala算法是一个基于策略梯度类的学习算法。该算法已被理论证实在回报函数v(x)足够光滑的情况下，cala算法可以寻到找局部最优[7]。dejong等人[34]通过改进回报函数，将cala扩展并应用到多智能体环境下，并通过实验验证了其改进的算法可以收敛到纳什均衡。本发明提出的wols-cala引入"wols"机制解决多智能体学习问题，并从理论上分析和证明算法能够在连续的动作空间中学习到纳什均衡。

由于cala要求智能体在每次学习中需要一次性同时获得采样动作和期望动作的回报，然而这在大多数强化学习环境中是不可行的，通常智能体在于环境的交互中每次只能执行一个动作。为此，本发明从q值函数估计和可变学习率两个方面扩展cala，提出了wols-cala算法。

1、q函数估计

独立式多智能体强化学习环境中，智能体一次选择一个动作，然后从环境中获得回报。对正态分布的探索方式，一个很自然的方式就是使用q值对期望动作u的平均回报进行估计。具体的，式(1)中智能体i的动作ui的期望回报可用下式估计，

这里为t时刻的采样动作。是智能体i在选择动作时收到的回报，由$t$时刻各智能体的联合动作决定。是智能体i的关于对q的学习率。式(3)中的更新方式是强化学习估计单状态的值函数的常见方式，其本质是用ri的统计平均值去估计此外还有一个优点是，可以一次一更新，并且新收到的回报对q值估计的占比永远都是α。

根据式(3)，u的更新过程(式(1))和σ的更新过程(式(2))可表示为，

这里为t时刻的采样动作。是智能体i在选择动作时收到的回报，由t时刻各智能体的联合动作决定。和是智能体i的关于ui和σi的学习率。

然而在多智能体环境中直接使用q函数估计会对算法带来新的问题。因为在多智能体环境中，智能体的回报受其它智能体的影响，而其它智能体的策略变化会导致环境不稳定。式(4)中的更新方式并不能保证u能够适应环境的动态变化。这里举一个简单的例子，假设$t$时刻智能体i已学到当前时刻的最优动作并且就是对的准确估计根据定义，在t时刻，对任意的xi都有将式(3)带入(4)得，

若环境保持不变，那么会有继续成立；然而若环境改变，假设并且不再是最优动作，那么会存在使得其对应的回报这种情况下继续按照式(5)中的更新方式，ui会远离xi，然而理论上因为为保证准确的估计ui应该靠近xi。因为q为r的统计估计，所以q的更新要比r的变化慢，导致后面在更新过程中一直成立，多次采样下ui将持续保持在附近不变。理论上ui应该变化去准找新的最优动作才对。造成这些问题的原因主要是因为多智能体环境导致的不稳定性，而传统的估计方法(如q学习)无法有效的应对环境的变化。

2、wols规则及分析

为了在多智能体环境中更准确的估计u的期望回报，本发明通过可变的学习率的方式更新期望动作u。形式化地，期望动作ui的学习率按照下式更新定义为下式，

则ui的更新可表示为

wols规则可直观地解释为，如果智能体动作x的回报v(x)大于期望u的回报v(u)，那么它应该学习快一些，反之则慢一些。可以看出，wols和wolf(winorlearnfast)[35]策略正好相反。区别是wolf设计的目标是为了保证算法的收敛性，而本发明的wols策略是为了在确保能够正确估计动作u的期望回报的同时，使得算法能按照回报增加的方向更新u。通过分析wols策略内在的动力学特征，可得到下面结论，

定理1连续动作空间上，使用wols规则的cala算法的学习动态可近似为梯度上升策略(ga，gradientascent)。

证明：根据定义(4)，已知x^t是智能体在时刻t照正态分布n(u^t,σ^t)选择的动作，v(x^t)和v({u^t})是分别对应于动作x^t和u^t的回报。定义f(x)＝e[v(x^t)|x^t＝x]为关于动作x的期望回报函数。假设αu无穷小，则wols-cala算法中u^t的动态变化可由下面常微分方程表示，

这里n(u,σu)是正太分布的概率密度函数(dn(a,b)表示均值为a，方差为b²的正态分布关于a的微分)。令x＝u+y，然后在y＝0处将式(8)中f(x)泰勒展开，并化简整理可得，

注意到式(9)中，项和σ²均是衡正的。

标准差σ的更新过程(式(4))与原cala算法一样，因此可直接使用cala的结论：给定一个足够大的正数k，σ最终将会收敛到σl。结合式(9)，本发明可得出下面结论：

对一个小的正数σl(如1/10000)，足够多的时间后，关于u^t的常微分方程可近似为，

其中为一个小的正常数。f′(u)为函数f(u)在u处的梯度方向。式(10)表明u会朝着f(u)的梯度方向变化，即f(u)增长最快的方向。即u的动态轨迹可近似为梯度上升策略。

在只有一个智能体存在的情况下，u的动态将最终收敛到一个最优点，因为当u＝u^*为一个最优点时，且

从定理1中可看出，wols规则的cala智能体期望动作的学习动态类似于前面介绍的梯度上升策略，即他们关于时间的微分都可表示成形如的形式。如果f(u)存在多个局部最优，算法最终能否收敛到全局最优取决于算法对探索-利用(exploration-exploitation)的分配[36]，而这是强化学习领域内一个无法两全的难题。为探索到全局最优常用的办法是将算法的初始探索率σ(即标准差)取较大的值，并且对σ的初始学习率取特别小的值，以保证算法能在整个动作空间范围内有足够多采样次数。此外加上wols规则之后的cala算法的期望动作u在标准差σ不为0时本身也能够收敛，因此为保证足够的探索率σ的下界σl可以取一个较大的值。综合上述策略，通过选取合适的参数算法可以学习到全局最优。

另一个问题是多智能体环境下采用纯梯度上升策略可能会导致算法不收敛，为此本发明结合phc(policyhillclimbing，策略爬山)[35]算法，提出一个actor-critic类型的独立式多智能体强化学习算法，称之为wols-cala。actor-critic架构的主要思路是策略的估计和策略的更新在独立的进程中分别学习，处理策略估计部分称为critic，策略更新的部分称为actor。具体学习过程如下(算法1)，

算法1wols-cala智能体i的学习策略

为简便，算法1中用两个常数αub和αus，(αub＞αus)，代替ui的学习率如果智能体i执行动作xi后收到的回报ri大于当前的累计平均回报qi，那么uj的学习率为αub(winning)，反之(losing)为αus(第3.3步)。因为式(7)和(4)中含有分母φ(σi^t)，当分母很小的时候一点误差都会对u和σ的更新造成很大的影响。使用两个固定的步长在具体实验的过程中更容易控制算法的更新过程，也容易实现。此外，注意到算法第3.5步中q的更新步长和u的步长同步，即在ri＞qi时都为αub，反之都是αus。因为αub和αus是两个很小的数，在ui的很小的邻域内，qi关于ui的映射可线性化为qi＝kui+c，其中斜率若ui改变了则这样做的目的也是为了更精确的估计u的期望回报。最后(第4步)，算法以收敛作为循环终止条件和算法输出。这样做的目的主要是为了防止在竞争的环境中，ui会出现周期解而导致算法不能终止。这里需注意变量和ui代表不同的意义：为智能体i的采样动作的累计统计平均值，在多智能体环境下其最终结果会收敛到纳什均衡策略；而uj是智能体i的策略分布的期望均值，在竞争环境下可能会在均衡点附近周期性的震荡。详细的解释将在之后的定理2中给出。

因为高维空间中的动态轨迹可能会有混沌现象，导致很难对算法在具有多个智能体时的动态行为做定性分析。领域内对多智能体相关算法的动态分析基本上都是基于两个智能体的[3537-39]。因此这里主要分析具有两个wols-cala智能体的情况。

定理2给定正数σl和一个足够大的正数k，两个wols-cala智能体的策略最终可以收敛到纳什均衡。

证明：按均衡点的位置纳什均衡可以分为两类：位于连续动作空间(有界闭集)边界上的均衡点和另一类是位于连续动作空间内部的平衡点。考虑到边界上的平衡点可以等价为更低一维空间内部的平衡点，本例这里着重探讨第二类平衡点。一个常微分方程的动态特征取决于其内部平衡点的稳定性质[40]，因此本例首先计算式(10)中的平衡点，然后分析这些平衡点的稳定性。

令为智能体i在t时刻根据正态分布随机采样的动作。和分别为动作和对应的期望回报。如果点是方程(10)的一个平衡点，那么都有根据非线性动力学理论[40]，点eq的稳定性可由下面矩阵的特征值决定，

其中当i≠j。

此外根据纳什均衡的定义，纳什均衡点满足下面性质，

将式(12)带入到m中，可知纳什平衡点的特征值属于以下三种可能性之一：

(a).矩阵m的所有特征值都有负的实部。这类平衡点是渐进稳定的，即所有$eq$附近的轨迹最终都会收敛到这个平衡点。

(b).矩阵m的所有特征值都有非正的实部，并且含有一对纯虚的特征根。这类平衡点是稳定的，但是其附近的轨迹的极限集为周期解，其极限集不可数。此外，容易证明即将最终收敛到该纳什均衡。考虑到wols-cala以累计平均值为输出，因此算法也能处理这类平衡点问题。

(c).矩阵m存在正实部的特征值，即平衡点不稳定。对这类平衡点，依据非线性动力学理论，该不稳定平衡点周围的轨迹可分为两种：稳定流形上的轨迹和其它轨迹\cite{shilnikov1998methods}。稳定流形是由稳定的特征值对应的特征向量生成的子空间。处于稳定流形中的轨迹理论上最终都会收敛到这个平衡点。考虑到由于随机性和计算误差，算法维持在该子空间内不出去的概率为0。而所有不属于该稳定流形的轨迹都将会逐渐远离该平衡点并最终收敛到上述分析过的其他类型的平衡点，即收敛到边界上的平衡点或第一和第二类平衡点。

此外，类似于单智能体环境，如果存在多个平衡点，根据对定理1的分析，在给定合适的探索-利用率时，如σl足够大，σ取大的初值和小的学习率，算法能够收敛到一个纳什均衡点(每个智能体当其它智能体策略不变时的全局最优)。综上所述，本发明完成了对算法收敛到纳什均衡的证明。

本发明还提供了一种基于所述连续动作空间上的纳什均衡策略的社交网络舆论演变模型，所述社交网络舆论演变模型包括两类智能体，分别为模拟社交网络中普通大众的gossiper类智能体和模拟社交网络中以吸引普通大众为目的的媒体或公众人物的media类智能体，因此，本发明的社交网络舆论演变模型也叫gossiper-media模型。其中，所述media类智能体采用所述连续动作空间上的纳什均衡策略计算对其回报最优的观念，更新其观念并在社交网络中广播。本发明将wols-cala算法应用到真实社交网络中的舆论演变的研究中，通过对网络中的媒体使用wols-cala建模，探讨竞争的媒体会对社会舆论造成什么样的影响。

下面对其进行详细阐述：

1.gossiper-media模型

本发明提出一个多智能体强化学习框架，gossiper-media模型，来研究群体舆论的演变。gossiper-media模型包含两类智能体，gossiper类智能体和media类智能体。其中gossiper类智能体用来模拟真实网络中的普通大众，其观念(舆论)同时受media和其它gossiper的影响；而media类智能体用来模拟社交网络中以吸引大众为目的的媒体或公众人物，该类智能体主动的选择自己的观念去最大化自己的追随者。考虑一个具有n个智能体的网络，其中gossiper的数目为|g|，media的数目为|m|(n＝g∪m)。假设gossiper和media之间是全联通的，即每个gossiper可以等概率的选择任何一个media交互。而gossiper之间不规定全联通，即每个gossiper只可能与自己的邻居交互。gossiper之间的网络由其之间的社交关系决定。特别地，在后面的仿真实验中，本例分别定义了两种gossiper网络来做仿真实验：全联通网络(fullyconnectednetwork)和小世界网络(small-worldnetwork)。记gossiperi和mediaj的观念分别记为xi和yj。模型中各智能体的交互过程遵照算法2。

算法2gossiper-media网络中观念的学习模型

首先，每个gossiper和media的观念被随机的初始化为动作空间[0,1]上的一个值(第1步)。然后在每一次交互中，各智能体按照不同策略分别调整自己的观念直到算法收敛(各智能体都不再改变观念)。对每一个gossiper智能体，首先选择选择与它交互的对象：依概率ξ随机的从它的邻居中选择一个gossiper，或者依概率1-ξ随机的选择一个media(第2.1步)。随后这个gossiper按照算法3更新它的观念，并根据其与各media的观念差异选择追随一个最接近自己观念的media。假设media智能体可以通过采样随机获得一部分gossiper的观念，并广播给所有media，这里记为g′(第2.2步)。然后各media使用wols-cala算法互相博弈，计算出可以最大化自己的追随者的观念，并将更新后的观念广播到整个网络中(第2.3步)。原则上各media也可以独自采样，使得他们获得的g′各不相同，这对后面wols-cala算法的学习影响并不大，因为理论上g′的观念分布与g相同。本发明的环境假设主要是为了简便考虑，同时也减少由于随机采样造成的可能的不确定性。

1.1gossiper策略

每个gossiper的策略包括两部分：1)怎样更新观念；2)怎样选择追随的media。具体描述如下(算法3)：

算法3gossiperi在第τ轮的策略

对gossiperi，首先初始化其观念：xi^τ＝xi^τ-1(第1步)。接着按照bcm(theboundedconfidencemodel，有界置信模型)策略[12,33]更新其观念(第2步)。bcm是一种较常见的描述群体观念的模型，基于bcm的智能体的观念只受与之观念相近的智能体的影响。在算法3中，只有与它选择的智能体的观念相差小于阈值dg(或dm)时，gossiper才会更新它的观念。这里dg和dm分别对应于选择的智能体是gossiper和media。阈值dg(或dm)的大小代表了gossiper接受新观念的程度。直观地，d越大，gossiper就更容易受其它智能体影响[41-43]。然后该gossiper对比自己与其它media观念的差别，依概率选择一个media追随(第3步)。这里用概率pij^τ表示在τ时刻gossiperi选择追随mediaj的概率，其满足如下特性：

(i)当|xi-yj|＞dm时，pij＝0；

(ii)(ii)pij＞0当且仅当mediaj的观念yj满足|xi-yj|≤dm；

(iii)(iii)pij随着观念xi和yj的距离|xi-yj|的增大而减小。

注意到如果对都有|xi-yj|＞dm，那么这意味着存在这种可能，一个gossiper不会追随任何一个media。方程λij里的参数δ是一个小的正数，用来防止分数的分母为0。

1.2media策略

对给定的一组gossiper的观念采样信息，各media可以通过学习适当的调整自己的观念，以迎合gossiper的喜好，从而吸引更多的gossiper追随它。在存在多个media的多智能体系统中，纳什均衡是多个智能体相互竞争最后达成的稳定状态。在这个状态下，各智能体不能通过单方面的改变自己的策略来获取更高的回报。考虑到media的动作空间是连续的(观念被定义为区间[0,1]上的任意一点)，这里使用wols-cala算法对media的行为建模，算法4是基于wols-cala构建的media策略。

算法4mediaj在第τ轮的策略

mediaj当前的回报rj被定义为g′中选择追随j的gossiper的人数所占g′中总人数的比例，

这里λij的定义同算法3。pij表示gossiperi追随mediaj的概率。

2、群体舆论动态分析

记{yj}j∈m，yj∈(0,1)为mediaj的观念。假设gossiper网络无穷大，则gossiper的观念分布可以由一个连续的分布密度函数表示，这里用p(x,t)表示gossiper群体在t时刻观念分布的概率密度函数。则gossiper的舆论演变可以表示成概率密度函数p(x,t)关于时间的偏导数。首先本例考虑只有一个media存在的情况。

定理3在一个只含有一个media的gosiper-media网络中，gossiper观念分布的演变服从下面公式，

其中，

这里i1＝{x||x-y|＜(1-αm)dm}，i2＝{x|dm≥|x-y|≥(1-αm)dm}。

证明：基于mf近似[40](meanfieldapproximations)理论，基于bcm的gossiper观念的概率分布关于t的偏导p(x,t)可以用下面表示[12]，

这里wx+y→x表示观念等于x+y的gossiper会改变观念到x的概率，而wx+y→xp(x+y)dy表示在时间区间(t,t+dt)内智能体的观念从区间(x+y,x+y+dy)转移到x的比例。类似的wx→x+y表示观念x的智能体会改变观念到x+y的概率，wx→x+yp(x)dy表示观念等于x的gossiper转移到区间(x+y,x+y+dy)比例。

根据算法3的定义，智能体gossiper依概率ξ受其它gossiper的观念影响，或者依概率1-ξ受media的观念影响，然后做出自己的决策。将wx+y→x和wx→x+y细化为受其它gossiper观念和受media观念的影响的两部分，分别记为w^[g]和w^[m]，则wx→x+y和wx+y→x可表示为，

将式(18)带入到式(17)中可得，

定义

其中ψg(x,t)表示智能体g观念的概率密度函数p(x,t)受gossiper影响的变化率。weisbuchg[45]等人已证明ψg(x,t)服从下面公式，

这里是p关于x的二阶偏导。αg是一个介于0到0.5的实数。dg为gossiper的阈值。

式ψm(x,t)代表观念的分布密度函数p(x,t)受media影响的变化率。假设mediaj的观念为uj(uj＝x+dj)，则media的观念分布可以利用diracdelta方程q(x)＝δ(x-uj)表示。diracdelta方程δ(x)[46]常被用于模拟一个高窄的尖峰函数(脉冲)和其他类似的抽象概念，如点电荷，点质量或电子，其定义如下，

则从x+y到x转移率可表示为

式(21)中δ(x-[(x+y)+αm((x+z)-(x+y))])表示以下事件发生，观念x+y受观念x+z的影响而转移到x。q(x+z)是media在观念x+z处的的分布密度。同理，wx→x+y可表示成，

结合式(21)-(22)，计算整理可得，

其中i1＝{x||x-y|＜(1-αm)dm}，i2＝{x|dm≥|x-y|≥(1-αm)dm}。

综合式(20)，完成证明。

从公式(14)中本例可看出，p(x,t)的变化率是式ψg(x,t)和ψm(x,t)的加权平均。前者代表了舆论变化受gossiper网络的影响部分，后者代表了受media网络的影响部分。仅含有gossiper的公式ψg(x,t)已经被weisbuchg的工作[45]研究分析过。其得出一个重要的性质是从任何一个分布起，分布密度中局部最优的点会逐渐强化，这表明纯gossiper网络中舆论的发展会逐渐趋向一直。此外，从定理3中可看出，式ψg(x,t)和式ψm(x,t)都与gossiper的具体网络无关，这表明网络无限大的时候，舆论的发展并不受网络结构的影响。

接下来分析方程(14)的第二部分，ψm(x,t)(式(23))。假设y为常数，分析(23)可得，

直观地，式(24)表明与media观念相似的gossiper的观点都会收敛到这个media，因此可得出下面结论，

推论1一个media的存在，会加速gossiper的舆论趋向统一。

下面本例考虑多个media存在的情况。定义pj(x)为gossiper的观念在x处受mediaj影响的概率，则

那么gossiper在具有多个media竞争的环境下，其观念的动态变化可以表示为受各media影响的加权平均。可得到下面结论，

推论2gossiper观念的分布函数的动态变化服从下式：

其中ψg(x,t)和ψm(x,t)由式(20)和(23)分别定义。

3、仿真实验与分析

首先验证wols-cala算法可以学习到纳什均衡。随后给出gossiper-media模型的实验仿真，用来验证前面的理论分析结果。

3.1wols-cala算法性能检验

本例考虑一个简化版的gossiper-media模型，用以检验wols-cala算法是否可学习到纳什均衡策略。具体的，将两个media竞争追随者的问题建模成下面的目标优化问题，

max(f1(x,y),f2(x,y))

s.t.,x,y∈[0,1](s.t.表示约束条件，是优化类问题的标准写法。)(26)

其中

以及

r∈[0,1]。a,b∈[0,1]∧|a-b|≥0.2为gossiper的观念。

这里函数f1(x,y)和f2(x,y)模拟算法4中的r，分别代表media1和2在联合动作为<x,y>是的回报。本例使用两个wols-cala智能体，通过独立学习分别控制x和y，来最大化各自的回报函数f1(x,y)和f2(x,y)。在该模型中，gossiper的观念按照不同形式的纳什均衡可分为两类：

(i)当r＞2/3时，均衡点为(a,a)，当r＜1/3时均衡点为(b,b)；

(ii)(ii)当1/3≤r≤2/3时，均衡点为集合|x-a|＜0.1∧|y-b|＜0.1或|x-b|＜0.1∧|y-a|＜0.1上任意一点。

在具体仿真实验中，本例在这两个类型中各取了一个点，即r＝0.7＞2/3和r＝0.6＜2/3。然后观察在gossiper的观念分布不同时，算法能否能按预期学习到纳什均衡。表1为wols-cala的参数设置。

表1参数设置

图1和2为两个实验的仿真结果，可以很明显的看出，两个实验中media智能体在经过3000次左右的学习后，都收敛到了纳什均衡，也就是说，r＝0.6时收敛到了<0.4,0.4>，r＝0.7时收敛到了<0.4,0.57>。如图1所示，当r＝0.7＞2/3,a＝0.4,b＝0.6，两个智能体收敛到纳什均衡点(0.4,0.4)；如图2所示，当r＝0.6＜2/3,a＝0.4,b＝0.6，智能体1(agent1)收敛到x＝0.4，智能体2(agent2)收敛到y＝0.57。

3.2gossiper-media模型的实验仿真

这一小节展示gossiper-media模型的仿真结果。考虑200个gossiper和具有不同数目media的实验环境，分别为：(i)没有media；(ii)只有一个media；(iii)有两个竞争的media。对每一种环境，本例分别考虑两种具有代表性的gossiper网络，全连通网络(fullyconnectednetwork)和小世界网络[47](small-worldnetwork)。通过这些对比实验，本例探讨media对gossiper舆论演变的影响。

为公平起见，各实验环境采用同样的参数设置。在三个实验环境中采用同样的网络，以及相同的gossiper和media的初始观念。这里，小世界网络使用watts-strogatz构造方法[47]按连通度p＝0.2随机生成。各gossiper的初始观念是按均匀分布在区间[0,1]上随机采样。media的初始观念为0.5。考虑到阈值的过大会干扰实验的观察，这里将gossiper-media阈值dm和gossiper-gossiper阈值dg设为一个小的正数0.1。gossiper的学习率αg和αm设为0.5。集合g′随机从g采样，并且满足|g′|＝80\％|g|。

因每个环境下都有两种gossiper网络模式：全连通网络和小世界网络。因此，图3-4分别展示了在全连通网络和小世界网络下，没有media时各网络的舆论演变；图5-6分别展示了在全连通网络和小世界网络下，具有一个media时各网络的舆论演变；图7-8分别展示了在全连通网络和小世界网络下，具有两个竞争的media时各网络的舆论演变。从这几个图中，首先可以看出，在所有的三种media环境下，不同的gossiper网络最终收敛的点的数目相同：零个media环境中收敛到5个；一个media环境中收敛到4个；两个media环境中收敛到3个。这个现象与定理3和推论2中的结论相符，gossiper的舆论动态与gossiper网络的拓扑结构无关，因为gossiper的在不同网络下的舆论动态可用相同的公式建模。

第二，从图3-6中可观察到，当存在一个media的情况下，两个网络中gossiper的舆论最后收敛的点数都从5减少到4。这表明media的存在会加速gossiper舆论一致化的产生，符合本例在推论1中的结论。同时，从图5-8中，当media的数目从1增加到2时，两个网络中gossiper的舆论最后收敛的点数进一步从4减少到3。这表明竞争的media会进一步加速gossiper舆论的一致化。

此外，实验结果也能验证wols-cala算法的性能。在图5和图6中，media智能体的观念一直维持在具有最多gossiper的观念的周围(全连通网络中nmax＝69，小世界网络中nmax＝68)。这个现象符合算法设计的预期，即wols-cala智能体能够学习到全局最优。在图7和图8中，可看出当存在两个media时，一个media的观念维持在具有最多gossiper的观念周围(两个网络中nmax都是89)，另一个media维持在具有第二多gossiper的观念周围(全连通网络中n‘max＝70，小世界网络中n’max＝66)。这也符合定理2的预期，两个wols-cala智能体最终可以收敛到纳什均衡。图3-8中media的观念一直在gossiper观念周围上下振动，是因为gossiper-media模型中，media的最优的策略不唯一(gossiper观念周围小于dm的范围内都是media的最优点)。

4、总结

本发明提出了一个独立学习的多智能体的连续动作空间的强化学习算法wols-cala，分别从理论证明和实验验证两个方面验证了该算法可以学习到纳什均衡。然后将该算法应用在对网络环境中舆论演变的研究中。这里将社交网络中的个体分为gossiper和media两类分别建模，其中gossiper类代表普通大众，media使用wols-cala算法建模代表社交媒体等以吸引大众关注为目的的个体。通过对两种智能体分别建模，本发明研讨了不同数目media的竞争对gossiper舆论产生的影响。最后理论和实验表明，media的竞争可以加速舆论趋于一致。

以上所述之具体实施方式为本发明的较佳实施方式，并非以此限定本发明的具体实施范围，本发明的范围包括并不限于本具体实施方式，凡依照本发明所作的等效变化均在本发明的保护范围内。

本发明中涉及到的标号对应的参考文献如下：

[1]pazisj,lagoudakismg.binaryactionsearchforlearningcontinuous-actioncontrolpolicies[c].inproceedingsofthe26thannualinternationalconferenceonmachinelearning,newyork,ny,usa,2009:793–800.

[2]pazisj,lagoudakismg.reinforcementlearninginmultidimensionalcontinuousactionspaces[c].inieeesymposiumonadaptivedynamicprogramming&reinforcementlearning,2011:97–104.

[3]suttonrs,maeihr,precupd,etal.fastgradient-descentmethodsfortemporal-differencelearningwithlinearfunctionapproximation[c].inproceedingsofthe26thannualinternationalconferenceonmachinelearning,2009:993–1000.

[4]pazisj,parrr.generalizedvaluefunctionsforlargeactionsets[c].ininternationalconferenceonmachinelearning,icml2011,bellevue,washington,usa,2011:1185–1192.

[5]lillicraptp,huntjj,pritzela,etal.continuouscontrolwithdeepreinforcementlearning[j].computerscience,2015,8(6):a187.

[6]kondavr.actor-criticalgorithms[j].siamjournaloncontrolandoptimization,2003,42(4).

[7]thathacharmal,sastryps.networksoflearningautomata:techniquesforonlinestochasticoptimization[j].kluweracademicpublishers,2004.

[8]petersj,schaals.2008specialissue:reinforcementlearningofmotorskillswithpolicygradients[j].neuralnetw.,2008,21(4).

[9]vanhasselth.reinforcementlearningincontinuousstateandactionspaces[m].inreinforcementlearning:state-of-the-art.berlin,heidelberg:springerberlinheidelberg,2012:207–251.

[10]sallansb,hintonge.reinforcementlearningwithfactoredstatesandactions[j].j.mach.learn.res.,2004,5:1063–1088.

[11]lazarica,restellim,bonarinia.reinforcementlearningincontinuousactionspacesthroughsequentialmontecarlomethods[c].inconferenceonneuralinformationprocessingsystems,vancouver,britishcolumbia,canada,2007:833–840.

[12]quattrociocchiw,caldarellig,scalaa.opiniondynamicsoninteractingnetworks:mediacompetitionandsocialinfluence[j].scientificreports,2014,4(21):4938–4938.

[13]yanghx,huangl.opinionpercolationinstructuredpopulation[j].computerphysicscommunications,2015,192(2):124–129.

[14]chaoy,tang,lvh,etal.modellingadaptivelearningbehavioursforconsensusformationinhumansocieties[j].scientificreports,2016,6:27626.

[15]devylderb.theevolutionofconventionsinmulti-agentsystems[j].unpublisheddoctoraldissertation,vrijeuniversiteitbrussel,brussels,2007.

[16]holleyra,liggetttm.ergodictheoremsforweaklyinteractinginfinitesystemsandthevotermodel[j].annalsofprobability,1975,3(4):643–663.

[17]nowaka,szamrejj,latan茅b.fromprivateattitudetopublicopinion:adynamictheoryofsocialimpact.[j].psychologicalreview,1990,97(3):362–376.

[18]tsanga,larsonk.opiniondynamicsofskepticalagents[c].inproceedingsofthe2014internationalconferenceonautonomousagentsandmulti-agentsystems,2014:277–284.

[19]ghaderij,srikantr.opiniondynamicsinsocialnetworkswithstubbornagents:equilibriumandconvergencerate[j].automatica,2014,50(12):3209–3215.

[20]kimuram,saitok,oharak,etal.learningtopredictopinionshareinsocialnetworks.[c].intwenty-fourthaaaiconferenceonartificialintelligence,aaai2010,atlanta,georgia,usa,july,2010.

[21]liakosp,papakonstantinopoulouk.ontheimpactofsocialcostinopiniondynamics[c].intenthinternationalaaaiconferenceonwebandsocialmediaicwsm,2016.

[22]bondrm,farisscj,jonesjj,etal.a61-million-personexperimentinsocialinfluenceandpoliticalmobilization[j].nature,2012,489(7415):295–8.

[23]szolnokia,percm.informationsharingpromotesprosocialbehaviour[j].newjournalofphysics,2013,15(15):1–5.

[24]hofbauerj,sigmundk.evolutionarygamesandpopulationdynamics[m].cambridge；newyork,ny:cambridgeuniversitypress,1998.

[25]tuylsk,nowea,lenaertst,etal.anevolutionarygametheoreticperspectiveonlearninginmulti-agentsystems[j].synthese,2004,139(2):297–330.

[26]szabobg.fathg(2007)evolutionarygamesongraphs[c].inphysicsreports,2010.

[27]hanta,santosfc.theroleofintentionrecognitionintheevolutionofcooperativebehavior[c].ininternationaljointconferenceonartificialintelligence,2011:1684–1689.

[28]santosfp,santosfc,pachecojm.socialnormsofcooperationinsmall-scalesocieties[j].ploscomputationalbiology,2016,12(1):e1004709.

[29]zhaoy,zhangl,tangm,etal.boundedconfidenceopiniondynamicswithopinionleadersandenvironmentalnoises[j].computersandoperationsresearch,2016,74(c):205–213.

[30]pujoljm,delgadoj,sang,etal.theroleofclusteringontheemergenceofefficientsocialconventions[c].ininternationaljointconferenceonartificialintelligence,2005:965–970.

[31]norin,bollegalad,ishizukam.interestpredictiononmultinomial,time-evolvingsocialgraph.[c].inijcai2011,proceedingsoftheinternationaljointconferenceonartificialintelligence,barcelona,catalonia,spain,july,2011:2507–2512.

[32]fangh.trustmodelingforopinionevaluationbycopingwithsubjectivityanddishonesty[c].ininternationaljointconferenceonartificialintelligence,2013:3211–3212.

[33]deffuantg,neaud,amblardf,etal.mixingbeliefsamonginteractingagents[j].advancesincomplexsystems,2011,3(1n04):87–98.

[34]dejongs,tuylsk,verbeeckk.artificialagentslearninghumanfairness[c].ininternationaljointconferenceonautonomousagentsandmultiagentsystems,2008:863–870.

[35]bowlingm,veloso.multiagentlearningusingavariablelearningrate[j].artificialintelligence,2002,136(2):215–250.

[36]suttonrs,bartoag.reinforcementlearning:anintroduction[m].cambridge,mass:mitpress,1998.

[37]abdallahs,lesserv.amultiagentreinforcementlearningalgorithmwithnon-lineardynamics[j].j.artif.int.res.,2008,33(1):521–549.

[38]singhsp,kearnsmj,mansoury.nashconvergenceofgradientdynamicsingeneral-sumgames[j],2000:541–548.

[39]zhangc,lesservr.multi-agentlearningwithpolicyprediction[j],2010:927–934.

[40]shilnikovlp,shilnikoval,turaevd,etal.methodsofqualitativetheoryinnonlineardynamics/[m].worldscientific,1998.

[41]dittmerjc.consensusformationunderboundedconfidence[j].nonlinearanalysistheorymethodsandapplications,2001,47(7):4615–4621.

[42]lorenzj.continuousopiniondynamicsunderboundedconfidence:asurvey[j].internationaljournalofmodernphysicsc,2007,18(12):2007.

[43]krawczykmj,malarzk,korffr,etal.communicationandtrustintheboundedconfidencemodel[j].computationalcollectiveintelligence.technologiesandapplications,2010,6421:90–99.

[44]lasryjm,lionspl.meanfieldgames[j].japanesejournalofmathematics,2007,2(1):229–260.

[45]weisbuchg,deffuantg,amblardf,etal.interactingagentsandcontinuousopinionsdynamics[m].springerberlinheidelberg,2003.

[46]hassanis.diracdeltafunction[m].springernewyork,2000.

[47]djw,shs.collectivedynamicsof’small-world’networks[c].innature,1998:440–442.

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：侯韩旭;郝建业;张程伟
技术所有人：东莞理工学院
我是此专利的发明人

上一篇：一种水泥厂处理生活污泥的方法与流程
上一篇：一种自控仪安装箱结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。