一种基于演化博弈的群智合作感知激励方法与流程

文档序号：15685695发布日期：2018-10-16 21:02阅读：320来源：国知局

本发明属于无线通信技术领域，具体涉及一种在固定预算的条件下促进信息交互，最大化用户总效益的基于演化博弈的群智合作感知激励方法。

背景技术：

随着科技的发展，智能手机出现，在第三代/第四代(3g/4g)和wi-fi等移动和无线通信技术的进步的支持下，智能手机具有更好的联网能力，可以以更高的速率传输数据。此外，它们配备了更多的处理能力和存储容量，更重要的是，它们是可编程的。而且，配备有类似功能的设备正在成为可穿戴配件(例如，googleglass和galaxygear)。它们一起被称为移动可穿戴设备。智能手机和移动可穿戴设备正迅速成为人们日常生活中占主导地位的传感，计算和通信设备。基于这些传感器，智能手机和移动可穿戴设备可以执行各种传感应用，在这样的背景下群智感知出现。

群智感知是一种参与感知的概念，也是一种以人为中心的计算模式，即具有感测和计算装置的移动用户为了支持各种应用负责收集和贡献数据的一种感知模式。基于智能手机及可穿戴式设备中的嵌入式传感器，参与者可以从他们活动的周围环境中收集数据，并通过可用网络上传到应用服务平台，服务平台对参与者的数据进行处理并提取查询者所需信息，并将这些信息转发给查询者。在群智感知中，用户既是提供数据的参与者，也是数据的消费者。参与者是自愿参与，足够数量的参与者可以提供精细监测，且传感装置具有移动性，更易收集时空数据。在万物互联的时代，群智感知在提高人们生活质量方面显示出巨大的潜力，在空间气象监测、智能城市建设、医疗保健和交通运输等方面已经有了广泛应用。

群智感知实质上是对感兴趣的现象，通过分布的个体收集样本，而独立的个体可能无法提供足够的样本，需要从个体中聚集样本，从而提供高品质，高覆盖率测量数据。因此，群智感知要广泛应用，必须激发大量的个人参与，然而现有的技术还无法完全实现这一点。

技术实现要素：

发明目的：为了克服现有技术中存在的不足，提供一种基于演化博弈的群智合作感知激励方法，为了鼓励用户进行信息共享，引入参与者的合作率作为博弈模型的激励惩罚因子，并根据每个参与者的收益调整下一轮演化中参与者博弈次数、更新策略，服务平台通过调整参与者的收入来控制整个演化博弈过程，建立了有效的激励方法，促进了参与者之间进行合作，共享感知数据。

技术方案：为实现上述目的，本发明提供一种基于演化博弈的群智合作感知激励方法，包括以下步骤：

1)定义用户的博弈策略，在群智感知系统中参与者a与参与者b之间的博弈策略共有四种，其具体如下：

a)参与者a与参与者b之间进行数据共享，用t表示参与者博弈的成本，用s表示无论是共享还是不共享数据，参与者从平台获得的报酬，用δs表示参与者通过合作进行信息交互所获得的收入增量，此时参与者a与参与者b的收益为(s+δs-t,s+δs-t)；

b)参与者b采取合作共享策略，参与者a采用不共享策略，参与者a与参与者b的收益表示为(s+δs-t,s-t)；

c)参与者a采取合作共享策略，参与者b采用不共享策略，参与者a与参与者b的收益表示为(s-t,s+δs-t)；

d)参与者a与参与者b都在博弈中采用不共享策略，参与者a与参与者b的收益表示为(s-t,s-t)。

2)初始化系统参数，令演化轮数j＝1；

3)在一轮博弈中每个参与者同其他m-1参与者分别进行f次博弈；

4)根据公式计算每个参与者的收益，其中和分别表示第i个参与者在第j轮博弈的收入和成本；

5)根据公式计算最近段时间内的合作率，其中w是最近时间段内经历演化博弈的轮数，{x1,x2,x3,…xw}是每一轮参与者合作率，y(k)∈[0,1]是衰减函数；

6)根据公式β＝1+η-z和计算演化博弈中收入和成本的调整系数，其中uth表示服务平台的预算，那么为第j轮参与者的总收益，也表示服务平台在第j轮博弈后的总支出；

7)调整下一轮用参与者博弈收入s+δs→α(s+δs)，成本t→βt，根据公式调整下一轮参与者的博弈次数；

8)根据公式更新参与者的策略，其中πa和πb是参与者a和b的策略，ua和ub是参与者a和b的收益，δ为概率系数；

9)令演化博弈轮数j＝j+1，重复执行步骤3)到步骤8)直至系统稳定。

本发明考虑用户之间的合作，提出了一种基于演化博弈的群智感知激励方法，将群知感知中参与者之间相互合作进行信息交互的过程建模为演化博弈，用户的收益定义为演化博弈中的适应度，基于演化博弈中“适者生存”的规则进行演化，不断产生具有较高收益的用户，淘汰收益低的用户，以此鼓励用户进行信息交互，使得用户总效益最大化并最终达到均衡，通过仿真结果表明，该方法可以在预算的约束下提高用户总收益且系统稳定。

有益效果：本发明与现有技术相比，具备如下优点：

1、本发明方法针对群智合作感知，在每个参与者完成感知任务之外，考虑到参与者之间可能存在着合作关系，也就是两个参与者之间可以进行数据共享，通过构建此模型能够更全面模拟群智感知场景。

2、与传统的激励方案不同，本发明中考虑到用户数据处理，在自身感知数据的基础上，通过对共享的数据进行处理从而获得更精确的感知数据，并将这些数据报告给服务平台以获取更多的报酬。

3、在实际场景中，需要考虑经济可行性，本发明方法中服务平台的预算固定，通过调整参与者的收入来控制整个演化博弈过程，建立了有效的激励方法，促进了参与者之间进行合作，共享感知数据，使得用户总效益最大化并最终达到均衡。

附图说明

图1为本发明的群智感知激励系统模型示意图；

图2为本发明的整体流程逻辑框图。

具体实施方式

下面结合附图对本发明作进一步的说明

如图1所示为本发明的系统模型，它由众多参与者和远端服务平台构成。当远端服务平台收到客户的感知请求时向感兴趣的区域发布一些感知任务，位于感知区域内的参与者本着自愿参与原则决定是否参与感知。如果参与者决定进行感知，则会根据感知任务需求提交感知报告，服务平台给予提供数据的参与者报酬。

假设系统中有若干个参与者，当参与者接收到服务器发布的感知任务后，分别从周围感知环境获取感知数据。参与者之间存在着合作关系，即参与者之间可以共享感知数据，在自身感知数据的基础上，通过对共享的数据进行处理从而获得更精确的感知数据，并将这些数据报告给服务平台以获取更多的报酬。如图1中所示，参与者之间可能存在四种情况：双向箭头表示参与者共享得到对方的感知数据，如用户1与用户2之间；单向箭头表示两方有一方得到对方的感知数据，另一方没有得到对方的感知数据，例如用户3和用户4之间；箭头从用户3指向用户4表示用户3单方面向用户4分享感知数据；无箭头连接的两个参与者，如用户2和用户4，表示两者不共享彼此的感知数据。

本发明提出的基于演化博弈的群智合作感知激励方法，参与者选择不同的策略进行博弈并获得收益，定义博弈收益矩阵，给出本实施例模型的博弈收益矩阵，如表1所示，由表可知参与者a与参与者b之间的博弈策略共有四种，在此群智感知系统中，合作表示两者之间进行数据共享，不合作表示参与者不共享数据。对于参与感知任务参与者来说，用t表示参与者博弈的成本，用s表示无论是共享还是不共享数据，参与者从平台获得的报酬。如果参与者a与参与者b都选择合作，可以理解为参与者a和b都获得了对方的感知数据，参与者将自身数据同对方数据进行处理，得到更精确的感知数据，因此获得更多的报酬s+δs，其中δs表示通过信息交互获得的收入增量，此时参与者a与参与者b在(共享、共享)策略下的收益为(s+δs-t,s+δs-t)。如果参与者b采取合作共享策略，参与者a采用不共享策略，也就是参与者a得到b的数据并获得较高报酬s+δs，而b只有自身的感知数据，因此报酬为s，此时参与者a与参与者b的收益表示为(s+δs-t,s-t)。相反，参与者a采取合作共享策略，参与者b采用不共享策略，收益为(s-t,s+δs-t)。最后，参与者a与参与者b都在博弈中采用不共享策略，收益为(s-t,s-t)。

表1博弈收益矩阵

当仅参与者b选择共享数据时，参与者a获得参与者b的感知数据，并通过数据处理获得更精确的感知信息，收到平台给予的更多报酬，对于参与者b来说，共享数据并没有使得自身得到更多的报酬，而b在下一轮演化博弈采用的策略不确定，这种情况可能会影响b合作的积极性。为了鼓励参与者在博弈中进行合作并促进信息交流，需要在博弈模型中设置奖惩措施。

引入合作率作为激励惩罚因子来促进参与者的合作。根据合作率可以动态调整参与者的博弈成本t，合作率高的参与者将降低博弈成本，这是对参与者进行合作的奖励。相反，合作率低的参与者，将会增加博弈成本，也是说通过惩罚来提高合作率。假设最近时间段内经历了w轮的演化博弈，每一轮参与者合作率可表示为{x1,x2,x3,…xw}，那么最近一段时间内合作率为其中y(k)∈[0,1]是衰减函数。因此，博弈成本t的调整系数β可表示为：

β＝1+η-z(1)

其中0＜η＜1，当合作率为1时，博弈成本βt＝ηt，当合作率为0时，此时博弈成本最大为βt＝(1+η)t。

在实际场景中，服务平台的预算并不是无限的。参与者的收益是由平台向参与者支付的金额，也就是说，服务平台的总支出额即为所有参与者的总收益和。定义α来调整收入s+δs来控制平台支付的金额，收入s+δs的调整系数α可表示为：

其中，uth表示服务平台的预算，表示服务平台在第j轮博弈后的总支出。

通过以上分析，可以给出演化博弈收益矩阵的更新，如表2所示：

表2演化博弈更新收益矩阵

演化博弈的主要思想是“适者生存”，也就是说，应该鼓励那些可以促进系统演化的行为，并对阻碍系统演化的行为施加限制。将用户的收益定义为演化中的适应度，不断产生高收益的用户，淘汰低收益的用户。在经过一轮演化博弈后，每个参与者计算其收益，如果收益高于用户平均收益，则在下一轮演化中，系统将增加其博弈次数；相反，如果用户的收益低于用户平均收益，在下一轮博弈中将减少博弈次数。令fi,j+1表示参与者i在第j+1轮博弈次数，则：

其中，fi,j表示参与者i在第j轮博弈次数，ui,j表示参与者i在第j轮的收益，为第j轮用户的平均收益，mj表示第j轮参与者数量。

为了生存，不同策略的参与者在演化博弈的过程中不断适应环境，每个参与者都会以一定的概率更新他们的策略。复制规则，又称比例模仿规则，意味着当一轮演化博弈结束时，参与者以一定的概率随机模仿另一个参与者。定义参与者更新策略规则：

其中，πa和πb是参与者a和b的策略，ua和ub是参与者a和b的收益，δ为概率系数，公式(4)表示当参与者b的收益大于参与者a的收益时，参与者a将以δ的概率采纳b的策略作为自身策略的更新。

根据以上所述，本发明提供的一种基于演化博弈的群智合作感知激励方法，包括以下步骤：