在并行分配制度下Two-Agent的贝叶斯操作方法与流程

文档序号：17776363发布日期：2019-05-28 20:13阅读：245来源：国知局

本发明涉及人工智能及多agent系统技术领域，尤其涉及在并行分配制度下two-agent的贝叶斯操作方法。

背景技术：

最近几年国内外的研究中，一些将计算效率纳入考虑范围的对分配制度设计问题的研究发现，各种不考虑私有信息但能彻底封杀单agent操弄行为的制度，例如vcg制度，计算效率很低，而各种考虑私有信息且计算效率很高的制度无法彻底防止通过不诚实行为获得额外利益的情况出现。对计算效率的考虑使人们对设计合理分配制度的思考有了新的务实的方向：尽管无法彻底消除不诚实行为出现的可能性，但如果各agent在某分配制度下想要找到能为其带来额外利益的不诚实行为，例如操作行为和串谋行为，那么它们将面临难以接受的巨量计算任务，例如相关的计算问题是np-hard的，则可以认为该制度是有限可靠的即参与分配的agent都倾向于采用诚实的行为。

因此在设计面向多个自利agent的分配制度时，需要考虑：(1)在各自利agent都诚实地参与分配过程的情况下，能否有效地即在多项式时间内，计算得到兼顾经济效益和社会平等的分配结果；(2)若某个或某些自利agent企图寻找可以带来额外利益的非诚实行动方案，那么他们所面临的计算任务是否异常巨大。近年来人工智能领域的学者们开始尝试同时从以上这两方面研究如何设计面向多个自利agent的分配制度。

近年来人工智能领域的学者们开始尝试同时从以上这两方面研究如何设计面向多个自利agent的分配制度。huangwei研究设计了一个新型无诱导的并行分配制度框架即并行分配制度。在该框架下采用一种不会随问题规模改变的简单分配协议，并且将之与最优的顺序分配协议作实验和理论比较，例如bouveret和lang在他们发表于ijcai2011的论文里提出最优猜想，kalinowski和walsh则在他们发表于ijcai2013的论文里给出了证明。发现无论在经济效益还是社会平等的标准下，该协议都打败了在这些标准下相应的最优顺序分配协议，并进一步探讨了在该协议下进行目标资源集合与最大安全收益操弄的计算性问题还初步分析了在该制度框架下实现操弄行为的计算复杂性。

公开号为：cn109034361a名称为：“一种基于并行分配制度下two-agent的悲观操作方法”的中国发明公开了一种分配方法，包括步骤：(1)在分配过程的每一个步骤里，根据指定的“并行机制”，将选择公开报告自己在剩下的所有物品中最喜欢的物品，然后物品将被分配出去；(2)当agent同时想要同一个物品时，则通过抛硬币的方式随机决定，但当操作者agent-a在悲观策略下，默认当两个agent在同一轮同时报告同一个物品时，悲观的认为自己不可能拿到该物品，会避免与其他操作者同时报告某个物品；(3)操作者agent-a提前知道其他agent的物品喜爱顺序，通过自己的悲观操作策略，让自己获得最优的物品集，直到物品分配完毕。该发明的技术方案研究了操弄者如何在悲观情况下获得最优物品集、实现利益最大化的操作策略。但并不是agent都会悲观的认为在分配过程中拿不到与其他agent竞争的物品，没有讨论更加普遍的贝叶斯情况即同一个物品在竞争时，无法知道每个agent的期望效益是多少，达到真正的最大化利益。

技术实现要素：

针对现有技术的不足，本发明所解决的技术问题是在并行分配制度下，如何找到一个能成功操作得到期望效益最大的拿取序列的操作方法。

为解决上述技术问题，本发明采用的技术方案是一种在并行分配制度下two-agent的贝叶斯操作方法，包括如下步骤：

(1)定义一个三元组用表示被分配的物品集合；表示操作者有50％概率拿到的物品集合；表示操作者拿不到的物品集合；n＝2，表示参与分配操作者agent的数量，用agent-a和agent-b表示；每个agent对物品的偏好顺序集合由表示；在分配物品的每一轮中，操作者各自选择自己最想要拿取的物品，被选中的物品将被分配出去；

(2)当操作者agent-a和参与者agent-b某轮同时想要同一个物品时，则会采用每个参与者都能以相同的概率获得该物品的方法；

(3)操作者agent-a在贝叶斯情况下，采用的操作策略为，根据自己对分配物品的喜好顺序依次把第i轮(i＝1、2、3...且i≤n)的物品放入拿取序列进行判断能否成功插入序列中，直到分配完所有物品后，得到一个期望效益最大的物品拿取序列，其具体过程如下：

1)设定操作者agent-a提前知道了参与者agent-b对物品的偏好顺序且agent-b会诚实的按照自己的偏好顺序去报告每一轮想要拿取的物品；

2)判断物品放入拿取序列δ能否成功，需要满足下面的条件：

上述式中，表示当前第i轮没有拿到的物品集合，o表示当前第i轮试图加入拿取序列δ的物品，表示所有被分配的物品集合，表示参与者agent-b认为在集合中比o物品要好的物品集，δ表示操作者最优的拿取序列，ipos表示物品o在拿取序列中插入的位置，表示操作者有50％概率拿到的物品集合；

当前第i轮要插入拿取序列δ的物品o，如果满足等式(1)，就可以认为在拿取该物品之前，参与者agent-b能拿到比物品o要好的物品数大于或等于操弄者agent-a拿到比物品o要好的物品数量；故第i轮操弄者agent-a有几率拿到该物品o；当等式(1)取大于号，则物品o一定可以拿到；当等式(1)取等于号，则物品o被拿到的概率为50％，且放入集合中；

3)物品o满足等式(1)插入拿取序列δ之后，需要检验其他拿取序列δ中的物品是否因为物品o的插入拿取概率发生了改变，所以需要一次检验整个拿取序列δ；判断物品是否需要检验，需要满足下面的条件：

上述式中，j依次表示拿取序列δ从1到|δ|的位置，δ(j)则表示在拿取序列δ中j这个位置上的物品；若在拿取序列δ中属于集合中的物品和与当前插入位置ipos相同的物品，都不用检验物品的拿取概率；其余位置上的物品判断是否拿取概率改变，需要满足下面的条件：

如果物品δ(j)不满足等式(3)的判定条件，那么物品o插入拿取序列的位置ipos则需要往后挪一位，ipos＝ipos+1；然后再回到等式(1)继续判定，成功之后再检验，检验成功之后才算是能加入到拿取序列δ中；且插入物品o的次数由的值决定，如果物品o成功插入且属于集合，则expnumo减去0.5；如果插入成功单不属于集合，则expnumo减去1；直到expnumo的值为0，不再继续插入物品o进入拿取序列δ，且此时的拿取序列δ为最优的贝叶斯情况下的拿取序列δ。

与现有技术相比，采用本发明的技术方案，基于并行分配制度下，当满足条件：

对于

则可以保证基于操作者agent-a的物品偏好顺序的拿取序列δ能够被找到，得到一个期望效益最大的物品集。

附图说明

图1为本发明操作流程图；

图2为检验一个物品能否插入拿取序列操作流程图；

图3为两个agent对自己心中最喜爱物品的一个偏好排序；

图4为操作者agent-a的最优操作序列和真实喜好序列、agent-b的真实喜好序列；

图5为两个agent都诚实的情况下，每个agent分配到自己最喜爱物品的一个分配结果；

图6为操作者agent-a进行贝叶斯策略操作，在agent-b诚实的情况下，每个agent分配到物品的一个分配结果；

图7为两个agent对每个物品的记分情况；

图8为找到一个贝叶斯情况下最优拿取序列的算法；

图9为在贝叶斯策略操作下检验一个物品能否插入拿取序列的算法。

具体实施方式

下面结合附图和实施例对本发明的具体实施方式作进一步的说明，但不是对本发明的限定。

图1示出了在并行分配制度下two-agent的贝叶斯操作方法，包括如下步骤：

(2)当操作者agent-a和参与者agent-b某轮同时想要同一个物品时，则会采用每个参与者都能以相同的概率获得该物品的方法，如：抛硬币，去决定该轮这个物品的归属权；

(3)操作者agent-a在贝叶斯情况下，采用的操作策略为，根据自己对分配物品的喜好顺序，依次把第i轮(i＝1、2、3...且i≤n)的物品放入拿取序列进行判断能否成功插入序列中，直到分配完所有物品后，得到一个期望效益最大的物品拿取序列，其具体插入过程如图2所示：

1)设定操作者agent-a提前知道了参与者agent-b对物品的偏好顺序且agent-b会诚实的按照自己的偏好顺序去报告每一轮想要拿取的物品；

2)判断物品放入拿取序列δ能否成功，需要满足下面的条件：

图3为每个agent对自己心中最喜爱物品的一个偏好排序排名越前的代表越被agent喜欢，并依次降低。中间的的数字如“o1、o2、o3、o4、o5”等代表是物品。

图4为操弄者agent-a在贝叶斯情况下操作策略的拿取序列和真实情况下的拿取序列δa，以及agent-b在真实情况下的拿取序列δb。

图5为在并行分配制度下，两个agent都诚实的按照自己的喜好报告每一轮想要拿取的物品，那么第一轮操作者agent-a报告o4，agent-b报告o1，依次进行下去，直到物品被分配完，根据图5两个agent对各个物品的记分情况分别计算出他们的期望价值。

图6为在并行分配制度下，操作者agent-a采用贝叶斯操作策略，agent-b依旧是诚实按照自己喜好进行报告，那么在第一轮中操作者agent-a则会报告o5，agent-b还是报告o1，剩下的每一轮报告如图6所示，并分别计算出两个agent在该情况下的期望价值。

图7为两个agent对每个物品的期望价值。

图8为在多项式的时间内，找到一个对于操作者agent-a来说期望效益最优的拿取序列。

图9为验证一个物品能否成功插入当前拿取序列。

实施例：

在一种基于并行分配制度下，采用贝叶斯操作策略获取一个期望效益最大的拿取序列，包括如下步骤：

步骤(1)、步骤(2)和步骤(3)，图3中是两个agent对自己心中最喜爱物品的一个偏好排序，按照各自对物品的偏好排序。每个操作者agent诚实的同时报自己最喜爱的物品，当多个操作者agent同时选择同一个物品时，那么这些通过抛硬币的方式等概率的来随机决定哪个agent来得到该物品。然后继续直到所有的物品都被分配出去。最后的分配结果如图5所示。

图6中，则是在操作者agent-a提前知道了agent-b的物品喜好顺序，并采用贝叶斯操作策略，而agent-b依旧诚实的按照自己的物品喜好顺序报告物品，在第一轮中操作者agent-a报告o5，agent-b报告o1；第二轮，操作者agent-a报告o2，agent-b报告o2；第三轮，操作者agent-a报告o4，操作者agent-b报告o3；第四轮，操作者agent-a报告o6，操作者agent-b报告o6。在如图7的borda计分函数下，ua(o1)＝35，ua(o2)＝40，ua(o3)＝20，va(o4)＝70，ua(o5)＝65，ua(o6)＝10；ub(o1)＝100，ub(o2)＝80，ub(o3)＝70，ub(o4)＝55，ub(o5)＝30，ub(o6)＝10。在操作分配和诚实分配下，两个agent各自获得的期望价值，分别如图6和图5所示，诚实分配下ua＝150，ub＝220；操作分配下ua＝160，ub＝220。

当操作者agent-a为了在分配中获得更多的期望效益进行贝叶斯操作时，最后确实通过操作获得了更大的期望效益。

结果仿真：

通过上述事例和图5、图6的结果可以看出，在两个agent都诚实参与的情况下agent-a的期望效益ua＝150，而采取贝叶斯操作策略情况下agent-a的期望效益ua＝160，确实存在在对身份不敏感的并行机制的分配方法下，two-agent的贝叶斯操作策略，使操作者的期望效益得到了增加，具体的操作算法如图8和图9所示。

采用本发明的技术方案，在并行分配制度下，two-agent的贝叶斯操作情况确实存在，为了保证分配制度的公平性，杜绝作弊行为，需要参与分配的agent保护好自己对物品喜好顺序等私有信息，或增加参与分配的操作者agent数量，加大操作难度，保证分配的公平性。

采用本发明的技术方案，基于并行分配制度下，采取贝叶斯操作策略可找到一个成功能操作得到的期望效益最大的拿取序列。

以上结合附图和实施例对本发明的实施方式做出了详细说明，但本发明不局限于所描述的实施方式。对于本领域技术人员而言，在不脱离本发明的原理和精神的情况下，对这些实施方式进行各种变化、修改、替换和变型仍落入本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄巍;黄宇;卢雨戈;唐倩
技术所有人：桂林电子科技大学
我是此专利的发明人

上一篇：医学用途的制作方法
上一篇：一种管状梯度浓度掺杂钇铝石榴石激光晶体及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。