一种基于增强学习算法的双层贝叶斯网络推理算法

文档序号：6506210阅读：198来源：国知局

一种基于增强学习算法的双层贝叶斯网络推理算法
【专利摘要】本发明提供一种基于增强学习算法的双层贝叶斯网络推理算法，包括以下步骤：步骤S1、初始化节点的增强学习概率表；步骤S2、分别更新横轴方向和纵轴方向上的条件选择概率的；步骤S3、对横轴的取值组合和纵轴的节点进行判断，删除冗余的取值组合和节点。本发明的基于增强学习算法的双层贝叶斯网络推理算法通过建模双层网络参数之间的概率依赖关系，根据已知网络状态推理分析后续网络状态，并采用增强学习的算法对推理的过程中所获取的网络节点的不确定信息进行学习和判断，进而对其进行分级，得到其概率信度值，进一步将得到的双层贝叶斯网络模型进行简化，只保留其中对推理最有用的信息，使其更利于实现和精准推理。
【专利说明】
一种基于增强学习算法的双层贝叶斯网络推理算法

【技术领域】
[0001]本发明涉及一种推理算法，特别地，涉及一种基于增强学习算法的双层贝叶斯网络推理算法。

【背景技术】
[0002]对网络进行认知是通过感知外部环境，经过自身的理解与学习，从而调整网络内部的相应配置来适应外部环境的变化。认知过程是在动态自适应过程中不断地学习和积累相关经验，并以此为依据来对网络进行相关的调整、判决和再配置的过程。其中的自适应动态调整过程是发生在问题出现之前，而不是之后，所以对网络的性能改善是着眼于整个网络的端到端服务质量(Quality of Service,QoS)性能。由于上述特性,传统的网络认知能够为用户提供更良好的QoS保障，初步的具备了自感知、自学习、自优化、自配置或重配置等基本特征。
[0003]目前，网络的QoS已经成为国内外研究的热点，相关研究主要集中在以下几个方面:
[0004]1、网络环境感知技术
[0005]该技术主要研究了高级用户参数转变为合适的网络级目标的过程，发现了在不同层次中QoS表现的不一致性，并找到了一种对QoS属性的自动映射方法，形成策略和行为集合的基础。
[0006]2、网络QoS智能决策
[0007]该智能决策的主要成果是借鉴生物学方法研究网络QoS，力图借助生物昆虫群体聚集表现出来的固有特性来增强网络QoS保障过程的智能性，从优化的角度改进并完善传统的QoS方法。
[0008]3、网络自适应配置
[0009]针对信道容量和路径延迟提出了的QoS路由算法，并提出了一种保障用户QoS水平的动态自配置方法。该方法采用效用函数对用户QoS优先级进行初始化，利用网络主动性和中断管理机制，通过认知节点对用户QoS优先级进行判定和动态修正，提出了一种基于蚁群的频谱感知路由算法。该方法是一种无线网络中生物激励的路由算法。
[0010]综上所述，现在国内外研究网络QoS的焦点主要集中在为QoS保障算法增强智能性、自适应性，建立网络QoS的目标参数映射及认知参数建模与表达等方面。但是这些方法在实际操作过程中有诸多缺点:
[0011](I)这些研究大都针对某一局部、具体的控制方法，难以上升为具有全局意义的方法和机理；
[0012](2)现有的研究成果缺乏对网络态势的全局性评估，缺乏对网络层次(学习者)的认知能力、知识水平等个性特征的了解；
[0013](3)不能完全满足使用者的不同需要，不能为学习者提供个性化再配置的数据支持和指导。
[0014]Simon曾经指出，自然界中的大部分复杂系统都表现出分层结构。从理论角度讲，层次结构为从简单进化为复杂提供了可能性；从动力学角度讲，分层系统具有可分解性，这一特性可以使其行为过程和描述方式更加简化。因此，复杂系统的增强学习问题可以通过分层的方法得以简化。
[0015]基于上述的分析和描述，传统的复杂网络优化问题可以通过分层的方式得到简化和解决，将复杂网络中不同节点之间通过一定的层次关系进行描述和建模，可使得原本是仅通过一个复杂网络模型进行解决的高维度问题进行了降维的处理，从而使得问题得到了相应的简化，并为提出高效率和高可靠性的算法提供了可能性。

【发明内容】

[0016]鉴于以上所述现有技术的缺点，本发明的目的在于提出一种基于增强学习算法的双层贝叶斯网络推理算法，其既能充分利用已建立的贝叶斯网络概率模型进行推理，又能利用增强学习算法获得网络节点的概率信度值，进而对某些未知区域进行探索，协调了算法的全局和局部寻优能力；且该算法也不需要大量可信实例数据就能得到很好的实验效果，提升了算法的有效性和可靠性。
[0017]为实现上述目的及其他相关目的，本发明提供一种基于增强学习算法的双层贝叶斯网络推理算法，所述双层贝叶斯网络包括顶层贝叶斯网络、底层贝叶斯网络集合以及顶层贝叶斯网络节点与底层贝叶斯网络集合间的对应关系；
[0018]所述基于增强学习算法的双层贝叶斯网络推理算法至少包括以下步骤:
[0019]步骤S1、通过双层贝叶斯网络模型中的贝叶斯网络节点的替换，得到相关节点的条件依赖表，进而在横轴和纵轴两个方向建立相关节点的增强学习概率表，初始化的增强学习概率表即为所述条件依赖表，其中，所述横轴表示某个节点所依赖的网络节点的所有取值组合以及各个取值组合所对应的条件选择概率，纵轴表示某个节点所依赖的网络节点集合中的各个特定的节点以及各个特定的节点对所述节点的选择影响程度，所述选择影响程度也用一个条件选择概率表示；
[0020]步骤S2、在横轴方向，对所述节点所依赖的网络节点的所有取值组合进行环境的评估，利用环境的反馈信息和取值组合本身的知识，进行条件选择概率的更新；在纵轴方向，对所述节点所依赖的网络节点集合中的各个特定的节点进行环境的评估，利用环境的反馈信息和节点本身的知识，进行条件选择概率的更新；
[0021]步骤S3、在横轴方向，通过相关的学习过程之后，最后得到所述节点所依赖的网络节点的各个取值组合的条件选择概率；如果某些取值组合的条件选择概率小于第一阈值，那么认为所述取值组合的信息就是冗余的，将其从所述增强学习概率表中删除；在纵轴方向，通过相关的学习过程之后，最后得到所述节点所依赖的网络节点集合中的各个特定的节点的条件选择概率；如果某些节点的条件选择概率低于第二阈值，那么认为所述节点的信息是冗余的，将其从所述增强学习概率表中删除。
[0022]根据上述的基于增强学习算法的双层贝叶斯网络推理算法，其中:步骤S2中，在横轴方向，环境会根据取值组合的表现，给出奖励或惩罚的信息；如果某个取值组合的环境反馈为奖励，则将增加这个取值组合的概率，反之，如果某个取值组合的环境反馈为惩罚，则将减少这个取值组合的概率。
[0023]进一步地，根据上述的基于增强学习算法的双层贝叶斯网络推理算法，其中:如果当前的推理取值组合的评估值优于当前的最优推理取值组合的评估值，则环境反馈为奖励；反之，环境反馈为惩罚。
[0024]根据上述的基于增强学习算法的双层贝叶斯网络推理算法，其中:步骤S2中，在纵轴方向，环境根据节点的表现，给出奖励或惩罚的信息；如果某个节点的环境反馈为奖励，则将增加这个节点的概率，反之，如果某个节点的环境反馈为惩罚，则将减少这个节点的概率。
[0025]进一步地，根据上述的基于增强学习算法的双层贝叶斯网络推理算法，其中:如果当前的推理节点的评估值优于当前的最优推理节点的评估值，则环境反馈为奖励；反之，环境反馈为惩罚。
[0026]根据上述的基于增强学习算法的双层贝叶斯网络推理算法，其中:在双层贝叶斯网络中，假定R为顶层贝叶斯网络节点与底层贝叶斯网络集合间的对应关系，其中，Rij代表顶层贝叶斯网络中第i个节点和底层贝叶斯网络集合中第j个元素之间的对应关系，则i节点的状态值必须与第j个贝叶斯网络根节点的状态值相同。
[0027]如上所述，本发明的基于增强学习算法的双层贝叶斯网络推理算法，具有以下有益效果:
[0028](I)通过对不确定信息进行分级，并得到其概率信度值，可以将得到的双层贝叶斯网络进行简化，使其更利于实现和推理；
[0029](2)能将多余的冗余信息进行剔除，只保留里面对推理最有用的信息，从而使得该算法更加的准确和精准。

【专利附图】

【附图说明】
[0030]图1显示为本发明的双层贝叶斯网络的模型示意图；
[0031]图2显示为本发明的基于增强学习算法的双层贝叶斯网络推理算法的过程示意图。

【具体实施方式】
[0032]以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的【具体实施方式】加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。
[0033]需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
[0034]本发明将传统的复杂网络优化问题进行了简化，并建立一个双层贝叶斯网络推理模型。在该双层贝叶斯网络推理模型中，为表示具有一定逻辑关系的层次结构，双层贝叶斯网络包括顶层和底层，并使用贝叶斯网络来描述网络节点之间的对应关系。
[0035]该双层贝叶斯网络(Hybrid Bayesian Networks, HBN)结构采用三元组表示:HBN= {G，T，R}，定义如下:
[0036](I)G为整体贝叶斯网络结构，即顶层贝叶斯网络；
[0037](2) T为G中节点所对应的替换贝叶斯网络集合，即底层贝叶斯网络的集合，若G中的节点没有可对应的贝叶斯网络，则T为空；
[0038](3)R为顶层贝叶斯网络节点与T中底层贝叶斯网络间的对应关系，其中，Rij代表了 G中第i个节点和集合T中第j个元素之间的对应关系，且要求i节点的状态值与第j个贝叶斯网络根节点的状态值相同。
[0039]可以看出，该双层贝叶斯网络模型HBN与一般贝叶斯网络的区别在于:其中某些节点对应了另一个贝叶斯网络。在应用该模型时，可以用T代替顶层贝叶斯网络G中的节点。因此，采用双层的贝叶斯网络模型进行状态分析时，可以通过底层贝叶斯网络集合T中的贝叶斯网络完成信息的收集和分析，并按照条件依赖关系R将不同网络实体与顶层结构进行连接，从而动态构建贝叶斯网络。
[0040]在本发明的基于增强学习算法的双层贝叶斯网络推理中，节点证据可分为两大类:(I)具体证据，即能够确定节点为某一取值状态；(2)不确定证据，以不定性表示节点的具体取值。若贝叶斯网络节点i的某一证据e为不确定证据，该不确定证据可表示为条件选择概率。由此可知，底层贝叶斯网络和顶层贝叶斯网络节点进行连接时，实际上是把底层贝叶斯网络实体所获得的证据和信息赋给了顶层贝叶斯网络。由于该底层贝叶斯网络根节点的状态值与顶层节点的状态值相同，因此，可以将底层贝叶斯网络节点的推理结果作为不确定证据，输入到相应顶层贝叶斯网络节点。即采用双层贝叶斯网络完成对双层贝叶斯网络节点的不确定信息的分级表示，以此动态构建双层贝叶斯网络结构，并将此不确定信息作为证据输入贝叶斯网络中进行推理，最后得到概率信度值。
[0041]但是，在实际操作该双层贝叶斯网络模型HBN时，动态地置换贝叶斯网络节点会使顶层贝叶斯网络结构变得越来越复杂，并且每个节点对应的条件依赖表也将呈指数级的增长，造成维护的成本增高，并降低推理的效率和准确度。此外，若对同一节点分别置换不同的贝叶斯网络又很容易造成网络结构的混乱，这些都为推理带来一定的困难。
[0042]为解决上述的问题和困难，本发明基于增强学习的算法来解决动态构建贝叶斯网络的推理问题。因为在这个过程中，在将不确定信息输入贝叶斯网络进行推理，得到相关的概率信度值是个关键的步骤，该概率信度值的存在将决定不确定信息的可信度，其中高可信的信息应保留在贝叶斯网络中，进行更精确的推理；而低可信的信息应该抛弃，因为它们的存在将严重地影响贝叶斯网络的精确推理。因此，在双层贝叶斯网络模型中采用增强学习的算法可以在推理的过程中对这些不确定信息进行学习和判断，并对其进行分级，得到其概率信度值。
[0043]参照图1，本发明的双层贝叶斯网络中，第一层是顶层贝叶斯网络，它表示一个较粗粒度的节点或某个问题的层次化后的子问题以及它们之间的关联，图中是由A、B、C、D、E来表示相关的节点变量，其中节点C、D条件依赖于节点A，节点E条件依赖于节点B，而节点A和E之间时相互独立的。而第二层表示顶层贝叶斯网络节点所对应的底层贝叶斯网络。它表示一个较细粒度的节点或某个问题的层次化后的另一个子问题以及它们之间的关联。图中是由1、2、3、4来表示相关的节点变量，其中节点2、3、4条件依赖于节点I。整个第二层的贝叶斯网络可以将第一层中的节点E替换，由此来表示这两层之间的关系是通过节点E来进行关联的。对应到某个现实的问题就是，某个要解决的问题是可以进行层次化表示，并可简单地拆分成双层结构，每层代表问题的一个子问题，并用节点表示子问题的变量，然后通过在不同层次构建相应的贝叶斯网络来表示这些节点之间的关联和依赖程度。但是这些子问题之间并不是相互独立的。它们之间是通过某个节点或某些节点进行关联的。这个节点或某些节点称之为“关键节点”，如节点E。通过将这些节点进行替换，可以得到一个表示全局变量之间依赖和独立关系的贝叶斯网络模型。
[0044]参照图2，顶层的节点D被底层的贝叶斯网络所替代，相当于底层贝叶斯网络中的节点I条件依赖于节点A，故节点I的取值是受到节点A所影响的，即P (I |A)，底层贝叶斯网络中的节点2、3、4的取值是受到节点I取值的影响的，它们条件依赖于节点1，即P (2，3，4|1)。
[0045]同样，底层贝叶斯网络中的节点5的取值是受到节点2，3，4取值的影响的，它们条件依赖于节点2，3，4，即p(5|2，3，4)。节点5的条件依赖表如图2中的表格所示。其中该条件依赖表的横轴表示节点5的父节点2，3，4的所有取值组合以及各个取值组合所对应的条件选择概率，纵轴表示单个节点2，3，4，以及各个节点本身对节点5的选择影响程度，该选择影响程度也用一个条件选择概率表示。此处为了简化问题描述，每个节点条件选择概率的取值范围为[0，I]。通过对上述条件依赖表进行增强学习，可使得该双层贝叶斯网络模型中的某些变量或某些变量的信息可以被剔除。
[0046]下面结合图2中的具体实施例详细说明本发明的基于增强学习算法的双层贝叶斯网络推理算法，具体步骤如下:
[0047]步骤S1、通过双层贝叶斯网络模型中的贝叶斯网络节点的替换，得到相关节点的条件依赖表，并在横轴和纵轴两个方向建立相关节点的增强学习概率表，该增强学习概率表的初始化表格就是条件依赖表，因为每个节点都有条件依赖表，故该模型中的每个节点也都对应一个增强学习概率表。增强学习概率表与前面提到的条件依赖表虽然在表现形式上是一样的，但是它们所表示的物理意义是不同的，条件依赖表是表示贝叶斯网络中节点的依赖程度，而增强学习概率表表示的是增强学习算法所要更新的概率值。在增强学习概率表中，横轴表示的是某个节点所依赖的网络节点的所有取值组合以及各个取值组合所对应的条件选择概率向量，纵轴表示的是某个节点所依赖的网络节点集合中的各个特定的节点以及各个特定的节点对该节点的选择影响程度，该选择影响程度也用一个条件选择概率向量表示。故横轴和纵轴分别对应的是节点冗余的信息和节点本身，可通过增强学习的策略来对多余的节点冗余的信息和节点本身进行剔除。在横轴方向，节点5是条件依赖于节点2，3，4，故其条件选择概率向量有23=8个组合条目，表示为{pl，p2，…，p8}，它们的初始概率都是相同的。由于并没有任何的先验知识，故它们的取值是相同的，都为1/8。在纵轴方向，节点5是条件依赖于节点2，3，4，故其条件选择概率向量有3个条目，表示为{P1，P2，P3}，它们的初始概率也都是相同的，同样由于没有任何的先验知识，故它们的取值是相同的，都为1/3。
[0048]步骤S2、在横轴方向，对上述8个取值组合进行环境的评估，利用环境的反馈信息和取值组合本身的知识，进行条件选择概率的更新。环境会根据取值组合的表现，给出奖励或惩罚的信息。如果某个取值组合的环境反馈为奖励，则将增加这个取值组合的概率，反之，如果某个取值组合的环境反馈为惩罚，则将减少这个取值组合的概率。具体地，如果当前的推理取值组合的评估值优于当前的最优推理取值组合的评估值，则环境反馈为奖励；反之，环境反馈为惩罚。
[0049]在纵轴方向，对上述3个节点进行环境的评估，利用环境的反馈信息和节点本身的知识，进行统概率的更新。环境会根据节点的表现，给出奖励或惩罚的信息。如果某个节点的环境反馈为奖励，则将增加这个组合的概率，反之，如果某个节点的环境反馈为惩罚，则将减少这个节点的概率。具体地，如果当前的推理节点的评估值优于当前的最优推理节点的评估值，则环境反馈为奖励；反之，环境反馈为惩罚。
[0050]步骤S3、在横轴方向，通过相关的学习过程之后，最后得到各个取值组合的条件选择概率向量10.145，0.145，...,0.005，0.005}。如果某些取值组合的选择概率小于某个阈值，比如是0.008，那么我们认为这些取值组合的信息就是冗余的，应该从这个增强学习概率表中删除，如图2中所选中的组合。
[0051]在纵轴方向，通过相关的学习过程之后，最后得到各个节点的条件选择概率向量为{0.45，0.45，0.1}。如果某些节点的条件选择概率低于某个阈值(该阈值的确定是通过大量的预实验中，让算法性能获得最优的一个取值，在此处设为0.008)，那么就认为这些节点的信息就是冗余的，它的存在并不能对该贝叶斯网的推理产生更好的影响，应该从增强学习概率表中删除，如图2中所选中的节点。
[0052]本发明通过通过上述的增强学习过程，我们可以将多余的节点冗余信息和节点本身进行剔除，得到最终的简化图，其中的第二层节点4是可以从该网络中剔除的，在此处，剔除的节点及其与其他节点的联系用虚线进行表示，从而可以深度地简化该双层贝叶斯网络结构，使得推理更加的准确和可靠，也提升了推理的运算效率。
[0053]综上所述，本发明的基于增强学习算法的双层贝叶斯网络推理算法通过建模双层网络参数之间的概率依赖关系，根据已知网络状态推理分析后续网络状态，并采用增强学习的算法对推理的过程中所获取的网络节点的不确定信息进行学习和判断，进而对其进行分级，得到其概率信度值，进一步将得到的双层贝叶斯网络模型进行简化，只保留其中对推理最有用的信息，使其更利于实现和精准推理。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0054]上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属【技术领域】中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。
【权利要求】
1.一种基于增强学习算法的双层贝叶斯网络推理算法，其特征在于，所述双层贝叶斯网络包括顶层贝叶斯网络、底层贝叶斯网络集合以及顶层贝叶斯网络节点与底层贝叶斯网络集合间的对应关系；所述基于增强学习算法的双层贝叶斯网络推理算法至少包括以下步骤: 步骤S1、通过双层贝叶斯网络模型中的贝叶斯网络节点的替换，得到相关节点的条件依赖表，进而在横轴和纵轴两个方向建立相关节点的增强学习概率表，初始化的增强学习概率表即为所述条件依赖表，其中，所述横轴表示某个节点所依赖的网络节点的所有取值组合以及各个取值组合所对应的条件选择概率，纵轴表示某个节点所依赖的网络节点集合中的各个特定的节点以及各个特定的节点对所述节点的选择影响程度，所述选择影响程度也用一个条件选择概率表示；步骤S2、在横轴方向，对所述节点所依赖的网络节点的所有取值组合进行环境的评估，利用环境的反馈信息和取值组合本身的知识，进行条件选择概率的更新；在纵轴方向，对所述节点所依赖的网络节点集合中的各个特定的节点进行环境的评估，利用环境的反馈信息和节点本身的知识，进行条件选择概率的更新；步骤S3、在横轴方向，通过相关的学习过程之后，最后得到所述节点所依赖的网络节点的各个取值组合的条件选择概率；如果某些取值组合的条件选择概率小于第一阈值，那么认为所述取值组合的信息就是冗余的，将其从所述增强学习概率表中删除；在纵轴方向，通过相关的学习过程之后，最后得到所述节点所依赖的网络节点集合中的各个特定的节点的条件选择概率；如果某些节点的条件选择概率低于第二阈值，那么认为所述节点的信息是冗余的，将其从所述增强学习概率表中删除。
2.根据权利要求1所述的基于增强学习算法的双层贝叶斯网络推理算法，其特征在于:步骤S2中，在横轴方向，环境会根据取值组合的表现，给出奖励或惩罚的信息；如果某个取值组合的环境反馈为奖励，则将增加这个取值组合的概率，反之，如果某个取值组合的环境反馈为惩罚，则将减少这个取值组合的概率。
3.根据权利要求2所述的基于增强学习算法的双层贝叶斯网络推理算法，其特征在于:如果当前的推理取值组合的评估值优于当前的最优推理取值组合的评估值，则环境反馈为奖励；反之，环境反馈为惩罚。
4.根据权利要求1所述的基于增强学习算法的双层贝叶斯网络推理算法，其特征在于:步骤S2中，在纵轴方向，环境根据节点的表现，给出奖励或惩罚的信息；如果某个节点的环境反馈为奖励，则将增加这个节点的概率，反之，如果某个节点的环境反馈为惩罚，则将减少这个节点的概率。
5.根据权利要求4所述的基于增强学习算法的双层贝叶斯网络推理算法，其特征在于:如果当前的推理节点的评估值优于当前的最优推理节点的评估值，则环境反馈为奖励；反之，环境反馈为惩罚。
6.根据权利要求1所述的基于增强学习算法的双层贝叶斯网络推理算法，其特征在于:在双层贝叶斯网络中，假定R为顶层贝叶斯网络节点与底层贝叶斯网络集合间的对应关系，其中，Rij代表顶层贝叶斯网络中第i个节点和底层贝叶斯网络集合中第j个元素之间的对应关系，则i节点的状态值必须与第j个贝叶斯网络根节点的状态值相同。
【文档编号】G06N5/04GK104299036SQ201310307121
【公开日】2015年1月21日申请日期:2013年7月19日优先权日:2013年7月19日
【发明者】李捷, 褚灵伟, 董晨, 陆肖元申请人:上海宽带技术及应用工程研究中心

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李捷;褚灵伟;董晨;陆肖元
技术所有人：上海宽带技术及应用工程研究中心
我是此专利的发明人

上一篇：基于网络连接的身份识别系统及方法
上一篇：一种解锁应用程序的方法、装置及智能终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。