一种无先验知识条件下基于小数据集的贝叶斯网络参数学习方法与流程

文档序号:16001012发布日期:2018-11-20 19:27阅读:1201来源:国知局

本发明属于计算机技术领域,涉及一种无先验知识条件下基于小数据集的贝叶斯网络参数学习方法,可用于无先验认知条件下的针对实际问题的贝叶斯网络参数建模和数据分析。



背景技术:

贝叶斯网络是图论和概率论相结合的产物,有着强大的理论基础,已经成为处理不确定问题的主流方法。在工业界,作为贝叶斯网络的积极倡导者之一,微软已在其office软件的帮助系统中成功采用贝叶斯网络,以期为用户提供更好的服务。而在学术界,《Science》和《Nature》多次刊登相关的研究论文对贝叶斯网络予以介绍,人工智能领域的一系列顶级期刊(Artificial Intelligence、Journal of Machine Learning Reasearch等)和顶级会议(IJCAI、ICML、UAI和AISTATS等)中有关贝叶斯网络的论文也常年维持着较高的水平。在实际的问题中,数据是决定贝叶斯网络模型优劣的关键。一般来说,数据越充足,构建的贝叶斯网络越精确。遗憾的是,它与所要构建模型的精度密切相关,要获得完全准确的模型所需的“充分”数据量一般难以得到。一方面,某些领域可获得的数据比较少或者数据的代价比较昂贵,例如,地质灾害预测、罕见疾病诊断、装备故障诊断以及作战指挥决策等。另一方面,数据量的增加是一个逐渐积累的过程,数据量的积累是一个由小变大、由少变多的过程,所以数据量必然会经历不充分的阶段。再者,在某些特定场合不得不在数据不充分的条件下完成决策。例如,在一些作战过程中,为了达到“先敌决策、先敌打击”的战术目的,不得不在数据尚不充分的条件下尽早做出较为正确的决策。

针对基于小数据集的贝叶斯网络参数学习问题,由于小数据集使得统计信息不准确,使得基于统计的方法都已失效。目前,主流的方法是通过引入专家知识来弥补数据量的不足,例如,郭志高等在文献《小数据集条件下基于双重约束的BN参数学习》中研究了在双重约束条件下的参数学习方法。柴慧敏等在文献《一种融合专家先验知识的贝叶斯网络参数学习方法》中研究了在参数先验知识表示为正态分布时的参数学习方法。以上文献表明,参数学习的过程必须要有专家知识的支撑。然而,当专家对一个实际问题没有认知或者经验的情况下,如何能够保证参数学习的效果。本发明旨在给出一种无先验约束条件下的基于小数据集的参数学习方法。



技术实现要素:

本发明提供了一种无先验约束条件下基于小数据集的贝叶斯网络参数学习方法。具体包含以下几个步骤:

步骤1:获取数据统计量:

在小数据集条件下,通过统计获取参数学习所需的对应的状态统计量Nijk和Nij,为之后具体的参数计算做准备。其中,Nijk表示数据集中节点i取值为k,且其父节点取值为j的样本个数,Nij为数据集中节点i的父节点取值为j的样本个数。

步骤2:根据小数据集的数据量和待求参数的状态个数确定虚拟样本量:

设待求参数为θijk,其中k有r种取值状态,设数据量为N,则

Nneed=n2logn2lognm+1 (1)

α1=α2=L=αr=Nneed-N (2)

其中,n为网络节点个数,m为网络种的最大父节点数,Nneed为学习网络参数所需的样本量可由公式(1)计算得到,α1,α2Kαr分别表示同一分布条件下,即父节点取值相同时的一组参数对应的虚拟样本量。

步骤3:利用最大似然估计方法计算待求的参数,具体通过利用公式(3)求解:

步骤4:对同一分布条件下的参数进行排序,找出较小的参数;

步骤5:根据步骤4得到的同一分布条件下的参数大小排序,设所得参数排序为按照从小到大的顺序分别利用公式(4)计算贝叶斯网络参数,其中表示同一分布条件下的参数:

本发明的有益效果:在本发明针对无先验知识时小数据集条件下的贝叶斯网络参数问题,通过在引入虚拟统计量来提高小数据集条件下的参数学习精度,克服了现有方法对先验知识的依赖问题,不仅为小数据集条件下的参数学习问题提供了一条可行的解决途径,而且也为其它领域中的小数据集建模问题提供了可参考的方法,具有较为广泛的应用前景。

附图说明

图1用于仿真计算贝叶斯网络结构;

图2本文算法与最大似然估计方法所得节点B参数的欧式距离比较示意图;

图3本文算法与最大似然估计方法所得节点C参数的欧式距离比较示意图。

具体实施方式

根据已有贝叶斯网络的拓扑结构和节点状态待求的贝叶斯网络参数,用于仿真的贝叶斯网络拓扑结构如图1所示,其中变量都为二值变量,取值为0和1。进而得到待求的参数为公式(5)和(6)所示。

本实施例中,针对一个具体的贝叶斯网络参数学习问题利用本算法进行实施,具体实施过程如下:

步骤1根据待求的参数和样本数据统计得到相应的统计量,结果如公式(7)所示。

步骤2在已知贝叶斯网络结构的基础上,利用公式(1)、(2)和(7)计算每个参数对应的虚拟样本数,结果如公式(8)和(9)所示。

Nneed=32×log32×log32≈8.1952≈8 (8)

α1=α2=L=α4=Nneed-N=8-6=2 (9)

步骤3利用最大似然估计求取贝叶斯网络的参数,结果如公式10所示。

步骤4根据最大似然估计所得的参数,得到同一分布参数之间的大小关系。结果如公式(12)和(13)所示。

步骤5根据最大似然估计所得的参数和同一分布的参数的大小关系,结合公式(4)求取贝叶斯网络参数。

为了说明本发明在无先验知识时学习贝叶斯网络参数的优越性,利用同一分布条件下参数与真实分布之间的欧氏距离作为评价指标,即哪种算法所得的参数与真实值的距离越近,说明其精度越高。

图2和3分别给出了本实施例中算法所得参数与最大似然估计方法所得参数的欧式距离对比,图中方块点表示本文算法所得参数,五角形点表示真实参数,圆形点表示最大似然估计所得参数,明显可以看出本文算法所得参数与真实参数距离更近,说明本文算法的学习精度较高。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1