贝叶斯网络结构学习方法、装置、设备及存储介质与流程

文档序号:33472608发布日期:2023-03-15 08:59阅读:113来源:国知局
贝叶斯网络结构学习方法、装置、设备及存储介质与流程

1.本发明涉及网络结构学习技术领域,尤其涉及一种贝叶斯网络结构学习方法、装置、设备及存储介质。


背景技术:

2.卵巢癌是临床上常见的妇科癌症,由于卵巢癌患者确诊时往往已是癌症晚期,因此卵巢癌的病死率较高,在妇科肿瘤中排首位。大多数患者在化疗初期取得良好的效果,但是在接下来的治疗中患者常出现不同程度的抗化疗反应,因此,迫切需要研究卵巢癌化疗敏感性的内在机制。贝叶斯网络(bayesian networks,bn)作为一种概率图形模型(probabilisticgraphical models,pgms),具有发现变量间依赖关系的能力,是揭示疾病潜在机制的有效工具。
3.现有的方案中可以通过本领域专家参与构建关于卵巢癌的基因表达数据的贝叶斯网络结构,但专家构建贝叶斯网络通常较困难,且在贝叶斯网络结构节点多以及网络结构较复杂时,容易导致贝叶斯网络结构学习的准确度低。
4.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

5.本发明的主要目的在于提供了一种贝叶斯网络结构学习方法、装置、设备及存储介质,旨在解决现有技术中在贝叶斯网络结构节点多以及网络结构较复杂时,贝叶斯网络结构学习的准确度低的技术问题。
6.为实现上述目的,本发明提供了一种贝叶斯网络结构学习方法,所述方法包括以下步骤:对目标数据集进行重抽样处理,获得若干个bootstrap数据集,所述目标数据集为卵巢癌患者基因表达谱数据和健康对照数据,所述重抽样处理为从所述目标数据集中抽取数据后再放回所述目标数据集进行下一次抽样处理;对各bootstrap数据集进行学习,获得所述bootstrap数据集对应的贝叶斯网络;基于预设得分函数从所述贝叶斯网络中确定目标贝叶斯网络结构。
7.可选地,所述基于预设得分函数从所述贝叶斯网络中确定目标贝叶斯网络结构的步骤,包括:基于预设得分函数确定所述贝叶斯网络对应的得分;基于所述得分和贪婪爬山法对所述贝叶斯网络进行搜索,并根据搜索结果确定目标贝叶斯网络结构。
8.可选地,所述基于所述得分和贪婪爬山法对所述贝叶斯网络进行搜索,并根据搜索结果确定目标贝叶斯网络结构的步骤,包括:基于所述得分和贪婪爬山法对所述贝叶斯网络进行搜索;
在所述贪婪爬山法处于局部最优状态时,对所述贝叶斯网络中的边进行预设调整;在调整完成时,继续对所述贝叶斯网络进行搜索;在搜索次数达到预设次数阈值时,获取得分最高的贝叶斯网络结构;基于所述得分最高的贝叶斯网络结构确定目标贝叶斯网络结构。
9.可选地,所述基于所述得分最高的贝叶斯网络结构确定目标贝叶斯网络结构的步骤,包括:获取所述得分最高的贝叶斯网络结构中任意两节点的连接频率;将所述连接频率与预设置信度阈值进行比较,并根据比较结果获取目标连接边;基于所述目标连接边确定目标贝叶斯网络结构。
10.可选地,所述将所述连接频率与预设置信度阈值进行比较,并根据比较结果获取目标连接边的步骤,包括:将所述连接频率与预设置信度阈值进行比较;在所述连接频率不低于所述预设置信度阈值时,获取所述连接频率对应的节点对,并根据所述节点对确定目标连接边。
11.可选地,所述对各bootstrap数据集进行学习,获得所述bootstrap数据集对应的贝叶斯网络的步骤之后,还包括:基于bootstrap方法确定所述贝叶斯网络中任意两节点的目标连接频率;将所述目标连接频率与预设阈值进行比较,并根据比较结果获取所述贝叶斯网络对应的网络评价结果。
12.可选地,所述预设得分函数包括:bic得分函数;所述基于预设得分函数确定所述贝叶斯网络对应的得分的步骤,包括:获取所述目标数据集的数据总例数和所述贝叶斯网络的参数个数;基于所述数据总例数、所述参数个数和所述bic得分函数确定所述贝叶斯网络对应的得分。
13.此外,为实现上述目的,本发明还提出一种贝叶斯网络结构学习装置,所述装置包括:数据集处理模块,用于对目标数据集进行重抽样处理,获得若干个bootstrap数据集,所述目标数据集为卵巢癌患者基因表达谱数据和健康对照数据,所述重抽样处理为从所述目标数据集中抽取数据后再放回所述目标数据集进行下一次抽样处理;数据集学习模块,用于对各bootstrap数据集进行学习,获得所述bootstrap数据集对应的贝叶斯网络;网络结构确定模块,用于基于预设得分函数从所述贝叶斯网络中确定目标贝叶斯网络结构。
14.此外,为实现上述目的,本发明还提出一种贝叶斯网络结构学习设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的贝叶斯网络结构学习程序,所述贝叶斯网络结构学习程序配置为实现如上文所述的贝叶斯网络结构学习方法的步骤。
15.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有贝叶
斯网络结构学习程序,所述贝叶斯网络结构学习程序被处理器执行时实现如上文所述的贝叶斯网络结构学习方法的步骤。
16.在本发明中,公开了对目标数据集进行重抽样处理,获得若干个bootstrap数据集,目标数据集为卵巢癌患者基因表达谱数据和健康对照数据,重抽样处理为从目标数据集中抽取数据后再放回目标数据集进行下一次抽样处理;对各bootstrap数据集进行学习,获得bootstrap数据集对应的贝叶斯网络;基于预设得分函数从贝叶斯网络中确定目标贝叶斯网络结构;相较于现有技术通过领域专家参与构建目标系统的贝叶斯网络结构,由于本发明通过从目标数据集中抽取数据后再放回目标数据集进行下一次抽样处理以获得若干个bootstrap数据集,并通过对各bootstrap数据集进行学习获得其对应的贝叶斯网络,再基于得分函数从贝叶斯网络中确定目标贝叶斯网络结构,从而解决了现有技术中在贝叶斯网络结构节点多以及网络结构较复杂时,贝叶斯网络结构学习的准确度低的技术问题,提高了贝叶斯网络结构学习的准确度。
附图说明
17.图1为本发明实施例方案涉及的硬件运行环境的贝叶斯网络结构学习设备的结构示意图;图2为本发明贝叶斯网络结构学习方法第一实施例的流程示意图;图3为本发明贝叶斯网络结构学习方法第二实施例的流程示意图;图4为本发明贝叶斯网络结构学习方法第三实施例的流程示意图;图5为本发明贝叶斯网络结构学习装置第一实施例的结构框图。
18.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
19.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
20.参照图1,图1为本发明实施例方案涉及的硬件运行环境的贝叶斯网络结构学习设备结构示意图。
21.如图1所示,该贝叶斯网络结构学习设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram),也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
22.本领域技术人员可以理解,图1中示出的结构并不构成对贝叶斯网络结构学习设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
23.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及贝叶斯网络结构学习程序。
24.在图1所示的贝叶斯网络结构学习设备中,网络接口1004主要用于与网络服务器
进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明贝叶斯网络结构学习设备中的处理器1001、存储器1005可以设置在贝叶斯网络结构学习设备中,所述贝叶斯网络结构学习设备通过处理器1001调用存储器1005中存储的贝叶斯网络结构学习程序,并执行本发明实施例提供的贝叶斯网络结构学习方法。
25.本发明实施例提供了一种贝叶斯网络结构学习方法,参照图2,图2为本发明贝叶斯网络结构学习方法第一实施例的流程示意图。
26.本实施例中,所述贝叶斯网络结构学习方法包括以下步骤:步骤s10:对目标数据集进行重抽样处理,获得若干个bootstrap数据集,所述目标数据集为卵巢癌患者基因表达谱数据和健康对照数据,所述重抽样处理为从所述目标数据集中抽取数据后再放回所述目标数据集进行下一次抽样处理。
27.需要说明的是,本实施例的方法的执行主体可以为对贝叶斯网络进行结构学习的贝叶斯网络结构学习设备,或者是其他能够实现相同或相似功能的、包含了该贝叶斯网络结构学习设备的贝叶斯网络结构学习系统。此处以贝叶斯网络结构学习系统(以下简称系统)对本实施例和下述各实施例提供的贝叶斯网络结构学习方法进行具体说明。
28.应当理解的是,上述目标数据集可以为由进行贝叶斯网络构建的数据组成的数据集,本实施例对目标数据集的数据类别以及数据来源不加以限制。实际应用中,为了研究卵巢癌的分子生物学机制,可以通过对卵巢癌患者基因表达数据进行分析并构建贝叶斯网络,此时上述目标数据集可以为从tcga(the cancergenome atlas)数据库下载的卵巢癌患者基因表达谱数据,以及健康对照数据,其中,tcga数据库为基因测序的信息库,存储有多形性成胶质细胞瘤和卵巢癌的数据,包括病例临床基本信息,如基本资料、治疗进程、临床分期、肿瘤病理及生存状况等。
29.可以理解的是,上述重抽样处理为从目标数据集中抽取数据后再放回目标数据集进行下一次抽样处理的处理,即在目标数据集中抽取一批数据进行观察或记录等操作后,再将抽取的数据放回至目标数据集中,然后再抽取下一批数据进行观察或记录的连续抽取样本的处理,在重抽样过程中,进行抽样的对象(目标数据集)的数据数量在抽取的过程中始终没有减少,且目标数据集中的数据可以被重复抽取。
30.需要说明的是,上述bootstrap数据集可以为对目标数据集进行抽样处理后获得的数据集,本实施例中对目标数据集进行重抽样处理后可以获得多个bootstrap数据集,其中,bootstrap数据集的具体数量可以根据具体要求进行选择,本实施例对此不加以限制。实际应用中,可以每次从目标数据集中随机抽出100例样本作为结构学习的数据集,重复抽样后可以得到一百个数据集。
31.在具体实现中,若需要对卵巢癌患者基因表达数据进行分析并构建贝叶斯网络,并从网络中得出基因之间的调控关系,则首先可以从tcga数据库下载570例卵巢癌患者基因表达谱数据,以及8例健康对照数据,全基因组表达谱数据一共测得12042个基因的表达值,由于基因的数目过多,需要先筛选出与卵巢癌相关的基因,并将基因的表达数据作为目标数据集,在对基因的表达数据进行重抽样处理,以获得多个bootstrap数据集。
32.步骤s20:对各bootstrap数据集进行学习,获得所述bootstrap数据集对应的贝叶斯网络。
33.应当理解的是,上述贝叶斯网络可以为对bootstrap数据集进行学习后获得的可
以代表和反映数据中变量关系的网络。其中,贝叶斯网络是一种概率图形模型,它以有向无环图的形式反映一组变量之间潜在的依赖和独立关系,贝叶斯网络由网络结构部分和概率参数部分组成,其网络结构部分为一个有向无环图,图中的节点代表随机变量,节点之间的有向边表示变量之间的依赖关系;其概率参数部分为一组条件概率分布,反映着变量间依赖关系的强度。
34.在具体实现中,由于贝叶斯网络是对多变量间相互影响与作用的分析,实际问题中变量往往比较复杂,且数目庞大,直接将所有变量纳入网络的构建,不仅会增加运算的复杂度,而且所构建的网络模型过于复杂,变量间相互作用的含义无法解释,甚至由于混杂因素导致得出错误的无法合理解释其生物学含义的结构。因此,在建立网络前,需要对变量进行预处理,根据研究目的选择较为有价值的变量构建网络模型,并确定这些变量的取值范围,离散型变量为其所有可能发生的状态,连续型变量即为其值域。在确定需要分析的变量以及取值范围后,需要确定相应的网络结构,即通过对给定的样本数据集进行学习,从大量结构中选出最能代表和反映数据中变量关系的网络结构,即可获得bootstrap数据集对应的贝叶斯网络。
35.步骤s30:基于预设得分函数从所述贝叶斯网络中确定目标贝叶斯网络结构。
36.需要说明的是,上述预设得分函数可以为衡量贝叶斯网络与数据的匹配程度的函数。实际应用中,按照得分函数的基本原理可以分为带惩罚项的似然函数和贝叶斯得分函数,其中,带惩罚项的似然函数可以为:akaike信息准则(akaike’s information criteria,aic)和贝叶斯信息准则(bayesian information criteria,bic);贝叶斯得分函数可以为bde得分(bayesian dirichlet equivalent,bde),本实施例对此不加以限制。
37.应当理解的是,上述目标贝叶斯网络结构可以为通过预设得分函数确定贝叶斯网络的得分后从贝叶斯网络中选取的得分最高的网络结构。实际应用中,预设得分函数可以通过定义一个得分方程用以评价不同结构的网络对数据的拟合程度,得分越高表示网络结构对数据的拟合得好,从而可以选择得分最高的网络结构作为上述目标贝叶斯网络结构。
38.进一步地,为了基于预设得分函数确定目标贝叶斯网络结构,上述步骤s30具体包括:步骤s301:基于预设得分函数确定所述贝叶斯网络对应的得分;步骤s302:基于所述得分和贪婪爬山法对所述贝叶斯网络进行搜索,并根据搜索结果确定目标贝叶斯网络结构。
39.可以理解的是,上述贪婪爬山法可以为对贝叶斯网络进行搜索的算法,贪婪爬山法是向值增加的方向持续移动到简单循环过程,算法在到达一个“峰顶”时终止,此时相邻状态中没有比该“峰顶”更高的值。
40.在具体实现中,可以采用上述预设得分函数来评价bootstrap数据集对应的贝叶斯网络的拟合程度,即获取贝叶斯网络对应的得分,以确定最优网络,再通过贪婪爬山法基于贝叶斯网络的得分进行搜索,获得得分最高的目标贝叶斯网络结构。
41.进一步地,为了对构建的贝叶斯网络进行评价,上述步骤s10之后,上述方法还包括:基于bootstrap方法确定所述贝叶斯网络中任意两节点的目标连接频率;将所述目标连接频率与预设阈值进行比较,并根据比较结果获取所述贝叶斯网络对应的网络评价结果。
42.需要说明的是,上述bootstrap方法可以为获取贝叶斯网络中任意两节点相是否相连网络的频率(即上述目标连接频率)的方法。
43.应当理解的是,上述预设阈值可以为预先设定的判断贝叶斯网络中的边为阳性或
阴性的值,其中,若目标连接频率大于预设阈值,则为阳性;若目标连接频率小于预设阈值,则为阴性。
44.在具体实现中,在将贝叶斯网络中所有特征标记上阳性和阴性后,就可以确定真阳性的特征数目,即出现在真实网络中的阳性特征个数,假阳性即为未出现在真实网络中的阳性特征个数,以及假阴性表示出现在真实网络中的阴性特征个数,真阴性表示阴性特征不存在于真实网络中的个数。此外,还可以进行灵敏度和准确度的计算,其中,灵敏度的计算是真实网络中的特征有多少比例出现在结果网络中,准确度的计算是结果网络中有多少比例的特征是真实的。在确定贝叶斯网络中真阳性数目、假阳性数目、假阴性数目、真阴性数目、灵敏度、特异度和准确度后,即获取了贝叶斯网络对应的网络评价结果,从而实现了对构建的贝叶斯网络的评价。
45.本实施例公开了对目标数据集进行重抽样处理,获得若干个bootstrap数据集,目标数据集为卵巢癌患者基因表达谱数据和健康对照数据,重抽样处理为从目标数据集中抽取数据后再放回目标数据集进行下一次抽样处理;对各bootstrap数据集进行学习,获得bootstrap数据集对应的贝叶斯网络;基于预设得分函数从贝叶斯网络中确定目标贝叶斯网络结构;相较于现有技术通过领域专家参与构建目标系统的贝叶斯网络结构,由于本实施例通过从目标数据集中抽取数据后再放回目标数据集进行下一次抽样处理以获得若干个bootstrap数据集,并通过对各bootstrap数据集进行学习获得其对应的贝叶斯网络,再基于得分函数从贝叶斯网络中确定目标贝叶斯网络结构,从而解决了现有技术中在贝叶斯网络结构节点多以及网络结构较复杂时,贝叶斯网络结构学习的准确度低的技术问题,提高了贝叶斯网络结构学习的准确度。
46.参考图3,图3为本发明贝叶斯网络结构学习方法第二实施例的流程示意图。
47.基于上述第一实施例,为了避免贪婪爬山法陷入局部最优,本实施例中,所述步骤s302包括:步骤s311:基于所述得分和贪婪爬山法对所述贝叶斯网络进行搜索。
48.步骤s312:在所述贪婪爬山法处于局部最优状态时,对所述贝叶斯网络中的边进行预设调整。
49.需要说明的是,上述局部最优状态可以指当前状态的估价函数值比自己的所有后继状态的估价函数值都要低,但是当前状态的估价函数值比全局最优解的估价函数值要高。
50.应当理解的是,上述预设调整可以为对贝叶斯网络中的边进行添加、删除和反向等调整。
51.在具体实现中,若使用贪婪爬山法对贝叶斯网络进行搜索,则此过程可以尝试寻找能使得分提高最多的网络结构,直到结构的改变无法继续提高得分为止,在贪婪爬山法到达局部最优的状态时,通常无法从局部最优中摆脱,无更好的路可走,此时可以随机扰动网络结构中的边并重新开始搜索,以打破当前状态。
52.步骤s313:在调整完成时,继续对所述贝叶斯网络进行搜索。
53.可以理解的是,在对贝叶斯网络中的边进行添加、删除和反向的调整后,可以打破贪婪爬山法处于的局部最优状态,此时可以继续对贝叶斯网络进行搜索。
54.步骤s314:在搜索次数达到预设次数阈值时,获取得分最高的贝叶斯网络结构。
55.需要说明的是,上述预设次数阈值可以为预先设定的最大搜索次数。实际应用中,在完成预设次搜索后可以终止搜索,并选出得分最高的贝叶斯网络结构作为搜索结果。
56.步骤s315:基于所述得分最高的贝叶斯网络结构确定目标贝叶斯网络结构。
57.应当理解的是,上述步骤s315具体包括:获取所述得分最高的贝叶斯网络结构中任意两节点的连接频率;将所述连接频率与预设置信度阈值进行比较,并根据比较结果获取目标连接边;基于所述目标连接边确定目标贝叶斯网络结构。
58.可以理解的是,上述连接频率可以为得分最高的贝叶斯网络结构中任意两节点是否相连网络的频率。
59.需要说明的是,上述预设置信度阈值可以为判断两节点是否相连的频率值。
60.应当理解的是,上述将所述连接频率与预设置信度阈值进行比较,并根据比较结果获取目标连接边的步骤,具体包括:将所述连接频率与预设置信度阈值进行比较;在所述连接频率不低于所述预设置信度阈值时,获取所述连接频率对应的节点对,并根据所述节点对确定目标连接边。
61.可以理解的是,若两节点的连接频率大于或等于(即不低于)预设置信度阈值,则表示这两个节点相连;若两节点的连接频率小于阈值置信度阈值,则表示这两个节点不相连。因此,通过将得分最高的贝叶斯网络结构中任意两节点的连接频率与预设置信度阈值进行比较,根据其比较结果可以获取所有不低于预设置信度阈值的连接频率,再获取这些连接频率对应的节点对,通过这些节点对即可获取贝叶斯网络结构中的所有连接边(即上述目标连接边),从而基于目标连接边确定目标贝叶斯网络结构。
62.在具体实现中,可以基于信息准则的bic得分函数确定各贝叶斯网络对应的得分,获取各贝叶斯网络对应的得分后可以根据其得分对最优贝叶斯网络进行搜索,其中,贝叶斯网络的搜索过程可以采用贪婪爬山法。在贪婪爬山法处于局部最优状态无法从局部最优中摆脱时,可以对贝叶斯网络结构中的边进行添加、删除和反向的调整,在调整完成后继续进行随机搜索,在搜索次数达到预设搜索次数后终止搜索,并选择得分最高的贝叶斯网络结构作为搜索结果,再获取得分最高的贝叶斯网络结构中任意两节点的连接频率,将该连接频率与预设置信度阈值进行比较,在连接频率大于或等于预设置信度阈值时,通过该连接频率对应的节点对确定贝叶斯网络结构中的所有连接边,并通过这些连接边确定目标贝叶斯网络结构。
63.本实施例中基于贝叶斯网络对应的得分和贪婪爬山法对贝叶斯网络进行搜索,在贪婪爬山法处于局部最优状态时,对贝叶斯网络中的边进行调整,以在调整完成时继续对贝叶斯网络进行搜索,在搜索次数达到预设次数时,获得得分最高的贝叶斯网络结构,并通过得分最高的贝叶斯网络结构确定目标贝叶斯网络结构;由于本实施例可以在贪婪爬山法陷入局部最优状态时对贝叶斯网络结构中的边进行调整并重新开始搜索,从而可以避免在贝叶斯网络结构学习时陷入局部最优,以获得最优的贝叶斯网络结构。
64.参考图4,图4为本发明贝叶斯网络结构学习方法第三实施例的流程示意图。
65.基于上述各实施例,为了通过预设得分函数确定贝叶斯网络对应的得分,本实施例中,所述步骤s301包括:步骤s321:获取所述目标数据集的数据总例数和所述贝叶斯网络的参数个数。
66.需要说明的是,上述数据总例数可以为目标数据集中的数据总数量。
67.应当理解的是,上述参数个数可以为贝叶斯网络中参数的数量。
68.步骤s322:基于所述数据总例数、所述参数个数和所述bic得分函数确定所述贝叶斯网络对应的得分。
69.可以理解的是,贝叶斯网络的得分可以通过bic得分函数确定。实际应用中,一般而言,bde得分函数的学习效果较aic得分函数和bic得分函数要好,由于aic得分函数对复杂网络的惩罚较为宽松,所以得出的网络具有较高的假阳性,bde得分函数虽然效果最好,但是在实际使用bde得分函数时还需要对其设置一个参数,即最小等价样本,因此,本实施例中可以使用bic得分函数,其与bde得分函数的效果相差不大,且不需要设置任何参数。
70.应当理解的是,贝叶斯网络对应的bic得分越大,构建的贝叶斯网络越好,其计算公式为:式中,bic score为bic得分,d为目标数据集,g为一个有向无环图,为一组量化网络的参数,d为所述参数个数,n为所述数据总例数。
71.需要说明的是,上述bic得分函数可以充分结合关于网络结构的先验知识,将网络结构d的先验联合概率表示为p(d),利用贝叶斯公式,给定训练样本集x时,结构d的侯艳联合概率为p(d|x),对应的bic得分函数定义为:式中,p(x)与网络结构d无关,logp(x|d)为边缘似然分布,是所有可能的参数组合对应的特定网络结构d所包含的所有节点的局部条件概率的平均,p(d)为所赋予的网络结构d的先验联合概率分布。
72.对于混合型的贝叶斯网络,常采用的先验联合概率分布为条件高斯分布(conditional gaussian distribution,cgd),对于假定的常用先验联合分布,bic得分函数渐近一致,即当数据的样本量足够大时总能够得出真实的网络结构,如果对所有可能的网络结构赋予一定的先验联合概率分布,并且有足够的样本量,贝叶斯网络结构学习就是基于数据找出一个最好的网络结构d’,这个网络结构可以是bic得分函数取得最大值s(d’|x),从而可以通过bic得分函数确定各贝叶斯网络的得分,并通过其得分确定最佳贝叶斯网络结构。
73.本实施例通过获取目标数据集的数据总例数和贝叶斯网络的参数个数,并基于数据总例数、参数个数和bic得分函数确定贝叶斯网络对应的得分,此外,本发明实施例还提出一种存储介质,所述存储介质上存储有贝叶斯网络结构学习程序,所述贝叶斯网络结构学习程序被处理器执行时实现如上文所述的贝叶斯网络结构学习方法的步骤。
74.参照图5,图5为本发明贝叶斯网络结构学习装置第一实施例的结构框图。
75.如图5所示,本发明实施例提出的贝叶斯网络结构学习装置包括:数据集处理模块501,用于对目标数据集进行重抽样处理,获得若干个bootstrap数据集,目标数据集为卵巢癌患者基因表达谱数据和健康对照数据,所述重抽样处理为从所述目标数据集中抽取数据后再放回所述目标数据集进行下一次抽样处理;数据集学习模块502,用于对各bootstrap数据集进行学习,获得所述bootstrap数
据集对应的贝叶斯网络;网络结构确定模块503,用于基于预设得分函数从所述贝叶斯网络中确定目标贝叶斯网络结构。
76.本实施例的贝叶斯网络结构学习装置公开了对目标数据集进行重抽样处理,获得若干个bootstrap数据集,目标数据集为卵巢癌患者基因表达谱数据和健康对照数据,重抽样处理为从目标数据集中抽取数据后再放回目标数据集进行下一次抽样处理;对各bootstrap数据集进行学习,获得bootstrap数据集对应的贝叶斯网络;基于预设得分函数从贝叶斯网络中确定目标贝叶斯网络结构;相较于现有技术通过领域专家参与构建目标系统的贝叶斯网络结构,由于本实施例通过从目标数据集中抽取数据后再放回目标数据集进行下一次抽样处理以获得若干个bootstrap数据集,并通过对各bootstrap数据集进行学习获得其对应的贝叶斯网络,再基于得分函数从贝叶斯网络中确定目标贝叶斯网络结构,从而解决了现有技术中在贝叶斯网络结构节点多以及网络结构较复杂时,贝叶斯网络结构学习的准确度低的技术问题,提高了贝叶斯网络结构学习的准确度。
77.本发明贝叶斯网络结构学习装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
78.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
79.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
80.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
81.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1