本发明属于数据挖掘技术领域,涉及一种定量分析党建数据的建模方法。
背景技术:
党建工作是抓好党员队伍的根本保障,也是做好一切工作的根本保障,提高党建工作科学化水平是目前党建工作的一项重要任务。在党建工作开展的过程中,产生海量的党建数据,包括思想建设数据、组织建设数据、作风建设数据和制度建设数据等等,对党建大数据进行智能化管理和有效分析成为一个迫切需求。对党建大数据进行定量建模以及关联分析,并研究有效的分析挖掘方法,是有效分析党建大数据的关键,也是提高党建科学化水平的基础。polytree模型是一种简单的不确定性知识表示和推理的概率图模型,不仅可以捕捉数据间定量的不确定性关系,同时还为党建工作的定量分析提供高效的推理机制。本发明用polytree模型对党建工作进行定量建模,通过定量度量党建工作关键词之间的相关关系,提供一种挖掘全局相关关系的建模手段,为党建文本分析和党建工作分析提供支持,也为提高党建科学化水平提供技术支持。
技术实现要素:
针对党建工作中产生的海量数据,本发明为挖掘党建数据全局相关关系提供一种有效的建模方法,为党建工作大数据分析提供支持。该方法主要包括以下步骤:
第一步,对每个党建工作文本进行量化,具体为:
1.1、对n个党建工作文本集合d={d1,d2,…,dn},提取m个党建工作关键词集w={w1,w2,…,wm};
1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词α∈w,α1表示关键词α出现在文档中,α0表示关键词α不出现在文档中;例如
第二步,对w中任意党建工作关键词α、β和γ,定义
第三步,建立m个节点的最大权生成树t
3.1、将w={w1,w2,…,wm}中的每一个党建工作关键词抽象为t中的一个节点;
3.2、从大到小考察两两词间相关度
第四步,对t中子图α―γ―β,计算
第五步,在不产生新的汇聚结构的条件下,将g′中所有无向边置为有向边,得到polytree的图结构g;
第六步,计算g中每个节点v在其父节点pa(v)条件下的条件概率
附图说明
图1.构建党建数据polytree模型的过程;
具体实施方式
以下结合附图1,对依据本发明提供的具体实施方式,详细说明如下。
第一步,对每个党建工作文本进行量化,具体为:
1.1、对n个党建工作文本集合d={d1,d2,…,dn},提取m个党建工作关键词集w={w1,w2,…,wm};
1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词α∈w,α1表示关键词α出现在文档中,α0表示关键词α不出现在文档中;例如
假设n=100时,统计到的某两个词α和β的文档频度为f(α1,β1)=20,f(α1,β0)=20,f(α0,β1)=10,f(α0,β0)=50,f(α1)=40,f(α0)=60,f(β1)=30,f(β0)=70。
第二步,对w中任意党建工作关键词α、β和γ,定义
例如,如果两个词α和β的文档频度分别是第一步中计算的结果,那么
=0.063;
第三步,建立m个节点的最大权生成树t,具体为
3.1、将w={w1,w2,…,wm}中的每一个党建工作关键词抽象为t中的一个节点;
3.2、从大到小考察两两词间相关度
第四步,对t中子图w1―w2―w4,如果
第五步,在不产生新的汇聚结构的条件下,将g′中所有无向边置为有向边,例如置w1→w2,或w1→w2;同样置w4→w6;然而不能置w4←w6,因为这样将产生新的汇聚结构w2→w4←w6;按照这样的原则,最后可以得到polytree的图结构g;
第六步,计算g中每个节点v在其父节点pa(v)条件下的条件概率