一种定量分析党建数据的建模方法与流程

文档序号:13422011阅读:2943来源:国知局

本发明属于数据挖掘技术领域,涉及一种定量分析党建数据的建模方法。



背景技术:

党建工作是抓好党员队伍的根本保障,也是做好一切工作的根本保障,提高党建工作科学化水平是目前党建工作的一项重要任务。在党建工作开展的过程中,产生海量的党建数据,包括思想建设数据、组织建设数据、作风建设数据和制度建设数据等等,对党建大数据进行智能化管理和有效分析成为一个迫切需求。对党建大数据进行定量建模以及关联分析,并研究有效的分析挖掘方法,是有效分析党建大数据的关键,也是提高党建科学化水平的基础。polytree模型是一种简单的不确定性知识表示和推理的概率图模型,不仅可以捕捉数据间定量的不确定性关系,同时还为党建工作的定量分析提供高效的推理机制。本发明用polytree模型对党建工作进行定量建模,通过定量度量党建工作关键词之间的相关关系,提供一种挖掘全局相关关系的建模手段,为党建文本分析和党建工作分析提供支持,也为提高党建科学化水平提供技术支持。



技术实现要素:

针对党建工作中产生的海量数据,本发明为挖掘党建数据全局相关关系提供一种有效的建模方法,为党建工作大数据分析提供支持。该方法主要包括以下步骤:

第一步,对每个党建工作文本进行量化,具体为:

1.1、对n个党建工作文本集合d={d1,d2,…,dn},提取m个党建工作关键词集w={w1,w2,…,wm};

1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词αwα1表示关键词α出现在文档中,α0表示关键词α不出现在文档中;例如表示α出现且β不出现的关键字组合,f(α1,β0)表示关键词α出现但β不出现的文档频度;

第二步,对w中任意党建工作关键词αβγ,定义,用卡方检验(chi-squaretest)进行判定αβ是否相互独立;用相关度定量度量αβ之间的直接相关关系,如果αβ相互独立,则,否则

第三步,建立m个节点的最大权生成树t

3.1、将w={w1,w2,…,wm}中的每一个党建工作关键词抽象为t中的一个节点;

3.2、从大到小考察两两词间相关度,如果不产生环路则在t中加一条无向边αβ,否则放弃该,直到t中有m-1条边或者为止;

第四步,对t中子图αγβ,计算,用卡方检验(chi-squaretest)进行判定αβ是否关于γ条件独立;如果αβ关于γ不条件独立,且,那么将子图αγβ置为汇聚结构αγβ,直到不再有满足条件的子图并得到一个图g′;

第五步,在不产生新的汇聚结构的条件下,将g′中所有无向边置为有向边,得到polytree的图结构g

第六步,计算g中每个节点v在其父节点pa(v)条件下的条件概率,并得到条件概率集合p,最终得到完整的党建大数据polytree模型(g,p)。

附图说明

图1.构建党建数据polytree模型的过程;

具体实施方式

以下结合附图1,对依据本发明提供的具体实施方式,详细说明如下。

第一步,对每个党建工作文本进行量化,具体为:

1.1、对n个党建工作文本集合d={d1,d2,…,dn},提取m个党建工作关键词集w={w1,w2,…,wm};

1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词αwα1表示关键词α出现在文档中,α0表示关键词α不出现在文档中;例如表示α出现且β不出现的关键字组合,f(α1,β0)表示关键词α出现但β不出现的文档频度;

假设n=100时,统计到的某两个词αβ的文档频度为f(α1,β1)=20,f(α1,β0)=20,f(α0,β1)=10,f(α0,β0)=50,f(α1)=40,f(α0)=60,f(β1)=30,f(β0)=70。

第二步,对w中任意党建工作关键词αβγ,定义,用卡方检验(chi-squaretest)进行判定αβ是否相互独立;用相关度定量度量αβ之间的直接相关关系,如果αβ相互独立,则,否则

例如,如果两个词αβ的文档频度分别是第一步中计算的结果,那么

=0.063;

第三步,建立m个节点的最大权生成树t,具体为

3.1、将w={w1,w2,…,wm}中的每一个党建工作关键词抽象为t中的一个节点;

3.2、从大到小考察两两词间相关度,如果不产生环路则在t中加一条无向边αβ,否则放弃该,直到t中有m-1条边或者;图1(左)所示为一个最大权生成树t

第四步,对t中子图w1―w2―w4,如果,则不能确定有向边;检查子图w3―w4―w2,如果w2和w3关于w4不条件独立且,则将w3―w4―w2置为汇聚结构w3→w4←w2;同理检查其它满足条件的子图;图1(中)所示的图g′就是一个可能的结构;

第五步,在不产生新的汇聚结构的条件下,将g′中所有无向边置为有向边,例如置w1→w2,或w1→w2;同样置w4→w6;然而不能置w4←w6,因为这样将产生新的汇聚结构w2→w4←w6;按照这样的原则,最后可以得到polytree的图结构g

第六步,计算g中每个节点v在其父节点pa(v)条件下的条件概率,并得到条件概率集合p,最后得到完整polyree模型(g,p),如图1(右)所示。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1