一种基于并行聚类的监察统计分析方法和装置

文档序号:31707753发布日期:2022-10-01 12:37阅读:56来源:国知局
一种基于并行聚类的监察统计分析方法和装置

1.本技术涉及数据挖掘技术领域,特别是涉及一种基于并行聚类的监察统计分析方法和装置。


背景技术:

2.随着各类统计分析数据规模的快速增长,数据来源愈发多样,数据特征逐渐典型,数据统计分析相关研究已进入大数据时代。如何高效整理数据来源,提取数据特征,从海量数据中挖掘数据蕴含的信息,成为当前监察数据统计分析研究的热点之一。
3.针对海量数据的统计分析,现有的聚类分析算法计算效率较低,如何高效整理数据来源、提取数据特征以从海量数据中挖掘数据蕴含的信息,是一个亟需解决的问题。


技术实现要素:

4.基于此,本发明的目的在于提供一种基于并行聚类的监察统计分析方法和装置,以便提高对于大规模数据的聚类计算效率。
5.一种基于并行聚类的监察统计分析方法,所述方法包括:
6.获取原始监察数据集;所述原始监察数据集包括多个监察数据;监察数据包括监察对象和监察对象的属性;所述属性包括所述被监察对象的位置属性、职责属性、领域属性、监察项目属性、问题属性;
7.对每一所述监察数据的多个属性进行权重设置,得到每一监察数据的属性权重集,计算所述属性权重集间的相关系数,根据所述相关系数对所述原始监察数据集中的监察数据进行分层,得到多个监察数据层;
8.对每一监察数据层中的监察数据进行并行聚类,得到多个第一监察数据簇中心,根据所述原始监察数据集中的每一监察数据和所述每一第一监察数据簇中心的距离对所述原始监察数据集进行划分,得到多个第二监察数据簇中心;
9.对所述多个第二监察数据簇中心进行并行聚类得到多个第三监察数据簇中心,根据所述原始监察数据集中的每一监察数据和每一所述第三监察数据簇中心的距离对所述原始监察数据集进行划分,得到多个最佳监察数据簇和所述最佳监察数据簇对应的最佳簇中心;
10.根据所述最佳监察数据簇和所述最佳簇中心构建统计分析模型,进行监察数据的统计分析。
11.在其中一个实施例中,所述对每一所述监察数据的多个属性进行权重设置,得到每一监察数据的属性权重集,计算所述属性权重集间的相关系数,根据所述相关系数对所述原始监察数据集中的监察数据进行分层,得到多个监察数据层,包括:
12.对每一所述监察数据的多个属性进行权重设置,得到每一监察数据的属性权重集为:
13.mn={m
n1
,m
n2
,...,m
nl
}
14.其中,mn表示原始监察数据集m={m1,m2,...,mn}中的第n个监察数据,m
nl
表示mn的第l个属性;
15.计算所述属性权重集间的相关系数为:
16.ρ=σ
l
(m
i-mj)
17.其中,ρ为相关系数,mi为监察数据mi的属性权重,mj为监察数据mj的属性权重;
18.根据所述相关系数对所述原始监察数据集中的监察数据进行分层,得到多个监察数据层:
19.c={c1,c2,...,cm}
20.其中,m表示监察数据层中监察数据的数量。
21.在其中一个实施例中,对每一监察数据层中的监察数据进行并行聚类,得到多个第一监察数据簇中心,包括:
22.对每一监察数据层中的监察数据c={c1,c2,...,cm}进行并行聚类,采用k-means算法分别将各个监察数据层中的监察数据集划分为多个第一监察数据簇r={r1,r2,...,rk};
23.计算每一第一监察数据簇的簇中心得到多个第一监察数据簇中心。
24.在其中一个实施例中,根据所述原始监察数据集中的每一监察数据和所述每一第一监察数据簇中心的距离对所述原始监察数据集进行划分,得到多个第二监察数据簇中心,包括:
25.根据所述原始监察数据集中的每一监察数据和所述第一监察数据簇中心的距离对所述原始监察数据集进行划分,得到对应的多个第二监察数据集;
26.计算每个第二监察数据集的簇中心得到多个第二监察数据簇中心。
27.一种基于并行聚类的监察统计分析装置,所述装置包括:
28.获取模块,用于获取原始监察数据集;所述原始监察数据集包括多个监察数据;监察数据包括监察对象和监察对象的属性;所述属性包括所述被监察对象的位置属性、职责属性、领域属性、监察项目属性、问题属性;;
29.分层模块,用于对每一所述监察数据的多个属性进行权重设置,得到每一监察数据的属性权重集,计算所述属性权重集间的相关系数,根据所述相关系数对所述原始监察数据集中的监察数据进行分层,得到多个监察数据层;
30.第一划分模块,用于对每一监察数据层中的监察数据进行并行聚类,得到多个第一监察数据簇中心,根据所述原始监察数据集中的每一监察数据和所述每一第一监察数据簇中心的距离对所述原始监察数据集进行划分,得到多个第二监察数据簇中心;
31.第二划分模块,用于对所述多个第二监察数据簇中心进行并行聚类得到多个第三监察数据簇中心,根据所述原始监察数据集中的每一监察数据和每一所述第三监察数据簇中心的距离对所述原始监察数据集进行划分,得到多个最佳监察数据簇和所述最佳监察数据簇对应的最佳簇中心;
32.统计分析模块,用于根据所述最佳监察数据簇和所述最佳簇中心构建统计分析模型,进行监察数据的统计分析。
33.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
34.获取原始监察数据集;所述原始监察数据集包括多个监察数据;监察数据包括监察对象和监察对象的属性;所述属性包括所述被监察对象的位置属性、职责属性、领域属性、监察项目属性、问题属性;
35.对每一所述监察数据的多个属性进行权重设置,得到每一监察数据的属性权重集,计算所述属性权重集间的相关系数,根据所述相关系数对所述原始监察数据集中的监察数据进行分层,得到多个监察数据层;
36.对每一监察数据层中的监察数据进行并行聚类,得到多个第一监察数据簇中心,根据所述原始监察数据集中的每一监察数据和所述每一第一监察数据簇中心的距离对所述原始监察数据集进行划分,得到多个第二监察数据簇中心;
37.对所述多个第二监察数据簇中心进行并行聚类得到多个第三监察数据簇中心,根据所述原始监察数据集中的每一监察数据和每一所述第三监察数据簇中心的距离对所述原始监察数据集进行划分,得到多个最佳监察数据簇和所述最佳监察数据簇对应的最佳簇中心;
38.根据所述最佳监察数据簇和所述最佳簇中心构建统计分析模型,进行监察数据的统计分析。
39.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
40.获取原始监察数据集;所述原始监察数据集包括多个监察数据;监察数据包括监察对象和监察对象的属性;所述属性包括所述被监察对象的位置属性、职责属性、领域属性、监察项目属性、问题属性;
41.对每一所述监察数据的多个属性进行权重设置,得到每一监察数据的属性权重集,计算所述属性权重集间的相关系数,根据所述相关系数对所述原始监察数据集中的监察数据进行分层,得到多个监察数据层;
42.对每一监察数据层中的监察数据进行并行聚类,得到多个第一监察数据簇中心,根据所述原始监察数据集中的每一监察数据和所述每一第一监察数据簇中心的距离对所述原始监察数据集进行划分,得到多个第二监察数据簇中心;
43.对所述多个第二监察数据簇中心进行并行聚类得到多个第三监察数据簇中心,根据所述原始监察数据集中的每一监察数据和每一所述第三监察数据簇中心的距离对所述原始监察数据集进行划分,得到多个最佳监察数据簇和所述最佳监察数据簇对应的最佳簇中心;
44.根据所述最佳监察数据簇和所述最佳簇中心构建统计分析模型,进行监察数据的统计分析。
45.上述一种基于并行聚类的监察统计分析方法和装置,首先获取原始监察数据集,可以理解,原始监察数据集是通过监察系统提取被监察对象的信息而得到的,原始监察数据集中包括被监察对象和被监察对象的位置属性、职责属性、领域属性、监察项目属性、问题属性,也就是将被监察对象的位置地点、职责、所述领域、监察项目和对应发现的问题等信息作为监察数据样本,然后对每一监察数据的多个属性进行权重设置,得到每一监察数据的属性权重集,计算属性权重集间的相关系数,根据相关系数对原始监察数据集中的监察数据进行分层,得到多个监察数据层,也就是根据数据属性划分原始数据集,生成不同的
层次,同一层次中的数据相似度较高,以此作为聚类的基础,接着对每一监察数据层中的监察数据进行并行聚类,得到多个第一监察数据簇中心,根据原始监察数据集中的每一监察数据和每一第一监察数据簇中心的距离对原始监察数据集进行划分,得到多个第二监察数据簇中心,对多个第二监察数据簇中心进行并行聚类得到多个第三监察数据簇中心,根据原始监察数据集中的每一监察数据和每一所述第三簇中心的距离对原始监察数据集进行划分,得到多个最佳监察数据簇和最佳监察数据簇对应的最佳簇中心,可以理解,对原始监察数据集进行分层处理是一个初步的划分,通过第一次并行聚类得到有多个层次的多个第一监察数据簇中心,将原始监察数据集中的监察数据重新分到各自所属的第一监察数据簇中心,可以知道由于一个层次内的第一监察数据簇中心的数量是大于1的,从而第一监察数据簇中心的总数量是大于层次数量的,因此通过第一监察数据簇中心对原始数据集划分是一个更加细粒度的划分,在此过程中,每个层次内的监察数据之间互为补充,避免对数据集进行反复聚类而浪费计算资源,而第二次并行聚类的对象是对原始数据集的第二次划分后更新得到的多个第二监察数据簇中心,对多个第二监察数据簇中心进行并行聚类,提取多个第二监察数据簇中心之间的关联性,那么得到的第三监察数据簇中心的的数量是小于第二监察数据簇中心的数量的,相应地也就是说对原始数据集的划分在第一次并行聚类得到细粒度划分的基础上又进行了一个使得监察数据分布更为紧凑的划分,最后根据最佳监察数据簇和最佳簇中心构建统计分析模型,进行监察数据的统计分析,本发明基于海量监察数据的数据特征提取,采用并行聚类的方法,分层逐步对监察数据进行聚类分析,层次之间互为补充,面对海量数据可以快速筛选出最佳簇中心,从而提升监察统计分析效率以及辅助提升监察能力。
附图说明
46.图1为一个实施例中一种基于并行聚类的监察统计分析方法的流程示意图;
47.图2为一个实施例中一种基于并行聚类的监察统计分析装置的结构框图;
48.图3为一个实施例中计算机设备的内部结构图。
具体实施方式
49.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
50.在一个实施例中,如图1所示,提供了一种基于并行聚类的监察统计分析方法,包括以下步骤:
51.步骤102,获取原始监察数据集。
52.原始监察数据集包括多个监察数据,监察数据包括监察对象和监察对象的属性,属性包括位置属性、职责属性、领域属性、监察项目属性、问题属性。
53.原始监察数据集是通过监察系统提取被监察对象的信息而得到的,原始监察数据集中包括被监察对象和被监察对象的位置属性、职责属性、领域属性、监察项目属性、问题属性,也就是被监察对象的位置地点、职责、所述领域、监察项目和对应发现的问题。
54.步骤104,对每一监察数据的多个属性进行权重设置,得到每一监察数据的属性权
重集,计算属性权重集间的相关系数,根据相关系数对原始监察数据集中的监察数据进行分层,得到多个监察数据层。
55.对每一监察数据的多个属性进行权重设置,计算属性权重集间的相关系数,根据相关系数对原始监察数据集中的监察数据进行分层,也就是说从监察数据具有较为丰富明确的数据特征入手,提取数据特征进行层次划分,使得同一个层内的监察数据相似度较大,不同层的监察数据相似度较小。
56.步骤106,对每一监察数据层中的监察数据进行并行聚类,得到多个第一监察数据簇中心,根据原始监察数据集中的每一监察数据和每一第一监察数据簇中心的距离对原始监察数据集进行划分,得到多个第二监察数据簇中心。
57.可以理解,步骤104中对原始监察数据集进行分层处理是一个初步的划分,通过第一次并行聚类得到由多个层次的多个第一监察数据簇中心,将原始监察数据集中的监察数据重新分到各自所属的第一监察数据簇中心,可以知道由于一个层次内的第一监察数据簇中心的数量是大于1的,从而第一监察数据簇中心的总数量是大于层次数量的,因此通过第一监察数据簇中心对原始数据集划分是一个更加细粒度的划分,在此过程中,每个层次内的监察数据之间互为补充,避免对数据集进行反复聚类而浪费计算资源。
58.步骤108,对多个第二监察数据簇中心进行并行聚类得到多个第三监察数据簇中心,根据原始监察数据集中的每一监察数据和每一第三监察数据簇中心的距离对原始监察数据集进行划分,得到多个最佳监察数据簇和最佳监察数据簇对应的最佳簇中心。
59.第二次并行聚类的对象是对原始数据集的第二次划分后更新得到的多个第二监察数据簇中心,对多个第二监察数据簇中心进行并行聚类,提取多个第二监察数据簇中心之间的关联性,那么得到的第三监察数据簇中心的的数量是小于第二监察数据簇中心的数量的,相应地也就是说对原始数据集的划分在第一次并行聚类得到细粒度划分的基础上又进行了一个使得监察数据分布更为紧凑的划分。
60.步骤110,根据最佳监察数据簇和最佳簇中心构建统计分析模型,进行监察数据的统计分析。
61.根据最佳监察数据簇和最佳簇中心构建数据统计分析模型,可以在hadoop平台上利用该模型建立监察统计分析系统,进行监察数据的统计分析。
62.上述一种基于并行聚类的监察统计分析方法中,通过对原始监察数据集每一监察数据的多个属性进行权重设置,得到每一监察数据的属性权重集,计算属性权重集间的相关系数,根据相关系数对原始监察数据集中的监察数据进行分层,得到多个监察数据层,对每一监察数据层中的监察数据进行并行聚类,得到多个第一监察数据簇中心,根据原始监察数据集中的每一监察数据和每一第一监察数据簇中心的距离对原始监察数据集进行划分,得到多个第二监察数据簇中心,对多个第二监察数据簇中心进行并行聚类得到多个第三监察数据簇中心,根据原始监察数据集中的每一监察数据和每一第三监察数据簇中心的距离对原始监察数据集进行划分,得到多个最佳监察数据簇和最佳监察数据簇对应的最佳簇中心,最后根据最佳监察数据簇和最佳簇中心构建统计分析模型,进行监察数据的统计分析。本方法基于海量监察数据的数据特征提取,采用并行聚类的方法,分层逐步对监察数据进行聚类分析,层次之间互为补充,面对海量数据可以快速筛选出最佳簇中心,从而提升监察统计分析效率以及辅助提升监察能力。
63.在一个实施例中,对每一监察数据的多个属性进行权重设置,得到每一监察数据的属性权重集为:
64.mn={m
n1
,m
n2
,...,m
nl
}
65.其中,mn表示原始监察数据集m={m1,m2,...,mn}中的第n个监察数据,m
nl
表示mn的第l个属性;
66.计算属性权重集间的相关系数为:
67.ρ=σ
l
(m
i-mj)
68.其中,ρ为相关系数,mi为监察数据mi的属性权重,mj为监察数据mj的属性权重;
69.根据相关系数对原始监察数据集中的监察数据进行分层,得到多个监察数据层:
70.c={c1,c2,...,cm}
71.其中,m表示监察数据层中监察数据的数量。
72.在一个实施例中,对每一监察数据层中的监察数据c={c1,c2,...,cm}进行并行聚类,采用k-means算法分别将各个监察数据层中的监察数据集划分为多个第一监察数据簇r={r1,r2,...,rk},计算每一第一监察数据簇的簇中心得到多个第一监察数据簇中心,根据原始监察数据集中的每一监察数据和第一监察数据簇中心的距离对原始监察数据集进行划分,得到对应的多个第二监察数据集,计算每个第二监察数据集的簇中心得到多个第二监察数据簇中心。
73.应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
74.在一个实施例中,如图2所示,提供了一种基于并行聚类的监察统计分析装置,包括:获取模块、分层模块、第一划分模块和第二划分模块,其中:
75.获取模块,用于获取原始监察数据集;原始监察数据集包括多个监察数据;监察数据包括监察对象和监察对象的属性;属性包括所述被监察对象的位置属性、职责属性、领域属性、监察项目属性、问题属性;
76.分层模块,用于对每一监察数据的多个属性进行权重设置,得到每一监察数据的属性权重集,计算属性权重集间的相关系数,根据相关系数对原始监察数据集中的监察数据进行分层,得到多个监察数据层;
77.第一划分模块,用于对每一监察数据层中的监察数据进行并行聚类,得到多个第一监察数据簇中心,根据原始监察数据集中的每一监察数据和每一第一监察数据簇中心的距离对原始监察数据集进行划分,得到多个第二监察数据簇中心;
78.第二划分模块,用于对多个第二监察数据簇中心进行并行聚类得到多个第三监察数据簇中心,根据原始监察数据集中的每一监察数据和每一所述第三监察数据簇中心的距离对原始监察数据集进行划分,得到多个最佳监察数据簇和最佳监察数据簇对应的最佳簇中心;
79.统计分析模块,用于根据最佳监察数据簇和最佳簇中心构建统计分析模型,进行
监察数据的统计分析。
80.关于一种基于并行聚类的监察统计分析装置的具体限定可以参见上文中对于一种基于并行聚类的监察统计分析方法的限定,在此不再赘述。上述一种基于并行聚类的监察统计分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
81.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于并行聚类的监察统计分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
82.本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
83.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
84.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
85.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
86.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
87.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1