一种基于聚类的大数据常态模式提取方法及系统的制作方法

文档序号:6621265阅读:172来源:国知局
一种基于聚类的大数据常态模式提取方法及系统的制作方法
【专利摘要】本发明公开了一种基于聚类的大数据常态模式提取方法。本方法为:1)服务器从各终端采集样本数据,得到一总样本数据集;2)从该总样本数据集中抽取若干样本,并对其聚类,将得到的簇作为样本的标签对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性四项指标;根据计算结果对属性进行排序,选取若干属性作为大数据降维后保留的属性;3)对属性降维后的全体样本数据聚类,将得到的簇作为样本的标签对样本进行标注;4)根据选取的属性划分指标计算已标注样本每一属性的四项指标,选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式。
【专利说明】一种基于聚类的大数据常态模式提取方法及系统

【技术领域】
[0001] 本发明涉及一种常态模式提取系统,尤其涉及一种基于聚类的大数据常态模式提 取方法及系统。

【背景技术】
[0002] 在现实生活中,我们经常需要对一组样本数据进行分类。常用的处理方法有两 种:
[0003] 第一种分类方法,基于经验确定一些分类的指标(属性、属性值)并按照这些指标 将样本数据分类,例如将一群人分为"青年"、"中年"、"老年"三类,就是基于属性"年龄层" 做出的。这种分类方式强烈的依赖于分类人的经验,具有较强的主观色彩,使得不同人对同 一组样本数据得到的分类结果可能有较大不同,而且难以确定究竟哪种分类更加科学。
[0004] 第二种分类方法,基于数据挖掘聚类分析的聚类结果,将聚类结果直接作为分类 结果,这种方法具有较好的客观性,但存在以下不足:
[0005] (1)主流的聚类算法没有给出确切的分类标准,基于距离得到的聚类簇中,不同样 本的属性值混杂,没有确切的规律,可能某个簇的1〇〇个样本中99个都是"性别=男性",仅 有1个是"性别=女性",使得分类结果的实践指导意义较差。
[0006] (2)对于一类复杂的趋势数据样本,例如某超市每天的顾客购物情况,使用聚类分 析得到的簇,不能确定相邻两天得到的簇之间的关系,从而难以研究相关簇之间的时间序 列关系。
[0007] (3)主流的聚类算法属于随机算法,基于随机的初值,聚类结果也随着初值变化, 聚类结果的不确定性在一定程度上影响了聚类结果在实际应用中的可信度。
[0008] 对样本数据进行分类(提取常态模式)时,还会遇到"大数据"的问题。随着信息 技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为 当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大,形成了维 数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和 具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决"维数灾难",缓解大数 据中"信息丰富但知识贫乏"的问题,降低计算的复杂度;另一方面可以引导人们更好地认 识和理解数据。数据降维的方法很多,例如:根据数据本身的特性,可以分为线性降维和非 线性降维两种;根据是否考虑和利用数据的监督信息,可以分为无监督降维、有监督降维和 半监督降维三种;根据是否需要保持数据的结构,可以分为全局保持降维、局部保持降维和 全局与局部保持一致降维等。
[0009] 在降维过程中,本专利旨在采用完全客观的算法来选择对样本的已知标签具有较 大影响力的维度。也就是说,这些在降维中被保留下来的维度不是主观确定的,不依赖于经 验模型。


【发明内容】

[0010] 针对现有技术中存在的技术问题,本发明的目的在于提供一种基于聚类的大数据 常态模式提取方法及系统,本发明的常态模式划分方法是基于聚类分析的结果,具有较强 的客观性,又有效的克服了主流聚类算法的不足。
[0011] 本发明通过对样本数据进行聚类分析,将所得"簇"作为已知的分类标准(标签), 提取属性值辨识度、属性辨识度、属性值重要性、属性重要性等"属性对相似性的影响力"的 四项指标,再使用全新的常态模式提取方法获取"常态模式",并给出常态模式的命名方法。
[0012] 本发明的技术方案为:
[0013] 一种基于聚类的大数据常态模式提取方法,其步骤为:
[0014] 1)中央服务器从各终端服务器采集样本数据,得到一总样本数据集;
[0015] 2)从该总样本数据集中抽取若干样本,得到一抽样样本集合并对其进行聚类分 析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性 降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或 属性值重要性、属性重要性;
[0016] 3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进 行排序,选取若干属性作为大数据降维后保留的属性;
[0017] 4)对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对 样本进行标注;
[0018] 5)根据选取的属性划分指标计算步骤4)中已标注样本每一属性的属性值辨识 度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特 征对该总样本数据集进行划分,将划分结果作为常态模式;
[0019] 其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该 属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j 的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值 辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性 值辨识度;
[0020] 属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨 识度;
[0021] 属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘 以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性; 将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要 性;
[0022] 属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重 要性。
[0023] 进一步的,对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的 属性辨识度。
[0024] 进一步的,对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的 属性重要性。
[0025] 进一步的,分别选用属性重要性最高的属性、属性辨识度最高的属性对样本进行 划分,得到所述常态模式;或者选取划分结果与聚类结果的差异量小的原则选择属性重要 性最高的属性或属性辨识度最高的属性对样本进行划分,得到所述常态模式。
[0026] 进一步的,根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的 名称。
[0027] 进一步的,命名所述常态模式的名称的方法为:在得到所述常态模式的过程中,记 录每一所述常态模式所用到的属性和属性值;将第一所用的属性和或属性值记录为根节 点,最后一次所用的属性和或属性值记录为叶节点;然后沿着根节点向该叶节点发展,将涉 及的全部属性值的集合作为该常态模式的名称。
[0028] 本发明的系统主要如图5所示,包括:
[0029] (1)数据采集模块。
[0030] 将待分析的样本数据从分布在各地的终端服务器数据库中传输汇总到中央服务 器的数据库中。
[0031] (2)数据降维模块。
[0032] 对采集的样本进行抽样和聚类分析,得到若干簇,将聚类得到的簇作为样本的标 签,对样本进行标注。计算标注样本每一属性的属性值辨识度、属性辨识度以及属性值重要 性、属性重要性,提取由数据本身决定的"属性对相似性的影响力"指标;然后根据指标计算 结果对属性排序;选取排序靠前的属性。
[0033] 本发明公开了一种全新的常态模式划分方法,可以建立在任何一种公知的聚类分 析算法结果之上,提取由数据本身决定的"属性对相似性的影响力"指标,这些指标包括:属 性值辨识度、属性辨识度、属性值重要性、属性重要性。本发明将聚类分析获得的簇作为已 知的分类标签,由此,"属性对相似性的影响力"指标等价于"属性对已知标签的影响力"指 标。
[0034] 这是因为,使用聚类分析方法让数据通过无监督学习生成若干"簇",这些簇是基 于距离或相似度来确定的,满足簇中的对象彼此相似,而与其他簇中的对象相异。粗略的 看,聚类的结果与属性和属性值没有直接关联,即不是由某些属性来划分的。但是,考虑到 距离或相似度的定义基于属性和属性值,因此属性和属性值对簇的形成具有实际的影响, 而且不同的属性和属性值的影响力并不相同。因此,将聚类分析获得的簇作为已知的分类 标签,进而提取属性对分类的影响力的四项指标具有实际意义。
[0035] (3)常态模式划分模块。
[0036] 常态模式,可以理解为样本数据中的常见类型,每个常态模式都是一组属性值的 集合,常态模式集合是对全体样本的一种划分。例如,图1中的一个常态模式可能是{颜色 =黑,形状=方,尺寸=小},该类型包括了所有小的黑方块,它对应属性值{颜色=黑}、 {形状=方}和{尺寸=小},是这三个属性值的集合。当然,某一个确实的常态模式中的 属性值不一定是唯一的,因此,{:颜色=黑或灰,形状=方,尺寸=小}也可能是一个常态 模式。另一方面,由于{颜色=黑,形状=方或圆,尺寸=小}可以化简为{颜色=黑, 尺寸=小},因此,常态模式对应的属性值不一定包含所有的属性,也就是说,有的属性在常 态模式的划分中并不重要。
[0037] 常态模式的另一个重要特点是"划分"性,也就是"不重不漏"。两个常态模式不能 拥有共同的样本,即不相交;同时,绝大部分样本都属于某一个常态模式,只有少部分"异常 值"、"离群值"。
[0038] 直观的讲,一个样本总体全体常态模式的集合对应一个分类树,如图2所示,就是 一个可能的常态模式集合。
[0039] 这些图型具体应该分成哪些常态模式难以划分。本发明使用"先聚类再分类"的 技术,提取数据客观蕴含的属性重要程度,给出客观的分类标准,即常态模式。
[0040] 常态模式覆盖了绝大部分样本,除了左下角灰底白点的大圆,这是异常值。
[0041] 一个需要区别的概念是正常类型。事实上,常态模式并不等价于正常类型,常态模 式只是从出现的频率上给出了出现频率高的划分方法,并不意味着它一定是正常的、正确 的。例如,在道路上暂时没有机动车通过时行人闯红灯过马路,这是一种常见的行为,但却 不是正确、合法的行为。当然,一般来说,常态模式是正常类型,不属于常态模式的异常值是 不正常的样本。
[0042] 本发明通过提取属性重要性和辨识度,获取属性值辨识度、属性辨识度、属性值重 要性、属性重要性等四项指标,也就是"属性对相似性的影响力"。再使用全新的常态模式提 取方法获取分类结果,即"常态模式"。
[0043] 与现有技术相比,积极效果为:
[0044] (1)常态模式获得的"类"比聚类分析获得的"簇",具有更加确切的分类标准,排 除了由于其他属性的干扰,使得个别样本点分类不准确的现象,如图3。例如,可能某个簇的 100个样本中99个都是"性别=男性",仅有1个是"性别=女性",使得分类结果的实践指 导意义较差。而本专利将选择"性别"属性作为分类标准,获得"性别=男性"和"性别=女 性"两个类,分类结果的实践指导意义更好。进一步,这个特殊的、错误分类的个体,可以作 为异常值研究对象。
[0045] (2)对于一类复杂的趋势数据样本,例如某超市每天的顾客购物情况,使用聚类分 析得到的簇,不能确定相邻两天得到的簇之间的关系,从而难以研究相关簇之间的时间序 列关系。而使用本专利方法可以获得常态模式并给出了常态模式的命名方法,则在不同时 间点的各个簇之间建立了明确的时间序列关系,即可以研究相同名称的簇的变化情况,以 及不同时间点簇的增加或减少情况。
[0046] (3)主流的聚类算法属于随机算法,基于随机的初值,聚类结果也随着初值变化, 聚类结果的不确定性在一定程度上影响了聚类结果在实际应用中的可信度。而本发明由于 使用了"先聚类再分类"的方法确定常态模式,降低了初值对计算结果的影响,使分析结果 更加稳定可信。
[0047] 本方法可应用于公安情报数据分析、反腐败数据分析、居民家庭用电情况分析、交 通出行模式分析、疾病特征数据分析、医疗数据分析、客户市场细分等多种领域,获取常见 类型集合,从而促进资源合理配置,本方法具有较强的普适性。

【专利附图】

【附图说明】
[0048] 图1为常态模式示意图;
[0049] 图2为常态模式实例图;
[0050] 图3为常态模式划分方法结果对比图;
[0051] (a)聚类得到的簇,(b)先聚类再分类获得的类
[0052] 图4为常态模式提取系统流程图;
[0053] 图5为常态模式提取系统结构图;
[0054] 图6为划分属性的选择图;
[0055] (a)根据重要性最高的属性(属性A)划分常态模式,
[0056] (b)根据辨识度最高的属性(属性B)划分常态模式,
[0057] 图7为类与簇之间的差异图;
[0058] (a)由聚类分析获得的五个簇,
[0059] (b)根据属性的辨识度和重要性划分数据得到的四个类;
[0060] 图8为应用实例发现与降维指标计算结果图;
[0061] 图9为常态模式查看方法图;
[0062] 图10为时间序列分析和拐点分析预警示意图。

【具体实施方式】
[0063] 本发明公开了一种全新的基于聚类的常态模式提取方法和系统,如图4所示,包 括以下主要步骤。
[0064] 步骤1 :数据采集。
[0065] 数据采集模块是本专利系统的硬件基础。该模块将待分析的样本数据从分布在各 地的终端数据库中传输汇总到中央数据库。
[0066] 步骤2:数据清洗。
[0067] 通过数据采集终端汇总得到的数据,难免存在不完整、错误、重复等现象。数据清 洗步骤用于过滤这些不符合要求的数据,过滤的结果将提交给相关主管部门,确认是直接 过滤掉还是作为异常值提取出来做进一步分析。
[0068] 步骤3:数据降维。
[0069] 经过清洗的样本数据汇总到中央数据库。由于样本量(N1)巨大,形成了维数大、 规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体 应用,需要首先进行降维处理,即维数约简,它一方面可以解决"维数灾难",缓解大数据中 "信息丰富但知识贫乏"的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和 理解数据。
[0070] 数据降维步骤包括以下子步骤:
[0071] 步骤3. 1 :数据抽样。
[0072] 对全体样本进行系统抽样(systematicsampling)。系统抽样,又称机械抽样、等距 抽样。具体而言:
[0073] (1)由系统硬件运转能力确定适合的抽样样本量(N2),定义压缩比(M)为:
[0074] M = N1+N2;
[0075] (2)将全体样本数据按某一顺序排列起来,标注唯一的序号;
[0076] (3)从前Μ个样本中随机的选出一个样本作为抽样样本,记其序号为k ;
[0077] (4)将序号为k、k+M、k+2*M、...、k+(N2-l)*M的N2个样本作为抽样结果。
[0078] 步骤3.2 :数据聚类。
[0079] 本步骤可以建立在任何一种公知的聚类分析算法结果之上,通过对抽样后的样本 数据进行聚类分析,得到若干簇。
[0080] 步骤3. 3 :降维指标选择。
[0081] 针对抽样得到的N2个样本以及聚类获得的若干簇,可以通过后续的步骤计算降 维指标(即"属性对相似性的影响力"),并根据"影响力"的排序来确定降维后保留的属性。 本系统提供降维指标的选择,可选择的降维指标有:
[0082] 降维指标1 :属性辨识度指标;
[0083] 降维指标2 :属性重要性指标。
[0084] 降维指标选择主要看待分析的问题中"样本量"因素是否重要,建议如下:
[0085] (1)如果"样本量"因素不重要,应选择属性辨识度指标给出影响力排序;
[0086] (2)如果"样本量"因素重要,应选择属性重要性指标给出影响力排序;
[0087] (3)如果想综合考虑上述两种情况,应结合这两个指标给出综合性的排序。
[0088] 步骤3. 4 :降维指标计算。
[0089] 计算降维指标,也就是计算每个属性"对相似性的影响力",具体包括:属性辨识度 和属性重要性,同时还需要计算两个过渡性的指标:属性值辨识度和属性值重要性。我们以 案例为基础,说明这四项指标的主要计算步骤。系统将根据用户在步骤3. 2中的选择情况 计算相应的指标。
[0090] 四项指标计算案例:
[0091] 一个包含100人的研究样本,其中包含50名女性和50名男性,其中20人有前科。 通过聚类分析获得了两个"簇",其中"簇1"包含10个样本,绝大部分是犯有盗窃罪的人, 而"簇2"包含90个样本,绝大部分是未犯有盗窃罪的人。其他数据如表1。
[0092] 表1 :四项指标计算案例
[0093]

【权利要求】
1. 一种基于聚类的大数据常态模式提取方法,其步骤为: 1) 中央服务器从各终端服务器采集样本数据,得到一总样本数据集; 2) 从该总样本数据集中抽取若干样本,得到一抽样样本集合并对其进行聚类分析,得 到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指 标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值 重要性、属性重要性; 3) 分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排 序,选取若干属性作为大数据降维后保留的属性; 4) 对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对样本 进行标注; 5) 根据选取的属性划分指标计算步骤4)中已标注样本每一属性的属性值辨识度、属 性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对 该总样本数据集进行划分,将划分结果作为常态模式; 其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性 值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概 率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识 度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨 识度; 属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识 度; 属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该 属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该 属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性; 属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
2. 如权利要求1所述的方法,其特征在于对该属性i所有属性值的属性值辨识度的平 方平均数作为该属性i的属性辨识度。
3. 如权利要求1所述的方法,其特征在于对该属性i所有属性值的属性值重要性的平 方平均数作为该属性i的属性重要性。
4. 如权利要求1或2或3所述的方法,其特征在于分别选用属性重要性最高的属性、属 性辨识度最高的属性对样本进行划分,得到所述常态模式;或者选取划分结果与聚类结果 的差异量小的原则选择属性重要性最高的属性或属性辨识度最高的属性对样本进行划分, 得到所述常态模式。
5. 如权利要求1或2或3所述的方法,其特征在于根据所述常态模式划分所依据的属 性和属性值,命名所述常态模式的名称。
6. 如权利要求5所述的方法,其特征在于命名所述常态模式的名称的方法为:在得到 所述常态模式的过程中,记录每一所述常态模式所用到的属性和属性值;将第一所用的属 性和或属性值记录为根节点,最后一次所用的属性和或属性值记录为叶节点;然后沿着根 节点向该叶节点发展,将涉及的全部属性值的集合作为该常态模式的名称。
7. -种基于聚类的大数据常态模式提取系统,其特征在于包括多个终端服务器和一中 央服务器,所述终端服务器通过网络与所述中央服务器连接;其中,所述中央服务器包括数 据采集模块、数据降维模块和常态模式划分模块; 所述数据采集模块,用于从各终端服务器采集样本数据,得到一总样本数据集; 所述数据降维模块,用于从该总样本数据集中抽取若干样本,得到一抽样样本集合并 对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后 根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、 属性辨识度和或属性值重要性、属性重要性,并根据计算结果对属性进行排序,选取若干属 性作为大数据降维后保留的属性; 所述常态模式划分模块,用于对属性降维后的全体样本数据进行聚类,将聚类得到的 簇作为样本的标签,对样本进行标注;然后根据选取的属性划分指标对标注样本每一属性 的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选 取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式; 其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性 值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概 率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识 度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨 识度; 属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识 度; 属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该 属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该 属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性; 属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
8. 如权利要求7所述的系统,其特征在于对该属性i所有属性值的属性值辨识度的平 方平均数作为该属性i的属性辨识度;对该属性i所有属性值的属性值重要性的平方平均 数作为该属性i的属性重要性。
9. 如权利要求7所述的系统,其特征在于根据所述常态模式划分所依据的属性和属性 值,命名所述常态模式的名称;所述中央服务器通过一常态模式发布器发布所述常态模式。
10. 如权利要求7或8或9所述的系统,其特征在于所述常态模式划分模块在得到所述 常态模式的过程中,记录每一所述常态模式所用到的属性和属性值;将第一所用的属性和 或属性值记录为根节点,最后一次所用的属性和或属性值记录为叶节点;然后沿着根节点 向该叶节点发展,将涉及的全部属性值的集合作为该常态模式的名称。
【文档编号】G06F17/30GK104156403SQ201410356957
【公开日】2014年11月19日 申请日期:2014年7月24日 优先权日:2014年7月24日
【发明者】王电, 魏毅, 黄煜可 申请人:中国软件与技术服务股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1