一种基于分类模型的数据分类方法及系统的制作方法

文档序号:6353240阅读:227来源:国知局
专利名称:一种基于分类模型的数据分类方法及系统的制作方法
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种基于分类模型的数据分类方法及 系统。
背景技术
如今,数据挖掘在金融业、零售业、电信业等各领域都得到广泛的应用。分类模型 作为数据挖掘系统的主要模型之一。利用分类模型可将原始样本集的样本数据信息归纳为 某一分类函数,该分类函数可用于对新的待分析的目标样本数据进行分析处理,以此实现 对新的目标样本数据的分类处理。简单来说,通过将原始样本集的样本数据信息代入到分 类模型中,可确定分类函数。在分类函数确定后,将待分析的目标样本数据的信息代入分类 函数中,可获得目标样本数据的所属类别,进而对不同类别的样本数据采取不同的对待方 式。
现有技术中,根据原始样本集中样本数据是否携带类别标记,决定采用有监督分 类模型(例如决策树、神经网络、logistic回归等)还是采用无监督分类模型(例如聚 类、主成分等)来获得分类函数。其中,有监督分类模型所需的原始样本集的所有样本数据 都是具有类别标记的,即所有样本数据都是已经确定好所属数据类别的;而无监督分类 模型所需的原始样本集中的所有样本数据是无类别标记的。但在实际应用中,原始样本集 中既存在有标记样本数据又存在无标记样本数据。如果只利用无标记样本数据,运用无监 督分类模型,忽略有标记样本数据,所确定的分类函数是不准确的;而只利用有标记样本数 据,运用有监督分类模型,所确定的分类函数同样不够准确。而现有技术中的适用于包含有 标记样本数据和无标记样本数据的分类模型,如半监督K均值聚类模型,仅仅是在初始时 利用了有标记样本数据,后续便是一般的聚类流程,并没有充分利用有标记样本数据确定 分类函数,因此对分类的准确性造成较大影响。发明内容
为解决上述技术问题,本发明实施例提供了一种基于分类模型的数据分类方法及 系统,以提高对待分析的目标样本数据分类的准确性,技术方案如下
一种基于分类模型的数据分类方法,包括
接收待分析的目标样本数据,所述目标样本数据携带标识其各属性的值;
提取所述目标样本数据的有效属性的值,所述有效属性是根据预设的分类函数所 确定的;
将所述有效属性的值代入所述分类函数,获得所述目标样本数据的分类值;
根据所述目标样本数据的分类值,判定所述目标样本数据所属的数据类别;
其中,所述预设的分类函数的构建方式为
根据第一原始样本集中的有标记样本数据的类别标识,为第一原始样本集中的无 标记样本数据设置类别标识;
将有标记样本数据和设置有类别标识的无标记样本数据作为第二原始样本集;
根据所述第二原始样本集,利用有监督分类模型,确定所述分类函数。
一种基于分类模型的数据分类系统,包括
接收模块、提取模块、计算模块、类别判定模块、分类函数构建模块;
所述接收模块,用于接收待分析的目标样本数据,所述目标样本数据携带标识其 各属性的值;
所述提取模块,用于提取所述接收模块接收的目标样本数据的有效属性的值,所 述有效属性是根据所述分类函数构建模块预先构建的分类函数所确定的;
所述计算模块,用于将所述提取模块提取的有效属性的值代入所述分类函数,获 得所述目标样本数据的分类值;
所述类别判定模块,用于根据所述计算模块得到的目标样本数据的分类值,判定 所述目标样本数据所属的数据类别;
所述分类函数构建模块,用于构建分类函数,具体包括
类别标识设置子模块,用于根据第一原始样本集中的有标记样本数据的类别标 识,为第一原始样本集中的无标记样本数据设置类别标识;
样本集确定子模块,用于将有标记样本数据和设置有类别标识的无标记样本数据 作为第二原始样本集;
分类函数确定子模块,用于根据所述样本集确定子模块确定的第二原始样本集, 利用有监督分类模型,确定所述分类函数。
本发明实施例所提供的技术方案,利用有标记样本数据,将无标记样本数据转化 为有标记样本数据,使得原始样本集中所有的样本数据成为有标记样本数据集,然后将这 些有标记样本数据作为有监督分类模型的输入值,确定分类函数。可见本方案中,根据有标 记样本数据的类别标识为无标记样本数据设置类别,进而通过有监督分类模型所构建的分 类函数充分利用了有标记样本数据,并且有效结合无标记样本数据,其准确性提升。当对待 分析的目标样本数据进行分类时,利用该分类函数,可有效提高分类的准确性。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。
图1为本发明实施例构建分类函数的流程图2为本发明实施例所提供的一种基于分类模型的数据分类方法的流程图3为本发明实施例所提供的一种基于分类模型的数据分类方法的另一流程图4为本发明实施例所提供的一种基于分类模型的数据分类系统的结构示意图5为本发明实施例所提供的分类函数构建模块的结构示意图。
具体实施方式
为引用和理解方便,现将半监督K均值聚类模型、logistic模型介绍如下
在介绍这两种模型之前,首先明确(1)样本数据的属性即为能够标识该样本数 据的一些信息。属性的值为根据信息内容为该属性设置的数值,方便用于计算。当某些属 性对该样本数据的所属数据类别起到决定性作用时,这些属性即为该样本数据的有效属 性。例如当将一个企业作为一个样本数据时,该样本数据的属性可以包括该企业的财务 信息、管理者信息、企业基本信息等。而判别企业可信度类别时,如果财务信息、管理者信息 起到了决定性作用,那么该企业的财务信息和管理者信息为该样本数据的有效属性。
1、半监督K均值聚类模型
该模型所利用的原始样本集包含有标记样本数据和无标记样本数据,利用该模型 对原始样本集进行处理的基本思想是基于有标记样本数据产生初始的聚类种子,并利用 有标记样本数据来约束聚类的过程。基本步骤如下
1)中心初始化
利用原始样本集中的有标记样本数据确定聚类的中心假设原始样本集中包含N 个有标记样本数据,这N个样本数据属于K个数据类别(即类别标识为K个,分别代表不 同的数据类别),且假设每一类都包含至少一个有标记样本数据,也就是说,最终会生成K 个簇(即集合)。利用每个簇中的有标记样本数据所有属性值的均值得到每个簇的中心 点的初始化均值,可利用以下公式获得每个簇中的有标记样本数据的某一属性的均值
权利要求
1.一种基于分类模型的数据分类方法,其特征在于,包括接收待分析的目标样本数据,所述目标样本数据携带标识其各属性的值; 提取所述目标样本数据的有效属性的值,所述有效属性是根据预设的分类函数所确定的;将所述有效属性的值代入所述分类函数,获得所述目标样本数据的分类值; 根据所述目标样本数据的分类值,判定所述目标样本数据所属的数据类别; 其中,所述预设的分类函数的构建方式为根据第一原始样本集中的有标记样本数据的类别标识,为第一原始样本集中的无标记 样本数据设置类别标识;将有标记样本数据和设置有类别标识的无标记样本数据作为第二原始样本集; 根据所述第二原始样本集,利用有监督分类模型,确定所述分类函数。
2.根据权利要求1所述的方法,其特征在于,所述根据第一原始样本集中的有标记样 本数据的类别标识,为第一原始样本集中的无标记样本数据设置类别标识,具体为将第一原始样本集中的有标记样本数据和无标记样本数据分别分配到预设的不同的 集合中,所述不同的集合对应不同的数据类别;根据集合中的有标记样本数据的类别标识,为该集合中的无标记样本数据设置类别标识。
3.根据权利要求2所述的方法,其特征在于,所述根据集合中的有标记样本数据的类 别标识,为该集合中的无标记样本数据设置类别标识,具体为获得所述集合的不同数据类别的有标记样本数据的比例分布; 获得所述集合中比例最大的有标记样本数据的类别标识;根据所述比例最大的有标记样本数据的类别标识设置该集合中无标记样本数据的类 别标识。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二原始样本集,利用有监 督分类模型,确定分类函数,具体为提取所述第二原始样本集的有标记样本数据和预设比例的设置有类别标识的无标记 样本数据作为训练集;根据所述训练集,利用有监督分类模型,确定所述分类函数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述训练集,利用有监督分类模 型,确定所述分类函数,具体为将所述训练集对应的样本数据集代入所述有监督分类模型,获得所述有监督分类模型 对应的分类函数的系数和样本数据的有效属性;根据所述系数和样本数据的有效属性确定所述分类函数。
6.一种基于分类模型的数据分类系统,其特征在于,包括接收模块、提取模块、计算 模块、类别判定模块、分类函数构建模块;所述接收模块,用于接收待分析的目标样本数据,所述目标样本数据携带标识其各属 性的值;所述提取模块,用于提取所述接收模块接收的目标样本数据的有效属性的值,所述有 效属性是根据所述分类函数构建模块预先构建的分类函数所确定的;所述计算模块,用于将所述提取模块提取的有效属性的值代入所述分类函数,获得所 述目标样本数据的分类值;所述类别判定模块,用于根据所述计算模块得到的目标样本数据的分类值,判定所述 目标样本数据所属的数据类别;所述分类函数构建模块,用于构建分类函数,具体包括类别标识设置子模块,用于根据第一原始样本集中的有标记样本数据的类别标识,为 第一原始样本集中的无标记样本数据设置类别标识;样本集确定子模块,用于将有标记样本数据和设置有类别标识的无标记样本数据作为 第二原始样本集;分类函数确定子模块,用于根据所述样本集确定子模块确定的第二原始样本集,利用 有监督分类模型,确定所述分类函数。
7.根据权利要求6所述的系统,其特征在于,所述类别标识设置子模块包括分配单元,用于将第一原始样本集中的有标记样本数据和无标记样本数据分别分配到 预设的不同的集合中,所述不同的集合对应不同的数据类别;标识设置单元,用于根据集合中的有标记样本数据的类别标识,为该集合中的无标记 样本数据设置类别标识。
8.根据权利要求7所述的系统,其特征在于,所述标识设置单元,具体包括比例分布获得子单元,用于获得所述集合的不同数据类别的有标记样本数据的比例分布;类别标识获得子单元,用于根据所述比例分布获得子单元获得的比例分布得到比例分 布最大的有标记样本数据的类别标识;类别标识设置子单元,用于根据所述类别标识获得子单元获得的比例最大的有标记样 本数据的类别标识设置该集合中无标记样本数据的类别标识。
9.根据权利要求6所述的系统,其特征在于,所述分类函数确定子模块,包括样本提取单元,用于提取所述第二原始样本集的有标记样本数据和预设比例的设置有 类别标识的无标记样本数据作为训练集;分类函数确定单元,用于根据所述样本提取单元所提取的训练集,利用有监督分类模 型,确定所述分类函数。
10.根据权利要求9所述的系统,其特征在于,所述分类函数确定单元,具体包括第一分类函数确定子单元,用于将所述样本提取单元提取的训练集对应的样本数据集 代入所述有监督分类模型,获得所述有监督分类模型对应的分类函数的系数和样本数据的 有效属性;第二分类函数确定子单元,用于根据第一分类函数确定子单元获得的系数和样本数据 的有效属性确定所述分类函数。
全文摘要
本发明公开了一种基于分类模型的数据分类方法及系统。该方法包括接收待分析的目标样本数据,其携带标识各属性的值;提取目标样本数据有效属性的值,有效属性是根据预设的分类函数所确定的;将有效属性的值代入分类函数,获得目标样本数据分类值;根据分类值,判定目标样本数据所属的数据类别;其中,分类函数的构建方式为根据第一原始样本集中的有标记样本数据的类别标识,为第一原始样本集中的无标记样本数据设置类别标识;将有标记样本数据和设置有类别标识的无标记样本数据作为第二原始样本集;根据第二原始样本集,利用有监督分类模型,确定分类函数。通过本发明提供的方案,可有效提高对待分析的目标样本数据分类的准确性。
文档编号G06F17/30GK102033965SQ20111000928
公开日2011年4月27日 申请日期2011年1月17日 优先权日2011年1月17日
发明者刘安舒, 夏洪涛, 孙曙, 张俊, 张华 , 朱香友, 杨宏彬, 黄学柱, 黄林 申请人:安徽海汇金融投资集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1