一种基于本体的聚类服务方法_3

文档序号：9432625阅读：来源：国知局

。
[0121] 根据步骤（2)中的示例，组成的任务-聚类实例具体示例如表3所示：
[0122] 表3任务-聚类实例
[0123]
[0124]用余弦相似度法计算任务-数据实例与任务-聚类实例之间的相似度，余弦相似度算法与步骤（5)中的余弦相似度法相同，根据所得相似度，确定与任务-数据实例相似度最大的任务-聚类实例，选取该任务-聚类实例对应的聚类算法作为第二候选聚类算法。
[0125] 在本示例中，任务-数据实例与任务-聚类实例相似度为1，所W选择任务-聚类实例所对应的DBSCAN聚类算法作为第二聚类算法。
[0126] (8)根据步骤（6)与步骤（7)，执行匹配到的第一候选聚类算法与第二候选聚类算法，并将得到聚类结果，使用Dunn聚类算法评价指标分别对其聚类结果进行评价，将Dunn 指标值较大的聚类结果呈现给用户；
[0127] Dunn指标计算公式如下：
[012 引
[0129] 其中，Cp表示簇p，聚类结果中共有m个簇；d(Cp，Cq)是簇Cp与Cq之间的不一致性度量，表示两个簇中差异最小的两个点之间的距离；diam(Ck)是簇Ck的直径，用于度量簇内的离散程度，它的定义如下：
[0130]
[013。X，y表示簇Ck中的点，dist(x,y)为点X，y的距离。
[0132] 该式表明，簇Ck的直径数值等于簇内距离最大的两个点的距离数值。Dunn指标用类间的最大距离和所有类的最大直径的比值来判定聚类效果，Dunn指标越大，说明聚类效果越好。
[0133] (9)根据步骤（8)，用户判断对返回的聚类结果是否满意，若用户对聚类结果满意，将执行本次任务生成的任务事务存入历史任务事务数据库，并关联此次任务选取的聚类算法，结束本次任务；否则，执行步骤（10);
[0134] (10)重复执行（4)到巧），直至用户得到满意的聚类结果。
【主权项】
1. 一种基于本体的聚类服务方法，其特征在于由以下步骤组成： (1) 构建顶层本体，该顶层本体包含数据类、任务类以及聚类算法类；其中数据类的属性包括数据量大小、数据维度、数据类型和数据主题；任务类的属性包括任务动作、任务对象、任务聚类结果和任务预期聚类簇数；所述聚类算法类的属性包括聚类算法名、聚类数据类型、聚类数据量大小、聚类数据维度、相似度衡量方法、噪音点敏感、聚类结果、是否设定簇数；上述的数据量大小、数据维度、聚类数据量大小、聚类数据维度、任务预期聚类簇数、噪音点敏感以及是否设定簇数属性均为布尔类型属性；设定数据中，若数据量大于20万条，则数据量大小属性取值为1 ;否则取值为O ;若数据维度大于16,则数据维度属性取值为1 ;否则取值为0 ; 设定聚类算法中，若聚类算法时间复杂度T多O(t2)，t为数据量的规模，则聚类数据量大小属性取值为1 ;否则为0 ; 若聚类算法适合处理多于16个维度的数据集，则聚类数据维度取值为1 ;否则，取值为〇；若聚类算法对噪音点不敏感，则噪音点敏感属性取值为1 ;否则，取值为0 ; 若聚类算法需要用户提供聚类簇数作为参数，则是否设定簇数属性取值为1 ;否则，取值为0 ; 上述的数据类型、任务动作、任务对象、任务聚类结果、聚类数据类型、相似度衡量方法以及聚类形状均为枚举型属性；上述的任务预期聚类簇数为数值型属性；数据类型和聚类数据类型的值域均为数值型、二进制型和字符型；任务动作的值域为匹配、分割和查找；任务对象的值域为数据中的所有维度；任务聚类结果和聚类结果的值域为凸形和其它形状；相似度衡量方法值域为距离、密度、网格分割和混合模型； (2) 根据所构建的顶层本体对聚类算法库中的每一个聚类算法进行标注，得到聚类算法实例； (3) 用户输入待聚类数据集，使用顶层本体对该待聚类数据集进行标注，得到数据实例； (4) 构建用户任务选择菜单，引导用户将聚类目标分解为聚类任务，并使用顶层本体进行标注，得到任务实例；用户任务选择菜单包括四项一级菜单，对应任务类的4个属性，每个一级菜单附属一个二级菜单，二级菜单项为对应属性的值域，用户将菜单选择完毕后，即确定四个属性的取值，将属性值写入RDF规则文件，生成一个任务实例； (5) 根据步骤⑶与步骤⑷所得的数据实例与任务实例，选取其中所包含的除任务对象以外的布尔型、枚举型和数值型的属性，经正二进制转换得到本任务事务，同时从历史任务事务库中获取历史任务事务，用余弦相似度法计算历史任务事务与本任务事务的相似度； (6) 根据步骤（5)所得相似度，确定与本任务事务相似度最大的历史任务事务，选取该历史任务事务所对应的聚类算法作为第一候选聚类算法； (7) 根据步骤⑶与步骤⑷所得的数据实例与任务实例，选取任务实例中的任务聚类结果、任务预期聚类簇数和数据类中的数据量大小、数据维度以及数据类型，经正二进制转换，得到任务-数据实例；同理，根据步骤（2)中的聚类算法实例选取聚类结果、是否设定簇数、聚类数据量大小、聚类数据维度以及聚类数据类型，经正二进制转换，得到任务-聚类实例；用余弦相似度法计算任务-数据实例与任务-聚类实例之间的相似度，并根据所得相似度，确定与任务-数据实例相似度最大的任务-聚类实例，选取该任务-聚类实例对应的聚类算法作为第二候选聚类算法； (8) 根据步骤（6)和步骤（7)，执行第一候选聚类算法与第二候选聚类算法并得到聚类结果，利用Dunn聚类算法评价指标分别对其聚类结果进行评价，选取Dunn指标值较大的聚类结果，呈现给用户； (9) 用户判断是否对所呈现的聚类结果满意，若用户对聚类结果满意，将执行本次任务生成的任务事务存入历史任务事务数据库，并关联此次任务选取的聚类算法，结束本次任务；否则，执行步骤（10); (10) 重复执行⑷到（9)。2. 根据权利要求1所述的基于本体的聚类服务方法，其特征在于：所述步骤（2)中的聚类算法的标注方法具体是：针对每个聚类算法，人工审查聚类算法的实现代码，依据代码内容，确定聚类算法类中各个属性的取值，将所有的属性值写入RDF规则文件，生成聚类算法实例。3. 根据权利要求1所述的基于本体的聚类服务方法，其特征在于：所述步骤（3)中的聚类数据集的标注方法具体是：系统根据用户上传的数据集，自动执行查询程序，查询数据特征，确定数据类中数据维度，数据量大小以及数据类型三个属性的取值，数据主题属性值由人工根据数据集所表示的专业领域确定；确定各属性值后，将所有属性值写入RDF规则文件，生成数据实例。4. 根据权利要求1所述的基于本体的聚类服务方法，其特征在于：所述正二进制转换的具体方法是：依次处理每个属性，对于布尔型属性，若值为真，则对应二进制位为1，否则为〇 ;对于枚举型属性，每个枚举值对应一个二进制位，对每个枚举值，若属性取该枚举值，对应二进制位为1，否则为0 ;对于数值型属性，若值为0,则对应二进制位为0,否则为1。5. 根据权利要求1所述的基于本体的聚类服务方法，其特征在于：所述步骤（5)中的余弦相似度法的计算方法为：其中，1与万:表不两个向量分别表不j与万的模，4与B ;分别表不向量J 与5的第i个分量，使用COS ( Θ )衡量两个向量的相似性，其值域为-1到1，-1表示两个向量正好截然相反，1表示两个向量完全相同，0通常表示它们之间是独立的，位于-1与1之间的值则表示两个向量的相似性。6. 根据权利要求1所述的基于本体的聚类服务方法，其特征在于：所述步骤（8)的 Dunn指标的计算公式如下：其中，cp表示簇p，聚类结果中共有m个簇，d (c p，cq)是簇cp与c q之间的不一致性度量，表示两个簇中差异最小的两个点之间的距离，diam(Ck)是簇Ck的直径，用于度量簇内的离散程度，它的定义如下：X，y表示簇(^中的点，dist(x, y)为点X，y的距离，该式表明，簇c k的直径数值等于簇内距离最大的两个点的距离数值；Dunn指标用类间的最大距离和所有类的最大直径的比值来判定聚类效果，Dunn指标越大，说明聚类效果越好。
【专利摘要】本发明公开了一种基于本体的聚类服务方法，该方法首先构建一个顶层本体，基于顶层本体标注用户的聚类任务、聚类数据与已有聚类算法，对已标注本体进行属性选择，并作正二进制转换，得到任务事务、任务-数据和任务-聚类三个二进制向量，通过计算用户任务事务与历史任务事务数据库中的任务事务相似度，任务-数据与任务-聚类相似度，选择第一候选聚类算法与第二候选聚类算法，并实施聚类算法，最后使用Dunn聚类算法评价指标，评价聚类结果，将符合要求的结果返回给用户，是结合历史聚类任务，基于本体进行任务相似度计算，以选择合适的聚类算法，运行聚类算法并应用评价指标评价聚类算法，最终向用户提供最优聚类算法的聚类服务方法。
【IPC分类】G06F17/30
【公开号】CN105183804
【申请号】CN201510530293
【发明人】曹菡, 王振璇, 郭延辉
【申请人】陕西师范大学
【公开日】2015年12月23日
【申请日】2015年8月26日

完整全部详细技术资料下载

当前第3页1 2 3