一种数据挖掘方法、装置和计算机可读存储介质与流程

文档序号：19472422发布日期：2019-12-21 02:27阅读：172来源：国知局

本发明涉及通信技术领域，具体涉及一种数据挖掘方法、装置和计算机可读存储介质。

背景技术：

在数据挖掘场景中，无论是图像数据，还是文本数据都需要纯净的数据，但受限于模型的表征能力，分类、聚类等方式产生的数据由于具有坏档(badcase)往往不能保证簇内纯净，现有技术中通过人工查找和简单的计算数据簇内两两特征之间的距离来判断数据簇的纯净度。

在对现有技术的研究和实践过程中，本发明的发明人发现通过人工查找耗费大量的人力成本，简单的计算数据簇内两两特征的距离又由于数据簇的类多样性、差异性较大，导致坏档和正常数据难以区分，因此导致badcase的命中率较低。

技术实现要素：

本发明实施例提供一种数据挖掘方法、装置和计算机可读存储介质。可以提高数据挖掘中坏档的命中率。

一种数据挖掘方法，包括：

对待处理数据集进行特征提取，以构造特征空间；

在所述特征空间中提取节点特征，以生成所述待处理数据集的图数据，所述图数据至少包括一个节点；

在所述图数据中筛选出所述节点对应的数据簇；

计算所述数据簇的数据纯净度，得到所述数据簇的簇内纯度；

当所述簇内纯度低于预设簇内纯度阈值时，获取所述节点在待处理数据集中对应的数据，得到挖掘的数据。

相应的，本发明实施例提供一种数据挖掘装置，包括：

提取单元，用于对待处理数据集进行特征提取，以构造特征空间；

生成单元，用于在所述特征空间中提取节点特征，以生成所述待处理数据集的图数据，所述图数据至少包括一个节点；

筛选单元，用于在所述图数据中筛选出所述节点对应的数据簇；

计算单元，用于计算所述数据簇的数据纯净度，得到所述数据簇的簇内纯度；

获取单元，用于当所述簇内纯度低于预设纯度阈值时，获取所述节点在待处理数据集中对应的数据，得到挖掘的数据。

可选的，在一些实施例中，所述计算单元，具体用于采用训练后图识别模型对所述数据簇进行特征提取，以得到所述数据簇的数据信息，根据所述数据信息对所述数据簇内的数据进行分类，根据分类结果，计算所述数据簇的数据纯净度，得到所述数据簇的簇内纯度。

可选的，在一些实施例中，所述计算单元，具体用于根据分类结果，在所述数据信息中获取各个类别数据的数量和数据簇的数据总数量，在所述各个类别数据的数量中筛选数量最多的数据，以作为目标数据，计算所述目标数据与所述数据簇的数据总数量的比值，得到所述数据簇的簇内纯度。

可选的，在一些实施例中，所述计算单元，具体用于采集多个数据集样本，所述数据集样本包括已标注簇类纯度的数据簇，采用预设图识别模型对所述数据集样本的簇类纯度进行预测，得到预测簇类纯度，根据所述预测簇类纯度与已标注的簇类纯度对所述预设图识别模型进行收敛，得到训练后图识别模型。

可选的，在一些实施例中，所述获取单元，具体用于当所述簇类纯度低于预设簇内纯度阈值时，确定所述数据簇对应的目标节点，在所述待处理数据集的图数据中筛选所述目标节点对应的图数据，根据所述节点对应的图数据，在所述待处理数据集中获取所述节点对应的数据，将所述数据作为所述待处理数据集中需要挖掘的数据。

可选的，在一些实施例中，所述筛选单元，具体用于在所述图数据中搜索所述节点对应的邻节点，在所述图数据中对所述节点和对应的所述邻节点进行聚类，得到所述节点的聚类图，在所述聚类图中筛选所述节点对应的数据簇。

可选的，在一些实施例中，所述提取单元，具体用于在所述特征空间中提取节点特征，对所述节点特征进行分类，根据分类结果，生成所述待处理数据集的图数据。

可选的，在一实施例中，所述提取单元，具体用于根据分类结果，提取所述各个种类的节点特征中的节点信息，根据所述节点信息构建关系树，基于构建的所述关系树，生成所述待处理数据集的图数据。

此外，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的数据挖掘方法。

此外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种数据挖掘方法中的步骤。

本发明实施例在对待处理数据集进行特征提取，以构造特征空间，在特征空间中提取节点特征，以生成待处理数据集的图数据，该图数据至少包括一个节点，在图数据中筛选出所述节点对应的数据簇，计算数据簇的数据纯净度，得到数据簇的簇内纯度，当簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据；由于该方案不仅考察了数据簇内所有的特征信息，而且通过数据簇内的簇内纯度去评估坏档，进而进行坏档挖掘，降低了对特征表征的过渡依赖，可以更加快速、高效的、准确的挖掘出数据中的坏档(badcase)，从而提高数据中坏档的命中率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的数据挖掘方法的场景示意图；

图2是本发明实施例提供的数据挖掘方法的流程示意图；

图3是本发明实施例提供的图数据的结构示意图；

图4是本发明实施例提供的数据簇的簇内纯度计算的流程示意图；

图5是本发明实施例提供的数据挖掘方法的另一流程示意图；

图6是本发明实施例提供的数据挖掘装置的结构示意图；

图7是本发明实施例提供的数据挖掘装置的提取单元的结构示意图；

图8是本发明实施例提供的数据挖掘装置的生成单元的结构示意图；

图9是本发明实施例提供的数据挖掘装置的筛选单元的结构示意图；

图10是本发明实施例提供的数据挖掘装置的计算单元的结构示意图；

图11是本发明实施例提供的数据挖掘装置的另一结构示意图；

图12是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种数据挖掘方法、装置和计算机可读存储介质。其中，该数据挖掘装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

所谓数据挖掘可以为从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，还可以为从海量的数据中发现并提取出数据中的坏档(badcase)。其中，坏档(badcase)可以包括数据簇内存在多个不同类别的数据，由于数据簇的一个簇只能容纳一个或一种文件，当簇内存在多个不同类别的数据时，此时会导致数据混乱，因此，对数据进行处理时，需要挖掘出数据内的badcase。本发明实施例中，主要指的是从海量的数据中挖掘出badcase。

例如，参见图1，以数据挖掘装置集成在电子设备中为例，该电子设备对待处理数据集进行特征提取，以构造特征空间，然后，在特征空间中提取节点特征，以生成待处理数据集的图数据，该图数据至少包括一个节点，再然后，在图数据中筛选出所述节点对应的数据簇，计算数据簇的数据纯净度，得到数据簇的簇内纯度，当簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从数据挖掘装置的角度进行描述，该文本标签生成装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、以及个人计算(pc，personalcomputer)等设备。

一种数据挖掘的方法，包括：对待处理数据集进行特征提取，以构造特征空间，然后，在特征空间中提取节点特征，以生成待处理数据集的图数据，该图数据至少包括一个节点，再然后，在图数据中筛选出所述节点对应的数据簇，计算数据簇的数据纯净度，得到数据簇的簇内纯度，当簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据。

如图2所示，该数据挖掘方法的具体流程如下：

101、对待处理数据集进行特征提取，以构造特征空间。

其中，特征空间可以包括所有特征向量存在的空间，该空间中存储待待处理数据集中的所有特征，以特征向量的形式存储，包含了特征与特征之间的关系属性，比如，通过节点来表示特征与特征之间的关系，还包含了特征自身的属性。

(1)获取待处理数据集；

例如，获取待处理数据集的方法可以有多种，比如，可以从互联网中获取数据，比如下载或者收集，将数据组成数据集，还可以包括用户将数据上传至服务器，该数据挖掘装置从服务器中获取用户上传的数据组成数据集，其中数据集中可以包括一种类型的数据，还可以包括多种类型的数据。

(2)对待处理数据集进行特征提取，以构造特征空间；

例如，对待处理数据集进行特征提取的方法有多种，比如，可以采用深度残差网络对待处理数据集进行特征提取，提取出待处理数据集中数据的特征信息，比如，数据的结构、数据与数据之间的关系和/或数据的类型等特征信息。将提取出的特征信息以特征向量的形式进行排列后存储，以构造特征空间。比如，利用特征与特征之间的关系，构建特征空间的整体结构，其中整体结构中的连接位置可以为特征与特征之间的交点或节点，利用特征自身的属性完善或充实特征空间，以形成包含所有提取出的特征信息的特征空间，并在特征空间中对所有的特征信息进行存储。

102、在特征空间中提取节点特征，以生成待处理数据集的图数据，该图数据至少包括一个节点。

其中，节点特征可以为特征与特征之间的相互关系构成的交点或者节点的特征信息，节点特征中可以包括一个或多个节点的信息。图数据可以为数据结构中的一种，也可以称之为图，其中可以包括节点和边，节点可以具有两个或多个相邻元素，两个节点之间的连接叫做边，

例如，在特征空间中提取节点特征，对节点特征进行分类，分类的方式可以有多种，比如，可以通过层次聚类的方式对节点特征进行分类，还可以采用k邻近算法对节点特征进行分类，得到不同类型的节点特征，比如，按节点特征位于特征空间的位置不同，可以分为头部节点特征、中间节点特征和尾部节点特征。

在根据分类的结果，在各个种类的节点特征中提取对应的节点信息，比如，在头部节点特征中提取头部的一个或多个节点信息，在中间节点特征中提取中间的一个或多个节点信息，在尾部节点特征中提取尾部的一个或多个节点信息。根据提取的各个种类的节点信息构建关系树，比如，可以根据提取到的节点信息之间的相互关系，构建关系树，譬如，在尾部的一个或多个节点信息中获取它们的相互关系，根据相互关系判断根节点的节点信息，基于跟节点的节点信息构建关系数的根部，根据获取到的根节点的信息，依次找出关系树中根节点往上的树干中的节点，根据树干上干路的节点信息，在剩下的节点信息中搜索与干路上节点相对应的支路上的节点，将这些节点相互连接，就构成了关系树的支路和干路，再根据支路和干路上的节点信息，获取支路上叶节点的信息，以完成关系树的构建。

根据构建的关系树，生成待处理数据集的图数据。比如，可以通过将节点上的特征属性填充或融合至关系树中，使得关系树中每个节点包括一个或多个数据，还可以将特征中的数据映射至关系树中每条连接线，以构成图数据的边。生成的图数据将待处理数据集中的数据结构化和可视化，从图数据中可以直观的反映出数据集中数据与数据之间的位置关系和结构关系等相互关系，还可以包括数据自身的属性信息，常见的图数据结构如图3所示，各个节点或者顶点可以为数据集中的各个数据，各个数据之间的关于可以通过边线来表示，如果在边线上添加数据与数据之间的关系，图数据中的边线也可以表示数据集中的某些数据。

其中，关系树又称树形结构，可以为数据元素之间存在着“一对多”的树形关系的数据结构，是一类重要的非线性数据结构。在树形结构中，元素与元素之间通过节点相连，构成树形结构，其中，把树形结构比作一棵树，树根节点没有前驱节点，其余每个节点有且只有一个前驱节点。叶子节点没有后续节点，其余每个节点的后续节点数可以是一个也可以是多个。

103、在图数据中筛选节点对应的数据簇。

其中，数据簇又称之为簇，可以为数据存储中的最小的存储管理单位，比如，一个文件通常存放在一个或多个簇里，但至少要单独占据一个“簇”，也就是说两个文件不能存放在同一个簇中。简单的来说，就是文件或数据存在计算机系统中数据簇中，一个或一类文件存储在同一数据簇内。

例如，在图数据中随机挑选一个节点，将挑选的节点作为目标节点，利用挑选的目标节点去搜索目标节点对应的邻节点，搜索邻节点的方法有多种，比如，可以通过余弦相似性来找到目标节点的k个邻节点，k可以为任意值，其中邻节点可以包括与目标节点直接相邻的节点，还可以包括与目标节点在图数据中相隔距离在预设距离阈值内的节点，譬如，在图数据中将目标节点和剩余的其他节点转为为空间中的向量，利用剩余的其他节点转化的向量与目标节点转为的目标向量之间夹角的余弦值作为衡量或判断剩余的其他节点与目标节点的余弦距离，通过剩余的其他节点与目标节点的余弦距离与预设距离阈值进行判断，将余弦距离在预设距离阈值内的剩余的节点作为目标节点的邻节点。

在图数据中对目标节点及其对应的邻节点进行层次聚类，得到目标节点的聚类图，其中，层次聚类的合并算法可以为通过计算两类数据点间的相似性，对所有数据点中最为相似的两个数据点进行组合，并反复迭代这一过程。简单来说层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性，距离越小，相似度越高。并将距离最近的两个数据点或类别进行组合，生成聚类图，进而完成数据的分类。比如，在图数据中，每个节点可以看成一个或者多个数据，得到的目标节点及其对应的邻节点可以包括多个或者多类的数据，通过计算目标节点及其对应的邻节点的多个数据间的相似性，对所有数据中最为相似的两个数据进行组合，并反复迭代这一过程，最后将目标节点及其对应的邻节点中的数据分为两类或者多类，并生成聚类图。

在聚类图中筛选目标节点对应的数据簇，比如，在聚类图中，根据目标节点，生成目标节点的聚类子图，将聚类子图作为目标节点对应的数据簇。其中，聚类子图可以看作聚类图中跟目标节点聚类最近的或者最为相似的一个或者多个数据的组成的子拓扑图。可以看出数据簇中包含多个数据，且多个数据可以是一类或者多类。

104、计算数据簇的数据纯净度，得到该数据簇的簇内纯度。

其中，数据纯净度可以包括数据簇内的各种或者各类数据的数据量与总数据量之间的比值。簇内纯度可以包括数据簇内数据数量最多的一类数据与总数据量之间的比值。

例如，采用训练后图识别模型对数据簇进行特征提取，以得到该数据簇的数据信息。比如，可以通过图卷积神经网络(graphconvolutionalnetwork，gcn)对数据簇进行特征提取，以得到该数据簇的数据信息，具体可以如下：

数据簇内的每一个节点将自身特征信息经过变换后发送给各自的邻节点，此时的邻节点包括通过边线直接相连的邻节点，每个节点将各个的邻节点的发送的特征信息聚集起来进行特征信息的融合，得到该数据簇内的数据信息，其中，数据信息包括数据簇内所有数据的总数量，还包括所有数据的属性信息。

其中，选择的目标节点vj作为输入至gcn模型的中心顶点，gcn模型采用与目标节点vj视觉特征上相关联的顶点集构成的聚类子图(数据簇)作为输入，对该聚类子图(数据簇)进行特征提取，得到该聚类子图(数据簇)的数据信息。计算公式如下：

其中，a(pi)为目标节点vj视觉特征上相关联的顶点集构成的聚类子图，和分别为聚类子图中的目标节点与其相关联的任意节点的数据信息，是个对角矩阵，i为单位矩阵，fl(pi)是第l层的特征表达，wl是第l层gcn模型学到的特征映射，σ是激活函数。在此需要说明的是激活函数可以选择relu(一种激活函数)。

gcn模型通过特征提取获取数据簇内的数据信息后，根据数据信息对数据簇内的数据进行分类，比如，根据数据的属性信息进行分类，还可以根据数据的结构进行分类，譬如，根据数据的结构进行分类可以包括数据结构相同的数据可以划分为一类。根据分类结果，在数据信息中获取各个类别数据的数量和数据簇的数据总数量。比如，根据分类结果，可以分为a类数据、b类数据和c类数据，其中a类数据包括数据1和数据2，b类数据包括数据3和数据4，c类数据包括数据5和数据6，在数据信息中获取数据1至数据6的数量，基于获取的数据1至数据6的数据，可以得到a类数据的数量为数据1和数据2的数量之和，同理可以得到b类数据和c类数据的数量，同时也能得到数据簇内所有数据的总数量。

在各个类别数据的数量中筛选数据最多的数据，以作为目标数据。比如，如图4所示，正方形代表a类数据，圆形代表b类数据，五角星代表c类数据，假设a类数据的数量为100个，b类数据为20个，c类数据为10个，则在a、b和c三类数据中筛选出a类数据(即图4中的正方形)为数量最多的数据，将a类数据(即图4中的正方形)作为目标数据，也可以看作将a类数据(即图4中的正方形)作为该数据簇所代表的类，对应的该数据簇的簇内纯度即为a类数据(即图4中的正方形)的数据纯净度，计算目标数据与数据簇的数据总数量的比值，得到数据簇的簇内纯度，如图4所示，簇内纯度为a类数据的数量与数据簇中a、b和c三类数据的总数量的比值，计算公式如下：

其中，purity(pi,cgt)为目标数据的簇内纯度，wk为数据簇内的数据总数量，cgt＝c1,c2,…,cm是原始分类的结果。

例如，还是以a类数据的数量为100个，b类数据为20个，c类数据为10个为例，目标数据即为a类数据，则该数据簇的簇内纯度为a类数据的数量100个与数据簇内数据总数量130个比值，约等于0.769。

可选的，该训练后图识别模型可以除了可以由运维人员预先进行设置之外，也可以由该数据挖掘装置自行训练来得到。即步骤“采用训练后图识别模型对数据簇进行特征提取”之前，该数据挖掘方法还可以包括：

(1)采集多个数据集样本，该数据集样本包括已标注簇内纯度的数据簇。

例如，采集多个数据集样本的方式可以由多种，比如，可以从互联网上下载已知数据类型和数量的数据组成数据簇，将这些数据簇组成数据集样本，在根据计算公式计算出数据簇的簇内纯度并进行标注，还可以通过将已知数据类型和数据的数据集样本和数据集样本数据簇对应的簇内纯度上传至该数据挖掘装置。

(2)采用预设图识别模型对数据集样本的簇内纯度进行预测，得到预测簇内纯度。

例如，具体可以通过对数据集样本进行特征提取，以构造特征空间，在特征空间中提取节点特征，以生成数据集样本的图数据，该图数据至少包括一个节点，在该图数据中筛选出节点对应的数据簇，计算该数据簇的数据纯净度，得到数据集中数据簇的预测簇内纯度。

(3)根据预测的簇内纯度与标注的簇类纯度对预设图识别模型进行收敛，得到训练后图识别模型。

本发明实施例中，可以通过插值损失函数，根据数据集样本中标注的数据簇的簇内纯度与预测簇内纯度对预设图识别模型进行收敛，得到训练后图识别模型。譬如，具体可以如下：

采用dice函数(一种损失函数)，根据该数据集样本中标注的数据簇的簇内纯度和预测簇内纯度对该图识别模型中用于计算簇内纯度输出的参数进行调整，以及通过插值损失函数，根据该数据集样本中标注的数据簇的簇内纯度和预测簇内纯度对该图识别模型中用于计算簇内纯度输出的参数进行调整，得到训练后图识别模型。

可选的，为了提高上下文特征的精确性，除了采用dice函数之外，还可以采用其他的损失函数如交叉熵损失函数来进行收敛，具体可以如下：

采用交叉熵损失函数，根据该数据集样本中标注的数据簇的簇内纯度和预测簇内纯度对该图识别模型中用于计算簇内纯度输出的参数进行调整，以及通过插值损失函数，根据该数据集样本中标注的数据簇的簇内纯度和预测簇内纯度对该图识别模型中用于计算簇内纯度输出的参数进行调整，得到训练后图识别模型。

105、当簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据。

(1)当簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据；

例如，当所述簇内纯度低于预设纯度阈值时，确定数据对应的目标节点，比如，计算a节点对应的数据簇的簇内纯度为0.769，预设簇内纯度为0.8，则a节点对应的数据簇的簇内纯度低于预设簇内纯度阈值，说明a节点就为需要挖掘的数据对应的目标节点。

在待处理数据集的图数据中筛选目标节点对应的图数据，比如，确定目标节点为a节点后，根据a节点的聚类子图获取a节点在图数据的聚类图中的位置，基于a节点在图数据的聚类图中的位置，可以继续获取a节点在图数据中的目标区域，根据图数据的目标区域获取a节点在数据集对应的数据，将该数据作为待处理数据集中需要挖掘的数据，即该数据为数据集中的一个需要挖掘的badcase，挖掘完成后继续对下一个节点对应的数据簇计算簇内纯度，直到完成图数据中全部节点对应的数据簇的簇内纯度的计算完成为止。

(2)当簇内纯度不低于预设簇内纯度阈值时，继续下一个节点对应的数据簇的簇内纯度计算。

例如，当簇内纯度不低于预设簇内纯度阈值时，获取下一个目标节点对应的数据簇。比如，a节点对应的数据簇的簇内纯度为0.9，预设簇内纯度阈值为0.8，则a节点对应的数据簇中不包含badcase，获取图数据中b节点对应的数据簇，对b节点对应的数据簇的簇内纯度进行计算，依次对待处理数据集对应图数据中剩余节点进行处理，直到完成所有节点对应的数据簇的簇内纯度的计算为止。

由以上可知，本发明实施例对待处理数据集进行特征提取，以构造特征空间，在特征空间中提取节点特征，以生成待处理数据集的图数据，该图数据至少包括一个节点，在图数据中筛选出节点对应的数据簇，计算数据簇的数据纯净度，得到数据簇的簇内纯度，当簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据；由于该方案不仅考察了数据簇内所有的特征信息，而且通过数据簇内的簇内纯度去评估坏档，进而进行坏档挖掘，降低了对特征表征的过渡依赖，可以更加快速、高效的、准确的挖掘出数据中的坏档(badcase)，从而提高数据中坏档的命中率。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该数据挖掘装置具体集成在电子设备为例进行说明。

(一)图识别模型的训练

首先，电子设备采集多个数据集样本，比如，可以从互联网上下载已知数据类型和数量的数据组成数据簇，将这些数据簇组成数据集样本，在根据计算公式计算出数据簇的簇内纯度并进行标注，还可以通过将已知数据类型和数据的数据集样本和数据集样本中数据簇对应的簇内纯度上传至该数据挖掘装置。

其次，电子设备可以将数据集样本输入至预设图识别模型，通过对数据集样本进行特征提取，以构造特征空间，在特征空间中提取节点特征，以生成数据集样本的图数据，该图数据至少包括一个节点，在该图数据中筛选出节点对应的数据簇，计算该数据簇的数据纯净度，得到数据集中数据簇的预测簇内纯度。

再者，电子设备根据预测的簇内纯度与标注的簇类纯度对预设图识别模型进行收敛，得到训练后图识别模型。比如，具体可以采用dice函数(一种损失函数)，根据该数据集样本中标注的数据簇的簇内纯度和预测簇内纯度对该图识别模型中用于计算簇内纯度输出的参数进行调整，以及通过插值损失函数，根据该数据集样本中标注的数据簇的簇内纯度和预测簇内纯度对该图识别模型中用于计算簇内纯度输出的参数进行调整，得到训练后图识别模型。

可选的，为了提高上下文特征的精确性，除了采用dice函数之外，还可以采用其他的损失函数如交叉熵损失函数来进行收敛，具体可以如下：

(二)通过训练后图识别模型，便可以对待处理数据集的图数据中节点对应的数据簇计算簇内纯度，当数据簇的簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据。

如图5所示，一种数据挖掘方法，具体流程如下：

201、电子设备获取待处理数据集。

例如，电子设备可以从互联网中获取数据，比如下载或者收集，将数据组成数据集，还可以包括用户将数据上传至服务器，该数据挖掘装置从服务器中获取用户上传的数据组成数据集，其中数据集中可以包括一种类型的数据，还可以包括多种类型的数据。

202、电子设备对待处理数据集进行特征提取，以构造特征空间。

例如，电子设备可以采用深度残差网络对待处理数据集进行特征提取，提取出待处理数据集中数据的特征信息，比如，数据的结构、数据与数据之间的关系和/或数据的类型等特征信息。将提取出的特征信息以特征向量的形式进行排列后存储，以构造特征空间。比如，利用特征与特征之间的关系，构建特征空间的整体结构，其中整体结构中的连接位置可以为特征与特征之间的交点或节点，利用特征自身的属性完善或充实特征空间，以形成包含所有提取出的特征信息的特征空间，并在特征空间中对所有的特征信息进行存储。

203、电子设备在特征空间中提取节点特征，以生成待处理数据集的图数据，该图数据至少包括一个节点。

例如，电子设备在特征空间中提取节点特征，可以通过层次聚类的方式对节点特征进行分类，还可以采用k邻近算法对节点特征进行分类，得到不同类型的节点特征，比如，按节点特征位于特征空间的位置不同，可以分为头部节点特征、中间节点特征和尾部节点特征。

电子设备在根据分类的结果，在各个种类的节点特征中提取对应的节点信息，比如，在头部节点特征中提取头部的一个或多个节点信息，在中间节点特征中提取中间的一个或多个节点信息，在尾部节点特征中提取尾部的一个或多个节点信息。根据提到的各个种类的节点信息构建关系树，比如，可以根据提取到的节点信息之间的相互关系，构建关系树，譬如，在尾部的一个或多个节点信息中获取它们的相互关系，根据相互关系判断根节点的节点信息，基于跟节点的节点信息构建关系数的根部，根据获取到的根节点的信息，依次找出关系树中根节点往上的树干中的节点，根据树干上干路的节点信息，在剩下的节点信息中搜索与干路上节点相对应的支路上的节点，将这些节点相互连接，就构成了关系树的支路和干路，再根据支路和干路上的节点信息，获取支路上叶节点的信息，以完成关系树的构建。

电子设备根据构建的关系树通过将节点上的特征属性填充或融合至关系树中，使得关系树中每个节点包括一个或多个数据，还可以将特征中的数据映射至关系树中每条连接线，以构成图数据的边，最后生成待处理数据集的图数据。生成的图数据将待处理数据集中的数据结构化和可视化，从图数据中可以直观的反映出数据集中数据与数据之间的位置关系和结构关系等相互关系，还可以包括数据自身的属性信息。

204、电子设备在图数据中筛选节点对应的数据簇。

例如，电子设备在图数据中随机挑选一个节点，将挑选的节点作为目标节点，通过余弦相似性来找到目标节点的k个邻节点，k可以为任意值，其中邻节点可以包括与目标节点直接相邻的节点，还可以包括与目标节点在图数据中相隔距离在预设距离阈值内的节点，譬如，在图数据中将目标节点和剩余的其他节点转为为空间中的向量，利用剩余的其他节点转化的向量与目标节点转为的目标向量之间夹角的余弦值作为衡量或判断剩余的其他节点与目标节点的余弦距离，通过剩余的其他节点与目标节点的余弦距离与预设距离阈值进行判断，将余弦距离在预设距离阈值内的剩余的节点作为目标节点的邻节点。

电子设备在图数据中对目标节点及其对应的邻节点进行层次聚类，得到目标节点的聚类图，比如，在图数据中，每个节点可以看成一个或者多个数据，得到的目标节点及其对应的邻节点可以包括多个或者多类的数据，通过计算目标节点及其对应的邻节点的多个数据间的相似性，对所有数据中最为相似的两个数据进行组合，并反复迭代这一过程，最后将目标节点及其对应的邻节点中的数据分为两类或者多类，并生成聚类图。

电子设备在聚类图中筛选目标节点对应的数据簇，比如，在聚类图中，根据目标节点，生成目标节点的聚类子图，将聚类子图作为目标节点对应的数据簇。其中，聚类子图可以看作聚类图中跟目标节点聚类最近的或者最为相似的一个或者多个数据的组成的子拓扑图。可以看出数据簇中包含多个数据，且多个数据可以是一类或者多类。

205、电子设备计算计算数据簇的数据纯净度，得到该数据簇的簇内纯度。

例如，电子设备采用训练后图识别模型对数据簇进行特征提取，以得到该数据簇的数据信息。比如，可以通过图卷积神经网络(graphconvolutionalnetwork，gcn)对数据簇进行特征提取，以得到该数据簇的数据信息，具体可以如下：

电子设备将数据簇内的每一个节点将自身特征信息经过变换后发送给各自的邻节点，此时的邻节点包括通过边线直接相连的邻节点，每个节点将各个的邻节点的发送的特征信息聚集起来进行特征信息的融合，得到该数据簇内的数据信息，其中，数据信息包括数据簇内所有数据的总数量，还包括所有数据的属性信息。

电子设备中的gcn模型通过特征提取获取数据簇内的数据信息后，根据数据信息对数据簇内的数据进行分类，比如，根据数据的属性信息进行分类，还可以根据数据的结构进行分类，譬如，根据数据的结构进行分类可以包括数据结构相同的数据可以划分为一类。根据分类结果，在数据信息中获取各个类别数据的数量和数据簇的数据总数量。比如，根据分类结果，可以分为a类数据、b类数据和c类数据，其中a类数据包括数据1和数据2，b类数据包括数据3和数据4，c类数据包括数据5和数据6，在数据信息中获取数据1至数据6的数量，基于获取的数据1至数据6的数据，可以得到a类数据的数量为数据1和数据2的数量之和，同理可以得到b类数据和c类数据的数量，同时也能得到数据簇内所有数据的总数量。

在各个类别数据的数量中筛选数据最多的数据，以作为目标数据。比如，a类数据的数量为100个，b类数据为20个，c类数据为10个，则在a、b和c三类数据中筛选出a类数据为数量最多的数据，将a类数据作为目标数据，也可以看作将a类数据作为该数据簇所代表的类，对应的该数据簇的簇内纯度即为a类数据的数据纯净度。计算目标数据与数据簇的数据总数量的比值，得到数据簇的簇内纯度。计算公式如下：

其中，purity(pi,cgt)为目标数据的簇内纯度，wk为数据簇内的数据总数量，cgt＝c1,c2,…,cm是原始分类的结果，cj为数据簇内各数据的数量。

206、当所述簇内纯度低于预设纯度阈值时，电子设备获取节点在待处理数据集中对应的数据，得到挖掘的数据。

例如，当所述簇内纯度低于预设纯度阈值时，电子设备确定数据对应的目标节点，比如，计算a节点对应的数据簇的簇内纯度为0.769，预设簇内纯度为0.8，则a节点对应的数据簇的簇内纯度低于预设簇内纯度阈值，说明a节点就为需要挖掘的数据对应的目标节点。

电子设备在待处理数据集的图数据中筛选目标节点对应的图数据，比如，确定目标节点为a节点后，根据a节点的聚类子图获取a节点在图数据的聚类图中的位置，基于a节点在图数据的聚类图中的位置，可以继续获取a节点在图数据中的目标区域，根据图数据的目标区域获取a节点在数据集对应的数据，将该数据作为待处理数据集中需要挖掘的数据，即该数据为数据集中的一个需要挖掘的badcase，挖掘完成后继续对下一个节点对应的数据簇计算簇内纯度，直到完成图数据中全部节点对应的数据簇的簇内纯度的计算完成为止。

207、当簇内纯度不低于预设簇内纯度阈值时，继续下一个节点对应的数据簇的簇内纯度计算。

例如，当簇内纯度不低于预设簇内纯度阈值时，电子设备获取下一个目标节点对应的数据簇。比如，a节点对应的数据簇的簇内纯度为0.9，预设簇内纯度阈值为0.8，则a节点对应的数据簇中不包含badcase，获取图数据中b节点对应的数据簇，对b节点对应的数据簇的簇内纯度进行计算，依次对待处理数据集对应图数据中剩余节点进行处理，直到完成所有节点对应的数据簇的簇内纯度的计算为止。

由以上可知，本实施例电子设备在对待处理数据集进行特征提取，以构造特征空间，在特征空间中提取节点特征，以生成待处理数据集的图数据，该图数据至少包括一个节点，在图数据中筛选出节点对应的数据簇，计算数据簇的数据纯净度，得到数据簇的簇内纯度，当簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据；由于该方案不仅考察了数据簇内所有的特征信息，而且通过数据簇内的簇内纯度去评估坏档，进而进行坏档挖掘，降低了对特征表征的过渡依赖，可以更加快速、高效的、准确的挖掘出数据中的坏档(badcase)，从而提高数据中坏档的命中率。

为了更好地实施以上方法，本发明实施例还提供一种数据挖掘装置，该数据挖掘装置可以集成在电子设备，比如服务器或终端等设备中，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。

例如，如图6所示，该数据挖掘装置可以包括提取单元301、生成单元302、筛选单元303、计算单元304、获取单元305，如下：

(1)提取单元301；

提取单元301，用于对待处理数据集进行特征提取，以构造特征空间。

其中提取单元301可以包括获取子单元3011和提取子单元3012，如图7所示，具体如下：

获取子单元3011，用于获取待处理数据集；

第一提取子单元3012，用于对待处理数据集进行特征提取，以构造特征空间。

例如，获取子单元3011获取待处理数据集，提取子单元3012对待处理数据集进行特征提取，以构造特征空间。

(2)生成单元302；

生成单元302，用于在所述特征空间中提取节点特征，以生成所述待处理数据集的图数据，所述图数据至少包括一个节点。

其中，生成单元302可以包括第二提取子单元3021、第一分类子单元3022，生成子单元3023，如图8所示；

第二提取子单元3021，用于在特征空间中提取节点特征；

第一分类子单元3022，用于对节点特征进行分类；

生成子单元3023，用于根据分类结果，生成待处理数据集的图数据。

例如，第二提取子单元3021在特征空间中提取节点特征，第一分类子单元3022对节点特征进行分类，生成子单元3023根据分类结果，生成待处理数据集的图数据。

(3)筛选单元303；

筛选单元303，用于在图数据中筛选出节点对应的数据簇；

其中，筛选单元303可以包括搜索子单元3031、聚类子单元3032和筛选子单元3033，如图9所示，

搜索子单元3031，用于在图数据中搜索节点对应的邻节点；

聚类子单元3032，用于在图数据中对节点和对应的邻节点进行聚类，得到节点的聚类图；

筛选子单元3033，用于在聚类图中筛选节点对应的数据簇。

例如，搜索子单元3031在图数据中搜索节点对应的邻节点，聚类子单元3032在图数据中对节点和对应的邻节点进行聚类，得到节点的聚类图，筛选子单元3033在聚类图中筛选节点对应的数据簇。

(4)计算单元304；

计算单元304，用于计算数据簇的数据纯净度，得到数据簇的簇内纯度。

其中，计算单元304可以包括第三提取单元3041、第二分类单元3042和计算子单元3043，如图10所示，具体如下：

第三提取单元3041，用于采用训练后图识别模型对数据簇进行特征提取，以得到数据簇的数据信息；

第二分类子单元3042，用于根据数据信息对数据簇内的数据进行分类；

计算子单元3043，用于根据分类结果，计算数据簇的数据纯净度，得到数据簇的簇内纯度。

例如，第三提取单元3041采用训练后图识别模型对数据簇进行特征提取，以得到数据簇的数据信息，第二分类子单元3042根据数据信息对数据簇内的数据进行分类，计算子单元3043根据分类结果，计算数据簇的数据纯净度，得到数据簇的簇内纯度。

(5)获取单元305；

获取单元305，用于当簇内纯度低于预设簇内纯度阈值时，获取节点在待处理数据集中对应的数据，将该数据作为需要挖掘的数据。

例如，当簇类纯度低于预设簇内纯度阈值时，确定数据簇对应的目标节点，在待处理数据集的图数据中筛选目标节点对应的图数据，根据节点对应的图数据，在待处理数据集中获取节点对应的数据，将数据作为待处理数据集中需要挖掘的数据；当簇内纯度不低于预设簇内纯度阈值时，继续下一个节点对应的数据簇的簇内纯度计算。

可选的，该训练后识别模型可以除了由运维人员预先进行设置之外，也可以由该图识别模型自行训练来得到。即如图11所示，该识别模型还可以包括采集单元306和训练单元307，如下：

采集单元306，用于采集多个数据集样本，该数据簇样本包括已标注簇内纯度的数据簇。

例如，采集单元306可以从互联网上下载已知数据类型和数量的数据组成数据簇，将这些数据簇组成数据集样本，在根据计算公式计算出数据簇的簇内纯度并进行标注，还可以通过将已知数据类型和数据的数据集样本和数据集样本数据簇对应的簇内纯度上传至该数据挖掘装置。

训练单元307，用于采用预设图识别模型对数据集样本的簇内纯度进行预测，得到预测簇内纯度，根据预测的簇内纯度与标注的簇类纯度对预设图识别模型进行收敛，得到训练后图识别模型。

例如，训练单元307，具体可以通过对数据集样本进行特征提取，以构造特征空间，在特征空间中提取节点特征，以生成数据集样本的图数据，该图数据至少包括一个节点，在该图数据中筛选出节点对应的数据簇，计算该数据簇的数据纯净度，得到数据集中数据簇的预测簇内纯度，此后，便可以根据预测的簇内纯度与标注的簇类纯度对预设图识别模型进行收敛，得到训练后图识别模型。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本实施例在提取单元301对待处理数据集进行特征提取，以构造特征空间，生成单元302在特征空间中提取节点特征，以生成待处理数据集的图数据，该图数据至少包括一个节点，筛选单元303在图数据中筛选出节点对应的数据簇，计算单元304计算数据簇的数据纯净度，得到数据簇的簇内纯度，获取单元305当簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据；由于该方案不仅考察了数据簇内所有的特征信息，而且通过数据簇内的簇内纯度去评估坏档，进而进行坏档挖掘，降低了对特征表征的过渡依赖，可以更加快速、高效的、准确的挖掘出数据中的坏档(badcase)，从而提高数据中坏档的命中率。

本发明实施例还提供一种电子设备，如图12所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图12中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

对待处理数据集进行特征提取，以构造特征空间，在特征空间中提取节点特征，以生成待处理数据集的图数据，该图数据至少包括一个节点，在图数据中筛选出所述节点对应的数据簇，计算数据簇的数据纯净度，得到数据簇的簇内纯度，当簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据。

例如，具体可以从互联网中获取数据，比如下载或者收集，将数据组成数据集，还可以包括用户将数据上传至服务器，该数据挖掘装置从服务器中获取用户上传的数据组成数据集，采用深度残差网络对待处理数据集进行特征提取，提取出待处理数据集中数据的特征信息，在特征空间中提取节点特征，通过层次聚类的方式对节点特征进行分类，还可以采用k邻近算法对节点特征进行分类，得到不同类型的节点特征，在根据分类的结果，在各个种类的节点特征中提取对应的节点信息，根据提取的各个种类的节点信息构建关系树，根据构建的关系树，生成待处理数据集的图数据，在图数据中随机挑选一个节点，将挑选的节点作为目标节点，利用挑选的目标节点去搜索目标节点对应的邻节点，在图数据中对目标节点及其对应的邻节点进行层次聚类，得到目标节点的聚类图，在聚类图中筛选目标节点对应的数据簇，采用训练后图识别模型对数据簇进行特征提取，以得到该数据簇的数据信息，gcn模型通过特征提取获取数据簇内的数据信息后，根据数据信息对数据簇内的数据进行分类，比如，根据数据的属性信息进行分类，还可以根据数据的结构进行分类，根据分类结果，在数据信息中获取各个类别数据的数量和数据簇的数据总数量，在各个类别数据的数量中筛选数据最多的数据，以作为目标数据，计算目标数据与数据簇的数据总数量的比值，得到数据簇的簇内纯度，当簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据，当簇内纯度不低于预设簇内纯度阈值时，继续下一个节点对应的数据簇的簇内纯度计算。

可选的，该训练后图识别模型可以除了可以由运维人员预先进行设置之外，也可以由该数据挖掘装置自行训练来得到，即该指令还可以执行如下步骤：

采集多个数据集样本，该数据集样本包括已标注簇内纯度的数据簇，采用预设图识别模型对数据集样本的簇内纯度进行预测，得到预测簇内纯度，根据预测的簇内纯度与标注的簇类纯度对预设图识别模型进行收敛，得到训练后图识别模型。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由以上可知，本发明实施例中对待处理数据集进行特征提取，以构造特征空间，在特征空间中提取节点特征，以生成待处理数据集的图数据，该图数据至少包括一个节点，在图数据中筛选出节点对应的数据簇，计算数据簇的数据纯净度，得到数据簇的簇内纯度，当簇内纯度低于预设纯度阈值时，获取节点在待处理数据集中对应的数据，得到挖掘的数据；由于该方案不仅考察了数据簇内所有的特征信息，而且通过数据簇内的簇内纯度去评估坏档，进而进行坏档挖掘，降低了对特征表征的过渡依赖，可以更加快速、高效的、准确的挖掘出数据中的坏档(badcase)，从而提高数据中坏档的命中率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种数据挖掘方法中的步骤。例如，该指令可以执行如下步骤：

可选的，该训练后图识别模型可以除了可以由运维人员预先进行设置之外，也可以由该数据挖掘装置自行训练来得到，即该指令还可以执行如下步骤：

采集多个数据集样本，该数据簇样本包括已标注簇内纯度的数据簇，采用预设图识别模型对数据集样本的簇内纯度进行预测，得到预测簇内纯度，根据预测的簇内纯度与标注的簇类纯度对预设图识别模型进行收敛，得到训练后图识别模型。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(rom，readonlymemory)、随机存取记忆体(ram，randomaccessmemory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种数据挖掘方法中的步骤，因此，可以实现本发明实施例所提供的任一种数据挖掘方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种数据挖掘方法、装置和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余莉萍;石楷弘;王吉;陈志博
技术所有人：腾讯云计算(北京)有限责任公司
我是此专利的发明人

上一篇：一种早期乳腺癌的检测装置及检测方法与流程
上一篇：PRoV、PoSaV和PAstV的多重RT-PCR试剂盒的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。