一种数据的聚类方法和聚类装置与流程

文档序号：12464995阅读：来源：国知局

技术特征：

1.一种数据的聚类方法，其特征在于，包括：

获取待处理数据，所述待处理数据包括测试数据和非测试数据；

对测试数据进行第一分类处理，得到第一分类结果；

采用初始预设值对测试数据进行第二分类处理，得到第二分类结果，所述第二分类处理包括：分别获取第M句数据的句向量与已聚类的L个信息组的句向量平均值之间的最大相似度值，当所述最大相似度值大于所述初始预设值时，将第M句数据聚类到所述最大相似度值对应的信息组中；当所述最大相似度值小于所述初始预设值时，将第M句数据作为第L+1个信息组，所述L小于或等于M-1；

比较所述第二分类结果和所述第一分类结果，当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时，将所述初始预设值作为目标预设值；当以第一分类结果为标准得到第二分类结果的准确率小于阈值时，不断调整所述初始预设值，直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值；

采用目标预设值对非测试数据进行第二分类处理。

2.如权利要求1所述的数据的聚类方法，其特征在于，所述第一分类处理为人工分类。

3.如权利要求1所述的数据的聚类方法，其特征在于，对所述测试数据进行所述第一分类处理得到的所述第一分类结果中的分类数目与对所述测试数据进行所述第二分类处理得到的所述第二分类结果中的分类数目相同。

4.如权利要求1所述的数据的聚类方法，其特征在于，对所述测试数据进行所述第一分类处理得到的所述第一分类结果中各分类的中心点与对所述测试数据进行所述第二分类处理得到的所述第二分类结果中各分类的中心点相同。

5.如权利要求1所述的数据的聚类方法，其特征在于，所述测试数据进行所述第二分类处理得到的所述第二分类结果中各分类的中心点动态变化。

6.如权利要求1所述的数据的聚类方法，其特征在于，第M句数据的句向量通过以下方式获得：

对第M句数据进行预处理和分词处理，得到第M句数据的特征词；

获取所述特征词的词向量，并根据所述词向量获取第M句数据的句向量。

7.如权利要求6所述的数据的聚类方法，其特征在于，得到所述特征词之后，所述方法进一步包括：采用以下任一种或两种方式对所述特征词进行过滤处理：

根据词性对所述特征词进行过滤，保留名词、动词以及形容词；

根据频次对所述特征词进行过滤，保留频次大于频次阈值的特征词。

8.如权利要求6所述的问句信息处理方法，其特征在于，所述第二分类处理具体包括：

对T个句向量Q_T进行聚类，其中T≥M，M≥2；

初始K值、中心点P_K-1、以及聚类问题集{K，[P_K-1]}，其中，K表示聚类的类别数，K的初始值为1，中心点P_K-1的初始值为P₀，P₀＝Q₁，Q₁表示第1个句向量，聚类问题集的初始值为{1，[Q₁]}；

依次对剩下的Q_T进行聚类，计算当前句向量与每个聚类问题集的中心点的相似度，如果当前句向量与某个聚类问题集的中心点的相似度大于或等于预设值，则将当前句向量聚类到相应的聚类问题集中，保持K值不变，将相应的中心点更新为聚类问题集中所有句向量的向量平均值，相应的聚类问题集为{K，[句向量的向量平均值]}；如果当前句向量与所有聚类问题集中的中心点的相似度均小于预设值，则令K＝K+1，增加新的中心点，所述新的中心点的值为当前句向量，并增加新的聚类问题集{K，[当前句向量]}。

9.一种数据的聚类装置，其特征在于，包括：

数据获取模块，用于获取待处理数据，将待处理数据划分为测试数据和非测试数据；

第一分类模块，用于对测试数据进行第一分类处理，得到第一分类结果；

第二分类模块，用于采用初始预设值对测试数据进行第二分类处理，得到第二分类结果，用于采用目标预设值对非测试数据进行分类处理；进一步用于分别获取第M句数据的句向量与已聚类的L个信息组的句向量平均值之间的最大相似度值，当所述最大相似度值大于所述初始预设值时，将第M句数据聚类到所述最大相似度值对应的信息组中；当所述最大相似度值小于所述初始预设值时，将第M句数据作为第L+1个信息组，L小于或等于M-1；

参数确定模块，用于比较第二分类结果和第一分类结果，当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时，将初始预设值作为目标预设值；当以第一分类结果为标准得到第二分类结果的准确率小于阈值时，不断调整初始预设值，直至将初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值。

10.如权利要求9所述的数据的聚类装置，其特征在于，所述第一分类模块包括人工分类子模块，用于采用人工分类进行第一分类处理。

11.如权利要求9所述的数据的聚类装置，其特征在于，所述第二分类模块包括：

第一调整子模块，用于将测试数据进行第一分类处理得到的第一分类结果中的分类数目与对测试数据进行第二分类处理得到的第二分类结果中的分类数目相同。

12.如权利要求9所述的数据的聚类装置，其特征在于，所述第二分类模块包括：

第二调整子模块，用于将测试数据进行第一分类处理得到的第一分类结果中各分类的中心点与对测试数据进行第二分类处理得到的第二分类结果中各分类的中心点相同。

13.如权利要求9所述的数据的聚类装置，其特征在于，所述第二分类模块包括：

第三调整子模块，用于对测试数据进行所述第二分类处理得到的所述第二分类结果中各分类的中心点动态变化。

14.如权利要求9所述的数据的聚类装置，其特征在于，还包括：

语句处理模块，用于对第M句数据进行预处理和分词处理，得到第M句数据的特征词；

句向量处理模块，用于获取特征词的词向量，并根据词向量获取第M句数据的句向量。

15.如权利要求14所述的数据的聚类装置，其特征在于，还包括以下装置的一种或两种：

词性过滤模块，用于根据词性对所述特征词进行过滤，保留名词、动词以及形容词；

词频过滤模块，用于根据频次对所述特征词进行过滤，保留频次大于频次阈值的特征词。

16.如权利要求9所述的数据的聚类装置，其特征在于，所述第二分类模块还包括：

句向量获取子模块，用于获取T个句向量Q_T；

聚类初始子模块，用于初始K值、中心点P_K-1、以及聚类问题集{K，[P_K-1]}，其中，K表示聚类的类别数，K的初始值为1，中心点P_K-1的初始值为P₀，P₀＝Q₁，Q₁表示第1个句向量，聚类问题集的初始值为{1，[Q₁]}；

聚类比较子模块，用于依次对剩下的Q_T进行聚类，计算当前句向量与每个聚类问题集的中心点的相似度；

第一判断子模块，用于当前句向量与某个聚类问题集的中心点的相似度大于或等于预设值，则将当前句向量聚类到相应的聚类问题集中，保持K值不变，将相应的中心点更新为聚类问题集中所有句向量的向量平均值；

形成相应的聚类问题集为{K，[句向量的向量平均值]}；

第二判断子模块，用于当前句向量与所有聚类问题集中的中心点的相似度均小于预设值，则令K＝K+1，增加新的中心点，所述新的中心点的值为当前句向量，增加新的聚类问题集{K，[当前句向量]}。

完整全部详细技术资料下载

当前第2页1 2 3