数据库维护方法和装置与流程

文档序号：11155490阅读：来源：国知局

技术特征：

1.一种数据库维护方法，所述数据库包括多个标准问句和多个扩展问句集，其中每个所述标准问句对应一个所述扩展问句集，其特征在于，包括：

将待入库数据输入标准分类模型以获得匹配的标准问句，其中所述标准分类模型基于多个自然语言语句和与所述多个自然语言语句分别对应的多个标准问句而建立；以及

将所述待入库数据存入数据库中与所述匹配的标准问句所对应的扩展问句集。

2.根据权利要求1所述的方法，其特征在于，所述标准分类模型通过如下方式建立：

将所述多个自然语言语句和与所述多个自然语言语句中每个自然语言语句分别对应的标准问句分别进行分词处理以得到分词向量；以及

将所述分词向量输入分类器中进行训练以建立所述标准分类模型，其中，所述标准分类模型所对应的向量空间包括至少一个分类超平面分割所述向量空间得到的多个空间区域，其中每个所述空间区域对应一个所述标准问句。

3.根据权利要求2所述的方法，其特征在于，所述自然语言语句为所述数据库中已存储的与所述标准问句对应的扩展问句集中的扩展问句。

4.根据权利要求2所述的方法，其特征在于，进一步包括：

向基于所述数据库的问答模块中输入所述多个自然语言问句，通过所述问答模块进行语义匹配以得到所述数据库中匹配的标准问句作为所述多个自然语言语句分别对应的多个标准问句。

5.根据权利要求2所述的方法，其特征在于，所述分类器包括以下几项中的一种或多种的组合：libshorttext分类器、LR分类器、SVM分类器和fastText分类器。

6.根据权利要求1至5中任一所述的方法，其特征在于，进一步包括：

将所述待入库数据进行聚类以获取多个数据聚类集；

其中所述将待入库数据输入标准分类模型以获得匹配的标准问句包括：

将一个数据聚类集中所包括的多个待入库数据分别输入所述标准分类模型以获得与所述一个数据聚类集所匹配的标准问句。

7.根据权利要求6所述的方法，其特征在于，所述将一个数据聚类集中所包括的多个待入库数据分别输入所述标准分类模型以获得与所述一个数据聚类集所匹配的标准问句包括：

将所述一个数据聚类集中所包括的N个待入库数据分别输入所述标准分类模型以获得与所述N个待入库数据所分别匹配的N个标准问句，N为大于等于1的整数；

将所述N个标准问句中匹配所述一个数据聚类集中的待入库数据的数量最多的S个标准问句作为所述一个数据聚类集的S个推荐标准问句，其中S为大于等于1且小于等于N的整数；以及

选取所述S个推荐标准问句中的一个作为所述一个数据聚类集所匹配的标准问句。

8.根据权利要求7所述的方法，其特征在于，所述选取所述S个推荐标准问句中的一个作为所述一个数据聚类集所匹配的标准问句包括：

展示所述S个推荐标准问句；以及

接收选取指令以选取所述S个推荐标准问句中的一个作为所述一个数据聚类集所匹配的标准问句。

9.根据权利要求6所述的方法，其特征在于，所述数据库中包括知识点，所述知识点包括标准问句、扩展问句集和答案；

所述待入库数据为已采集数据中的问句，所述方法进一步包括：

获取一个数据聚类集中所包括的多个所述问句各自对应的预设数量个所述答案以形成所述一个数据聚类的答案集，其中与一个问句对应的预设数量个答案为多个已采集的答案中距离所述一个问句的采集时间最近的预设数量个答案；

对所述一个数据聚类集的答案集中的答案进行聚类以获取所述一个数据聚类集的多个答案聚类集；以及

从所述多个答案聚类集中选取一个答案聚类集中的一个答案作为与所述一个数据聚类集匹配的标准问句所对应知识点的答案存入所述数据库。

10.根据权利要求9所述的方法，其特征在于，所述问句为人工客服数据中的用户问句，所述答案为所述人工客服数据中的人工客服答案。

11.根据权利要求9所述的方法，其特征在于，进一步包括：

将所述待入库数据进行过滤以得到包括预设的业务关键词的待入库数据；和/或，过滤以去除已存储在所述数据库中的待入库数据；

和/或，

将所述已采集的问句和/或答案进行过滤以去除采用反问句式和/或仅包含礼貌用语的问句和/或答案。

12.根据权利要求11所述的方法，其特征在于，所述反问句式包括预设的开头标识和预设的结尾标识；

其中，所述预设的开头标识包括以下几种中的任一种：如何办、咋整、怎么办、如何弄、咋办、怎莫办、则么办、迮么办、怎么整、怎么弄、怎样办、何处、哪儿、在哪和去哪；

所述预设的结尾标识包括以下几种中任的一种：中英文问号，吗、呢和哦。

13.根据权利要求9所述的方法，其特征在于，所述多个数据聚类集和/或所述多个答案聚类集通过语义相似度计算的聚类方式获取。

14.根据权利要求13所述的方法，其特征在于，所述语义相似度计算的聚类方式包括：

将待聚类的多个待入库数据或多个答案引入向量空间以获取对应的多个句向量；

分别获取第M个句向量与已聚类的K个数据聚类集或答案聚类集的句向量平均值之间的最大相似度值，当所述最大相似度值大于预设值时，将第M个句向量所对应的待入库数据或答案聚类到所述最大相似度值对应的数据聚类集或答案聚类集中；当所述最大相似度值小于预设值时，将第M个句向量所对应的待入库数据或答案聚类为第K+1个数据聚类集或答案聚类集，所述K≤M-1，M≥2。

15.根据权利要求14所述的方法，其特征在于，所述语义相似度计算的聚类方式具体包括：

将待聚类的多个待入库数据或多个答案引入向量空间以获取对应的T个句向量Q_T，其中T≥M；

初始K值、中心点P_K-1、以及聚类集{K，[P_K-1]}，其中，K表示聚类的类别数，K的初始值为1，中心点P_K-1的初始值为P₀，P₀＝Q₁，Q₁表示第1个句向量，聚类集的初始值为{1，[Q₁]}；以及

依次对剩下的Q_T进行聚类，计算当前句向量与每个聚类集的中心点的相似度，如果当前句向量与某个聚类集的中心点的相似度大于或等于预设值，则将当前句向量聚类到相应的聚类集中，保持K值不变，将相应的中心点更新为聚类集中所有句向量的向量平均值，相应的聚类集为{K，[句向量的向量平均值]}；如果当前句向量与所有聚类集中的中心点的相似度均小于预设值，则令K＝K+1，增加新的中心点，所述新的中心点的值为当前句向量，并增加新的聚类集{K，[当前句向量]}；

其中，所述聚类集为数据聚类集或答案聚类集。

16.根据权利要求13至15中任一所述的方法，其特征在于，所述多个数据聚类集通过如下聚类方式获取：

对所述待入库数据进行初步聚类以获取多个初步数据聚类集；以及

在每个所述初步数据聚类集中以所述语义相似度计算的聚类方式进行二次聚类以获取多个所述数据聚类集；

和/或所述多个答案聚类集通过如下聚类方式获取：

对所述一个数据聚类集的答案集中的答案进行初步聚类以获取多个初步答案聚类集；以及

在每个所述初步答案聚类集中以所述语义相似度计算的聚类方式进行二次聚类以获取多个所述答案聚类集。

17.根据权利要求16所述的方法，其特征在于，所述初步聚类包括：基于所述待入库数据或所述答案中所包括的关键词进行聚类，或以所述语义相似度计算的聚类方式进行聚类。

18.一种数据库维护装置，所述数据库包括多个标准问句和多个扩展问句集，其中每个所述标准问句对应一个所述扩展问句集，其特征在于，包括：

标准分类模型，基于多个自然语言语句和与所述多个自然语言语句中每个自然语言语句分别对应的标准问句而建立；

标准问句获取模块，配置为将待入库数据输入所述标准分类模型以获得匹配的标准问句；以及

处理模块，配置为将所述待入库数据存入数据库中与所述匹配的标准问句所对应的扩展问句集。

19.根据权利要求18所述的装置，其特征在于，进一步包括：标准分类模型建立模块，包括：

第一分词单元，配置为将所述多个自然语言语句和与所述多个自然语言中每个自然语言语句分别对应的标准问句分别进行分词处理以得到分词向量；以及

训练单元，配置为将所述分词向量输入分类器中进行训练以建立所述标准分类模型，其中，所述标准分类模型所对应的向量空间包括至少一个分类超平面分割所述向量空间得到的多个空间区域，其中每个所述空间区域对应一个所述标准问句。

20.根据权利要求19所述的装置，其特征在于，所述自然语言语句为所述数据库中已存储的与所述标准问句对应的扩展问句集中的扩展问句。

21.根据权利要求19所述的装置，其特征在于，进一步包括：

问答模块，配置为接收所述多个自然语言问句，通过基于所述数据库的语义匹配过程以得到所述数据库中匹配的标准问句作为所述多个自然语言语句分别对应的多个标准问句问答模块。

22.根据权利要求19所述的装置，其特征在于，所述分类器包括以下几项中的一种或多种的组合：libshorttext分类器、LR分类器、SVM分类器和fastText分类器。

23.根据权利要求18至22中任一所述的装置，其特征在于，进一步包括：

数据聚类模块，配置为将所述待入库数据进行聚类以获取多个数据聚类集；

其中，所述标准问句获取模块进一步配置为：将一个数据聚类集中所包括的多个待入库数据分别输入所述标准分类模型以获得与所述一个数据聚类集所匹配的标准问句。

24.根据权利要求23所述的装置，其特征在于，所述标准问句获取模块包括：

输入单元，配置为将所述一个数据聚类集中所包括的N个待入库数据分别输入所述标准分类模型以获得与所述N个待入库数据所分别匹配的N个标准问句，N为大于等于1的整数；

推荐单元，配置为将所述N个标准问句中匹配所述一个数据聚类集中的待入库数据的数量最多的S个标准问句作为所述一个数据聚类集的S个推荐标准问句，其中S为大于等于1且小于等于N的整数；以及

选取单元，配置为选取所述S个推荐标准问句中的一个作为所述一个数据聚类集所匹配的标准问句。

25.根据权利要求24所述的装置，其特征在于，所述选取单元包括：

展示子单元，配置为展示所述S个推荐标准问句；以及

选取指令接收子单元，配置为接收选取指令以选取所述S个推荐标准问句中的一个作为所述一个数据聚类集所匹配的标准问句。

26.根据权利要求23所述的装置，其特征在于，所述数据库中包括知识点，所述知识点包括标准问句、扩展问句集和答案；所述待入库数据为已采集数据中的问句，所述装置进一步包括：

答案获取模块，配置为获取一个数据聚类集中所包括的多个所述问句各自对应的预设数量个所述答案以形成所述一个数据聚类的答案集，其中与一个问句对应的预设数量个答案为多个已采集的答案中距离所述一个问句的采集时间最近的预设数量个答案；

答案聚类模块，配置为对所述一个数据聚类集的答案集中的答案进行聚类以获取所述一个数据聚类集的多个答案聚类集；以及

答案选取模块，配置为从所述多个答案聚类集中选取一个答案聚类集中的一个答案作为与所述一个数据聚类集匹配的标准问句所对应知识点的答案存入所述数据库。

27.根据权利要求26所述的装置，其特征在于，所述问句为人工客服数据中的人工客服问句，所述答案为所述人工客服数据中的人工客服答案。

28.根据权利要求26所述的装置，其特征在于，进一步包括：

第一过滤模块，配置为将所述待入库数据进行过滤以得到包括预设的业务关键词的待入库数据；和/或，过滤以去除已存储在所述数据库中的待入库数据；

和/或，

第二过滤模块，配置为将所述已采集的问句和/或答案进行过滤以去除采用反问句式和/或仅包含礼貌用语的问句和/或答案。

29.根据权利要求28所述的装置，其特征在于，所述反问句式包括预设的开头标识和预设的结尾标识；

所述预设的结尾标识包括以下几种中任的一种：中英文问号，吗、呢和哦。

30.根据权利要求26所述的装置，其特征在于，所述数据聚类模块进一步配置为通过语义相似度计算的聚类方式获取所述多个数据聚类集；和/或

所述答案聚类模块进一步配置为通过语义相似度计算的聚类方式获取所述多个答案聚类集。

31.根据权利要求30所述的装置，其特征在于，所述语义相似度计算的聚类方式包括：

将待聚类的多个待入库数据或多个答案引入向量空间以获取对应的多个句向量；

32.根据权利要求31所述的装置，其特征在于，所述语义相似度计算的聚类方式具体包括：

将待聚类的多个待入库数据或多个答案引入向量空间以获取对应的T个句向量Q_T，其中T≥M；

其中，所述聚类集为数据聚类集或答案聚类集。

33.根据权利要求30至32中任一所述的装置，其特征在于，所述数据聚类模块包括：

数据初步聚类单元，配置为对所述待入库数据进行初步聚类以获取多个初步数据聚类集；以及

数据二次聚类单元，配置为在每个所述初步数据聚类集中以所述相似度计算的聚类方式进行二次聚类以获取多个所述数据聚类集；

和/或，所述答案聚类模块包括：

答案初步聚类单元，配置为对所述一个数据聚类集的答案集中的答案进行初步聚类以获取多个初步答案聚类集；以及

答案二次聚类单元，配置为在每个所述初步答案聚类集中以所述语义相似度计算的聚类方式进行二次聚类以获取多个所述答案聚类集。

34.根据权利要求33所述的所述的装置，其特征在于，所述初步聚类包括：基于所述待入库数据或所述答案中所包括的关键词进行聚类，或以所述语义相似度计算的聚类方式进行聚类。

完整全部详细技术资料下载

当前第2页1 2 3