知识聚类方法、装置、计算机设备和存储介质与流程

文档序号:32406661发布日期:2022-12-02 20:37阅读:65来源:国知局
知识聚类方法、装置、计算机设备和存储介质与流程

1.本技术涉及人工智能技术领域,特别是涉及一种知识聚类方法、装置、计算机设备和存储介质。


背景技术:

2.随着人工智能技术的快速发展,人工智能技术在各行各业中得到了广泛的应用,例如,智能客服就得到了普遍应用,为使智能客户准确工作,需要业务人员维护大量的标准问题,以使智能客服在接收到客户的问题后,准确地确定该问题所对应的标准问题,并以此回复标准答案,但上述技术消耗大量劳动力,为解决上述问题,出现了通过聚类方法维护、更新标准问题的技术。
3.在传统技术中,需要预先确定类簇的数量和类簇中心,通过待归类知识点与各类簇中心的距离,来确定待归类知识点属于哪一个类簇,在上述过程中,仅能将待归类知识点分到已有的类簇中,无法实现在聚类过程中,实时更新类簇中心,导致聚类的准确度降低。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高聚类准确度的知识聚类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种知识聚类方法。所述方法包括:
6.在待归类知识点中存在目标知识点的情况下,确定各所述目标知识点的影响因子,所述目标知识点不属于数据库中的任一历史类簇,所述影响因子用于表征所述目标知识点对与其关联的知识点的影响程度;
7.根据各所述目标知识点的所述影响因子,从所述目标知识点中确定新增类簇中心;
8.根据所述新增类簇中心,对各所述目标知识点进行聚类,得到新增类簇,将所述新增类簇存储在所述数据库中。
9.在其中一个实施例中,所述方法还包括:
10.针对所述数据库中的任一历史类簇,根据该所述历史类簇的历史类簇中心,从所述历史类簇的历史知识点中确定所述历史类簇对应的预设类簇中心;
11.根据各所述历史类簇对应的所述预设类簇中心,对待归类知识点进行聚类,得到所述待归类知识点中归属于各所述历史类簇的第一知识点;
12.将所述待归类知识点中除所述第一知识点之外的第二知识点,作为所述目标知识点。
13.在其中一个实施例中,所述根据各所述历史类簇对应的所述预设类簇中心,对待归类知识点进行聚类,得到所述待归类知识点中归属于各所述历史类簇的第一知识点,包括:
14.针对任一所述历史类簇和任一所述待归类知识点,确定所述待归类知识点与所述
历史类簇对应的所述预设类簇中心的第一相似度;
15.在所述第一相似度满足所述历史类簇对应的聚类条件的情况下,将所述待归类知识点作为归属于所述历史类簇的第一知识点。
16.在其中一个实施例中,所述确定各所述目标知识点的影响因子,包括:
17.针对所述目标知识点中的第一目标知识点,确定所述第一目标知识点与各第二目标知识点的第二相似度,其中,第一目标知识点为所述目标知识点中的任一所述目标知识点,所述第二目标知识点为所述目标知识点中除所述第一目标知识点之外的知识点;
18.根据所述第一目标知识点与各所述第二目标知识点的第二相似度,确定知识点集合,所述知识点集合中包括所述第一目标知识点及关联知识点,所述关联知识点为与所述第一目标知识点关联的所述第二目标知识点;
19.确定所述知识点集合中各所述目标知识点的激活状态,其中,所述激活状态用于表征所述目标知识点激活成功或者所述目标知识点激活失败;
20.根据所述知识点集合中各所述目标知识点的所述激活状态,确定所述第一目标知识点的影响因子。
21.在其中一个实施例中,所述确定所述知识点集合中各所述目标知识点的激活状态,包括:
22.针对所述知识点集合中的任一第三目标知识点,确定所述第三目标知识点与各第四目标知识点的第三相似度之和,其中,所述第三目标知识点为所述目标知识点中的任一目标知识点,所述第四目标知识点为所述目标知识点中除所述第三目标知识点之外的知识点;
23.在所述第三相似度之和满足激活条件的情况下,确定所述目标知识点的激活状态为所述目标知识点激活成功;
24.或者,在所述第三相似度之和不满足所述激活条件的情况下,确定所述目标知识点的激活状态为所述目标知识点激活失败。
25.在其中一个实施例中,所述根据所述知识点集合中各所述目标知识点的所述激活状态,确定所述第一目标知识点的影响因子,包括:
26.根据各所述目标知识点的所述激活状态,确定激活知识数量,所述激活知识数量为所述知识点集合中,激活状态为所述目标知识点激活成功的所述目标知识点的个数;
27.确定所述知识点集合中所述目标知识点的总个数;
28.根据所述激活知识数量和所述知识点集合中所述目标知识点的总个数,确定所述第一目标知识点的影响因子。
29.第二方面,本技术还提供了一种知识聚类装置。所述装置包括:
30.第一确定模块,用于在待归类知识点中存在目标知识点的情况下,确定各所述目标知识点的影响因子,所述目标知识点不属于数据库中的任一历史类簇,所述影响因子用于表征所述目标知识点对与其关联的知识点的影响程度;
31.第二确定模块,用于根据各所述目标知识点的所述影响因子,从所述目标知识点中确定新增类簇中心;
32.第一聚类模块,用于根据所述新增类簇中心,对各所述目标知识点进行聚类,得到新增类簇,将所述新增类簇存储在所述数据库中。
33.在其中一个实施例中,所述装置还包括:
34.第三确定模块,用于针对所述数据库中的任一历史类簇,根据该所述历史类簇的历史类簇中心,从所述历史类簇的历史知识点中确定所述历史类簇对应的预设类簇中心;
35.第二聚类模块,用于根据各所述历史类簇对应的所述预设类簇中心,对待归类知识点进行聚类,得到所述待归类知识点中归属于各所述历史类簇的第一知识点,将所述待归类知识点中除所述第一知识点之外的第二知识点,作为所述目标知识点。
36.在其中一个实施例中,所述第二聚类模块还用于:
37.针对任一所述历史类簇和任一所述待归类知识点,确定所述待归类知识点与所述历史类簇对应的所述预设类簇中心的第一相似度;
38.在所述第一相似度满足所述历史类簇对应的聚类条件的情况下,将所述待归类知识点作为归属于所述历史类簇的第一知识点。
39.在其中一个实施例中,所述第一确定模块还用于:
40.针对所述目标知识点中的第一目标知识点,确定所述第一目标知识点与各第二目标知识点的第二相似度,其中,第一目标知识点为所述目标知识点中的任一所述目标知识点,所述第二目标知识点为所述目标知识点中除所述第一目标知识点之外的知识点;
41.根据所述第一目标知识点与各所述第二目标知识点的第二相似度,确定知识点集合,所述知识点集合中包括所述第一目标知识点及关联知识点,所述关联知识点为与所述第一目标知识点关联的所述第二目标知识点;
42.确定所述知识点集合中各所述目标知识点的激活状态,其中,所述激活状态用于表征所述目标知识点激活成功或者所述目标知识点激活失败;
43.根据所述知识点集合中各所述目标知识点的所述激活状态,确定所述第一目标知识点的影响因子。
44.在其中一个实施例中,所述第一确定模块还用于:
45.针对所述知识点集合中的任一第三目标知识点,确定所述第三目标知识点与各第四目标知识点的第三相似度之和,其中,所述第三目标知识点为所述目标知识点中的任一目标知识点,所述第四目标知识点为所述目标知识点中除所述第三目标知识点之外的知识点;
46.在所述第三相似度之和满足激活条件的情况下,确定所述目标知识点的激活状态为所述目标知识点激活成功;
47.或者,在所述第三相似度之和不满足所述激活条件的情况下,确定所述目标知识点的激活状态为所述目标知识点激活失败。
48.在其中一个实施例中,所述第一确定模块还用于:
49.根据各所述目标知识点的所述激活状态,确定激活知识数量,所述激活知识数量为所述知识点集合中,激活状态为所述目标知识点激活成功的所述目标知识点的个数;
50.确定所述知识点集合中所述目标知识点的总个数;
51.根据所述激活知识数量和所述知识点集合中所述目标知识点的总个数,确定所述第一目标知识点的影响因子。
52.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
53.在待归类知识点中存在目标知识点的情况下,确定各所述目标知识点的影响因子,所述目标知识点不属于数据库中的任一历史类簇,所述影响因子用于表征所述目标知识点对与其关联的知识点的影响程度;
54.根据各所述目标知识点的所述影响因子,从所述目标知识点中确定新增类簇中心;
55.根据所述新增类簇中心,对各所述目标知识点进行聚类,得到新增类簇,将所述新增类簇存储在所述数据库中。
56.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
57.在待归类知识点中存在目标知识点的情况下,确定各所述目标知识点的影响因子,所述目标知识点不属于数据库中的任一历史类簇,所述影响因子用于表征所述目标知识点对与其关联的知识点的影响程度;
58.根据各所述目标知识点的所述影响因子,从所述目标知识点中确定新增类簇中心;
59.根据所述新增类簇中心,对各所述目标知识点进行聚类,得到新增类簇,将所述新增类簇存储在所述数据库中。
60.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
61.在待归类知识点中存在目标知识点的情况下,确定各所述目标知识点的影响因子,所述目标知识点不属于数据库中的任一历史类簇,所述影响因子用于表征所述目标知识点对与其关联的知识点的影响程度;
62.根据各所述目标知识点的所述影响因子,从所述目标知识点中确定新增类簇中心;
63.根据所述新增类簇中心,对各所述目标知识点进行聚类,得到新增类簇,将所述新增类簇存储在所述数据库中。
64.上述知识聚类方法、装置、计算机设备、存储介质和计算机程序产品,确定待归类知识点中不属于数据库中的任一历史类簇的目标知识点,确定各目标知识点的影响因子,影响因子用于表征目标知识点对与其关联的知识点的影响程度,并且根据各目标知识点的影响因子,从目标知识点中确定新增类簇中心,根据新增类簇中心,对各目标知识点进行聚类,得到新增类簇,将新增类簇存储在所述数据库中。基于上述知识聚类方法、装置、计算机设备、存储介质和计算机程序产品,将不归属于任一历史类簇的目标知识点独立出来,并根据用于表征目标知识点对其他目标知识点的影响程度的影响因子,从目标知识点中确定一个新的类簇中心(即新增类簇中心),并根据新增类簇中心,对各目标知识点进行聚类,可以得到一个新增类簇,在上述聚类过程中,新增类簇会实时进行更新,从而可以不断地发现新的类簇,将待归类知识分到最合适的类簇中,提高了聚类的准确度。
附图说明
65.图1为一个实施例中知识聚类方法的流程示意图;
66.图2为另一个实施例中知识聚类方法的流程示意图;
67.图3为另一个实施例中知识聚类方法的流程示意图;
68.图4为另一个实施例中知识聚类方法的流程示意图;
69.图5为另一个实施例中知识聚类方法的流程示意图;
70.图6为另一个实施例中知识聚类方法的流程示意图;
71.图7为一个实施例中知识聚类系统的结构示意图;
72.图8为一个实施例中知识聚类装置的结构框图;
73.图9为一个实施例中计算机设备的内部结构图。
具体实施方式
74.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
75.在一个实施例中,如图1所示,提供了一种知识聚类方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
76.步骤102,在待归类知识点中存在目标知识点的情况下,确定各目标知识点的影响因子,所述目标知识点不属于数据库中的任一历史类簇,影响因子用于表征目标知识点对与其关联的知识点的影响程度。
77.在一些应用场景中,可以应用智能客服来回答客户输入的各种问题,其中,将客户输入的问句称为知识点,待归类知识点即为待进行聚类的知识点。
78.本技术实施例中,首先可以对待归类知识点进行过滤处理,以将问句中的无效字符和无意义字符过滤,例如,标点符号为无意义字符、“了”“啦”等语气词为无效字符。可以对待归类知识点进行数据拆分,将完整的问句拆分为一个个词语,示例性的,以待归类知识点为“今天天气如何”为例,经过数据拆分后为“今天”、“天气”、“如何”。最后,可以将拆分后得到的词语输入到句向量模型中,通过句向量模型得到该待归类知识点对应的句向量,该句向量为待归类知识点映射到高维空间的向量。
79.本技术实施例中,可以得到各待归类知识点对应的句向量,之后再对各待归类知识点对应的句向量进行聚类,判断各待归类知识点能否归属于数据库中的任一历史类簇中,当某一待归类知识点不属于任一历史类簇时,则将该待归类知识点作为目标知识点。
80.本技术实施例中,可以根据目标知识点对其他知识点的影响程度,得到目标知识点的影响因子,其中,对于任一目标知识点,影响因子可以表征该目标知识点对与其关联的目标知识点的影响程度,影响程度越大表明该目标知识点所表示的含义与其他目标知识点所表示的含义的相似性越大,以该目标知识点为类簇中心,所得到的类簇中的知识点个数越多。
81.步骤104,根据各目标知识点的影响因子,从目标知识点中确定新增类簇中心。
82.本技术实施例中,可以按照由大到小的顺序对目标知识点的影响因子进行排序,将最大影响因子对应的目标知识点作为新增类簇中心。
83.步骤106,根据新增类簇中心,对各目标知识点进行聚类,得到新增类簇,将新增类簇存储在数据库中。
84.本技术实施例中,可以根据新增类簇中心,对各目标知识点进行聚类,得到新增类簇,属于新增类簇的目标知识点所表达的语义均相同或者相近,其中,新增类簇可以存储在数据库中,成为新的历史类簇。
85.上述知识聚类方法中,将不归属于任一历史类簇的目标知识点独立出来,并根据各目标知识点的影响因子,来确定一个新的类簇中心(即新增类簇中心),其中,新增类簇中心是影响因子最大的目标知识点,影响因子越大则表示目标知识点对其他知识点的影响程度越大,也表示与目标知识点所表达语义相似的知识点越多,故根据新增类簇中心,对各目标知识点进行聚类,可以得到一个新增类簇,在上述聚类过程中,新增类簇会实时进行更新,从而可以不断地发现新的类簇,将待归类知识分到最合适的类簇中,提高了聚类的准确度。
86.在一个实施例中,如图2所示,步骤104包括:
87.步骤202,针对数据库中的任一历史类簇,根据该历史类簇的历史类簇中心,从历史类簇的历史知识点中,确定历史类簇对应的预设类簇中心。
88.数据库中存储有多个已经通过聚类得到的历史类簇,不同的历史类簇中的历史知识点表示不同的语义,本技术实施例中,针对数据库中的任一历史类簇,根据该历史类簇的历史类簇中心,从历史类簇的历史知识点中,确定历史类簇对应的预设类簇中心。
89.其中,在大多数情况下,历史类簇中心是根据历史类簇中的历史知识点对应的句向量计算得到的一个平均向量,历史类簇中心为一个虚拟的句向量,并没有实际意义,在本技术实施例中,将与历史类簇中心的相似度最大的一个历史知识点作为预设类簇中心,之后根据该预设类簇中心进行聚类。
90.步骤204,根据各历史类簇对应的预设类簇中心,对待归类知识点进行聚类,得到待归类知识点中归属于各历史类簇的第一知识点。
91.本技术实施例中,可以根据各历史类簇对应的预设类簇中心,对数据库中的待归类知识点进行聚类处理,依次判断各待归类知识点属于哪一个历史类簇中,得到待归类知识点中归属于历史类簇的第一知识点。
92.步骤206,将待归类知识点中除第一知识点之外的第二知识点,作为目标知识点。
93.本技术实施例中,在完成上述确定第一知识点的步骤后,将待归类知识点中除第一知识点之外的第二知识点作为目标知识点。
94.本实施例中,选取已有的历史知识点作为预设类簇中心,而不是采用类簇中的虚拟平均向量(即历史类簇中心),其中,历史知识点具有实际的意义,那么在计算待归类知识点与预设聚类中心的相似度时,能更加符合实际应用,进而能够更加准确的对待归类知识点进行分类,提高聚类的准确度。
95.在一个实施例中,如图3所示,步骤204包括:
96.步骤302,针对任一历史类簇和任一待归类知识点,确定待归类知识点与历史类簇对应的预设类簇中心的第一相似度。
97.本技术实施例中,针对任一历史类簇和任一待归类知识点,可以根据历史类簇对应的预设类簇中心对应的句向量和待归类知识点对应的句向量,得到待归类知识点与历史类簇对应的预设类簇中心的第一相似度。示例性的,可以采用余弦相似度对预设类簇中心的句向量和待归类知识点的句向量进行计算,得到第一相似度,需要说明的是,上述根据余
弦相似度确定第一相似度的方式,仅为本技术实施例中的一个示例,本技术不对确定第一相似度的方式进行限制。
98.步骤304,在第一相似度满足历史类簇对应的聚类条件的情况下,将待归类知识点作为归属于历史类簇的第一知识点。
99.本技术实施例中,聚类条件为相似度大于或者等于第一相似度阈值,第一相似度阈值为工作人员预先设定好的数值,在应用过程中,可以根据对聚类准确度的要求来进行调节。例如:若需要较高的聚类准确度时,可以适当将第一相似度阈值调高。
100.当第一相似度满足历史类簇对应的聚类条件,也即第一相似度大于或者等于第一相似度阈值时,则认为该待归类知识点属于该历史类簇,将待归类知识点作为归属于历史类簇的第一知识点。
101.示例性的,以待归类知识点1与历史类簇1的第一相似度为0.85,待归类知识点2与历史类簇1的第一相似度为0.5,第一相似度阈值为0.8为例,其中,0.85大于0.8,则待归类知识点1归属于历史类簇1,0.5小于0.85,则待归类知识点2不属于历史类簇1。
102.本技术实施例中,根据待归类知识点与历史类簇对应的预设类簇中心的第一相似度来进行聚类,只有当第一相似度大于或者等于预设的第一相似度阈值时,才能将该待归类知识点分到对应的历史类簇中,相比于待归类知识点与哪一个预设类簇中心的距离最小,就将该待归类知识点分到对应的历史类簇中,避免了当待归类知识点明显不属于任一历史类簇时,仍将其分到距离最近的历史类簇中的情况,大大提高了聚类的准确度。
103.在一个实施例中,如图4所示,步骤106包括:
104.步骤402,针对目标知识点中的第一目标知识点,确定第一目标知识点与各第二目标知识点的第二相似度,其中,第一目标知识点为目标知识点中的任一目标知识点,第二目标知识点为目标知识点中除第一目标知识点之外的知识点。
105.本技术实施例中,针对任一目标知识点(即目标知识点中的第一目标知识点),可以确定第一目标知识点与其他各目标知识点(即第二目标知识点)的第二相似度,其中,第二目标知识点为目标知识点中除第一目标知识点之外的知识点。
106.在一个实施例中,可以根据余弦相似度公式,计算得到第一目标知识点与各第二目标知识点的第二相似度。
107.步骤404,根据第一目标知识点与各第二目标知识点的第二相似度,确定知识点集合,知识点集合中包括第一目标知识点及关联知识点,关联知识点为与第一目标知识点关联的第二目标知识点。
108.本技术实施例中,可以将第一目标知识点与第二目标知识点的第二相似度与第二相似度阈值(由工作人员设置)作比较,当第二相似度大于或者等于第二相似度阈值时,表示第二目标知识点与第一目标知识点相关联,该第二目标知识点为第一目标知识点的关联知识点,第一目标知识点和各关联知识点构成了知识点集合。
109.示例性的,以知识点a为第一目标知识点,知识点b、知识点c和知识点d均为第二目标知识点为例,知识点a与知识点b的第二相似度1为0.87,知识点a与知识点c的第二相似度2为0.64,知识点a与知识点d的第二相似度3为0.91,第二相似度阈值为0.85,将上述第二相似度与第二相似度阈值比较,发现第二相似度1和第二相似度3均大于第二相似度阈值,则知识点b和知识点d为知识点a的关联知识点,知识点集合包括知识点a、知识点b和知识点d。
110.步骤406,确定知识点集合中各目标知识点的激活状态,其中,激活状态用于表征目标知识点激活成功或者目标知识点激活失败。
111.本技术实施例中,确定知识点集合中各个目标知识点的激活状态,其中,激活状态用于表征目标知识点激活成功或者目标知识点激活失败,在知识点集合中,针对任一目标知识点,可以根据该目标知识点对其他目标知识点的影响力,从而确定该目标知识点对应的影响力之和,当影响力之和满足激活条件时,该目标知识点激活成功,否则目标知识点激活失败。
112.步骤408,根据知识点集合中各目标知识点的激活状态,确定第一目标知识点的影响因子。
113.本技术实施例中,可以根据知识点集合中各目标知识点的激活状态,确定第一目标知识点的影响因子,第一目标知识点为目标知识点中的任一目标知识点,重复上述确定第一目标知识点的影响因子的过程,可以得到知识点集合中各目标知识点的影响因子。
114.本技术实施例中,确定各目标知识点的影响因子,并根据各目标知识点的影响因子,来确定一个新的类簇中心(即新增类簇中心),之后根据新增类簇中心,对各目标知识点进行聚类,可以得到一个新增类簇,在上述聚类过程中,新增类簇会实时进行更新,从而可以不断地发现新的类簇,将待归类知识分到最合适的类簇中,提高了聚类的准确度。
115.在一个实施例中,如图5所示,步骤406包括:
116.步骤502,针对知识点集合中的任一第三目标知识点,确定第三目标知识点与各第四目标知识点的第三相似度之和,其中,第三目标知识点为目标知识点中的任一目标知识点,第四目标知识点为目标知识点中除第三目标知识点之外的知识点。
117.本技术实施例中,通过目标知识点所对应的影响力之和,来确定目标知识点的激活状态,而两个目标知识点之间的相似度可以表征一个目标知识点对另一个目标知识点的影响力,故在确定目标知识点的激活状态的过程中,首先确定目标知识点所对应的相似度之和,具体步骤如下:
118.针对知识点集合中的任一第三目标知识点,确定第三目标知识点与各第四目标知识点的第三相似度,并对第三目标知识点对应的多个第三相似度进行累加处理,得到第三相似度之和,其中,第三目标知识点为知识点集合中的任一目标知识点,第四目标知识点为知识点集合中除第三目标知识点之外的目标知识点。
119.示例性的,仍以上述事例为例,知识点集合中包括知识点a、知识点b和知识点d,先以知识点a为第三目标知识点,知识点b和知识点d为第四目标知识点,根据余弦相似度公式计算得到,知识点a与知识点b的第三相似度1为0.87,知识点a与知识点d的第三相似度2为0.91,则第三相似度之和1为1.78;之后,以知识点b为第三目标知识点时,则知识点a和知识点d为第四目标知识点,知识点b与知识点a的第三相似度3为0.87,知识点b与知识点d的第三相似度4为0.6,则第三相似度之和2为1.37;以知识点d为第三目标知识点时,知识点a和知识点b为第四目标知识点,知识点d与知识点a的第三相似度5为0.91,知识点d与知识点b的第三相似度6为0.6,则第三相似度之和3为1.51。
120.步骤504,在第三相似度之和满足激活条件的情况下,确定目标知识点的激活状态为目标知识点激活成功;或者,
121.步骤506,在第三相似度之和不满足激活条件的情况下,确定目标知识点的激活状
态为目标知识点激活失败。
122.本技术实施例中,激活条件为大于或者等于激活阈值,激活阈值由工作人员进行设置,在实际应用过程中,可以根据实际需要,调节激活阈值。在第三相似度之和满足激活条件的情况下,也即第三相似度之和大于或者等于激活阈值时,确定目标知识点的激活状态为目标知识点激活成功;在第三相似度之和不满足激活条件的情况下,也即第三相似度之和小于激活阈值时,确定目标知识点的激活状态为目标知识点激活失败。
123.示例性的,仍以上述事例为例,设置激活阈值为1.5,知识点a对应的第三相似度之和1为1.78,知识点b对应的第三相似度之和2为1.37,知识点d对应的第三相似度之和3为1.51,其中,第三相似度之和1和第三相似度之和3均大于激活阈值,则知识点a和知识点d的激活状态为目标知识点激活成功,而第三相似度之和2小于激活阈值,则知识点b的激活状态为目标知识点激活失败。
124.本技术实施例中,根据各目标知识点的激活状态来确定目标知识点的影响因子,并根据各目标知识点的影响因子,来确定一个新的类簇中心(即新增类簇中心),其中,新增类簇中心是影响因子最大的目标知识点,影响因子越大则表示目标知识点对其他知识点的影响程度越大,也表示与目标知识点所表达语义相似的知识点越多,故根据新增类簇中心,对各目标知识点进行聚类,可以得到一个新增类簇,在上述聚类过程中,新增类簇会实时进行更新,从而可以不断地发现新的类簇,将待归类知识分到最合适的类簇中,提高了聚类的准确度。
125.在一个实施例中,如图6所示,步骤408包括:
126.步骤602,根据各目标知识点的激活状态,确定激活知识数量,激活知识数量为知识点集合中激活状态为目标知识点激活成功的目标知识点的个数。
127.本技术实施例中,对知识点集合中激活成功的目标知识点进行计数,得到激活知识数量,其中,激活知识数量为知识点集合中激活状态为目标知识点激活成功的目标知识点的个数。
128.示例性的,仍以上述事例为例,知识点集合包括知识点a、知识点b和知识点d,其中,知识点a和知识点d的激活状态为目标知识点激活成功,知识点b的激活状态为目标知识点激活失败,激活状态为目标知识点激活成功的目标知识点个数有2个,则激活知识数量为2。
129.步骤604,确定知识点集合中目标知识点的总个数。
130.本技术实施例中,确定知识点集合中共包括多少个目标知识点,也即目标知识点的总个数。仍以上述事例为例,可以确定知识点集合中的目标知识点的总个数为3。
131.步骤606,根据激活知识数量和知识点集合中的目标知识点的总个数,确定第一目标知识点的影响因子。
132.本技术实施例中,可以将激活知识数量与知识点集合中的目标知识点的总个数的比值,作为第一目标知识点的影响因子。仍以上述事例为例,激活知识数量为2,知识点集合中的目标知识点的总个数为3,则第一目标知识点的影响因子为2/3。
133.本技术实施例中,将知识点集合中激活成功的目标知识点的数量与知识点集合中目标知识点的总个数之比,作为目标知识点的影响因子,并根据各目标知识点的影响因子,来确定一个新的类簇中心(即新增类簇中心),其中,新增类簇中心是影响因子最大的目标
知识点,影响因子越大则表示目标知识点对其他知识点的影响程度越大,也表示与目标知识点所表达语义相似的知识点越多,故根据新增类簇中心,对各目标知识点进行聚类,可以得到一个新增类簇,在上述聚类过程中,新增类簇会实时进行更新,从而可以不断地发现新的类簇,将待归类知识分到最合适的类簇中,提高了聚类的准确度。
134.在一个实施例中,为了提高聚类的准确度,还可以增加惩罚项其中,ns表示待归类知识点的个数,nf表示目标知识点的个数,此时,第一目标知识点的精确影响因子为影响因子与1/l的乘积。
135.在一个具体的实施例中,知识聚类方法可以应用于图7所示的知识聚类系统中,其中,数据生成装置接收系统每天定时发送的触发信号,相应于触发信号开始工作,数据生成装置可以获取在过去一天内用户与智能客服系统的历史交互数据(即待归类知识点),并对待归类知识点进行过滤和分词处理,之后将各待归类知识点对应的分词后的词语输入到模型服务装置中,模型服务装置用于得到各待归类知识点的句向量,各句向量存储在数据存储装置中。
136.知识聚类装置可以从数据存储装置中获取各待归类知识点的句向量、各历史类簇的历史知识点和历史类簇中心,并确定一个与历史类簇中心相似度最大的历史知识点,将其作为历史类簇对应的预设类簇中心,之后针对任一历史类簇和任一待归类知识点,确定待归类知识点与历史类簇对应的预设类簇中心的第一相似度,当第一相似度大于或者等于第一相似度阈值时,则确定该待归类知识点为归属于该历史类簇的第一知识点,重复上述步骤,直到遍历各待归类知识点,将不属于任一历史类簇的待归类知识点作为目标知识点。
137.之后,将任一目标知识点作为第一目标知识点,除第一目标知识点之外的目标知识点为第二目标知识点,分别确定第一目标知识点与各第二目标知识点的第二相似度,将小于或者等于第二相似度阈值的第二相似度对应的第二目标知识点作为关联知识点,得到包括第一目标知识点和关联知识点的知识点集合。然后将知识点集合中的任一目标知识点作为第三目标知识点,知识点集合中除第三目标知识点之外的目标知识点为第四目标知识点,并确定第三目标知识点与各第四目标知识点的第三相似度之和,根据第三相似度之和确定目标知识点的激活状态,知识点集合中各目标知识点的所述激活状态,确定目标知识点的影响因子。上述具体步骤参照上述实施例所述,在此不再赘述。
138.其次,将影响因子最大的目标知识点作为新增类簇中心,并根据新增类簇中心,对各目标知识点进行聚类,得到新增类簇,将新增类簇存储在数据库中。
139.之后,知识推荐装置可以对知识聚类装置所聚类得到的各类簇中的知识点进行打分,以为后续工作人员通过知识标注装置对知识点进行标注时提供依据。具体步骤如下:
140.在聚类过程中,类簇中每增加一个新的知识点,类簇中心就会进行一次更新,故在结束聚类后,会得到新的预设类簇中心和新的新增类簇中心,分别计算上述类簇中心与历史类簇中心的相似度,并从中确定最大相似度。
141.在最大相似度大于或者等于预设阈值时,计算针对该类簇中知识点的推荐分数计算过程参照下述公式(一):
142.recexistlevel=score*10*0.8+ml(knowledgefreq/sumfreq)*0.2公式(一)
143.其中,recexistlevel表示推荐分数,score表示最大相似度,knowledgefreq表示
该聚类中的知识点的个数,sumfreq表示待归类知识点的个数,ml(x)表示一个分段函数,其具体表达式如下:
[0144][0145]
在最大相似度小于预设阈值时,计算针对该类簇中知识点的推荐分数计算过程参照下述公式(二):
[0146]
recnewlevel=(1-score/2)*10*0.8+ml(knowledgefreq/sumfreq)*0.2
ꢀꢀꢀ
公式(二)
[0147]
之后,工作人员根据分数对各知识点进行相应的标注,模型更新装置用于根据标注的知识点对模型服务装置进行训练并更新,还用于根据标注的知识点对智能客户模型进行更新,提高智能客服的回答问题的准确性。
[0148]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0149]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的知识聚类方法的知识聚类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个知识聚类装置实施例中的具体限定可以参见上文中对于知识聚类方法的限定,在此不再赘述。
[0150]
在一个实施例中,如图8所示,提供了一种知识聚类装置,包括:第一确定模块802、第二确定模块804和第一聚类模块806,其中:
[0151]
第一确定模块802,用于在待归类知识点中存在目标知识点的情况下,确定各目标知识点的影响因子,目标知识点不属于数据库中的任一历史类簇,影响因子用于表征目标知识点对与其关联的知识点的影响程度;
[0152]
第二确定模块804,用于根据各目标知识点的影响因子,从目标知识点中确定新增类簇中心;
[0153]
第一聚类模块806,用于根据新增类簇中心,对各目标知识点进行聚类,得到新增类簇,将新增类簇存储在所述数据库中。
[0154]
本实施例中,将不归属于任一历史类簇的目标知识点独立出来,并根据各目标知识点的影响因子,来确定一个新的类簇中心(即新增类簇中心),并根据新增类簇中心,对各目标知识点进行聚类,可以得到一个新增类簇,在上述聚类过程中,新增类簇会实时进行更新,从而可以不断地发现新的类簇,将待归类知识分到最合适的类簇中,提高了聚类的准确度。
[0155]
在其中一个实施例中,所述装置还包括:
[0156]
第三确定模块,用于针对数据库中的任一历史类簇,根据该历史类簇的历史类簇中心,从历史类簇的历史知识点中确定历史类簇对应的预设类簇中心;
[0157]
第二聚类模块,用于根据各历史类簇对应的预设类簇中心,对待归类知识点进行聚类,得到待归类知识点中归属于各历史类簇的第一知识点,将待归类知识点中除第一知识点之外的第二知识点,作为目标知识点。
[0158]
在其中一个实施例中,所述第二聚类模块还用于:
[0159]
针对任一历史类簇和任一待归类知识点,确定待归类知识点与历史类簇对应的预设类簇中心的第一相似度;
[0160]
在第一相似度满足历史类簇对应的聚类条件的情况下,将待归类知识点作为归属于历史类簇的第一知识点。
[0161]
在其中一个实施例中,所述第一确定模块802还用于:
[0162]
针对目标知识点中的第一目标知识点,确定第一目标知识点与各第二目标知识点的第二相似度,其中,第一目标知识点为目标知识点中的任一目标知识点,第二目标知识点为目标知识点中除第一目标知识点之外的知识点;
[0163]
根据第一目标知识点与各第二目标知识点的第二相似度,确定知识点集合,知识点集合中包括第一目标知识点及关联知识点,关联知识点为与第一目标知识点关联的第二目标知识点;
[0164]
确定知识点集合中各目标知识点的激活状态,其中,激活状态用于表征目标知识点激活成功或者目标知识点激活失败;
[0165]
根据知识点集合中各目标知识点的激活状态,确定第一目标知识点的影响因子。
[0166]
在其中一个实施例中,所述第一确定模块802还用于:
[0167]
针对知识点集合中的任一第三目标知识点,确定第三目标知识点与各第四目标知识点的第三相似度之和,其中,第三目标知识点为目标知识点中的任一目标知识点,第四目标知识点为目标知识点中除第三目标知识点之外的知识点;
[0168]
在第三相似度之和满足激活条件的情况下,确定目标知识点的激活状态为目标知识点激活成功;
[0169]
或者,在第三相似度之和不满足激活条件的情况下,确定目标知识点的激活状态为目标知识点激活失败。
[0170]
在其中一个实施例中,所述第一确定模块802还用于:
[0171]
根据各目标知识点的激活状态,确定激活知识数量,激活知识数量为知识点集合中,激活状态为目标知识点激活成功的目标知识点的个数;
[0172]
确定知识点集合中目标知识点的总个数;
[0173]
根据激活知识数量和知识点集合中目标知识点的总个数,确定第一目标知识点的影响因子。
[0174]
上述知识聚类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0175]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结
构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待归类知识点、历史类簇、历史知识点等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种知识聚类方法。
[0176]
本领域技术人员可以理解,图9中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0177]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0178]
在待归类知识点中存在目标知识点的情况下,确定各目标知识点的影响因子,目标知识点不属于数据库中的任一历史类簇,影响因子用于表征目标知识点对与其关联的知识点的影响程度;
[0179]
根据各目标知识点的影响因子,从目标知识点中确定新增类簇中心;
[0180]
根据新增类簇中心,对各目标知识点进行聚类,得到新增类簇,将新增类簇存储在数据库中。
[0181]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0182]
在待归类知识点中存在目标知识点的情况下,确定各目标知识点的影响因子,目标知识点不属于数据库中的任一历史类簇,影响因子用于表征目标知识点对与其关联的知识点的影响程度;
[0183]
根据各目标知识点的所述影响因子,从目标知识点中确定新增类簇中心;
[0184]
根据新增类簇中心,对各目标知识点进行聚类,得到新增类簇,将新增类簇存储在数据库中。
[0185]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0186]
在待归类知识点中存在目标知识点的情况下,确定各目标知识点的影响因子,目标知识点不属于数据库中的任一历史类簇,影响因子用于表征目标知识点对与其关联的知识点的影响程度;
[0187]
根据各目标知识点的所述影响因子,从目标知识点中确定新增类簇中心;
[0188]
根据新增类簇中心,对各目标知识点进行聚类,得到新增类簇,将新增类簇存储在数据库中。
[0189]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0190]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机
可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0191]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0192]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1