针对用户的提问意图获取答案信息的方法及装置的制造方法_3

文档序号：9579288阅读：来源：国知局

复语料的聚类过程。
[0048] 在完成上述聚类过程之后，一个用户意图对应的N个回复语料可以被划分为多个类别，其中，每个类别中都包含有一定数量的回复语料，有的类别中包含的回复语料可能非常少，这些回复语料一般可以被作为噪音过滤掉。剩余的都是包含回复语料数码多于某预置阈值的类别，在这些类别中，同一类别中各个回复语料之间的相似度都比较高，并且一般会存在一个可以作为类别中心的回复语料。因此，接下来，本申请实施例就可以从这些类别中挖掘出能够作为类别中心的回复语料，该回复语料就可能会成为最能回答该用户意图的中心答案。
[0049] 在获取某类别中的类别中心时，可以分别计算类别中的各个回复语料成为该类别的类别中心的权重，权重最高者即可成为类别中心。也即，首先假设其中任何一个回复语料都是类别中心，然后计算具体到某个回复语料时，其真正成为类别中心的权重。具体在计算某回复语料η的权重时，可以考虑以下因素：该类别内的其他回复语料的生成时间与当前时间之间的距离t，以及类别内的其他回复语料与该回复语料η之间的相似度L。其中，对于时间距离t而言，由于越靠近当前时间的回复语料越能表现实时性，因此，其他回复语料对当前回复语料的权重的加强程度，与时间距离t成反比。为此，可以首先将计算出的距离 t带入到一个时间损失函数中，得到一个输出值y，之后再利用该y值参与对回复语料η的权重的计算。其中，时间损失函数的具体表现形式可以有多种，例如，其中一种方式下，可以是一个均值为〇,方差为σ的正太分布函数。对于其他回复语料与该回复语料η之间的相似度而言，相似度越高则越能提高该回复语料η成为类别中心的权重。因此，具体可以通过以下公式本彳+替·问所在类别的类别中心的权重：
[0050]
[0051] 其中：
[0052] Yn为回复语料η在其所在目标类别I中成为类别中心的权重；
[0053] yni为将该目标类别I中其他回复语料m的生成时间与当前时间之间的距离t带入到预置的时间损失函数中，得到输出值；
[0054] Lnni为回复语料η与回复语料m之间的相似度；
[0055] N为该目标类别I中包含的回复语料的数目。
[0056] 总之，对于某类别中的各个回复语料而言，均可以按照上述方式计算出各自能够成为类别中心的权重，其中权重最高者即可作为类别中心。
[0057] S104 :根据所述权重，确定该用户意图的中心答案。
[0058] 通过以上各个步骤，对于某用户意图而言，可以确定出该用户意图下，回复语料数目比较多的目标类别，并且可以分别确定出各个类别的类别中心，这样就可以根据这种类别中心来确定出该用户意图的中心答案。其中，如果某用户意图下，包含回复语料数目多于预置阈值的目标类别为一个，则就可以直接将该类别的类别中心确定为该用户意图的中心答案。但是，如果某用户意图下，包含回复语料数目多于预置阈值的目标类别为多个，则会对应得到多个类别中心，此时，不能直接将权重最高的类别中心确定为该用户意图的中心答案。这是因为，在历史对话记录中，有些回复语料覆盖的用户意图可能比较广，也即同样一句话可能即在用户意图A的回复语料中出现，又在用户意图B的回复语料中出现，此时，如果这句话确实能够回答用户意图A，则对于用户意图B来说就属于噪音，应该被过滤掉。但是，在用户意图B下，用上述方式计算出该回复语料成为类别中心的权重却可能比较高，则此时，如果直接根据权重的高低来确定用户意图的中心答案，则可能会出现偏差。
[0059] 为此，在本申请实施例中，对于包含回复语料数目多于预置阈值的目标类别为至少两个的情况，可以首先获取到各个目标类别的类别中心，之后可以从历史对话记录中分别获取各个类别中心出现的总次数，以及类别中心被用于回答当前用户意图的次数；然后，根据类别中心被用于回答当前用户意图的次数以及该类别中心出现的总次数，确定该类别中心被用于回答当前用户意图所占的比例；之后，可以将比例最高的类别中心确定为该当前用户意图的中心答案。
[0060] 例如，某用户意图A下包含两个目标类别，其中，一个类别的类别中心为回复语料 X，另一个类别的类别中心为回复语料y，其中，回复语料y的权重大于回复语料X的权重。假设经统计发现回复语料X出现的总次数为100次，其中用于回答该用户意图A的次数为50 次，因此，用于回答该用户意图A所占的比例为50%;回复语料y出现的总次数为200次，其中用于回答该用户意图A的次数为20次，因此，用于回答该用户意图A所占的比例为10%。此时，虽然回复语料X的权重要低于回复语料y，但是，由于回复语料X用于回答该用户意图 A所占的比例相对较高，因此，最终可以选择回复语料X作为该用户意图A的中心答案。 [0061] 总之，通过本申请实施例，可以从历史对话记录中进行数据挖掘，从而获取到可以用于回答各个用户意图的中心答案，这样，就不再需要第一用户或者后台技术人员对用户意图的答案进行手动的配置，有利于进一步节省人力以及时间成本。
[0062] 与本申请实施例提供的针对用户的提问意图获取答案信息的方法相对应，本申请实施例还提供了一种针对用户的提问意图获取答案信息的装置，参见图2,该装置具体可以包括：
[0063] 历史对话记录获取单元201，用于获取第一用户与多个第二用户进行即时通信过程中的历史对话记录；
[0064] 回复语料获取单元202,用于从所述历史对话记录中对各个第二用户提出的问题语料进行用户意图识别，获取同一用户意图下包括的各个问题语料，并获取该第一用户对同一用户意图下的各问题语料给出的回复语料；
[0065] 权重计算单元203,用于针对同一用户意图，对各个回复语料进行聚类，得出多个类别，并在包含回复语料数目多于预置阈值的目标类别中，分别计算各个回复语料在所述目标类别中成为类别中心的权重；
[0066] 中心答案确定单元204,用于根据所述权重，确定该用户意图的中心答案。
[0067] 其中，所述回复语料获取单元202具体可以包括：
[0068] 语料序列生成子单元，用于按照各语料的生成时间先后顺序，对第一用户与第二用户之间的历史对话记录进行排序，形成语料序列；
[0069] 提取子单元，用于针对同一用户意图下的各个问题语料，从所述语料序列中，提取出在所述问题语料之后、距离所述问题语料最近的预置条目的目标回复语料，将所述目标回复语料确定为第一用户对该用户意图中的问题语料给出的回复语料。
[0070] 具体实现时，所述权重计算单元203具体用于针对同一目标类别下的各个回复语料分别进行以下计算：
[0071] 对于当前回复语料n，根据所在目标类别内其他各回复语料与该当前回复语料η 之间的相似度L，以及所述其他各回复语料的生成时间与当前时间之间的距离t，计算该当前回复语料η在其所在目标类别中成为类别中心的权重。
[0072] 更为具体的，可以通过方法实施例中的公式进行权重计算。
[0073] 其中，如果所述包含回复语料数目多于预置阈值的目标类别为一个，则中心答案确定单兀204具体可以用于：将权重最商的回复语料确定为该用户意图的中心答案。
[0074]如果所述包含回复语料数目多于预置阈值的目标类别为至少两个，则中心答案确定单元204具体可以包括：
[0075] 类别中心确定子单元，用于分别从各个目标类别中获取权重最高的目标回复语料，作为对应目标类别的类别中心；
[0076]次数获取子单元，用于从所述历史对话记录中分别获取各个类别中心出现的总次数，以及类别中心被用于回答当前用户意图的次数；
[0077] 比例确定子单元，用于根据类别中心被用于回答当前用户意图的次数以及该类别中心出现的总次数，确定该类别中心被用于回答当前用户意图所占的比例；
[0078] 答案确定子单元，用于将所述比例最高的类别中心确定为该当前用户意图的中心答

完整全部详细技术资料下载

当前第3页1 2 3 4