针对用户的提问意图获取答案信息的方法及装置的制造方法_3

文档序号:9579288阅读:来源:国知局
复语料的聚类过程。
[0048] 在完成上述聚类过程之后,一个用户意图对应的N个回复语料可以被划分为多个 类别,其中,每个类别中都包含有一定数量的回复语料,有的类别中包含的回复语料可能非 常少,这些回复语料一般可以被作为噪音过滤掉。剩余的都是包含回复语料数码多于某预 置阈值的类别,在这些类别中,同一类别中各个回复语料之间的相似度都比较高,并且一般 会存在一个可以作为类别中心的回复语料。因此,接下来,本申请实施例就可以从这些类别 中挖掘出能够作为类别中心的回复语料,该回复语料就可能会成为最能回答该用户意图的 中心答案。
[0049] 在获取某类别中的类别中心时,可以分别计算类别中的各个回复语料成为该类别 的类别中心的权重,权重最高者即可成为类别中心。也即,首先假设其中任何一个回复语料 都是类别中心,然后计算具体到某个回复语料时,其真正成为类别中心的权重。具体在计算 某回复语料η的权重时,可以考虑以下因素:该类别内的其他回复语料的生成时间与当前 时间之间的距离t,以及类别内的其他回复语料与该回复语料η之间的相似度L。其中,对 于时间距离t而言,由于越靠近当前时间的回复语料越能表现实时性,因此,其他回复语料 对当前回复语料的权重的加强程度,与时间距离t成反比。为此,可以首先将计算出的距离 t带入到一个时间损失函数中,得到一个输出值y,之后再利用该y值参与对回复语料η的 权重的计算。其中,时间损失函数的具体表现形式可以有多种,例如,其中一种方式下,可以 是一个均值为〇,方差为σ的正太分布函数。对于其他回复语料与该回复语料η之间的相 似度而言,相似度越高则越能提高该回复语料η成为类别中心的权重。因此,具体可以通过 以下公式本彳+替·问所在类别的类别中心的权重:
[0050]
[0051] 其中:
[0052] Yn为回复语料η在其所在目标类别I中成为类别中心的权重;
[0053] yni为将该目标类别I中其他回复语料m的生成时间与当前时间之间的距离t带入 到预置的时间损失函数中,得到输出值;
[0054] Lnni为回复语料η与回复语料m之间的相似度;
[0055] N为该目标类别I中包含的回复语料的数目。
[0056] 总之,对于某类别中的各个回复语料而言,均可以按照上述方式计算出各自能够 成为类别中心的权重,其中权重最高者即可作为类别中心。
[0057] S104 :根据所述权重,确定该用户意图的中心答案。
[0058] 通过以上各个步骤,对于某用户意图而言,可以确定出该用户意图下,回复语料数 目比较多的目标类别,并且可以分别确定出各个类别的类别中心,这样就可以根据这种类 别中心来确定出该用户意图的中心答案。其中,如果某用户意图下,包含回复语料数目多于 预置阈值的目标类别为一个,则就可以直接将该类别的类别中心确定为该用户意图的中心 答案。但是,如果某用户意图下,包含回复语料数目多于预置阈值的目标类别为多个,则会 对应得到多个类别中心,此时,不能直接将权重最高的类别中心确定为该用户意图的中心 答案。这是因为,在历史对话记录中,有些回复语料覆盖的用户意图可能比较广,也即同样 一句话可能即在用户意图A的回复语料中出现,又在用户意图B的回复语料中出现,此时, 如果这句话确实能够回答用户意图A,则对于用户意图B来说就属于噪音,应该被过滤掉。 但是,在用户意图B下,用上述方式计算出该回复语料成为类别中心的权重却可能比较高, 则此时,如果直接根据权重的高低来确定用户意图的中心答案,则可能会出现偏差。
[0059] 为此,在本申请实施例中,对于包含回复语料数目多于预置阈值的目标类别为至 少两个的情况,可以首先获取到各个目标类别的类别中心,之后可以从历史对话记录中分 别获取各个类别中心出现的总次数,以及类别中心被用于回答当前用户意图的次数;然后, 根据类别中心被用于回答当前用户意图的次数以及该类别中心出现的总次数,确定该类别 中心被用于回答当前用户意图所占的比例;之后,可以将比例最高的类别中心确定为该当 前用户意图的中心答案。
[0060] 例如,某用户意图A下包含两个目标类别,其中,一个类别的类别中心为回复语料 X,另一个类别的类别中心为回复语料y,其中,回复语料y的权重大于回复语料X的权重。假 设经统计发现回复语料X出现的总次数为100次,其中用于回答该用户意图A的次数为50 次,因此,用于回答该用户意图A所占的比例为50%;回复语料y出现的总次数为200次,其 中用于回答该用户意图A的次数为20次,因此,用于回答该用户意图A所占的比例为10%。 此时,虽然回复语料X的权重要低于回复语料y,但是,由于回复语料X用于回答该用户意图 A所占的比例相对较高,因此,最终可以选择回复语料X作为该用户意图A的中心答案。 [0061] 总之,通过本申请实施例,可以从历史对话记录中进行数据挖掘,从而获取到可以 用于回答各个用户意图的中心答案,这样,就不再需要第一用户或者后台技术人员对用户 意图的答案进行手动的配置,有利于进一步节省人力以及时间成本。
[0062] 与本申请实施例提供的针对用户的提问意图获取答案信息的方法相对应,本申请 实施例还提供了一种针对用户的提问意图获取答案信息的装置,参见图2,该装置具体可以 包括:
[0063] 历史对话记录获取单元201,用于获取第一用户与多个第二用户进行即时通信过 程中的历史对话记录;
[0064] 回复语料获取单元202,用于从所述历史对话记录中对各个第二用户提出的问题 语料进行用户意图识别,获取同一用户意图下包括的各个问题语料,并获取该第一用户对 同一用户意图下的各问题语料给出的回复语料;
[0065] 权重计算单元203,用于针对同一用户意图,对各个回复语料进行聚类,得出多个 类别,并在包含回复语料数目多于预置阈值的目标类别中,分别计算各个回复语料在所述 目标类别中成为类别中心的权重;
[0066] 中心答案确定单元204,用于根据所述权重,确定该用户意图的中心答案。
[0067] 其中,所述回复语料获取单元202具体可以包括:
[0068] 语料序列生成子单元,用于按照各语料的生成时间先后顺序,对第一用户与第二 用户之间的历史对话记录进行排序,形成语料序列;
[0069] 提取子单元,用于针对同一用户意图下的各个问题语料,从所述语料序列中,提取 出在所述问题语料之后、距离所述问题语料最近的预置条目的目标回复语料,将所述目标 回复语料确定为第一用户对该用户意图中的问题语料给出的回复语料。
[0070] 具体实现时,所述权重计算单元203具体用于针对同一目标类别下的各个回复语 料分别进行以下计算:
[0071] 对于当前回复语料n,根据所在目标类别内其他各回复语料与该当前回复语料η 之间的相似度L,以及所述其他各回复语料的生成时间与当前时间之间的距离t,计算该当 前回复语料η在其所在目标类别中成为类别中心的权重。
[0072] 更为具体的,可以通过方法实施例中的公式进行权重计算。
[0073] 其中,如果所述包含回复语料数目多于预置阈值的目标类别为一个,则中心答案 确定单兀204具体可以用于:将权重最商的回复语料确定为该用户意图的中心答案。
[0074]如果所述包含回复语料数目多于预置阈值的目标类别为至少两个,则中心答案确 定单元204具体可以包括:
[0075] 类别中心确定子单元,用于分别从各个目标类别中获取权重最高的目标回复语 料,作为对应目标类别的类别中心;
[0076]次数获取子单元,用于从所述历史对话记录中分别获取各个类别中心出现的总次 数,以及类别中心被用于回答当前用户意图的次数;
[0077] 比例确定子单元,用于根据类别中心被用于回答当前用户意图的次数以及该类别 中心出现的总次数,确定该类别中心被用于回答当前用户意图所占的比例;
[0078] 答案确定子单元,用于将所述比例最高的类别中心确定为该当前用户意图的中心 答
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1