1.一种人机对话方法,其特征在于,包括:
在引导对话过程中,当需要针对用户的输入生成回复时,根据引导目标及预定历史信息进行引导行为决策,确定出引导行为;
根据所述引导行为进行引导内容决策,确定出回复语义;
根据所述引导行为及所述回复语义生成回复。
2.根据权利要求1所述的方法,其特征在于,
所述根据引导目标及预定历史信息进行引导行为决策,确定出引导行为包括:将所述引导目标及所述预定历史信息输入预先训练得到的分类模型,得到输出的所述引导行为。
3.根据权利要求1所述的方法,其特征在于,
所述引导行为包括:语义行为及表达行为;其中,所述语义行为表明语义与所述引导目标的关系,所述表达行为表明语义的表达方式;
所述语义行为及所述表达行为分别包括两级行为标签。
4.根据权利要求1所述的方法,其特征在于,
所述预定历史信息包括:所述引导对话过程中的引导行为历史、所述引导对话过程中的对话内容核心语义的语义历史及所述引导对话过程中的对话历史。
5.根据权利要求2所述的方法,其特征在于,
所述根据所述引导行为进行引导内容决策,确定出回复语义包括:根据所述引导行为确定出候选语义,利用预先训练得到的评分模型对所述候选语义进行评分,选出评分最高的至少一个候选语义作为所述回复语义。
6.根据权利要求5所述的方法,其特征在于,
所述根据所述引导行为确定出候选语义包括:确定出所述引导行为对应的候选语义获取方式,按照确定出的候选语义获取方式确定出所述候选语义。
7.根据权利要求6所述的方法,其特征在于,
所述按照确定出的候选语义获取方式确定出所述候选语义包括:
通过对所述引导对话过程中的对话历史进行分析,确定出当前话题点,将所述当前话题点作为所述候选语义;
或者,将所述引导目标作为所述候选语义;
或者,根据预先构建的话题点转移图谱确定出所述当前话题点可直接转移到的话题点,作为所述候选语义;
或者,查询预先构建的知识图谱,将所述引导目标在所述知识图谱中对应的知识信息作为所述候选语义。
8.根据权利要求5所述的方法,其特征在于,
所述利用预先训练得到的评分模型对所述候选语义进行评分包括:针对每个候选语义,分别将所述引导目标、所述预定历史信息、所述引导行为及所述候选语义输入所述评分模型,得到输出的所述候选语义的评分。
9.根据权利要求5所述的方法,其特征在于,
所述根据所述引导行为及所述回复语义生成回复包括:
确定出所述引导行为对应的回复槽位模板,将所述回复语义添加到所述槽位中,得到候选回复,从所述候选回复中随机选出一个作为生成的回复;
或者,通过检索预先构建的回复库,确定出所述回复语义对应的回复语句,作为候选回复,针对每个候选回复,分别将所述引导目标、所述预定历史信息、所述引导行为、所述回复语义及所述候选回复输入所述评分模型,得到输出的所述候选回复的评分,选出评分最高的候选回复作为生成的回复;
或者,将所述引导目标、所述预定历史信息、所述引导行为及所述回复语义输入预先训练得到的回复生成模型,得到生成的回复。
10.根据权利要求9所述的方法,其特征在于,
该方法进一步包括:获取引导对话数据标注结果,所述引导对话数据标注结果中包括引导对话标注结果及引导行为标注结果;根据所述引导对话数据标注结果进行各模型的训练。
11.根据权利要求10所述的方法,其特征在于,
所述引导对话标注结果包括:基于从网络中挖掘出的一段闲聊对话、由两个标注人员相互配合继续进行聊天、并在n轮对话之后将对话内容转到引导目标上的对话文本,n为大于一的正整数,所述两个标注人员中的一个为主动方,另一个为被动方,所述引导目标仅对所述主动方可见;
所述引导行为标注结果包括:为所述对话文本中所述主动方的对话内容标注的引导行为标签。
12.一种人机对话装置,其特征在于,包括:第一决策单元、第二决策单元以及回复生成单元;
所述第一决策单元,用于在引导对话过程中,当需要针对用户的输入生成回复时,根据引导目标及预定历史信息进行引导行为决策,确定出引导行为;
所述第二决策单元,用于根据所述引导行为进行引导内容决策,确定出回复语义;
所述回复生成单元,用于根据所述引导行为及所述回复语义生成回复。
13.根据权利要求12所述的装置,其特征在于,
所述第一决策单元将所述引导目标及所述预定历史信息输入预先训练得到的分类模型,得到输出的所述引导行为。
14.根据权利要求12所述的装置,其特征在于,
所述引导行为包括:语义行为及表达行为;其中,所述语义行为表明语义与所述引导目标的关系,所述表达行为表明语义的表达方式;
所述语义行为及所述表达行为分别包括两级行为标签。
15.根据权利要求12所述的装置,其特征在于,
所述预定历史信息包括:所述引导对话过程中的引导行为历史、所述引导对话过程中的对话内容核心语义的语义历史及所述引导对话过程中的对话历史。
16.根据权利要求13所述的装置,其特征在于,
所述第二决策单元根据所述引导行为确定出候选语义,利用预先训练得到的评分模型对所述候选语义进行评分,选出评分最高的至少一个候选语义作为所述回复语义。
17.根据权利要求16所述的装置,其特征在于,
所述第二决策单元确定出所述引导行为对应的候选语义获取方式,按照确定出的候选语义获取方式确定出所述候选语义。
18.根据权利要求17所述的装置,其特征在于,
所述第二决策单元通过对所述引导对话过程中的对话历史进行分析,确定出当前话题点,将所述当前话题点作为所述候选语义,或者,将所述引导目标作为所述候选语义,或者,根据预先构建的话题点转移图谱确定出所述当前话题点可直接转移到的话题点,作为所述候选语义,或者,查询预先构建的知识图谱,将所述引导目标在所述知识图谱中对应的知识信息作为所述候选语义。
19.根据权利要求16所述的装置,其特征在于,
所述第二决策单元针对每个候选语义,分别将所述引导目标、所述预定历史信息、所述引导行为及所述候选语义输入所述评分模型,得到输出的所述候选语义的评分。
20.根据权利要求16所述的装置,其特征在于,
所述回复生成单元确定出所述引导行为对应的回复槽位模板,将所述回复语义添加到所述槽位中,得到候选回复,从所述候选回复中随机选出一个作为生成的回复;
或者,所述回复生成单元通过检索预先构建的回复库,确定出所述回复语义对应的回复语句,作为候选回复,针对每个候选回复,分别将所述引导目标、所述预定历史信息、所述引导行为、所述回复语义及所述候选回复输入所述评分模型,得到输出的所述候选回复的评分,选出评分最高的候选回复作为生成的回复;
或者,所述回复生成单元将所述引导目标、所述预定历史信息、所述引导行为及所述回复语义输入预先训练得到的回复生成模型,得到生成的回复。
21.根据权利要求20所述的装置,其特征在于,
所述装置中进一步包括:预处理单元,用于获取引导对话数据标注结果,所述引导对话数据标注结果中包括引导对话标注结果及引导行为标注结果,根据所述引导对话数据标注结果进行各模型的训练。
22.根据权利要求21所述的装置,其特征在于,
所述引导对话标注结果包括:基于从网络中挖掘出的一段闲聊对话、由两个标注人员相互配合继续进行聊天、并在n轮对话之后将对话内容转到引导目标上的对话文本,n为大于一的正整数,所述两个标注人员中的一个为主动方,另一个为被动方,所述引导目标仅对所述主动方可见;
所述引导行为标注结果包括:为所述对话文本中所述主动方的对话内容标注的引导行为标签。
23.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。