本公开涉及人机会话领域,尤其涉及会话图谱的生成方法、会话方法、装置、设备及存储介质。
背景技术:
1、随着计算机技术的发展,人机会话越来越普遍。为了能够使会话机器人像真人一样为用户提供全面丰富的应答服务,往往需要建立数据量巨大的会话语料,极大的数据体量会带来诸多问题,例如:增大数据存储、维护、更新和校验等方面的管理难度,消耗较大的人力成本和时间成本。更重要的是,数据体量大还会导致查询答复语句的效率降低。
2、因此,目前亟需一种降低会话语料数据量的方法。
技术实现思路
1、为了解决上述技术问题,本公开提供了会话图谱的生成方法、会话方法、装置、设备及存储介质。
2、第一方面,本公开提供了一种会话图谱的生成方法,包括:
3、获取多个会话语料;其中,一个所述会话语料包括多轮问答的会话语句;
4、对各所述会话语句中的询问语句进行字词的实体识别,得到多个关键实体;
5、按照种类对多个所述关键实体进行归类,得到多种实体类型;
6、基于所述实体类型构造模板节点和模板边,并由所述模板节点和所述模板边构造会话图谱;其中,所述模板节点中包括一对问答语句,所述模板边用于表示所连接的两个所述模板节点之间的跳转话题。
7、在本公开另一种实施方式中,所述对各所述会话语句中的询问语句进行字词的实体识别,得到多个关键实体,包括:
8、确定各所述会话语句中的询问语句的询问意图;
9、根据所述询问意图将多个所述询问语句划分为不同的语句分组;
10、在同一所述语句分组内,对各所述询问语句中的字词进行实体识别,得到多个关键实体。
11、在本公开另一种实施方式中,所述基于所述实体类型构造模板节点,包括:
12、对所述实体类型进行语义填充,得到询问意图不同的多种模板询问语句;
13、为各所述模板询问语句确定对应的模板回答语句;
14、将所述模板询问语句和与其对应的所述模板回答语句确定为所述模板节点。
15、在本公开另一种实施方式中,述基于所述实体类型构造模板边,包括:
16、确定前后相邻两轮问答中的两个所述询问语句对应的前一模板节点和后一模板节点;
17、对所述前一模板节点中的模板询问语句,获取所述后一模板节点中对应的目标询问语句;
18、在所述目标询问语句的所述实体类型中确定用于引导话题的目标实体类型;
19、将所述目标实体类型确定为由所述前一模板节点指向所述后一模板节点的所述模板边。
20、在本公开另一种实施方式中,所述方法还包括:
21、在所述多个会话语料中,设置包括多轮问答的关键会话语句;
22、基于三元组抽取算法对所述关键会话语句进行数据抽取,得到语义完整的多轮问答语句和在前后两轮所述问答语句之中用于延续会话的关键语句;
23、将各所述问答语句均确定为实例节点;
24、将每两个所述问答语句之间的所述关键语句作为对应的两个所述实例节点之间的实例边;
25、将所述实例节点和所述实例边加入到所述会话图谱中。
26、在本公开另一种实施方式中,所述方法还包括:
27、在所述会话图谱中,确定所述实例节点和所述实例边的优先级高于所述模板节点和所述模板边。
28、在本公开另一种实施方式中,所述基于三元组抽取算法对所述关键会话语句进行数据抽取,得到语义完整的多轮问答语句和在前后两轮所述问答语句之中用于延续会话的关键语句,包括:
29、基于三元组抽取算法,在所述关键会话语句中抽取当前轮会话中第一原始问答语句、所述第一原始问答语句后延续的第二原始询问语句,以及对所述第二原始询问语句回复的第二原始回答语句;
30、将所述第一原始问答语句、所述第二原始询问语句及其第二原始回答语句,分别调整为表达完整且语义不变的语句,得到最终的所述问答语句;
31、将所述第二原始询问语句进行噪声过滤,得到所述关键语句。
32、第二方面,本公开还提供了一种会话方法,包括:
33、获取会话图谱;其中,所述会话图谱是根据上述第一方面的方法生成的;
34、当获取到待答复的当前查询语句时,在所述会话图谱中查找与所述当前查询语句相匹配的第一节点,所述第一节点包括:第一模板节点或第一实例节点;
35、根据所述第一节点中的回答语句对所述当前查询语句进行回答。
36、在本公开另一种实施方式中,所述方法还包括:
37、在对所述当前查询语句进行回答之后,获取延续所述当前查询语句的新的查询语句;
38、根据所述新的查询语句中的关键词,在所述第一节点对应的多条边中确定与所述新的查询语句相匹配的目标边;其中,所述目标边包括:目标模板边或目标实例边;
39、确定由所述目标边连接的第二节点;
40、根据所述第二节点中的回答语句对所述新的查询语句进行回答。
41、第三方面,本公开还提供了一种会话图谱的生成装置,包括:
42、会话语料获取模块,用于获取多个会话语料;其中,一个所述会话语料包括多轮问答的会话语句;
43、实体处理模块,用于对各所述会话语句中的询问语句进行字词的实体识别,得到多个关键实体;
44、归类模块,用于按照种类对多个所述关键实体进行归类,得到多种实体类型;
45、图谱构造模块,用于基于所述实体类型构造模板节点和模板边,并由所述模板节点和所述模板边构造会话图谱;其中,所述模板节点中包括一对问答语句,所述模板边用于表示所连接的两个所述模板节点之间的跳转话题。
46、第四方面,本公开还提供了一种会话装置,包括:
47、图谱获取模块,用于获取会话图谱;其中,所述会话图谱是根据上述第一方面所述的方法生成的;
48、节点查找模块,用于当获取到待答复的当前查询语句时,在所述会话图谱中查找与所述当前查询语句相匹配的第一节点,所述第一节点包括:第一模板节点或第一实例节点;
49、回答模块,用于根据所述第一节点中的回答语句对所述当前查询语句进行回答。
50、第五方面,本公开还提供了一种电子设备,包括:
51、处理器;
52、存储器,用于存储可执行指令;
53、其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现上述第一方面的会话图谱的生成方法,或者实现上述第二方面的会话方法。
54、第六方面,本公开还提供了一种计算机可读存储介质,存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现上述第一方面的会话图谱的生成方法,或者实现上述第二方面的会话方法。
55、第七方面,本公开还提供了一种冰箱,包括:如下至少一种:
56、上述第三方面所述的会话图谱的生成装置;
57、上述第四方面所述的会话装置;
58、上述第五方面所述的电子设备;
59、上述第六方面所述的计算机可读存储介质。
60、本公开实施例提供的技术方案与现有技术相比具有如下优点:
61、本公开实施例的会话图谱的生成方法,包括:获取多个会话语料;其中,一个会话语料包括多轮问答的会话语句;对各会话语句中的询问语句进行字词的实体识别,得到多个关键实体;按照种类对多个关键实体进行归类,得到多种实体类型;基于实体类型构造模板节点和模板边,并由模板节点和模板边构造会话图谱;其中,模板节点中包括一对问答语句,模板边用于表示所连接的两个模板节点之间的跳转话题。本技术方案首先将会话语句中的关键实体归类为多种实体类型,同一实体类型能够表示多个关键实体,于是归类后的实体类型相比于关键实体明显减小了数据量;简言之,以数量较小的实体类型来表示数量较多的关键实体。在此基础上,利用实体类型构造模板节点和模板边,也相应的能够以少量的模板节点、模板边,来表示大量的会话语句、会话语句之间的跳转话题。因此,本方案能够通过会话图谱来明显降低会话语料的数据量。