人机对话方法、装置、电子装置及存储介质与流程

文档序号:23949178发布日期:2021-02-18 14:33阅读:133来源:国知局
人机对话方法、装置、电子装置及存储介质与流程

[0001]
本申请涉及计算机技术领域,特别是涉及人机对话方法、装置、电子装置及存储介质。


背景技术:

[0002]
近几年,人工智能技术得到迅速地发展,与智能语音技术相关的产品已经进入到千家万户中。人们逐渐习惯了与机器对话,并且对机器的理解与应答能力有了更高的期待。基于语音的对话系统框架采用自动语音识别(asr,automatic speech recognition)模型和自然语言理解(nlu,natural language understanding)模型,工作流程包括:首先通过asr模型将用户的声音转换为文字,然后利用nlu模型进行语义解析,最终得到用户的意图。
[0003]
相关技术中的对话系统需要大量的对话标注语料来进行模型训练,经过较长的数据积累才能达到不错的对话效果,但随着对话系统应用的对话场景增多,对话系统高频率的迭代更新,长周期的对话系统的不满足对话系统的需求,而相关技术中采用非模型可配置化的对话系统,虽然能够快速实现场景布置,但单一的关键词匹配与树状对话流转,使得对话效果不佳。
[0004]
目前针对相关技术中对话系统实现对话效率低、对话效果不佳的问题,尚未提出有效的解决方案。


技术实现要素:

[0005]
本申请实施例提供了一种人机对话方法、装置、电子装置及存储介质,以至少解决相关技术中对话系统实现对话效率低、对话效果不佳的问题。
[0006]
第一方面,本申请实施例提供了一种人机对话方法,包括:接收用户当前轮次的对话语音,并对所述对话语音进行预处理,得到文本信息,其中,所述预处理包括文本转换、文本纠错;通过预设语意分析模型对所述文本信息进行处理,得到意图信息,其中,所述意图信息至少包括所述用户当前轮次对应的意图;获取历史应答信息,并根据所述历史应答信息和所述意图信息确定当前轮次的对话状态,其中,所述历史应答信息包括根据上一轮次对话的对话状态生成的应答信息;根据预设应答配置模型配置与所述对话状态对应的所述应答信息,并生成与所述应答信息对应的应答语音,其中,所述预设应答配置模型至少包括以下之一:对话策略学习模型、知识库问答模型。
[0007]
在其中一些实施例中,对所述对话语音进行预处理,得到文本信息包括:
[0008]
通过自动语音识别技术对所述对话语音进行文本转换处理,得到待处理文本;
[0009]
将所述待处理文本输入文本纠错模型中进行文本纠错,得到所述文本信息,其中,所述文本纠错模型是根据预设语义信息的第一样本文本、不存在文本错误的第二样本文本及存在文本错误的第三样本文本进行训练生成的。
[0010]
在其中一些实施例中,所述意图信息还包括槽位信息,通过预设语意分析模型对所述文本信息进行处理,得到意图信息包括:
[0011]
对所述文本信息进行自然语言理解处理,得到候选意图数据,其中,所述候选意图数据包括候选意图和候选槽位信息;
[0012]
根据预设意图识别模型在所述候选意图数据中检测第一意图数据,其中,所述预设意图识别模型至少包括以下其中一种:正则匹配模型、预训练语义匹配模型、意图槽位联合模型;
[0013]
在检测到所述第一意图数据的情况下,确定所述意图信息包括所述第一意图数据,其中,所述第一意图数据包括所述用户当前轮次对应的意图和所述槽位信息。
[0014]
在其中一些实施例中,根据所述历史应答信息和所述意图信息确定当前轮次的对话状态包括:
[0015]
将所述历史应答信息和所述意图信息输入对话状态追踪模型中,获取第一特征值,其中,所述第一特征值包括所述历史应答信息和所述意图信息关联的语义特征值;
[0016]
在所述第一特征值中检测预设状态特征值,并根据所述预设状态特征值确定当前轮次的对应状态。
[0017]
在其中一些实施例中,根据预设应答配置模型配置与所述对话状态对应的所述应答信息包括:
[0018]
提取所述对话状态的第一状态语义信息,其中,所述第一状态语义信息至少包括所述意图信息对应的状态语义;
[0019]
将所述第一状态语义信息输入所述预设应答配置模型中,获取所述应答信息,其中,所述预设应答配置模型包括以下其中之一:对话策略学习模型、知识库问答模型。
[0020]
在其中一些实施例中,所述预设应答配置模型包括对话策略学习模型和知识库问答模型,根据预设应答配置模型配置与所述对话状态对应的所述应答信息包括:
[0021]
提取所述对话状态的第二状态语义信息,其中,所述第二状态语义信息至少包括所述意图信息对应的状态语义;
[0022]
将所述第二状态语义信息输入所述对话策略学习模型中,并查询与所述第二状态语义信息对应的机器人话术信息,其中,所述对话策略学习模型是根据第一预设状态语义信息和与所述第一预设状态语义信息对应的机器人话术信息进行训练生成的;
[0023]
在未查询到与所述第二状态语义信息对应的机器人话术信息的情况下,将所述第二状态语义信息输入所述知识库问答模型,获取与所述第二状态语义信息对应的应答文本信息,并确定所述应答信息包括所述应答文本信息,其中,所述知识库问答模型包括第二预设状态语义信息及与所述第二预设状态语义信息对应的应答文本信息。
[0024]
在其中一些实施例中,在查询到与所述第二状态语义信息对应的机器人话术信息的情况下,确定所述应答信息包括与所述第二状态语义信息对应的机器人话术信息。
[0025]
在其中一些实施例中,生成与所述应答信息对应的应答语音包括:将所述应答信息进行语音转换,生成所述应答语音。
[0026]
第二方面,本申请实施例提供了一种人机对话装置,包括:
[0027]
转换模块,用于接收用户当前轮次的对话语音,并对所述对话语音进行预处理,得到文本信息,其中,所述预处理包括文本转换、文本纠错;
[0028]
生成模块,用于通过预设语意分析模型对所述文本信息进行处理,得到意图信息,其中,所述意图信息至少包括所述用户当前轮次对应的意图;
[0029]
处理模块,用于获取历史应答信息,并根据所述历史应答信息和所述意图信息确定当前轮次的对话状态,其中,所述历史应答信息包括根据上一轮次对话的对话状态生成的应答信息;
[0030]
应答模块,用于根据预设应答配置模型配置与所述对话状态对应的所述应答信息,并生成与所述应答信息对应的应答语音,其中,所述预设应答配置模型至少包括以下之一:对话策略学习模型、知识库问答模型。
[0031]
第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行第一方面所述的人机对话方法。
[0032]
第四方面,本申请实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行第一方面所述的人机对话方法。
[0033]
相比于相关技术,本申请实施例提供的一种人机对话方法、装置、电子装置及存储介质,通过接收用户当前轮次的对话语音,并对对话语音进行预处理,得到文本信息;通过预设语意分析模型对文本信息进行处理,得到意图信息;获取历史应答信息,并根据历史应答信息和意图信息确定当前轮次的对话状态;根据预设应答配置模型配置与对话状态对应的应答信息,并生成与应答信息对应的应答语音,解决了相关技术中对话系统实现对话效率低、对话效果不佳的问题,实现了快速、有效地实现各场景的ai机器人外呼功能,降低人力成本,提高对话效率与对话效果的有益效果。
[0034]
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0035]
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0036]
图1是本发明实施例的人机对话方法的终端的硬件结构框图;
[0037]
图2是根据本申请实施例的人机对话方法的流程图;
[0038]
图3是根据本申请实施例的人机对话装置的结构框图。
具体实施方式
[0039]
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0040]
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0041]
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
[0042]
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0043]
本申请中描述的各种技术可用于对话系统中意图识别、槽位信息获取、对话状态确认。
[0044]
在对本申请的实施例进行描述和说明之前,先对本申请中使用的相关技术进行说明如下:
[0045]
自动语音识别技术(automatic speech recognition,asr),是一种将人的语音转换为文本的技术。
[0046]
自然语言理解(natural language understanding,nlu),对用户输入的句子或者语音识别的结果进行处理,提取用户的对话意图以及用户所传递的信息。
[0047]
对话状态追踪(dialog state tracking,dst),根据所有对话历史信息推断当前对话状态和用户目标。
[0048]
对话策略学习(dialog policy learning,dpl),根据当前对话状态选择下一步合适的动作。
[0049]
知识库问答(knowledge base question answering,kbqa),给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。
[0050]
文本转语音(text to speech,tts),是一种将文本转成人语音的技术。
[0051]
bert表示预训练的语音表征模型/预训练模型,jointbort表示意图槽位联合模型。
[0052]
本实施例提供的人机对话方法实施例可以在终端、计算机或者类似的测试平台中执行。以运行在终端上为例,图1是本发明实施例的人机对话方法运行终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本
领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0053]
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的人机对话方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0054]
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
[0055]
本实施例提供了一种人机对话方法,图2是根据本申请实施例的人机对话方法的流程图,如图2所示,该流程包括如下步骤:
[0056]
步骤s201,接收用户当前轮次的对话语音,并对对话语音进行预处理,得到文本信息,其中,预处理包括文本转换、文本纠错。
[0057]
在本实施例中,当前轮次的对话语音包括机器人的对话语音和用户的对话语音,在对话中,对话系统所期望完成的是根据用户的对话语音获取对应的意图,从而做出响应于意图对应的动作,其中,对应的动作包括根据用户的对话语音予以的回复。
[0058]
在本实施例中,获取到用户当前轮次的对话语音后,对话系统会对对话语音进行asr识别成文本,并进行文本纠错;由于asr识别过程中,会存在识别误差,进而造成生成的文本与用户原本的语义有很大的差异,进而需要对asr识别出的文本进行纠错,例如:针对机器人的问询,用户的回答为“买好了,买好了”,但在asr设别过程中,会识别为“蛮好了,蛮好了”的文本,此时,再通过文本纠错,得到的文本信息则变为“买好了,买好了”。
[0059]
步骤s202,通过预设语意分析模型对文本信息进行处理,得到意图信息,其中,意图信息至少包括用户当前轮次对应的意图。
[0060]
在本实施例中,对文本纠错后的文本信息进行自然语言理解,生成对应的意图和槽位。
[0061]
在具体实施例中,如:对“买好了,买好了”进行自然语音理解(nlu识别),得到“已买车”的意图,当然,在“买好了,买好了”的对话语音对应的意图信号不包括槽位;又如:当针对机器人的问询,用户的回答为“xx320,你们xx320多少钱?”,对“xx320,你们xx320多少钱?”进行自然语音理解(nlu识别),得到“询问车价”的意图和“车型:xx320”的槽位。
[0062]
在本实施例中,生成的意图通过意图识别确定,意图识别至少包括以下其中一种:正则匹配,bert语义匹配,jointbert模型;其中,
[0063]
正则匹配和bert语义匹配只需配置正则表达式和关键句就能起到意图识别的效果,可适用于早期冷启动阶段以及新增意图的场景。
[0064]
当数据积累到一定程度后,使用预训练的jointbert模型,进行多轮意图识别,籍以提高意图识别准确率。
[0065]
在本实施例中,生成的槽位是通过槽位提取获得,其中,槽位提取至少包括以下其中一种:正则匹配、bert实体标注模型、jointbert模型;其中,
[0066]
正则匹配与bert实体标注模型可适用于早期冷启动阶段以及新增槽位的场景,其中bert实体标注模型的训练数据可以采用开源的通用数据集。
[0067]
当数据积累到一定程度后,使用预训练的jointbert模型,进行多轮槽位提取并提高槽位提取准确率。
[0068]
步骤s203,获取历史应答信息,并根据历史应答信息和意图信息确定当前轮次的对话状态,其中,历史应答信息包括根据上一轮次对话的对话状态生成的应答信息。
[0069]
在本实施例中,当前轮次的对话状态的确认包括通过dst配置化配置对话状态和通过jointbert模型生成对话状态两种方式,其中,
[0070]
dst配置化包括意图映射、ai追踪、标签推理、二次标签生成等,可适用于早期冷启动阶段以及新增状态的场景。
[0071]
当数据积累到一定程度后,使用预训练的jointbert模型,进行多轮状态更新并提高状态更新的准确率。
[0072]
在本实施例中,确定当前轮次的对话状态是根据历史轮次(当前轮次对话之前的对话)的机器人的表述(对应为当前轮次之前的问询)和当前轮次用户的对话语音所对应的答案确认,例如:历史轮次的机器表述为:“请问您最近有买车的打算吗”,机器人的表述中带有询问买车意向的语义,在当前轮次用户的对话语音为:“买好了,买好了”的情况下,基于询问买车意向的语义和用户的对话语音所对应的答案确定当前轮次的对话状态为“已买车”;又例如:历史轮次的机器表述为:“那您买的是什么车呢?”,机器人的表述中带有询问车型的语义,在当前轮次用户的对话语音为:“xx320,你们xx320多少钱?”的情况下,基于询问车型意向的语义和用户的对话语音所对应的答案确定当前轮次的对话状态为“已买车、询问车价、已买车型:xx320”。
[0073]
步骤s204,根据预设应答配置模型配置与对话状态对应的应答信息,并生成与应答信息对应的应答语音,其中,预设应答配置模型至少包括以下之一:对话策略学习模型、知识库问答模型。
[0074]
在本实施例中,配置与对话状态对应的应答信息包括通过对话策略(dpl)模型进行配置和通过知识库问答(kbaq)模型进行配置,其中,
[0075]
dpl配置包括全局匹配、分支匹配、肯定否定匹配、未听清、未匹配、话术兜底等话术流转功能,用于应对以机器人为主导的大部分对话内容,例如:机器人引导式问询方式配置应答信息。
[0076]
kbqa配置化是采用nlp2sql进行数据库查询生成对应的机器人回复,用于以用户为主导的查询内容。
[0077]
在本实施例中,在配置到应答信息后,通过tts技术将机器人的应答信息生成应答语音并回传给用户端。
[0078]
通过上述步骤s201至步骤s204,采用接收用户当前轮次的对话语音,并对对话语音进行预处理,得到文本信息;通过预设语意分析模型对文本信息进行处理,得到意图信
息;获取历史应答信息,并根据历史应答信息和意图信息确定当前轮次的对话状态;根据预设应答配置模型配置与对话状态对应的应答信息,并生成与应答信息对应的应答语音,解决了相关技术中对话系统实现对话效率低、对话效果不佳的问题,实现了快速、有效地实现各场景的ai机器人外呼功能,降低人力成本,提高对话效率与对话效果的有益效果。
[0079]
需要说明的是,本申请实施例中,采用nlu配置化与nlu模型相结合,提升意图识别与槽位提取的实现效率和效果;采用dst配置化与dst模型相结合,提升状态更新的实现效率和效果;采用dpl配置化与kbqa相结合,提升话术流转的实现效率和效果;nlu模型和dst模型在对话数据量少的情况下,均采用了基于bert预训练的模型,而在对话数据量累积到预设数据阈值的情况下,则采用jointbert模型,解决意图识别、槽位提取、状态更新的问题,提升准确率。
[0080]
在其中一些实施例中,对话语音进行预处理,得到文本信息包括步骤:
[0081]
步骤1,通过自动语音识别技术对对话语音进行文本转换处理,得到待处理文本。
[0082]
在本实施例中,获取到用户当前轮次的对话语音后,对话系统会对对话语音进行asr识别成文本,asr识别出的文本为待处理文本。
[0083]
步骤2,将待处理文本输入文本纠错模型中进行文本纠错,得到文本信息,其中,文本纠错模型是根据预设语义信息的第一样本文本、不存在文本错误的第二样本文本及存在文本错误的第三样本文本进行训练生成的。
[0084]
在本实施例中,由于asr识别过程中,会存在识别误差,进而造成生成的文本与用户原本的语义有很大的差异,进而需要对asr识别出的文本进行纠错。
[0085]
具体地,针对机器人的问询,用户原本的语义是“买好了”,但在asr设别过程中,会识别为“蛮好了”的文本,此时,通过文本纠错,得到的文本信息则变为“买好了”;而针对文本纠错模型而言,其中,第一样本文本对应为“蛮好了”,第二样本文本对应为“买好了”,第三样本文本对应为与“买好了”相关联的一些错误文本。
[0086]
通过上述步骤中的通过自动语音识别技术对对话语音进行文本转换处理,得到待处理文本;将待处理文本输入文本纠错模型中进行文本纠错,得到文本信息,实现了准确获取用户对话语音的文本信息。
[0087]
在其中一些实施例中,意图信息还包括槽位信息,通过预设语意分析模型对文本信息进行处理,得到意图信息包括如下步骤:
[0088]
步骤1,对文本信息进行自然语言理解处理,得到候选意图数据,其中,候选意图数据包括候选意图和候选槽位信息。
[0089]
在本实施例中,对文本纠错后的文本信息进行自然语言理解,生成对应的候选意图和候选槽位信息。
[0090]
步骤2,根据预设意图识别模型在候选意图数据中检测第一意图数据,其中,预设意图识别模型至少包括以下其中一种:正则匹配模型、预训练语义匹配模型、意图槽位联合模型。
[0091]
步骤3,在检测到第一意图数据的情况下,确定意图信息包括第一意图数据,其中,第一意图数据包括用户当前轮次对应的意图和槽位信息。
[0092]
通过上述步骤中的对文本信息进行自然语言理解处理,得到候选意图数据;根据预设意图识别模型在候选意图数据中检测第一意图数据;在检测到第一意图数据的情况
下,确定意图信息包括第一意图数据,其中,第一意图数据包括用户当前轮次对应的意图和槽位信息,实现意图识别和槽位提取,并提高了意图识别与槽位提取的实现效率和效果。
[0093]
在其中一些实施例中,根据历史应答信息和意图信息确定当前轮次的对话状态包括如下步骤:
[0094]
步骤1,将历史应答信息和意图信息输入对话状态追踪模型中,获取第一特征值,其中,第一特征值包括历史应答信息和意图信息关联的语义特征值。
[0095]
在本实施例中,第一特征值是根据历史应答信息和当前轮次的意图信息确定的,同时,第一特征值包括多个历史应答信息和意图信息关联的语义特征值。
[0096]
步骤2,在第一特征值中检测预设状态特征值,并根据预设状态特征值确定当前轮次的对应状态。
[0097]
在本实施例中,预设状态特征值为目标状态特征值,并且目标状态特征值是与当前轮次的状态强相关,例如:目标状态特征值为“买好了、aa320多少钱”,则可确定当前轮次的状态至少包括购买的状态,询问价格,产品型号。
[0098]
通过上述步骤中的将历史应答信息和意图信息输入对话状态追踪模型中,获取第一特征值;在第一特征值中检测预设状态特征值,并根据预设状态特征值确定当前轮次的对应状态,实现了根据历史应答信息和意图信息确定当前轮次的对话状态,并通过对话状态追踪模型提升状态更新的实现效率和效果。
[0099]
在其中一些实施例中,根据预设应答配置模型配置与对话状态对应的应答信息包括如下步骤:
[0100]
步骤1,提取对话状态的第一状态语义信息,其中,第一状态语义信息至少包括意图信息对应的状态语义。
[0101]
在本实施例中,第一状态语义信息是用于描述当前轮次对话状态的信息,第一状态语义信息包括用户的意图信息、槽位信息。
[0102]
步骤2,将第一状态语义信息输入预设应答配置模型中,获取应答信息,其中,预设应答配置模型包括以下其中之一:对话策略学习模型、知识库问答模型。
[0103]
在本实施例中,配置与对话状态对应的应答信息是将第一状态语义信息作为数据源输入,并通过对话策略(dpl)模型和/或知识库问答(kbaq)模型根据输入的数据源从而配置出对应的应答信息。
[0104]
在本实施例中,采用对话策略(dpl)模型,并将第一状态语义信息作为数据源,选取下一轮次对话合适的动作、应答,也就是与当前轮次对话状态对应的应答信息。
[0105]
在本实施例中,采用知识库问答(kbaq)模型,将第一状态语义信息作为进行知识库查询、推理出应答信息的数据基础,采用数据库查询而得到与当前轮次对话状态对应的应答信息。
[0106]
通过上述步骤中的提取对话状态的第一状态语义信息;将第一状态语义信息输入预设应答配置模型中,获取应答信息,实现配置与当前轮次对话状态对应的应答信息。
[0107]
在其中一些实施例中,预设应答配置模型包括对话策略学习模型和知识库问答模型,根据预设应答配置模型配置与对话状态对应的应答信息包括如下步骤:
[0108]
步骤1,提取对话状态的第二状态语义信息,其中,第二状态语义信息至少包括意图信息对应的状态语义。
[0109]
在本实施例中,第二状态语义信息是用于描述当前轮次对话状态的信息,第一状态语义信息包括用户的意图信息、槽位信息。
[0110]
步骤2,将第二状态语义信息输入对话策略学习模型中,并查询与第二状态语义信息对应的机器人话术信息,其中,对话策略学习模型是根据第一预设状态语义信息和与第一预设状态语义信息对应的机器人话术信息进行训练生成的。
[0111]
在本实施例中,采用对话策略模型,并将第二状态语义信息作为数据源,选取机器人话术信息,也就是与当前轮次对话状态对应的应答信息。
[0112]
步骤3,在未查询到与第二状态语义信息对应的机器人话术信息的情况下,将第二状态语义信息输入知识库问答模型,获取与第二状态语义信息对应的应答文本信息,并确定应答信息包括应答文本信息,其中,知识库问答模型包括第二预设状态语义信息及与第二预设状态语义信息对应的应答文本信息。
[0113]
在本实施例中,在对话策略学习(dpl)模型未定位配置到第二状态语义信息的对应的话术时,再根据知识库问答(kbaq)模型进行数据库查询,采用数据库查询而得到与当前轮次对话状态对应的应答信息。
[0114]
通过上述步骤中的提取对话状态的第二状态语义信息;将第二状态语义信息输入对话策略学习模型中,并查询与第二状态语义信息对应的机器人话术信息;在未查询到与第二状态语义信息对应的机器人话术信息的情况下,将第二状态语义信息输入知识库问答模型,获取与第二状态语义信息对应的应答文本信息,并确定应答信息包括应答文本信息,实现配置与当前轮次对话状态对应的应答信息,采用对话策略学习(dpl)模型与知识库问答(kbaq)模型相结合,提升话术流转的实现效率和效果。
[0115]
在其中一些实施例中,根据预设应答配置模型配置与对话状态对应的应答信息包括如下步骤:在查询到与第二状态语义信息对应的机器人话术信息的情况下,确定应答信息包括与所述第二状态语义信息对应的机器人话术信息。
[0116]
在其中一些实施例中,生成与所述应答信息对应的应答语音包括如下步骤:将所述应答信息进行语音转换,生成所述应答语音。
[0117]
以下以具体实施例的对话进行人机对话流程分析
[0118]
对话实例如下:
[0119]
机器人话术:“请问您最近有买车的打算吗?”[0120]
用户对话语音:“蛮好了,蛮好了。”[0121]
机器人话术:“那您买的是什么车呢?”[0122]
用户对话语音:“aa320,你们aa320多少钱?”[0123]
机器人话术:“aa320的官方指导价是38-40万左右。”[0124]
人机对话流程分析如下:
[0125]
步骤1,机器人问“请问您最近有买车的打算吗?”,用户回复的对话语音经asr识别成“蛮好了,蛮好了。”,通过文本纠错变成“买好了,买好了。”。
[0126]
步骤2,对“买好了,买好了。”进行nlu识别,得到“已买车”的意图。
[0127]
步骤3,dst自动更新当前轮次的对话状态为“已买车”。
[0128]
步骤4,根据dpl的配置定位到“已买车”的分支,配置出自动回复的应答信息(机器人话术)“那您买的是什么车呢?”。
[0129]
步骤5,tts将“那您买的是什么车呢?”的文本转成语音回复给用户。
[0130]
步骤6,用户回复的对话语音再经asr识别与文本纠错变成“aa320,你们aa320多少钱?”。
[0131]
步骤7,对“aa320,你们aa320多少钱?”进行nlu识别,得到“询问车价”的意图和“车型:aa320”的槽位。
[0132]
步骤8,dst自动更新当前轮次的对话状态为“已买车、询问车价、已买车型:aa320”。
[0133]
步骤9,首先dpl的配置未定位配置到“询问车价”的话术,再根据kbqa进行数据库查询,查询到与当前轮次对话状态对应的“aa320的官方指导价是38-40万左右。”的文本。
[0134]
步骤10,tts将“aa320的官方指导价是38-40万左右。”的文本转成语音回复给用户。
[0135]
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0136]
本实施例还提供了一种人机对话装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0137]
图3是根据本申请实施例的人机对话装置的结构框图,如图3所示,该装置包括:
[0138]
转换模块31,用于接收用户当前轮次的对话语音,并对对话语音进行预处理,得到文本信息,其中,预处理包括文本转换、文本纠错;
[0139]
生成模块32,与转换模块31耦合连接,用于通过预设语意分析模型对文本信息进行处理,得到意图信息,其中,意图信息至少包括用户当前轮次对应的意图;
[0140]
处理模块33,与生成模块32耦合连接,用于获取历史应答信息,并根据历史应答信息和意图信息确定当前轮次的对话状态,其中,历史应答信息包括根据上一轮次对话的对话状态生成的应答信息;
[0141]
应答模块34,与处理模块33耦合连接,用于根据预设应答配置模型配置与对话状态对应的应答信息,并生成与应答信息对应的应答语音,其中,预设应答配置模型至少包括以下之一:对话策略学习模型、知识库问答模型。
[0142]
在其中一些实施例中,转换模块31用于通过自动语音识别技术对对话语音进行文本转换处理,得到待处理文本;将待处理文本输入文本纠错模型中进行文本纠错,得到文本信息,其中,文本纠错模型是根据预设语义信息的第一样本文本、不存在文本错误的第二样本文本及存在文本错误的第三样本文本进行训练生成的。
[0143]
在其中一些实施例中,意图信息还包括槽位信息,生成模块32用于对文本信息进行自然语言理解处理,得到候选意图数据,其中,候选意图数据包括候选意图和候选槽位信息;根据预设意图识别模型在候选意图数据中检测第一意图数据,其中,预设意图识别模型至少包括以下其中一种:正则匹配模型、预训练语义匹配模型、意图槽位联合模型;在检测到第一意图数据的情况下,确定意图信息包括第一意图数据,其中,第一意图数据包括用户当前轮次对应的意图和槽位信息。
[0144]
在其中一些实施例中,处理模块33用于将历史应答信息和意图信息输入对话状态追踪模型中,获取第一特征值,其中,第一特征值包括历史应答信息和意图信息关联的语义特征值;在第一特征值中检测预设状态特征值,并根据预设状态特征值确定当前轮次的对应状态。
[0145]
在其中一些实施例中,应答模块34用于提取对话状态的第一状态语义信息,其中,第一状态语义信息至少包括意图信息对应的状态语义;将第一状态语义信息输入预设应答配置模型中,获取应答信息,其中,预设应答配置模型包括以下其中之一:对话策略学习模型、知识库问答模型。
[0146]
在其中一些实施例中,预设应答配置模型包括对话策略学习模型和知识库问答模型,应答模块3用于提取对话状态的第二状态语义信息,其中,第二状态语义信息至少包括意图信息对应的状态语义;将第二状态语义信息输入对话策略学习模型中,并查询与第二状态语义信息对应的机器人话术信息,其中,对话策略学习模型是根据第一预设状态语义信息和与第一预设状态语义信息对应的机器人话术信息进行训练生成的;在未查询到与第二状态语义信息对应的机器人话术信息的情况下,将第二状态语义信息输入知识库问答模型,获取与第二状态语义信息对应的应答文本信息,并确定应答信息包括应答文本信息,其中,知识库问答模型包括第二预设状态语义信息及与第二预设状态语义信息对应的应答文本信息。
[0147]
在其中一些实施例中,应答模块3用于在查询到与第二状态语义信息对应的机器人话术信息的情况下,确定应答信息包括与第二状态语义信息对应的机器人话术信息。
[0148]
在其中一些实施例中,应答模块3用于将应答信息进行语音转换,生成应答语音。
[0149]
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0150]
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0151]
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0152]
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
[0153]
s1,接收用户当前轮次的对话语音,并对对话语音进行预处理,得到文本信息,其中,预处理包括文本转换、文本纠错。
[0154]
s2,通过预设语意分析模型对文本信息进行处理,得到意图信息,其中,意图信息至少包括用户当前轮次对应的意图。
[0155]
s3,获取历史应答信息,并根据历史应答信息和意图信息确定当前轮次的对话状态,其中,历史应答信息包括根据上一轮次对话的对话状态生成的应答信息。
[0156]
s4,根据预设应答配置模型配置与对话状态对应的应答信息,并生成与应答信息对应的应答语音,其中,预设应答配置模型至少包括以下之一:对话策略学习模型、知识库问答模型。
[0157]
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所
描述的示例,本实施例在此不再赘述。
[0158]
另外,结合上述实施例中的人机对话方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种人机对话方法。
[0159]
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0160]
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1