一种提升多轮人机交互性能的方法和系统与流程

文档序号：37541526发布日期：2024-04-08 13:41阅读：10来源：国知局

本发明涉及机器学习算法、自然语言处理，特别是涉及一种提升多轮人机交互性能的方法和系统。

背景技术：

1、人机交互是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换历程。随着信息爆炸时代的到来，人机交互项目的应用呈指数级增长，已成为本发明生活的重要组成部分，涵盖各行各业，如客服机器人、智能家居、自动驾驶等领域。它们为本发明提供了方便快捷的服务，并引发人们对计算机全方位为人类服务的美好想象，但同时人机交互系统也存在一些主要的问题和不足。

2、人机交互系统发展逐渐从面向计算机的人,转变为面向人的计算机，但是现有技术在实施中仍面临许多阻碍。目前，普遍的人机交互系统现有技术是基于规则的人机交互系统。这种系统主要依赖于预先设定的规则来驱动对话，虽然在某些有限的领域内，如查询服务和预订服务中效果良好，但是其对话能力存在严重的局限性。首先，基于规则的系统的对话流程比较固定，缺乏灵活性和适应性，对用户输入的理解有限，往往无法处理复杂的、多层次的对话需求。目前的人机交互系统在理解用户意图，特别是在多轮对话环境中，其识别精度仍有待提高。大部分人机交互系统采用了简单的关键词匹配或者短语匹配技术，很难处理复杂的对话逻辑。同时，诸如语法错误、方言、口音、语速快慢、说话的语气和情感等因素，都会影响语音识别的准确性。

3、其次，它们往往在面对未预见的输入时会出现困扰，或是无法理解，或是无法给出合理的回应。这在很大程度上限制了人机交互的效率和用户体验。尤其是在多轮对话中，缺乏有效的对话策略，导致不能满足用户的个性化需求。大部分系统采用了预设的回应模板，导致交互内容单一，缺乏灵活性，也无法进行有效的个性化服务。另一种常见的现有技术是基于机器学习的人机交互系统，如基于深度学习的自然语言处理模型。随着机器学习和自然语言处理技术的快速发展，人们能够构建更复杂和高效的模型来处理数据，目前主流的人机交互系统便是应用复杂和高效的模型来处理数据。这类模型通过训练大量对话数据学习语言规则和对话模式，以实现更自然、更复杂的人机对话。然而，尽管这种模型在处理复杂对话和理解自然语言方面具有显著优势，但仍然存在一些关键问题。这类模型的训练需要大量标注数据，但是传统的人工标记方法需要大量的人力和时间投入，并且容易受主观因素影响。

技术实现思路

1、本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此，本发明提出了一种提升多轮人机交互性能的方法，针对现有基于规则的人机交互系统对话流程的固定性和对用户输入理解的局限性，本发明能够处理复杂、多层次的对话需求，并对各类用户输入有更高理解能力，不仅可以提取文本，还能解释所讲内容的语义，或者根据用户的命令提供相关服务。

3、本发明的另一个目的在于提出一种提升多轮人机交互性能的系统。

4、为达上述目的，本发明一方面提出一种提升多轮人机交互性能的方法，包括：

5、将实时语音数据输入至训练好的语音转化网络模型以转化输出文本数据；

6、将所述文本数据输入至训练好的情感识别网络模型以识别得到情感捕捉结果；

7、将所述情感捕捉结果输入至训练好的对话系统模型以基于强化学习算法通过与环境交互输出自动优化策略；

8、将所述自动优化策略输入至训练好的gpt-4模型以输出得到相应的语义回应。

9、本发明实施例的优化的提升多轮人机交互性能的方法还可以具有以下附加技术特征：

10、在本发明的一个实施例中，在将实时语音数据输入至训练好的语音转化网络模型之前，所述方法，还包括：

11、获取语音数据样本和所述语音数据样本对应的单词句子；

12、提取所述语音数据样本的第一特征数据，其中，所述第一特征数据至少包括第一梅尔频率特征图；

13、对所述第一梅尔频率特征图进行数据增强得到由所述语音数据样本转换的梅尔频率倒谱系数图像；以及，

14、根据由所述单词句子组成的文本的字符构建词汇表，将所述词汇表转换为字符id并和所述文本作为语音转化网络模型输入的目标标签。

15、在本发明的一个实施例中，所述第一特征数据，还包括第一频谱特征图、第二倒谱特征图、线性预测系数和情感特征图中的多种。

16、在本发明的一个实施例中，在将所述词汇表转换为字符id并和所述文本作为语音转化网络模型输入的目标标签之后，所述方法，还包括：

17、构建语音转化网络模型；其中，所述语音转化网络模型，包括cnn卷积神经网络、双向lstm循环网络和softmax线性层；

18、将所述梅尔频率倒谱系数图像输入至所述cnn卷积神经网络输出得到文本特征图；

19、将所述文本特征图和所述目标标签输入至所述双向lstm循环网络进行处理以得到对应字符序列的时间步长；其中，所述字符序列至少包括所述字符id；

20、利用softmax线性层输出所述时间步长的真实字符概率以计算字符级分类结果，对基于ctc算法得到的预测字符概率与所述真实字符概率进行比较以计算字错误率，通过最小化字错误率调整语音转化网络模型的参数和优化所述字符级分类结果以得到所述训练好的语音转化网络模型。

21、在本发明的一个实施例中，在将所述文本数据输入至训练好的情感识别网络模型之前，所述方法，还包括：

22、将所述语音数据样本划分为多段语音样本；

23、将所述多段语音样本输入至卷积神经网络模型以提取得到第二特征数据，并对每段语音样本标记对应的情感标签；

24、将所述第二特征数据和所述情感标签输入至随机森林模型，以基于模型训练输出的情感识别分类结果得到所述训练好的情感识别网络模型。

25、在本发明的一个实施例中，所述第二特征数据，包括第二频谱特征图、第二梅尔频率特征图、第二倒谱特征图、空间特征图和动态特征图中的多种。

26、在本发明的一个实施例中，在将所述情感捕捉结果输入至训练好的对话系统模型以基于强化学习算法通过与环境交互输出自动优化策略之前，所述方法，还包括：

27、利用bert模型对包含所述情感识别分类结果的文本数据样本进行分词操作，以将样本句子分割成单词；

28、提取单词的多种语义特征，以基于所述多种语义特征表示处理的环境状态；

29、定义在所述环境状态下的混合动作空间，对话系统模型在混合动作空间中选择合适的动作来执行对话生成，以生成回应；其中，生成的所述回应至少包括预设的回应集合和bert模型生成的回应；以及，

30、设计用于评价所述对话系统模型在混合动作空间中选择合适的动作的奖励函数，利用q-learning算法使得奖励最大，以更新优化策略得到最优的动作，并对对话系统模型进行微调以得到所述训练好的对话系统模型。

31、在本发明的一个实施例中，所述多种语义特征，包括单词的向量表示、上下文信息、权重和句子级特征。

32、在本发明的一个实施例中，在将所述自动优化策略输入至训练好的gpt-4模型之前，所述方法，还包括：

33、获取基于自动优化策略的训练数据集，并将所述训练数据集输入至gpt-4模型中生成语义文本；

34、对生成的语义文本进行打分得到打分结果，从打分结果中选取评分最高的k个单词或词组得到top-k采样结果，随机选择所述top-k采样结果中一个单词或词组，并添加到生成的语义文本中进行下一轮文本生成以得到生成策略；

35、将对话历史数据输入至gpt-4模型得到上下文信息处理结果，并基于所述上下文信息处理结果和所述生成策略训练gpt-4模型以得到训练好的gpt-4模型。

36、为达上述目的，本发明另一方面提出一种提升多轮人机交互性能的系统，包括：

37、语音识别转化模块，用于将实时语音数据输入至训练好的语音转化网络模型以转化输出文本数据；

38、用户情感捕捉模块，用于将所述文本数据输入至训练好的情感识别网络模型以识别得到情感捕捉结果；

39、自动优化策略模块，用于将所述情感捕捉结果输入至训练好的对话系统模型以基于强化学习算法通过与环境交互输出自动优化策略；

40、语义生成模块，用于将所述自动优化策略输入至训练好的gpt-4模型以输出得到相应的语义回应。

41、本发明实施例的优化的提升多轮人机交互性能的方法和系统，针对目前的人机交互系统在对话策略方面也存在不足，尤其是在多轮对话中，缺乏有效的对话策略，导致不能满足用户的个性化需求。大部分系统采用了预设的回应模板，导致交互内容单一，缺乏灵活性，也无法进行有效的个性化服务的问题，本发明通过模型自我提升来进行个性化的准确服务；针对现有系统对话质量随训练数据的质量和数量而波动的问题，本发明还能够提高对话质量稳定性，减小对训练数据质量和数量的依赖性。

42、本发明的有益效果为：

43、1.提高精度：通过卷积神经网络(cnn)和长短期记忆网络(lstm)双重算法对音频数据进行识别，系统可以快速准确获取高精度的语音识别，提升用户体验。这一步是人机交互中的重要入口，为之后的步骤提供了基础数据。

44、2.识别情绪价值：在stt算法的基础上，本发明同时引入用户情感识别算法，系统不仅可以通过用户所说的文字进行回答反馈，还可以准确识别和标记出用户语境中的情绪，使得人机交互系统更加贴近人类的交互方式，提升交互的自然度和用户的满意度。此外，捕捉用户情感还有助于系统理解用户需求，提升服务质量。

45、3.提高决策质量：通过强化学习的方法，使系统能够根据历史交互数据进行自我学习和优化，提高系统的决策质量和用户满意度。此外，强化学习的方法还能让系统更好地适应环境变化，提升系统的稳定性。

46、4.提升用户体验：通过使用gpt-4这种最新、高级的自然语言生成模型，可以使得系统生成的语言更加自然、连贯和一致，提升用户体验。

47、本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏永强,夏广宇,王颖
技术所有人：银保云计算技术有限公司
我是此专利的发明人

上一篇：一种耐水洗型冷助灵及其制备方法与流程
上一篇：一种并联型无源传输线阻抗匹配方法及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。