一种语音业务处理方法、电子设备和计算机可读存储介质与流程

文档序号：28856233发布日期：2022-02-11 18:48阅读：115来源：国知局

一种语音业务处理方法、电子设备和计算机可读存储介质
【技术领域】
1.本发明涉及语音业务处理技术领域，具体地涉及一种语音业务处理方法、电子设备和计算机可读存储介质。

背景技术：

2.人工智能(artificial intelligence，简称ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。其中，语音识别技术(automatic speech recognition，简称asr)是人工智能领域的重要技术之一。目前的语音识别系统通常包括：asr模块、语义理解(natural-language understanding，简称nlu)模块、对话管理(dialog management，简称dm)模块、自然语言生成(natural-language generation，简称nlg)模块和语音合成(text to speech，简称tts)模块。其中，asr模块用于将输入的语音信号转换成文本信息。nlu模块用于将输入的文本信息转换为机器可以理解的语义信息。dm模块基于对话的状态，根据语义信息，提供相应的业务。nlg模块用于根据业务的信息生成自然语言文本。tts模块用于将自然语言文本变成语音。
3.在相关技术的语音业务处理流程中，将语音输入asr模块后，通过asr模块识别出文本结果，将文本结果输入nlu模块，通过nlu模块获取该文本结果的对应的意图和槽位，以使得dm模块、nlg模块和tts模块能够访问相关的服务或者执行相关的动作，并显示执行结果，然而在相关技术中，每执行一次语音业务都需要进行语音识别和语义理解，从而导致性能开销大，影响系统功耗的问题，此外，在相关技术中，还需要进行多轮端云交互，从而导致时延比较大，影响用户体验的问题。

技术实现要素：

4.有鉴于此，本发明提供一种语音业务处理方法、电子设备和计算机可读存储介质，通过语料匹配提高了语音业务的处理效率的同时，避免了在语音业务处理过程中执行语音识别和语义理解流程，从而降低了系统性能开销和系统功耗。
5.一方面，本发明实施例提供了一种语音业务处理方法，包括：
6.获取输入的第一语料；
7.在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，并获取与所述第二语料对应的语义状态信息；
8.根据所述第二语料对应的语义状态信息，提供相应的业务。
9.在一种可选的实现方式中，所述第一语料包括原始语音信息或者文本信息。
10.在一种可选的实现方式中，在所述在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，并获取与所述第二语料对应的语义状态信息之前，还包括：
11.获取多个语音业务对应的语料、语义状态信息和执行结果；
12.将所述语音业务所对应的语料、语义状态信息和执行结果作为一条业务记录，以生成多条业务记录。
13.在一种可选的实现方式中，在所述将所述语音业务所对应的语料、语义状态信息和执行结果作为一条业务记录，以生成多条业务记录之后，还包括：
14.根据正负反馈学习算法，对相同语义状态信息的多个所述业务记录进行正负反馈学习，并确定出相同语义状态信息的多个所述业务记录的处理结果，所述处理结果包括采用多个所述业务记录或者删除多个所述业务记录。
15.在一种可选的实现方式中，所述根据正负反馈学习算法，对相同语义状态信息的多个所述业务记录进行正负反馈学习，并确定出相同语义状态信息的多个所述业务记录的处理结果，所述处理结果包括采用多个所述业务记录或者删除多个所述业务记录，包括：
16.统计相同语义状态信息的多个所述业务记录的成功次数或失败次数；
17.若判断出所述成功次数大于或者等于预设次数，将相同语义状态信息的多个所述业务记录的处理结果确定为采用多个所述业务记录；
18.若判断出所述失败次数大于或者等于预设次数，将相同语义状态信息的多个所述业务记录的处理结果确定出删除多个所述业务记录。
19.在一种可选的实现方式中，所述语义状态信息包括意图和槽位，或者意图、槽位和上下文信息。
20.在一种可选的实现方式中，所述在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，包括：
21.计算出所述多条业务记录中的所述第二语料和所述第一语料之间的声音相似度；
22.在所述多条业务记录中查询出所述声音相似度大于或等于预设阈值的第二语料。
23.在一种可选的实现方式中，所述在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，包括：
24.在所述多条业务记录中查询出所述第二语料，所述第二语料包含所述第一语料。
25.在一种可选的实现方式中第二方面，本发明实施例提供了一种电子设备，所述设备包括：
26.获取输入的第一语料；
27.在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，并获取与所述第二语料对应的语义状态信息；
28.根据所述第二语料对应的语义状态信息，提供相应的业务。
29.在一种可选的实现方式中，所述第一语料包括原始语音信息或者文本信息。
30.在一种可选的实现方式中，当所述指令被所述设备执行时，使得所述设备具体执行以下步骤：
31.获取多个语音业务对应的语料、语义状态信息和执行结果；
32.将所述语音业务所对应的语料、语义状态信息和执行结果作为一条业务记录，以生成多条业务记录。
33.在一种可选的实现方式中，当所述指令被所述设备执行时，使得所述设备具体执行以下步骤：
34.根据正负反馈学习算法，对相同语义状态信息的多个所述业务记录进行正负反馈学习，并确定出相同语义状态信息的多个所述业务记录的处理结果，所述处理结果包括采用多个所述业务记录或者删除多个所述业务记录。
35.在一种可选的实现方式中，当所述指令被所述设备执行时，使得所述设备具体执行以下步骤：
36.统计相同语义状态信息的多个所述业务记录的成功次数或失败次数；
37.若判断出所述成功次数大于或者等于预设次数，将相同语义状态信息的多个所述业务记录的处理结果确定为采用多个所述业务记录；
38.若判断出所述失败次数大于或者等于预设次数，将相同语义状态信息的多个所述业务记录的处理结果确定出删除多个所述业务记录。
39.在一种可选的实现方式中，所述语义状态信息包括意图和槽位，或者意图、槽位和上下文信息。
40.在一种可选的实现方式中，当所述指令被所述设备执行时，使得所述设备具体执行以下步骤：
41.计算出所述多条业务记录中的所述第二语料和所述第一语料之间的声音相似度；
42.在所述多条业务记录中查询出所述声音相似度大于或等于预设阈值的第二语料。
43.在一种可选的实现方式中，当所述指令被所述设备执行时，使得所述设备具体执行以下步骤：
44.在所述多条业务记录中查询出所述第二语料，所述第二语料包含所述第一语料。
45.第二方面，本发明实施例提供了一种电子设备，包括：一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得设备执行上述任一方面任一项可能的实现中的语音业务处理方法。
46.第三方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于设备执行的程序代码，所述程序代码包括用于执行第一方面或者第一方面的任一可能的实现方式中的方法的指令。
47.本发明实施例提供的技术方案应用于人工智能领域和语音识别技术领域，通过获取输入的第一语料，在获取的多条业务记录中查询出与第一语料相匹配的第二语料，并获取与第二语料对应的语义状态信息，根据第二语料对应的语义状态信息，提供相应的业务，避免了在语音业务处理过程中需要进行语音识别和语义理解的问题，从而降低了系统性能开销和系统功能，提高了语音业务的处理效率。
【附图说明】
48.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。
49.图1为相关技术中的一种语音业务处理方法的流程图；
50.图2为本发明一实施例提供的一种语音业务处理系统的架构图；
51.图3为本发明一实施例提供的一种语音业务处理方法的流程图；
52.图4为本发明一实施例提供的一种语音业务处理方法的示意图；；
53.图5为本发明一实施例提供的记录处理模块120工作流程图；
54.图6是本发明一实施例提供的一种电子设备的示意性框图；
55.图7为本发明一实施例提供的一种电子设备的结构示意图。
【具体实施方式】
56.为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。
57.应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
58.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。
59.应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，甲和/或乙，可以表示：单独存在甲，同时存在甲和乙，单独存在乙这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。为了便于理解，示例的给出部分与本发明的背景技术以及本发明实施例相关概念的说明以供参考。
60.(1)人工智能
61.人工智能(artificial intelligence，简称ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
62.人工智能是计算机科学的一个分支，能够了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
63.(2)语音识别技术
64.语音识别技术，也被称为自动语音识别技术(automatic speech recognition，简称asr)是一种将人的语音转换为文本的技术。语音识别技术是人工智能技术领域的重要分支，是一个多学科交叉的领域，与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。asr技术的目标是让计算机能够“听写”出不同人所说出的连续语音，是实现“声音”到“文字”转换的技术。
65.(3)语音业务
66.语音业务包括通过输入语音或者文本得到业务响应的事务。例如，语音输入“今天天气怎么样”，业务返回“天气的查询结果”。
67.通过上述对相关概念进行说明之后，下列对相关技术中的语音业务处理方法进行简单介绍。
68.图1为相关技术中语音业务处理方法的流程图，如图1所示，相关技术中的语音识别系统通常包括语音识别模块(asr)、语义理解模块(nlu)、对话管理模块(dm)、语音合成模块(tts)、显示结果/动作执行模块。具体地，相关技术中语音业务处理的过程中，语音业务处理系统接收到输入的语音后，通过语音识别模块识别出语音对应的文本信息，将文本信息输入语义理解模块，获取语义理解模块输出的意图和槽位，将意图和槽位输入对话管理模块，以使对话管理模块根据意图和槽位与服务管理交互，获取意图和槽位对应的业务，例
如，意图和槽位对应的业务可包括打开导航、打开视频、打开音乐、天气查询等业务。进一步地，通过显示结果/动作执行模块显示对话管理模块的业务执行结果，或者通过动作执行模块执行意图和槽位对应的业务。可选地，还可以通过语音合成模块生成业务的信息对应的自然语言文本，以使显示结果模块显示该业务的信息对应的自然语言文本。
69.然而在相关技术中，每执行一次语音业务都需要asr模块与nlu模块执行对应的步骤，也就是说，每执行一次语音业务都需要对语音进行识别生成对应的文本信息，并将文本信息输入语义理解模块，获取语义理解模块输出的意图和槽位，从而导致性能开销大，影响系统功耗的问题。此外，在相关技术的语音业务处理系统中，asr模块和nlu模块通常部署在云端设备，而其他模块部署在终端设备，从而导致语音业务处理过程中需要进行多轮端云交互，导致时延大，影响用户体验的问题。
70.针对相关技术中的问题，本发明实施例提供了一种语音业务处理方法应用于人工智能领域和语音识别技术领域，通过获取输入的第一语料，在获取的多条业务记录中查询出与第一语料相匹配的第二语料，并获取与第二语料对应的语义状态信息，根据第二语料对应的语义状态信息，提供相应的业务，避免了在语音业务处理过程中需要进行语音识别和语义理解的问题，从而降低了系统性能开销和系统功能，提高了语音业务的处理效率。
71.通过上述相关技术的介绍后，下列对本发明的语音业务处理方法进行详细介绍。
72.图2为本发明一实施例提供的一种语音业务处理系统的架构图，如图2所示，该系统可包括端侧设备110，例如，该端侧设备可以是手机、平板电脑、电视、台式计算机、可穿戴设备(例如手表)、车载设备、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或个人数字助理(personal digital assistant，pda)等具有显示功能的设备。本技术实施例对端侧设备的具体类型不作任何限制。
73.本发明实施例中，具体地，电子设备110包括：接收模块111、匹配模块112、存储模块113、asr模块114、nlu模块115、dm模块116、nlg模块117、执行模块118、显示模块119和记录处理模块120。需要说明的是，通常来说，相关技术中的asr模块、nlu模块等模块通常部署在云侧，而本发明实施例的语音业务处理系统与相关技术的语音业务处理系统的区别在于，本发明实施例中的asr模块114、nlu模块115等模块均部署在端侧设备。
74.本发明实施例中，接收模块111用于获取输入的第一语料。该第一语料包括原始语音信息或者文本信息，其中，所述文本信息包括原始文本信息或者原始语音信息转化后的文本信息。例如，接收模块111可包括麦克风或者键盘等输入型设备。当接收模块111包括麦克风时，获取的第一语料可包括原始语音信息，当接收模块111包括键盘时，获取的第一语料可包括原始文本信息。
75.匹配模块112用于在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，并获取与所述第二语料对应的语义状态信息。本发明实施例中，所述语义状态信息包括意图和槽位，或者意图、槽位和上下文信息。本发明实施例中，若在获取的多条业务记录中未查询出与所述第一语料相匹配的第二语料，将所述第一语料输入nlu模型，获取所述nlu模型输出的所述第一语料对应的语义状态信息。
76.在一种可选的实现方式中，匹配模块112具体用于计算出所述多条业务记录中的所述第二语料和所述第一语料之间的声音相似度；在所述多条业务记录中查询出所述声音
相似度大于或等于预设阈值的第二语料。
77.在另一种可能的实现方式中，匹配模块112具体用于在所述多条业务记录中查询出所述第二语料，所述第二语料包含所述第一语料。
78.存储模块113用于存储多条业务记录。其中，存储模块113可包括端侧数据库。本发明实施例中通过在端侧数据库存储多条业务记录，使得用户再次执行相同的业务时，能够通过与第一语料匹配的第二语料快速准确查找对应的语义状态信息，并直接执行相应的业务，从而能够大幅缩短重复业务的执行时间的同时，减少了端云交互的流程，减少了响应时延。
79.asr模块114用于对第一语料进行识别，生成文本信息。例如，当接收模块111包括麦克风时，获取的第一语料可包括原始语音信息，可通过asr模块114将该原始语音信息转化成文本信息，以便后续进行语音业务处理。
80.uln模块115用于将输入asr模块114输入的文本信息转换为机器可以理解的语义状态信息。其中，所述语义状态信息包括意图和槽位，或者意图、槽位和上下文信息。
81.dm模块116用于根据所述第二语料对应的语义状态信息，提供相应的业务。
82.nlg模块117用于根据业务的信息生成自然语言文本。
83.执行模块118用于执行该业务，显示模块119用于显示dm模块116所提供相应的业务的执行结果。在一种可能实现的方式中，显示模块119还用于显示nlg模块117根据业务的信息生成自然语言文本。
84.需要说明的是，在存储多条业务记录之前，记录处理模块120用于获取多个语音业务对应的语料、语义状态信息和执行结果，并将所述语音业务所对应的语料、语义状态信息和执行结果作为一条业务记录，以生成多条业务记录。
85.记录处理模块120还用于根据正负反馈学习算法，对相同语义状态信息的多个所述业务记录进行正负反馈学习，并确定出相同语义状态信息的多个所述业务记录的处理结果，所述处理结果包括采用多个所述业务记录或者删除多个所述业务记录。在一种可选的实现方式中，记录处理模块120具体用于统计相同语义状态信息的多个所述业务记录的成功次数或失败次数；若判断出所述成功次数大于或者等于预设次数，将相同语义状态信息的多个所述业务记录的处理结果确定为采用多个所述业务记录；若判断出所述失败次数大于或者等于预设次数，将相同语义状态信息的多个所述业务记录的处理结果确定出删除多个所述业务记录。
86.以下通过两个方案对上述系统的实际应用进行介绍：
87.本发明实施例中，在一种可选方案中，如图2所示，当用户执行相同的业务时，将接收模块111获取到的第一语料输入匹配模块112，通过匹配模块112在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，并获取与所述第二语料对应的语义状态信息，并将语义状态信息输入dm模块116，以使dm模块116根据所述第二语料对应的语义状态信息，提供相应的业务。
88.在另一种可选方案中，如图2所示，当用户执行不同的业务时，将接收模块111获取到的第一语料输入asr模块114，以使asr模块114对第一语料进行识别，生成文本信息，将文本信息输入nlu模块115，以使nlu模块115根据第一语料生成对应的语义状态信息，并将语义状态信息输入dm模块116，以使dm模块116根据所述第二语料对应的语义状态信息，提供
相应的业务。
89.本发明实施例中，通过上述系统110，当用户在执行相同的业务时，在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，并获取与所述第二语料对应的语义状态信息，根据所述第二语料对应的语义状态信息，提供相应的业务。当用户在执行不同的业务时，将所述第一语料输入nlu模型，获取所述nlu模型输出的所述第一语料对应的语义状态信息；根据所述第一语料对应的语义状态信息，提供相应的业务，解决了相关技术中语音业务处理过程中需要执行语音识别和语义理解的步骤从而导致性能开销大，影响系统功耗的问题的同时，提高了语音业务的处理效率。作为一种可选方案，当用户在执行相同类型的业务时，也可能通过上述系统110实现语料匹配的功能，从而提高了语音业务的处理效率。
90.此外，本发明通过将asr模块、nlu模块等模块通常部署在端侧设备，解决了语音业务需要多轮端云交互，从而导致时延比较大，影响用户体验的问题。下面结合图3和图4，包括步骤102至步骤112，对语音业务处理方法的过程进行详细的说明。
91.图3为本发明一实施例提供的一种语音业务处理方法的流程图，图4为本发明一实施例提供的一种语音业务处理方法的示意图，如图3和图4所示，该方法包括：
92.步骤102、获取输入的第一语料。
93.本发明实施例中，各步骤由端侧设备执行。
94.本发明实施例中，所述第一语料包括原始语音信息或者文本信息，其中，所述文本信息包括原始文本信息或者原始语音信息转化后的文本信息。
95.例如，如图2所示，第一语料可包括接收模块111获取的原始语音信息，或者，接收模块111获取的原始文本信息，或者，通过asr模块114对输入的原始语音信息进行识别后生成的文本信息。本发明对于第一语料的输入方式不做限定，可根据需求获取不同输入方式的第一语料。
96.步骤104、判断在获取的多条业务记录中是否查询出与所述第一语料相匹配的第二语料，若是，执行步骤106；若否，执行步骤110。
97.本发明实施例中，在执行步骤104之前，还包括：
98.步骤103a、获取多个语音业务对应的语料、语义状态信息和执行结果。
99.本发明实施例中，语音业务包括通过输入语音或者文本得到业务响应的事务。语义状态信息包括意图和槽位，或者意图、槽位和上下文信息，其中，上下文信息包括语音业务进行多轮交互所产生的关联信息。执行结果用于指示该语音业务的执行结果。具体地，执行结果的获取过程可通过图2中的执行模块118，执行语音业务过程中生成的业务处理信息确定，其中，该业务处理信息包括执行结果，执行结果包括成功或者失败。需要说明的是，业务处理信息除了包括执行结果之外，还可以包括其他信息，本发明对此不做限定。
100.在语音业务处理流程中，记录处理模块120获取每个语音业务的语料、语义状态信息和执行结果，具体地，图5为本发明实施例提供的记录处理模块120工作流程图，如图5所示，记录处理模块120的获取流程具体包括：通过asr模块获取每个语音业务对应的语料，通过nlu模块获取每个语料对应的意图和槽位，通过dm模块获取每个语音业务对应的上下文信息，通过执行模块获取每个语音业务对应的执行结果。在实际应用中，例如，记录处理模块120通过上述获取流程，获取到5个语音业务对应的语料、语义状态信息和执行结果，具体
如下表1所示：
101.表1
102.语料意图槽位上下文执行结果打电话给张三打电话张三多轮交互的关联信息成功设置8点的闹钟创建闹钟time-8点多轮交互的关联信息成功播放大悲咒播放音乐大悲咒——成功打开便签打开应用sys.app-便签——成功打开日历打开应用sys.app-日历——成功
103.步骤103b、将所述语音业务所对应的语料、语义状态信息和执行结果作为一条业务记录，以生成多条业务记录。
104.本发明实施例中，如上表1所示，将表1中的所述语音业务所对应的语料、语义状态信息和执行结果作为一条业务记录，能够生成5条业务记录。此外，本发明中所生成一条业务记录可作为一条列表的形式存储至端侧数据库。
105.其中，判断执行结果是否成功的方式可包括：在执行模块根据语音状态信息执行对应业务之后，根据人机交互以及结果使用情况等信息，判断出执行结果是否成功。例如，以业务为打电话为例，通过判断电话通话时长是否小于预设阈值，若判断出电话通话时长小于预设阈值，则表明该业务的执行结果为失败。例如，以业务为播放音乐为例，通过判断播放音乐时长是否小于预设阈值，若判断出播放音乐时长小于预设阈值，则表明该业务的执行结果为失败。例如，以业务为创建闹钟为例，通过判断设置闹钟是否使用，若判断出设置闹钟被使用，则表明该业务的执行结果为成功。也就是说，若业务在执行过程中被打断执行，则表明该业务的执行结果为失败，反之，则表明该业务的执行结果为成功。
106.本发明实施例中，存储模块113用于存储多条业务记录，其中，存储模块113可包括端侧数据库，本发明通过将执行结果为成功的多条业务记录存储至端侧数据库，以便于用户再次执行相同的语音业务，能够执行后续步骤106通过语料的快速准确查找对应的语义状态信息，并根据语义状态信息直接执行对应的业务，从而能够大幅缩短重复业务的执行时间，提高了语音业务处理的效率。此外，本发明通过将执行结果为成功的多条业务记录存储至端侧数据库，使得已发生过的业务在无网络连接状态时，能够在端侧设备执行语音业务处理流程。
107.步骤103c、根据正负反馈学习算法，对相同语义状态信息的多个所述业务记录进行正负反馈学习，并确定出相同语义状态信息的多个所述业务记录的处理结果，所述处理结果包括采用多个所述业务记录或者删除多个所述业务记录。
108.本发明实施例中，对相同语义状态信息的多个所述业务记录对应的执行结果进行正负反馈学习，统计多个所述业务记录对应的执行结果的成功次数n和失败次数m，可对成功次数n和失败次数m进行建模计算，通过模型输出的处理结果判断该业务记录是否可应用到后续业务中。
109.例如，在一种可选的方案中，步骤103c的执行过程可具体包括：统计相同语义状态信息的多个所述业务记录的成功次数或失败次数；若判断出所述成功次数大于或者等于预设次数，将相同语义状态信息的多个所述业务记录的处理结果确定为采用多个所述业务记录；若判断出所述失败次数大于或者等于预设次数，将相同语义状态信息的多个所述业务
记录的处理结果确定为删除多个所述业务记录。
110.本发明实施例中，预设次数可根据需要设定，例如预设次数包括3次。在实际应用中，例如，相同语义状态信息的多个所述业务记录包括多个“打电话给张三”的业务记录，通过这些业务记录的次数，若判断出多个业务记录的成功次数大于3次，则采用该业务记录，可理解为，该业务记录对应的业务为用户需求的业务。若判断出多个业务记录的失败次数大于3次，则删除该业务记录，可理解为，该业务记录对应的业务不是用户需求的业务，以打电话为例，若“打电话给张三”的业务记录执行失败为3次，则表明该业务记录对应的业务并非是用户的需求业务，因此需要删除该业务记录。
111.通过执行上述步骤103，能够将执行结果包括成功的语音业务所对应的语料、语义状态信息和执行结果作为一条业务记录，以生成多条业务记录，使得生成业务记录均为可采用的业务记录。
112.需要说明的是，上述可选的方案所采用的判断多个所述业务记录的成功次数或失败次数，仅作为一种正负反馈学习的方式，除此之外，还可以包括其他方式，例如，通过判断相同语义状态信息的多个所述业务记录的用户感知体验，从而确定出相同语义状态信息的多个所述业务记录的处理结果。本发明对此不做限定，仅为举例说明。
113.通过上述步骤103a至步骤103c，确定出多条可采用的业务记录之后，在执行步骤104的过程中，若判断出在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，则表明语音业务处理系统处理过与第一语料相同的业务，可执行后续步骤106获取与所述第二语料对应的语义状态信息；若判断出在获取的多条业务记录中未查询出与所述第一语料相匹配的第二语料，则表明语音业务处理系统未处理过与第一语料相同的业务，需要执行后续步骤110将所述第一语料输入nlu模型，获取所述nlu模型输出的所述第一语料对应的语义状态信息。也就是说，通过上述步骤103a至步骤103c，能够以自主学习的方式确定出多条可采用的业务记录的过程，以便后续步骤确定出与所述第一语料相匹配的第二语料，进一步提高了语音业务的处理效率。
114.针对上述步骤104，需要说明的是，若所述第一语料为原始语音信息时，所查询的第二语料包括语音信息；若所述第一语料为文本信息时，所查询的第二语料包括文本信息。
115.步骤106、获取与所述第二语料对应的语义状态信息。
116.本发明实施例中，在查询出与所述第一语料相匹配的第二语料之后，可从多个业务记录中获取所述第二语料对应的语义状态信息，具体如上表1所示，语料与语义状态信息之间具有对应关系。所述语义状态信息包括意图和槽位，或者意图、槽位和上下文信息。其中，上下文信息可包括多轮交互的关联信息，多轮交互可包括线性多轮交互和非线性多轮交互。具体地，线性多轮交互是在必填槽位缺失，通过系统主动发起追问的方式，以获取缺失的槽位；非线性多轮交互是需要联系上文才能获得用户完整意图的问题。例如，在执行上表1中语料为“打电话给张三”或者“设置明天8点的闹钟”时，需要通过dm模块116获取上下文信息。而在执行上表1中语料为“打开便签”或者“打开日历”能够获取完整意图和槽位时，不需要再结合上下文信息，即可能够执行对应的业务。以用户在凌晨1点时，输入的语料为“设置明天8点的闹钟”为例，系统无法判断出用户所述的“明天8点的闹钟”指的是7个小时后的闹钟还是次日8点的闹钟，因此通过系统主动发起追问的方式，获取缺失的槽位，即通过多轮交互的方式确定完整的槽位。
117.本发明实施例中，当第二语料为语音信息时，作为一种可选方案，步骤106具体执行过程可包括：
118.步骤1061、计算出所述多条业务记录中的所述第二语料和所述第一语料之间的声音相似度。
119.本发明实施例中，在一种可选方式中，可通过分别获取第二语料和第一语料的文本信息和声纹信息，通过匹配第一语料的文本信息和第二语料的文本信息的相似度，以及基于声音波形匹配的原理，匹配第一语料的声纹信息和第二语料的声纹信息的相似度，从而计算出所述多条业务记录中的所述第二语料和所述第一语料之间的声音相似度。
120.其中，计算文本信息的相似度的方式可包括：可通过判断文本信息中相同字数的数量的方式确定出文本信息的相似度。
121.计算文本信息的相似度的方式可包括：可通过将第一语料的声纹信息输入预设声纹特征集合中查询匹配的声纹特征，将第二语料的声纹信息输入预设声纹特征集合中查询匹配的声纹特征，通过判断两个语料的声纹特征，从而确定出第一语料的声纹信息和第二语料的声纹信息的相似度。
122.计算所述多条业务记录中的所述第二语料和所述第一语料之间的声音相似度的方式可包括：根据获取的文本信息的相似度的预设权重和声纹信息的相似度的预设权重以及文本信息的相似度和声纹信息的相似度，计算出声音相似度。
123.步骤1062、在所述多条业务记录中查询出所述声音相似度大于或等于预设阈值的第二语料。
124.本发明实施例中，例如，预设阈值包括95％。例如，在所述多条业务记录中查询出第二语料，且第二语料和所述第一语料之间的声音相似度为100％时，表明第一语料和第二语料为完全匹配。
125.本发明实施例中，当第二语料为文本信息时，作为另一种可选方案中，步骤106具体执行过程可包括：在所述多条业务记录中查询出所述第二语料，所述第二语料包含所述第一语料。
126.本发明实施例中，第二语料包含第一语料可包括两种情况，在一种可选方案中，第二语料与第一语料完全一致。例如，输入的第一语料为“打电话给张三”，查询出相匹配的第二语料为“打电话给张三”。在另一种可选方案中，第一语料与第二语料的前缀相同。例如，输入的第一语料为“打电话给张三”，查询出相匹配的第二语料为“我想打电话给张三”。
127.需要说明的是，相对于相关技术而言，步骤106能够从多个业务记录中获取所述第二语料对应的语义状态信息，不需要执行语音识别和语义理解的步骤，从而能够降低系统性能开销，减少系统功耗。
128.步骤108、根据所述第二语料对应的语义状态信息，提供相应的业务。
129.本发明实施例中，通过dm模块根据所述第二语料对应的语义状态信息，提供相应的业务，具体地，可通过选择相应的业务后，通过执行模块118执行相应的业务，并通过显示模块119显示业务的执行结果。
130.例如，第二语料对应的语言状态信息包括：意图为打电话，槽位为张三，则dm模块116根据意图和槽位，进行业务逻辑处理，生成操作指令，其中，操作指令可包括查询号码、播报词、执行呼叫。通过执行模块118根据该呼叫指令，完成查询号码、播报词、执行呼叫，从
而完成业务流程。
131.步骤110、将所述第一语料输入nlu模型，获取所述nlu模型输出的所述第一语料对应的语义状态信息。
132.本发明实施例中，nlu模块中包括获取第一语料对应的语义状态信息的方式。一种是nlu模型，其中，nlu模型为预先训练好的语义理解模块，将所述第一语料输入nlu模型，即可获取输出的所述第一语料对应的语义状态信息。第二种是规则引擎，即通过nlu模块中的规则引擎获取第一语料对应的语义状态信息，本发明对第一语料对应的语义状态信息的获取方式不做限定。
133.步骤112、根据所述第一语料对应的语义状态信息，提供相应的业务。
134.本发明实施例中，该步骤的执行过程可参见上述步骤108。
135.本发明实施例中，在步骤112之后，还包括：
136.步骤113、获取所述业务对应的语料、语义状态信息和执行结果，并将所述业务所对应的语料、语义状态信息和执行结果作为一条业务记录，并继续执行步骤103c。
137.本发明实施例中，通过执行步骤113，能够将未匹配成功的第二语料对应的业务作为业务记录，即通过自学习的过程丰富了业务记录，提高了后续的语音业务处理效率。
138.本发明实施例所提供的语音业务处理方法，获取输入的第一语料，在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，并获取与所述第二语料对应的语义状态信息，根据所述第二语料对应的语义状态信息，提供相应的业务。也就是说，若能够在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，并获取与所述第二语料对应的语义状态信息，则不需要通过nlu模块对第一语料进行分析，获取输出的语音状态信息，直接将语义状态信息发给dm模块，以使dm模块根据所述第二语料对应的语义状态信息，提供相应的业务。若在获取的多条业务记录中未查询出与所述第一语料相匹配的第二语料，则需要将所述第一语料输入nlu模型，获取所述nlu模型输出的所述第一语料对应的语义状态信息。
139.通过以下两个实施，对上述语音业务处理流程中的两种处理方式进行说明：
140.实例一：用户第一次说“打电话给张三”141.如图2所示，接收模块111将获取的用户输入的第一语料“打电话给张三”输出至匹配模块112；由于未匹配到与第一语料对应的第二语料，因此通过asr模块114对第一语料进行识别，生成文本信息；并将文本信息输入预先训练的nlu模型进行训练，获取所述nlu模型输出的所述第一语料对应的语义状态信息，例如，语音状态信息包括意图和槽位，其中，意图为打电话，槽位为张三。将意图和槽位输入dm模块，以使dm模块116根据所述第一语料对应的语义状态信息，提供相应的业务，例如，dm模块116根据意图和槽位，进行业务逻辑处理，生成操作指令，其中，操作指令可包括查询号码、播报词、执行呼叫。通过执行模块118根据该呼叫指令，完成查询号码、播报词、执行呼叫，从而完成业务流程。进一步地，在该业务的执行结束之后，将该业务对应的语料、意图、槽位、执行结果作为业务记录并存储至端侧数据库中，并继续执行上述步骤103c。
142.实例二：用户第二次说“打电话给张三”143.如图2所示，接收模块111将获取的输入的第一语料“打电话给张三”输入匹配模块112，通过匹配模块112从存储模块113中获取多个业务记录，在多条业务记录中查询出与所
述第一语料相匹配的第二语料，并获取与所述第二语料对应的语义状态信息。将第二语料对应的语义状态信息输入dm模块，以使dm模块116根据所述第二语料对应的语义状态信息，提供相应的业务。也就是说，在实例二中不需要将文本信息输入预先训练的nlu模型进行训练，获取所述nlu模型输出的所述第一语料对应的语义状态信息，从而解决了相关技术中语音业务处理过程中需要执行语音识别和语义理解的步骤从而导致性能开销大，影响系统功耗的问题的同时，提高了语音业务的处理效率。
144.本发明实施例中应用于人工智能领域和语音识别技术领域，通过获取输入的第一语料，在获取的多条业务记录中查询出与第一语料相匹配的第二语料，并获取与第二语料对应的语义状态信息，根据第二语料对应的语义状态信息，提供相应的业务，避免了在语音业务处理过程中需要进行语音识别和语义理解的问题，从而降低了系统性能开销和系统功能，提高了语音业务的处理效率。
145.图6是本发明一实施例提供的一种电子设备110的示意性框图。应理解，电子设备110能够执行图3和图4的语音业务处理方法中的各个步骤，为了避免重复，此处不再详述。如图6所示，电子设备110包括：处理单元401和执行单元402。
146.处理单元401用于获取输入的第一语料；在获取的多条业务记录中查询出与所述第一语料相匹配的第二语料，并获取与所述第二语料对应的语义状态信息。
147.执行单元402用于根据所述第二语料对应的语义状态信息，提供相应的业务。
148.本发明实施例中，所述第一语料包括原始语音信息或者文本信息。
149.本发明实施例中，处理单元401还用于获取多个语音业务对应的语料、语义状态信息和执行结果；将所述语音业务所对应的语料、语义状态信息和执行结果作为一条业务记录，以生成多条业务记录。
150.本发明实施例中，处理单元401还用于根据正负反馈学习算法，对相同语义状态信息的多个所述业务记录进行正负反馈学习，并确定出相同语义状态信息的多个所述业务记录的处理结果，所述处理结果包括采用多个所述业务记录或者删除多个所述业务记录。
151.本发明实施例中，处理单元401还用于统计相同语义状态信息的多个所述业务记录的成功次数或失败次数；若判断出所述成功次数大于或者等于预设次数，将相同语义状态信息的多个所述业务记录的处理结果确定为采用多个所述业务记录；若判断出所述失败次数大于或者等于预设次数，将相同语义状态信息的多个所述业务记录的处理结果确定出删除多个所述业务记录。
152.本发明实施例中，所述语义状态信息包括意图和槽位，或者意图、槽位和上下文信息。
153.本发明实施例中，处理单元401还用于计算出所述多条业务记录中的所述第二语料和所述第一语料之间的声音相似度；在所述多条业务记录中查询出所述声音相似度大于或等于预设阈值的第二语料。
154.本发明实施例中，处理单元401还用于在所述多条业务记录中查询出所述第二语料，所述第二语料包含所述第一语料。
155.本发明实施例中，处理单元401还用于若在获取的多条业务记录中未查询出与所述第一语料相匹配的第二语料，将所述第一语料输入nlu模型，获取所述nlu模型输出的所述第一语料对应的语义状态信息。
156.执行单元402还用于根据所述第一语料对应的语义状态信息，提供相应的业务。
157.应理解，这里的电子设备110以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，asic)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
158.因此，在本发明的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
159.本发明实施例还提供一种电子设备，该电子设备可以是终端设备也可以是内置于所述终端设备的电路设备。该设备可以用于执行上述方法实施例中的功能/步骤。
160.图7为本发明一实施例提供的一种电子设备的结构示意图，如图7所示，电子设备900包括处理器910和收发器920。可选地，该电子设备900还可以包括存储器930。其中，处理器910、收发器920和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。
161.可选地，电子设备900还可以包括天线940，用于将收发器920输出的无线信号发送出去。
162.上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。该处理器910可以与图6中电子设备110中的处理单元401对应。
163.除此之外，为了使得电子设备900的功能更加完善，该电子设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。
164.可选地，上述电子设备900还可以包括电源950，用于给终端设备中的各种器件或电路提供电源。
165.应理解，图7所示的电子设备900能够实现图3和图4所示方法实施例的各个过程。电子设备900中的各个单元的操作和/或功能，分别为了实现上述方法实施例中的相应流程。具体可参见上述方法实施例中的描述，为避免重复，此处适当省略详细描述。
166.应理解，图7所示的电子设备900中的处理器910可以是片上系统(system on a chip，soc)，该处理器910中可以包括中央处理器(central processing unit，cpu)，还可以进一步包括其他类型的处理器，所述cpu可以叫主cpu。各部分处理器配合工作实现之前的方法流程，并且每部分处理器可以选择性执行一部分软件驱动程序。
167.总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。
168.本发明还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指
令，当该指令在计算机上运行时，使得计算机执行如上述图3和图4所示的语音业务处理方法中的各个步骤。
169.以上各实施例中，涉及的处理器910可以例如包括中央处理器(central processing unit，cpu)、微处理器、微控制器或数字信号处理器，还可包括gpu、npu和isp，该处理器还可包括必要的硬件加速器或逻辑处理硬件电路，如特定应用集成电路(application-specific integrated circuit，asic)，或一个或多个用于控制本发明技术方案程序执行的集成电路等。此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器中。
170.存储器可以是只读存储器(read-only memory，rom)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory，ram)或可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、只读光盘(compact disc read-only memory，cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质等。
171.本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示单独存在a、同时存在a和b、单独存在b的情况。其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。
172.本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
173.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
174.在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
175.以上所述，仅为本发明的具体实施方式，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄龙;王翃宇;李勇
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：基于SoC的图像处理系统的启动控制方法及装置与流程
上一篇：一种基于边缘计算技术的高速数采系统及方法与流程