语音处理方法及装置与流程

文档序号：30576812发布日期：2022-06-29 09:42阅读：112来源：国知局

1.本公开涉及数据处理技术领域，尤其涉及一种语音处理方法及装置。

背景技术：

2.随着人工智能技术的发展，为节省人力资源，人机交流越来越常见。
3.以人机对话场景为例，用户发出语音后，机器人或者智能设备会识别用户语音，基于用户语音进行回复。
4.在机器人或者智能设备识别用户语音的过程中，需要切分用户语音，即判断音频片段是否结束。相关技术中，通常是在识别到一个音节后等待预设时长(例如500毫秒)，若预设时长内未监测到有效音频信号，可以判定该音节结束，将结束后的音节截断为一个音频片段。若预设时长内监测到有效音频信号，可以判定该音节为连续音节，继续处理，直到监测到音节结束。显然，目前用户语音的切分方式，需要等待至少一个预设时长(例如500毫秒)，大大降低用户语音处理效率，降低人机交流中机器人或者智能设备的反应速度，导致人机交流体验不佳。
5.综上，如何提升人机交流中机器人或者智能设备的反应速度，成为亟待解决的技术问题。

技术实现要素：

6.本公开提供一种语音处理方法及装置，用以提升人机交流中机器人或者智能设备的反应速度。
7.根据本公开实施例的第一方面，本公开提供一种语音处理方法，包括：
8.获取待处理音频中的一个音节作为当前语音片段；
9.判断当前语音片段是否符合音频切分条件以及交互响应条件，音频切分条件基于asr识别过程设置，交互响应条件基于nlp处理过程以及nlp处理结果与反馈消息的匹配度设置；
10.若当前语音片段不符合音频切分条件以及交互响应条件，则将待处理音频中下一顺位的音节合并到当前语音片段中，并转至判断当前语音片段是否符合音频切分条件以及交互响应条件的步骤，直到确定出符合音频切分条件以及交互响应条件的目标语音片段；
11.输出与目标语音片段匹配的反馈消息。
12.根据本公开实施例的第二方面，本公开提供一种语音处理装置，包括：
13.处理模块，被配置为获取待处理音频中的一个音节作为当前语音片段；判断当前语音片段是否符合音频切分条件以及交互响应条件，音频切分条件基于asr识别过程设置，交互响应条件基于nlp处理过程以及nlp处理结果与反馈消息的匹配度设置；若当前语音片段不符合音频切分条件以及交互响应条件，则将待处理音频中下一顺位的音节合并到当前语音片段中，并转至判断当前语音片段是否符合音频切分条件以及交互响应条件的步骤，直到确定出符合音频切分条件以及交互响应条件的目标语音片段；
14.输出模块，被配置为输出与目标语音片段匹配的反馈消息。
15.根据本公开实施例的第三方面，提供一种电子设备，其中包括处理器和存储器，其中，存储器上存储有可执行代码，当可执行代码被处理器执行时，使处理器至少可以实现第一方面中的语音处理方法。
16.根据本公开实施例的第四方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备执行时，使得电子设备能够执行至少可以实现第一方面中的语音处理方法。
17.根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现第一方面中的语音处理方法。
18.本公开的实施例提供的技术方案至少带来以下有益效果：
19.本公开中，对于待处理音频，获取该待处理音频中的一个音节作为当前语音片段，判断当前语音片段是否符合音频切分条件以及交互响应条件，该音频切分条件基于asr识别过程设置，该交互响应条件基于nlp处理过程以及nlp处理结果与反馈消息的匹配度设置。进而，若当前语音片段不符合音频切分条件以及交互响应条件，则将待处理音频中下一顺位的音节合并到所述当前语音片段中，并转至判断所述当前语音片段是否符合音频切分条件以及交互响应条件的步骤，直到确定出符合音频切分条件以及交互响应条件的目标语音片段。最终，输出与目标语音片段匹配的反馈消息。本公开中，通过音频切分条件能够判断出当前语音片段是否能成功完成asr识别，对于成功完成asr识别的语音片段还需通过交互响应条件判断是否已包含完整的交互信息足以成功实现nlp处理，从而为成功实现nlp处理的语音片段发出匹配的反馈消息，避免相关技术中因等待至少一个预设时长而导致的用户语音的切分效率以及交互效率下降的问题，大大提高音频切分效率，提升人机交流中机器人或者智能设备的反应速度，改善人机交互体验。
附图说明
20.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
21.图1是根据一示例性实施例示出的一种语音处理场景的示意图。
22.图2是根据一示例性实施例示出的一种语音处理方法的流程示意图。
23.图3是根据一示例性实施例示出的一种判断方式的流程示意图。
24.图4是根据一示例性实施例示出的一种语音处理装置的结构示意图。
25.图5是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
26.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
27.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相
一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
28.如前文所述，在人机对话场景中，用户发出语音后，机器人或者智能设备会识别用户语音，基于用户语音进行回复。实际应用中，对用户语音的回复可以是文字形式也可以是语音形式，以及其他任意形式。
29.在机器人或者智能设备识别用户语音的过程中，需要切分用户语音，即判断音频片段是否结束。相关技术中，通常是在识别到一个音节后等待预设时长(例如500毫秒)，若预设时长内未监测到有效音频信号，可以判定该音节结束，将结束后的音节截断为一个音频片段。若预设时长内监测到有效音频信号，可以判定该音节为连续音节，继续处理，直到监测到音节结束。显然，目前用户语音的切分方式，需要等待至少一个预设时长(例如500毫秒)，大大降低用户语音处理效率，降低人机交流中机器人或者智能设备的反应速度，导致人机交流体验不佳。综上，如何提升人机交流中机器人或者智能设备的反应速度，成为亟待解决的技术问题。
30.为解决相关技术中存在的至少一个技术问题，本公开提供了一种语音处理方法及装置。
31.上述技术方案的核心思想是：从待处理音频中获取语音片段，结合音频切分条件以及交互响应条件判断当前获取的语音片段(即音节或音节组合)是否能成功完成自动语音识别(automatic speech recognition，asr)并实现nlp处理，从而为已包含完整的交互信息(如用户所提出的问题)的语音片段发出匹配的反馈消息，避免相关技术中因等待至少一个预设时长导致的用户语音的切分效率以及交互效率下降的问题，大大提高音频切分效率，提升人机交流中机器人或者智能设备的反应速度，改善人机交互体验。
32.以包含n个音节的语音信息为例，相对于相关技术中的识别方式，本方案需要调用n个系统资源进行判断，多消耗了n-1(音节数减一)个系统资源，但是，由于语音片段的获取流程与语音片段是否符合音频切分条件的判断流程可以是并行的，因此本方案实际消耗的时间为n个音节的获取耗时以及一次判断流程的耗时，显然大大提升人机交互的响应速度，减少人机交互服务的等待时间。
33.本公开中，上述方案可以由一个电子设备实现，该电子设备可以是诸如机器人、手机、平板电脑、可穿戴设备(如智能手环、vr眼镜等)、pc等终端设备。以机器人为例，可调用搭载在机器人中的专用应用程序实现，也可调用机器人中设置的其他应用程序实现，还可通过机器人调用云服务器实现。或者上述方案还可以由服务器实现。上述方案也可由多个电子设备配合实现。例如，服务器可以将执行结果发送到终端设备中，以供终端设备展示该执行结果。该服务器可以是包含一独立主机的物理服务器，或者也可以为主机集群承载的虚拟服务器，或者也可以为云服务器，本公开并不限定。
34.以图1所示场景为例，终端设备可以将录制的待处理音频传输到服务器侧，服务器执行上述方案将匹配的反馈消息(即执行结果)返回终端设备，以使终端设备展示并播放对应的反馈消息。在图1中，终端设备可以是机器人、手机、pc中的一个或多个。
35.基于前文介绍的核心思想，本公开实施例提供了一种语音处理方法，图2为本公开一示例性实施例提供的语音处理方法的流程示意图。如图2所示，该方法包括：
36.201、获取待处理音频中的一个音节作为当前语音片段；
37.202、判断当前语音片段是否符合音频切分条件以及交互响应条件；
38.203、若当前语音片段不符合音频切分条件以及交互响应条件，则将待处理音频中下一顺位的音节合并到当前语音片段中，并转至判断当前语音片段是否符合音频切分条件以及交互响应条件的步骤，直到确定出符合音频切分条件以及交互响应条件的目标语音片段；
39.204、输出与目标语音片段匹配的反馈消息。
40.上述方法中，通过音频切分条件以及交互响应条件判断出从待处理音频中提取的当前语音片段(即音节或音节组合)是否能成功完成asr识别并实现nlp处理，从而为已包含完整的交互信息(如用户所提出的问题)的语音片段发出匹配的反馈消息，避免相关技术中因等待至少一个预设时长导致的用户语音的切分效率以及交互效率下降的问题，大大提高音频切分效率，提升人机交流中机器人或者智能设备的反应速度，改善人机交互体验。
41.下面结合具体实施例介绍语音处理方法中的各个步骤。
42.201中，获取待处理音频中的一个音节作为当前语音片段。
43.本公开中，待处理音频包括但不限于用户的交互语音，如用户发起的提问、查询请求、记录。以机器人为例，待处理音频可以是由机器人搭载的收音模块(如麦克风)录制的。值得说明的是，除了音频之外，本公开中语音片段还可以从视频或其他类型数据中获取。
44.具体而言，201中，根据待处理音频中发声能量的收敛趋势，确定一个音节在待处理音频中的起始位置和截止位置。进而，根据起始位置和截止位置从待处理音频中截取出对应的音频片段作为当前语音片段。此步骤可以通过语音活动检测(voice activity detection，vad)实现。实际应用中，语音活动检测又称语音端点检测、语音边界检测。
45.例如，终端设备接收到用户发出的语音之后，监测用户语音的发声能量变化趋势，具体地，如果监测到用户语音中发声能量呈收敛趋势，那么可以根据用户语音中发声能量值确定一个音节的起始位置和截止位置。比如，假设发声能量增加到第一预设能量值，此时可以将第一预设能量值对应的位置设置为音节的起始位置。反之，假设发声能量减小到第二预设能量值，此时可将第二预设能量值对应的位置设置为音节的截止位置。实际应用中，第一预设能量值可以与第二预设能量值相同也可以不同，本公开并不限定。进而，根据起始位置和截止位置从用户语音中截取出对应的音频片段作为当前语音片段。实际上，在上述方式确定出的起始位置和截止位置的基础上，可扩大语音片段的截取范围，从而，使当前语音片段中包含闭口音、气音等，避免语音片段的截取出现遗漏。
46.202中，判断当前语音片段是否符合音频切分条件以及交互响应条件。该音频切分条件是基于asr识别过程设置的，该交互响应条件是基于nlp处理过程以及nlp处理结果与反馈消息的匹配度设置的。
47.可以理解的是，音频切分条件用于判断当前语音片段是否能成功完成asr识别，即当前语音片段是否发音完整。对于能够成功完成asr识别的当前语音片段，则认为当前语音片段达到音频切分条件，即当前语音片段发音完整。实际应用中，音频切分条件可以是根据音节特征设置。例如，音节特征包括但不限于发声能量、音频高低。此情况下，还需要通过交互响应条件进一步判断当前语音片段是否已包含完整交互信息足以成功实现nlp处理，并且判断nlp处理结果与反馈消息的匹配度是否达到预设值。可以理解的是，完整交互信息是指能够表达明确交互意图的语义信息，如能够表达意图查询内容的语义信息、能够意图提
问内容的语义信息等。根据nlp处理结果可确定当前语音片段的可识别性，其中，可识别性比如是当前语音片段是否可通过自然语言处理(natural language processing，nlp)识别。nlp处理结果与反馈消息的匹配度，则进一步反映出是否存在与当前语音片段匹配的反馈消息，即是否能实现与当前语音片段的交互响应。音频切分条件以及交互响应条件的具体实现参见下文实施例此处暂不展开描述。
48.本公开中，若当前语音片段符合音频切分条件以及交互响应条件，则输出当前语音片段匹配的反馈消息。可选地，待处理音频为用户发出的语音问题，当前语音片段匹配的反馈消息为针对语音问题的答复消息。在一可选实施例中，输出当前语音片段匹配的反馈消息的步骤，可以采用从文本到语音(text to speech，tts)技术实现，具体地，通过神经网络将文本文件实时转换为自然语言语音流，从而通过播放器播放转换得到的语音流。
49.203中，若当前语音片段不符合音频切分条件以及交互响应条件中的任一条件，则说明当前语音片段并未发音完整或者并未满足实现交互响应需达到的条件(如未包含完整交互信息或不存在与其匹配的反馈消息)，此情况下，可以将下一顺位的音节合并到当前语音片段中，并转至判断当前语音片段是否符合音频切分条件以及交互响应条件的步骤，直到确定出符合音频切分条件以及交互响应条件的目标语音片段。
50.本公开中，可选地，若将下一顺位音节合并后得到的当前语音片段符合音频切分条件，则说明当前语音片段发音完整，且满足实现交互响应需达到的条件，此情况下，可以直接输出当前语音片段匹配的反馈消息。此处反馈消息与前文实施例中的反馈消息类似，不再展开赘述。
51.若当前语音片段不符合音频切分条件，则说明当前语音片段并未发音完整或者并未满足实现交互响应需达到的条件，此情况下，转至203中将下一顺位的音节合并到当前语音片段中，并判断当前语音片段是否符合音频切分条件以及交互响应条件的步骤，循环执行上述步骤，直到确定出符合音频切分条件以及交互响应条件的目标语音片段。
52.值得说明的是，实际应用中，步骤203中待处理音频中各个音节的获取流程与判断流程可以同步执行，从而，避免录制之后等待预设时长导致的音频切分耗时过长的问题，减少语音片段切分所需耗费的时长，提升音频切分效率。
53.204中，输出与符合音频切分条件的当前语音片段匹配的反馈消息。此处反馈消息与前文实施例中的反馈消息类似，不再展开赘述。
54.通过图2示出的语音处理方法中，通过音频切分条件以及交互响应条件判断出从待处理音频中提取的当前语音片段(即音节或音节组合)是否能成功完成asr识别并实现nlp处理，从而为已包含完整交互信息(如用户所提出的问题)的语音片段发出匹配的反馈消息，避免相关技术中因等待至少一个预设时长导致的用户语音的切分效率以及交互效率下降的问题，大大提高音频切分效率，提升人机交流中机器人或者智能设备的反应速度，改善人机交互体验。
55.上述或下述实施例中，可选地，音频切分条件包括但不限于：当前语音片段的发声能量收敛趋势符合设定趋势。交互响应条件包括但不限于：当前语音片段包含完整交互信息，文本数据与反馈消息的匹配度达到预设值。
56.基于上述音频切分条件，本公开可选地还提供了一种判断方式，用于判断当前语音片段是否符合音频切分条件以及交互响应条件。图3为本公开一示例性实施例提供的判
断方式的流程示意图，该方法包括以下步骤：
57.301中，判断当前语音片段的发声能量收敛趋势是否符合设定趋势。
58.可选地，设定趋势是逐渐减小至预先设置的发声能量阈值。具体而言，判断当前语音片段的发声能量是否呈减小趋势，且减小至预先设置的发声能量阈值。若当前语音片段的发声能量呈减小趋势，并且减小至该发声能量阈值，则确定当前语音片段的发声能量收敛趋势符合设定趋势。若当前语音片段的发声能量并未呈减小趋势，或者并未减小到该发声能量阈值，则确定当前语音片段的发声能量收敛趋势不符合设定趋势。实际应用中，减小趋势可以是在预设时长内的整体变化趋势，期间允许存在一定波动，此处并不限定。
59.若当前语音片段的发声能量收敛趋势符合设定趋势，此情况下，说明当前语音片段发音完整，在此基础上，可以进一步检测当前语音片段是否包含完整的交互信息。
60.若当前语音片段的发声能量收敛趋势不符合设定趋势，则确定当前语音片段不符合音频切分条件。此情况下，说明当前语音片段发音不完整，故而需要继续录制后续语音片段。可选地，若发声能量收敛趋势不符合设定趋势，则转至将下一音节合并到当前语音片段中。注意，区别于合成前的当前语音片段，此处新合成的当前语音片段包含有下一音节。
61.从而，通过当前语音片段的发声能量可以快速检测当前语音片段是否发音完整，若当前语音片段并未发音完整，则继续录制后续语音片段，提高音频切分效率。
62.302中，若发声能量收敛趋势符合设定趋势，则采用音频识别处理将当前语音片段转换为文本数据。具体地，可以采用指自动语音识别技术(automatic speech recognition，asr)将当前语音片段转换为文本，为后续音频切分操作提供基础。
63.若当前语音片段转换失败，则说明当前语音片段并未包含完整发音或录制存在错误，此情况下，确定当前语音片段不符合音频切分条件，需要继续录制后续片段。实际应用中，可选地，若当前语音片段转换失败，此情况下可确定当前语音片段不符合交互响应条件，转至将下一音节合并到当前语音片段中的步骤。
64.303中，判断当前语音片段是否转换成功。具体来说，判断当前语音片段是否转换成功，实际上是判断当前语音片段是否具有可识别性。
65.若当前语音片段转换成功，则说明当前语音片段已包含完整语义信息。此情况下，304中，通过自然语言处理(natural language processing，nlp)获取与文本数据匹配的反馈消息。
66.进而，305中，判断文本数据与反馈消息的匹配度是否达到预设值。此处匹配度也可称为置信度、信心值。具体来说，判断文本数据是否可以匹配到对应的反馈消息，即判断转换得到的文本数据是否具有可交互性，简单来说就是判断是否存在与当前nlp处理结果匹配的反馈消息。
67.若文本数据与反馈消息的匹配度未达到预设值，则确定当前语音片段不符合交互响应条件。此情况下，说明当前语音片段所包含的语音信息并非完整交互信息，故而需要继续录制后续片段。举例来说，假设用户发出的提问是“北京天气如何？”，而当前的当前语音片段所包含的语义信息为“北京”，此情况下，由于“北京”这一词并未包含交互意图，因而难以为“北京”匹配到符合逻辑的反馈消息，也即匹配到的反馈消息与“北京”的匹配度无法达到预设值，故而可以认定当前情况为匹配失败。故而，若文本数据与反馈消息的匹配度未达到预设值，转至将下一音节合并到当前语音片段中的步骤。
68.当然，实际应用中，除了上述原因外，导致文本数据与反馈消息的匹配度未达到预设值的原因，还可能是存储反馈消息的数据库中未收录相关问题，反馈消息搜索超时等。
69.306中，若文本数据与反馈消息的匹配度达到预设值，则说明当前语音片段已包含完整交互信息并且满足实现交互响应的条件，此情况下，即可确定当前语音片段符合音频切分条件以及交互响应条件。
70.图3示出的判断方式中，通过音频切分条件以及交互响应条件的结合，多维度评估当前语音片段是否发音完整、包含完整交互信息、并且达到实现交互响应的条件，为音频切分操作以及反馈消息的生成过程提供基础，有助于进一步提高音频切分效率，提升人机交流中机器人或者智能设备的反应速度，改善人机交互体验。
71.图4为本公开实施例提供的一种语音处理装置。如图4所示，其中该语音处理装置包括：
72.处理模块401，被配置为获取待处理音频中的一个音节作为当前语音片段；判断当前语音片段是否符合音频切分条件以及交互响应条件，音频切分条件基于asr识别过程设置，交互响应条件基于nlp处理过程以及nlp处理结果与反馈消息的匹配度设置；若当前语音片段不符合音频切分条件以及交互响应条件，则将待处理音频中下一顺位的音节合并到当前语音片段中，并转至判断当前语音片段是否符合音频切分条件以及交互响应条件的步骤，直到确定出符合音频切分条件以及交互响应条件的目标语音片段；
73.输出模块402，被配置为输出与目标语音片段匹配的反馈消息。
74.可选地，输出模块402还被配置为：若当前语音片段符合音频切分条件以及所述交互响应条件，则输出当前语音片段匹配的反馈消息。
75.可选地，处理模块401获取待处理音频中的一个音节作为当前语音片段的过程中，被配置为：
76.根据待处理音频中发声能量的收敛趋势，确定一个音节在待处理音频中的起始位置和截止位置；
77.根据起始位置和截止位置从待处理音频中截取出对应的音频片段作为当前语音片段。
78.可选地，处理模块401判断当前语音片段是否符合音频切分条件以及交互响应条件的过程中，被配置为：
79.判断当前语音片段的发声能量收敛趋势是否符合设定趋势；
80.若发声能量收敛趋势符合设定趋势，则采用音频识别处理将当前语音片段转换为文本数据；
81.若当前语音片段转换成功，则通过自然语言处理nlp获取与文本数据匹配的反馈消息；
82.判断文本数据与反馈消息的匹配度是否达到预设值；
83.若文本数据与反馈消息的匹配度达到预设值，则确定当前语音片段符合音频切分条件。
84.可选地，处理模块401还被配置为：
85.若发声能量收敛趋势不符合设定趋势，则确定当前语音片段不符合音频切分条件；或者
86.若当前语音片段转换失败，则确定当前语音片段不符合交互响应条件；或者
87.若文本数据与反馈消息的匹配度未达到预设值，则确定当前语音片段不符合交互响应条件。
88.可选地，待处理音频为用户发出的语音问题，反馈消息为针对语音问题的答复消息。
89.上述语音处理装置可以执行前述各实施例中提供的系统或方法，本实施例未详细描述的部分，可参考前述实施例的相关说明，在此不再赘述。
90.在一个可能的设计中，上述语音处理装置的结构可实现为一电子设备。如图5所示，该电子设备可以包括：处理器21、存储器22。其中，存储器22上存储有可执行代码，当可执行代码被处理器21执行时，至少使处理器21可以实现如前述实施例中提供的语音处理方法。
91.其中，该电子设备的结构中还可以包括通信接口23，用于与其他设备或通信网络通信。
92.另外，本公开还提供了一种包括指令的计算机可读存储介质，介质上存储有可执行代码，当可执行代码被无线路由器的处理器执行时，使处理器执行前述各实施例中提供基于神经网络的特征数据处理方法。可选地，计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
93.在示例性实施例中，还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现前述各实施例中提供基于神经网络的特征数据处理方法。该计算机程序/指令是由运行在终端或服务器上的程序实现的。
94.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
95.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王军锋
技术所有人：达闼机器人股份有限公司
我是此专利的发明人

上一篇：多数据源的关系追踪方法、装置、电子设备及存储介质与流程
上一篇：一种箱包面料及其生产工艺的制作方法