语音识别交互的实现方法及装置与流程

文档序号：32307983发布日期：2022-11-23 10:37阅读：285来源：国知局

1.本发明属于人工智能技术领域，具体涉及一种语音识别交互的实现方法及装置。

背景技术：

2.随着人工智能及语音识别技术的不断发展，提高人机交互效率的需求日益增长，对机器的反应速度和准确度都有更高的要求。语音识别是将“语音”转换成对应的“文字”，语音唤醒是在连续的语音流中实时检测出说话人的特点片段。
3.oneshot是将一句话唤醒并识别的交互方式，比如：唤醒词是“你好小意”，这时候可以说“你好小意，打开收音机”，这就是一个语音识别的交互。语音识别的交互方式需要语音唤醒引擎和语音识别引擎。最初的语音识别是将一句话完整的送给识别，由语音识别引擎进行处理，然后对识别结果进行切割。这种方式存在2个问题，其中一个问题是，唤醒词的识别率没有唤醒的关键词检查能力强，如果出现误识别，就不会对误识别的唤醒词进行切割，导致识别结果错误。另一个问题是在设计上可以更换唤醒词，如果更换了唤醒词，识别模型没有兼容新的唤醒词，会导致识别错误。
4.相关技术中，通过唤醒边界处理的方式，将唤醒部分的声音数据不送给语音识别引擎，虽然能够解决上述问题，但是又出现了新的问题，由于语音唤醒是存在时延的，进入识别引擎的部分语音就会丢失，导致无法识别正确，称这种现象为丢字问题。如果没有唤醒时延，缺失后验会导致误唤醒率严重升高，这就导致唤醒时延必须客观存在。如果将唤醒延时一起送给识别引擎，这样就能解决识别丢字的问题了，但是又出现了新的问题，唤醒的延时可能会包含唤醒词的尾音，这样就导致识别可能多字的问题，称这种现象为多字问题。

技术实现要素：

5.有鉴于此，本发明的目的在于克服现有技术的不足，提供一种语音识别交互的实现方法及装置，以解决现有技术中语音识别时丢字和多字的问题。
6.为实现以上目的，本发明采用如下技术方案：一种语音识别交互的实现方法，包括：
7.获取待识别语音并发送至语音唤醒引擎中进行分析处理，输出唤醒结果，确定唤醒结果后输出唤醒延时信息；
8.将所述唤醒延时信息发送至语音识别引擎，输出识别结果。
9.进一步的，所述语音唤醒引擎包括：数据处理单元和边界处理单元；所述输出唤醒结果和唤醒延时信息，包括：
10.所述数据处理单元对所述待识别语音进行分析，判断所述待识别语音中是否满足唤醒条件，根据判断结果输出唤醒结果；
11.所述边界处理单元对所述待识别语音进行处理，得到唤醒延时信息。
12.进一步的，判断所述待识别语音中是否满足唤醒条件，包括：
13.判断所述待识别语音中是否存在唤醒词，如果存在，则所述待识别语音满足唤醒
条件，否则所述待识别语音不满足唤醒条件。
14.进一步的，所述对所述待识别语音进行处理，得到唤醒延时信息，包括：
15.对所述待识别语音进行分析，根据预设时间段的区间采样点的值计算平均值，将所述平均值确定为语音能量值；
16.根据语音能量值判断是否保留所述区间的语音数据作为唤醒延时信息；其中，所述唤醒延时信息中存在唤醒词最后一个字的尾音。
17.进一步的，所述根据语音能量值判断是否保留所述区间的语音数据作为唤醒延时信息，包括：
18.如果唤醒延时信息的语音能量值小于所述唤醒延时信息中第一帧的能量值，则丢弃所述唤醒延时信息；
19.如果唤醒延时信息的语音能量值大于所述唤醒延时信息中第一帧的能量值，则保留所述换线延时信息。
20.进一步的，所述预设时间段为10s。
21.本技术实施例提供一种语音识别交互的实现装置，包括：
22.唤醒模块，用于获取待识别语音并发送至语音唤醒引擎中进行分析处理，输出唤醒结果，确定唤醒结果后输出唤醒延时信息；
23.识别模块，用于将所述唤醒延时信息发送至语音识别引擎，输出识别结果。
24.进一步的，所述唤醒模块，包括：
25.数据处理单元和边界处理单元；
26.所述数据处理单元用于对所述待识别语音进行分析，判断所述待识别语音中是否满足唤醒条件，根据判断结果输出唤醒结果；
27.所述边界处理单元用于对所述待识别语音进行处理，得到唤醒延时信息。
28.本技术实施例提供一种计算机设备，包括：存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述任一项语音识别交互的实现方法的步骤。
29.本技术实施例还提供一种计算机存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任一项语音识别交互的实现方法的步骤。
30.本发明采用以上技术方案，能够达到的有益效果包括：
31.本发明提供一种语音识别交互的实现方法及装置，所述方法包括获取待识别语音并发送至语音唤醒引擎中进行分析处理，输出唤醒结果和唤醒延时信息；将所述唤醒延时信息发送至语音识别引擎，输出识别结果。本发明通过语音唤醒引擎中设置的边界处理以及唤醒时延，能够识别多字或少字的问题，使得语音识别准确率更高，提高了智能语音助手的反应速度和准确度，使得智能语音变的更加智能。
附图说明
32.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
33.图1为本发明语音识别交互的实现方法的步骤示意图；
34.图2为本发明语音识别交互的实现方法的流程示意图；
35.图3为本发明语音识别交互的实现装置的结构示意图；
36.图4为本发明语音识别交互的实现方法的运行环境的硬件结构示意图。
具体实施方式
37.为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。
38.下面结合附图介绍本技术实施例中提供的一个具体的语音识别交互的实现方法及装置。
39.如图1所示，本技术实施例中提供的语音识别交互的实现方法，包括：
40.s101，获取待识别语音并发送至语音唤醒引擎中进行分析处理，输出唤醒结果，确定唤醒结果后输出唤醒延时信息；
41.一些实施例中，所述语音唤醒引擎包括：数据处理单元和边界处理单元；所述输出唤醒结果和唤醒延时信息，包括：
42.所述数据处理单元对所述待识别语音进行分析，判断所述待识别语音中是否满足唤醒条件，根据判断结果输出唤醒结果；
43.所述边界处理单元对所述待识别语音进行处理，得到唤醒延时信息。
44.一些实施例中，判断所述待识别语音中是否满足唤醒条件，包括：
45.判断所述待识别语音中是否存在唤醒词，如果存在，则所述待识别语音满足唤醒条件，否则所述待识别语音不满足唤醒条件。
46.具体的，如图2所示，本技术中首先获取到待识别语音，例如待识别语音为：“你好小意，打开xxapp”，其中，“你好小意”为唤醒词，可以理解的是，唤醒词通过唤醒算法存储在语音唤醒引擎中，唤醒词可以包括多个，本技术在此不做限定。在数据处理单元对待识别语音进行分析识别到唤醒词后，唤醒结果为唤醒，此时边界处理单元对所述待识别语音进行处理，得到唤醒延时信息。如果数据处理单元识别不到唤醒词，则唤醒结果为失败，无法唤醒，也就不会输出唤醒延时信息。
47.一些实施例中，所述对所述待识别语音进行处理，得到唤醒延时信息，包括：
48.对所述待识别语音进行分析，根据预设时间段的区间采样点的值计算平均值，将所述平均值确定为语音能量值；
49.根据语音能量值判断是否保留所述区间的语音数据作为唤醒延时信息；其中，所述唤醒延时信息中存在唤醒词最后一个字的尾音。
50.具体实施例中，所述根据语音能量值判断是否保留所述区间的语音数据作为唤醒延时信息，包括：
51.如果唤醒延时信息的语音能量值小于所述唤醒延时信息中第一帧的能量值，则丢弃所述唤醒延时信息；
52.如果唤醒延时信息的语音能量值大于所述唤醒延时信息中第一帧的能量值，则保
留所述换线延时信息。
53.一些实施例中，所述预设时间段为10s。
54.具体的，本技术对语音数据进行处理，根据唤醒延时片段的数据能量值大小选择性抛弃或保留送给识别引擎。能量值是根据区间采样点的值做平均值计算，比如区间可以为10ms。
55.具体的，例如，选取待识别语音的的一个语音区间作为唤醒延时片段，其中唤醒延时片段包括待识别语音最后一个字的尾音，计算唤醒延时片段中多个采样点的能量值，然后对多个能量值取平均值，将平均值作为语音能量值，将语音能量值与唤醒延时信息中第一帧的能量值进行对比，如果语音能量值小于所述唤醒延时信息中第一帧的能量值，则丢弃所述唤醒延时信息，以解决多字的问题。如果语音能量值大于唤醒延时信息中第一帧的能量值唤醒片段会被保留，并送给识别引擎处理，来解决丢字的问题。
56.s102，将所述唤醒延时信息发送至语音识别引擎，输出识别结果。
57.最终将唤醒延时信息发送至语音识别引擎中进行识别，输出识别结果。
58.语音识别交互的实现方法的工作原理为：参见图2，先利用语音唤醒引擎中的数据处理单元对待识别语音进行分析识别到唤醒词后，唤醒结果为唤醒，此时边界处理单元对所述待识别语音进行处理，得到唤醒延时信息。如果数据处理单元识别不到唤醒词，则唤醒结果为失败，无法唤醒，也就不会输出唤醒延时信息。得到唤醒延时信息后发送至语音识别引擎进行识别，得到识别结果。通过本技术提供的语音识别交互的实现方法，能够解决语音识别时多字或丢字的问题，提高识别准确率。
59.如图3所示，本技术实施例提供一种语音识别交互的实现装置，包括：
60.唤醒模块301，用于获取待识别语音并发送至语音唤醒引擎中进行分析处理，输出唤醒结果，确定唤醒结果后输出唤醒延时信息；
61.识别模块302，用于将所述唤醒延时信息发送至语音识别引擎，输出识别结果。
62.本技术提供的语音识别交互的实现装置的工作原理为，唤醒模块301获取待识别语音并发送至语音唤醒引擎中进行分析处理，输出唤醒结果，确定唤醒结果后输出唤醒延时信息；识别模块302将所述唤醒延时信息发送至语音识别引擎，输出识别结果。
63.本技术提供一种计算机设备，包括：存储器和处理器，还可以包括网络接口，所述存储器存储有计算机程序，存储器可以包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。该计算机设备存储有操作系统，存储器是计算机可读介质的示例。所述计算机程序被所述处理器执行时，使得所述处理器执行语音识别交互的实现方法，图4中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
64.在一个实施例中，本技术提供的语音识别交互的实现方法可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。
65.一些实施例中，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：获取待识别语音并发送至语音唤醒引擎中进行分析处理，输出唤醒结果，确定唤醒结果后输出唤醒延时信息；将所述唤醒延时信息发送至语音识别引擎，输出识别结果。
66.本技术还提供一种计算机存储介质，计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光光盘(dvd)或其他光学存储、磁盒式磁带存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
67.一些实施例中，本发明还提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，获取待识别语音并发送至语音唤醒引擎中进行分析处理，输出唤醒结果，确定唤醒结果后输出唤醒延时信息；将所述唤醒延时信息发送至语音识别引擎，输出识别结果。
68.综上所述，本发明提供一种语音识别交互的实现方法及装置，所述方法包括获取待识别语音并发送至语音唤醒引擎中进行分析处理，输出唤醒结果和唤醒延时信息；将所述唤醒延时信息发送至语音识别引擎，输出识别结果。本发明通过语音唤醒引擎中设置的边界处理以及唤醒时延，能够识别多字或少字的问题，使得语音识别准确率更高，提高了智能语音助手的反应速度和准确度，使得智能语音变的更加智能。
69.可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。
70.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
71.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
72.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
73.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
74.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵茂祥刘威李全忠何国涛蒲瑶
技术所有人：普强时代（珠海横琴）信息技术有限公司
我是此专利的发明人

上一篇：一种青钱柳滴丸及其制备方法与流程
上一篇：一种异步银行消息的处理方法和装置与流程