音频的生成方法、装置和电子设备与流程

文档序号：33034468发布日期：2023-01-24 18:48阅读：39来源：国知局

1.本发明涉及音频生成的技术领域，尤其是涉及一种音频的生成方法、装置和电子设备。

背景技术：

2.随着汽车的智能化发展，越来越依赖智能助手进行自然的人机交互。例如，汽车语音控制得到了普遍的应用，具体的，通过车载语音助手，用户在车内不仅能够通过语音控制导航、音乐等汽车软件，而且能控制车窗、空调和灯光等汽车硬件设备。语音助手通过语音识别、语义理解用户发出的语音指令，进而车辆执行对应的操作，执行完成后，生成要反馈给用户的文本，语音助手再通过文本生成音频文件进行播报，以提示用户已完成相应的操作。
3.但是，对于上述人机交互的对话过程中，通过文本生成音频文件具有一定的耗时，增加了响应用户的时间，且生成的音频播报不够拟人化。
4.综上，现有的直接通过文本生成音频文件的方式存在耗时长、用户体验差的技术问题。

技术实现要素：

5.有鉴于此，本发明的目的在于提供一种音频的生成方法、装置和电子设备，以缓解现有的直接通过文本生成音频文件的方式耗时长、用户体验差的技术问题。
6.第一方面，本发明实施例提供了一种音频的生成方法，包括：
7.获取用户发出的语音指令，并基于所述语音指令确定待回复音频文本内容；
8.判断预设的离线音频文件中是否存在与所述待回复音频文本内容对应的目标离线音频文件；
9.若存在，则播报所述目标离线音频文件；
10.若不存在，则基于所述待回复音频文本内容和所述预设的离线音频文件生成对应的目标音频文件进行播报。
11.进一步的，若所述语音指令为语音控制指令，基于所述语音指令确定待回复音频文本内容，包括：
12.对所述语音控制指令进行语音识别，得到语音控制文本内容；
13.对所述语音控制文本内容进行语义理解，得到对应的控制操作，并执行所述控制操作；
14.根据所述控制操作的执行结果确定所述待回复音频文本内容。
15.进一步的，判断预设的离线音频文件中是否存在与所述待回复音频文本内容对应的目标离线音频文件，包括：
16.在预设散列表中确定是否存在所述待回复音频文本内容，其中，所述预设散列表为音频文本内容与所述音频文本内容对应的离线音频文件的存储路径之间的对应关系；
17.若存在，则确定所述预设的离线音频文件中存在与所述待回复音频文本内容对应的目标离线音频文件，并根据所述预设散列表中与所述待回复音频文本内容对应的目标存储路径获取所述目标离线音频文件；
18.若不存在，则确定所述预设的离线音频文件中不存在与所述待回复音频文本内容对应的目标离线音频文件。
19.进一步的，基于所述待回复音频文本内容和所述预设的离线音频文件生成对应的目标音频文件进行播报，包括：
20.对所述待回复音频文本内容进行拆分，得到至少两个待回复子音频文本内容；
21.判断所述预设的离线音频文件中是否存在与各所述待回复子音频文本内容对应的目标子离线音频文件；
22.若存在与各所述待回复子音频文本内容对应的目标子离线音频文件，则获取所有的所述目标子离线音频文件，并对所有的所述目标子离线音频文件进行拼接后播报。
23.进一步的，所述方法还包括：
24.若存在部分待回复子音频文本内容对应的目标子离线音频文件，则获取所述目标子离线音频文件，并采用文本转化音频技术将不存在目标子离线音频文件的待回复子音频文本内容转化为目标子合成音频文件；
25.将所述目标子离线音频文件和所述目标子合成音频文件进行拼接后播报。
26.进一步的，所述方法还包括：
27.若不存在与各所述待回复子音频文本内容对应的目标子离线音频文件，则采用文本转化音频技术将所述待回复子音频文本内容转化为目标合成音频文件进行播报。
28.进一步的，若所述目标子离线音频文件与所述待回复音频文本内容的前面部分文本内容对应，所述方法还包括：
29.获取所述目标子离线音频文件并进行播报；
30.采用所述文本转化音频技术将不存在目标子离线音频文件的待回复子音频文本内容转化为目标子合成音频文件进行播报。
31.第二方面，本发明实施例还提供了一种音频的生成装置，包括：
32.确定单元，用于获取用户发出的语音指令，并基于所述语音指令确定待回复音频文本内容；
33.判断单元，用于判断预设的离线音频文件中是否存在与所述待回复音频文本内容对应的目标离线音频文件；
34.播报单元，用于若存在，则播报所述目标离线音频文件；
35.生成和播报单元，用于若不存在，则基于所述待回复音频文本内容和所述预设的离线音频文件生成对应的目标音频文件进行播报。
36.第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
37.第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述机器可运行指令在被处理器调用和运行时，所述机器可运行指令促使所述处理器运行上述第一方面任一项所述的方法。
38.在本发明实施例中，提供了一种音频的生成方法，包括：获取用户发出的语音指令，并基于语音指令确定待回复音频文本内容；判断预设的离线音频文件中是否存在与待回复音频文本内容对应的目标离线音频文件；若存在，则播报目标离线音频文件；若不存在，则基于待回复音频文本内容和预设的离线音频文件生成对应的目标音频文件进行播报。通过上述描述可知，本发明的音频的生成方法中，预设了一些离线音频文件，若存在与待回复音频文本内容对应的目标离线音频文件，那么直接播报目标离线音频文件，若不存在与待回复音频文本内容对应的目标离线音频文件，再基于待回复音频文本内容和预设的离线音频文件生成对应的目标音频文件进行播报，在一定程度上可以减少生成目标离线音频文件的时间，加快了用户响应速度，提高了用户体验，缓解了现有的直接通过文本生成音频文件的方式耗时长、用户体验差的技术问题。
附图说明
39.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
40.图1为本发明实施例提供的一种音频的生成方法的流程图；
41.图2为本发明实施例提供的判断预设的离线音频文件中是否存在与待回复音频文本内容对应的目标离线音频文件的流程图；
42.图3为本发明实施例提供的基于待回复音频文本内容和预设的离线音频文件生成对应的目标音频文件进行播报的流程图；
43.图4为本发明实施例提供的一种音频的生成装置的示意图；
44.图5为本发明实施例提供的一种电子设备的示意图。
具体实施方式
45.下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
46.目前，对于人机交互的对话过程中，都是通过文本直接生成音频文件进行播报，而通过文本生成音频文件的过程具有一定的耗时，增加了响应用户的时间，且生成的音频播报不够拟人化，用户体验差。
47.基于此，本发明的音频的生成方法中，预设了一些离线音频文件，若存在与待回复音频文本内容对应的目标离线音频文件，那么直接播报目标离线音频文件，若不存在与待回复音频文本内容对应的目标离线音频文件，再基于待回复音频文本内容和预设的离线音频文件生成对应的目标音频文件进行播报，在一定程度上可以减少生成目标离线音频文件的时间，加快了用户响应速度，提高了用户体验。
48.为便于对本实施例进行理解，首先对本发明实施例所公开的一种音频的生成方法进行详细介绍。
49.实施例一：
50.根据本发明实施例，提供了一种音频的生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
51.图1是根据本发明实施例的一种音频的生成方法的流程图，如图1所示，该方法包括如下步骤：
52.步骤s102，获取用户发出的语音指令，并基于语音指令确定待回复音频文本内容；
53.在本发明实施例中，若上述语音指令为语音控制指令，对于每一个语音控制指令根据其对应的执行结果预先定义了该语音控制指令对应的待回复音频文本内容。例如，语音控制指令为打开空调，当成功打开空调后，定义的对应的待回复音频文本内容可以为好的，已为您打开。
54.对于一些常用的语音指令，都预设有其对应的待回复音频文本内容，这里不再一一进行介绍，而对应一些不常用的语音指令，可以根据解析到的语音指令的语义确定待回复音频文本内容，这里不再进行举例说明。
55.步骤s104，判断预设的离线音频文件中是否存在与待回复音频文本内容对应的目标离线音频文件；
56.上述预设的离线音频文件为针对使用频次较高的待回复音频文本内容预先人工录制的离线音频文件，避免后期再通过待回复音频文本内容生成音频文件时，耗时严重，响应用户时间长，且上述预设的离线音频文件的音频播报体验好。
57.上述使用频次较高的待回复音频文本内容为相关人员根据业务的需求预先统计得到的，当然，上述预设的离线音频文件还可以随着用户的使用进行变更，具体的，用户使用一段时间后，统计得到使用过程中各待回复音频文本内容的使用频次，进而从中筛选出使用频次大于预设频次的待回复音频文本内容，进而再针对上述得到的待回复音频文本内容进行人工录制，从而得到对应的离线音频文件。
58.步骤s106，若存在，则播报目标离线音频文件；
59.步骤s108，若不存在，则基于待回复音频文本内容和预设的离线音频文件生成对应的目标音频文件进行播报。
60.上述基于待回复音频文本内容和预设的离线音频文件生成对应的目标音频文件的方式相较于直接根据待回复音频文本内容生成对应的目标音频文件的方式，在一定程度上可以减少生成目标离线音频文件的时间，加快了用户响应速度。
61.在本发明实施例中，提供了一种音频的生成方法，包括：获取用户发出的语音指令，并基于语音指令确定待回复音频文本内容；判断预设的离线音频文件中是否存在与待回复音频文本内容对应的目标离线音频文件；若存在，则播报目标离线音频文件；若不存在，则基于待回复音频文本内容和预设的离线音频文件生成对应的目标音频文件进行播报。通过上述描述可知，本发明的音频的生成方法中，预设了一些离线音频文件，若存在与待回复音频文本内容对应的目标离线音频文件，那么直接播报目标离线音频文件，若不存在与待回复音频文本内容对应的目标离线音频文件，再基于待回复音频文本内容和预设的离线音频文件生成对应的目标音频文件进行播报，在一定程度上可以减少生成目标离线音
频文件的时间，加快了用户响应速度，提高了用户体验，缓解了现有的直接通过文本生成音频文件的方式耗时长、用户体验差的技术问题。
62.上述内容对本发明的音频的生成方法进行了简要介绍，下面对其中涉及到的具体内容进行详细描述。
63.在本发明的一个可选实施例中，若语音指令为语音控制指令，基于语音指令确定待回复音频文本内容，具体包括如下步骤：
64.(1)对语音控制指令进行语音识别，得到语音控制文本内容；
65.具体的，上述语音控制指令为录音机录制的音频，进而对上述语音控制指令的音频进行语音识别，就能得到对应的语音控制文本内容。
66.(2)对语音控制文本内容进行语义理解，得到对应的控制操作，并执行控制操作；
67.具体的，将得到的控制操作发送至汽车的控制器，进而控制相应的器件设备执行对应的控制操作。
68.(3)根据控制操作的执行结果确定待回复音频文本内容。
69.在本发明的一个可选实施例中，参考图2，判断预设的离线音频文件中是否存在与待回复音频文本内容对应的目标离线音频文件，具体包括如下步骤：
70.步骤s201，在预设散列表中确定是否存在待回复音频文本内容，其中，预设散列表为音频文本内容与音频文本内容对应的离线音频文件的存储路径之间的对应关系；
71.具体的，离线音频文件使用音频文本内容命名，并使用音频文本内容、离线音频文件的存储路径作为key、value保存在散列表中。
72.步骤s202，若存在，则确定预设的离线音频文件中存在与待回复音频文本内容对应的目标离线音频文件，并根据预设散列表中与待回复音频文本内容对应的目标存储路径获取目标离线音频文件；
73.步骤s203，若不存在，则确定预设的离线音频文件中不存在与待回复音频文本内容对应的目标离线音频文件。
74.在本发明的一个可选实施例中，参考图3，基于待回复音频文本内容和预设的离线音频文件生成对应的目标音频文件进行播报，具体包括如下步骤：
75.步骤s301，对待回复音频文本内容进行拆分，得到至少两个待回复子音频文本内容；
76.步骤s302，判断预设的离线音频文件中是否存在与各待回复子音频文本内容对应的目标子离线音频文件；
77.具体的，在预设散列表中确定是否存在各待回复子音频文本内容，若存在，则确定预设的离线音频文件中存在与各待回复子音频文本内容对应的目标子离线音频文件，并根据预设散列表中与各待回复子音频文本内容对应的目标存储路径获取所有的目标子离线音频文件。
78.步骤s303，若存在与各待回复子音频文本内容对应的目标子离线音频文件，则获取所有的目标子离线音频文件，并对所有的目标子离线音频文件进行拼接后播报；
79.具体的，按照待回复音频文本内容的顺序对所有的目标子离线音频文件进行拼接。
80.步骤s304，若存在部分待回复子音频文本内容对应的目标子离线音频文件，则获
取目标子离线音频文件，并采用文本转化音频技术将不存在目标子离线音频文件的待回复子音频文本内容转化为目标子合成音频文件；将目标子离线音频文件和目标子合成音频文件进行拼接后播报；
81.该过程可以在一定程度上减少生成目标音频文件的时间，因为采用文本转化音频技术只进行了部分待回复子音频文本内容转化为目标子合成音频文件的过程，所以减少了耗时，提高了用户响应速度。
82.另外，若目标子离线音频文件与待回复音频文本内容的前面部分文本内容对应，该方法还包括：获取目标子离线音频文件并进行播报；采用文本转化音频技术将不存在目标子离线音频文件的待回复子音频文本内容转化为目标子合成音频文件进行播报。
83.上述过程是指在进行目标子离线音频文件播报的同时，采用文本转化音频技术将不存在目标子离线音频文件的待回复子音频文本内容转化为目标子合成音频文件，进而再进行播报，可以进一步减少响应用户的时间，最大程度的提高用户体验。
84.步骤s305，若不存在与各待回复子音频文本内容对应的目标子离线音频文件，则采用文本转化音频技术将待回复子音频文本内容转化为目标合成音频文件进行播报。
85.本发明的音频的生成方法具有以下特点：
86.(1)使用人工录制音频和文本合成音频相互结合的方式进行音频的播报，提升了语音响应的实时性；
87.(2)使用录制好的音频减少文本合成音频时间，能够更快的响应用户；
88.(3)人工录制的音频播报体验更佳，提升了用户语音交互体验。
89.实施例二：
90.本发明实施例还提供了音频的生成装置，该音频的生成装置主要用于执行本发明实施例一中所提供的音频的生成方法，以下对本发明实施例提供的音频的生成装置做具体介绍。
91.图4是根据本发明实施例的一种音频的生成装置的示意图，如图4所示，该装置主要包括：确定单元10、判断单元20、播报单元30、生成和播报单元40，其中：
92.确定单元，用于获取用户发出的语音指令，并基于语音指令确定待回复音频文本内容；
93.判断单元，用于判断预设的离线音频文件中是否存在与待回复音频文本内容对应的目标离线音频文件；
94.播报单元，用于若存在，则播报目标离线音频文件；
95.生成和播报单元，用于若不存在，则基于待回复音频文本内容和预设的离线音频文件生成对应的目标音频文件进行播报。
96.在本发明实施例中，提供了一种音频的生成装置，包括：获取用户发出的语音指令，并基于语音指令确定待回复音频文本内容；判断预设的离线音频文件中是否存在与待回复音频文本内容对应的目标离线音频文件；若存在，则播报目标离线音频文件；若不存在，则基于待回复音频文本内容和预设的离线音频文件生成对应的目标音频文件进行播报。通过上述描述可知，本发明的音频的生成装置中，预设了一些离线音频文件，若存在与待回复音频文本内容对应的目标离线音频文件，那么直接播报目标离线音频文件，若不存在与待回复音频文本内容对应的目标离线音频文件，再基于待回复音频文本内容和预设的
signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现成可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成上述方法的步骤。
107.对应于上述音频的生成方法，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述音频的生成方法的步骤。
108.本技术实施例所提供的音频的生成装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本技术实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。
109.在本技术所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
110.再例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
111.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
112.另外，在本技术提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
113.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以
存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述车辆标记方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。
114.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
115.最后应说明的是：以上所述实施例，仅为本技术的具体实施方式，用以说明本技术的技术方案，而非对其限制，本技术的保护范围并不局限于此，尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本技术实施例技术方案的范围。都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：骆俊凯李洁辰
技术所有人：上海洛轲智能科技有限公司
我是此专利的发明人

上一篇：一种飞行时间二次离子质谱仪及其质谱分析方法与流程
上一篇：连接组件及龙骨单元的制作方法