音量控制方法、装置、设备、语音交互设备和存储介质与流程

文档序号：31448890发布日期：2022-09-07 12:42阅读：91来源：国知局

1.本发明涉及音频处理技术领域，具体提供一种音量控制方法、装置、设备、语音交互设备和存储介质。

背景技术：

2.随着人工智能的兴起，智能音箱等语音交互设备也开始流行，目前在使用语音方式与语音交互设备进行交互时，语音交互设备的语音音量是固定值，通常都是用户上一次设定的音量，这样就会出现设定音量小时，当环境嘈杂时，语音交互设备响应音量用户听不清，若设定音量大，当环境安静时，语音交互设备响应音量太大，影响用户体验。
3.因此，现有的音量调节方法，过程繁琐，及时性较差。

技术实现要素：

4.为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决手动调整音量的过程繁琐，及时性较差的技术问题的音量控制方法、装置、设备、语音交互设备和存储介质。
5.在第一方面，本发明提供一种音量控制方法，包括：
6.获取当前环境的噪音值、上一次交互语音的语音值和当次交互语音的语音值；
7.根据所述上一次交互语音的语音值和所述当次交互语音的语音值，确定音量修正系数；
8.根据所述音量修正系数、所述当前环境的噪音值和预设的环境系数，确定当次响应音量。
9.进一步地，上述所述的音量控制方法中，根据所述上一次交互语音的语音值和所述当次交互语音的语音值，确定音量修正系数，包括：
10.确定所述当次交互语音的语音值与所述上一次交互语音的语音值之间的比值；
11.将所述比值与预设的语音系数的乘积，作为所述音量修正系数。
12.进一步地，上述所述的音量控制方法中，根据所述音量修正系数、所述当前环境的噪音值和预设的环境系数，确定当次响应音量，包括：
13.将所述音量修正系数、所述当前环境的噪音值和预设的环境系数的乘积作为所述当次响应音量。
14.进一步地，上述所述的音量控制方法，还包括：
15.若所述当次响应音量与上一次响应音量之间的差值大于预设阈值，获取当次响应内容所需的响应时长；
16.若所述响应时长大于预设时长，在输出所述当次响应内容时，以所述上一次响应音量为起始音量，并按照预设的音量调节步长逐步调整至所述当次响应音量。
17.进一步地，上述所述的音量控制方法，还包括：
18.在按照预设的音量调节步长逐步调整至所述当次响应音量的过程中，若检测到音
量不符的反馈信息，按照预设的音量调节步长反向调整一次响应音量得到目标响应音量；
19.基于所述目标响应音量，输出所述当次响应内容中的未响应内容。
20.进一步地，上述所述的音量控制方法中，每一次交互语音的语音值为每一次交互语音中所有交互词的平均能量值；
21.所述当前环境的噪音值为当前时刻之前预设时间段内噪音的平均能量值；
22.其中，所述当前时刻为接收所述当次交互语音的时刻。
23.在第二方面，本发明提供一种音量控制装置，包括：
24.获取模块，用于获取当前环境的噪音值、上一次交互语音的语音值和当次交互语音的语音值；
25.第一确定模块，用于根据所述上一次交互语音的语音值和所述当次交互语音的语音值，确定音量修正系数；
26.第二确定模块，用于根据所述音量修正系数、所述当前环境的噪音值和预设的环境系数，确定当次响应音量。
27.在第三方面，提供一种音量控制设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行上述任一项所述的语音交互方法。
28.在第四方面，提供一种语音交互设备，包括上述所述的音量控制设备。
29.在第五方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述任一项技术方案所述的音量控制方法。
30.本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：
31.在实施本发明的技术方案中，通过获取当前环境的噪音值、上一次交互语音的语音值和当次交互语音的语音值；根据所述上一次交互语音的语音值和所述当次交互语音的语音值，确定音量修正系数；根据所述音量修正系数、所述当前环境的噪音值和预设的环境系数，确定当次响应音量，实现了同时利用当前环境的噪音值和相邻两次交互语音的语音值，自动调节当次响应音量，使得语音交互设备的响应音量随着用户音量的增大和环境噪音值的增大而增大，随着用户音量的减小和环境噪音值的减小而减小，满足用户的实际需求。采用本发明的技术方案，能够快捷准确地调整语音交互设备响应音量，提高音量调整的及时性，进而提高用户体验。
附图说明
32.参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：
33.图1是根据本发明的一个实施例的音量控制方法的主要步骤流程示意图；
34.图2是根据本发明的另一个实施例的音量控制方法的主要步骤流程示意图；
35.图3是根据本发明的一个实施例的音量控制装置的主要结构框图；
36.图4是根据本发明的一个实施例的音量控制设备的主要结构框图。
具体实施方式
37.下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。
38.在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“a和/或b”表示所有可能的a与b的组合，比如只是a、只是b或者a和b。术语“至少一个a或b”或者“a和b中的至少一个”含义与“a和/或b”类似，可以包括只是a、只是b或者a和b。单数形式的术语“一个”、“这个”也可以包含复数形式。
39.随着人工智能的兴起，智能音箱等语音交互设备也开始流行，目前在使用语音方式与语音交互设备进行交互时，语音交互设备的语音音量是固定值，通常都是用户上一次设定的音量，这样就会出现设定音量小时，当环境嘈杂时，语音交互设备响应音量用户听不清，若设定音量大，当环境安静时，语音交互设备响应音量太大，影响用户体验。
40.因此，为了解决上述技术问题，本发明提供了以下技术方案。
41.参阅附图1，图1是根据本发明的一个实施例的音量控制方法的主要步骤流程示意图。如图1所示，本发明实施例中的音量控制方法主要包括下列步骤101-步骤103。
42.步骤101、获取当前环境的噪音值、上一次交互语音的语音值和当次交互语音的语音值；
43.在一个具体实现过程中，每一次交互语音的语音值为每一次交互语音中所有交互词的平均能量值。
44.具体地，若当次交互语音为“查询天气”，“查”对应一个能量值，“询”对应一个能量值，“天”对应一个能量值，“气”对应一个能量值，则四个能量值的平均值则作为当次交互语音的语音值即可。
45.在一个具体实现过程中，所述当前环境的噪音值为当前时刻之前预设时间段内噪音的平均能量值；其中，所述当前时刻为接收所述当次交互语音的时刻。具体地，可以选取当前时刻之前5s内噪音的平均能量值作为当前环境的噪音值。
46.需要说明的是，若当次交互语音为首次语音交互，则上一次交互语音的语音值可以以语音交互设备在最后一轮交互中最后一次交互语音的语音值为准，也可以与当次交互语音的语音值相同，在此不做具体限制。
47.步骤102、根据所述上一次交互语音的语音值和所述当次交互语音的语音值，确定音量修正系数；
48.在一个具体实现过程中，可以确定所述当次交互语音的语音值与所述上一次交互语音的语音值之间的比值，将所述比值与预设的语音系数的乘积，作为所述音量修正系数。
49.具体地，音量修正系数的计算式如式(1)：
50.51.其中，θ表示音量修正系数，sn表示当次交互语音的语音值，s
n-1
表示上一次交互语音的语音值，λ表示预设的语音系数。
52.步骤103、根据所述音量修正系数、所述当前环境的噪音值和预设的环境系数，确定当次响应音量。
53.在一个具体实现过程中，可以将所述音量修正系数、所述当前环境的噪音值和预设的环境系数的乘积作为所述当次响应音量。
54.具体地，当次响应音量的计算式如式(2)：
[0055]vn
＝nn×
δ
×
θ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0056]
其中，vn表示当次响应音量，nn表示当前环境的噪音值，δ表示预设的环境系数。
[0057]
本实施例的音量控制方法，通过获取当前环境的噪音值、上一次交互语音的语音值和当次交互语音的语音值；根据所述上一次交互语音的语音值和所述当次交互语音的语音值，确定音量修正系数；根据所述音量修正系数、所述当前环境的噪音值和预设的环境系数，确定当次响应音量，实现了同时利用当前环境的噪音值和相邻两次交互语音的语音值，自动调节当次响应音量，使得语音交互设备的响应音量随着用户音量的增大和环境噪音值的增大而增大，随着用户音量的减小和环境噪音值的减小而减小，满足用户的实际需求。采用本发明的技术方案，能够快捷准确地调整语音交互设备响应音量，提高音量调整的及时性，进而提高用户体验。
[0058]
参阅附图2，图2是根据本发明的另一个实施例的音量控制方法的主要步骤流程示意图。如图2所示，本发明实施例中的音量控制方法主要包括下列步骤201-步骤207。
[0059]
步骤201、获取当前环境的噪音值、上一次交互语音的语音值和当次交互语音的语音值；
[0060]
步骤202、根据所述上一次交互语音的语音值和所述当次交互语音的语音值，确定音量修正系数；
[0061]
步骤203、根据所述音量修正系数、所述当前环境的噪音值和预设的环境系数，确定当次响应音量；
[0062]
步骤201-步骤203与上述实施例的步骤101-步骤103的实现过程相同，详细请参考上述相关记载，在此不再赘述。
[0063]
步骤204、若所述当次响应音量与上一次响应音量之间的差值大于预设阈值，获取当次响应内容所需的响应时长；
[0064]
在一个具体实现过程中，在确定当次响应音量后，可以将当次响应音量与上一次响应音量进行比较，得到二者的差值，若所述当次响应音量与上一次响应音量之间的差值大于预设阈值，说明相邻两次的响应音量差异很大，可能会是计算错误，导致当次响应音量与用户的需求不相符，或者，直接以当次响应音量输出响应内容时，可能会造成用户的不适，例如，上一次响应音量较小，当次响应音量很大，可能会给用户带来不适，如果响应内容的响应时长较短，对用户的不适性影响不大，如果时间较长，对用户的不适性影响较大，因此，若所述当次响应音量与上一次响应音量之间的差值大于预设阈值，可以获取当次响应内容所需的响应时长。
[0065]
步骤205、若所述响应时长大于预设时长，在输出所述当次响应内容时，以所述上一次响应音量为起始音量，并按照预设的音量调节步长逐步调整至所述当次响应音量；
[0066]
在一个具体实现过程中，若所述响应时长大于预设时长，说明对用户的不适性影响较大，因此，在输出所述当次响应内容时，以所述上一次响应音量为起始音量，并按照预设的音量调节步长逐步调整至所述当次响应音量，这样，能够形成音量缓冲，降低对用户的不适性影响，使用户逐渐得到所需的音量。
[0067]
步骤206、在按照预设的音量调节步长逐步调整至所述当次响应音量的过程中，若检测到音量不符的反馈信息，按照预设的音量调节步长反向调整一次响应音量得到目标响应音量；
[0068]
在一个具体实现过程中，在按照预设的音量调节步长逐步调整至所述当次响应音量的过程中，可以实时获取用户对当前音量的满意度，若检测到音量不符的反馈信息，按照预设的音量调节步长反向调整一次响应音量得到目标响应音量，这样，能够更加精准的获得与用户实际需求相符的响应音量。
[0069]
在一个具体实现过程中，可以通过获取用户的面部表情、用户的人体动作等方式，确定用户对当前音量的满意度。例如，若用户听到当前的响应音量时，面部表情为皱眉头，可以确定用户对当前音量的不满意，若面部表情为未皱眉头，可以确定用户对当前音量的满意。上述实现确定用户对当前音量的满意度的方式仅为示例性说明，本实施例不限制其他实现方式，在此不再一一列举。
[0070]
步骤207、基于所述目标响应音量，输出所述当次响应内容中的未响应内容。
[0071]
本实施例的音量控制方法，在得到当次响应音量后，可以进一步根据当次响应音量与上一次响应音量之间的差值、当次响应内容所需的响应时长，确定是否逐步调整至所需的响应音量，在减少用户不适性的同时，更加精准得得到与用户实际需求相符的响应音量。
[0072]
需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。
[0073]
进一步，本发明还提供了一种音量控制装置。
[0074]
参阅附图3，图3是根据本发明的一个实施例的音量控制装置的主要结构框图。如图3所示，本发明实施例音量控制装置可以包括获取模块30、第一确定模块31和第二确定模块32。
[0075]
获取模块30，用于获取当前环境的噪音值、上一次交互语音的语音值和当次交互语音的语音值；
[0076]
在一个具体实现过程中，每一次交互语音的语音值为每一次交互语音中所有交互词的平均能量值；所述当前环境的噪音值为当前时刻之前预设时间段内噪音的平均能量值；其中，所述当前时刻为接收所述当次交互语音的时刻。
[0077]
第一确定模块31，用于根据所述上一次交互语音的语音值和所述当次交互语音的语音值，确定音量修正系数；
[0078]
在一个具体实现过程中，可以确定所述当次交互语音的语音值与所述上一次交互语音的语音值之间的比值；将所述比值与预设的语音系数的乘积，作为所述音量修正系数。
[0079]
第二确定模块32，用于根据所述音量修正系数、所述当前环境的噪音值和预设的
环境系数，确定当次响应音量。
[0080]
在一个具体实现过程中，可以将所述音量修正系数、所述当前环境的噪音值和预设的环境系数的乘积作为所述当次响应音量。
[0081]
本实施例的音量控制装置，通过获取当前环境的噪音值、上一次交互语音的语音值和当次交互语音的语音值；根据所述上一次交互语音的语音值和所述当次交互语音的语音值，确定音量修正系数；根据所述音量修正系数、所述当前环境的噪音值和预设的环境系数，确定当次响应音量，实现了同时利用当前环境的噪音值和相邻两次交互语音的语音值，自动调节当次响应音量，使得语音交互设备的响应音量随着用户音量的增大和环境噪音值的增大而增大，随着用户音量的减小和环境噪音值的减小而减小，满足用户的实际需求。采用本发明的技术方案，能够快捷准确地调整语音交互设备响应音量，提高用户体验，提高语音交互设备的实用性。
[0082]
在一个具体实现过程中，获取模块30还用于若所述当次响应音量与上一次响应音量之间的差值大于预设阈值，获取当次响应内容所需的响应时长；
[0083]
第二确定模块32，还用于若所述响应时长大于预设时长，在输出所述当次响应内容时，以所述上一次响应音量为起始音量，并按照预设的音量调节步长逐步调整至所述当次响应音量。
[0084]
在一个具体实现过程中，第二确定模块32，还用于在按照预设的音量调节步长逐步调整至所述当次响应音量的过程中，若检测到音量不符的反馈信息，按照预设的音量调节步长反向调整一次响应音量得到目标响应音量；基于所述目标响应音量，输出所述当次响应内容中的未响应内容。
[0085]
上述音量控制装置以用于执行上述实施例的音量控制方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，音量控制装置的具体工作过程及有关说明，可以参考音量控制方法的实施例所描述的内容，此处不再赘述。
[0086]
本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。
[0087]
进一步，本发明还提供了一种音量控制设备。
[0088]
参阅附图4，图4是根据本发明的一个实施例的音量控制设备的主要结构框图。在根据本发明的一个音量控制设备实施例中，该音量控制设备包括处理器40和存储装置41。
[0089]
存储装置41可以被配置成存储执行上述方法实施例的音量控制方法的程序，处理器40可以被配置成用于执行存储装置41中的程序，该程序包括但不限于执行上述方法实施
例的音量控制方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该音量控制设备可以是包括各种电子设备形成的控制设备。
[0090]
进一步，本发明还提供了一种语音交互设备，该语音交互设备包括上述所述的音量控制设备。
[0091]
进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的音量控制方法的程序，该程序可以由处理器加载并运行以实现上述音量控制方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
[0092]
进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。
[0093]
本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。
[0094]
至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁万超肖成进
技术所有人：青岛海尔空调器有限总公司海尔智家股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、田老师：1: 建筑节能绿色建筑能耗的模拟与检测(EnergyPlus)；建筑碳排放和生命周期评价；城市微气候、建筑能耗与太阳能技术的相互影响；地理信息系统(GIS)和空间回归方法用于城市建筑能耗分析；不确定性、敏感性分析和机器学习方法应用于建筑能耗分析(R)；贝叶斯方法用于城市和单体建筑能源分析 2: 过
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。