音箱音量自动调节的方法和系统与流程

文档序号：19836764发布日期：2020-02-04 13:07阅读：1793来源：国知局

本公开涉及人工智能领域，尤其涉及一种音箱音量自动调节的方法和系统。

背景技术：

随着人工智能的兴起，智能音箱也开始流行，目前智能音箱的音量通过人工设置，如触控点击、滑动或声音控制，也可设置按时间定时调节，如晚上22点自动调低音量，但不能根据环境和场景智能地调节音量，往往人在远离音箱时因为声音小收听效果变差，或离得近讲话时受音箱声音大的影响。

技术实现要素：

本公开要解决的一个技术问题是提供一种音箱音量自动调节的方法和系统，能够自适应的调节音箱音量。

根据本公开一方面，提出一种音箱音量自动调节的方法，包括：采集环境音；提取环境音的梅尔频率倒谱系数mfcc特征值以便生成语谱图；将语谱图输入至声音识别模型识别音频类型，其中，音频类型至少包括背景音；将语谱图输入至音量识别模型识别音量大小；若音频类型中包含用户话音，则根据用户话音的音量大小反向调节音箱音量；若音频类型中不包含用户话音，则根据背景音的音量大小正向调节音箱音量。

可选地，该方法还包括：采集样本环境音；提取样本环境音的mfcc特征值以便生成样本语谱图；对样本语谱图对应的音频类型作标注，生成音频标注文件；基于样本语谱图和音频标注文件训练声音识别模型。

可选地，该方法还包括：采集样本环境音；提取样本环境音的mfcc特征值以便生成样本语谱图；对样本语谱图对应的音量大小进行标注，生成音量标注文件，其中，将音量按照由大到小分为第一类音量、第二类音量和第三类音量；基于样本语谱图和音量标注文件训练音量识别模型。

可选地，基于声音识别模型识别不同用户的话音；和/或基于音量识别模型，识别不同用户话音的音量大小。

可选地，若用户话音的音量属于第三类音量，则调高音箱音量；若用户话音的音量属于第一类音量，则调低音箱音量；若用户话音的音量属于第二类音量，则保持音箱音量不变。

可选地，若背景音的音量属于第三类音量，则调低音箱音量；若背景音的音量属于第一类音量，则调高音箱音量；若背景音的音量属于第二类音量，则保持音箱音量不变。

可选地，该方法还包括：响应于用户在前次音箱音量自动调节后手工调整音箱音量，根据手工调整音量情况修正根据声音识别模型和音量识别模型自动调节的音箱音量。

可选地，声音识别模型和音量识别模型为卷积神经网络模型或循环神经网络模型。

可选地，在节目切换间隙采集环境音。

根据本公开的另一方面，还提出一种音箱音量自动调节的系统，包括：声音采集模块，用于采集环境音；声音特征提取模块，用于提取环境音的梅尔频率倒谱系数mfcc特征值以便生成语谱图；声音识别模块，用于将语谱图输入至声音识别模型识别音频类型，其中，音频类型至少包括背景音；音量识别模块，用于将语谱图输入至音量识别模型识别音量大小；音量调节模块，用于若音频类型中包含用户话音，则根据用户话音的音量大小反向调节音箱音量，若音频类型中不包含用户话音，则根据背景音的音量大小正向调节音箱音量。

可选地，该系统还包括音频标注模块和声音识别模型训练模块，其中，声音采集模块还用于采集样本环境音；声音特征提取模块还用于提取样本环境音的mfcc特征值以便生成样本语谱图；音频标注模块用于对样本语谱图对应的音频类型作标注，生成音频标注文件；声音识别模型训练模块用于基于样本语谱图和音频标注文件训练声音识别模型。

可选地，该系统还包括音量标注模块和音量识别模型训练模块，其中，声音采集模块还用于采集样本环境音；声音特征提取模块还用于提取样本环境音的mfcc特征值以便生成样本语谱图；音量标注模块用于对样本语谱图对应的音量大小进行标注，生成音量标注文件，其中，将音量按照由大到小分为第一类音量、第二类音量和第三类音量；音量识别模型训练模块用于基于样本语谱图和音量标注文件训练音量识别模型。

根据本公开的另一方面，还提出一种音箱音量自动调节的系统，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上述的音箱音量自动调节的方法。

根据本公开的另一方面，还提出一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述的音箱音量自动调节的方法的步骤。

与现有技术相比，本公开通过识别音频类型和音量大小，然后若音频类型中包含用户话音，则根据用户话音的音量大小反向调节音箱音量；若音频类型中不包含用户话音，则根据背景音的音量大小正向调节音箱音量，能够自适应的调节音箱音量，极大提升用户收听体验。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开音箱音量自动调节的方法的一个实施例的流程示意图。

图2为本公开音箱音量自动调节的方法中训练声音识别模型的一个实施例的流程示意图。

图3为本公开音箱音量自动调节的方法中训练音量识别模型的一个实施例的流程示意图。

图4为本公开音箱音量自动调节的方法的另一个实施例的流程示意图。

图5为本公开音箱音量自动调节的系统的一个实施例的结构示意图。

图6为本公开音箱音量自动调节的系统的另一个实施例的结构示意图。

图7为本公开音箱音量自动调节的系统的再一个实施例的结构示意图。

图8为本公开音箱音量自动调节的系统的又一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

图1为本公开音箱音量自动调节的方法的一个实施例的流程示意图。

在步骤110，采集环境音。例如，可以在切换播放节目的间隙，采集环境音。

在步骤120，提取环境音的mfcc(mel-frequencycepstralcoefficients，梅尔频率倒谱系数)特征值以便生成语谱图。

在步骤130，将语谱图输入至声音识别模型识别音频类型，其中，音频类型至少包括背景音。音频类型还可以包括用户话音，通过声音识别模型可以区别背景音和用户话音，用户话音指用户说话的声音，背景音指环境音中去除用户话音后的声音，例如为环境噪声。声音识别模型可以为神经网络模型，具体可以为卷积神经网络模型或循环神经网络模型。若声音识别模型为循环神经网络模型，则还应将该语谱图的时序输入至声音识别模型。

在步骤140，将语谱图输入至音量识别模型识别音量大小。即识别出声音大小，若包含用户话音，则可以识别出用户话音的声音大小，若没有用户话音，则可以识别出背景音的声音大小。音量识别模型可以为神经网络模型，具体可以为卷积神经网络模型或循环神经网络模型。若音量识别模型为循环神经网络模型，则还应将该语谱图的时序输入至音量识别模型。

在步骤150，若音频类型中包含用户话音，则根据用户话音的音量大小反向调节音箱音量；若音频类型中不包含用户话音，则根据背景音的音量大小正向调节音箱音量。

例如，若有用户话音，并且用户话音声音较小，则说明人与音箱距离较远或者环境噪声太大，此时应调高音箱音量；若用户话音声音较大，则说明人与音箱距离较近或者环境噪声较小，此时可以调低音箱音量；若没有用户话音，则说明只有环境噪声，若环境噪声声音较小，则可以调低音箱音量；若环境噪声声音较大，则需要提高音箱音量，为用户提供最佳的收听享受。

在该实施例中，通过识别音频类型和音量大小，然后若音频类型中包含用户话音，则根据用户话音的音量大小反向调节音箱音量；若音频类型中不包含用户话音，则根据背景音的音量大小正向调节音箱音量，能够自适应的调节音箱音量，极大提升用户收听体验。

在本公开的另一个实施例中，可以如图2所示，预先训练声音识别模型。

在步骤210，采集样本环境音。样本环境音中包含大量用户话音/背景音的音频文件。

在步骤220，提取样本环境音的mfcc特征值以便生成样本语谱图。例如，以滤波器个数为60，约160ms为单位生成语谱图。语谱图可以按时间顺序保存。

在步骤230，对样本语谱图对应的音频类型作标注，生成音频标注文件。

在步骤240，基于样本语谱图和音频标注文件训练声音识别模型。其中，声音识别模型例如识别话音/背景音的二分类器，具体可以为卷积神经网络模型，例如，将样本语谱图作为图片输入卷积神经网络模型，模型采用的损失函数可以是categorical_crossentropy(多分类的对数损失函数)，优化算法采用adam，模型结构如下：

第1层卷积，filter(滤波器)个数为24，卷积核大小为3x3，padding填充采用same方式，池化层采用maxpooling最大池化方式，大小为(4,2)，激活函数采用relu。

第2层卷积，filter个数为48，卷积核3x3，padding填充采用same方式，池化层采用maxpooling最大池化方式，大小采用(4,2)，激活函数采用relu。

第3层卷积，filter个数为48，卷积核3x3，padding填充采用valid方式，激活函数relu。

第4层全连接层，激活函数采用relu，dropout设置为0.5。

第5层全连接层，激活函数采用softmax，dropout设置为0.5。

通过该实施例中，可以训练好声音识别模型，从而可以在调节音箱音量时应用该声音识别模型识别出环境音中是否包含用户话音。

在一个实施例中，可以采集家庭中不同用户向音箱发指令的话音，将该话音作为用户个性化样本，输入至该声音识别模型，从而通过声音识别模型可以识别出不同的用户话音。

在本公开的另一个实施例中，可以如图3所示，预先训练音量识别模型。

在步骤310，采集样本环境音。其中，样本环境音中包含大量不同强度的音频文件。

在步骤320，提取样本环境音的mfcc特征值以便生成样本语谱图。

在步骤330，对样本语谱图对应的音量大小进行标注，生成音量标注文件。其中，可以将音量分为三类，例如，第一类音量、第二类音量和第三类音量，其中，第一类音量属于高音量，第二类音量属于中音量，第三类音量属于低音量。本领域的技术人员应当理解，此处将音量分为三类仅用于举例，还可以根据实际情况分为多类，例如，极高、高、中、低、极低等类音量。

在步骤340，基于样本语谱图和音量标注文件训练音量识别模型。其中，音量识别模型例如为识别声音大小的多分类器，例如，能够识别出声音属于高音量、中音量还是低音量，具体可以为卷积神经网络模型，该模型的结构可以与声音识别模型的结构一样。

在该实施例中，可以训练好音量识别模型，从而可以在调节音箱音量时应用该音量识别模型识别出环境音中用户话音或背景音的音量大小。

在一个实施例中，可以采集家庭中不同用户向音箱发指令的话音，将该话音作为用户个性化样本，输入至该音量识别模型，从而通过声音识别模型可以识别出不同的用户音量。通过该音量，可以识别出不同用户距离音箱的距离。

在一个实施例中，该声音识别模型或者音量识别模型可以为循环神经网络实现，循环神经网络包括普通的rnn(recurrentneuralnetwork，递归神经网络)、lstm(longshort-termmemory，长短期记忆)、gru(gatedrecurrentunit，选通重复单元)等。该循环神经网络模型的输入数据为mfcc特征和时序。

图4为本公开音箱音量自动调节的方法的另一个实施例的流程示意图。

在步骤410，在节目切换间隙采集环境音。利用节目切换间隙采集环境音，可以将播放音和环境音区分开，较好地解决如何采集环境音的问题。

在步骤420，提取环境音的mfcc特征值以便生成语谱图。

在步骤430，将语谱图输入至声音识别卷积神经网络模型识别环境因类型，将语谱图输入至音量识别卷积神经网络模型识别音量大小。其中，进一步可以识别出不同的用户话音，以及可以识别出不同用户话音的音量大小。

在步骤440，判断是否包含用户话音，若包含，则执行步骤450，否则，执行步骤460。

在步骤450，若用户话音的音量属于第三类音量，则调高音箱音量；若用户话音的音量属于第一类音量，则调低音箱音量；若用户话音的音量属于第二类音量，则保持音箱音量不变。即若用户话音的音量属于低音量，则说明用户离音箱距离较远，或者背景音声音太大，此时应调高音箱音量，提高用户收听效果。若用户话音的音量属于高音量，则说明用户离音箱距离较近，或者背景音声音太小，此时应调低音箱音量，以防对用户听力造成影响。若用户话音的音量属于中音量，则说明音箱音量正好符合用户，此时无需调整音箱音量大小。

在步骤460，若背景音的音量属于第三类音量，则调低音箱音量；若背景音的音量属于第一类音量，则调高音箱音量；若背景音的音量属于第二类音量，则保持音箱音量不变。即若背景音的音量属于低音量，则需要调低音箱音量，若背景音的音量属于高音量，则需要调高音箱音量，若背景音的音量大小属于中音量，则无需调整音箱音量大小。

在该实施例中，利用智能音箱节目切换间隙采集环境音，然后基于卷积神经网络判断音频类型以及音量大小，即判断出人与音箱距离远近或背景噪音的大小，进而智能调整音量，为用户提供最佳的收听享受。实现基于用户距离和环境噪声的智能音量调节，极大提升用户收听体验，随着智能音箱的普及，未来具有非常好的应用前景和价值。

在本公开的另一个实施例中，由于识别出不同的用户话音，以及不同用户话音的音量大小，因此，可以结合不同人的话音大小，来调节音量，达到更精准的效果。该实施例能够适合各种背景音和不同人的话音判断，具有更强的鲁棒性和更好的准确性。

在本公开的另一个实施例中，响应于用户在前次音箱音量自动调节后手工调整音箱音量；根据手工调整音量情况修正根据声音识别模型和音量识别模型自动调节的音箱音量。例如，在系统自动调整音箱音量后，用户又手工调整了音量，则本次将参照用户手工调整的情况来调节音量。

图5为本公开音箱音量自动调节的系统的一个实施例的结构示意图。该系统包括：声音采集模块510、声音特征提取模块520、声音识别模块530、音量识别模块540和音量调节模块550。

声音采集模块510用于采集环境音。例如，可以在切换播放节目的间隙，采集环境音。利用节目切换间隙采集环境音，可以将播放音和环境音区分开，较好地解决如何采集环境音的问题。

声音特征提取模块520用于提取环境音的mfcc特征值以便生成语谱图。

声音识别模块530用于将语谱图输入至声音识别模型识别音频类型，其中，音频类型至少包括背景音。音频类型还可以包括用户话音，通过声音识别模型可以区别背景音和用户话音，背景音例如为环境噪声。声音识别模型可以为神经网络模型，具体可以为卷积神经网络模型或循环神经网络模型。若声音识别模型为循环神经网络模型，则还应将该语谱图的时序输入至声音识别模型。

音量识别模块540用于将语谱图输入至音量识别模型识别音量大小。即识别出声音大小，若包含用户话音，则可以识别出用户话音的声音大小，若没有用户话音，则可以识别出背景音的声音大小。音量识别模型可以为神经网络模型，具体可以为卷积神经网络模型或循环神经网络模型。若音量识别模型为循环神经网络模型，则还应将该语谱图的时序输入至音量识别模型。

音量调节模块550用于若音频类型中包含用户话音，则根据用户话音的音量大小反向调节音箱音量，若音频类型中不包含用户话音，则根据背景音的音量大小正向调节音箱音量。

图6为本公开音箱音量自动调节的系统的另一个实施例的结构示意图。该系统包括声音采集模块610、声音特征提取模块620、音频标注模块630和声音识别模型训练模块640。

声音采集模块610用于采集样本环境音。样本环境音中包含大量用户话音/环境噪声的音频文件。

声音特征提取模块620用于提取样本环境音的mfcc特征值以便生成样本语谱图。语谱图可以按时间顺序保存。

音频标注模块630用于对样本语谱图对应的音频类型作标注，生成音频标注文件。

声音识别模型训练模块640用于基于样本语谱图和音频标注文件训练声音识别模型。其中，声音识别模型例如识别话音/背景音的二分类器，具体可以为卷积神经网络模型。

通过该实施例中，可以训练好声音识别模型，从而可以在调节音箱音量时应用该声音识别模型识别出环境音中是否包含用户话音。

另外，该系统还包括音量标注模块650和音量识别模型训练模块660。

音量标注模块650用于对样本语谱图对应的音量大小进行标注，生成音量标注文件，其中，可以将音量按照由大到小分为第一类音量、第二类音量和第三类音量，其中，第一类音量即高音量，第二类音量即中音量，第三类音量即低音量。

音量识别模型训练模块660用于基于样本语谱图和音量标注文件训练音量识别模型。其中，音量识别模型例如为识别声音大小的分类器，具体可以为卷积神经网络模型，该模型的结构可以与声音识别模型的结构一样。

在该实施例中，可以训练好音量识别模型，从而可以在调节音箱音量时应用该音量识别模型识别出环境音中用户话音或背景音的音量大小。

图7为本公开音箱音量自动调节的系统的再一个实施例的结构示意图。该系统包括存储器710和处理器720，其中：

存储器710可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1-4所对应实施例中的指令。处理器720耦接至存储器710，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器720用于执行存储器中存储的指令。

在一个实施例中，还可以如图8所示，该系统800包括存储器810和处理器820。处理器820通过bus总线830耦合至存储器810。该系统800还可以通过存储接口840连接至外部存储装置850以便调用外部数据，还可以通过网络接口860连接至网络或者另外一台计算机系统(未标出)，此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，能够自适应的调节音箱音量，极大提升用户收听体验。

在另一个实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现图1-4所对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵钧;闻剑峰;王昆
技术所有人：中国电信股份有限公司
我是此专利的发明人

上一篇：一种利用爆轰驱动技术的冲压发动机直连式试验装置的制作方法
下一篇：一种料斗偏转辅助加力器的制作方法

该领域下的技术专家

1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究

2、王老师：1.机器人 2.嵌入式控制系统开发

3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计

4、毕老师：机构动力学与控制

5、袁老师：1.计算机视觉 2.无线网络及物联网

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！