多媒体音量调节装置及多媒体音量调节方法与流程

文档序号：14874710发布日期：2018-07-07 05:03阅读：336来源：国知局

本发明涉及语音识别领域，尤其涉及一种车载语音识别系统中通过识别用户声纹信息来调节多媒体音量的方法。
背景技术：
：：语音识别被运用在各个领域中。然而，在语音识别过程中很容易受到环境噪音的影响，导致识别效率不高、识别不准确。尤其是涉及到车载语音识别系统，当用户在车内需要使用语音识别功能的同时，车内的多媒体装置可能正处于播放状态，为了提高语音识别的效率，在使用语音识别功能之前用户需要手动降低车内多媒体音量或直接关闭车内的多媒体播放装置。然而，在车里行驶过程中驾驶员手动调节多媒体音量会影响驾驶操作，从而影响行驶安全。若通过软件自动关闭多媒体播放装置，则影响用户多媒体体验，技术实现要素：本发明要解决的技术问题是如何在语音识别过程中根据用户的音量值自动调整多媒体音量，从而减小语音识别过程中多媒体声音对语音识别效果的影响，使得语音识别效率得到提高的同时，尽可能提高用户多媒体体验。为解决上述技术问题，本发明提供以下技术方案。一方面，本发明提供一种多媒体音量调节装置，包括用于采集用户声音信号的声音采集单元、用于存储用户录入的声纹信息和声纹信息对应的用户音量值的存储器、以及处理器。所述处理器被配置为执行存储于存储器中的多媒体音量调节程序以执行以下操作：通过所述声音采集单元采集环境中用户的声音信号；提取所述采集到的用户声音信号的声纹信息；判断采集到的用户声音信号的声纹信息是否与存储器中存储的一用户录入的声纹信息相匹配，若采集到的用户声音信号的声纹信息与存储器存储的一用户录入的声纹信息匹配，则由所述存储器中获取所述声纹信息对应的用户音量值；根据所述由存储器中获取的用户的音量值计算出调整后的多媒体音量值；以及将多媒体播放装置播放的多媒体音量值由当前的多媒体音量值调整为所述计算出的调整后的多媒体音量值。在一些实施例中，根据用户的音量值计算出调整后的多媒体音量值的具体方法为：调整后的多媒体音量值等于用户音量值减去一第一预设值。进一步地，所述处理器还执行以下操作：响应用户操作开启声纹录入模式；通过所述声音采集单元采集用户录入的声音信号；提取用户录入的声音信号中的声纹信息并计算声纹信息对应的用户音量值；以及将所述用户录入的声纹信息及用户音量值存储至所述存储器。进一步地，所述多媒体音量调节装置在调整多媒体音量值后，将多媒体音量值维持在调整后的多媒体音量值一预定时间段，若经过所述预定时间段后环境中未侦测到用户声音信号，则将多媒体音量值恢复至调整前的音量值。另一方面，本发明还提供一种多媒体音量调节方法，所述多媒体音量调节方法包括：采集环境中用户的声音信号；提取所述采集到的环境中用户声音信号的声纹信息；判断采集到的环境中用户声音信号的声纹信息是否与预先存储的一用户录入的声纹信息相匹配，若采集到的环境中用户声音信号的声纹信息与预先存储的一用户录入声纹信息匹配，则获取所述用户录入声纹信息对应的用户音量值；根据所述获取到的用户的音量值计算出调整后的多媒体音量值；以及将多媒体播放装置播放的多媒体音量值由当前的多媒体音量值调整为所述计算出的调整后的多媒体音量值。进一步地，所述多媒体音量调节方法还可以包括步骤：将多媒体音量值维持在调整后的多媒体音量值一第一预定时间段；到达所述第一预定时间段后，侦测环境中是否仍存在用户的声音信号；若环境中不存在用户的声音信号，将多媒体音量值恢复至调整前的音量值；若环境中仍存在用户的声音信号，判断当前环境中的声音信号与多媒体音量调整之前的用户是否相同；若当前环境中的声音信号与多媒体音量调整之前的用户相同，则继续维持调整后的多媒体音量值一第二预定时间段。本发明的有益效果在于：所述多媒体音量调节装置可以在语音识别过程中多媒体装置正在播放多媒体时，侦测环境中当前说话的用户并根据预先存储的此用户的音量值自动调节多媒体音量值，从而减小多媒体声音对语音识别产生的影响，提高语音识别率。进一步地，所述多媒体音量调节装置还可以存储不同用户对应的音量值，并根据不同用户的音量值对多媒体音量进行不同的调整，从而实现在保证不影响语音识别率的条件下差异化的配置多媒体环境音量。【附图说明】图1为本发明一实施方式中多媒体音量调节装置的应用环境示意图。图2为本发明一实施方式中多媒体音量调节系统的功能模块示意图。图3为本发明一实施方式中声音录入方法流程图。图4a-4b为本发明一实施方式中多媒体音量调节系统的方法流程图。附图标记：【具体实施方式】为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。除非另有定义，本文所实用的所有的技术和科学术语与属于本发明的
技术领域：
：的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(rom，readonlymemory)、随机存取存储器(ram，randomaccessmemory)、磁盘或光盘等。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。请参阅图1，为本发明一实施方式中多媒体音量调节装置的功能架构示意图。在本实施方式中，所述多媒体音量调节装置100应用于一终端装置200中，所述终端装置200至少包括多媒体播放装置201及语音识别系统202。若在终端装置200中的语音识别系统202开启时，所述多媒体播放装置201正在播放多媒体(例如音乐、广播等)，则所述多媒体音量调节装置100采集环境中用户的声音信息，侦测用户声音信息中的声纹信息并计算所述声纹信息对应的用户声音的音量大小，进而根据用户声音的音量大小自动调节多媒体播放装置201的音量，从而减小多媒体播放时对语音识别产生的影响，提高语音识别率。在本实施方式中，所述多媒体音量调节装置100可以是设置于所述多媒体播放装置201和语音识别系统202外部的独立装置，所述多媒体音量调节装置100通过有线或无线的方式与所述多媒体播放装置201和语音识别系统202进行通信并传输数据信号和控制指令等，例如通过蓝牙、wifi等方式进行通信。在本发明其他实施方式中，所述多媒体音量调节装置100也可以是内置于多媒体播放装置201中的集成芯片等，都在本发明的保护范围之内。本领域技术人员可以理解，所述终端装置200可以以各种形式来实施。例如，本发明中描述的终端装置200可以包括汽车等交通工具、手机、平板电脑、笔记本电脑、个人数字助理(personaldigitalassistant，pda)、便捷式媒体播放器(portablemediaplayer，pmp)、导航装置、可穿戴设备、智能手环、计步器等移动终端，还可以包括诸如数字tv、台式计算机等固定终端。在本实施方式中，以所述终端装置200是汽车为例进行说明。所述多媒体播放装置201为车载多媒体播放装置，所述语音识别系统202为车载语音识别系统。所述多媒体音量调节装置100可以内置于所述车载多媒体播放装置中，也可以设置于车载多媒体播放装置外部并通过有线或无线的通信方式与所述车载多媒体播放装置进行通信。可以理解的是，本发明中的终端装置200还包括用于实现其功能的各种元器件，由于不是本发明重点，在此并未示出。在本实施方式中，所述多媒体播放装置100可以包括输入单元10、声音采集单元20、存储器30以及处理器40。所述输入单元10用于接收用户输入的控制指令，并根据用户输入的控制指令产生相应的信号输入。例如，所述输入单元10可以接收用户输入的开启语音识别功能、开启多媒体播放装置的控制指令等。在本实施方式中，所述输入单元10可以是触控面板或其他输入设备，例如物理键盘、功能按键(例如开关按键等)、轨迹球、鼠标、操作杆等，但并不以此为限。用户可以通过所述输入单元10输入数字、字符、语音等各种形式的控制指令。所述声音采集单元20用于采集用户的声音信号。在本实施方式中，所述声音采集单元20为麦克风。所述麦克风可以接收用户的声音，并将用户的声音处理为音频数据。所述声音采集单元20采集到的用户声音信号可以用于进行语音识别等。所述存储器30用于存储软件程序以及各种数据。存储器30可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序，比如多媒体播放功能、多媒体音量调节功能、语音识别功能等。存储数据区可存储用户的识别信息、语音信息等各种数据。在本实施方式中，存储器30可以是只读存储器、高速随机存取存储器，还可以是非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等，但并不以此为限。所述处理器40用于运行或执行存储在存储器30中的软件程序和/或模块，以及调用存储在存储器30内的数据，执行所述多媒体音量调节装置100的各种功能和处理数据。在本实施方式中，所述处理器40可以是中央处理单器(centralprocessingunit,cpu)，集成芯片等，但并不以此为限。所述多媒体音量调节装置100中还运行有一多媒体音量调节系统300。如图2所示，为本发明一实施方式中多媒体音量调节系统300的功能模块示意图。在本实施例中，所述多媒体音量调节系统300可以被分割成一个或多个模块，所述一个或多个模块被存储于存储器30中，并由一个或多个处理器(本实施例中为所述处理器40)所执行，以完成本发明。在本实施方式中，所述多媒体音量调节系统300可以被分割成声音采集模块31、声纹信息提取模块32、用户音量计算模块33、存储控制模块34、侦测模块35、多媒体音量计算模块36、判断模块37、计算模块38以及多媒体音量调节模块39。所述声音采集模块31用于通过所述声音采集单元20采集声音信号。进一步地，在本实施方式中，所述多媒体音量调节装置100可以包括一声纹录入模式，所述输入单元10接收到用户输入的开启声纹录入模式的控制指令后，所述声音采集模块31响应开启声纹录入模式的控制指令后开始通过所述声音采集装置20采集用户录入的声音信号。如此，每当有新用户想使用所述多媒体音量调节装置100时，用户可以进入声纹录入模式进行声音的录入。其中，用户输入的控制指令可以是通过按下预设按键、输入预设字符、输入预设语音等。所述声纹信息提取模块32获取声音采集装置20采集到的用户录入的声音信号并提取声音信号中的声纹信息。一般来讲，由于每个人的声音都具有特定的声纹，每个人的声纹都不同，因此，在本发明一实施方式中，针对用户数量不止一个的情况，所述声纹信息提取模块32在提取用户的声纹信息后还识别出不同用户的声纹信息并对不同用户的声纹信息进行标识，每一用户的声纹信息对应唯一的标识符。例如，当声音采集装置20采集到第一用户的声音后，所述声纹信息提取模块32从第一用户的声音信号中提取用户的声纹信息，并设置该第一用户的声纹信息的标识符为id1。当声音采集装置20采集到第二用户的声音后，所述声纹信息提取模块32从第二用户的声音信号中提取用户的声纹信息，并设置该第二用户的声纹信息的标识符为id2。在本实施方式中，提取用户声纹信息的方法为现有技术，故在此不再赘述。所述用户音量计算模块33用于计算用户的声纹信息对应的用户声音的音量值v1。在本实施方式中，所述音量值的单位可以是分贝。在本发明各实施方式中，所述用户音量计算模块33可以利用现有技术中的音量计算方法来计算采集到的用户声音的音量值。由于音量计算方法为现有技术，故在此不再赘述。所述存储控制模块34用于将声纹信息提取模块32获取到的用户录入的声纹信息、用户声纹信息对应的标识符以及声纹信息对应的用户声音的音量值v1关联存储至所述存储器30中。例如，当所述多媒体音量调节装置100应用在汽车中时，所述的用户可以是车主、车主家人和朋友等多个不同的用户，不同的用户有不同声音及音量值，因而所述多媒体音量调节装置300在获取不同用户声音后对每个用户的声音设置唯一的标识符，进而可以根据不同的标识符来区分不同的用户并对每个用户声音的音量值进行关联存储。通过执行上述功能模块31-34，所述多媒体音量调整装置100可以实现预先录入并存储用户声纹信息的功能。当有新的用户需要对终端装置200进行语音控制时，所述多媒体音量调节装置100为每一新用户预先录入声纹信息，以在后续语音识别过程中根据预先存储的用户语音信号实现自动调节多媒体音量的功能。下面介绍所述多媒体音量调节装置100中用于实现根据用户声纹信息自动调节多媒体音量功能的各模块。所述侦测模块35用于侦测所述语音识别系统202是否进入语音识别模式，并在确定所述语音识别系统202进入语音识别模式后，侦测所述多媒体播放装置201是否正在播放多媒体。在本实施方式中，所述侦测模块35侦测多媒体是否正在播放的方法可以是侦测多媒体播放装置201中的播放开关是否开启，或侦测多媒体播放装置201中的播放器(例如喇叭)是否震动等。所述多媒体音量计算模块36用于在侦测模块35确定在语音识别模式下多媒体播放装置201正在播放多媒体时，获取多媒体声音信号并计算当前正在播放的多媒体音量值v2，并将当前播放的多媒体音量值v2存储至存储器30。在本实施方式中，所述多媒体音量计算模块36直接在多媒体播放装置201中获取设置参数，并在多媒体播放装置201的参数中获取多媒体音量值。本领域人员可以理解的是，在其他实施方式中，所述多媒体音量计算模块36还可以在获取多媒体声音信号后根据现有技术中计算音量值的方法计算多媒体声音的音量值，但并不以此为限。所述声音采集模块31还用于在所述侦测模块35确定所述语音识别系统202进入语音识别模式后，采集环境中的用户声音信号。所述判断模块37用于判断所述采集到的环境中声音信号的声纹信息是否与预先录入的用户声纹信息相匹配。所述计算模块38用于在判断模块37确定采集到的环境中用户声音信号的声纹信息与预先录入的一用户声纹信息相匹配时，获取与所述用户声纹信息对应的用户声音的音量值v1，再根据所述用户声音的音量值v1计算出调整后的多媒体音量值v3。。在本实施方式中，所述计算模块38确定采集到的环境中用户的声纹信息与用户录入的一声纹信息匹配时，获取所述声纹信息对应的标识符，并确定该标识符对应的用户声音的音量值v1，再根据所述用户声音的音量值v1计算出调整后的多媒体音量值v3。一般来讲，在多媒体播放的情况下进行语音识别时，多媒体播放声音相当于是背景噪音，如果要提高语音识别率，那么背景噪音要小于用户说话的声音，也就是说，调整后的多媒体音量值v3必须小于用户说话声音的音量值v1。在本实施方式中，调整后的多媒体音量值v3＝v1-v0，其中，v0为一预设值。在本实施方式中，调整后的多媒体音量值v3与用户说话声音的音量值v1的差值v0可以在出厂设置时由厂商固定设置，也可以由用户自定义设置。在本发明一较佳实施方式中，所述预设值v0的范围可以是8-10db。若当前环境中用户的声音信号与预先存储的用户声纹信息均不相同，则不进行多媒体音量调整。所述多媒体音量调整模块39用于将多媒体播放装置201播放的多媒体音量值由当前的多媒体音量值v2调整为所述计算模块38计算出的调整后的多媒体音量值v3。在本发明一实施方式中，所述计算模块38还可以将计算出的调整后的多媒体音量值v3与对应的用户标识符进行关联存储。在后续语音识别过程中，所述多媒体音量调节模块39在识别出当前环境中用户的声音后，直接由存储装置中获取与当前用户声音对应的调整后的多媒体音量值v3，直接进行多媒体音量调节。通过执行上述功能模块35-39，所述多媒体音量调节装置100可以在语音识别过程中多媒体装置正在播放多媒体时，侦测环境中当前说话的用户并根据预先存储的此用户的音量值自动调节多媒体音量值，从而减小多媒体声音对语音识别产生的影响，提高语音识别率。进一步地，所述多媒体音量调节装置100还可以存储不同用户对应的音量值，并根据不同用户的音量值对多媒体音量进行不同的调整，从而实现在保证不影响语音识别率的条件下差异化的配置多媒体环境音量。进一步地，为了提高语音识别的准确率，所述多媒体音量调节模块39在调整多媒体音量值后，将多媒体音量值维持在调整后的多媒体音量值v3一第一预定时间段，例如10秒钟。所述多媒体音量模块39在多媒体音量值维持在音量值v3到达所述第一预定时间段后，侦测用户的声音信号是否仍存在。若经过所述第一预定时间段后用户的声音仍存在，则继续维持调整后的多媒体音量值直至用户声音消失。进一步地，所述多媒体音量调节模块39还在到达所述第一预定时间段后，侦测此时环境音中用户的声音是否与多媒体音量调整之前环境中用户声音相同，若相同，则继续维持调整后的多媒体音量值v3一第二预定时间段，若用户不同，则重新侦测用户声纹信息并由存储器30中获取用户声纹信息对应的音量值，并重新计算调整后的多媒体音量值。更进一步地，在多媒体音量值维持在音量值v3到达所述预定时间段后未侦测到用户的声音信号，说明用户语音识别已经完成，所述多媒体音量调整模块39还将多媒体的音量值恢复至调整之前的音量值v2，如此用户可以继续按照语音识别之前的播放状态收听多媒体，不会因语音识别过程而影响到用户的收听体验。进一步地，本发明还提供一种声音录入方法，应用于上述多媒体音量调节装置100中。如图3所示，为本发明一实施方式中声音录入方法流程图。在本实施例中，根据不同的需要，图3所示的流程图中的步骤执行的顺序可以改变，某些步骤可以省略。步骤s301，多媒体音量调节装置100响应用户的输入操作开启声音录入模式。步骤s302，多媒体音量调节装置100通过声音采集单元20采集用户录入的声音信号。在本实施方式中，所述声音采集单元20为麦克风。步骤s303，多媒体音量调节装置100获取用户录入的声音信号并提取用户录入声音信号中的声纹信息。步骤s304，多媒体音量调节装置100识别出不同用户的声纹信息并对不同用户的声纹信息进行标识，每一用户的声纹信息对应唯一的标识符。步骤s305，多媒体音量调节装置100计算用户的声纹信息对应的用户声音的音量值v1。步骤s306，多媒体音量调节装置100装置将每一用户的声纹信息、声纹信息对应的标识符及声纹信息对应的音量值存储至存储器。进一步地，本发明还提供一种多媒体音量调节方法，应用于所述多媒体音量调节装置100中。如图4a-4b所示，为本发明一实施方式中多媒体音量调节方法流程图。在本实施例中，根据不同的需要，图4a-4b所示的流程图中的步骤执行的顺序可以改变，某些步骤可以省略。步骤s401，多媒体音量调节装置100侦测语音识别系统202是否进入语音识别模式。若是，则执行步骤s402，若否，则重复步骤s401。步骤s402，所述多媒体音量调节装置100侦测多媒体播放装置201是否正在播放多媒体。若是，则执行步骤s403，若否，则重复步骤s402。步骤s403，所述多媒体音量调节装置100获取多媒体声音信号并计算当前正在播放的多媒体音量值v2。步骤s404，所述多媒体音量调节装置100侦测当前环境中用户的声音信号并提取环境中用户声音信号的声纹信息，判断所述环境中用户声纹信息是否与预先录入的一用户声纹信息相匹配。若是，则执行步骤s405。若不存在，则流程结束。步骤s405，所述多媒体音量调节装置100获取与该环境中用户声音的声纹匹配的声纹信息对应的标识符，并获取与该标识符对应的用户声音的音量值v1，再根据所述用户声音的音量值v1计算出调整后的多媒体音量值v3。在本实施方式中，调整后的多媒体音量值v3＝v1-v0，其中，v0为一预设值。在本实施方式中，调整后的多媒体音量值v3与用户说话声音的音量值v1的差值v0可以在出厂设置时由厂商固定设置，也可以由用户自定义设置。在本发明一较佳实施方式中，所述预设值v0的范围可以是8-10db。步骤s406，所述多媒体音量调节装置100将多媒体播放装置201播放的多媒体音量值由当前的音量值v2调整为所述计算模块38计算出的调整后的多媒体音量值v3。进一步，如图4b所示，在本发明一些实施方式中，所述多媒体音量调节方法还可以包括步骤：步骤s407，将多媒体音量值维持在调整后的多媒体音量值v3一第一预定时间段。步骤s408，在多媒体音量值维持在调整后的多媒体音量值v3到达所述第一预定时间段后，判断是否环境中仍存在用户的声音信号。若否，则执行步骤s409，若是，则执行步骤s410。步骤s409，将多媒体的音量值恢复至调整之前的多媒体音量值v2。步骤s410，侦测当前环境中用户声音是否与音量调整之前环境音中用户声音相同，若相同，则执行步骤s411，若不同，则返回步骤s404。步骤s411，继续维持调整后的多媒体音量值v3一第二预定时间段。本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(rom，readonlymemory)、随机存取存储器(ram，randomaccessmemory)、磁盘或光盘等。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。上述具体实施方式说明但并不限制本发明，本领域的技术人员能在权利要求的范围内设计出多个可代替实例。所属领域的技术人员应该意识到，对在没有违反如所附权利要求书所定义的本发明的范围之内，可对具体实现方案做出适当的调整、修改等。因此，凡依据本发明的精神和原则，所做的任意修改和变化，均在所附权利要求书所定义的本发明的范围之内。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蔡志富;陶柳
技术所有人：湖南海翼电子商务股份有限公司
我是此专利的发明人