音频信号处理系统和音频信号处理方法与流程

文档序号:11097874阅读:645来源:国知局
音频信号处理系统和音频信号处理方法与制造工艺

本发明涉及信号处理技术领域,尤其涉及一种音频信号处理系统和音频信号处理方法。



背景技术:

语音交互,已经遍及我们生活的各个领域,如手机、电视、车载、空调等等领域。能够进行正常语音交互的前提是准确识别语音信号。以手机终端为例,由于环境噪声的存在,手机终端的麦克风在采集用户的有效声源信号的同时,也会采集到环境噪声信号,这些环境噪声信号会对有效声源信号的准确识别造成干扰,因此,需要对麦克风采集到的语音信号进行降噪处理,降低噪声对声源信号的影响。

现有的一种较为常见的降噪处理方式是采用双麦克风进行降噪处理。双麦克风降噪主要思想是在终端上设置两个麦克风,理想情况下主麦克风采集的主麦克风信号为带环境噪声的语音信号,辅麦克风采集的辅麦克风信号仅包括环境噪声,且主、辅麦克风采集的环境噪声特性一致,两者相减则得到纯净的声源信号。

目前,在诸如手机终端等场景中,用户在使用手机终端时,声音源方位相对固定,从而双麦克风位置固定,即靠近用户说话的位置处设置主麦克风,远离用户说话的位置设置辅麦克风。但是,随着各种智能交互产品的不断问世,语音交互的场景发生了很大改变,声音源相对智能交互产品的方位不再固定不变,此时,固定设置某个麦克风作为主麦克风、另一麦克风作为辅麦克风已经不能灵活适应智能语音交互场景的需求,很可能导致声源信号的识别准确性大大降低。



技术实现要素:

有鉴于此,本发明实施例提供一种音频信号处理系统和音频信号处理方法,能够自适应语音交互场景,有助于提高语音识别结果的准确性。

本发明实施例提供一种音频信号处理系统,包括:

背向设置的第一麦克风阵列和第二麦克风阵列,连接组件,控制器,以及降噪组件;其中,

所述第一麦克风阵列和所述第二麦克风阵列的设置间距大于预设距离;

所述控制器上设置有主麦克接口和辅麦克接口;

所述降噪组件的输入端与所述控制器连接;

所述连接组件,用于使所述第一麦克风阵列和所述第二麦克风阵列与所述主麦克接口和所述辅麦克接口具有当前的输入连接关系;

所述控制器,用于对从所述主麦克接口接收到的第一音频信号与从所述辅麦克接口接收到的第二音频信号进行信号强度比较,根据比较结果通过所述连接组件保持或改变所述输入连接关系。

本发明实施例提供一种音频信号处理方法,包括:

接收从第一输入接口输入的第一音频信号,以及从第二输入接口输入的第二音频信号;

对所述第一音频信号和所述第二音频信号进行信号强度比较;

根据所述信号强度的比较结果,保持或切换所述第一音频信号和所述第二音频信号的输入接口;

对从所述第一输入接口输入的音频信号和从所述第二输入接口输入的音频信号进行降噪处理。

本发明实施例提供的音频信号处理系统和音频信号处理方法,该系统中包括背向间隔设置的第一麦克风阵列和第二麦克风阵列,连接组件,控制器,以及降噪组件,控制器上设置有主麦克接口和辅麦克接口。假设当前连接组件使得第一麦克风阵列和第二麦克风阵列与主麦克接口和辅麦克接口具有某种输入连接关系,在该输入连接关系下,控制器对从主麦克接口接收到的第一音频信号与从辅麦克接口接收到的第二音频信号进行信号强度比较,以根据比较结果控制连接组件保持或改变输入连接关系。也就是说,如果发现在该输入连接关系下,从主麦克接口输入的第一音频信号的信号强度小于从辅麦克输入的第二音频信号的信号强度,则说明与主麦克接口连接的麦克风阵列不应该再连接在主麦克接口,应该切换连接到辅麦克接口,从而切换两个麦克风阵列与主、辅麦克接口的连接关系,从而实现了根据音频信号强度自适应地切换主、辅麦克接口输入信号,以自适应当前的智能语音交互场景,也保证了良好的降噪效果,有助于提高语音识别结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的音频信号处理系统实施例一的结构示意图;

图2为本发明实施例提供的音频信号处理系统实施例二的结构示意图;

图3为本发明实施例提供的音频信号处理方法实施例一的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。

取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

图1为本发明实施例提供的音频信号处理系统实施例一的结构示意图,如图1所示,该系统包括:

背向设置的第一麦克风阵列1和第二麦克风阵列2,连接组件3,控制器4,以及降噪组件5。

其中,为了保证第一麦克风阵列1和第二麦克风阵列2分别采集的音频信号具有一定的区分度,第一麦克风阵列1和第二麦克风阵列2的设置间距需要大于预设距离,该预设距离可以根据实际应用环境而设定。

第一麦克风阵列1和第二麦克风阵2具有相同的阵列结构,可选地,可以采用现有技术中已经提供的任一阵列结构,比如可以为线性麦克风阵列。

另外,为了保证这两个麦克风阵列作为一个整体能够实现音频信号的全向采集即360度采集,同时,保证单个麦克风阵列具有一定的声音指向性,避免不相关环境噪声对其采集音频信号的过多干扰,可以设置令第一麦克风阵列1和第二麦克风阵列2分别覆盖180度的音频采集范围。

本实施例中提供的上述音频信号处理系统可以适用于多种智能交互产品中,本实施例中,以应用在智能移动机器人中为例。此时,第一麦克风阵列1和第二麦克风阵列2可以设置在机器人机身上、距离地面相同高度的位置,比如:第一麦克风阵列1和第二麦克风阵列2可以设置在机器人头部的前、后两侧。

当该机器人被启动语音交互功能后,第一麦克风阵列1和第二麦克风阵列2分别用于采集用户交互语音。

如图1所示,作为采集外部音频信号的音频采集器件的第一麦克风阵列1和第二麦克风阵列2通过一个连接组件3与控制器4连接。具体地,控制器4上设置有主麦克接口41和辅麦克接口42,连接组件3使得第一麦克风阵列1和第二麦克风阵列2与主麦克接口41和辅麦克接口42具有当前的输入连接关系。

其中,主麦克接口41和辅麦克接口42可以被视为是对这两个麦克风阵列分别采集的音频信号的信号属性的表征。具体来说,可以将从主麦克接口41输入的音频信号视为声音源信号,即含有有效语音成分更多的信号,将从辅麦克接口42输入的音频信号视为噪声信号。

其中,当前的输入连接关系可以是预先默认设置的某个连接关系,也可以是上一次语音交互时所采用的连接关系。举例来说,假设当前的输入连接关系是,连接组件3使得第一麦克风阵列1与主麦克接口41连接,第二麦克风阵列2与辅麦克接口42连接。那么此时,控制器4将从主麦克接口41接收到第一麦克风阵列1采集的音频信号,从辅麦克接口42接收到第二麦克风阵列2采集的音频信号。

在上述当前的输入连接关系下,此时如果用户触发了语音输入,则第一麦克风阵列1和第二麦克风阵列2分别采集到音频信号,并基于当前的输入连接关系,这两个麦克风阵列将各自采集到的音频信号输入控制器,此时,控制器4对从主麦克接口41接收到的第一音频信号与从辅麦克接口42接收到的第二音频信号进行信号强度比较,根据比较结果通过连接组件3保持或改变当前的该输入连接关系。

在上述举例中,此时的第一音频信号为第一麦克风阵列1采集到的音频信号,第二音频信号为第二麦克风阵列2采集到的音频信号,控制器4可以通过对这两个音频信号分别进行一定的信号处理,比如放大、滤波等处理,求取这两个音频信号的信号强度,进行比较。

如果比较结果显示第一音频信号的信号强度大于第二音频信号的信号强度,说明此时从主麦克接口41输入的第一音频信号确实为声音源信号,从辅麦克接口42输入的第二音频信号为噪声信号,当前无需改变第一麦克风阵列1与主麦克接口41的连接关系以及第二麦克风阵列2与辅麦克接口42的连接关系。

相反地,如果比较结果显示第一音频信号的信号强度小于第二音频信号的信号强度,说明此时从主麦克接口41输入的第一音频信号应该视为噪声信号,而从辅麦克接口42输入的第二音频信号应该为声音源信号,则需要改变第一麦克风阵列1与主麦克接口41的连接关系以及第二麦克风阵列2与辅麦克接口42的连接关系,改变为第一麦克风阵列1与辅麦克接口42连接,第二麦克风阵列2与主麦克接口41连接。

其中,该输入连接关系的改变可以是控制器4通过控制连接组件3来实现的,具体可选地,连接组件3可以实现为切换开关,从而,控制器4可以在确定其从主麦克接口41收到的第一音频信号的信号强度小于其从辅麦克接口42收到的第二音频信号的信号强度时,向切换开关发送切换控制信号,以控制切换开关改变当前的输入连接关系。

本实施例中,可选地,控制器4可以使用各种应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、微中控元件、微处理器或其他电子元件实现。

在执行完上述主、辅麦克接口的输入音频信号的切换控制后,可以基于双麦克降噪原理,采用降噪组件5对输入的两路音频信号进行降噪处理。

具体地,降噪组件5的输入端与控制器4连接,控制器4可以将其不断从主、辅麦克接口接收到的音频信号输入到降噪组件5的输入端。具体来说,降噪组件5一般具有主信号输入端和辅信号输入端,主信号输入端用于输入主麦克接口41接收到的音频信号,辅信号输入端用于输入辅麦克接口42接收到的音频信号,以主信号输入端和辅信号输入端输入的音频信号做相减运算,完成降噪处理。该降噪处理过程仅为简单示意性描述,实际的降噪处理过程可以参见现有技术的处理过程。

值得说明的是,在上述切换控制策略中,切换与否的依据是基于已经通过主、辅麦克接口输入的音频信号的信号强度,该已经输入的音频信号相对于一次语音交互过程中输入的全部音频信号而言,是非常短的,因此理想情况下,该部分音频信号可以认为只用于切换判定之用,对于后续的降噪、语音识别过程没有影响,即不会输入到后续组件中。

本实施例中,假设当前连接组件使得第一麦克风阵列和第二麦克风阵列与主麦克接口和辅麦克接口具有某种输入连接关系,在该输入连接关系下,控制器对从主麦克接口接收到的第一音频信号与从辅麦克接口接收到的第二音频信号进行信号强度比较,以根据比较结果控制连接组件保持或改变输入连接关系。也就是说,如果发现在该输入连接关系下,从主麦克接口输入的第一音频信号的信号强度小于从辅麦克输入的第二音频信号的信号强度,则说明与主麦克接口连接的麦克风阵列不应该再连接在主麦克接口,应该切换连接到辅麦克接口,从而切换两个麦克风阵列与主、辅麦克接口的连接关系,从而实现了根据音频信号强度自适应地切换主、辅麦克接口输入信号,以自适应当前的智能语音交互场景,也保证了良好的降噪效果,有助于提高语音识别结果的准确性。

图2为本发明实施例提供的音频信号处理系统实施例二的结构示意图,如图2所示,在图1所示实施例基础上,可选地,该系统还包括:

第一防尘防风装置6和第二防尘防风装置7。其中,第一麦克风阵列1安装在第一防尘防风装置6内,第二麦克风阵列2安装在第二防尘防风装置7内。

本实施例中,为了物理上尽量保证环境因素对语音识别结果的不利影响,在麦克风阵列的组装工艺上提供了第一防尘防风装置6和第二防尘防风装置7,以尽量降低环境因素对语音识别结果的不利影响。

其中,第一防尘防风装置6和第二防尘防风装置7中比如包括防风棉、防尘网等结构,以降低风声、粉尘对麦克风阵列的影响。

可选地,该系统还包括:语音识别组件8和交互组件9。

其中,语音识别组件8分别与降噪组件5的输出端和控制器4连接,用于对降噪后的音频信号进行语音识别,将语音识别结果输入给控制器4。

控制器4还用于根据语音识别结果控制交互组件9进行相应的交互反馈。

本发明实施例提供的音频信号处理系统一般适用于智能语音交互的产品中,为了实现智能语音交互功能,在通过降噪组件5对输入的音频信号进行了降噪处理后,降噪后的音频信号输入给语音识别组件,以完成用户输入语音的语音识别处理。同时,为了实现基于语音的智能交互,以机器人为例,需要基于语音识别结果向用户进行相应的反馈。本实施例中,以机器人为例,该交互组件9比如可以是语音播放器,控制器4可以基于语音识别结果通过语音播放器向用户反馈应答语音;再比如可以是显示屏,控制器4可以基于语音识别结果通过显示屏向用户反馈某种业务操作界面;再比如还可以是运动部件,控制器4可以基于语音识别结果通过控制运动部件使机器人执行相应的反馈动作,等等。

图3为本发明实施例提供的音频信号处理方法实施例一的流程图,本实施例提供的该音频信号处理方法可以由一音频信号处理系统来执行,该音频信号处理系统可以实现为硬件,或者实现为软件和硬件的组合,该音频信号处理系统可以集成设置比如移动机器人等语音交互设备中,比如可以是图1、图2所示的系统结构。如图3所示,该方法包括如下步骤:

步骤101、接收从第一输入接口输入的第一音频信号,以及从第二输入接口输入的第二音频信号。

本实施例中,上述第一输入接口对应于前述实施例中的主麦克接口,第二输入接口对应于辅麦克接口。

步骤102、对第一音频信号和第二音频信号进行信号强度比较。

步骤103、根据信号强度的比较结果,保持或切换第一音频信号和第二音频信号的输入接口。

步骤104、对从第一输入接口输入的音频信号和从第二输入接口输入的音频信号进行降噪处理。

具体地,对从第一输入接口输入的音频信号和从第二输入接口输入的音频信号进行降噪处理,包括:

若根据信号强度的比较结果,保持第一音频信号和第二音频信号的输入接口,则以第二音频信号为噪声信号,对作为声音源信号的第一音频信号进行降噪处理;

若根据信号强度的比较结果,切换第一音频信号和第二音频信号的输入接口,则以第一音频信号为噪声信号,对作为声音源信号的第二音频信号进行降噪处理。

本实施例提供的音频信号处理方法的具体适用场景和详细过程,可以参见前述实施例中的说明,在此不赘述。

以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元(诸如各种组件、装置等)可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以产品的形式体现出来,该计算机产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1