一种语音增强采集配件、方法、系统、设备及存储介质与流程

文档序号:20268224发布日期:2020-04-03 18:40阅读:149来源:国知局
一种语音增强采集配件、方法、系统、设备及存储介质与流程

本发明实施例涉及音频处理技术领域,尤其涉及一种语音增强采集配件、方法、系统、设备及存储介质。



背景技术:

随着全球化进程的发展,中国居民与外国友人的交流日益频繁,为解决交流语种不同带来的交流不便问题,语言翻译类设备应运而生。

一种是基于智能终端中的翻译软件,不需要携带额外的设备,但目前智能终端采集语音时,容易受到外界噪声的干扰,在嘈杂环境下语音信号质量不高,导致语音识别率下降,降低了翻译质量。

还有一种是独立硬件的翻译机设备,配备麦克风阵列克服噪音的影响,可以解决智能终端存在的缺点。但在实际使用翻译机设备采集语音时,距离语音源较远,致使采集到的语音信噪比很低,尤其是在街道、商城等环境嘈杂的地方,采集到的语音信噪比更低,这对设备的语音增强能力和后续的语音识别系统挑战比较大。并且在使用翻译机设备时,需要来回切换源语种与目标语种,在使用中极为不便。例如,用户a的语种是汉语,用户b的语种是英语,交谈时需要将汉语翻译为英语播放给用户b,或者将英语翻译为汉语播放给用户a。此外,翻译机设备价格较贵,且需要用户携带额外的设备。



技术实现要素:

本发明实施例提供了一种语音增强采集配件、方法、系统、设备及存储介质,可以改善语音信号质量,降低硬件复杂度,提升用户使用体验。

第一方面,本发明实施例提供了一种语音增强采集配件,该配件应用于智能终端,包括:麦克风阵列,多通道音频同步采集模块,计算机芯片和音频线;

其中,麦克风阵列包括至少一个麦克风,用于采集语音,并降噪;

多通道音频同步采集模块与麦克风阵列连接,用于同步多路语音;

计算机芯片与多通道音频同步采集模块连接,用于去除同步后的多路语音中的噪声,生成一路干净的语音信号;

音频线与计算机芯片连接,用于将语音信号传输至智能终端,并通过智能终端为语音增强采集配件供电。

第二方面,本发明实施例还提供了一种语音增强采集方法,该方法应用于本发明实施例任一所述的语音增强采集配件,包括:

通过麦克风阵列采集语音,并降噪;

通过多通道音频同步采集模块同步多路语音;

通过计算机芯片去除同步后的多路语音中的噪声,生成一路干净的语音信号;

通过音频线将语音信号传输至智能终端,并通过智能终端为语音增强采集配件供电。

第三方面,本发明实施例还提供了一种语音增强采集系统,该系统包括:智能终端和本发明实施例任一所述的语音增强采集配件。

第四方面,本发明实施例还提供了一种语音处理设备,该设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如本发明任意实施例的一种语音增强采集方法。

第五方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例的一种语音增强采集方法。

本发明通过语音增强采集配件,该配件包括:麦克风阵列,多通道音频同步采集模块,计算机芯片和音频线;其中,麦克风阵列包括至少一个麦克风,用于采集语音,并降噪;多通道音频同步采集模块与麦克风阵列连接,用于同步多路语音;计算机芯片与多通道音频同步采集模块连接,用于去除同步后的多路语音中的噪声,生成一路干净的语音信号;音频线与计算机芯片连接,用于将语音信号传输至智能终端,并通过智能终端为语音增强采集配件供电,解决了基于智能终端接收的语音信号质量低导致的语音识别率低的问题,实现了改善智能终端接收到的语音信号质量,提升语音识别率,同时降低翻译机设备的硬件复杂度,简便易携带,成本低,可以提升用户的使用体验的效果。

附图说明

图1是本发明实施例一提供的一种语音增强采集配件的结构示意图;

图2是本发明实施例一提供的一种语音增强采集配件拾取目标声源的示意图;

图3是本发明实施例一提供的波束成形算法的流程图;

图4是本发明实施例一提供的语音增强采集配件与智能终端的连接示意图;

图5是本发明实施例一提供的语音增强采集配件与智能终端配合使用的示意图;

图6是本发明实施例二提供的一种语音增强采集方法的流程图;

图7是本发明实施例三提供的语音增强采集系统的结构示意图;

图8是本发明实施例四提供的一种语音处理设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种语音增强采集配件的结构示意图,本实施例可适用于增强智能终端如手机、平板电脑等接收的语音信号质量的情况,该配件可以设置在智能终端上,如图1所示,该配件包括:麦克风阵列110,多通道音频同步采集模块120,计算机芯片130和音频线140。

其中,麦克风阵列110包括至少一个麦克风,用于采集语音,并降噪。图2是本发明实施例一提供的一种语音增强采集配件拾取目标声源的示意图,如图2所示,可以将多颗麦克风组成一个线阵列,即麦克风阵列。选取麦克风阵列增益最大的方向即麦克风阵列的端射方向作为目标拾音波束。用户使用时,可以把目标拾音波束对准目标声源如目标说话人,采集语音,可以抑制其他方向的噪声,达到提升信噪比的目的。其中,麦克风的数量可以根据实际需求灵活配置,理论上麦克风的数量越多,麦克风阵列的降噪能力越强。

在本发明实施例的一个实施方式中,可选的,麦克风,包括:模拟麦克风或者数字麦克风。麦克风可以是模拟麦克风如模拟微型机电系统(micro-electro-mechanicalsystem,mems)麦克风或者驻极体麦克风克风,也可以是数字mems麦克风。

如图1所示,多通道音频同步采集模块120与麦克风阵列110连接,用于同步多路语音。其中多通道音频同步采集模块120可以利用采样时钟如晶振等将麦克风阵列110采集的多路语音同步。

其中,在本发明实施例的一个实施方式中,可选的,当麦克风是模拟麦克风时,多通道音频同步采集模块120包括模拟数字转换器(analogtodigitalconverter,adc),用于将语音转换为数字信号。在对语音进行处理时,一般需要遵循集成电路内置音频总线(inter-icsound,i2s)标准,因此,对于模拟麦克风采集的语音,需通过adc进行转换,将语音转换为遵循i2s标准的数字信号。而对于数字麦克风采集的语音,因为数字麦克风本身已经将语音转换为数字信号,因此可以不用再通过adc进行转换。

如图1所示,计算机芯片与多通道音频同步采集模块连接,用于去除同步后的多路语音中的噪声,生成一路干净的语音信号;其中,在本发明实施例的一个实施方式中,可选的,计算机芯片,包括:语音增强计算单元;语音增强计算单元,用于对同步后的多路语音的时域信号进行分帧加窗后,计算短时傅里叶变换(short-timefouriertransform,stft)信号;将stft信号与波束成形滤波器系数相乘,得到增强信号的复数谱;计算复数谱的快速傅立叶逆变换(inversefastfouriertransform,ifft)信号;将ifft信号重叠加窗,合成一路干净的语音信号。

其中,计算机芯片可以采用通用的中央处理器(centralprocessingunit,cpu)芯片,例如微处理器(advancedriscmachines,arm)通用芯片系列或者数字信号处理技术(digitalsignalprocessing,dsp)芯片,在选取计算机芯片时,需要考虑芯片的计算能力以及存储空间,需要能够保证语音增强计算单元的波束成形算法计算的实时率和存储要求,也需要考虑系统的功耗问题,可以在能够满足计算以及存储要求的基础上选取功耗最小的芯片,可以使语音增强采集配件使用耗电量小,在借助智能终端的电能进行计算时,可以节省智能终端的电能。

其中,图3是本发明实施例一提供的波束成形算法的流程图,如图3所示,首先,对于同步后的多路语音做分帧加窗,此时的语音是带噪声的;之后,计算分帧加窗后语音的stft信号;然后,将stft信号与波束成形滤波器系数相乘,得到增强信号的复数谱;计算ifft信号;最后,将ifft信号重叠加窗,合成一路干净的语音信号。

在本发明实施例的一个实施方式中,可选的,波束成形滤波器系数,包括:预先设计的波束成形滤波器系数;或者,基于自适应算法动态计算得到的波束成形滤波器系数。其中,自适应算法可以是谱估计算法(minimumvariancedistortionlessresponse,mvdr)或者广义旁瓣相消(generalizedsidelobecancellation,gsc)等算法。

在本发明实施例的一个实施方式中,可选的,当麦克风是数字麦克风时,计算机芯片包括支持脉冲密度调制(pulsedensitymodulation,pdm)信号转换为脉冲编码调制(pulsecodemodulation,pcm)信号的计算机芯片。

其中,对于数字麦克风采集的语音,因为数字麦克风本身已经将语音转换为数字信号,因此可以不用再通过adc进行转换。但是,在对语音进行波束成形算法前,需要对语音进行采样转换,将数字麦克风采集的pdm信号格式的语音转换为pcm信号格式的语音,可以满足对语音进行后续操作的格式要求。因此,如果麦克风采用的数字麦克风,可以在选择计算机芯片时,选择支持pdm信号转换为pcm信号的芯片。

如图1所示,音频线140与计算机芯片130连接,用于将语音信号传输至智能终端,并通过智能终端为语音增强采集配件供电。其中,在本发明实施例的一个实施方式中,可选的,音频线,包括:3.5mm音频线或者通用串行总线(universalserialbus,usb)音频线;相应的,当音频线是3.5mm音频线时,计算机芯片与3.5mm音频线,通过数字模拟转换器(digitaltoanalogcircuit,dac)连接,dac用于将语音信号转换为模拟信号。

其中,音频线一方面可以用于通过智能终端给语音增强采集配件供电,另一方面可以将计算机芯片130处理得到的干净的语音信号传输至智能终端,可以降低语音增强采集配件的硬件复杂度。智能终端可以将语音信号,作为需要通过智能终端转换为其他语种语音信号的输入语音信号;或者,作为需要通过智能终端转换为文字的输入语音信号;或者,作为需要通过智能终端录制音视频的输入语音信号。

其中,图4是本发明实施例一提供的语音增强采集配件与智能终端的连接示意图,如图4所示,语音增强采集配件可以通过螺丝等机械方式固定在智能终端上,可以拆卸,便于用户根据喜好决定是否安装在智能终端上。语音增强采集配件的设置位置本发明不做具体限定,可以将语音增强采集配件设置在便于智能终端通过语音增强采集配件中的麦克风阵列的目标拾音波束采集语音的位置即可。

图5是本发明实施例一提供的语音增强采集配件与智能终端配合使用的示意图,如图5所示,语音增强采集配件通过音频线与智能终端连接,当智能终端中的语音接收类的应用程序,如翻译软件、音视频录像软件等启动语音接收时,智能终端的操作系统会自动将通过内置的麦克风采集语音转换为通过语音增强采集配件的麦克风阵列采集语音,可以使智能终端采集的语音由原本内置的麦克风采集的嘈杂的语音转变为由语音增强采集配件中麦克风阵列采集的增强语音即一路干净的语音信号。智能终端接收的语音质量可以得到极大的改善,从而可以提高用户体验,同时,语音增强采集配件体积小,易携带,极大的改善了翻译机设备的不易携带性。

示例的,在通过翻译软件实现中国居民与外国友人的交流时,只需要将各自智能终端如手机连接的语音增强采集配件中的麦克风阵列的拾音波束对准自身即可。语音增强采集配件采集语音的距离远比通过翻译机设备采集语音近,可以在一定程度上提高采集的语音的信噪比,在嘈杂环境下尤其明显。由于,只需将拾音波束对准自身即可,不需要像翻译机设备一样,来回切换源语种与目标语种。而由于语音增强采集配件与智能终端的配合使用,可以改善智能终端自身采集的语音质量。

本实施例的技术方案通过语音增强采集配件,该配件包括:麦克风阵列,多通道音频同步采集模块,计算机芯片和音频线;其中,麦克风阵列包括至少一个麦克风,用于采集语音,并降噪;多通道音频同步采集模块与麦克风阵列连接,用于同步多路语音;计算机芯片与多通道音频同步采集模块连接,用于去除同步后的多路语音中的噪声,生成一路干净的语音信号;音频线与计算机芯片连接,用于将语音信号传输至智能终端,并通过智能终端为语音增强采集配件供电,解决了基于智能终端接收的语音信号质量低导致的语音识别率低的问题,实现了改善智能终端接收到的语音信号质量,提升语音识别率,同时降低翻译机设备的硬件复杂度,简便易携带,成本低,可以提升用户的使用体验的效果。

实施例二

图6是本发明实施例二提供的一种语音增强采集方法的流程图,该方法可以由语音增强采集装置来执行,并可以集成于语音增强采集配件中,该方法应用于本发明任意实施例所提供的语音增强采集配件中,其中,该配件包括麦克风阵列,多通道音频同步采集模块,计算机芯片和音频线。

如图6所示,本发明实施例的方法具体包括:

s110、通过麦克风阵列采集语音,并降噪。

可选的,麦克风阵列包括至少一个麦克风;

其中,可选的,麦克风,包括:模拟麦克风或者数字麦克风。

s120、通过多通道音频同步采集模块同步多路语音。

可选的,当麦克风是模拟麦克风时,多通道音频同步采集模块包括adc,通过adc将语音转换为数字信号。

s130、通过计算机芯片去除同步后的多路语音中的噪声,生成一路干净的语音信号。

可选的,计算机芯片,包括:语音增强计算单元;

通过语音增强计算单元,对同步后的多路语音的时域信号进行分帧加窗后,计算stft信号;将stft信号与波束成形滤波器系数相乘,得到增强信号的复数谱;计算复数谱的ifft信号;将ifft信号重叠加窗,合成一路干净的语音信号。

可选的,波束成形滤波器系数,包括:预先设计的波束成形滤波器系数;或者,基于自适应算法动态计算得到的波束成形滤波器系数。

可选的,当麦克风是数字麦克风时,计算机芯片包括支持pdm信号转换为pcm信号的计算机芯片。

s140、通过音频线将语音信号传输至智能终端,并通过智能终端为语音增强采集配件供电。

可选的,音频线,包括:3.5mm音频线或者usb音频线;

相应的,当音频线是3.5mm音频线时,计算机芯片与3.5mm音频线,通过dac连接,通过dac将语音信号转换为模拟信号。

可选的,语音信号,作为需要通过智能终端转换为其他语种语音信号的输入语音信号;或者,作为需要通过智能终端转换为文字的输入语音信号;或者,作为需要通过智能终端录制音视频的输入语音信号。

本发明实施例所提供的语音增强采集方法可应用于本发明任意实施例所提供的语音增强采集配件,具备语音增强采集配件的有益效果。

实施例三

图7是本发明实施例三提供的语音增强采集系统的结构示意图,如图7所示,该系统包括:智能终端和语音增强采集配件。

其中,智能终端可以是具有语音接收功能的设备,如手机、平板电脑等;语音增强采集配件可以是本发明实施例提供的语音增强采集配件,可用于实现为智能终端采集信噪比更高的语音,并将语音处理为一路干净的语音信号,作为智能终端的接收的语音,可以作为需要通过智能终端转换为其他语种语音信号的输入语音信号;或者,作为需要通过智能终端转换为文字的输入语音信号;或者,作为需要通过智能终端录制音视频的输入语音信号等。

如图7所示,语音增强采集配件可以通过螺丝等机械方式固定在智能终端上,可以拆卸,便于用户根据喜好决定是否安装在智能终端上。语音增强采集配件的设置位置本发明不做具体限定,可以将语音增强采集配件设置在便于智能终端通过语音增强采集配件中的麦克风阵列的目标拾音波束采集语音的位置即可。语音增强采集配件通过音频线与智能终端连接,当智能终端中的语音接收类的应用程序,如翻译软件、音视频录像软件等启动语音接收时,智能终端的操作系统会自动将通过内置的麦克风采集语音转换为通过语音增强采集配件的麦克风阵列采集语音,可以使智能终端采集的语音由原本内置的麦克风采集的嘈杂的语音转变为由语音增强采集配件中麦克风阵列采集的增强语音即一路干净的语音信号。通过音频线,将一路干净的语音信号传输至智能终端,可以使智能终端基于该语音信号进行后续操作。可以改善智能终端接收的语音质量,提高用户体验。

实施例四

图8是本发明实施例四提供的一种语音处理设备的结构示意图,如图8所示,该设备包括:

一个或多个处理器410,图8中以一个处理器410为例;

存储器420;

所述设备还可以包括:输入装置430和输出装置440。

所述设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图8中以通过总线连接为例。

存储器420作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种语音增强采集方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例的一种语音增强采集方法,即:

通过麦克风阵列采集语音,并降噪;

通过多通道音频同步采集模块同步多路所述语音;

通过计算机芯片去除同步后的多路所述语音中的噪声,生成一路干净的语音信号;

通过音频线将所述语音信号传输至智能终端,并通过所述智能终端为语音增强采集配件供电。

存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的一种语音增强采集方法:

通过麦克风阵列采集语音,并降噪;

通过多通道音频同步采集模块同步多路所述语音;

通过计算机芯片去除同步后的多路所述语音中的噪声,生成一路干净的语音信号;

通过音频线将所述语音信号传输至智能终端,并通过所述智能终端为语音增强采集配件供电。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1