一种语音掩蔽方法和设备与流程

文档序号:11709009阅读:427来源:国知局
一种语音掩蔽方法和设备与流程

本申请涉及信息安全技术领域,尤其涉及一种语音掩蔽方法和设备。



背景技术:

语音是人们信息交流和传递的重要载体。在很多场合,例如,会议、交谈或语音通信过程中,当谈话或语音通信中的语音中包含个人隐私、商业机密甚至是国家机密时,一旦该语音被窃听,将会给个人、企业乃至国家造成恶劣的后果。因此,保护语音的私密性至关重要。

目前,主要通过噪声掩蔽法实现对语音私密性的保护,通过将被掩蔽语音与噪声的叠加,降低他人的听觉系统对被掩蔽语音的感知和辨别能力,达到保护被掩蔽语音信号的私密性的目的。

但是,由于人类听觉系统具有“鸡尾酒会效应”,即可以在嘈杂声中跟踪分辨某个声音。因此,在噪声掩蔽法中,噪声常常无法满足对被掩蔽语音的有效掩蔽的要求。



技术实现要素:

有鉴于此,本申请实施例提供一种语音掩蔽方法和设备,用以解决现有技术中无法满足对被掩蔽语音的有效掩蔽的要求的问题。

本申请实施例提供一种语音掩蔽方法,包括:

确定目标语音帧的基音参数;

根据所述基音参数,确定所述目标语音帧的掩蔽语音帧;

根据所述掩蔽语音帧,对所述目标语音帧进行掩蔽。

可选地,根据所述基音参数,确定所述目标语音帧的掩蔽语音帧,包括:

从语料库中查找基音参数与所述基音参数相同的语音帧,并将所述语音帧确定为所述掩蔽语音帧,其中,所述语料库中包含具有不同基音参数并且帧长为预设帧长的语音帧。

可选地,确定目标语音帧的基音参数,包括:

通过对所述目标语音帧进行基音检测,确定所述目标语音帧的基音参数。

可选地,通过以下方式确定所述目标语音帧,包括:

获取目标语音;

按照所述预设帧长对所述目标语音进行分帧处理,得到依时间顺序排列的目标语音帧。

可选地,根据所述掩蔽语音帧,对所述目标语音帧进行掩蔽,包括:

将所述目标语音帧和所述掩蔽语音帧进行线性叠加,得到掩蔽后语音帧。

可选地,所述基音参数包含基音周期或基音频率。

本申请实施例还提供一种语音掩蔽设备,包括:预处理单元、确定单元和掩蔽单元,其中:

预处理单元,用于确定目标语音帧的基音参数;

确定单元,用于根据所述基音参数,确定所述目标语音帧的掩蔽语音帧;

掩蔽单元,用于根据所述掩蔽语音帧,对所述目标语音帧进行掩蔽。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:

通过确定目标语音帧的基音参数,能够根据所述目标语音帧的基音参数,确定与所述目标语音帧具有相似性的掩蔽语音帧,进而根据所述掩蔽语音帧对所述目标语音帧进行掩蔽,从而实现对目标语音帧的有效掩蔽,达到较好的掩蔽效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例提供的一种语音掩蔽方法的流程示意图;

图2为本申请实施例提供的一种语音掩蔽方法的实现场景示意图;

图3为本申请实施例提供的一种语音掩蔽方法的实现流程示意图;

图4为本申请实施例提供的一种语音掩蔽设备的结构示意图。

具体实施方式

现有技术中,通过噪声掩蔽法,将被掩蔽语音与噪声的叠加,降低他人的听觉系统对被掩蔽语音的感知和辨别能力,从而实现保护被掩蔽语音信号的私密性的目的。

目前,除了可以通过噪声掩蔽法实现对语音私密性的保护之外,还可以采用时间反转语音掩蔽法来保护语音的私密性。具体地,对于被掩蔽语音信号,在时域上以一定帧长进行时间反转确定时间反转信号,进而利用该时间反转信号对该被掩蔽语音信号进行掩蔽,以实现降低被掩蔽语音的辨识度,达到保护被掩蔽语音信号的私密性的目的。

例如:对于被掩蔽语音信号,按照一定的帧长t进行分帧,对任一帧语音信号x(t),在时域上进行时间反转,得到其对应的时间反转信号y(t)=x(t-t),利用该帧语音信号x(t)对应的时间反转信号y(t)对该帧语音信号x(t)进行掩蔽。

在采用时间反转语音掩蔽法来对被掩蔽语音进行掩蔽时,需要选择较长的帧长来保证掩蔽效果,例如,当帧长大于120ms时,才能保证掩蔽效果。但是,选择较长的帧长会给掩蔽过程带来一定的延时,影响谈话或者语音通信的效果。

为了实现本申请的目的,本申请实施例提供的一种语音掩蔽方法和设备,所述方法包括:通过确定目标语音帧的基音参数,能够根据所述目标语音帧的基音参数,确定与所述目标语音帧具有相似性的掩蔽语音帧,进而根据所述掩蔽语音帧对所述目标语音帧进行掩蔽,从而实现对目标语音帧的有效掩蔽,达到较好的掩蔽效果。

下面结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

以下结合附图,详细说明本申请各实施例提供的技术方案。

实施例1

图1为本申请实施例提供的一种语音掩蔽方法的流程示意图。所述方法可以如下所示。

步骤101:确定目标语音帧的基音参数。

在步骤101中,对于需要进行掩蔽的目标语音帧,确定其基音参数。

可选地,按照预设帧长实时获取所述目标语音帧。

例如,对于实时交谈过程,对交谈过程中的语音进行计时,当语音时长达到所述预设帧长时,确定所述预设帧长的语音为目标语音帧。

对于实时获取得到的所述目标语音帧执行后续的处理过程。

可选地,还可以通过以下方式确定所述目标语音帧,包括:

获取目标语音;

按照所述预设帧长对所述目标语音进行分帧处理,得到依时间顺序排列的目标语音帧。

其中,所述目标语音可以是面对面交谈的语音,也可以是语音通信过程中传输的语音信号,这里不做具体限定。

将所述目标语音按照所述预设帧长进行分帧处理之后,得到多个所述目标语音帧,对任一所述目标语音帧执行后续的处理过程。

本申请实施例中,确定目标语音帧的基音参数,包括:

通过对所述目标语音帧进行基音检测,确定所述目标语音帧的基音参数。

在实际应用中,基音检测的方法有很多,例如,自相关函数法、平均幅度差函数法、小波系数法、短时平均幅度差函数法、倒谱法等。

在本申请实施例中,可以采用上述任一种基音检测方法对所述目标语音帧进行基音检测,从而确定所述目标语音帧的基音参数,这里不做具体限定。

本申请实施例中,所述基音参数包含基音频率或基音周期。

基音频率指的是发浊音时声带震动的频率,基音频率的倒数为基音周期,在语音分析和语音处理过程中,基音频率和基音周期是语音的重要特征参数。

本申请实施例中,优选地,所述预设帧长为20ms。

人类语音的基音频率范围一般为70-500hz,基音周期的变化范围一般为2-14ms。

在确定所述目标语音帧时,如果所述预设帧长小于人类语音的基音周期,对于得到的所述目标语音帧,将无法检测到其基音周期或基音频率。

因此,优选地,所述预设帧长为20ms。

当按照所述预设帧长20ms确定所述目标语音帧之后,对于得到的所述目标语音帧,能够较好的检测到其基音周期或基音频率。

同时,相对于现有技术中的时间反转语音掩蔽法中需要选择大于120ms的帧长才能保证掩蔽效果来说,本申请实施例记载的技术方案能够选择较短的帧长,降低了延时,不会影响谈话或者语音通信的实时效果。

图2为本申请实施例提供的一种语音掩蔽方法的实现场景示意图。

如图2所示,对于一段时长为60ms的目标语音x,按照所述预设帧长20ms对所述目标语音x进行分帧处理,得到依时间顺序排列的三个目标语音帧:0-20ms的目标语音帧x1,20-40ms的目标语音帧x2,40-60ms的目标语音帧x3。

当所述基音参数包含基音周期时,对0-20ms的所述目标语音帧x1进行基音检测,确定所述目标语音帧x1的基音周期为α;对20-40ms的所述目标语音帧x2进行基音检测,确定所述目标语音帧x2的基音周期为β,对40-60ms的所述目标语音帧x3进行基音检测,确定所述目标语音帧x3的基音周期为γ。

步骤102:根据所述基音参数,确定所述目标语音帧的掩蔽语音帧。

在步骤102中,对于任一所述目标语音帧,根据该目标语音帧的基音参数,确定该目标语音帧的掩蔽语音帧。

其中,根据所述基音参数,确定所述目标语音帧的掩蔽语音帧,包括:

从语料库中查找基音参数与所述基音参数相同的语音帧,并将所述语音帧确定为所述掩蔽语音帧,其中,所述语料库中包含具有不同基音参数并且帧长为预设帧长的语音帧。

需要说明的是,本申请实施例中,所述语料库是预先建立的,通过预先收集各种具有不同基音参数(例如,不同基音周期或不同基音频率)并且帧长为所述预设帧长的语音帧,并将所述具有不同基音参数并且帧长为所述预设帧长的语音帧存储在所述语料库中。

仍以上述图2为例,从所述语料库中查找基音周期为α的语音帧y1,并将所述语音帧y1确定为0-20ms的所述目标语音帧x1的掩蔽语音帧y1;从所述语料库中查找基音周期为β的语音帧y2,并将所述语音帧y2确定为20-40ms的所述目标语音帧x2的掩蔽语音帧y2;从所述语料库中查找基音周期为γ的语音帧y3,并将所述语音帧y3确定为40-60ms的所述目标语音帧x3的掩蔽语音帧y3。

步骤103:根据所述掩蔽语音帧,对所述目标语音帧进行掩蔽。

在步骤103中,当确定了所述掩蔽语音帧之后,通过所述掩蔽语音帧,实现对所述目标语音帧的掩蔽。

其中,根据所述掩蔽语音帧,对所述目标语音帧进行掩蔽,包括:

将所述目标语音帧和所述掩蔽语音帧进行线性叠加,得到掩蔽后语音帧。

例如,所述目标语音帧为x(t),所述掩蔽语音帧为y(t),将所述目标语音帧为x(t)和所述掩蔽语音帧为y(t)按照下述公式进行线性叠加,得到掩蔽后语音帧z(t)为:

z(t)=ax(t)+by(t)+c,

其中,a表示所述目标语音帧x(t)的权重,b表示所述掩蔽语音帧y(t)的权重,c为常数。

仍以上述图2为例,将所述目标语音帧x1和所述掩蔽语音帧y1进行线性叠加,得到0-20ms的掩蔽后语音帧z1;将所述目标语音帧x2和所述掩蔽语音帧y2进行线性叠加,得到20-40ms的掩蔽后语音帧z2;将所述目标语音帧x3和所述掩蔽语音帧y3进行线性叠加,得到40-60ms的掩蔽后语音帧z3。

人类能够在嘈杂声中追踪、辨识特定的声音,主要是由于人耳对频率有很强的辨别能力。语音具有短时平稳的特性,语音的频谱和基音频率(即基频)具有连续性,能够方便人类在嘈杂声中追踪、辨识特定的语音。

根据所述目标语音帧的基音参数(基音周期或基音频率),确定与所述目标语音帧的具有相同基音参数的掩蔽语音帧,由于所述掩蔽语音帧与所述目标语音帧具有相似性,利用与所述目标语音帧具有相似性的所述掩蔽语音帧对所述目标语音帧进行掩蔽,能够实现对所述目标语音帧的有效掩蔽,达到较好的掩蔽效果。

仍以上述图2为例,按照时间顺序,0-20ms的所述掩蔽后语音帧z1、20-40ms的所述掩蔽后语音帧z2、40-60ms所述掩蔽后语音帧z3构成掩蔽后语音z,通过对所述掩蔽后语音z进行听音测试发现,在所述掩蔽后语音z中已经无法辨识所述目标语音x的内容,因此,所述掩蔽后语音z实现了对所述目标语音x的有效掩蔽。

本申请实施例所记载的技术方案,通过确定目标语音帧的基音周期,能够根据所述目标语音帧的基音周期,确定与所述目标语音帧具有相似性的掩蔽语音帧,进而根据所述掩蔽语音帧对所述目标语音帧进行掩蔽,从而实现对目标语音帧的有效掩蔽,达到较好的掩蔽效果。

实施例2

图3为本申请实施例提供的一种语音掩蔽方法的实现流程示意图。

如图3所示,第一步,按照预设帧长对目标语音进行分帧处理,得到依时间顺序排列的目标语音帧;

第二步,对所述目标语音帧进行基音检测,确定所述目标语音帧的基音周期;

第三步,从语料库中查找基音周期与所述基音周期相同的语音帧,并将所述语音帧确定为所述目标语音帧的掩蔽语音帧;

第四步,将所述目标语音帧和所述掩蔽语音帧进行线性叠加,得到掩蔽后语音帧;

第五步,所述掩蔽后语音帧按照时间顺序构成掩蔽后语音。

所述掩蔽后语音,能够对所述目标语音进行有效掩蔽,实现保护所述目标语音私密性的目的。

需要说明的是,本申请实施例2适用于上述本申请实施例1中记载的技术方案,上述实施例1中的举例与阐释内容同样适用于本申请实施例2。

实施例3

图4为本申请实施例提供的一种语音掩蔽设备的结构示意图。设备400包括:预处理单元401、确定单元402和掩蔽单元403,其中:

预处理单元401,用于确定目标语音帧的基音参数;

确定单元402,用于根据所述基音参数,确定所述目标语音帧的掩蔽语音帧;

掩蔽单元403,用于根据所述掩蔽语音帧,对所述目标语音帧进行掩蔽。

可选地,所述确定单元402根据所述基音参数,确定所述目标语音帧的掩蔽语音帧,包括:

从语料库中查找基音参数与所述基音参数相同的语音帧,并将所述语音帧确定为所述掩蔽语音帧,其中,所述语料库中包含具有不同基音参数并且帧长为预设帧长的语音帧。

可选地,所述预处理单元401确定目标语音帧的基音参数,包括:

对所述目标语音帧进行基音检测,确定所述目标语音帧的基音参数。

可选地,所述设备400还包括:获取单元和分帧单元,其中:

获取单元,用于获取目标语音;

分帧单元,用于按照所述预设帧长对所述目标语音进行分帧处理,得到依时间顺序排列的目标语音帧。

可选地,所述掩蔽单元403根据所述掩蔽语音帧,对所述目标语音帧进行掩蔽,包括:

将所述目标语音帧和所述掩蔽语音帧进行线性叠加,得到掩蔽后语音帧。

可选地,所述基音参数包含基音周期或基音频率。

需要说明的是,本申请实施例3适用于上述本申请实施例1中记载的技术方案,上述实施例1中的举例与阐释内容同样适用于本申请实施例3。

根据所述语音掩蔽设备,预处理单元用于确定目标语音帧的基音参数;确定单元用于根据所述基音参数,确定所述目标语音帧的掩蔽语音帧;掩蔽单元用于根据所述掩蔽语音帧,对所述目标语音帧进行掩蔽,从而实现对目标语音帧的有效掩蔽,达到较好的掩蔽效果。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1