一种基于隐蔽声音信号的智能手机实时通信方法与流程

文档序号:11843816阅读:418来源:国知局
本发明属于声学通信
技术领域
,具体涉及一种基于隐蔽声音信号的智能手机实时通信方法。
背景技术
:随着智能设备的流行,人们已经广泛使用这些设备获取并传播信息。同时,电子广告板、笔记本电脑等配备屏幕和扬声器的设备,已经成为方便快捷的信息来源。宽带服务公司Sandvine半年期的全球互联网现象报告中指出:在北美地区,视频和音频数据流占据了高峰时段超过70%的宽带网络流量。在这种趋势下,人们希望在用户观看(收听)视频(音频)的同时,能够向用户持有的智能设备传递其他有用的信息。例如,球迷在观看NBA直播比赛时,可以在智能设备上接收球员和球队的背景介绍和赛季表现统计数据。现有的技术通常直接显示附加信息;或者先将信息编码为可视化图像(如二维码)再显示在屏幕上,然后通过用户持有的智能设备对图像进行捕捉,并予以解码。前者将会影响用户的观看体验;对于后者,智能设备上相机的抖动、角度的偏移,用户与屏幕间的距离、障碍物、相对移动,都会影响信息获取,导致通信系统的灵活性大大降低。由于音频信号能够通过衍射和反射绕过障碍物传播,且向四面传播,因此,用音频信号作为附加信息的载体可以解决上述问题。本发明致力于利用人耳听觉的掩蔽效应和生活中高度易得的音频信号,研究和探索一种在扬声器和手机麦克风之间传递隐蔽信息的通信系统。人耳对音量的感知与声音信号的频率有关,其最敏感的频率范围为2~4KHz。频率偏高时,只有更高音量的声音才能被人耳察觉。同时,人的听力系统具有频域掩蔽和时域掩蔽效应。前者是指频率相近的两个信号中,音量更大的将掩蔽较小的一个。后者是指当两个信号几乎同时出现时,音量大的信号将阻碍人对音量较小信号的感知。因此,为了保障用户对原始音频信号的听觉体验,需要对其信号载体频率进行选择。音频信号的通信信道包含扬声器和麦克风,分别实现电信号到音频信号、音频信号到电信号的转换。大多数扬声器的响应频率范围为50~20000Hz,但不同的扬声器频率选择性衰落的性质不同,且在高频段性能会大幅下降。麦克风也有频率选择性衰落的性质,多数智能手机的麦克风对频率高于17KHz的声音信号无法做出响应。而人耳能够听到的声音频率范围为20~18000Hz,这一范围超过了麦克风所能响应的频率范围。因此,利用音频信号承载人耳无法感知的附加信息,需要对信号进行精细的设计。实际应用中,外界噪声干扰,音频信号的传播损耗、编码容量,附加信号的不可感知性与信息传递的鲁棒性之间的权衡等因素,都需要加以考量。技术实现要素:为了解决上述技术问题,本发明提供了一种基于隐蔽声音信号的智能手机实时通信的方法。本发明所采用的技术方案是:一种基于隐蔽声音信号的智能手机实时通信方法,其特征在于,包括以下步骤:步骤1:利用正交频分复用技术设计信号;步骤2:确定子载波调制方式;步骤3:分析原始音频信号,确定适合嵌入数据包的位置;步骤4:自适应地嵌入数据信号;步骤5:包头检测;步骤6:信道估计;步骤7:提取信号;步骤8:数据纠正。作为优选,步骤1的具体实现包括以下子步骤:步骤1.1:选择频率在8~14.3KHz之间的64个子载波用来承载数据信息,频率在14.4~15KHz之间的7个子载波来承载控制信号;所有子载波宽度选取为100Hz;步骤1.2:根据原始音频的能量分布情况确定调制信号的方式;当原始音频大于8KHz的频谱能量密度小于3*10-2J/Hz时,利用ASK的特殊形式——通断键控(OOK)来调制信号,并在嵌入数据前删除原始音频超过8KHz的部分;否则,采用EDK来调制信号,并在嵌入数据前删除原始音频超过14.3KHz的部分;步骤1.3:将嵌入的数据流分为若干数据包,选择在持续时间的前一半内频率从fmin增大为fmax,后一半时间内减小为fmin的线性调频信号作为包头(fmin=17KHz,fmax=20KHz),并填充一段50ms的静默时间;再将数据信号分装入各数据包中,使用频率为14.5KHz的导频信号用于时间选择性估计、多普勒频移估计;在标志信号的尾部选取一段特定长度的信号作为循环前缀,用于抵抗码间干扰和载波间干扰。、作为优选,步骤2的具体实现过程是:对应信息包的音频信号,其低频段音频信号的ESD由计算得到,高频段音频信号的ESD由计算得到;其中,l为每个包里采样点数;f(KHz)代表信号频率;F(f)代表频率为f的信号的幅度;Δf(i,j)代表频率范围,即f∈[fi,fj];默认调制方法为ASK,当满足Eph>Ehigh,且时选择EDK为调制方法(Ehigh和Rhl表示两个衡量阈值,本发明设置Ehigh=3*10-2J/Hz,)。作为优选,步骤3的具体实现过程是:针对每一个符号相对应的音频片段,计算整个频段音频信号的能谱密度Est、音频信号的能谱密度Esl、高频段音频信号的能谱密度Esh,计算方法和信息包相同;定义阈值Emin,表示植入数据符号需要的最小音频能谱密度;当Est>Emin时才向音频片段中嵌入数据,否则不进行数据嵌入。作为优选,步骤4具体实现过程是:对于ASK方式调制的子载波,其嵌入信号的能量强度计算公式如下:Eam=64*β2EslEsl<Emax64*β2EmaxEsl≥Emax]]>对于EDK方式调制的子载波,其嵌入信号的强度计算公式如下:Een=64*β2EslBsiEsl<Emax64*β2EmaxBsiEsl≥Emax]]>其中,β表示嵌入强度系数,Bsi是EDK中的带宽调整值,Emax是衡量嵌入信号能谱密度最大值的阈值,Esl表示信号的能谱密度。作为优选,步骤5的具体实现包括以下子步骤:步骤5.1:利用包络检波来检测包头信号;步骤5.2:获取子载波调制方式。作为优选,步骤6的具体实现包括以下子步骤:步骤6.1:采用最小二乘估计方法,利用每个信息包中第一个符号对应的子载波上的导频,进行频率选择性估计;定义w(n)为环境噪声,h(n)为信道脉冲响应,N为每个标志内的样本数,x(n)为接收到的信号序列;在移除循环前缀之后,第一个符号中被接收端接收到的信号表达式为:y(n)=x(n)⊗h(n)+w(n),n=0,1,...,N-1;]]>通过傅里叶变换,将y(n)从时域转换到频域中,表达式为:Y(k)=X(k)*H(k)+W(k)k=0,1,…,N–1;则频道脉冲响应的估计值,计算公式为:He(k)=Yp(k)Xp(k)=Xp(k)Hp(k)+Wp(k)Xp(k)=Hp(k)+Wp(k)Xp(k);]]>其中,Xp(k)表示导频序列,Wp(k)表示导频处的环境噪声,Hp(k)表示导频处信道响应,表示估计误差;步骤6.2:采用最小二乘估计方法,利用每个符号中14.5KHz的子载波上的导频信号进行时间选择性估计和多普勒频移估计;因发送端导频信号的频率fs已知,通过检测接收端的信号中导频信号的频率fr就能计算多普勒频偏效应的决定因子:进而通过公式:计算得到所有子载波的频偏;这里v表示声音在空气中的传播速度,v0表示手机的移动速度,θ表示扬声器和手机移动方向之间的夹角。作为优选,步骤7具体实现过程是:一个长度和子载波带宽相同的“数据窗”,负责截取中心频率和第一个子载波频率相同的数据;根据对应的子载波调制方法,对信号进行解调;之后“数据窗”向前移动一个子载波带宽的长度,直到所有子载波中嵌入的数据都被提取出来。作为优选,步骤7中,由于嵌入信号的能量与对应符号的音频片段的平均能量有关,因此用于提取每个符号的阈值大小,要根据音频信号的平均能量进行调整。作为优选,步骤8的具体实现包括以下子步骤:步骤8.1:符号内错误校正;在一个符号内,利用RS码进行错误检测和纠正噪声引起的错误;在将数据编码为RS码之前,将原有信息的最后一个元素设置为其他所有元素的异或值,接收方对RS码解码后的数据进行同样的异或操作,用于验证数据的正确性;步骤8.2:符号间擦除校正;信息包中的符号用cell(i)表示,其中i∈[1,30],cell(i)(j)表示第j个子载波上的比特位,其中j∈[1,64];选取信息包中的最后m个符号作为奇偶校验符号,令对每一个j∈[1,60],令当s个相关的符号中仅一个符号发生多位错误时,这个错误的符号就通过其他s-1个符号进行恢复。相对于现有技术,本发明的有益效果是:通信距离和角度更宽广,对于非视线通信环境和设备移动鲁棒性更强。附图说明图1是本发明实施例的原理图。具体实施方式为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。本发明主要基于空间声学通信,考虑人耳和智能设备音频特性,提出了一种基于隐蔽声音信号的智能手机实时通信的实验方法及系统。本方法充分利用人耳听觉的掩蔽效应和生活中高度易得的音频信号,在确保不影响主信道上人耳音频听觉体验的同时,实现了实时的非显性的扬声器-麦克风数据隐蔽通信。本发明可作为现有的隐蔽的屏幕-照相机通信系统的补充,提高数据传送率和可信度。本发明提供的方法能够用计算机软件技术实现流程。参见图1,本发明提供的一种基于隐蔽声音信号的智能手机实时通信方法,包括以下步骤:步骤1,利用正交频分复用技术设计信号,具体实现过程是:步骤1.1,选择频率在8~14.3KHz之间的64个子载波用来承载数据信号,频率在14.4~15KHz之间的7个子载波来承载控制信号,所有子载波宽度选取为100Hz。步骤1.2,根据原始音频信号的能量分布情况,选择采用EDK或者ASK技术来调整每个子载波上的信号;将该数据流封装为数据包,每个数据包含有31个符号(包含数据位)和1个用于同步的包头信号,并在每个符号前嵌入循环前缀。实施例具体的实施过程说明如下:首先选择频率在8~14.3KHz之间的64个子载波用来承载数据信息,频率在14.4~15KHz之间的7个子载波来承载控制信号。其次,当原始音频大于8KHz的频谱能量密度小于3*10-2J/Hz时,利用ASK的特殊形式——通断键来调制信号,并在嵌入数据前删除原始音频超过8KHz的部分;否则,采用EDK来调制信号,并在嵌入数据前删除原始音频超过14.3KHz的部分;最后,本发明将嵌入的数据流分为若干数据包。选择在持续时间的前一半内频率从增大为,后一半时间内减小为的线性调频信号作为包头,并填充一段50ms的静默时间。导频用于OFDM信号发送端和接收端的同步。本例中选取,,整个导频信号持续时间为100ms。再将数据信号分装入各数据包中,使用频率为14.5KHz的导频信号用于时间选择性估计、多普勒频移估计。在本例中选取长度为100ms的数据标志持续时间。在标志信号的尾部选取一段特定长度的信号作为循环前缀,本例中持续时间为10ms,用于抵抗码间干扰和载波间干扰。步骤2,确定子载波调制方式,对与每一个数据包相对应的音频片段进行能量分析,为该数据包选择子载波调制方式(ASK或EDK);在数据包的包头中嵌入一个14.6KHz的控制信号,表示对应的子载波采用的调制方式。具体实现过程是:定义l为每个包里采样点数;f(KHz)代表信号频率;F(f)代表频率为f的信号的幅度;Δf(i,j)代表频率范围,即f∈[fi,fj]。则对应信息包的音频信号,其平均能谱密度(ESD)可以由计算得到。低频段音频信号的ESD可以由计算得到,高频段音频信号的ESD由计算得到。默认调制方法为ASK,当满足Eph>Ehigh,且时选择EDK为调制方法。本实施例中选择选择Ehigh=3*10-2J/Hz,并在每个导频中嵌入14.6KHz的信号来表明选择的调制方法。步骤3,分析原始音频信号,确定适合嵌入数据包的位置;对与数据包中每一个符号相对应的音频片段进行能量分析当满足预先设定的条件时,在后续步骤中向该片段自适应地嵌入数据,否则不进行数据嵌入。向每一个这样的音频片段中嵌入14.8KHz的控制信号,作为其是否嵌入数据的标记。具体实现过程是:针对每一个符号相对应的音频片段,计算整个频段音频信号的能谱密度Est、音频信号的能谱密度Esl、高频段音频信号的能谱密度Esh,计算方法与步骤2中的Ept、Epl、Eph相同。这里的计算针对的是与信息包中每一个标志相对应的音频片段。定义阈值Emin,表示植入数据符号需要的最小音频能谱密度。只有当Est>Emin时才向音频片段中嵌入数据,否则不进行数据嵌入。本例中选取Emin=6*10-3J/Hz。在14.8KHz处植入一个控制信号来标志此段音频有无嵌入信号。步骤4,自适应地嵌入数据信号;原始音频信号能量越高,嵌入信号的强度越大,反之越低。具体实现过程是:对于ASK方式调制的子载波,其嵌入信号的能量强度计算公式如下:Eam=64*β2EslEsl<Emax64*β2EmaxEsl≥Emax]]>对于EDK方式调制的子载波,其嵌入信号的强度计算公式如下:Een=64*β2EslBsiEsl<Emax64*β2EmaxBsiEsl≥Emax]]>其中,β表示嵌入强度系数,Bsi是EDK中的带宽调整值,Emax是衡量嵌入信号能谱密度最大值的阈值,Esl表示信号的能谱密度;在本实施例中,选取Bsi=20Hz。Emax是衡量嵌入信号能谱密度最大值的阈值,本例中取Emax=5*10-2J/Hz。当原始音频信号的能量增强时,由于嵌入信号已经具有足够的鲁棒性,因此其强度保持不变,否则将可能因为噪声过大而影响用户对原始音频信号的听觉体验。为了便于信道估计,发送端导频信号的能量必须是接收方已知的,因此本例中导频信号的能量大小取固定值。嵌入数据信号后,经过傅里叶逆变换,通过扬声器就可以送达至接收端。步骤5,包头检测,利用包头中频率在14.6KHz的控制信号来判定标志子载波的调整方法。具体实现过程是:步骤5.1:利用包络检波来检测包头信号。理论上,包络最大值对应的是包头的位置。但实际应用中,由于信号振铃时间和上升时间的存在,接收端的信号中,包头位置附近的包络大小非常接近。这将导致至多5个采样点的同步误差,造成难以预计的相位偏移。在本系统中,每个符号对应4410个采样点,因此不超过5个采样点的同步错误对子载波信号的幅度及能量分布几乎没有影响。步骤5.2:获取子载波调制方式。定位包头后,通过其中频率为14.6KHz的控制信号,接收端可以获知子载波的调制方式。步骤6,进行信道估计;采用梳状-块状混合导频,首先通过数据包中第一个符号对应的子载波上的导频,进行频率选择性估计(FSE);再利用每个符号中14.5KHz子载波上的导频进行时间选择性估计(TSE)和多普勒频移估计(DFOE)。具体实现过程是:步骤6.1:采用最小二乘估计(LSE)方法,利用每个信息包中第一个符号对应的子载波上的导频,进行频率选择性估计(FSE)。定义w(n)为环境噪声,h(n)为信道脉冲响应,N为每个标志内的样本数,x(n)为接收到的信号序列;在移除循环前缀之后,第一个符号中被接收端接收到的信号表达式为:通过傅里叶变换,将y(n)从时域转换到频域中,表达式为:Y(k)=X(k)*H(k)+W(k)k=0,1,…,N–1;则频道脉冲响应的估计值,计算公式为:He(k)=Yp(k)Xp(k)=Xp(k)Hp(k)+Wp(k)Xp(k)=Hp(k)+Wp(k)Xp(k);]]>其中,Xp(k)表示导频序列,Wp(k)表示导频处的环境噪声,Hp(k)表示导频处信道响应,表示估计误差;在本实施例中,由于只对频率超过8KHz的信号进行编码,外界噪声几乎没有影响,因此估计误差很小,符号的频率选择性衰退与之近似。步骤6.2:采用最小二乘估计(LSE)方法,利用每个符号中14.5KHz的子载波上的导频信号进行时间选择性估计(TSE)和多普勒频移估计(DFOE)。当接收端在移动时,由于多普勒效应的存在,一个符号内信道响应的幅度和相位都会发生改变。为了补偿估计误差,需要将接收端的移动考虑在内。由于发送端导频信号的频率fs已知(14.5KHz),通过检测接收端的信号中导频信号的频率fr就可以计算多普勒频偏效应的决定因子:进而通过公式:可以计算得到所有子载波的频偏。这里v表示声音在空气中的传播速度,v0表示手机的移动速度,θ表示扬声器和手机移动方向之间的夹角。消除多普勒频偏的影响后,所有的数据信号都可以被精确定位。步骤7,提取信号,具体实现过程是:在DFOE之后,每个子载波承载的数据被精准定位,因此利用频道估计便可还原出原始信号。本发明定义一个长度和子载波带宽相同的“数据窗”,负责截取中心频率和第一个子载波频率相同的数据。根据对应的子载波调制方法,对信号进行解调。之后“数据窗”向前移动一个子载波带宽的长度,直到所有子载波中嵌入的数据都被提取出来。由于嵌入信号的能量与对应符号的音频片段的平均能量有关,因此用于提取每个符号的阈值大小,要根据音频信号的平均能量进行调整。步骤8,数据纠正;在相同条件下反复测试数据包中的数据误差分布情况,大部分符号的错误不超过3比特,可能是由于外界环境中的噪音引起;少部分符号错误超过10比特,可能是由于多径效应引起,需要在符号中使用更多编码,保证数据的可靠性。设计正交错误纠正系统,分为符号内错误校正、符号间擦除校正两部分。前者使用RS码对符号内由于噪声引起的数据错误进行检测和校正;对于后者,符号内错误校正完成后,我们已经知道哪些符号是不可靠的,因此可利用数据包内的最后m个符号作为奇偶校验标志来纠错。具体实现过程是:步骤8.1:符号内错误校正。在一个符号内,重点处理噪声引起的错误。在本例中,选择RS码进行错误检测和纠正。在包含15个元素的有限域中,能够纠正至多个错误元素,并检测出至多n-k个错误元素的任意组合。为了提高错误检测能力,在将数据编码为RS码之前,将原有信息的最后一个元素设置为其他所有元素的异或值。接收方对RS码解码后的数据进行同样的异或操作,用于验证数据的正确性。步骤8.2:符号间擦除校正。这一步的目的是纠正少数符号中的大量错误,这些错误无法通过RS码进行纠正。信息包中的符号用cell(i)表示,其中i∈[1,30],cell(i)(j)表示第j个子载波上的比特位,其中j∈[1,64]。由于符号内错误校正完成后,本发明已知哪些符号是不可靠的,因此可以利用信息包中其他可靠的符号来重新获取这些符号中的信息。在本例中,选取信息包中的最后m个符号作为奇偶校验符号。令对每一个j∈[1,64],令当s个相关的符号中仅一个符号发生多位错误时,这个错误的符号就可以通过其他s-1个符号进行恢复。应当理解的是,本说明书未详细阐述的部分均属于现有技术。应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1