基于非线性交织映射的音频恢复方法及视频麦克风系统

文档序号:32606413发布日期:2022-12-20 17:23阅读:66来源:国知局
基于非线性交织映射的音频恢复方法及视频麦克风系统

1.本发明涉及信号处理领域,更进一步涉及一种基于二维三角函数的非线 交织映射系统的音频恢复方法及视频麦克风系统。


背景技术:

2.现阶段,音频的采集主要是通过麦克风进行的。但由于距离较远等因素 影响,能够采集的语音较为微弱,无法对语音信号进行完整的接收和识别, 因此需要采取合适的方法来对语音引起的极微弱的震动进行放大从而对语音 进行恢复采集。20世纪初期,电子管和无线电波的发明问世促使了语音声学 和电声学的有机结合,这在一定程度上放大了难以接收的微弱声音信号,电 学麦克风也随之而来。电学麦克风的原理是将声音的震动传到麦克风的振膜 上,推动内部的磁铁产生变化的电流,将变化的电流运送到声音处理电路进 行放大处理以完成对语音的放大和恢复。20世纪七八十年代,伴随着光纤传 感技术的深入研究和应用,光纤麦克风的发明应用标志着利用光纤对语音进 行远距离采集成为现实。soquet等研究了光纤麦克风利用光信号在受到震动 时会使得光强度、相位等参量发生变化的特性,利用对应的信号检测手段和 解调系统还原声音信号,由此完成动态声音信号到动态光信号的转换。 furstenau等提出了一种基于光纤外在fabry-perot(fp)微干涉仪,耦合到用 于调制fp腔长度的外部膜和作为光源的低相干超发光二极管的光纤麦克 风,其通过对飞机特征噪声谱的检测分析辨别起降飞机的型号,同时应用于 交通监控和车辆分类。konle等开发了一种基于fabry-perot干涉仪的耐高温 光纤麦克风,并成功应用于1400k高温下的燃烧室。rothberg等人提出的激 光麦克风采用激光束探测玻璃面或镜面的震动来采集语音,通过探测折返激 光束的相位变化可以跟踪到反射平面的距离变化,采用ldv探测反射激光 束的多普勒频移,可以跟踪反射平面的速度变化,以远距恢复高质量语音。 他们的工作使接收机的定位具有更大的灵活性,但仍然依赖于记录反射激 光。
3.此外,光学麦克风还包含利用普通光线的视频麦克风。视频麦克风延续 了光纤麦克风可以完成远距离或封闭音频信息采集的优点,同时它不需要将 激光束或图案投射到震动表面上,可以说它不依赖于主动光源。abe davis 团队首先提出了视频麦克风的概念,在一个复杂的可操纵金字塔的维度上提 取视频局部运动信号。这些局部信号被对齐并平均成一个单一的一维运动信 号,该信号捕捉物体随时间变化的整体运动,再对其进行过滤和去噪,以产 生恢复的声音。kim y j在复杂可操控金字塔麦克风的基础上提出基于补丁 的视觉麦克风框架通过从图像中以关键点为中心的子区域恢复声音来解决声 音恢复问题。但金字塔分解算法复杂度高,且对音频差异不敏感,导致音频 质量低下。
4.申请号为2022104924747的中国专利申请,给出了一种基于非线性动力 系统的音频恢复方法及视频麦克风系统。该发明可以通过房间外放置的高帧 率摄像机拍摄的房间内物体的无声视频内容对房间中的声音进行还原,克服 了现有音频恢复方法存在的应用限制过多,产品尺寸过大的技术问题。但其 在非线交织映射过程中采用对数函数作为辅助函数,恢复音频的尺度伸缩性 较差,细节分辨率低。


技术实现要素:

5.根据上述提出的现有技术存在的尺度伸缩性差、细节分辨率低的技术问 题,而提供一种基于非线性交织映射的音频恢复方法及视频麦克风系统。本 发明主要利用基于二维三角函数的非线交织映射系统进行音频回复,从全局 角度具有更好的尺度伸缩性,可以提高整体的细节分辨率,有助于提高声音 细节的恢复质量。
6.本发明采用的技术手段如下:
7.一种基于非线性交织映射的音频恢复方法,包括:
8.s1、获取待处理视频,对所述待处理视频进行预处理,生成连续的灰度 图像序列,所述待处理视频包括物体受周围声源影响而产生的振动图像;
9.s2、将所述灰度图像序列中的每幅图像与二维三角函数交织辅助函数进 行像素坐标和图像亮度的非线性交织映射,从而获得与当前图像对应的一组 二维0-1矩阵;
10.s3、对每个二维0-1矩阵分别进行降维处理后生成一维数据;
11.s4、对各所述一维数据进行滤波去燥后,得到恢复音频。
12.进一步地,将所述灰度图像序列中的每幅图像与二维三角函数交织辅助 函数进行像素坐标和图像亮度的非线性交织映射,从而获得与当前图像对应 的一组二维0-1矩阵,包括:
13.s201、基于以下二维三角函数交织辅助函数构建交织辅助函数矩阵:
14.f(x,y)=cosax+cos(bx)(0《a,b《1)
15.所述交织辅助函数矩阵为:
[0016][0017]
其中,m、n选取图像灰度最大值256,floor为向下取整。
[0018]
进一步地,将所述灰度图像序列中的每幅图像与二维三角函数交织辅助 函数进行像素坐标和图像亮度的非线性交织映射,从而获得与当前图像对应 的一组二维0-1矩阵,还包括:
[0019]
s202、选取大小为的矩阵迭代范围中从上到下从左到右顺序 下的w个点作为初值点,其中w《65536::
[0020][0021]
s203、对应每个初值点,进行n次交织迭代生成n个二维点,如下:
[0022][0023]
s204、构造大小为m
×
n的交织映射矩阵:
[0024][0025]
根据s203记录每帧目标图像由w个初始点进行n次迭代,生成交织映 射矩阵中的置1点坐标,将交织映射矩阵中对应该坐标元素置1,其他元素 置0,即:
[0026][0027]
由此得到的0-1二维交织映射矩阵i。
[0028]
进一步地,对每个二维0-1矩阵分别进行降维处理后生成一维数据,包 括:
[0029]
s301、将p帧视频图像利用非线性交织映射生成的p组二维混沌吸引子i 生成p个大小为q的行向量p≤目标视频图像帧数,且:
[0030][0031]
其中floor为向下取整,mod为取余数;
[0032]
s302、将p个行向量按顺序上下合并成大小为p
×
q的矩阵:
[0033][0034]
s303、求矩阵s的协方差矩阵covs;
[0035]
s304、求取所述协方差矩阵covs的全部特征值,并求出协方差矩阵的特 征向量;
[0036]
s305、将合适的特征值对应的特征向量与矩阵covs进行加权,生成p
ꢀ×
1大小的一维数据hi作为后续的语音输出:
[0037][0038]
进一步地,所述合适的特征值根据以下方式获取:
[0039]
将特征值进行从大到小排列,占比前三位的特征值对应的特征向量 (i=1,2,3)
与标准化后的分别,生成三个p
×
1大小的一维数据(i=1,2,3):
[0040][0041]
将三段hi转置并截取相同位置连续的n个数据k,其中
[0042]ki
=[ki(1),ki(2),

,ki(n)]
[0043]
求ki计算自相关(40《t《50):
[0044][0045]
归一化并计算积分:
[0046][0047]
取最大r值对应的特征值为合适的特征值。
[0048]
进一步地,对所述待处理视频进行预处理,生成连续的灰度图像序列, 包括:
[0049]
s101、依次获取所述待处理视频的每一帧图像;
[0050]
s102、由彩色rgb图像的三元色加权得到每一帧图像的灰度值gray:
[0051]
gray=0.299r+0.587g+0.114b
[0052]
s103、将灰度图像剪裁为256
×
256的目标灰度图像,所述目标灰度图 像的起始点为(u,v)为可行范围内随机获取。
[0053]
进一步地,对各所述一维数据进行滤波去燥,包括:
[0054]
将各所述一维数据依次通过巴特沃斯高通滤波器和iir巴斯特沃低通滤 波器。
[0055]
一种视频麦克风系统,包括音频恢复单元,所述音频恢复单元用于执行 上述任意一项所述的基于非线性交织映射的音频恢复方法。
[0056]
较现有技术相比,本发明具有以下优点:
[0057]
1、本发明主要利用基于二维三角函数的非线交织映射系统进行音频回 复,从全局角度具有更好的尺度伸缩性,可以提高整体的细节分辨率,有助 于提高声音细节的恢复质量。
[0058]
2、本发明相比于现有音频算法,其算法复杂度较低,提取差异更快速 便捷,音频质量更高。
[0059]
3、本发明能够对差异特征直接进行提取,不需要为了提取更明显的图 像差异而放大物体的震动幅度,不仅反映了图像二维平面平移的变动差异, 同时也提取到三维空间缩放的差异。
[0060]
4、本发明的视频麦克风相比于激光麦克风不依赖于主动照明,仅需要 一台高帧摄像机和房间内任何可以产生震动的物体即可实现功能。
附图说明
[0061]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下 面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在 不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0062]
图1为本发明基于非线性交织映射的音频恢复方法流程图。
[0063]
图2为实施例中非线性交织映射的音频恢复方法实现过程示意图。
[0064]
图3为实施例中非线性交织映射过程示意图。
[0065]
图4a为本发明方法提取差异示意图。
[0066]
图4b为对比方法提取差异示意图。
[0067]
图5为本发明方法恢复的音频与原音频对比示意图,其中上方为原音频 示意图,下方为通过本发明方法恢复的音频示意图。
[0068]
图6为本发明方法与对比方法处理时间对比示意图。
具体实施方式
[0069]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实 施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显 然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下 所获得的所有其他实施例,都应当属于本发明保护的范围。
[0070]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第 一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先 后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的 本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此 外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的 包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不 必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于 这些过程、方法、产品或设备固有的其它步骤或单元。
[0071]
如图1所示,本实施例提供了一种基于二维三角函数的非线性交织映射 系统的音频恢复方法,首先采集物体与周围声源共震的高帧率视频,将视频 的每帧图像按顺序带入构造的二维三角函数的非线性交织映射系统内迭代产 生代表图像特征的二维交织映射矩阵。使用pca技术将每帧图像产生的二维 交织映射矩阵降维转化为一维信息。将一维信息进行滤波去噪以恢复音频。
[0072]
具体步骤如下:
[0073]
1、采集高频率视频。包括在相对密闭的房间内,放置音响声源、任何 适于震动的物体和帧率高于物体震动频率的高帧率摄像机。当声源发声(如 播放音乐或说话)时,使用高帧率摄像机来对与音频发生共震的物体进行无 损地震动信息采集,获取物体震动高帧率视频,视频频率通常在 2khz-20khz的范围内。
[0074]
进一步地,对所述待处理视频进行预处理。将视频的每一帧存储为一幅 视频图片,为了使得坐标-灰度交织过程中灰度和坐标的迭代不越界,需要 保证二者相同取值范
围,因此将图像剪裁为256
×
256大小以匹配0-256的灰 度取值。将目标灰度图像的(u,v)点作为起始点剪裁大小为m
×
n(m=n=256) 的目标图像矩阵g:
[0075][0076]
其中,起始点(u,v)为可行范围内随机获取,即u+256和v+256为不超 过目标图像大小的任意值。gray为读取每一张视频图片坐标对应的灰度值 gray,图像灰度值gray由彩色图像rgb图像的三元色加权得到
[0077]
gray=0.299r+0.587g+0.114b。
[0078]
2、构造二维三角函数的非线性交织映射系统。包括将所述灰度图像序 列中的每幅图像与二维三角函数交织辅助函数进行像素坐标和图像亮度的非 线性交织映射,从而获得与当前图像对应的一组二维0-1矩阵。具体包括:
[0079]
2a)、构造二维交织辅助函数矩阵。
[0080]
由于二维三角函数具有更加明显的混沌特性,具有初值敏感性可以保留 并放大差异,因此选取二维三角函数函数f(x,y)为二非线性交织映射系统的 二维交织辅助函数:
[0081]
f(x,y)=cosax+cos(bx)(0《a,b《1)
[0082]
将该二维交织辅助函数重构造矩阵作为交织辅助函数矩阵:
[0083][0084]
其中,m、n选取图像灰度最大值256,floor为向下取整。
[0085]
2b)、迭代产生二维交织映射矩阵算法。具体地:
[0086]
选取矩阵迭代范围内从上到下从左到右顺序下的w个初值 点,其中w《65536:
[0087][0088]
对应每个初值点,进行n次交织迭代生成n个二维点,如下:
[0089][0090]
构造大小为m
×
n的交织映射矩阵:
[0091][0092]
根据上述步骤记录每帧目标图像(即设定的每帧目标图像)由w个初 始点进行n次
迭代,生成交织映射矩阵中的置1点坐标,将交织映射矩阵中 对应该坐标元素置1,其他元素置0,即:
[0093][0094]
由此得到的0-1二维交织映射矩阵i作为该目标图像代表该图像特征:
[0095][0096]
(其中i(x,y)=0或1) 。
[0097]
s3、对每个二维0-1矩阵分别进行降维处理后生成一维数据。具体包 括:
[0098]
3a)构造适于处理的矩阵
[0099]
将每一个大小为m
×
n的二维交织映射矩阵生成行向量 (其中q=m
×
n)
[0100][0101]
其中floor为向下取整,mod为取余数。
[0102]
将p个目标图像(所选高帧视频包含p帧)得到的p个行向量按 顺序上下合并成大小为p
×
q的矩阵s:
[0103][0104]
3b)pca技术处理矩阵
[0105]
矩阵s为(其中为行向量):
[0106][0107]
根据协方差公式得到协方差矩阵的第i,j项被定义如下形式:
[0108][0109]
其中e为求期望值,μi是第i个元素的期望值,即
[0110]
得到协方差矩阵为:
[0111]
covs=e[(s-e[s])(s-e[s])
t
]
[0112]
求生成的协方差矩阵covs的全部特征值λ1,λ2,

,λk,求出存在一个数λi及非零的列向量(维度与covs一致),使得
[0113][0114]
成立(λi为矩阵特征值),则为对应的特征向量。矩阵v为特征向量 组成的特征向量矩阵:
[0115][0116]
将特征值进行从大到小排列,占比前三位的特征值对应的特征向量 (i=1,2,3)与标准化后的分别,生成三个p
×
1大小的一维数据(i=1,2,3):
[0117][0118]
将三段hi转置并截取相同位置连续的n个数据k,其中
[0119]ki
=[ki(1),ki(2),

,ki(n)]
[0120]
求ki计算自相关(40《t《50):
[0121][0122]
归一化并计算积分:
[0123]
[0124]
取最大r值对应的特征值为合适的特征值,取最大r值对应的一维数 据h作为后续的语音输出。
[0125]
s4、对各所述一维数据进行滤波去燥后,得到恢复音频。
[0126]
4a)使用高通滤波器进行处理。通过阶数为3的高通滤波器
[0127]
4b)使用低通滤波器进行处理。设计并通过iir巴斯特沃低通滤波器。
[0128]
下面通过一个具体的应用实例,对本发明的方案和效果做进一步说明。
[0129]
本实施例选择在一个相对密闭房间,放置一枚可以产生震动的薯片袋, 在房间内使用音响设备播放英文儿歌《mary had a little lamb》。在距离薯片 袋0.5米到2米的距离放置一台高帧率摄像机间隔隔音玻璃对薯片袋的震动 进行采集。
[0130]
对所采集的无声视频进行声音的恢复。如图2-5所示,所采集的薯片袋 视频帧率为2200hz,分辨率为700x400像素,选取视频中的8000帧作为处理 视频。使用二维三角函数交织辅助函数:
[0131][0132]
生成交织辅助函数矩阵与获取的高帧率视频帧图像构造二维三角函数的 非线性交织映射系统。选取10000个点分别迭代10次得到代表其相位特征的 二维交织映射矩阵。在将其二维交织映射矩阵使用pca技术降维处理得到一 维数据。使用阶数为3高通滤波器进行初步音频处理,再使用通带波纹系数 rp=1,阻带波纹系数rs=20,阻带频率ft=1000,通带频fp=5000,抽样频率 fs=22000的低通滤波器处理还原音频。从图5和播放的恢复音频可以得到该 方法可以恢复一定的初始声源内容。
[0133]
综上所述,本发明的视频麦克风系统进行还原音频使用了二维三角 函数的非线性交织映射系统进行提取视频的相位差异,代码更加简易修 改性高,可以根据不同场景选择不同的交织辅助函数来构造二维三角函 数的非线性交织映射系统,应用更灵活。在实际应用中,不同于激光麦 克风需要主动将激光照射到物体上,而只需观察场景中已经存在的光即 可。与其他算法相比,也不需要更改视频物体运动——放大物体震动幅 度来提取相位差异。
[0134]
本发明还公开了一种视频麦克风系统,包括音频恢复单元,所述音频恢 复单元用于执行上述任意一项所述的基于非线性交织映射的音频恢复方法。
[0135]
对于本发明实施例的而言,由于其与上面实施例中的相对应,所以描述 的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再 详述。
[0136]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对 其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通 技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修 改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替 换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1