视觉信号的空间三维声音表达系统及方法与流程

文档序号:12870275阅读:567来源:国知局

本发明属于导盲装置及方法,具体涉及一种视觉信号的空间三维声音表达系统及方法。



背景技术:

盲人由于先天或后天的生理缺陷而丧失了视觉,因而丧失了获得知识和经验的最重要来源,对盲人日常生活造成了极大障碍,尤其是制约了盲人的出行活动。如何能够帮助盲人在日常出行中躲避道路中出现的障碍物,也成为了人们的研究重点。如cn101385677a记载的基于运动物体跟踪的导盲方法,本发明包括运动物体信息读入单元、运动物体检测单元和声音传输输出单元,其中运动物体信息读入单元负责拾取视野范围内的图像,并将图像信息传入运动物体检测单元,运动物体跟踪处理这些图像信息后检测出运动物体的运动方向和速度,最后由声音转换输出单元将带有运动物体运动信息的声音从耳机输出给盲人,本发明主要应用于辅助盲人获取周围环境中的运动物体信息并转变为特定声音,盲人通过这些带有运动物体信息的声音,判断自己所处的环境,如面前驶过的车辆、走路的行人等。但该专利申请由于是对整个视频图像进行处理,故存在传输速度慢和计算速度慢的问题。

因此,有必要开发一种新的视觉信号的空间三维声音表达系统及方法。



技术实现要素:

本发明的目的是提供一种视觉信号的空间三维声音表达系统及方法,能将视觉grb信号转换为带位置信息的三维立体声音,且处理速度快,传输数据量少。

本发明所述的视觉信号的空间三维声音表达系统,包括:

视频数据采集单元,用于采集彩色视觉图像信号;

信号处理单元,接收所述视频数据采集单元所采集的彩色视觉图像信号,并将彩色视觉图像信号分割成一个中心区域和k个周边区域;对中心区域图像进行处理输出带空间声场的拟音信号;对k个周边区域进行处理得到带空间声场的光流拟音信号;该信号处理单元与视频数据采集单元连接;

3d耳机输出单元,根据所述信号处理单元所输出的结果输出带位置信息的三维立体声音,该3d耳机输出单元与信号处理单元连接。

所述对中心区域图像的处理输出带空间声场的拟音信号,具体为;

将中心区域图像进行视觉主成分分析,形成主成分图像,并对主成分图像进行rgb-hsi色彩空间转换,得到hsi图像,并逐点进行以下处理:

将亮度i转换为听觉信号的音高参数f0;

将色调h转换为听觉信号的泛音参数f1...j;

将饱和度s转换为持续时间t;

将距离转换为脉冲信号强度a;

通过公式w=f(f0,f1...j,t,a)合成为一维波形信号w;

将中心区域中的各图像点的空间位置(hor,ver)和一维波形信号w为参数,分别计算hrtf传递生成带空间声场的拟音信号sl,其中:hor为横坐标,ver为纵坐标。

所述对k个周边区域进行处理得到带空间声场的光流拟音信号,具体为;

将k个周边区域分别计算光流密度d(i),i=1..k;

对k个周边区域的光流密度进行大小排序;

对1到k号周边区域的光流密度d(i)逐一进行处理:若d(i)>设定阈值,则将d(i)转换为听觉信号的音高fd0,并合成为一维波形信号wd;若d(i)<设定阈值,则不处理;

将周边区域的各图像点的空间位置(hor,ver)和一维波形信号wd为参数,分别计算hrtf传递生成带空间声场的光流拟音信号。

本发明所述的视觉信号的空间三维声音表达方法,包括以下步骤:

步骤1、采集彩色视觉图像信号;

步骤2、将彩色视觉图像信号分割为一个中心区域和k个周边区域;

步骤3、将中心区域图像进行视觉主成分分析,形成主成分图像,并对主成分图像进行rgb-hsi色彩空间转换,得到hsi图像,并逐点进行以下处理:

3a、将亮度i转换为听觉信号的音高参数f0;

3b、将色调h转换为听觉信号的泛音参数f1...j;

3c、将饱和度s转换为持续时间t;

3d、将距离转换为脉冲信号强度a;

3e、通过公式w=f(f0,f1...j,t,a)合成为一维波形信号w;

3f、将中心区域中的各图像点的空间位置(hor,ver)和一维波形信号w为参数,分别计算hrtf传递生成带空间声场的拟音信号sl;

步骤4、对周边区域进行如下处理:

4a、将k个周边区域分别计算光流密度d(i),i=1..k;

4b、对k个周边区域的光流密度进行大小排序;

4c、对1到k号周边区域的光流密度d(i)逐一进行处理:若d(i)>设定阈值,则将d(i)转换为听觉信号的音高fd0,并合成为一维波形信号wd;若d(i)<设定阈值,则不处理;

4d、将周边区域的各图像点的空间位置(hor,ver)和一维波形信号wd为参数,分别计算hrtf传递生成带空间声场的光流拟音信号,其中:hor为横坐标,ver为纵坐标;

步骤5、通过3d耳机对带空间声场的拟音信号sl、带空间声场的光流拟音信号分别按期信号源的空间位置关系,进行音源空间编码叠加,输出带位置信息的三维立体声音。

本发明的有益效果:

(1)能够将视觉grb信号转换为带位置信息的三维立体声音,为盲人提供运动物体的识别,改善了盲人对外界环境的感知,帮助盲人在日常出行中躲避道路中出现的障碍物;

(2)处理速度快;

(3)传输数据量少;

(4)减少了视觉信号的无效信息,提高了信号的有效性。

附图说明

图1为本发明的原理框图;

图中:1、视频数据采集单元,2、信号处理单元,3、3d耳机输出单元。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示的视觉信号的空间三维声音表达系统,包括视频数据采集单元1、信号处理单元2和3d耳机输出单元3。视频数据采集单元1用于采集彩色视觉图像信号。信号处理单元2接收所述视频数据采集单元1所采集的彩色视觉图像信号,并将彩色视觉图像信号分割成一个中心区域和k个周边区域;对中心区域图像进行处理输出带空间声场的拟音信号;对k个周边区域进行处理得到带空间声场的光流拟音信号;该信号处理单元2与视频数据采集单元1连接。3d耳机输出单元3根据所述信号处理单元2所输出的结果输出带位置信息的三维立体声音,该3d耳机输出单元3与信号处理单元2连接。

rgb色彩模式是工业界的一种颜色标准,是通过对红(r)、绿(g)、蓝(b)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,rgb即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。

hsi色彩空间是从人的视觉系统出发,用色调(hue)、色饱和度(saturation或chroma)和亮度(intensity或brightness)来描述色彩。色调h(hue):与光波的波长有关,它表示人的感官对不同颜色的感受,如:红色、绿色、蓝色等,它也可表示一定范围的颜色,如:暖色、冷色等。饱和度s(saturation):表示颜色的纯度,纯光谱色是完全饱和的,加入白光会稀释饱和度。饱和度越大,颜色看起来就会越鲜艳,反之亦然。亮度i(intensity):对应成像亮度和图像灰度,是颜色的明亮程度。

本发明中所述对中心区域图像的处理输出带空间声场的拟音信号,具体为;

将中心区域图像进行视觉主成分分析(pca),形成主成分图像,并对主成分图像进行rgb-hsi色彩空间转换,得到hsi图像(h为色调,s为饱和度,i为亮度),并逐点进行以下处理:

将亮度i转换为听觉信号的音高参数f0;

将色调h转换为听觉信号的泛音参数f1...j;

将饱和度s转换为持续时间t;

将距离转换为脉冲信号强度a;

通过公式w=f(f0,f1...j,t,a)合成为一维波形信号w;

将中心区域中的各图像点的空间位置(hor,ver)和一维波形信号w为参数,分别计算hrtf传递生成带空间声场的拟音信号sl,其中:hor为横坐标,ver为纵坐标。

主成分分析(pca)是一个非常有用的降维技巧。它可以在使用尽可能少维数的前提下,尽量多地保持训练数据的信息,在此意义上是一个最佳技巧。即使是一幅100×100像素的小灰度图像,也10000维,可以看成10000维空间中的一个点。一兆像素的图像具有百万维。由于图像具有很高的维数,在许多计算机视觉应用中,我们经常使用降维操作。pca产生的投影矩阵可以被视为将原始坐标变换到现有的坐标系,坐标系中的各个坐标按照重要性递减排列。

本发明中所述对k个周边区域进行处理得到带空间声场的光流拟音信号,具体为;

将k个周边区域分别计算光流密度d(i),i=1..k;

对k个周边区域的光流密度进行大小排序;

对1到k号周边区域的光流密度d(i)逐一进行处理:若d(i)>设定阈值,则将d(i)转换为听觉信号的音高fd0,并合成为一维波形信号wd;若d(i)<设定阈值,则不处理;

将周边区域的各图像点的空间位置(hor,ver)和一维波形信号wd为参数,分别计算hrtf传递生成带空间声场的光流拟音信号。

本发明所述的视觉信号的空间三维声音表达方法,包括以下步骤:

步骤1、采集彩色视觉图像信号。

步骤2、将彩色视觉图像信号分割为一个中心区域和k个周边区域。

步骤3、将中心区域图像进行视觉主成分分析,形成主成分图像,并对主成分图像进行rgb-hsi色彩空间转换,得到hsi图像,并逐点进行以下处理:

3a、将亮度i转换为听觉信号的音高参数f0。

3b、将色调h转换为听觉信号的泛音参数f1...j。

3c、将饱和度s转换为持续时间t。

3d、将距离转换为脉冲信号强度a。

3e、通过公式w=f(f0,f1...j,t,a)合成为一维波形信号w。

3f、将中心区域中的各图像点的空间位置(hor,ver)和一维波形信号w为参数,分别计算hrtf传递生成带空间声场的拟音信号sl,其中:hor为横坐标,ver为纵坐标。

步骤4、对周边区域进行如下处理:

4a、将k个周边区域分别计算光流密度d(i),i=1..k。

4b、对k个周边区域的光流密度进行大小排序。

4c、对1到k号周边区域的光流密度d(i)逐一进行处理:若d(i)>设定阈值,则将d(i)转换为听觉信号的音高fd0,并合成为一维波形信号wd;若d(i)<设定阈值,则不处理。

4d、将周边区域的各图像点的空间位置(hor,ver)和一维波形信号wd为参数,分别计算hrtf传递生成带空间声场的光流拟音信号。

步骤5、通过3d耳机对带空间声场的拟音信号sl、带空间声场的光流拟音信号分别按期信号源的空间位置关系,进行音源空间编码叠加,输出带位置信息的三维立体声音。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1