彩色声像导盲方法及彩色声像导盲仪的制作方法

文档序号：914682阅读：215来源：国知局

专利名称：彩色声像导盲方法及彩色声像导盲仪的制作方法
技术领域：
涉及ー种应用于导盲领域中的将图像信息转化为声音信息的方法和装置。
背景技术：
目前，本领域提出了两种方案为盲人提供周围物体信息，即导盲杖和视觉替代。导盲杖其设备主要依靠红外或超声反射来向盲人报警附近物体，盲人通过导盲杖发出的声音和触觉信息来判断障碍物远近。这种方案依靠仪器识别障碍物然后表达给盲人，由于传达信息有限，盲人几乎无法直接识别物体形状大小顔色等信息。视觉替代主要有触觉-视觉替代和音频-视觉替代两种。触觉-视觉替代通过电极阵列刺激指尖、舌头或皮肤等来间接传递视觉信息。由于感觉神经细胞的分辨率以及电极阵列面积的限制，该方法现在也只能达到识别盲文的作用。顔色差别是识别物体形状最主要因素，现阶段尚且没有能传递颜色的触觉-视觉替代系统。中国发明专利申请文件CN101390789公开了上述技术方案，该技术方案基于点刺激的触觉替代视觉系统，使用电极阵列刺激指尖或舌头产生触觉感受，并利用触点ニ维分布，传递有限但是十分重要的ニ维视觉信息。该方法主要存在如下缺点I.该方法由于电极阵列刺激，会对手指或舌头产生不适的感觉，影响健康2.由于舌头和指尖所容纳的阵列面积有限，以及感觉细胞的分辨率限制导致空间分辨率低。空间分辨率低导致该方法只能识别简单性状的物体，基本只能用于盲文识别。音频-视觉替代能够将图像像素信息转换为声音信息。目前，该种技术还停留在专利申请文件EP0410045A1和KR20110052824A所公开的技术方案的阶段。上述两个发明专利申请所公开的技术方案均需要通过对图像像素进行逐扫描的方法来递呈图像位置信息，这使得人脑难于适应声音-图像反变换机制，空间解析度低，时间分辨率低。因此尚没有成熟易用的产品占据市场。专利申请文件EP0410045A1是由Meijer提出的现在市面上唯一有产品的技术，其技术方案通过摄像头采集64x64的实时灰度图像，然后进行图像-声音转换，如图I所示。图像的灰度用声音响度表示，声音最大响度代表纯白色，响度为零代表纯黑色。图像的纵向定位用频率代表，高频代表位于图像上缘的像素，低频代表位于图像下缘的像素。图像横向定位通过快速时间扫描，第一个扫描时间块表达最左列像素条，最后ー个扫描时间块代表最右列像索条。最后听者需要空间想象能力按频率时间块扫描以及响度合成要表达的图像。该方法的核心原理是图像到声音的3重对应，即“灰度对应响度，像素y坐标对应频率，像素X坐标对应扫描时间”。基于这种非自然地图像到声音转换原理，不可避免会遇到以下缺点I.需要长期训练“像素y坐标对应频率，像素X坐标对应扫描时间”是一种人为的对应转换。听者非常难于适应“频率编码y方向，时间块扫描编码X方向”的逻辑。事实上经过长期训练，盲人用该设备对简单形状物体的识别率仍低于30%，所以尚未被广泛应用。
2.空间分辨率低a.听觉的频率分辨率限制了声像y方向的分辨率。b. X方向不能做很多切分，否则扫描时间太长，动态图片更新率太低。c.盲人很难同时分辨“频率编码的y方向和时间块扫描编码的X方向”，所以一般该方法声像分辨率只能做到64x64。3.时间分辨率低x方向需要时间块扫描，为保正64块切分以及编码声音信号不失真，横向扫描时间要求大于I秒钟，即最低扫描时间为I秒/中贞。4.由于方法原理限制，物体顔色是无法被识别的。5.该方法只能用于ニ维图像到声音转换，不能用于3D物体识别。 6.需要人脑非常困难的做声音图像反变换，因此该方法少有应用。专利申请文献KR20110052824A公开了ー种色彩发声设备，该设备将彩色图像分区块，计算每个区块的色彩參数(色彩，饱和度，亮度)，通过色彩与声音转换表格，将12种顔色6种饱和度12种亮度映射到钢琴不同的按键上。顺序扫描图像区块，可以产生不同的音乐。盲人借此判断前方障碍物。该方法存在如下缺点I.需要区块划分，导致空间分辨率低。一般只能做到10x10分辨率。2.需要区块逐点扫描，导致时间分辨率低。10x10区块，每块O. 5秒钟表达，每幅图需要5秒钟扫描时间。3.仅限于乐器表达，也就是说只能是钢琴键盘有限个键所能表达的范围。4.色彩分辨率极低只能区分12种颜色。顔色必须离散化到12中对应颜色。由于表格法以及钢琴键盘表达，该方法无法实现连续色彩表达。5.色彩饱和度分辨率极低只有有限几个音高可供表达。6.盲人很难适应这种非自然声音转换。7.该方法无法识别3D物体。

发明内容
本发明提供ー种彩色图像信息到声音信息的转换方法和装置，使得盲人无需经过特殊训练便可以获得很好的三维物体识别效果。本发明提供的技术方案为ー种彩色声像导盲方法，包括如下步骤A.采集实时彩色图像数据；B.根据实时彩色图像数据计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度，然后再转换为相应声素点声波主频、声波信噪比、以及响度，再结合彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号；C.将所述脉冲式双耳立体声声波信号通过无壳双耳耳机播放出来。ー种彩色声像导盲仪，包括摄像模块，用于采集实时彩色图像数据；主处理模块，用于接收摄像模块采集的实时彩色图像数据，通过实时彩色图像数据计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度，然后再转换为相应声素点声波主频、声波信噪比、以及响度，再结合彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号，并传递给无壳双耳耳机模块；
无壳双耳耳机模块，用于接收主处理模块产生的脉冲式双耳立体声声波信号，将其转换成声音并播出。本发明的有益效果是I.帮助识别物体顔色。2.帮助识别物体形状。3.帮助识别物体大小，声像分辨率可与图像分辨率相同。4.明暗有助于盲人昼夜节律的生理调节。5.可将夜视仪图像、红外紫外等图像转化为声音。
6.可将3D图像转化为立体声像。7.帮助识别被遮挡的物体。8.同时呈现全空间声像，而非扫描像素或阵列，再合成。9.全彩色变换，各种波长饱和度亮度颜色可连续变换，不影响色彩分辨率。

图I是现有技术的原理框图。图2是本发明提供的彩色声像导盲仪的原理框图。图3是标准彩色图像数据矩阵示意图。图4是RGB三色值与色彩主频、饱和度对应图。图5是本发明提供的图像声像转换模块原理框图。图6是本发明提供的声像处理模块原理框图。图7是连续声波脉冲化示意图。图8是本发明提供的图像到声音转换流程图。
具体实施例方式如图2所示，本发明提供的彩色声像导盲仪包括摄像模块I、主处理模块2、无壳双耳耳机模块3。摄像模块I :用于采集实时彩色图像，存储为标准彩色图像，并提供接ロ给主处理模块2进行后续处理。其具备的功能有a)可人工近远距离缩放，并自动对焦b)可多摄像头用于3D声像的彩色图像采集c)可开启微距模式用于读书等微距识别主处理模块2 :接收摄像模块I提供的实时彩色图像数据，将其转化为双耳立体彩色声像信号，并传递给无壳双耳耳机模块用于导盲。所述主处理模块2包括图像采集模块2. I、图像处理模块2. 2、图像声像转换模块2. 3、声像处理模块2. 4、以及声像输出模块2. 5图像采集模块2.I :获得摄像模块I所采集的实时彩色图像，将实时彩色图像转化成标准彩色图像数据矩阵(平面图像为2D矩阵，立体图像数据为3D矩阵)，如可采用RGBf^rmt，其中/代表横坐标分为/行像素，m代表纵坐标分为m列像素，η代表纵深坐标分为η列像素(2D图像η取值I)，X 3彩色图像数据矩阵的红绿蓝三个分量，t代表动态时间。图像采集模块2. I将上述标准彩色图像矩阵传递给图像处理模块2. 2。图3示出了标准彩色图像数据矩阵，其中实时摄像信号的图像更新率为10帧/秒，每帧更新传递过来X3个数据块分别存储空间像素点的红绿蓝数据。每个数据块是3维，代表横纵深。图像处理模块2.2 :接收图像采集模块2. I传递的标准彩色图像矩阵，并计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度。计算过程如下
"X] l pn bn 613]「钔 i 「0.49 0.31 0.20 I「H'
Y =J- hi hi 623 G = —0.17697 0.81240 0.01063 Gメ」[&3 &32 hs] [Sj U17by7 0.00 0.01 0.99 J B= x+y + z V - X + Y +zZ = x + v + z = 1-x-y根据上述两个公式使用已知的RGB三色值求得X，y, Y三个分量，其中分量Y代表亮度，再根据X和I分量的值从图4中查得对应的色彩主频与饱和度。图像处理模块2. 2构建彩色图像数据矩阵/r SZ^/77x/7x3x/,其中/代表横坐标分为/行像素，m代表纵坐标分为m列像素，η代表纵深坐标分为η列像素(2D图像η取值I)，X 3代表彩色图像数据矩阵的色彩光波主频、色彩饱和度以及亮度三个分量。t代表动态时间。最后图像处理模块2. 2将矩阵实时传递给图像声像转换模块2. 3图像声像转换模块2.3接收来自图像处理模块2. 2传递的彩色图像数据矩阵/77Χ/7Χ3ΧΛ然后通过图像声像映射关系转换为彩色声像数据矩阵
多^SZ*A/77X/7X；3X/。其中I代表横坐标分为/行像素，m代表纵坐标分为m列像素，η代表纵深坐标分为η列像素(2D图像η取值I)，X 3代表彩色图像数据矩阵的色彩声素点声波主频、声波信噪比以及响度三个分量。如附图5所示，图像声像转换模块2. 3包括三个子模块频率转换模块2. 3. I、饱和度信噪比转换模块2. 3. 2、亮度响度转换模块2. 3. 3。频率转换模块2. 3. I :建立像素点色彩主频率到声素声波主频率的映射正常人类视觉可见光范围(3. 8χ1014Ηζ,7. 6χ1014Ηζ)，正常人听觉范围(20Hz，20000Hz)。定义光波长WLl = 800nm映射到声频Fsl = 20Hz ;光波长WL2 = 300nm映射到声频Fs2 = 12500Hz ；光速c = 3 * 108m/s,则使用下列公式光频fl可被映射到声频fs 线性映射fs= Fsl+(Fs2-FslV(c/WL2_c/WLl) * (fl-c/WLl)；也可以映射到声音对数频率fs = 10~(loglO (Fsl) + (loglO(Fs2)-IoglO(Fsl))/(c/WL2-c/WLl) * (fl~c/WLl))。饱和度信噪比转换模块2. 3. 2 :建立像素饱和度到声素信噪比映射。所述色彩饱和度是某一色彩相对于纯正色彩的偏差，反映色彩的饱满程度，这与某一音色的饱满程度相仿，本领域可以通过填加噪声的方式来反映音色的饱满程度。光饱和度Saturation与对应声音信噪SNR比都能够表达为噪声与纯正弦波的比例，两者做等比映射。等比映射公式为
SNR = Saturation/(1-Saturation)。亮度响度转换模块2. 3. 3 :建立像素亮度到声素响度的映射，亮度和响度都是与波幅度有关，两者可做相关映射。考虑到人耳对响度等级感觉随频率变化，标准IS0226 2003(Normalequal-louaness-level contours-ISO 226 2003acoustics internationalorganization forstandardization(ISO)2nd edition.http://www. sengpielaudio. com/Acoustics226-2003.pdf (2003))可以用来求得响度等级在特定主频下对应的声音响度。具体可以采用如下过程进行亮度到响度的相关映射定义亮度Yl = O映射到响度等级phol=O ;亮度Y2 = 1441映射到响度等级pho2 = 90 ;则用下列公式,亮度Ic可被映射到响度等级P P = phol+(pho2_phol)/(Y2-Y1) * (Ic-Yl)；然后通过ISO 226 :2003可求出各声素点响度等级p在该声素点声波主频fs下的响度。声像处理模块2. 4:接收图像声像转换模块2. 3传递的彩色声像数据矩阵S/^iSZ^A/TTX/^Sx/，对空间每个声素点产生双耳脉冲色彩声波。如附图6所示，声像处理模块2. 4包括声素彩色连续声波合成模块2. 4. I、声素位置信息加载模块2. 4. 2、声波脉冲去耦模块2. 4. 3和双耳声波合成模块2. 4. 4。声素彩色连续声波合成模块2. 4. I :通过声素彩色声像数据矩阵
所提供的每个声素点声波主频、信噪比、响度，按照如下公式对每个声素点产生相应的人造连续彩色声波Wave(t) = A*sin(2π*fs*t)+sqrt(1/SNR)*A*Noise(t)其中，Wave (t)为声波随时间变换波函数，t为时间參数，A为声波振幅，fs为声音频率，SNR为信噪比Noise (t)为单位噪声函数。声素位置信息加载模块2. 4. 2 :根据彩色像素空间位置信息以及KEMAR头模型參数(Gardner, B. Martin, K. HRTF measurements of a KEMAR dummy-nead m icrophone.http://sound, media, mit. edu/resources/KEMAR. html (2000))或者雪人模型，查找出或计算出对应的卷积函数，进行如下式的卷积运算便可求出对应彩色声素在左右耳产生的人造连续彩色声波。即人耳听该声波可辨别声素位置。et (r, t) = h, (F, t) <S> wave(r, t)ら( ，0= /^(り)0而财( ,0其中为声素点相对摄像头空间位置，f为时间參数，wave (r, t)为上述生成的声素位置对应的连续彩色声波，Mr, t), hr(r, t)为左右耳头相关传递函数，ex(r, t), er (r, t)为加载声素位置信息后的左右耳声波函数。声波脉冲去稱模块2. 4. 3 :由于相同色彩声素产生声波主频相同,所产生的声波干涉效应使人们无法分辨两声素点。声波脉冲去耦模块2. 4. 3通过切断连续彩色声波、カロ随机间隔的方式使声波脉冲化，从而相同色彩声素点对应声波去耦合化，人们可辨识相同色彩声素点。如图7所示，开始A和B两点重合，在A和B两点之间加入随机间隔脉冲化后，连续声波变成离散化的波包。双耳声波合成模块2. 4. 4 :对应每个声素点产生的双耳彩色脉冲化声波信号进行相加求和，便得到可用于导盲的立体声双耳彩色脉冲化声波信号，并将其传递给声像输出模块2. 5。该立体声双耳彩色脉冲化声波信号可以使得盲人辨识物体的位置。声像输出模块2. 5 :将声像处理模块2. 4所产生的立体声双耳彩色脉冲化声波信号转变成エ业标准格式存储并提供接ロ给无壳双耳耳机硬件模块用于播放。无壳双耳耳机模块3 :接收主处理模块2产生的エ业标准格式的立体声双耳彩色脉冲化声波信号，并将其转换成声音通过无壳双耳耳机播出。由于声波通过耳机外壳会产生反射衍射等影响，这种影响直接削弱头相关传递函数所加载的声素位置信息。而无壳双耳耳机模块不具有外売，能够消除声波反射和衍射，从而保持脉冲式双耳立体声声波信号携帯的所述位置信息，有助于盲人对声素位置的识别。在实施时，盲人所佩戴墨镜上设置的摄像头，或手机摄像头，或盲人所处房间中的摄像头采集实时彩色图像数据，图像数据按照图8所示的流程被转换成双耳声像信号供给两耳。以使高频光波转变成对应低频声波来给盲人提供信息。如红色大门可视为有许多红色铃铛布满在门上，緑色的墙壁挂有緑色的铃铛在响。盲人转头带动摄像头旋转，摄像头视野从绿色墙壁划过红色大门时，耳机声音传出的声音由绿色响声逐渐加入大门的红色响声。从而盲人可以轻松定位大门的位置。上述摄像头可以是普通摄像头，核磁共振成像设备，X-ray成像设备，夜视设备，3D摄像设备等。
权利要求
1.一种彩色声像导盲方法，其特征在于包括如下步骤A.采集实时彩色图像数据；B.根据实时彩色图像数据计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度，然后再转换为相应的声素点声波主频、信噪比、以及响度，再结合彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号；C.将所述脉冲式双耳立体声声波信号通过无壳双耳耳机播放出来。
2.如权利要求I所述的方法，其特征在于所述步骤B具体为BI.获得采集的实时彩色图像数据；B2.计算出所述实时彩色图像数据中的每个彩色像素点的色彩光波主频、色彩饱和度以及亮度；将所述色彩光波主频、色彩饱和度以及亮度对应转换为声素点声波主频、信噪 t匕、以及响度；B3.根据转换后获得的所述声素点声波主频、信噪比、响度，以及所述彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号；B4.将所述脉冲式双耳立体声声波信号转换为工业标准格式存储并输出。
3.如权利要求2所述的方法，其特征在于所述步骤B3具体为B31.根据每个声素点的声波主频、信噪比、响度产生人造连续彩色声波；B32.根据所述彩色像素点的三维位置信息，使用头相关传递函数方法产生左右耳人造连续彩色声波；B33.通过填加随机间隔的方式切断所述左右耳人造连续彩色声波，获得脉冲声波信号，以消除相同主频声波干涉效应；B34.对每个声素点产生的所述脉冲声波信号进行相加求和,产生所述脉冲式双耳立体声声波信号;其中，所述头相关传递函数方法用于加载声素点位置信息。
4.如权利要求2或3所述的方法，其特征在于所述步骤B2中采用线性映射方式将所述色彩光波主频对应转换为所述声素点声波主频，采用相关映射方式将所述亮度对应转换为所述声素点响度等级，然后通过标准ISO 226计算得出各声素点响度等级在对应声素点声波主频下的响度，采用比例映射方式将色彩饱和度转换为声音信噪比。
5.—种彩色声像导盲仪,其特征在于包括摄像模块，用于采集实时彩色图像数据；主处理模块，用于接收摄像模块采集的实时彩色图像数据，根据实时彩色图像数据计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度，然后再转换为相应声素点声波主频、声波信噪比、以及声波响度，再结合彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号，并传递给无壳双耳耳机模块；无壳双耳耳机模块，用于接收主处理模块产生的脉冲式双耳立体声声波信号，将其转换成声音并播出。
6.如权利要求5所述的彩色声像导盲仪，其特征在于所述主处理模块包括图像采集模块，用于获得所述摄像模块所采集的实时彩色图像数据；图像处理模块，用于接收图像采集模块获得的实时彩色图像数据，计算出所述实时彩色图像数据中的每个彩色像素点的色彩光波主频、色彩饱和度以及亮度；图像声像转换模块，用于将所述色彩光波主频、色彩饱和度以及亮度对应转换为声素点的声波主频、信噪比、以及响度；声像处理模块，用于根据转换后获得的所述声波主频、信噪比、响度，以及彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号；声像输出模块，用于将声像处理模块所产生的脉冲式双耳立体声声波信号转换为工业标准格式存储并输出给无壳双耳耳机模块播放。
7.如权利要求5所述的彩色声像导盲仪，其特征在于所述声像处理模块包括声素彩色连续声波合成模块，用于根据每个声素点的声波主频、信噪比、响度产生人造连续彩色声波；声素位置信息加载模块，用于根据所述彩色像素点的三维位置信息，使用头相关传递函数方法产生左右耳人造连续彩色声波；声波脉冲去耦模块，用于通过填加随机间隔的方式切断所述左右耳人造连续彩色声波，获得声波脉冲信号，以消除相同频率声波干涉效应；双耳声波合成模块，用于对每个声素点产生的所述声波脉冲信号进行相加求和，产生所述脉冲式双耳立体声声波信号；其中，所述头相关传递函数方法用于加载声素点位置信息。
8.如权利要求6或7所述的彩色声像导盲仪，其特征在于所述图像声像转换模块采用线性映射方式将所述色彩光波主频对应转换为所述声素点声波主频，采用相关映射方式将所述亮度对应转换为所述声素点响度等级，然后通过标准ISO 226计算得出各声素点响度等级在对应声素点声波主频下的响度，采用比例映射方式将色彩饱和度转换为声音信噪比。
9.如权利要求5所述的彩色声像导盲仪，其特征在于所述摄像模块设置在盲人佩戴的盲人眼镜上，或者设置在手机上，或者设置在盲人所处房间的任何位置；所述摄像模块可采用普通摄像头、核磁共振成像设备、X-ray成像设备、夜视设备、或者3D摄像设备采集实时彩色图像数据。
10.如权利要求5-7所述所述的彩色声像导盲仪，其特征在于，所述无壳双耳耳机模块不具有外壳，并进一步用于消除声波反射和衍射，保持脉冲式双耳立体声声波信号携带的所述位置信息。
全文摘要
提供一种彩色声像导盲方法及彩色声像导盲仪，能够根据采集到的实时彩色图像数据，计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度，再转换为对应声素点声波主频、声波信噪比、以及响度，再结合彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号，并通过无壳双耳耳机将声像信息输出以进行导盲。本发明可以使得盲人无需经过训练便可以识别三维物体的颜色、形状和大小，识别分辨率高。
文档编号A61F9/08GK102688120SQ20121018642
公开日2012年9月26日申请日期2012年6月8日优先权日2012年6月8日
发明者綦峰申请人:綦峰

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：綦峰
技术所有人：綦峰
我是此专利的发明人

上一篇：一种真皮切取的手术铲刀的制作方法
上一篇：Ckip-1蛋白及其编码基因的新用途的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。