基于认知和目标辨识的视觉替代方法

文档序号：1129294阅读：234来源：国知局

专利名称：基于认知和目标辨识的视觉替代方法
技术领域：
本发明涉及一种信息技术领域的方法，具体是一种基于认知和目标辨识的视觉替代方法。
背景技术：
随着计算机视觉、模式识别技术和多媒体技术的发展，人们开始尝试用信息化的电子装置辅助盲人的生活。在盲人生活辅助领域，一般采用听觉或触觉来代替视觉的方法给盲人传递信息(即术语所称的“感觉替代”或“视觉替代”)。但是由于人类的信息获取极大依赖于视觉，人类80％以上的信息是通过视觉渠道获取的，而听觉和触觉传递信息量很少，因此如何用声音或触觉合适地表示环境图像中的信息，使盲人及时得到环境中最重要的信息成为一个日益重要的问题。针对感觉替代中的环境表示问题，典型的方法有基于像素对应的环境表示方法和基于目标辨识的环境表示方法两种。基于像素对应的环境表示方法将环境图像中每个像素的物理特征转化为声音后叠加。这样的环境表示方法并不能使盲人理解环境中物体的类别。基于目标辨识的环境表示方法将环境图像中的多种物体一一识别出来，以物体为单位将环境信息通过声音告知盲人，使盲人真正理解环境中物体的意义。基于目标辨识的环境表示方法非常适用于帮助盲人取物的情况，因为盲人必须知道周围的物体中是否有他需要的物体，才能伸手取物。
经对现有技术文献的检索发现，中国专利申请号02143161.2，该专利公开的盲人步行用辅助装置，虽然主要面向障碍物的识别，但在其实施方式中描述了利用一个物体识别元件来识别来自双目(多目)摄像头的图像中的物体的构思。通过该装置，盲人能够知道周围环境中障碍物的信息，甚至知道障碍物的类别，因此具有较大的实用价值。但是其主要问题在于第一，当环境中存在多种物体时，盲人将听到环境中所有物体同时发出的声音，使盲人很难分辨得到单个物体的声音。第二，如果在实践中使盲人听到的声音有一定的前后间隔以使盲人能有时间听清每个声音，则表示整个环境中的多个物体所用的时间将延长，这无疑降低了盲人获得环境信息的速度。第三，当盲人位置的变化或是环境中物体的移动，环境图像中出现了新的物体，但在上述发明中，由于各个物体识别后表示的方法是一致的，所以新识别出的物体很难与已经被识别出来的物体区别开。最后，当上述发明的物体检测单元在环境图像中检测多个同类物体时出现假阴性错误时，盲人可能会将环境中已被识别出来的物体视为同一个物体，造成原有物体已经移动的假象。
现有技术的困难在于，虽然有办法得到环境中物体的类别和位置，但由于听觉的传递信息的量远小于视觉，必须考虑如何用表示效率较高的方式告知盲人能够知道周围环境中障碍物的信息。

发明内容
本发明针对现有技术的不足与缺陷，提供一种基于认知和目标辨识的视觉替代方法，使盲人通过该方法能够在得到环境中每个物体的类别和位置的同时，专注于环境图像中新近出现的物体，更有效率地了解环境。本发明是结合人的认知原理，引入注意力机制，将每次新检测的物体突出表示，将已被检测到的物体弱化表示，使盲人对已被感知的物体能做到“熟视无睹”，而将注意力专注在新被感知的物体上。因此，结合了注意力的物体辨识的盲人生活辅助装置能提高盲人认知环境的效率，方便盲人生活。
本发明是通过以下技术方案实现的，本发明的步骤如下步骤一检测环境图像中的物体，获得每个物体的类别信息与位置信息，即物体信息；步骤二结合物体信息缓冲区中的物体信息更新已有物体信息，添加新发现的物体信息并删除过期的物体信息，同时相应调整物体信息缓冲区中各物体的注意力级别；步骤三根据物体信息缓冲区中的物体的注意力级别对物体进行排序；步骤四将排序后的物体信息缓冲区中的信息转换为与物体的类别信息和物体的位置信息对应的三维立体声音或触觉信号，使盲人快速得到物体信息缓冲区中最新近出现的和最容易拿取的物体的位置和类别信息，方便盲人取物。
所述的步骤一中，检测环境中的物体，是指利用带有待识别的预先设定的多种类别的物体照片的正样本和不带有待识别的预先设定类别的物体照片的负样本训练计算机得到多种物体的分类器，利用分类器检测环境图像中是否存在预先设定的多种类别的物体以及检测出的物体在图像中的位置。
所述步骤二中的物体信息缓冲区是指一种能够排序的数据结构，其中存储有已经被检测到的每个物体的类别信息，和在图像中的位置坐标、相对盲人的三维位置信息等物体位置信息，和物体在图像中区域的灰度图像和色调直方图等物体的特征信息，以及该物体的注意力等级。
所述步骤二中，结合物体信息缓冲区中的物体信息更新已有物体信息，是指遍历根据最近一帧图像内检测到的物体与物体信息缓冲区内已被检测到的物体，根据两者之间的相似性判据判断检测到的物体是否与物体信息缓冲区中已有的物体是同一物体，如果检测到的物体满足相似性判据，则认为两者是同一物体，于是更新物体信息缓冲区中的已被检测到的物体在图像中的位置坐标和物体特征信息，并降低该物体的注意力等级。以上操作的效果类似于不断跟踪已有的物体的最新位置。
所述步骤二中，结合物体信息缓冲区中的物体信息添加新发现的物体信息，是指当最近一帧图像中检测到的物体与物体信息缓冲区中的任何物体都不满足相似性判据时，该物体在图像中的位置坐标等物体的位置信息、物体的类别信息和物体的特征信息将被存入物体信息缓冲区并被赋予最高的注意力等级，表示这是最新近检测到的环境中的物体。在以后的图像中，该物体的信息将不断被更新。
所述步骤二中，结合物体信息缓冲区中的物体信息删除过期的物体信息，是指如果物体信息缓冲中的某个物体在多次检测中均没有再次被检测到，则该物体的信息将在物体信息缓冲区中被删除。这样，如果一个物体在一段时间内没有被检测到，则认为该物体不存在于环境图像中，因此不能被感觉替代部分通过声音或触觉信号表示出来。
所述步骤二中，结合物体信息缓冲区中的物体信息相应调整物体的注意力级别，是指如果在环境图像中有新近被检测到的物体，新近被检测到的物体被赋予最高的注意力等级；在环境图像中再次被检测到的物体的注意力等级降低；如果在环境图像中没有新物体被检测到，因而没有物体处于最高注意力等级时，则认为盲人在搜索已知的环境，给予处于盲人正前方的物体最高的注意力等级，方便盲人拿取该物体。
所述步骤三中，根据物体信息缓冲区中的物体的注意力级别对物体进行排序，是指利用物体信息缓冲区的排序功能，物体按注意力等级的高低排列。这样做的意义如下。
如果物体是新近检测到的物体，该物体将被优先以与较低注意力级别的物体相异的方式告知盲人以方便盲人及时感知最需要关注的物体的位置。如果物体是已经被多次检测到的物体，则物体对应的声强降低，发声优先次序下降，表示该物体不是新近检测到的，不必占用盲人更多的注意力分辨它。
当环境中没有新被检测到的物体时，则认为盲人在一个所有物体都已知的环境中，因此当物体处于盲人正前方并且处于伸手范围之内时，该物体被赋予最高注意力级别。该物体被优先以与较低注意力级别的物体相异的方式告知盲人，使盲人尽快知道处于可被取用范围内的物体的类别和位置。
所述步骤四中，将根据注意力等级排序后的物体信息缓冲区中的物体信息转换为与物体的类别信息和物体的位置信息对应的三维立体声音或触觉信号，是指排序后的物体信息缓冲区中的信息被用来合成三维虚拟立体声，虚拟立体声的虚拟声源位置与缓冲区中物体的位置信息是一致的，通过立体声的双耳定位作用使盲人清楚地得到物体的位置。而且物体与声音之间是很自然的一一对应的关系，不同的声音使盲人清楚地感知物体的类别。通过增大声音频率或是增大声压表征物体注意力等级的差异。
根据注意力等级排序后的物体信息缓冲区中的信息同样可以用来合成触觉信号，通过在皮肤或粘膜的不同位置给出触觉压力信号使盲人获得物体的位置，通过触觉压力信号的不同震动模式，如强压和弱压反复出现的模式，长时间压和短促压反复出现的模式表示不同的物体。通过增大震动模式的强度或改变模式的持续时间表征物体注意力等级的差异。
与现有技术相比，本发明的有益效果在于首先，本发明提高了盲人感知环境的效率。在一个多物体的环境中，由于多个声音依次发出时，盲人必须用心辨别每个声音对应的物体。使用本发明后，盲人听到的第一个声音就代表了环境中最需要关注的物体，而以后听到的物体都是已被检测到的物体，盲人可以不用关注。一般表示一个物体所用的语音(汉语中的一个双音节名词)所占用时间在0.5-0.8s左右，这意味着盲人可以在以上时间内得到环境中重要物体(新观察到的物体)的信息。而在一个三个物体的场景中，盲人要用上1.5-2.4s时间用心听完每个物体的声音才能得到环境中重要物体的信息。
其次，由于本发明不断地跟踪已被检测到的物体的位置，在每一帧环境图像中，即使每个物体没有被检测出来，由于该物体的记录始终存在，该物体仍然可以发声。这样做可以避免分类器容易出现的假阴性错误。同时由于在物体信息缓冲区中多次检测均没有再次被检测到的物体的信息将作为过期的物体信息被删除，这避免了装置出现假阳性错误，因为假阳性错误必须连续多次出现才能导致错误的发声。

图1为本发明实施例的流程2为本发明实施例使用的装置外观3为本发明实施例实施示意图具体实施方式
下面结合附图对本发明的实施例作详细说明本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和过程，但本发明的保护范围不限于下述的实施例。
如图1和图2所示，本实施例使用的装置(以下简称装置)包括物体信息缓冲单元2、物体检测单元3、物体测距单元4、感觉替代单元5，与上述单元配合的还有配置在盲人头上的双目摄像头1和立体声耳机6。双目摄像头1是物体检测单元3和物体测距单元4共用的部件，既将双目视觉图像中的参考图像(一般是右侧图像)提供物体检测单元用于检测的环境图像，又将双目视觉图像提供给物体测距单元4。这样做的好处是物体的检测和测距都在双目视觉图像的参考图像中进行，简化了图像处理过程。本装置正常工作时，被固定在盲人的头顶。
装置的物体检测单元1和物体检测单元3是执行本发明所述步骤一的模块；装置的物体信息缓冲单元2是包含了本发明所述物体信息缓冲区的模块，能够执行对物体信息进行排序，添加物体信息，修改(更新)物体信息，删除物体信息等操作，是执行本发明所述步骤二、步骤三的模块；装置的感觉替代单元5是执行本发明所述步骤四的模块。
物体检测单元1得到双目摄像头的参考图像，并且利用分类器检测其中是否存在预先设定类别的多种物体。在检测完一帧图像之后，物体检测单元1根据检测到的物体与物体信息缓冲单元2中已被检测到的物体之间的相似性程度判断检测到的物体是否与物体信息缓冲单元2中已有的物体是同一物体。相似性判据由一组布尔判断组成，构成布尔判断的有检测到的物体是否和已有物体属于同一类别物体，检测到的物体是否和已有物体的距离小于设定的阈值，检测到的物体和已有物体在色调直方图中的最大象素数目的色调值是否相同，检测到的物体与已有物体的相关卷积是否大于设定的阈值，检测到的物体与已有物体的SAD(象素深度差绝对值之和)是否小于设定的阈值。当检测到的物体与已有物体满足以上布尔判断时，则认为两者是同一物体，于是更新物体信息缓冲单元中的已被检测到的物体在图像中的位置坐标和物体特征信息，并降低该物体的注意力等级。当图像中检测到的物体与物体信息单元中的任何物体都不满足相似性判据时，该物体在图像中的位置坐标等位置信息、物体的类别信息和物体的特征信息将被存入物体信息缓冲单元2并被赋予最高的注意力等级，表示这是最新近检测到的环境中的物体。该物体的位置信息和特征信息将在以后的检测中不断被更新。
如果物体检测单元1检测到的物体与物体缓冲单元2中所有的物体记录都不符合相似性判据时，该检测到的物体被认为是环境中新出现、需要被关注的物体，于是新发现到的物体的类别信息、物体在图像中的位置坐标，物体的特征信息将被作为检测到的物体的信息写入物体信息缓冲单元。同时该物体被赋予最高的注意力级别以保证此物体将优先于其它物体传达给盲人。
同时物体测距单元3将双目摄像头中得到双目图像转化为参考图像的视差图像，视差图像的每一象素记录了参考图像对应坐标象素的视差值。当物体检测单元在参考图像中的检测工作完成后，物体测距单元根据存放在物体信息缓冲单元的每个物体在参考图像中的二维坐标，得到每个物体的视差，从而将物体检测单元1检测到的每个物体相对立体摄像头的三维位置求出。
当环境图像中没有新发现的物体时，没有物体处于最高注意力等级，因此认为盲人在搜索已知的环境，物体信息缓冲单元2遍历每个物体，并给予处于盲人正前方的物体最高的注意力等级，方便盲人拿取该物体。
物体信息缓冲单元2遍历每个物体，删除多次检测均未被检测到的物体。
在以上操作完成之后，物体信息缓冲单元2将其中每个物体根据注意力等级排序，将排序后得到的物体的类别信息和位置信息依次传递给感觉替代单元4，感觉替代单元能够产生与物体的类别信息、物体的种类信息和注意力等级相匹配的立体声音信号。
图3为本发明实施例使用过程中的例子图，本实施例的感觉替代单元4在表示盲人周围环境中有两类不同的物体属于球(SA)类的A1、A2和属于杯子(SB)类的B1的例子图。本例中，当盲人的头部自左向右移动时，物体检测单元1检测到环境中依次出现新物体A2、B1、A1，并且由物体测距单元2测得物体A1、A2、B1到相对盲人的三维位置信息。环境中最优先的物体依次演变为A2，B1，A1，而且最优先出现的物体的声强被加大，频率被升高以引起盲人注意，这样盲人能很方便知道前方出现了那些物体，物体是不是他需要的。
当盲人搜索完环境之后，决定取用一个SA类物体。此时由于没有物体被新检测到，装置将盲人正前方的物体A1的注意力级别设为最高，方便盲人判断A1的方位，拿取A1。如果盲人决定取用一个SB类物体，只需转动头部，当盲人正对着B1时，B1的注意力级别被设为最高，盲人能够立刻知道到物体B1的位置在正前方，伸手可得之。
图中整个场景的声音信号是由场景中的每个物体都转化的成的声音叠加形成的。采用如下策略合成声音式中，xi(i＝(0，1，2…m))表示经过根据注意力排序后的物体信息缓冲单元2内多个物体的信息，x0具有最高的注意力级别。xi包括物体的类别信息和相对盲人的物体的三维位置信息，可以由一个四元组<物体类别，到盲人水平的方位角，到盲人的竖直方位角，到盲人的距离>表示。c(x1)是由物体信息xi中的物体类别信息所确定的虚拟立体声源序列，使不同类别的物体分配不同的声音加以区别。c(xi)可以是与物体对应的语音，例如用语音“杯子”提示有水杯的存在，也可以是能够表示物体特征的声音，例如，利用喇叭或发动机的声音代表汽车。h(xi)是由xi中的水平方位角，竖直方位角，距离信息所确定的信号处理过程，表示的是造成立体声效果，使声源的心理感受位置与xi中物体的位置信息(水平方位角，竖直方位角，距离)相一致所需要的信号处理过程。通常可以利用特定位置的HRTF(头部相关传递函数)和虚拟立体声源卷积的形式达到此目的。每个声源经过位置变换之后成为具有立体声效果的声音序列，这时必须加以延时Δt在50ms到1s之间，使每个物体所对应的声音在不同时刻发出的同时留给盲人足够的时间分辨声音的音高和方位。最后得到表示整个场景的双声道声音序列P就是各个物体的声音加入立体声效果后延时的叠加。盲人听到由声音信号序列P得到的声音就能知晓场景中有两个SA类物体A1、A2和一个SB类物体B1，这些物体的位置“听上去”分别在A1、A2、B所在的位置上。而且物体与声音之间是很自然的一一对应的关系，不同的声音使盲人清楚地感知物体的类别。
权利要求
1.一种基于认知和目标辨识的视觉替代方法，其特征在于，步骤如下步骤一检测环境图像中的物体，获得每个物体的类别信息与位置信息，即物体信息；步骤二结合物体信息缓冲区中的物体信息更新已有物体信息，添加新发现的物体信息并删除过期的物体信息，同时相应调整物体信息缓冲区中各物体的注意力级别；步骤三根据物体信息缓冲区中的物体的注意力级别对物体进行排序；步骤四将排序后的物体信息缓冲区中的信息转换为与物体的类别信息和物体的位置信息对应的三维立体声音或触觉信号，使盲人快速得到物体信息缓冲区中最新近出现的和最容易拿取的物体的位置和类别信息，方便盲人取物。
2.如权利要求1所述的基于认知和目标辨识的视觉替代方法，其特征是，所述的步骤一中的检测环境中的物体，是指利用带有待识别的预先设定的多种类别的物体照片的正样本和不带有待识别的预先设定类别的物体照片的负样本训练计算机得到多种物体的分类器，利用分类器检测环境图像中是否存在预先设定的多种类别的物体以及检测出的物体在图像中的位置。
3.如权利要求1所述的基于认知和目标辨识的视觉替代方法，其特征是，所述步骤二中的物体信息缓冲区是一种能够排序的数据结构，其中存储有已经被检测到的每个物体的类别信息、物体的位置信息、物体的特征信息和该物体的注意力等级。
4.如权利要求1或3所述的基于认知和目标辨识的视觉替代方法，其特征是，所述步骤二中，结合物体信息缓冲区中的物体信息更新已有物体信息的具体方法为遍历根据最近一帧图像内检测到的物体与物体信息缓冲区内已被检测到的物体，根据两者之间的相似性判据判断检测到的物体是否与物体信息缓冲区中已有的物体是同一物体，如果检测到的物体满足相似性判据，则认为两者是同一物体，于是更新物体信息缓冲区中的已被检测到的物体在图像中的位置坐标和物体特征信息，并降低该物体的注意力等级。
5.如权利要求1或3所述的基于认知和目标辨识的视觉替代方法，其特征是，所述步骤二中，结合物体信息缓冲区中的物体信息添加新发现的物体信息的具体方法为当最近一帧图像中检测到的物体与物体信息单元中的任何物体都不满足相似性判据时，该物体的位置信息、物体的类别信息和物体的特征信息将被存入物体信息缓冲单元并被赋予最高的注意力等级，表示这是最新近检测到的环境中的物体。
6.如权利要求1或3所述的基于认知和目标辨识的视觉替代方法，其特征是，所述步骤二中，如果物体信息缓冲中的某个物体在多次检测中均没有再次被检测到，则该物体的信息将在物体信息缓冲区中被删除。
7.如权利要求4所述的基于认知和目标辨识的视觉替代方法，其特征是，如果在环境图像中没有新物体被发现，因而没有物体处于最高注意力等级时，则认为盲人在搜索已知的环境，给予处于盲人正前方的物体最高的注意力等级，方便盲人拿取该物体。
8.如权利要求1所述的基于认知和目标辨识的视觉替代方法，其特征是，所述步骤三中，根据物体信息缓冲区中的物体的注意力级别对物体进行排序，是指利用物体信息缓冲区的排序功能，物体按注意力等级的高低排列。物体信息缓冲单元中物体的注意力等级较高者将优先于其它物体告知盲人。
9.如权利要求1所述的基于认知和目标辨识的视觉替代方法，其特征是，所述步骤四中，将根据注意力排序后的物体信息缓冲区中的各物体信息依次转换为与物体的类别和物体的位置信息对应的三维立体声音或触觉信号，是指排序后的物体信息缓冲区中的信息被用来合成三维虚拟立体声，虚拟立体声的虚拟声源位置与缓冲区中物体的位置信息是一致的，通过立体声的双耳定位作用使盲人清楚地得到物体的位置，而且物体与声音之间是很自然的一一对应的关系，不同的声音使盲人清楚地感知物体的类别；根据注意力等级排序后的物体信息缓冲区中的信息同样能用来合成触觉信号，通过在皮肤或粘膜的不同位置给出触觉压力信号使盲人获得物体的位置，通过触觉压力信号的不同震动模式表示不同的物体。
10.如权利要求1或9所述的基于认知和目标辨识的视觉替代方法，其特征是，所述步骤四中，注意力等级较高的物体对应的声音或触觉信号与注意力等级较低的物体对应的声音或触觉信号相比具有差异，通过增大声音频率或是增大声压表征物体注意力等级的差异，通过增大震动模式的强度或改变模式的持续时间表征物体注意力等级的差异。
全文摘要
本发明涉及一种基于认知和目标辨识的视觉替代方法，步骤为检测环境图像中的物体，获得每个物体的类别信息与位置信息；结合物体信息缓冲区中的物体信息更新已有物体信息，添加新发现的物体信息并删除过期的物体信息，相应调整物体信息缓冲区中各物体的注意力级别；根据物体信息缓冲区中的物体的注意力级别对物体进行排序；将排序后的物体信息缓冲区中的信息转换为与物体的类别信息和物体的位置信息对应的三维立体声音或触觉信号，使盲人快速得到物体信息缓冲区中最新近出现的和最容易拿取的物体的位置和类别信息。本发明使盲人通过该方法能够在得到环境中每个物体的类别和位置的同时，专注于环境图像中新近出现的物体，更有效率地了解环境。
文档编号A61F9/08GK101040809SQ20071003963
公开日2007年9月26日申请日期2007年4月19日优先权日2007年4月19日
发明者谢青, 朱湘君, 闫静, 杜嘉, 童善保, 朱贻盛, 邱意弘申请人:上海交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢青;朱湘君;闫静;杜嘉;童善保;朱贻盛;邱意弘
技术所有人：上海交通大学
我是此专利的发明人

上一篇：基于物体辨识的盲人生活辅助装置的制作方法
上一篇：两亲性聚合物载药纳米粒子的制备方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。