一种基于视觉手势的点读方法和装置制造方法

文档序号：6624766阅读：233来源：国知局

一种基于视觉手势的点读方法和装置制造方法
【专利摘要】本发明提供一种基于视觉手势的点读方法和装置，方法包括：用户通过手指在书本上需点读区域画圈；摄像头捕捉手指画圈动作，图像处理模块根据轮廓分析算法获取指尖位置且得出轨迹上下左右四个方向边缘端点，根据上下左右四个端点拟合成矩形，从而对矩形区域内容进行文字或图形等内容识别；而后进行语音合成技术并将语音信息反馈给用户实现点读功能。所述装置可戴在用户头上，包括一个摄像头，安装在装置两边的骨传导耳机。该装置结合了先进的可穿戴理念，使用户在学习的时候摆脱了手持电子设备的束缚，可基于现实的普通书本获得智能点读的学习指导。
【专利说明】一种基于视觉手势的点读方法和装置

【技术领域】
[0001] 本发明涉及一种头戴式的电子学习装置，具体涉及一种可配合普通印刷物识别与播放指定区域文字或图像等内容相对应的基于视觉手势的点读方法和装置。

【背景技术】
[0002] 点读机作为一种新型助学工具，在帮助人们学习语言等方面具有重要的作用。目前市面上的点读机主要有以下两种：一种是由一个和笔记本电脑相似的壳体的内部敷设纵横交错的导电网膜，夕卜配一只可以感应或发送无线信号的点读笔。使用时将书本平铺在上述壳体上，并设置好对应的页码，点读笔点击课本上有文字的位置时，点读笔发出的无线信号被上述壳体内部的导电网板所接收，并以此确定对应书本内容的经纬位置，从而根据预先存储在点读机里的对应语音数据读取出来，以实现"点读"功能。
[0003] 另一种是不需要上述壳体，直接利用在书本上加印的二维码，使用时只需要将一支基于光学识别（0ID)的点读笔对所需点读内容进行"扫描"，则点读笔通过笔头上装配的高速摄像头识别书本上的二维码从而读出对应内容的声音文件，实现"点读"功能。
[0004] 以上两种点读方案都有缺点。
[0005] -是都必须采用特定的书本，经过录入信息或者是专门经过印刷处理的书本，这无疑增加了制作成本以及限制了学习者的学习范围。
[0006] 二是点读内容都是固定的，且不能通过网络进行知识扩展，若学习者对于某一内容想要深入了解时，不能马上得到帮助，降低了学习效率。
[0007] 三是学习者在使用过程中都必须手持点读笔，而若需要在书本上做笔记时，需要交替拿笔，显得略为麻烦；随着科学技术的发展，人们对于智能设备的使用越来越频繁，依赖也越来越大，而目前越来越多的可穿戴设备重要作用就是要使人们的双手摆脱手持电子设备的束缚，以追求更加智能、便捷的体验。
[0008] 综上，结合可穿戴设备的点读学习方式是未来点读学习设备的重要发展方向。

【发明内容】

[0009] 本发明的目的在于克服现有技术存在的上述不足，提供一种基于视觉手势的点读方法和装置，该装置为可穿戴式设备，可以使用户在学习时摆脱手持电子设备的束缚，可获得面向普通印刷资料的智能点读学习指导。
[0010] 本发明的目的通过如下技术方案实现。
[0011] 一种基于视觉手势的点读方法，其包括如下步骤： 1) 采用摄像头捕捉手指画圈动作，所述画圈动作是指用户使用手指对需点读区域进行画圈； 2) 图像处理模块根据手指轨迹形成矩形区域； 3) 图像处理模块通过识别上述矩形区域中文字或图形； 4) 语音处理模块根据识别的结果或者对识别结果进行网络搜索的结果进行语音合成，并通过播放设备进行播放。
[0012] 进一步改进的，步骤4)还包括用户通过语音命令对指定词汇或者内容进行网络检索。
[0013] 进一步改进的，所述语音处理模块还识别用户对发出命令的固定语句。
[0014] 进一步改进的，步骤2)中，图像处理模块首先通过肤色分割算法分析摄像头图像，检测摄像头中是否出现人手，若无，则继续使用肤色分割算法分析摄像头图像，若有，摄像头捕捉手指画圈动作，图像处理模块利用轮廓分析算法获取指尖位置，且获取轨迹上下左右四个方向边缘端点，然后，根据端点产生轨迹拟合形成矩形区域。
[0015] 一种实现所述基于视觉手势的点读方法的装置，其包括主体外壳、摄像头、骨传声模块及位于主体外壳中的图像处理模块、语音处理模块、Wifi网络模块和嵌入式微处理器模块；摄像头安装在主体外壳上或者嵌入在主体外壳中，骨传声模块位于主体外壳的两端且能贴于耳朵上方颧骨上；所述摄像头的摄像范围能覆盖用户前方需点读的范围，用于获取手指画圈图像和待识别内容图像；所述图像处理模块通过摄像头获取的图像识别摄像范围内用户手指移动轨迹并拟合成矩形，并对拟合后的矩形区域内的内容进行智能识别；所述语音处理模块根据图像处理模块识别的结果或者网络搜索结果进行语音合成，同时还能识别用户对发出命令的固定语句；骨传声模块根据语音处理模块的输出结果以骨传导方式对用户进行学习指导和语音提示； wifi网络模块用于接入局域网或因特网后，语音处理模块通过识别用户语音命令对指定词汇或者内容进行网络检索；语音处理模块对语音指令识别后，将指定内容发送至局域网或互联网数据库服务器，进行扩展内容检索；嵌入式微处理器模块内嵌嵌入式微处理器，负责调控前述各模块的通信与工作时序。
[0016] 进一步改进的，所述骨传声模块采用骨传导耳机实现。
[0017] 进一步改进所述主体外壳外形为能戴于额头前方及后脑勺部位的头箍状，摄像头位于头箍中间。所述主体外壳为头箍样式，戴于额头前方及后脑勺部位，材质为环保复合树脂。
[0018] 所述摄像头为150度广角摄像头，在正常的学习姿势中摄像范围能覆盖用户前方桌面。
[0019] 与现有技术相比，本发明具有如下优点和技术效果： 1) 不必采用特定课本。本发明是一种可配合普通印刷物识别与播放指定区域文字或图像等内容相对应的声音数据的头戴式点读装置，降低了课本制作的成本以及扩大了学习者的学习范围； 2) 点读内容可调节。通过视觉手势技术以及互联网技术，就可以将识别的内容进行联网查询并且反馈； 3) 该设备是只需戴在头上，使用户在学习时摆脱了手持电子设备的束缚，提高了学习效率。

【专利附图】

【附图说明】
[0020] 图1为实例中基于视觉手势的点读装置的外部结构示意图；图2为实例中基于视觉手势的点读装置的模块构成示意图；图3为实例中基于视觉手势的点读方法的流程图；图4为实例中基于视觉手势的点读方法中图像处理流程图；图5a和图5b为实例中基于视觉手势的点读方法中基于手指轨迹调节识别内容范围的过程示意图。

【具体实施方式】
[0021] 下面将结合附图和【具体实施方式】对本发明作进一步详细说明。
[0022] 如图1所示，该头戴式装置外形如一头箍，外部结构包括主体外壳即头箍外壳01、广角摄像头02、两个骨传导耳机03。头箍外壳01材质为环保复合树脂，健康无毒，可贴皮肤使用。广角摄像头具体为150度广角摄像头，佩戴头箍时摄像头视角能覆盖桌面书本。骨传导耳机03在头箍的左右两侧各一，佩戴头箍时，骨传导耳机恰好贴于耳朵上方颧骨上。
[0023] 本实例基于视觉手势的点读装置，如图2所示，包括以下主要模块： 1)嵌入式微处理模块，该模块内嵌嵌入式微处理器，负责综合调控本设备的各模块通信与工作时序等。
[0024] 2)图像处理模块，该模块识别摄像头摄像范围内用户手指移动轨迹并拟合成矩形，并对拟合后的矩形区域内的内容进行智能识别。
[0025] 3)语音处理模块，该模块可以根据上述智能识别的结果或者网络搜索结果进行 TTS语音合成，和识别用户对该设备发出命令的固定语句。
[0026] 4)wifi网络模块，该模块接入局域网或因特网后，用户可通过语音命令对指定词汇或者内容进行网络检索。语音处理模块对语音指令识别后，将指定内容发送至局域网或互联网数据库服务器，进行扩展内容检索。
[0027] 5)骨传声模块，该模块可以根据语音处理模块结果通过骨传导方式对用户进行学习指导和语音提示。
[0028] 本实例基于视觉手势的点读方法，如图3所示，包括如下步骤： 1)用户通过语音命令启动头箍。该语音命令为系统本身预设命令，举例可以为"Start Please''。
[0029] 2)用户通过手指在点读区域画圈。此步骤中，用户所用手指一般为手指，其余四指握住即可，且在需点读区域画圈时需为匀速画圈，速度不宜过快。
[0030] 3)摄像头捕捉手指画圈动作，若用户操作不规范，例如画圈速度过快导致摄像头无法正确识别手指，则系统通过骨传导耳机对用户进行语音提示，举例为"Error，Please restart，'。
[0031] 4)图像处理模块根据手指轨迹形成矩形区域。此步骤的具体处理过程如图4、图 5所示。
[0032] 检测开始时，图像处理模块首先通过肤色分割算法分析摄像头图像，检测摄像头中是否出现人手。若无，则继续使用肤色分割算法分析摄像头图像。若有，摄像头捕捉手指画圈动作，图像处理模块利用轮廓分析算法获取指尖位置，且获取轨迹上下左右四个方向边缘端点，如图5a所示。然后，根据端点产生轨迹拟合矩形，如图5b所示。
[0033] 5)摄像头采集上述矩形区域内的文字或图像信息，图像处理模块通过智能识别技术(例如OCR文字识别技术、基于神经网络的图像识别技术等)识别摄像头采集到的信息，并将识别内容转化为文字发送至微控制器。
[0034] 6)语音处理模块进行TTS技术进行语音合成，且通过骨传导耳机将语音信息反馈给用户。
[0035] 7)用户通过语音命令对上述识别结果进一步咨询。此步骤中的语音命令为预设的一些固定的命令，举例为 "I want to learn more about it"。
[0036] 8)设备联网查询相关内容，并通过骨传导耳机进行反馈。系统通过wifi网络模块接入网络进行查询相关内容，并且对不需要的内容进行过滤，最后将需反馈的内容通过骨传导技术反馈给用户。
[0037] 可见，本发明的装置是一种可穿戴装置，可戴在用户头上，装置上的摄像头可在用户需要点读时，识别用户的手指轨迹并拟合成一矩形，再对矩形区域内内容进行智能识别，将识别的文字内容进行TTS语音合成之后通过骨传声技术反馈给用户。并且，若用户需要进一步了解识别内容相关信息，可通过语音命令启动设备进行联网查询相关内容，最后用骨传声技术反馈给用户。该装置结合了先进的可穿戴理念，使用户在学习的时候摆脱了手持电子设备的束缚，可获得面向普通印刷资料的智能点读学习指导。
【权利要求】
1. 一种基于视觉手势的点读方法，其特征在于，包括如下步骤： 1) 采用摄像头捕捉手指画圈动作，所述画圈动作是指用户使用手指对需点读区域进行画圈； 2) 图像处理模块根据手指轨迹形成矩形区域； 3) 图像处理模块通过识别上述矩形区域中文字或图形； 4) 语音处理模块根据识别的结果或者对识别结果进行网络搜索的结果进行语音合成，并通过播放设备进行播放。
2. 根据权利要求1所述的一种基于视觉手势的点读方法，其特征在于，步骤4)还包括用户通过语音命令对指定词汇或者内容进行网络检索。
3. 根据权利要求1所述的一种基于视觉手势的点读方法，其特征在于，所述语音处理模块还识别用户对发出命令的固定语句。
4. 根据权利要求1所述的一种基于视觉手势的点读方法，其特征在于，步骤2)中，图像处理模块首先通过肤色分割算法分析摄像头图像，检测摄像头中是否出现人手，若无，则继续使用肤色分割算法分析摄像头图像，若有，摄像头捕捉手指画圈动作，图像处理模块利用轮廓分析算法获取指尖位置，且获取轨迹上下左右四个方向边缘端点，然后，根据端点产生轨迹拟合形成矩形区域。
5. -种实现权利要求1~4任一项所述基于视觉手势的点读方法的装置，其特征在于包括主体外壳、摄像头、骨传声模块及位于主体外壳中的图像处理模块、语音处理模块、wifi网络模块和嵌入式微处理器模块；摄像头安装在主体外壳上或者嵌入在主体外壳中，骨传声模块位于主体外壳的两端且能贴于耳朵上方颧骨上；所述摄像头的摄像范围能覆盖用户前方需点读的范围，用于获取手指画圈图像和待识别内容图像；所述图像处理模块通过摄像头获取的图像识别摄像范围内用户手指移动轨迹并拟合成矩形，并对拟合后的矩形区域内的内容进行智能识别；所述语音处理模块根据图像处理模块识别的结果或者网络搜索结果进行语音合成，同时还能识别用户对发出命令的固定语句；骨传声模块根据语音处理模块的输出结果以骨传导方式对用户进行学习指导和语音提示； wifi网络模块用于接入局域网或因特网后，语音处理模块通过识别用户语音命令对指定词汇或者内容进行网络检索；语音处理模块对语音指令识别后，将指定内容发送至局域网或互联网数据库服务器，进行扩展内容检索；嵌入式微处理器模块内嵌嵌入式微处理器，负责调控前述各模块的通信与工作时序。
6. 根据权利要求5所述的装置，其特征在于所述骨传声模块采用骨传导耳机实现。
7. 根据权利要求5所述的装置，其特征在于所述主体外壳外形为能戴于额头前方及后脑勺部位的头箍状，摄像头位于头箍中间。
【文档编号】G06K9/00GK104217197SQ201410424962
【公开日】2014年12月17日申请日期:2014年8月27日优先权日:2014年8月27日
【发明者】许望, 徐向民, 邢晓芬申请人:华南理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许望;徐向民;邢晓芬
技术所有人：华南理工大学
我是此专利的发明人

上一篇：测试方法、测试发起端、被测试端和测试系统的制作方法
上一篇：一种起落架机轮非线性动力学建模方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。