一种协助听说障碍人士交流的智能穿戴设备的制作方法

文档序号：20570800发布日期：2020-04-29 00:46阅读：343来源：国知局

导航： X技术> 最新专利>办公文教;装订;广告设备的制造及其产品制作工艺

本发明涉及智能穿戴设备领域，特别涉及一种用于语言识别和手势识别的智能设备。

背景技术：

目前，全国范围内的听说障碍人士超过三千万人（数据来源，中国残疾人联合会），由于我国的手语学习还没有全面普及，大多数人存在与听说障碍人士在沟通方面的问题，导致目前的听说障碍人士一直生活在有限的范围内，无法真正的融入社会。

目前，听说障碍人士与正常人沟通主要通过手语交流、助听器协助、文字交流等方式。

由于具备手语技能的人才十分缺少，导致听说障碍人士在与正常人沟通时非常困难；目前市场上的助听器效果因人而异，只能助听衰减性听觉障碍人士，不适用神经性病变导致的听觉障碍人士；文字交流的方式沟通耗费时间且效率低下。

随着科学技术的发展，人们对模式识别和转换技术的研究越来越深，将语音-文字转换技术集成于一体，服务于听说障碍人士，协助他们在与正常人交流信息的智能穿戴设备应然而生。

技术实现要素：

鉴于上述技术的基础上，本发明的目的在于提供一种高精度的手势识别、具有mfcc声音特征的语音识别、多分辨率多驱动多显示方式的智能穿戴设备。其具有操作简单、识别率高、高分辨率、体积小、低功耗等特点。协助听说障碍人士与外界进行信息交互，实现与正常人的无障碍交流。

技术方案如下：

一种协助听说障碍人士交流的智能穿戴设备，其特征在于，包含拾音单元、信息输入单元、信息处理单元、播放单元以及显示单元；

所述拾音单元接收外界声音信号输入，将信号转换成电信号发送给信息处理单元；

所述信息输入单元接收用户信息输入，将信号转换成电信号发送给信息处理单元；

所述信息处理单元接收来自拾音单元的电信号，通过语音库的匹配，提取信号中的文字信息，并将此信息以电信号的方式发送给显示单元；

所述信息处理单元接收来自信息输入单元的电信号，合成声音信息，并将此信号以电信号的方式发送给播放单元；

所述播放单元接收所述信息处理单元发送的含声音信息的电信号向外界进行语音播放；

所述显示单元接收所述信息处理单元发送的含文字信息的电信号并显示给用户查看。

进一步地，所述拾音单元是多阵列麦克风或者移动设备。

进一步地，所述信息输入单元是手势识别输入、移动终端输入或便捷输入方式。

进一步地，所述信息处理单元包括信息处理器、语音识别模块、语音合成模块和语音库。

进一步地，所述显示单元是lcos光学模组、mems显示屏、dlp显示屏或者lcd显示屏。

进一步地，所述显示单元显示方式是投影显示、全息显示或者显示屏显示。

进一步地，所述显示单元支持不同分辨率的显示驱动。

进一步地，所述播放单元是扬声器或者移动设备。

进一步地，所述手势识别输入是手势识别摄像头和手势识别模块的组件，手语信息通过摄像头采集成手势图像，经过手势识别模块的数据处理，将手势表达的含义发送给信息处理单元。

进一步地，所述移动终端输入是移动终端设备和传输模块组件，用户从移动终端设备输入信息，由传输模块将信息发送给信息处理单元。

进一步地，所述信息处理器是上位机、嵌入式系统、手持移动设备或者远程终端设备。

进一步地，所述语音识别模块包括用于声纹识别、声源目标锁定的功能模块。

进一步地，所述语音库包括用于离线下载、在线更新、跨语言翻译的功能模块。

进一步地，所述移动终端设备是通过无线或者有线的方式与信息处理单元进行信息交互的各类电子产品。

手势识别输入采用leapmotion模块。所述leapmotion模块包括leapmotion体感控制器和双目摄像头，用于收集手势信息。

进一步地，该穿戴设备是眼镜、头盔或者手表。

本发明与现有技术相比，其有益效果在于使用leapmotion体感控制器可实现0.01mm精度的手势识别，具有高精度、抗干扰强的优点，使用云语音库和提取mfcc声音特征参数可识别并指定声音源，具有多语种翻译、抗噪声、快速响应的优点，使用lcos、oled、dlp等显示屏，具有高分辨率、低功耗的优点。该技术方案通过将听说障碍人士的手语信息转化成语音信息播放，同时将外界的语音信息转换成文字信息显示给用户查看，从而实现了协助听说障碍人士交流的智能穿戴设备。

附图说明

图1_a、图1_b为一种协助听说障碍人士交流的智能穿戴设备架构示意图。

图2_a为一种用于语音识别和手势识别的智能眼镜的实施方式。

图2_b为另一种用于语音识别和手势识别的智能眼镜的实施方式。

图3为拾音单元的结构示意图。

图4为信息输入单元的结构示意图。

图5为信息处理单元的结构示意图。

图6为语音识别模块的结构示意图。

图7_a为显示单元的近眼显示方式。

图7_b为显示单元的投影显示方式。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1_a、图1_b所示，本发明的协助听说障碍人士交流的智能穿戴设备主要包括拾音单元、信息输入单元、信息处理单元、显示单元和播放单元。

拾音单元接收外界声音信号输入，将信号转换成电信号发送给信息处理单元；

信息输入单元接收用户信息输入，将信号转换成电信号发送给信息处理单元；

信息处理单元包含但不限于两输入两输出，两输入：拾音单元的电信号（含声音）和信息输入单元的电信号（含用户信息）；两输出：输出含文字信息的电信号发送给显示单元、输出含声音信息的电信号发送给播放单元。

信息处理单元接收来自拾音单元的电信号，通过语音库的匹配，提取信号中的文字信息，并将此信息以电信号的方式发送给显示单元；

信息处理单元接收来自信息输入单元的电信号，合成声音信息，并将此信号以电信号的方式发送给播放单元；

播放单元接收含声音信息的电信号向外界进行语音播放；

显示单元接收含文字信息的电信号并显示给用户查看。

进一步地，所述拾音单元可以是多阵列麦克风或者移动设备。

进一步地，所述信息输入单元可以是手势识别输入或移动终端输入或便捷输入等方式输入。

进一步地，所述手势识别输入可以是手势识别摄像头和手势识别模块的组件，手语信息通过摄像头采集成手势图像，经过手势识别模块的数据处理，将手势表达的含义发送给信息处理单元。

进一步地，所述移动终端输入可以是移动终端设备和传输模块组件，用户从移动终端设备输入信息，由传输模块将信息发送给信息处理单元。

进一步地，所述移动终端设备可以是各类电子产品，通过无线或者有线的方式与信息处理单元进行信息交互。

进一步地，所述信息处理单元包括信息处理器、语音识别模块、语音合成模块和语音库。

进一步地，所述信息处理器可以是上位机、嵌入式系统、手持移动设备或者远程终端设备。

进一步地，所述语音识别模块包括但不限于声纹识别、声源目标锁定等功能。

进一步地，所述语音库包括但不限于离线下载、在线更新、跨语言翻译等功能。

进一步地，所述显示单元可以是lcos光学模组、mems显示屏、dlp显示屏或者lcd显示屏。

进一步地，所述显示单元显示方式可以是投影显示、全息显示或者显示屏显示。

进一步地，所述显示单元支持不同分辨率的显示驱动，可以是1080p、960p、或720p等分辨率。

进一步地，所述播放单元可以是高保真扬声器或者移动设备。

上述智能穿戴设备具体地可设计成眼镜、头盔或者手表等产品。

实施例一以设计为眼镜的产品为例进行进一步说明。

实施例一

见图2_a，本实施例中，智能穿戴设备被设计为一种用于语音识别和手势识别的智能眼镜，包括拾音单元、信息输入单元、信息处理单元、显示单元和播放单元。

见图3，所述拾音单元用于收集外界语音信号。

进一步地，所述拾音单元为采用科大讯飞股份有限公司的麦克风阵列xfm10621，该芯片由麦克风和dsp组成，是一款基于6麦克风阵列的语音前端解决方案。采用6个麦克风咪头进行拾音，并通过麦克风阵列xfm10621进行语音降噪、语音唤醒、回声消除、去混响后，输出模拟和数字音频并发送给上位机，其有效语音达到5米。

进一步地，所述拾音单元利用麦克风阵列的空域滤波特性，通过对唤醒人的角度定位，形成定向拾音波束，并对波束以外的噪声进行压制，保证较高的录音质量并实现声源定位。

见图4，所述信息输入单元用于收集用户信息，

进一步地，所述信息输入单元采用leap公司开发的面向pc端的体感控制器leapmotion，它由双目摄像头和leapmotion体感控制器组成，是一款基于双目视觉的手势识别设备，通过与上位机之间的信息传输，可以实现追踪用户的手势信息，达到0.01mm精度的手势识别。

进一步地，信息输入单元使用双目摄像头采集操作者手势动作的左右视觉图像，通过立体视觉算法生成深度图像。具体过程为经过立体标定后获取经过校准的立体图像对后，进行立体匹配，获得视差图像，再利用摄像机的内参数及外参数进行三角计算获取深度图像。

进一步地，对左（或右）视觉图像使用手势分割算法处理，分割出的人手所在的初始位置信息，并将该位置作为手势跟踪算法的起始位置。

进一步地，使用手势跟踪算法对人手运动进行跟踪，根据跟踪得到的结果进行手势的识别。需要说明的是，如果跟踪目标消失，则重新进行手势分割，再重复上述步骤。

进一步地，将手势识别的结果传输给上位机。

见图5，所述信息处理单元用于实现语音识别、语音合成。

进一步地，所述信息处理单元采用开源微型上位机树莓派4b，它是一款基于arm的微型电脑主板，以sd/microsd卡为内存硬盘，卡片主板内置wifi2.4g/5g、bluetooth5.0可实现无线通信功能，并自带音视频接口microhdmi，具备所有pc的基本功能。

进一步地，信息处理单元可使用内置wifi功能与云端服务器谷歌cloudspeechapi、讯飞开放平台语音合成webapi进行无线通信，实现数据的云收发。

进一步地，信息处理单元还可使用内置蓝牙bluetooth功能实现与蓝牙耳机、移动终端的数据交互，不必局限于麦克风和扬声器。

进一步地，上位机可以发送语音识别请求命令，上传拾音单元发送过来的语音信息，使用谷歌cloudspeechapi的语音识别功能将语音信息转换为文字，通过无线网络接收返回的结果；也可以下载其客户端，通过调用函数得到语音转文字的结果，从而实现语音识别，并将文字信息发送给显示单元。

进一步地，上位机还可以通过识别功能提取mfcc声音特征参数，通过mfcc声音特征指定声音源，过滤掉其他噪声。

进一步地，上位机可以发送语音合成请求命令，上传信息输入单元发送过来的用户信息，使用讯飞开放平台语音合成webapi的语音合成功能将用户信息转换为语音，通过无线网络接收返回的结果，从而实现语音合成，并将语音信息发送给播放单元。

进一步地，上位机还插入sd卡，用于存储离线模式下的语音库，该语音库可实现跨语种翻译、在线更新、离线下载等要求，一旦检测到离线模式，则通过将语音信息和手势信息输入语音库进行比对，完成语音识别与手势识别功能。

进一步地，所述便捷输入模块为人机交互界面，实现上位机与用户之间的信息便捷交互，可以将常用语音、求助语音等便捷语音通过人机交互界面输入，由播放单元进行播放。

进一步地，所述便捷输入模块的便捷语音可以是用户自由设定，输入方式包含但不限于手指触摸界面输入、文字输入。

所述显示单元用于驱动显示语音信息转化为文字信息。

见图7_a，所述显示单元采用南京芯视元电子有限公司lcos微显示芯片svc2k39l，它是一款集成数字驱动和lcos显示为一体的微显示芯片，时序彩色显示,分辨率为1920x1080。显示尺寸11.52*6.45mm²，具有重量轻、速度快以及分辨率高的特点，适用于微显示光学显示系统，如hud、ar、hmd、全息显示、空间光调制和微型投影。

进一步地，所述显示单元将文字信息转换成视频格式数据流并显示出来。文字信息可以是rgb或者yuv或者mipi等视频格式输入到lcos数字驱动芯片，经过协议解析、格式转换和数据流处理，最终以rgb格式在lcos微显示屏进行近眼显示。

进一步地，所述显示单元根据实现材料的不同，可以是lcos微显示，也可以是dlp显示，还可以是oled屏显示，或lcd屏显示。

进一步地，所述显示单元接收文字信息，根据驱动方式的不同，可以是近眼显示，也可以是微型投影，还可以是全息显示等多种方式驱动。

进一步地，所述显示单元接收文字信息，根据分辨率的不同，可以是1080p，也可以是960p，还可以是720p等多种分辨率。

进一步地，所述显示单元还可以有便捷的人机交互界面，可通过该界面便捷输入用户信息。

所述播放单元用于播放用户输入信息转化的语音信息。

进一步地，所述播放单元采用适用于穿戴设备的微型扬声器。

实施例二以设计为眼镜和终端设备的产品为例进行进一步说明。

实施例二

见图2_b，本实施例中，智能穿戴设备被设计为终端设备与智能眼镜两个独立的可分离式单元。

进一步地，所述终端设备最常见设备是手机移动终端，包括了手机的麦克风作为拾音单元、扬声器作为播放单元、手机输入信号作为信息输入单元。

进一步地，所述智能眼镜包括了嵌入式处理器、语音识别模块、便捷输入模块和显示器。

进一步地，所述麦克风接收外界声音信号并以电信号的方式传输给嵌入式处理器。

进一步地，所述扬声器接收嵌入式处理器发送的语音信号进行语音播放。

进一步地，所述嵌入式处理器为三星公司s3c2440芯片，该芯片是一款16/32位arm920trisc控制芯片，支持spi、i2c、uart等接口，实现了mmu、amba总线和哈佛结构高速缓冲体系结构，可实现一系列复杂的运算和控制。

进一步地，所述语音识别模块采用了由icroute公司设计生产的非特定人语音识别芯片ld3320，它集成了语音识别处理电路和一些外部电路，包括ad、da转换器、麦克风接口、声音输出接口等，不需要外接任何的存储芯片如flash、ram。

进一步地，所述嵌入式处理器搭载linux操作系统。

进一步地，语音识别过程如图6，所述嵌入式处理器s3c2440芯片通过spi总线对语音识别芯片ld3320进行通用初始化，使语音识别芯片进入循环识别模式，输入的语音信号经过声音的预处理、特征提取以及与参考模型之间的模式匹配来识别输入的语音信息。如果匹配成功即有识别结果，则根据识别作相应处理后（比如播放某个声音作为应答）再启动下一个识别过程。如果匹配失败即无识别结果，则发送错误提示音再启动下一个识别过程。处理器通过spi总线读取识别的结果并分析正确性，最终将正确的分析结果发送到移动终端的扬声器进行播放。

进一步地，所述便捷输入模块为人机交互界面。

见图7_b，所述显示器可采用ti公司的dlppico芯片组，dlppico芯片组是以mems元件为基础的数字微型反射镜显示单元，支持从nhd到4kuhd的分辨率，可实现多种创新的高性能超便携紧凑型显示应用。

进一步地，所述dlppico芯片组将文字信息以rgb888视频格式输入到dlpc3430控制芯片，控制芯片负责对视频信号作协议解析、数据流处理，由驱动芯片dlpa2000将数据流以特定的显示时序输入到dlpdmd并投影显示。

在上述实施例的基础上，所述智能眼镜上装有智能操作系统，该智能操作系统可以是安卓系统或者windows系统或者嵌入式linux系统。

以上所述实施例仅表达了本发明的几种实施方式，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈弈星;何军;刘佳益
技术所有人：南京芯视元电子有限公司
我是此专利的发明人