一种用于沟通障碍的视频通话方法和系统与流程

文档序号：12479334阅读：411来源：国知局

本发明涉及机顶盒技术领域，尤其涉及一种用于沟通障碍的视频通话方法和系统。

背景技术：

视频通话通常指基于互联网和移动互联网(3G互联网)端，通过智能终端之间实时传送人的语音和图像(用户的半身像、照片、物品等)的一种通信方式。视频通话主要传输的是图像和声音。特殊人群在参与视频通话时，可能面对一些特殊的困难。特殊人群(聋哑人)使用手语交流，他们与正常的视频通话参与者之前无法正常有效的沟通。

技术实现要素：

本发明要解决的技术问题之一，在于提供一种用于沟通障碍的视频通话系统，实现了沟通障碍的视频通话参与者，能够和沟通正常者进行视频通话，为沟通障碍者提供了方便。

本发明问题之一是这样实现的：一种用于沟通障碍的视频通话系统，所述系统包括：视频通话发起端、手语语言识别服务器、视频通话辅助功能服务器以及视频通话目标端；所述手语语言识别服务器、视频通话辅助功能服务器通过通信网与视频通话发起端和视频通话目标端连接；

所述视频通话发起端将沟通障碍的参与者使用手语语言进行交流后，通过手语语言识别服务器，将手语语言转换为文字字幕信息，并将文字字幕信息转换成数字音频信息；

所述视频通话发起端最终将视频、音频信息和文字字幕数据打包，进而通过视频通话辅助功能服务器将视频通话数据送到视频通话目标端。

进一步地，所述视频通话发起端中设置有硬件驱动、操作系统模块、视频通话中间件模块、手语识别引擎、手语转字幕模块、字幕转声音模块、视频/音频/字幕编码打包模块以及视频通话传输模块；

所述硬件驱动是设备硬件的软件接口抽象；

所述操作系统模块是设备运行其他软件的基础；

所述视频通话中间件模块,通过软件实现视频通话的全部功能接口的总称；

所述手语识别引擎，用于识别出手语信息；

所述手语转字幕模块，将采集的手势信息转换成文字字幕信息，包括采集用户图像信息，手势识别，手势信息与特定动作比对，识别对应的手语含义，将手语含义转换成文字字幕信息；

所述字幕转声音模块，用于将文字转为声音；

所述视频/音频/字幕编码打包模块，识别出了手势信息，并转成音频流和字幕流，然后将视频流信息、音频流和字幕流三路流重新打包；

所述视频通话传输模块，即视频通话中间件模块的传输的功能。

进一步地，所述硬件驱动包括处理器驱动、通信接口驱动、音频驱动以及视频硬编码驱动。

进一步地，所述手语识别引擎包括：手语识别接口、手语识别服务运营策略模块、手语识别实施模块、以及手语识别管理模块；

所述手语识别接口是完成手语识别功能逻辑上所需接口的定义；

所述手语识别服务运营策略模块，选择最终的手语识别接口的实施例；

所述手语识别实施模块，用于对具体实施例的实施；

所述手语识别管理模块，负责管理和维护多个手语识别接口的具体实施。

进一步地，所述手语识别引擎的工作原理：对沟通障碍的人进行视频画面采集；再将采集的图像二值化预处理；并进行手语追踪与识别、手语分割、手语语义映射和手语语义转文字，从而完成手势识别。

进一步地，所述视频视频通话系统进行视频通话操作具体为：所述视频通话发起端采集参与者的视频画面，进而将视频画面给手语语言识别服务器处理；手语识别主要进行以下操作：调用手语识别引擎识别出手语信息；手语转字幕模块通过将手语信息转化为文字字幕信息；调用字幕转声音模块，将字幕信息转换为声音信息；将字幕信息和声音信息回传给视频通话发起端，视频通话发起端将视频通话的多媒体数据通过视频/音频/字幕编码打包模块进行打包，进而调用视频通话中间件模块的视频通话传输模块，将视频通话的数据通过视频通话辅助功能服务器传输到视频通话目标端。

本本发明要解决的技术问题之二，在于提供一种用于沟通障碍的视频通话方法，实现了沟通障碍的视频通话参与者，能够和沟通正常者进行视频通话，为沟通障碍者提供了方便。

本发明问题之二是这样实现的：一种用于沟通障碍的视频通话方法，其特征在于：所述方法需提供视频通话发起端、手语语言识别服务器、视频通话辅助功能服务器以及视频通话目标端；

沟通障碍的参与者在视频通话发起端使用手语语言进行交流，通过手语语言识别服务器，将手语语言转换为文字字幕信息，并将文字字幕信息转换成数字音频信息；

所述视频通话终端最终将视频、音频信息和文字字幕数据打包，进而通过视频通话辅助功能服务器将视频通话数据送到视频通话目标端。

所述硬件驱动是设备硬件的软件接口抽象；

所述操作系统模块是设备运行其他软件的基础；

所述视频通话中间件模块,通过软件实现视频通话的全部功能接口的总称；

所述手语识别引擎，用于识别出手语信息；

所述字幕转声音模块，用于将文字转为声音；

所述视频/音频/字幕编码打包模块，识别出了手势信息，并转成音频流和字幕流，然后将视频流信息、音频流和字幕流三路流重新打包；

所述视频通话传输模块，即视频通话中间件模块的传输的功能。

进一步地，所述方法进一步具体为：所述视频视频通话系统进行视频通话操作具体为：所述视频通话发起端采集参与者的视频画面，进而将视频画面给手语语言识别服务器处理；手语识别主要进行以下操作：调用手语识别引擎识别出手语信息；手语转字幕模块通过将手语信息转化为文字字幕信息；调用字幕转声音模块，将字幕信息转换为声音信息；将字幕信息和声音信息回传给视频通话发起端，视频通话发起端将视频通话的多媒体数据通过视频/音频/字幕编码打包模块进行打包，进而调用视频通话中间件模块的视频通话传输模块，将视频通话的数据通过视频通话辅助功能服务器传输到视频通话目标端。

进一步地，所述硬件驱动包括处理器驱动、通信接口驱动、音频驱动以及视频硬编码驱动。

进一步地，所述手语识别引擎包括：手语识别接口、手语识别服务运营策略模块、手语识别实施模块、以及手语识别管理模块；

所述手语识别接口是完成手语识别功能逻辑上所需接口的定义；

所述手语识别服务运营策略模块，选择最终的手语识别接口的实施例；

所述手语识别实施模块，用于对具体实施例的实施；

所述手语识别管理模块，负责管理和维护多个手语识别接口的具体实施。

本发明具有如下优点：本发明使沟通障碍的视频通话参与者，使用手语语言进行交流，通过手语语言识别服务器，将手语语言转换为文字字幕信息。视频通话终端最终将视频、音频和字幕数据打包，进而通过视频通话辅助功能服务器将视频通话数据送到视频通话目标端。从而实现了沟通障碍的视频通话参与者，能够和沟通正常者进行视频通话，为沟通障碍者提供了方便。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明的系统总体框架图。

图2为本发明视频通话终端中各模块的结构示意图。

图3为本发明手语识别的工作原理图。

图4为本发明方法操作流程示意图。

具体实施方式

请参阅图1至图3所示，视频通话终端通过基础通信网(互联网等)互联互通。视频通话包含外部增强通话功能的手语语言识别服务器和视频通话辅助功能服务器。服务器功能的划分是功能逻辑上划分，并非从物理逻辑上划分，即手语语言识别服务器和视频通话辅助功能服务器可能是存在于同一台服务器主机上。视频通话的参与主体的有效组合是：沟通障碍参与者和沟通障碍参与者(不需要特殊处理)；沟通正常参与者和沟通正常参与者(不需要特殊处理)；沟通障碍参与者和沟通正常参与者(需要特殊处理)。

本发明的一种用于沟通障碍的视频通话系统，所述系统包括：视频通话发起端(一般是沟通障碍的参与者使用)、手语语言识别服务器、视频通话辅助功能服务器以及视频通话目标端(一般是沟通正常的参与者使用)；所述手语语言识别服务器、视频通话辅助功能服务器通过通信网与视频通话发起端和视频通话目标端连接；

所述视频通话发起端最终将视频、音频信息和文字字幕数据打包，进而通过视频通话辅助功能服务器将视频通话数据送到视频通话目标端。

在本发明中，所述视频通话发起端中设置有硬件驱动、操作系统模块、视频通话中间件模块、手语识别引擎、手语转字幕模块、字幕转声音模块、视频/音频/字幕编码打包模块以及视频通话传输模块；

所述硬件驱动是设备硬件的软件接口抽象；所述硬件驱动包括处理器驱动、通信接口驱动、音频驱动以及视频硬编码驱动。

所述操作系统模块是设备运行其他软件的基础；

所述视频通话中间件模块,通过软件实现视频通话的全部功能接口的总称；

所述手语识别引擎，用于识别出手语信息；

所述字幕转声音模块，用于将文字转为声音；

所述视频/音频/字幕编码打包模块，识别出了手势信息，并转成音频流和字幕流，然后将视频流信息、音频流和字幕流三路流重新打包；

所述视频通话传输模块，即视频通话中间件模块的传输的功能。

所述手语识别引擎包括：手语识别接口、手语识别服务运营策略模块、手语识别实施模块、以及手语识别管理模块；

所述手语识别接口是完成手语识别功能逻辑上所需接口的定义；

所述手语识别服务运营策略模块，选择最终的手语识别接口的实施例；即配置使用哪种手语识别服务器(自己的还是第三方的)

所述手语识别实施模块，用于对具体实施例的实施；

所述手语识别管理模块，负责管理和维护多个手语识别接口的具体实施。手语识别引擎为了方便引擎的升级，维护和扩展，最佳的实施是部署在视频通话辅助功能服务器上。手语识别引擎部署在视频通话辅助功能服务器上；手语识别接口(API)部署在视频通话客户端上。手语识别提供商管理模块，负责管理和维护多个手语识别接口(API)的具体实施，这些具体实施可能位于第三方手语识别服务器上。手语识别服务运营策略模块负责选择最终的手语识别接口的实施例。

其中，所述手语识别引擎的工作原理：对沟通障碍的人进行视频画面采集；再将采集的图像二值化预处理；并进行手语追踪与识别、手语分割、手语语义映射和手语语义转文字，从而完成手势识别。

如图4所示，所述视频视频通话系统进行视频通话操作具体为：所述视频通话发起端采集参与者的视频画面，进而将视频画面给手语语言识别服务器处理；手语识别主要进行以下操作：调用手语识别引擎识别出手语信息；手语转字幕模块通过将手语信息转化为文字字幕信息；调用字幕转声音模块，将字幕信息转换为声音信息；将字幕信息和声音信息回传给视频通话发起端，视频通话发起端将视频通话的多媒体数据通过视频/音频/字幕编码打包模块进行打包(视频/音频/字幕)，进而调用视频通话中间件模块的视频通话传输模块，将视频通话的数据通过视频通话辅助功能服务器传输到视频通话目标端。

请参阅图2至图4所示，本发明的一种用于沟通障碍的视频通话方法，所述方法需提供视频通话发起端、手语语言识别服务器、视频通话辅助功能服务器以及视频通话目标端；

所述视频通话终端最终将视频、音频信息和文字字幕数据打包，进而通过视频通话辅助功能服务器将视频通话数据送到视频通话目标端。

所述视频通话发起端中设置有硬件驱动、操作系统模块、视频通话中间件模块、手语识别引擎、手语转字幕模块、字幕转声音模块、视频/音频/字幕编码打包模块以及视频通话传输模块；

所述硬件驱动是设备硬件的软件接口抽象；所述硬件驱动包括处理器驱动、通信接口驱动、音频驱动以及视频硬编码驱动。

所述操作系统模块是设备运行其他软件的基础；

所述视频通话中间件模块,通过软件实现视频通话的全部功能接口的总称；

所述手语识别引擎，用于识别出手语信息；

所述字幕转声音模块，用于将文字转为声音；

所述视频/音频/字幕编码打包模块，识别出了手势信息，并转成音频流和字幕流，然后将视频流信息、音频流和字幕流三路流重新打包；

所述视频通话传输模块，即视频通话中间件模块的传输的功能。

在本发明中，所述方法进一步具体为：所述视频视频通话系统进行视频通话操作具体为：所述视频通话发起端采集参与者的视频画面，进而将视频画面给手语语言识别服务器处理；手语识别主要进行以下操作：调用手语识别引擎识别出手语信息；手语转字幕模块通过将手语信息转化为文字字幕信息；调用字幕转声音模块，将字幕信息转换为声音信息；将字幕信息和声音信息回传给视频通话发起端，视频通话发起端将视频通话的多媒体数据通过视频/音频/字幕编码打包模块进行打包，进而调用视频通话中间件模块的视频通话传输模块，将视频通话的数据通过视频通话辅助功能服务器传输到视频通话目标端。

所述手语识别引擎包括：手语识别接口、手语识别服务运营策略模块、手语识别实施模块、以及手语识别管理模块；

所述手语识别接口是完成手语识别功能逻辑上所需接口的定义；

所述手语识别服务运营策略模块，选择最终的手语识别接口的实施例；

所述手语识别实施模块，用于对具体实施例的实施；

总之，本发明使沟通障碍的视频通话参与者，使用手语语言进行交流，通过手语语言识别服务器，将手语语言转换为文字字幕信息。视频通话终端最终将视频、音频和字幕数据打包，进而通过视频通话辅助功能服务器将视频通话数据送到视频通话目标端。从而实现了沟通障碍的视频通话参与者，能够和沟通正常者进行视频通话，为沟通障碍者提供了方便。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：洪涛;孙铭俊;
技术所有人：福州瑞芯微电子股份有限公司;
我是此专利的发明人

上一篇：一种高稳定霍尔元件及其制备方法与流程
上一篇：一种通过机顶盒获取社交网络动态的方法及其系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。