一种在视频业务中获取用户输入信息的实现方法及装置的制作方法

文档序号：7765414阅读：588来源：国知局

专利名称：一种在视频业务中获取用户输入信息的实现方法及装置的制作方法
技术领域：
本发明属于通信技术领域，尤其涉及一种在视频业务中获取用户输入信息的实现方法及装置。
背景技术：
视频业务系统是利用通信网技术和智能网技术建立的一种智能业务服务系统。视频业务系统中的关键控制设备是交互式语音和视频应答(Interactive Voice and Video Response, IVVR)设备。当用户通过用户视频电话终端拨打智能业务的统一接入号码并触发业务后，IVVR通过视频语音方式为用户提供视频语音导航服务。用户根据在用户视频电话终端例如手机视频终端上播放的视频菜单图像及语言音提示，通过按键方式选择自己需要的服务内容，然后IVVR将服务内容信息通过图像和语音的方式播放给用户。如果自动播放的视频和语音服务不能满足用户需求，视频业务系统中可提供菜单选择转人工方式。用户选择转人工后，系统根据用户需要的服务类型转接到对应的人工台。在语音或视频业务服务系统中及转人工后的视频通话中，除了给用户终端播放语音视频内容外，通常都需要接收用户的菜单选择或者查询条件的输入，如电话号码，时间等信息。目前基于电路域的智能业务系统中，终端的输入有两种方式一种是DTMF(Dual Tone Multi Frequency)即按键输入方式，另一种是ASR(Automatic Speech Recognition)，S口语音识别方式。对于视频业务系统而言，采用DTMF方式，存在如下不足对于终端尺寸小的手机，按键输入不方便；对于没有硬键盘的视频手机，当要输入时，需要在屏幕上使用软键盘，软键盘占用了屏幕的显示窗口，使得视频通话图像的显示窗口变小；在视频服务和视频通话中，为了显示效果，终端距离用户有一定距离，此时输入按键不方便；采用DTMF方式，只能输入字符0-9，*，#。采用ASR方式，可以避免DTMF方式一些不足之处，但ASR方式对发音要求较高，如果口音较重，则ASR识别困难。并且在声音嘈杂的环境中，ASR识别会受到影响。

发明内容
本发明要解决的技术问题是针对上述现有技术中存在的不足，提出一种新的在视频业务中获取用户输入信息的实现方法及装置，以及一种新的视频业务系统，以改善用户的视频业务使用体验。本发明采用的技术方案包括一种在视频业务中获取用户输入信息的实现方法，包括如下步骤设置特定的手势/姿势与输入信息之间的对应关系，并保存该对应关系；用户采用手势/姿势的方式在用户终端输入信息；将用户输入的信息转为视频媒体流，发送到视频业务系统，视频业务系统调取保存的所述对应关系，解读出用户作出的手势/姿势的含义，即获取用户的具体输入信息。
进一步地，所述用户采用手势/姿势的方式在用户终端输入信息包括，视频业务系统向用户播放输入提示信息，用户根据所述提示信息，来选择相应的手势/姿势在用户终端输入信息。采用该方案能够提高视频业务系统对用户输入信息的识别成功几率。进一步地，所述将用户输入的信息转为视频媒体流，指利用用户终端摄像头记录用户作出的手势/姿势，并转为视频媒体流。一种在视频业务中获取用户输入信息的实现装置，包括用户终端和视频业务系统；其中，所述用户终端用于，记录用户作出的手势/姿势，将其转为视频媒体流，并发送到所述视频业务系统；所述视频业务系统用于，设置特定的手势/姿势与输入信息之间的对应关系，并保存该对应关系；当收到所述用户终端发送来的所述视频媒体流时，调取保存的所述对应关系，解读出用户作出的手势/姿势的含义，即获取用户的具体输入信息。进一步地，所述用户终端利用摄像头记录用户作出的手势/姿势。进一步地，所述用户终端还用于接收视频业务系统的输入提示信息，并播放给用户，使用户根据所述提示信息选择相应的手势/姿势来输入信息，从而提高视频业务系统对用户输入信息的识别成功几率。一种视频业务系统，包括媒体服务器、手势/姿势识别模块和数据库；其中，所述媒体服务器用于，接收用户终端传送来的以视频媒体流的形式存在的用户输入信息，并请求所述手势/姿势识别模块识别，所述用户输入信息为用户通过手势/ 姿势的方式输入的信息；所述手势/姿势识别模块用于，根据预先设置的特定的手势/姿势与输入信息之间的对应关系，对所述用户输入信息进行识别，解读出用户作出的手势/姿势的含义，即获取用户的具体输入信息；所述数据库用于，保存所述预先设置的特定的手势/姿势与输入信息之间的对应关系。进一步地，所述媒体服务器还用于向用户播放输入提示信息，使用户根据所述提示信息，选择相应的手势/姿势在用户终端输入信息。采用该方案能够提高视频业务系统对用户输入信息的识别成功几率。进一步地，所述用户输入信息为用户通过手势/姿势的方式，并利用所述用户终端的摄像头输入的信息。进一步地，所述手势/姿势识别模块包括信令处理单元、媒体处理单元和图像识别单元；其中，所述信令处理单元用于接受所述媒体服务器的识别信令请求，通知所述媒体处理单元接收所述媒体服务器发送来的所述用户输入信息；所述媒体处理单元处理所述用户输入信息，提取图像帧，发送给所述图像识别单元进行识别；所述图像识别单元根据预先设置的特定的手势/姿势与输入信息之间的对应关系，对所述图像帧进行识别，获取具体的用户输入信息。本发明通过采用手势/姿势的方式在用户终端实现信息输入，相对于现有的按键输入和语音输入方式，具有如下优点(1)降低了使用难度，用户能够通过简单的手势或姿势实现信息输入；
(2)对于视频业务来说，能够充分利用窗口显示视频内容，利用终端摄像头直接输入，对于视频业务和视频交流更方便；(3)除了可以输入按键输入方式支持的0-9，*，#外，还可以输入其他的字母信息或其他特定信息，输入的内容更广泛；(4)相对语音输入方式来说，不受口音的影响，受环境影响也较小。用户根据视频业务系统的提示，选用手势/姿势提高视频业务系统识别用户嘻嘻你成功的几率，

图1为本发明在视频业务中获取用户输入信息的实现方法流程示意图；图2为本发明在视频业务中获取用户输入信息的实现装置结构示意图；图3为本发明视频业务系统结构示意图；图4为手势/姿势识别模块结构示意图；图5为一个具体实施例的本发明视频业务系统工作流程图。
具体实施例方式下面结合附图和具体实施方式
对本发明作进一步详细说明。图1为本发明在视频业务中获取用户输入信息的实现方法流程示意图，如图所示，本发明在视频业务中获取用户输入信息的实现方法具体包括如下步骤1、设置特定的手势/姿势与输入信息之间的对应关系，并保存该对应关系；其中，输入信息包括0-9，*，#,还可以包括字母或其他特定信息，例如可以为“是”或“否”，则相应地，可以采用点头来表示“是”，以摇头表示“否”。2、在用户视频电话终端(简称用户终端)提示用户输入信息，用户采用手势和/ 或姿势的方式在用户终端输入信息。用户采用手势/姿势的方式在用户终端输入信息具体包括，视频业务系统向用户播放输入提示信息，用户根据提示信息，选择相应的手势/姿势在用户终端输入信息。3、利用用户终端摄像头记录用户作出的手势/姿势，并转为视频媒体流，发送到视频业务系统。4、视频业务系统调取保存的特定的手势/姿势与输入信息之间的对应关系，解读出用户作出的手势/姿势的含义，即获取用户的具体输入信息。图2为本发明在视频业务中获取用户输入信息的实现装置结构示意图，如图所示，本发明在视频业务中获取用户输入信息的实现装置包括用户终端和视频业务系统。其中，用户终端用于，接收视频业务系统的输入提示信息，并播放给用户，使用户根据所述提示信息选择相应的手势/姿势来输入信息，也可以接受用户主动输入信息，然后利用用户终端的摄像头记录用户作出的手势/姿势，将其转为视频媒体流，并发送到视频业务系统。视频业务系统用于，设置特定的手势/姿势与输入信息之间的对应关系，并保存该对应关系；当收到用户终端发送来的视频媒体流时，调取保存的特定的手势/姿势与输入信息之间的对应关系，解读出用户作出的手势/姿势的含义，即获取用户的具体输入信息。其中，输入信息包括0-9，*，#，还可以包括字母或其他特定信息，例如可以为“是”或 “否”，则相应地，可以采用点头来表示“是”，以摇头表示“否”。除本发明提供的上述信息输入模式之外，用户终端还用于提供按键输入方式和语音输入方式，用户可以根据实际需要在三种输入模式之间选择一种使用。图3为本发明视频业务系统结构示意图，如图所示，本发明视频业务系统具体包括通信交换机用于实现电信网信令交换和电话接入，完成电信网中电话的起呼、接续、接通、收号、挂机、号码路由等话路控制功能和语音视频传输、编码转换等语音/视频和媒体流传输功能。通信交换机在视频业务应用中一般采用宽带网的软交换机，支持3G、 NGN(Next Generation Network，下一代网络)、IMS等核心网来话的接入。外部的用户电话终端通过电话网，采用呼叫智能网接入号的方式路由到通信交换机。通信交换机将来话的信令部分经过VIG (Video (Gateway，视频接入网关)送到IVVR，以触发业务。而来话的话路时隙，经过通信交换机处理为H. 324M媒体流送到VIG进行解码。VIG模块3G核心网络的视频网关设备。在NGN，IMS核心网可以不使用该设备。由于在3G核心网络中，对于视频呼叫，通信交换机输出的媒体流是H. 324M媒体流，H. 324M 不能直接用于一般的媒体设备和视频终端，需要通过VIG模块解码为视频媒体流(通常为 H. 263)和音频媒体流(通常为G. 711)，并产生相应的视频媒体流通道端口和音频媒体流通
道端口。IVVR(交互式语音和视频应答)模块视频业务服务系统的核心控制模块。IVVR 模块完成多种视频业务的加载和运行。当用户接入通信交换机后，呼叫信令经过VI G路由至IJIVVR模块，IVVR提取来话呼叫信令中的接入号，不同的接入号触发IVVR上不同的智能业务。智能业务触发后，智能业务流程控制媒体服务器为来话分配媒体资源端口，并通过信令交互，将VIG上用户来话的视频媒体通道端口和媒体服务器的视频媒体资源端口接续，将 VIG和音频媒体通道端口和媒体服务器的音频媒体资源端口接续。智能业务中，可以给用户播放视频菜单文件。在IVVR控制下，通过媒体服务器给用户播放视频文件。同时，通过媒体服务器可以接收用户的输入信息，媒体服务器通过SIP (kssion Initiation Protocol) 或MGCP (Media Gateway Control Protocol，媒体网关控制协议)协议将收到的用户输入的信息反馈给IVVR。IVVR根据收到的反馈信息，播放下个层次的视频菜单，或者根据输入进行内容查询，并生成新的视频内容播放给用户。媒体服务器提供媒体服务资源的模块。完成视频文件、音频文件播放，将视频文件和音频文件转为RTP媒体流(Real-Time Transport I^rotocol)，并通过媒体流资源端口播放给用户；完成接收用户的媒体流，录音、录像到文件；完成音频会议、视频会议；完成传真、TTSCText To Speech)功能；对于输入的音频媒体流完成用户输入信息的DTMF收号或完成语音识别ASR。媒体服务器接收用户终端传送来的以视频媒体流的形式存在的用户输入信息，并请求手势/姿势识别模块识别，该用户输入信息为用户通过手势/姿势的方式输入的信息。媒体服务器还用于向用户播放输入提示信息，使用户根据提示信息，选择相应的手势/姿势在用户终端输入信息，并通过IVVR下发给媒体服务器的输入信息接收规则，对手势/姿势识别模块返回的用户输入的字符串进行接收范围、长度等规则校验和控制。一旦满足条件，将输入信息接收结果返回给IVVR模块。
手势/姿势识别模块根据预先设置的特定的手势/姿势与输入信息之间的对应关系，对以视频媒体流的形式存在的用户输入信息进行识别，解读出用户作出的手势/姿势的含义，即获取用户的具体输入信息。如图4所示，手势/姿势识别模块包括信令处理单元、媒体处理单元和图像识别单元。信令处理单元接受来自媒体服务器的信令请求，请求识别媒体。收到请求后，信令处理单元通知媒体处理单元开始接收对端的媒体流。媒体处理单元处理来自于媒体服务器的视频媒体流，提取图像帧，发送给图像识别单元进行识别，图像识别单元通过识别视频媒体流的图像信息，根据图像中的手势，结合预先建立起的特定的手势/姿势与输入的字符信息之间的对应关系，得到对应的字符信息或其他类型的用户输入信息。图像识别单元进行识别和字符信息个数判断，输出包括但不限于0-9，*，#的字符串信息。也可以通过识别图像中的点头/摇头的姿势，识别为是/否，用于二元判断。每个手势/姿势识别为单个的字符，通过对媒体流中多个图像中多个手势/姿势的识别，就能够识别出多个字符。输出的字符通过信令处理单元返回给媒体服务器。数据库用于保存预先设置的特定的手势/姿势与输入信息之间的对应关系。并存储用户信息、服务信息和系统信息。图5为一个具体实施例的本发明视频业务系统工作流程图，如图所示，该实施例中，用户拨号触发视频业务，在视频菜单的引导下，完成某月话费查询的过程，具体包括以下步骤步骤501 用户在视频终端上拨打视频业务接入号，用户的呼叫通过通信网路由到通信交换机。步骤502 通信交换机对核心网的信令和话路处理后，将信令和话路路由到VIG。步骤503 =VIG将话路进行H. 324M协商和解码，生成视频和音频通道端口。步骤504 =VIG将信令路由到IVVR。步骤505 :IVVR根据呼入的呼叫的被叫号码(接入码)，触发对应的视频业务。 IVVR播放视频菜单，提示用户选择1 咨询，2 话费查询3 投诉，0 转人工；IVVR指示媒体服务器播放视频菜单文件给用户并接受用户的一位选择，输入方式采用手势/姿势输入。步骤506 媒体服务器播放播放视频菜单文件给用户。步骤507 用户在视频终端前作出2对应的手势。视频图像通过媒体流通道，传送到媒体服务器。步骤508 媒体服务器调用手势/姿势识别模块识别图像。步骤509:手势/姿势识别模块识别图像，得到选择结果为2，并将结果返回给媒体服务器。步骤510 媒体服务器返回用户的选择结果信息给IVVR。步骤511 :IVVR根据用户的选择，进入话费查询流程；给用户播放话费查询界面，提示用户输入需要查询的6位年月。步骤512 媒体服务器播放话费查询界面给用户。步骤513 用户根据视频提示，在视频终端前作出2的手势，0的手势，1的手势，0 的手势，0的手势，9的手势。视频图像通过媒体流通道，传送到媒体服务器。步骤514 媒体服务器调用手势/姿势识别模块识别图像。步骤515 手势/姿势识别模块识别图像，得到6位字符200109并将结果返回给媒体服务器。步骤516 媒体服务器根据用户输入信息接收规则，校验200109合法；返回6位字符 200109 给 IVVR0步骤517 :IVVR根据用户主叫号码和要查询的年月到数据库中查询用户的话费信息，并生成话费结果视频。步骤518 =IVVR指示媒体服务器给用户播放查询结果视频。步骤519:媒体服务器给用户播放查询结果视频，用户能够在终端上看到2010年9 月的话费的费用情况。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种在视频业务中获取用户输入信息的实现方法，其特征在于，包括如下步骤设置特定的手势/姿势与输入信息之间的对应关系，并保存该对应关系；用户采用手势/姿势的方式在用户终端输入信息；将用户输入的信息转为视频媒体流，发送到视频业务系统，视频业务系统调取保存的所述对应关系，解读出用户作出的手势/姿势的含义，从而获取用户的具体输入信息。
2.根据权利要求1所述的在视频业务中获取用户输入信息的实现方法，其特征在于，所述用户采用手势/姿势的方式在用户终端输入信息包括，视频业务系统向用户播放输入提示信息，用户根据所述提示信息，来选择相应的手势/姿势在用户终端输入信息。
3.根据权利要求1或2所述的在视频业务中获取用户输入信息的实现方法，其特征在于，所述将用户输入的信息转为视频媒体流，指利用用户终端摄像头记录用户作出的手势/ 姿势，并转为视频媒体流。
4.一种在视频业务中获取用户输入信息的实现装置，其特征在于，包括用户终端和视频业务系统；其中，所述用户终端用于，记录用户作出的手势/姿势，将其转为视频媒体流，并发送到所述视频业务系统；所述视频业务系统用于，设置特定的手势/姿势与输入信息之间的对应关系，并保存该对应关系；当收到所述用户终端发送来的所述视频媒体流时，调取保存的所述对应关系，解读出用户作出的手势/姿势的含义，从而获取用户的具体输入信息。
5.根据权利要求4所述的在视频业务中获取用户输入信息的实现装置，其特征在于，所述用户终端利用摄像头记录用户作出的手势/姿势。
6.根据权利要求4或5所述的在视频业务中获取用户输入信息的实现装置，其特征在于，所述用户终端还用于接收视频业务系统的输入提示信息，并播放给用户，使用户根据所述提示信息选择相应的手势/姿势来输入信息。
7.一种视频业务系统，其特征在于，包括媒体服务器、手势/姿势识别模块和数据库；其中，所述媒体服务器用于，接收用户终端传送来的以视频媒体流的形式存在的用户输入信息，并请求所述手势/姿势识别模块识别，所述用户输入信息为用户通过手势/姿势的方式输入的信息；所述手势/姿势识别模块用于，根据预先设置的特定的手势/姿势与输入信息之间的对应关系，对所述用户输入信息进行识别，解读出用户作出的手势/姿势的含义，从而获取用户的具体输入信息；所述数据库用于，保存所述预先设置的特定的手势/姿势与输入信息之间的对应关系。
8.根据权利要求7所述的视频业务系统，其特征在于，所述媒体服务器还用于向用户播放输入提示信息，使用户根据所述提示信息，选择相应的手势/姿势在用户终端输入信肩、ο
9.根据权利要求7所述的视频业务系统，其特征在于，所述用户输入信息为用户通过手势/姿势的方式，并利用所述用户终端的摄像头输入的信息。
10.根据权利要求7或8或9所述的视频业务系统，其特征在于，所述手势/姿势识别模块包括信令处理单元、媒体处理单元和图像识别单元；其中，所述信令处理单元用于接受所述媒体服务器的识别信令请求，通知所述媒体处理单元接收所述媒体服务器发送来的所述用户输入信息；所述媒体处理单元处理所述用户输入信息，提取图像帧，发送给所述图像识别单元进行识别；所述图像识别单元根据预先设置的特定的手势/姿势与输入信息之间的对应关系，对所述图像帧进行识别，获取具体的用户输入信息。
全文摘要
本发明公开了一种在视频业务中获取用户输入信息的实现方法，包括如下步骤1、设置特定的手势/姿势与输入信息之间的对应关系，并保存该对应关系；2、用户采用手势/姿势的方式在用户终端输入信息，将用户输入的信息转为视频媒体流，发送到视频业务系统；3、视频业务系统调取保存的所述对应关系，解读出用户作出的手势/姿势的含义，从而获取用户的具体输入信息。采用该方法能够显著改善用户的视频业务使用体验。同时本发明还提供了一种相应的在视频业务中获取用户输入信息的实现装置，以及一种视频业务系统，该视频业务系统包括媒体服务器、手势/姿势识别模块和数据库。
文档编号H04L29/06GK102469293SQ20101054729
公开日2012年5月23日申请日期2010年11月17日优先权日2010年11月17日
发明者刘斌, 游波申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：游波;刘斌
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：影像处理方法
上一篇：一种软件销售平台的接入方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。