语音识别到视频的转换方法和装置的制作方法

文档序号：7973671阅读：197来源：国知局

专利名称：语音识别到视频的转换方法和装置的制作方法
技术领域：
本发明涉及4某体月良务器应用和语音识别领域，并且特别地，涉及利用媒体服务器提供语音识别到视频的转换方法和装置。
背景技术：
下一代网络是业务驱动6々网络，媒体服务器是提供专用媒体资源功能的独立设备，也是分组网络中的重要设备，它在体系中的位置如附图1所示，其中，图1是业务驱动网络组成的示意图，媒体服务器在应用服务器的控制下，提供软交换上各种业务所需的媒体资源功能，包4舌方文音，录音，双音多步贞(dual-tone multi-frequency， DTMF)收号，传真，会议、语音合成(textto speech, TTS )及自动"i吾音"i只另'J ( automatic speech recognition, ASR)等功能，同时4是供语音加载、删除等功能，其中，图2示出了媒体服务器的组成。
随着科技的发展，用户对多媒体生活化的需求会越来越广泛，不但需要文字声音，还要有一见觉的感官需求，这就迫^f吏新业务的开展尤为重要，其中，从语音识别到时频的转换技术就是一项值得的研究和开发的课题，然而，目前鲜见有与此相关的技术成果。

发明内容
考虑到上述问题而做出本发明，为此，本发明提供了一种利用媒体服务器来实现语音识别到视频的转换的机制，其可以实现声音
到视频的转换，从而满足用户的需求。
本发明的主要发明思想是，基于媒体服务器语音识别的功能，将其输出作为输入到媒体服务器的转换处理程序，通过转换处理程序转换输出视频，输出的视频流由媒体服务器发送到终端。也就是说，在现有硬件资源的基础上，充分利用资源，适当增加软件资源的投入，即可根据网络发展的需求来扩充业务。
首先，根据本发明的一个实施例，提供了一种语音识别到一见频的转换方法。
该方法包括以下步骤第一步骤媒体服务器在启动时根据视频资源的类型建立对应的识别码；第二步骤媒体服务器在接收到应用服务器的请求后，建立音频流的连接通道并接收音频流；第三步骤媒体服务器的语音识别模块识别音频数据，并将识别后的数据输出到转换处理程序；第四步骤转换处理程序在接收到识别后的数据之后进行转换，并将转换后的数据与在第一步骤中建立的识别码对照，从而实现视频转换；以及第五步骤媒体服务器将转换后的视频流通过网络输出到终端设备。
其中，在第一步骤中，如果;f见频资源的类型为新添加的类型，则媒体服务器提供接口，以实时地添加视频资源对应的识别码。并且，在第二步骤中，媒体服务器在接收音频流后通知语音识别模块开始处理。另外，在第三步骤中，语音识别模块在输出识别后的数据之后，通知转换处理程序开始处理。另外，在第四步驶《中，4争:换处理禾呈序在4妄^)文到开始处理的通知后，将由语音识别模块输出的数据读取到自己的緩存中。并且，转换处理程序在将转换后的^t据与在第一步骤中建立的识别码对照后，将转换后的视频索引添加到緩存中。
其中，转换处理程序对视频索引排序，并且在完成排序后通知媒体服务器开始发送。另外，媒体服务器在接收到转换处理程序的通知后，根据视频索引找到视频资源，并且开始发送。
此外，根据本发明的另一实施例，本发明提供了一种语音识别到视频的转换装置。
该装置包括识别码建立模块，用于在媒体服务器在启动时根
据-现频资源的类型建立对应的识别码；音频流4^收才莫块，连4妄至识别码建立模块，用于在媒体服务器在接收到应用服务器的请求后，建立音频流的连4妄通道并4妄收音频流；i吾音识别^莫块，连4妾至音频流4秦收模块，用于识别音频数据，并将识别后的数据输出到转换处理模块；转换处理模块，连接至语音识别模块和识别码建立模块，用于在接收到语音识别模块的数据之后进行转换，并将转换后的数据与识别码建立模块建立的识别码对照，从而实现视频转换；以及视频流输出模块，连接至转换处理模块，用于将转换后的视频流通过网络输出到终端设备。
其中，如果视频资源的类型为新添加的类型，则识别码建立模块提供4妄口，以实时地添加一见频资源对应的识别码。并且，音频流接收模块在接收音频流后通知语音识别模块开始处理。
另夕卜，语音识别模块在输出识别后的数据之后，通知转换处理才莫块开始处理。然后，转换处理^莫块在接收到开始处理的通知后，将由语音识别模块输出的数据读取到自己的緩存中。其中，转换处理才莫块在将转换后的^:据与由识别码建立才莫块建立的识别码对照后，将转换后的视频索引添加到緩存中。
并且，转换处理冲莫块对—见频索引排序，并且在完成排序后通知洋见频流输出冲莫块开始发送。然后，一见频流输出才莫块在4矣收到转换处理才莫块的通知后，才艮据;阮频索引找到-见频资源，并且开始发送。
通过上述4支术方案，本发明可以通过々某体服务器实现语音识别到^L频的转换。

此处所i兌明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中
图1是业务驱动网络组成的示意图2是根据本发明实施例的媒体服务器的组成的示意图3是才艮据本发明第一实施例的语音到^L频转换方法的流程
图4是根据本发明实施例的语音到视频转换方法的示意图；以
及
图5是根据本发明实施例的语音到视频转换装置的框图。
具体实施例方式
下面将参考附图详细说明本发明。
第一实施例
首先，将参照图3和图4描述本发明的第一实施例。图3是根据本发明第一实施例的语音到一见频转换方法的流程图，图4是冲艮据
本发明实施例的语音到—见频转换方法的示意图。
如图3所示，根据本发明第一实施例的语音识别到视频的转换方法包括以下步骤步骤S302:媒体服务器在启动时根据视频资源的类型建立对应的识别码；步骤S304:纟某体力艮务器在4妄收到应用月良务器的请求后，建立音频流的连接通道并4妄收音频流；步骤S306: 媒体服务器的语音识别模块识别音频数据，并将识别后的数据输出到转换处理程序；步骤S308:转换处理程序在4姿收到识别后的数据之后进行转换，并将转换后的数据与在步骤S302中建立的识别码对照，从而实现4见频转换；以及步骤S310:々某体服务器将转换后的视频流通过网络输出到终端设备。
其中，在步骤S302中，如果一见频资源的类型为新添加的类型，则媒体服务器提供接口，以实时地添加视频资源对应的识别码。并且，在步骤S304中，媒体服务器在接收音频流后通知语音识别模块开始处理。另外，在步4聚S306中，i吾音识别才莫块在^r出识别后的数据之后，通知转换处理程序开始处理。
另外，在步骤S308中，转:换处理禾呈序在4妄收到开始处理的通知后，将由语音识别模块输出的数据读取到自己的緩存中。并且，在步骤S308中，转换处理程序在将转换后的数据与在步骤S302中建立的识别码对照后，将转换后的^L频索引添加到緩存中。
其中，转换处理程序对;f见频索引排序，并且在完成排序后通知媒体服务器开始发送。另外，媒体服务器在接收到转换处理程序的通知后，根据视频索引找到视频资源，并且开始发送。例如，参照图3和图4，首先，々某体月良务器启动时，才艮据-现频资源类型建立对应识别码，具体如下
(1 ) i某体月良务器启动时，4臾索该类型资源，为该类型资源建立对应识别；马；
(2) 如果新添加该类资源，媒体服务器提供接口，能够实时进^f亍该资源对应的识别码添加；
其次，媒体服务器在接收到应用服务器的请求后，建立音频流的连接通道，4妄收语音流进行语音识别处理
(3) 应用服务器发送请求到媒体服务器，媒体服务器根据请求建立音频:流的连4妾通道；
(4) 纟某体服务器在通道建立后，接收音频流，并通知语音识别才莫块开始处理；
然后，由媒体服务器的语音识别模块识别音频数据，将识别数据输出到转换处理程序中
(5) 媒体服务器的语音识别模块接到指令后，开始处理音频
数据；
(6 )语音识别模块将处理后的数据输出到转换处理程序中，并通4口它开始处J里；
之后，媒体服务器转换程序在接收到识别数据后进行转换，将转换后的数据与识别码对照，实现纟见频的转换
(7 )媒体服务器的转换程序接到通知，将数据读到自己的緩
存中；
(8)对应相应的识别码，将转换后的视频索引添加到緩存中，同时用优化算法排序，整理好后，通知开始发送；
(9 )々某体月良务器接到通知，4艮据转换程序转换的4见频索引找到4见频资源，开始发送；
最后，视频流通过网络输出到终端设备中。
下面举例i兌明小王新买了个3G手4几，同时他办理了语音转一见频业务，可以通过手4几对业务类型进4亍配置。小王通过平时i吾音识别练习，语音识别率得到了很大提高。某天，小王的母亲过生日，小王因在外工作原因不能回家，为了表达对母亲的祝愿，就通过手才几对母亲"i兌了些^兄愿母亲生日快乐的话，音频通过应用服务器传输到媒体服务器中，々某体服务器进行语音识别，同时将识别后的数据对应一见频识别石马进4亍转换( 一见频识别码可以由小王配置的#见频业务类型决定)，媒体服务器将转换后的视频传送到母亲的手机里。这 ^^羊，母亲不^f旦可以看到自己的孩子，听到孩子的声音，还可以看到传送来的生日快乐业务视频，视频中蛋糕、鲜花、文字加上音乐，母亲体会到孩子的一片孝心。
该方法能够将语音识另1 j的数据转换成附带一见频画面，动感十足，而且娱乐性强，能够提高人们的强大兴趣，可用于教学、娱乐等方面。随着网络带宽的拓宽，3G的使用，用户对多媒体生活化的需求会越来越广泛，都会使此功能显的更加重要。
这是对本发明的场景举例说明，并不局限本发明的用途，本发明提供了一种利用媒体服务器提供语音识别转视频的方法，填补了利用媒体服务器进行语音识别转视频的方法的空白，从而实现了一种语音和^L频之间的转换关系。
第二实施例
下面将参照图5描述本发明的第二实施例。图5是根据本发明
实施例的"^吾音识别到^L频的4争4奐装置500的4匡图。
如图5所示，根据本发明实施例的语音识别到视频的转换装置 500包括识别码建立模块502,用于在媒体服务器在启动时根据视频资源的类型建立对应的识别码；音频流接收模块504，连接至识别码建立模块502,用于在媒体服务器在接收到应用服务器的请求后，建立音频流的连接通道并接收音频流；语音识别模块506, 连接至音频流接收模块504,用于识别音频数据，并将识别后的数据输出到转换处理模块508;转换处理模块508,连接至语音识别才莫块506和识别码建立才莫块502，用于在4妾收到"i吾音识别才莫块506 的数据之后进行转换，并将转换后的数据与识别码建立模块502建立的识别码对照，从而实现视频转换；以及视频流输出模块510，连接至转换处理模块，用于将转换后的视频流通过网络输出到终端设备。
其中，如果视频资源的类型为新添加的类型，则识别码建立模块502提供接口，以实时地添加视频资源对应的识别码。并且，音频流接收模块504在接收音频流后通知语音识别模块506开始处理。
另外，语音识别模块506在输出识别后的数据之后，通知转换处理才莫块508开始处理。然后，转:f灸处理才莫块508在4妄收到开始处理的通知后，将由语音识别才莫块506输出的#:据读取到自己的纟爰存中。其中，转换处理模块508在将转换后的数据与由识别码建立模块502建立的识别码对照后，将转换后的视频索引添加到緩存中。
并且，转换处理才莫块508对:枧频索引排序，并且在完成排序后通知视频流输出模块开始发送。然后，视频流输出模块在接收到转换处理模块的通知后，根据视频索引找到视频资源，并且开始发送。
以上所述^f又为本发明的优选实施例而已，并不用于限制本发
明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种语音识别到视频的转换方法，其特征在于，包括以下步骤第一步骤媒体服务器在启动时根据视频资源的类型建立对应的识别码；第二步骤所述媒体服务器在接收到应用服务器的请求后，建立音频流的连接通道并接收音频流；第三步骤所述媒体服务器的语音识别模块识别音频数据，并将识别后的数据输出到转换处理程序；第四步骤所述转换处理程序在接收到所述识别后的数据之后进行转换，并将转换后的数据与在所述第一步骤中建立的所述识别码对照，从而实现视频转换；以及第五步骤所述媒体服务器将转换后的视频流通过网络输出到终端设备。
2. 根据权利要求1所述的语音识别到视频的转换方法，其特征在于，在所述第一步骤中，如果视频资源的类型为新添加的类型，则所述媒体服务器提供接口，以实时地添加所述一见频资源对应的识别码。
3. 根据权利要求1所述的语音识别到一见频的转换方法，其特征在于，在所述第二步骤中，所述媒体服务器在接收音频流后通知所述语音识别模块开始处理，并且，在所述第三步骤中，所述语音识别模块在输出识别后的数据之后，通知所述转换处理程序开始处理。
4. 根据权利要求1所述的语音识别到视频的转换方法，其特征在于，在所述第四步骤中，所述转换处理程序在接收到开始处理的通知后，将由所述语音识别模块输出的数据读取到自己的緩存中，并且将转换后的数据与在所迷第一步骤中建立的所迷识别码对照后，将转」换后的一见频索？I添加到所述纟爰存中。
5. 根据权利要求4所述的语音识别到视频的转换方法，其特征在于，所述转换处理程序对所述视频索引排序，并且在完成排序后通知所述媒体服务器开始发送，所述媒体服务器在接收到所述转换处理程序的通知后，4艮据所述一见频索引找到—见频资源，并且开始发送。
6. —种语音识别到一见频的转换装置，其特征在于，包括识别码建立模块，用于在媒体服务器在启动时根据视频资源的类型建立对应的识别码；音频流4秦收才莫块，连4妄至所述识别码建立才莫块，用于在所述媒体服务器在接收到应用服务器的请求后，建立音频流的连才妄通道并4妄收音频流；语音识别模块，连接至所述音频流接收模块，用于识别音频数据，并将识别后的数据输出到转换处理模块；转换处理模块，连接至所述语音识别模块和所述识别码建立模块，用于在接收到所述语音识别模块的数据之后进行转换，并将转换后的数据与所述识别码建立模块建立的所述识别码对照，从而实现视频转换；以及视频流输出模块，连接至所述转换处理模块，用于将转换后的视频流通过网络输出到终端设备。
7. 根据权利要求6所述的语音识别到视频的转换装置，其特征在于，如果视频资源的类型为新添加的类型，则所述识别码建立模块4是供接口，以实时地添加所述一见频资源对应的识别码。
8. 根据权利要求6所述的语音识别到视频的转换装置，其特征在于，所述音频流接收模块在接收音频流后通知所述语音识别模块开始处理，并且，所述语音识别才莫块在输出识别后的数据之后，通知所述转换处理一莫块开始处理，所述转换处理一莫块在接-收到开始处理的通知后，将由所述语音识别模块输出的数据读取到自己的緩存中。。
9. 根据权利要求8所述的语音识别到视频的转换装置，其特征在于，所述转换处理模块在将转换后的数据与由所述识别码建立模块建立的所述识别码对照后，将转换后的视频索引添加到所述緩存中。
10. 根据权利要求9所述的语音识别到视频的转换装置，其特征在于，所述转换处理模块对所述视频索引排序，并且在完成排序后通知所述一见频流输出模块开始发送，并且，所述视频流输出模块在接收到所述转换处理模块的通知后，根据所述视频索引找到视频资源，并且开始发送。
全文摘要
本发明公开了一种语音识别到视频的转换方法，该方法包括以下步骤第一步骤媒体服务器在启动时根据视频资源的类型建立对应的识别码；第二步骤媒体服务器在接收到应用服务器的请求后，建立音频流的连接通道并接收音频流；第三步骤媒体服务器的语音识别模块识别音频数据，并将识别后的数据输出到转换处理程序；第四步骤转换处理程序在接收到识别后的数据之后进行转换，并将转换后的数据与在第一步骤中建立的识别码对照，从而实现视频转换；以及第五步骤媒体服务器将转换后的视频流通过网络输出到终端设备。另外，本发明还提供了一种语音识别到视频的转换装置。通过本发明，实现了语音识别到视频的转换。
文档编号H04N7/173GK101202888SQ200610161000
公开日2008年6月18日申请日期2006年12月11日优先权日2006年12月11日
发明者嵩张, 东王, 罡郑申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王东;郑罡;张嵩
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：一种具网络功能的可携式储存装置的制作方法
上一篇：一种基于媒体服务器实现高速缓存的装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。