语音识别到视频的转换装置的制作方法

文档序号：2829729阅读：237来源：国知局

专利名称：语音识别到视频的转换装置的制作方法
技术领域：
本发明涉及々某体服务器应用和语音识别领域，并且特别地，涉及利用媒体服务器提供语音识别到视频的转换装置。
背景技术：
下一代网络是业务驱动的网络，媒体服务器是提供专用媒体资源功能的独立设备，也是分组网络中的重要设备，它在体系中的位置如附图l所示，其中，图1是业务驱动网络组成的示意图，媒体服务器在应用服务器的控制下，提供软交换上各种业务所需的媒体
资源功能，包4舌方文音，录音，3又音多频(dual-tone multi-frequency, DTMF)收号，传真，会议、语音合成(text to speech, TTS)及自动i吾音i口、另l1 ( automatic speech recognition, ASR)等功能，同时提供语音加载、删除等功能，其中，图2示出了媒体服务器的组成。
随着科技的发展，用户对多媒体生活化的需求会越来越广泛，不但需要文字声音，还要有视觉的感官需求，这就迫使新业务的开展尤为重要，其中，从语音识别到时频的转换技术就是一项值得的研究和开发的i果题，然而，目前鲜见有与》匕相关的4支术成果。

发明内容
考虑到上述问题而做出本发明，为此，本发明提供了一种利用々某体月良务器来实现i吾音识别到一见频的转换的才几制，其可以实现声音到视频的转换，从而满足用户的需求。
本发明的主要发明思想是，基于媒体服务器语音识别的功能，将其输出作为输入到媒体服务器的转换处理程序，通过转换处理程序转换输出视频，输出的视频流由媒体服务器发送到终端。也就是说，在现有硬件资源的基础上，充分利用资源，适当增加软件资源的投入，即可根据网络发展的需求来扩充业务。
在本发明的实施例中，4是供了一种语音识别到—见频的转换装置。
该装置包括识别码建立模块，用于在媒体服务器在启动时根据视频资源的类型建立对应的识别码；音频流接收模块，连接至识别码建立模块，用于在媒体服务器在接收到应用服务器的请求后，建立音频流的连4妄通道并接收音频流；语音识别模块，连接至音频流接收模块，用于识别音频数据，并将识别后的数据输出到转换处理模块；转换处理模块，连接至语音识别模块和识别码建立模块，用于在接收到语音识别模块的数据之后进行转换，并将转换后的数据与识别码建立模块建立的识别码对照，从而实现视频转换；以及视频流输出模块，连接至转换处理模块，用于将转换后的视频流通过网络输出到终端设备。
其中，如果纟见频资源的类型为新添加的类型，则识别码建立才莫块提供接口，以实时地添加一见频资源对应的识别码。并且，音频流接收4莫块在"f妾收音频流后通知语音识别纟莫块开始处理。
另外，语音识别才莫块在输出识别后的凄丈据之后，通知转换处理才莫块开始处理。然后，转:换处理纟莫块在4姿收到开始处理的通知后，将由语音识别模块输出的数据读取到自己的緩存中。其中，转换处理才莫块在将转换后的凄t据与由识别码建立冲莫块建立的识别码对照
后，将转换后的视频索引添加到緩存中。
并且，转换处理模块对视频索引排序，并且在完成排序后通知视频流输出模块开始发送。然后，视频流输出模块在接收到转换处理模块的通知后，4艮据视频索引找到视频资源，并且开始发送。
通过上述技术方案，本发明可以通过々某体服务器实现语音识别
到^L频的转换。

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中
图1是业务驱动网络组成的示意图2是根据本发明实施例的媒体服务器的组成的示意图3是根据本发明第一实施例的语音到视频转换方法的流程
图4是根据本发明实施例的语音到视频转换方法的示意图；以
及
图5是根据本发明实施例的语音到视频转换装置的框图。
具体实施例方式
下面将参考附图详细i兌明本发明。第一实施例
首先，将参照图3和图4描述本发明的第一实施例。图3是根据本发明第一实施例的语音到视频转换方法的流程图，图4是根据本发明实施例的语音到纟见频转换方法的示意图。
如图3所示，根据本发明第一实施例的语音识别到视频的转换方法包括以下步骤步骤S302:媒体服务器在启动时根据视频资源的类型建立对应的识别码；步骤S304:媒体服务器在接收到应用服务器的请求后，建立音频流的连接通道并接收音频流；步骤S306: 媒体服务器的语音识别模块识别音频数据，并将识别后的数据输出到转换处理程序；步骤S308:转换处理程序在4妄收到识别后的^t据之后进行转换，并将转换后的数据与在步骤S302中建立的识别码对照，从而实现视频转换；以及步骤S310:媒体服务器将转换后的视频流通过网络输出到终端设备。
其中，在步骤S302中，如果一见频资源的类型为新添加的类型，则媒体服务器提供接口，以实时地添加视频资源对应的识别码。并且，在步骤S304中，々某体服务器在接收音频流后通知语音识别模块开始处理。另外，在步骤S306中，语音识别才莫块在输出识别后的数据之后，通知转换处理程序开始处理。
另外，在步骤S308中，转换处理程序在4矣收到开始处理的通知后，将由语音识别模块输出的数据读取到自己的緩存中。并且，在步骤S308中，转换处理程序在将转换后的数据与在步骤S302中建立的识别码对照后，将转换后的视频索引添加到緩存中。
其中，转换处理程序对视频索引排序，并且在完成排序后通知々某体服务器开始发送。另外，々某体服务器在接收到转换处理程序的通知后，根据视频索引找到视频资源，并且开始发送。
例如，参照图3和图4，首先，J 某体月良务器启动时，4艮据:枧频资
源类型建立对应识别码，具体如下
(1) 媒体服务器启动时，搜索该类型资源，为该类型资源建立对应识别石马；
(2) 如果新添加该类资源，J 某体服务器提供接口，能够实时进4亍该资源对应的识别码添加；
其次，媒体服务器在接收到应用服务器的请求后，建立音频流的连4妄通道，4妾收i吾音流进^S吾音识别处理
(3) 应用服务器发送请求到媒体服务器，媒体服务器根据请求建立音频流的连4妾通道；
(4) i某体服务器在通道建立后，接收音频流，并通知语音识别才莫块开始处理；
然后，由媒体服务器的语音识别模块识别音频数据，将识别数据输出到转换处理程序中
(5) 媒体服务器的语音识别模块接到指令后，开始处理音频
数据；
(6 )语音识别才莫块将处理后的数据输出到转换处理程序中，并通知它开始处理；
之后，媒体服务器转换程序在接收到识别数据后进行转换，将
转换后的数据与识别码对照，实现一见频的转换
(7 )媒体服务器的转换程序接到通知，将数据读到自己的緩
存中；
(8) 对应相应的识别码，将转换后的^L频索引添加到緩存中，同时用优化算法排序，整理好后，通知开始发送；
(9) 媒体服务器接到通知，根据转换程序转换的视频索引找到视频资源，开始发送；
最后，视频流通过网络输出到终端设备中。
下面举例i兌明小王新买了个3G手才几，同时他办理了语音转 -f见频业务，可以通过手^L对业务类型进4于配置。小王通过平时i吾音识别练习，语音识别率得到了很大提高。某天，小王的母亲过生日，小王因在外工作原因不能回家，为了表达对母亲的祝愿，就通过手机对母亲说了些祝愿母亲生日快乐的话，音频通过应用服务器传输到媒体服务器中，媒体服务器进行语音识别，同时将识别后的数据对应一见频识别码进4亍转4奐(^L频识别码可以由小王配置的一见频业务类型决定)，媒体服务器将转换后的视频传送到母亲的手机里。这才羊，母亲不^旦可以看到自己的孩子，听到孩子的声音，还可以看到
传送来的生日快乐业务^见频，一见频中蛋糕、鲜花、文字加上音乐，母亲体会到孩子的一片孝心。
该方法能够将语音识别的数据转换成附带视频画面，动感十足，而且娱乐性强，能够提高人们的强大兴趣，可用于教学、娱乐等方面。随着网络带宽的拓宽，3G的使用，用户对多媒体生活化的需求会越来越广泛，都会使此功能显的更加重要。
这是对本发明的场景举例说明，并不局限本发明的用途，本发明提供了一种利用媒体服务器提供语音识别转视频的方法，填补了利用々某体服务器进行语音识别转—见频的方法的空白，从而实现了一种语音和一见频之间的转换关系。
第二实施例
下面将参照图5描述本发明的第二实施例。图5是根据本发明实施例的语音识别到视频的转换装置500的框图。
如图5所示，根据本发明实施例的语音识别到视频的转换装置 500包括识别码建立模块502,用于在4某体服务器在启动时根据视频资源的类型建立对应的识别码；音频流接收模块504,连接至识别码建立模块502,用于在媒体服务器在接收到应用服务器的请求后，建立音频流的连4妄通道并接收音频流；语音识别才莫块506, 连接至音频流接收模块504,用于识别音频数据，并将识别后的数据输出到转换处理模块508;转换处理才莫块508,连接至语音识别才莫块506和识别码建立才莫块502，用于在4妄收到语音识别才莫块506 的数据之后进行转换，并将转换后的数据与识别码建立模块502建立的识别码对照，从而实现—见频转换；以及—见频流输出才莫块510, 连接至转换处理模块，用于将转换后的视频流通过网络输出到终端设备。
其中，如果视频资源的类型为新添加的类型，则识别码建立模块502 4是供4妄口，以实时地添加一见频资源对应的识别码。并且，音频流接收模块504在接收音频流后通知语音识别模块506开始处理。
另夕卜，语音识别模块506在输出识别后的数据之后，通知转换处理模块508开始处理。然后，转换处理模块508在接收到开始处
理的通知后，将由语音识别模块506输出的数据读取到自己的緩存中。其中，转换处理模块S08在将转换后的数据与由识别码建立模块502建立的识别码对照后，将转换后的—见频索引添加到緩存中。
并且，转换处理才莫块508对一见频索引排序，并且在完成排序后通知视频流输出才莫块开始发送。然后，视频流输出模块在接收到转换处理模块的通知后，根据视频索引找到视频资源，并且开始发送。
以上所述 <又为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种语音识别到视频的转换装置，其特征在于，包括识别码建立模块，用于在媒体服务器在启动时根据视频资源的类型建立对应的识别码；音频流接收模块，连接至所述识别码建立模块，用于在所述媒体服务器在接收到应用服务器的请求后，建立音频流的连接通道并接收音频流；语音识别模块，连接至所述音频流接收模块，用于识别音频数据，并将识别后的数据输出到转换处理模块；转换处理模块，连接至所述语音识别模块和所述识别码建立模块，用于在接收到所述语音识别模块的数据之后进行转换，并将转换后的数据与所述识别码建立模块建立的所述识别码对照，从而实现视频转换；以及视频流输出模块，连接至所述转换处理模块，用于将转换后的视频流通过网络输出到终端设备。
2. 根据权利要求1所述的语音识别到视频的转换装置，其特征在于，如果视频资源的类型为新添加的类型，则所述识别码建立模块提供接口，以实时地添加所述视频资源对应的识别码。
3. 根据权利要求1所述的语音识别到视频的转换装置，其特征在于，所述音频流接收模块在接收音频流后通知所述语音识别模块开始处理。
4. 根据权利要求1所述的语音识别到视频的转换装置，其特征在于，所述语音识别才莫块在输出识别后的数据之后，通知所述转换处理模块开始处理。
5. 根据权利要求1所述的语音识别到视频的转换装置，其特征在于，所述转换处理模块在接收到开始处理的通知后，将由所述语音识别模块输出的数据读取到自己的緩存中。
6. 根据权利要求5所述的语音识别到视频的转换装置，其特征在于，所述转换处理模块在将转换后的数据与由所述识别码建立才莫块建立的所述识别码对照后，将转换后的^L频索引添加到所述緩存中。
7. 根据权利要求6所述的语音识别到视频的转换装置，其特征在于，所述转换处理模块对所述视频索引排序，并且在完成排序后通知所述视频流输出模块开始发送。
8. 根据权利要求7所述的语音识别到视频的转换装置，其特征在于，所述纟见频流输出模块在接收到所述转换处理模块的通知后，4艮据所述^L频索引找到一见频资源，并且开始发送。
全文摘要
本发明公开了一种语音识别到视频的转换装置，包括识别码建立模块，用于在媒体服务器在启动时根据视频资源的类型建立对应的识别码；音频流接收模块，连接至识别码建立模块，用于在媒体服务器在接收到应用服务器的请求后，建立音频流的连接通道并接收音频流；语音识别模块，连接至音频流接收模块，用于识别音频数据，并将识别后的数据输出到转换处理模块；转换处理模块，连接至语音识别模块和识别码建立模块，用于在接收到语音识别模块的数据之后进行转换，并将转换后的数据与识别码建立模块建立的识别码对照，从而实现视频转换；以及视频流输出模块，连接至转换处理模块，用于将转换后的视频流通过网络输出到终端设备。
文档编号G10L21/06GK101202049SQ20061016099
公开日2008年6月18日申请日期2006年12月11日优先权日2006年12月11日
发明者嵩张, 东王, 罡郑申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王东;郑罡;张嵩
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：随机式声纹密码验证系统、随机式声纹密码锁及其产生方法
上一篇：一种带有声音预处理的移动终端及其方法