语音识别到视频的转换装置的制作方法

文档序号:2829729阅读:237来源:国知局
专利名称:语音识别到视频的转换装置的制作方法
技术领域
本发明涉及々某体服务器应用和语音识别领域,并且特别地,涉 及利用媒体服务器提供语音识别到视频的转换装置。
背景技术
下 一代网络是业务驱动的网络,媒体服务器是提供专用媒体资 源功能的独立设备,也是分组网络中的重要设备,它在体系中的位 置如附图l所示,其中,图1是业务驱动网络组成的示意图,媒体 服务器在应用服务器的控制下,提供软交换上各种业务所需的媒体
资源功能,包4舌方文音,录音,3又音多频(dual-tone multi-frequency, DTMF)收号,传真,会议、语音合成(text to speech, TTS)及自 动i吾音i口、另l1 ( automatic speech recognition, ASR)等功能,同时提 供语音加载、删除等功能,其中,图2示出了媒体服务器的组成。
随着科技的发展,用户对多媒体生活化的需求会越来越广泛, 不但需要文字声音,还要有视觉的感官需求,这就迫使新业务的开 展尤为重要,其中,从语音识别到时频的转换技术就是一项值得的 研究和开发的i果题,然而,目前鲜见有与》匕相关的4支术成果。

发明内容
考虑到上述问题而做出本发明,为此,本发明提供了一种利用 々某体月良务器来实现i吾音识别到 一见频的转换的才几制,其可以实现声音 到视频的转换,从而满足用户的需求。
本发明的主要发明思想是,基于媒体服务器语音识别的功能, 将其输出作为输入到媒体服务器的转换处理程序,通过转换处理程 序转换输出视频,输出的视频流由媒体服务器发送到终端。也就是 说,在现有硬件资源的基础上,充分利用资源,适当增加软件资源 的投入,即可根据网络发展的需求来扩充业务。
在本发明的实施例中,4是供了 一种语音识别到—见频的转换装置。
该装置包括识别码建立模块,用于在媒体服务器在启动时根 据视频资源的类型建立对应的识别码;音频流接收模块,连接至识 别码建立模块,用于在媒体服务器在接收到应用服务器的请求后, 建立音频流的连4妄通道并接收音频流;语音识别模块,连接至音频 流接收模块,用于识别音频数据,并将识别后的数据输出到转换处 理模块;转换处理模块,连接至语音识别模块和识别码建立模块, 用于在接收到语音识别模块的数据之后进行转换,并将转换后的数 据与识别码建立模块建立的识别码对照,从而实现视频转换;以及 视频流输出模块,连接至转换处理模块,用于将转换后的视频流通 过网络输出到终端设备。
其中,如果纟见频资源的类型为新添加的类型,则识别码建立才莫 块提供接口,以实时地添加一见频资源对应的识别码。并且,音频流 接收4莫块在"f妾收音频流后通知语音识别纟莫块开始处理。
另外,语音识别才莫块在输出识别后的凄丈据之后,通知转换处理 才莫块开始处理。然后,转:换处理纟莫块在4姿收到开始处理的通知后, 将由语音识别模块输出的数据读取到自己的緩存中。其中,转换处 理才莫块在将转换后的凄t据与由识别码建立冲莫块建立的识别码对照
后,将转换后的视频索引添加到緩存中。
并且,转换处理模块对视频索引排序,并且在完成排序后通知 视频流输出模块开始发送。然后,视频流输出模块在接收到转换处 理模块的通知后,4艮据视频索引找到视频资源,并且开始发送。
通过上述技术方案,本发明可以通过々某体服务器实现语音识别
到^L频的转换。


此处所说明的附图用来提供对本发明的进一步理解,构成本申 请的一部分,本发明的示意性实施例及其说明用于解释本发明,并 不构成对本发明的不当限定。在附图中
图1是业务驱动网络组成的示意图2是根据本发明实施例的媒体服务器的组成的示意图3是根据本发明第一实施例的语音到视频转换方法的流程
图4是根据本发明实施例的语音到视频转换方法的示意图;以

图5是根据本发明实施例的语音到视频转换装置的框图。
具体实施例方式
下面将参考附图详细i兌明本发明。 第一实施例
首先,将参照图3和图4描述本发明的第一实施例。图3是根 据本发明第一实施例的语音到视频转换方法的流程图,图4是根据 本发明实施例的语音到纟见频转换方法的示意图。
如图3所示,根据本发明第一实施例的语音识别到视频的转换 方法包括以下步骤步骤S302:媒体服务器在启动时根据视频资源 的类型建立对应的识别码;步骤S304:媒体服务器在接收到应用服 务器的请求后,建立音频流的连接通道并接收音频流;步骤S306: 媒体服务器的语音识别模块识别音频数据,并将识别后的数据输出 到转换处理程序;步骤S308:转换处理程序在4妄收到识别后的^t据 之后进行转换,并将转换后的数据与在步骤S302中建立的识别码 对照,从而实现视频转换;以及步骤S310:媒体服务器将转换后的 视频流通过网络输出到终端设备。
其中,在步骤S302中,如果一见频资源的类型为新添加的类型, 则媒体服务器提供接口,以实时地添加视频资源对应的识别码。并 且,在步骤S304中,々某体服务器在接收音频流后通知语音识别模 块开始处理。另外,在步骤S306中,语音识别才莫块在输出识别后 的数据之后,通知转换处理程序开始处理。
另外,在步骤S308中,转换处理程序在4矣收到开始处理的通 知后,将由语音识别模块输出的数据读取到自己的緩存中。并且, 在步骤S308中,转换处理程序在将转换后的数据与在步骤S302中 建立的识别码对照后,将转换后的视频索引添加到緩存中。
其中,转换处理程序对视频索引排序,并且在完成排序后通知 々某体服务器开始发送。另外,々某体服务器在接收到转换处理程序的 通知后,根据视频索引找到视频资源,并且开始发送。
例如,参照图3和图4,首先,J 某体月良务器启动时,4艮据:枧频资
源类型建立对应识别码,具体如下
(1) 媒体服务器启动时,搜索该类型资源,为该类型资源建 立对应识别石马;
(2) 如果新添加该类资源,J 某体服务器提供接口,能够实时 进4亍该资源对应的识别码添加;
其次,媒体服务器在接收到应用服务器的请求后,建立音频流 的连4妄通道,4妾收i吾音流进^S吾音识别处理
(3) 应用服务器发送请求到媒体服务器,媒体服务器根据请 求建立音频流的连4妾通道;
(4) i某体服务器在通道建立后,接收音频流,并通知语音识 别才莫块开始处理;
然后,由媒体服务器的语音识别模块识别音频数据,将识别数 据输出到转换处理程序中
(5) 媒体服务器的语音识别模块接到指令后,开始处理音频
数据;
(6 )语音识别才莫块将处理后的数据输出到转换处理程序中, 并通知它开始处理;
之后,媒体服务器转换程序在接收到识别数据后进行转换,将
转换后的数据与识别码对照,实现一见频的转换
(7 )媒体服务器的转换程序接到通知,将数据读到自己的緩
存中;
(8) 对应相应的识别码,将转换后的^L频索引添加到緩存中, 同时用优化算法排序,整理好后,通知开始发送;
(9) 媒体服务器接到通知,根据转换程序转换的视频索引找 到视频资源,开始发送;
最后,视频流通过网络输出到终端设备中。
下面举例i兌明小王新买了个3G手才几,同时他办理了语音转 -f见频业务,可以通过手^L对业务类型进4于配置。小王通过平时i吾音 识别练习,语音识别率得到了很大提高。某天,小王的母亲过生日, 小王因在外工作原因不能回家,为了表达对母亲的祝愿,就通过手 机对母亲说了些祝愿母亲生日快乐的话,音频通过应用服务器传输 到媒体服务器中,媒体服务器进行语音识别,同时将识别后的数据 对应一见频识别码进4亍转4奐(^L频识别码可以由小王配置的一见频业务 类型决定),媒体服务器将转换后的视频传送到母亲的手机里。这 才羊,母亲不^旦可以看到自己的孩子,听到孩子的声音,还可以看到
传送来的生日快乐业务^见频, 一见频中蛋糕、鲜花、文字加上音乐, 母亲体会到孩子的一片孝心。
该方法能够将语音识别的数据转换成附带视频画面,动感十 足,而且娱乐性强,能够提高人们的强大兴趣,可用于教学、娱乐 等方面。随着网络带宽的拓宽,3G的使用,用户对多媒体生活化 的需求会越来越广泛,都会使此功能显的更加重要。
这是对本发明的场景举例说明,并不局限本发明的用途,本发 明提供了 一种利用媒体服务器提供语音识别转视频的方法,填补了 利用々某体服务器进行语音识别转—见频的方法的空白,从而实现了 一 种语音和一见频之间的转换关系。
第二实施例
下面将参照图5描述本发明的第二实施例。图5是根据本发明 实施例的语音识别到视频的转换装置500的框图。
如图5所示,根据本发明实施例的语音识别到视频的转换装置 500包括识别码建立模块502,用于在4某体服务器在启动时根据 视频资源的类型建立对应的识别码;音频流接收模块504,连接至 识别码建立模块502,用于在媒体服务器在接收到应用服务器的请 求后,建立音频流的连4妄通道并接收音频流;语音识别才莫块506, 连接至音频流接收模块504,用于识别音频数据,并将识别后的数 据输出到转换处理模块508;转换处理才莫块508,连接至语音识别 才莫块506和识别码建立才莫块502,用于在4妄收到语音识别才莫块506 的数据之后进行转换,并将转换后的数据与识别码建立模块502建 立的识别码对照,从而实现—见频转换;以及—见频流输出才莫块510, 连接至转换处理模块,用于将转换后的视频流通过网络输出到终端 设备。
其中,如果视频资源的类型为新添加的类型,则识别码建立模 块502 4是供4妄口 ,以实时地添加一见频资源对应的识别码。并且,音 频流接收模块504在接收音频流后通知语音识别模块506开始处理。
另夕卜,语音识别模块506在输出识别后的数据之后,通知转换 处理模块508开始处理。然后,转换处理模块508在接收到开始处
理的通知后,将由语音识别模块506输出的数据读取到自己的緩存 中。其中,转换处理模块S08在将转换后的数据与由识别码建立模 块502建立的识别码对照后,将转换后的—见频索引添加到緩存中。
并且,转换处理才莫块508对一见频索引排序,并且在完成排序后 通知视频流输出才莫块开始发送。然后,视频流输出模块在接收到转 换处理模块的通知后,根据视频索引找到视频资源,并且开始发送。
以上所述 <又为本发明的优选实施例而已,并不用于限制本发 明,对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进 等,均应包含在本发明的保护范围之内。
权利要求
1.一种语音识别到视频的转换装置,其特征在于,包括识别码建立模块,用于在媒体服务器在启动时根据视频资源的类型建立对应的识别码;音频流接收模块,连接至所述识别码建立模块,用于在所述媒体服务器在接收到应用服务器的请求后,建立音频流的连接通道并接收音频流;语音识别模块,连接至所述音频流接收模块,用于识别音频数据,并将识别后的数据输出到转换处理模块;转换处理模块,连接至所述语音识别模块和所述识别码建立模块,用于在接收到所述语音识别模块的数据之后进行转换,并将转换后的数据与所述识别码建立模块建立的所述识别码对照,从而实现视频转换;以及视频流输出模块,连接至所述转换处理模块,用于将转换后的视频流通过网络输出到终端设备。
2. 根据权利要求1所述的语音识别到视频的转换装置,其特征在 于,如果视频资源的类型为新添加的类型,则所述识别码建立模块提供接口,以实时地添加所述视频资源对应的识别码。
3. 根据权利要求1所述的语音识别到视频的转换装置,其特征在 于,所述音频流接收模块在接收音频流后通知所述语音识别模 块开始处理。
4. 根据权利要求1所述的语音识别到视频的转换装置,其特征在 于,所述语音识别才莫块在输出识别后的数据之后,通知所述转 换处理模块开始处理。
5. 根据权利要求1所述的语音识别到视频的转换装置,其特征在 于,所述转换处理模块在接收到开始处理的通知后,将由所述 语音识别模块输出的数据读取到自己的緩存中。
6. 根据权利要求5所述的语音识别到视频的转换装置,其特征在 于,所述转换处理模块在将转换后的数据与由所述识别码建立 才莫块建立的所述识别码对照后,将转换后的^L频索引添加到所 述緩存中。
7. 根据权利要求6所述的语音识别到视频的转换装置,其特征在 于,所述转换处理模块对所述视频索引排序,并且在完成排序 后通知所述视频流输出模块开始发送。
8. 根据权利要求7所述的语音识别到视频的转换装置,其特征在 于,所述纟见频流输出模块在接收到所述转换处理模块的通知 后,4艮据所述^L频索引找到一见频资源,并且开始发送。
全文摘要
本发明公开了一种语音识别到视频的转换装置,包括识别码建立模块,用于在媒体服务器在启动时根据视频资源的类型建立对应的识别码;音频流接收模块,连接至识别码建立模块,用于在媒体服务器在接收到应用服务器的请求后,建立音频流的连接通道并接收音频流;语音识别模块,连接至音频流接收模块,用于识别音频数据,并将识别后的数据输出到转换处理模块;转换处理模块,连接至语音识别模块和识别码建立模块,用于在接收到语音识别模块的数据之后进行转换,并将转换后的数据与识别码建立模块建立的识别码对照,从而实现视频转换;以及视频流输出模块,连接至转换处理模块,用于将转换后的视频流通过网络输出到终端设备。
文档编号G10L21/06GK101202049SQ20061016099
公开日2008年6月18日 申请日期2006年12月11日 优先权日2006年12月11日
发明者嵩 张, 东 王, 罡 郑 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1