一种实现文语转换功能的方法

文档序号：2823528阅读：219来源：国知局

专利名称：一种实现文语转换功能的方法
技术领域：
本发明涉及一种实现文语转换功能的方法，特别涉及一种采用H.248协议作为控制协议来实现文语转换功能的方法。
背景技术：
文语转换技术是一项核心的语音技术。它将文本信息转换成机器合成的语音，提供方便的、友好的人机交互接口。简单的说就是把一个文本串转换成语音。如输入文本“你好”，通过文语转换功能处理后，输出“你好”这句话的语音。
现有网络系统中，应用服务器在向用户放音时，通常有两种方法第1种方法是直接播放一个录音。如当用户呼叫一个用户失败时，系统会向用户提示“你呼叫的用户不在服务区”，这段提示音是提前录制并存储在服务器设备上的。在H.248协议中已有完善的方法，如H.248.9协议。
第2种方法是用文语转换功能来实现。当用户呼叫失败时，系统把“你呼叫的用户不在服务区”这句文本转换成语音输出给用户。
使用文语转换的好处是(1)修改方便，在修改时只需修改文本，不需要重新录音；(2)可以根据用户需求播放更个性化的提示音，如分别用男声、女声、中性声音播放。
上述的第2种方法在H.248协议中没有定义，而媒体资源应用环境需要使用文语转换功能，就此，本发明提出一种通过H.248协议实现文语转换功能的方法。

发明内容
本发明提供一种媒体资源控制设备通过H.248协议指示媒体资源处理设备实现文语转换功能的方法。
本发明的实现文语转换功能的方法，包括以下步骤
步骤一，媒体资源控制设备通过定义H.248协议扩展包，在H.248消息中携带扩展包参数，指示媒体资源处理设备执行与该参数相应的文语转换处理；以及步骤二，媒体资源处理设备根据上述消息中的参数调用文语转换器执行文语转换处理，并将文语转换结果反馈媒体资源控制设备。
其中，该扩展包参数中携带有文本串的相关信息，媒体资源处理设备根据该文本串的相关信息，调用文语转换器进行文语转换。
上述文本串的相关信息可以为该文本串本身，其作为能被正确发音的字符串嵌入在H.248消息中，媒体资源处理设备接收到该文本串后，直接提取该文本串调用文语转换器进行文语转换。
当文本串预先存储在媒体资源处理设备或者外部服务器上时，上述文本串的相关信息可以为包括该文本串的标识和存储位置信息的文本文件，媒体资源处理设备接收到上述文本文件后，根据其中的存储位置信息，从本地或者外部服务器读取文本串放入缓存，并调用文语转换器进行文语转换。
其中，上述文本串的相关信息可以包括文本串和另一文本串的文本文件，该文本文件包括该另一文本串的标识和存储位置信息，该文本文件的标识和文本串组合成连续文本串，并在文本文件标识前增加关键词标识该组合为一发音文本文件，媒体资源处理设备接收到该组合后，首先从本地或者外部服务器读取文本串，将其和H.248消息中携带的发音文本串进行串接后放入缓存，然后调用文语转换器进行文语转换。
其中，上述文本串的相关信息可以包括一文本串和一录音文件的组合，并在文本串前增加关键词标识该组合为一语音文件，媒体资源处理设备接收到该组合后，首先调用文语转换器对文本串进行文语转换，然后将文语转换后输出的语音与录音文件组合一语音片断。
其中，上述文本串的相关信息可以为包括一文本文件和一录音文件的组合，该文本文件包括该另一文本串的标识和存储位置信息，并在该标识前增加关键词标识该组合为一语音文件，媒体资源处理设备接收到该组合后，首先根据存储位置信息从本地或者外部服务器读取文本串放入缓存，然后调用文语转换器对读取的文本串进行文语转换，并将文语转换后输出的语音与录音文件组合一语音片断。
在上述方法中，该H.248消息中进一步携带有文语转换输出的语音属性的相关参数，该相关参数包括发音语言种类、发音性别、发音年龄、发音速度、发音音量、发音音调、特殊文字的发音方式、停顿、重读、或者在用户输入时是否中止文语转换，媒体资源处理设备接收到该相关参数后调用文语转换器为输出的语音设置相应的属性。
在步骤二媒体资源处理设备调用文语转换器执行文语转换过程中，上述方法进一步包括步骤21，媒体资源控制设备指示媒体资源处理设备检测语音识别过程中发生的异常事件。
在检测到异常事件时，媒体资源处理设备将表示异常事件相应的错误码反馈给媒体资源控制设备。
进一步，在步骤二中媒体资源处理设备调用文语转换器执行文语转换过程中，上述方法还包括步骤22，媒体资源控制设备对文语转换过程进行控制。
在步骤22中，媒体资源控制设备对文语转换过程的控制可以包括暂时停止对用户播放文语转换后的语音，以及从上述暂停状态恢复到播放状态。
在步骤22中，媒体资源控制设备对文语转换过程的控制可以包括使播放快进或者快退，该快进包括快进若干字、句子或者段落，或者快进若干秒，该快退包括包括快退若干字、句子或者段落，或者快退若干秒。
在步骤22中，媒体资源控制设备对文语转换过程的控制可以包括重新开始文语转换。
在步骤22中，媒体资源控制设备对文语转换过程的控制包括用户中止文语转换。
在步骤22中，媒体资源控制设备对文语转换过程的控制包括重复播放当前句、段落或者全文，以及对文语转换过程的控制进一步包括取消对当前句、段落或者全文的重复播放。
通过本发明提供的方法，可以在移动或者固网的媒体资源应用中，给用户提供文语转换相关的业务应用，如把网页上的内容转成声音读给用户听。同时，在修改时只需修改文本，不需要重新录音，并且可以根据用户需求播放更个性化的提示音。

图1为WCDMA IMS网络中，处理媒体资源业务的网络架构。
图2为在固定软交换网络中，处理媒体资源业务的网络架构。
图3为本发明实现文语转换功能的方法的流程图。
具体实施例方式
图1为WCDMA IMS网络中，处理媒体资源业务的网络架构。其中，应用服务器1用于处理各种业务，例如对用户放音、收号、会议、录音等。业务呼叫会话控制设备2用于处理路由，将应用服务器发出的消息正确地转发给媒体资源控制设备3，或者将媒体资源控制设备3发出的消息正确地路由到应用服务器1。媒体资源控制设备3用于控制媒体资源，其根据应用服务器1的要求，选择相应的媒体资源处理设备4并控制媒体资源的处理。媒体资源处理设备4用于媒体资源的处理，在媒体资源控制设备3的控制下，完成应用服务器1下发的媒体资源操作处理。
其中，应用服务器1、业务呼叫会话控制设备2、以及媒体资源控制设备3之间采用的接口使用SIP协议和XML协议，或者是SIP协议和类似XML的协议(例如VXML)。媒体资源控制设备3和媒体资源处理设备4之间采用的接口为Mp接口，使用H.248协议。媒体资源处理设备4的对外接口为Mb接口，一般采用RTP协议承载用户媒体流。
图2为在固定软交换网络中，处理媒体资源业务的网络架构。其中，媒体资源服务器(Media Resource Server，MRS)相当于WCDMA IMS网络中的媒体资源控制设备3和媒体资源处理设备4的功能，应用服务器相当于WCDMA IMS网络中的应用服务器1和业务呼叫会话控制设备2的功能，以及软交换设备和应用服务器1功能大致相同。
本发明所提供通过H.248协议实现文语转换功能的方法可以应用于图1所示的WCDMA IMS网络、以及图2所示的固定软交换网络中的媒体资源处理。同样也可以应用于其它网络，如CDMA网络和固定IMS网络，其媒体资源应用场景的架构和业务流程和上述WCDMA IMS的基本相同，以及WCDMA、CDMA电路软交换网络，其媒体资源应用架构和业务流程和固定软交换网络基本相同。也就是，本发明可以应用于所有通过H.248协议控制媒体资源设备实现文语转换功能的情况。
以下将以应用于WCDMA IMS为例，同时参考

本发明所提供的通过H.248协议实现文语转换功能的方法。
这里，由于本发明只涉及图1所示媒体资源控制设备3和媒体资源处理设备4之间的处理过程，而其他过程同现有WCDMA IMS网络中的处理过程相同，因此，为了简化而只对媒体资源控制设备3和媒体资源处理设备4之间的处理过程进行描述。
如图3所示，为媒体资源控制设备3和媒体资源处理设备4进行媒体资源的控制和处理的流程图。
步骤1，媒体资源控制设备3向媒体资源处理设备4发出进行文语转换的指示。
具体地，媒体资源控制设备3通过定义H.248协议扩展包，在H.248消息中携带扩展包参数，从而指示媒体资源处理设备4执行文语转换。H.248协议包定义如下包名称(Package Name) TTS包(TTS Package)包标识(PackageID)ttsp(0x？？)说明略，参见后续方案的说明版本(Version)1扩展(Extends)无1.特性(Properties)无2.事件(Events)参照在后续“事件”部分中的定义。
3、信号(Signals)参照后续在“信号”部分的定义。
4.统计信息(Statistics)无
5.处理(Procedure)对应后续将要描述的流程。
在步骤1中，可以采用多种方式在H.248消息的参数中携带文本串相关信息(1)在H.248消息的参数中携带文本串文本串是一个能被正确发音的字符串，如“You are welcome！”该文本串的格式不被处理H.248协议的功能实体识别，只是作为一个串嵌入在H.248消息中。媒体资源处理设备4接收到此参数后，可以直接提取文本串交给文语转换器处理。
(2)在H.248消息参数中携带文本串文件标识和存储位置信息文本串可以预先存储在媒体资源处理设备4或者外部服务器上，H.248消息中携带该文本串文件的标识和存储位置信息。
文本串文件的标识可以是符合文件命名规范的任意字符串。
文本串文件的存储位置信息有三种形式I.本地可直接存取的文件，如welcome.txt；II.通过file://方式存取的文件，如file://huawei/welcome.txt；III.通过http://方式存取的文件，如http://huawei/welcome.txt；媒体资源处理设备接收到此参数后，根据文本串文件的存放位置，先从远端服务器或者本地存储中读取文本文件，放入缓存，再调用文语转换器处理。
(3)在H.248消息参数中同时携带文本串和文本文件，文本串和文件组合执行把文本文件标识和文本串组合成一个连续文本串，在文本文件标识前面增加特殊的关键字，表示引入一个发音文本文件，而不是直接转换这个文件名，如<importtextfile http://huawei/welcome.txt>
Do you want to play a game？媒体资源处理设备4接收到发音文本串和文本串文件的组合执行命令后，先进行预处理，从外部服务器或者在本地读取文本串文件，并将其和消息中携带的发音文本串连接成为一个串，放入缓存，再调用文语转换器处理。
(4)指示对一个文本串或者文本文件做文语转换处理后，再和录音片段组合成另一个语音段在语音文件标识前面增加特殊的关键字，表示引入一个语音文件，而不是直接转换这个文件名，如<importaudiofile http://huawei/welcome.g711>
Do you want to play a game？媒体资源处理设备4接收到文语转换语音和录音文件的组合执行命令后，先进行预处理，从远端服务器或者本地读取文件，放入缓存；再调用文语转换器处理文本串，并将文语转换的输出语音和语音文件组合成一个语音片段。
另外，在步骤1中，进一步在H.248消息中携带文语转换输出的语音属性参数。在指示媒体资源处理设备执行文语转换时，可携带的与发音有关的参数有(1)发音语言种类可以使用不同的语言种类，遵从RFC3066的定义。
(2)发音性别可以是男声、女声或者中性声音；(3)发音年龄可以是孩童声音、成年人声音、或者老年声音；(4)发音速度发音速度可以比正常语速更快或者更慢，用百分比表示，-20％表示比正常速度慢20％。
(5)发音音量发音音量可以比正常音调更高或者更低，用百分比表示，-20％表示比正常音调低20％。
(6)发音音调发音音调可以比正常音调更高或者更低，用百分比表示，-20％表示比正常音调低20％。
(7)特殊文字的发音方式对文本串中的特殊字规定发音方式。如“2005/10/01”的发音为“2005年10月1日”。
(8)是否停顿和停顿时长、停顿位置停顿的目的是为了符合发音习惯，停顿时长是大于0的一个时间值，停顿位置可以有几种取值在每读完一句话后停顿，或者在每读完一段话后停顿。
(9)是否重读和重读级别、重读的位置重读级别可以是高、中、低三个级别；重读的位置可以有几种取值只在全文开始时重读，每句话的开始都重读，每段话的开始都重读等。
(10)是否预读取文本文件若指示预读取文件，则在接收到命令后，就到远程服务器读取文件缓存在本地，否则等到命令执行时再读取文件；(11)文件缓存的时长文件读取到本地后，缓存多长时间后失效。
(12)是否在用户输入DTMF或者语音时，中止文语转换。
在文语转换和自动语音/DTMF识别同时进行时，文语转换过程中若用户输入DTMF或者语音时，文语转换可以中止。
步骤2，媒体资源处理设备在接收到媒体资源控制设备的指示后，确认该指示，将确认信息反馈媒体资源控制设备，并调用文语转换器进行文语转换，向用户播放转换后的语音。
具体地，在H.248协议包中定义了信号(Signal)，包括(1)指示播放TTS文件的信号；(2)指示播放TTS串的信号；(3)指示播放TTS串、TTS文件以及语音片断的信号；(4)指示设置重音的信号；(5)指示设置停顿的信号；以及(6)指示特殊字词的信号，这些信号分别表示如下(1)播放TTS文件(Play TTS File)，用于指示执行文语转换功能。信号名(Signal Name) 播放TTS文件(P1ay TTS File)
信号标识(SignalID) ptf(0x？？)说明(Description) 对文本串文件执行TTS功能信号类型(SignalType)BR时长(Duration) 不可用(Not Applicable)其附加参数(Additional Parameter)包括I.
参数名(Parameter Name) TTS文件参数标识(Parameter ID) tf(0x？？)说明TTS文件名和存储位置类型(Type) 字符串(String)是否可选(Optional) 否可能取值(Possible Value)合法的文件标识和存储格式默认值(Default) 无II.
参数名语言类型(Language Type)参数标识lt(0x？？)说明语言类型类型字符串是否可选否可能值遵从RFC3066协议默认值无III.
参数名性别(Gender)参数标识ge(0x？？)说明发音性别类型字符串是否可选否可能值男，女，中性默认值无IV.
参数名年龄(Age)参数标识ag(0x？？)说明发音年龄类型字符串是否可选否可能值孩子，成人，老人默认值无V.
参数名速度(Speed)参数标识sp(0x？？)说明发音速度类型整数是否可选yes可能值从-100％到100％之间的值默认值无VI.
参数名音量(Volume)参数标识vo(0x？？)说明发音音量类型整数是否可选是可能值从-100％到100％之间的值默认值无VII.
参数名音调(Tone)参数标识 to(0x？？)说明发音音调类型整数是否可选是可能值从-100％到100％之间的值默认值无VII.
参数名预读文件(Prefetch)参数标识 pf(0x？？)说明预读取文本串文件类型 enum是否可选是可能值是，否默认值是VIII.
参数名缓存时间(Cache Time)参数标识 ct(0x？？)说明文件缓存时长类型整数是否可选是可能值大于0秒默认值无IX.
参数名 DTMF插入参数标识 dbi(0x？？)说明在用户输入DTMF时，中止文语转换类型 enum是否可选是可能值是，否默认值无X.
参数名 voice barge in参数标识 vbi(0x？？)说明在用户输入者语音时，中止文语转换类型整数是否可选是可能值大于0秒默认值无(2)播放TTS串(Play TTS String)，用于指示对文本串执行TTS功能。
信号名称播放TTS串信号标识pts(0x？？)说明指示对文本串执行TTS功能信号类型BR时长不可用其附加参数包括I.
参数名 TTS串(TTS String)参数标识 ts(0x？？)说明可进行发音的文本串类型字符串是否可选否可能值可进行发音的文本串默认值无II.其它参数和“播放TTS文件”信号的II、III、IV、V、VI、IX、X相同。
(3)播放TTS串、TTS文件以及语音片断信号名称播放组合(Play union)信号标识 pu(0x？？)说明播放TTS串、TTS文件、语音片段文件的组合信号类型 BR时长不可用其附加参数包括I.
参数名 TTS和语音片断参数标识 ta(0x？？)说明播放TTS串、TTS文件、语音片段文件的组合类型字符串是否可选 No可能值播放TTS串、TTS文件、语音片段文件的组合默认值无
II.其它参数和“播放TTS文件”信号的II、III、IV、V、VI、IX、X相同。但II、III、IV、V、VI参数只适用于TTS转换过程。
(4)设置重音(Set Accentuation)，用于指示TTS的重读级别和位置。
信号名称设置重读(Set Accentuation)信号标识sa(0x？？)说明指示TTS的重读级别和位置信号类型BR时长不可用其附加参数包括I.
参数名重读位置(Accentuation Position)参数标识ap(0x？？)说明重读位置类型字符串是否可选是可能值开始位置，句子开头，段落开头默认值无II.
参数名重读级别(Accentuation Grade)参数标识ag(0x？？)说明重读级别类型字符串是否可选是可能值高，中，低默认值无
(5)设置停顿(Set Break)，用于指示TTS的停顿位置和时长。
信号名称设置停顿(Set Break)信号标识 sb(0x？？)说明指示TTS的停顿位置和时长类型信号 BR时长不可用其附加参数包括I.
参数名停顿位置(Break Position)参数标识 bp(0x？？)说明停顿位置类型字符串是否可选否可能值句子的结尾，段落的结尾默认值无II.
参数名停顿时长(Break Time)参数标识 bt(0x？？)说明停顿时长类型整数是否可选 yes可能值大于0毫秒默认值无(6)特殊字词(Special Words)，用于指示TTS对特殊字词的发音方法。信号名称(Signal Name) 特殊字词信号标识(SignalID)sw(0x？？)说明指示TTS对特殊字词的发音方法类型信号 BR时长不可用其附加参数参数包括I.
参数名目标字词(Destination Words)参数标识 dw(0x？？)说明文本串中的原始字词类型字符串是否可选是可能值任何默认值无II.
参数名取代发音(Say As)参数标识 sa(0x？？)说明取代的发音方法类型字符串是否可选是可能值任何默认值无步骤3，媒体资源控制设备3指示媒体资源处理设备检测文语转换结果。
步骤4，媒体资源处理设备4在接收到该指示之后，确认并返回确认信息。
步骤5，媒体资源控制设备3对文语转换过程进行控制，该控制包括1、暂停暂时停止对用户播放转换后的语音；
2、恢复恢复以上暂停状态到播放状态；3、快进和快进到的位置，有多种指示方法(1)快进若干个字；(2)快进到后面某一句的开始；(3)快进到后面某一段开始；(4)快进若干秒；(5)快进若干语音单位(语音单位由实现自定义，如10s)。
4、快退和快退的位置，有多种指示方法(1)快退若干个字；(2)快退到前面某一句开始；(3)快退到前面某一段开始；(4)快退若干秒；(5)快退若干语音单位(语音单位由实现自定义，如10s)。
5、重新开始文语转换；6、文语转换结束用户中止7、重复和重复的范围，有多种指示方法(1)重复当前句；(2)重复当前段；(3)重复全文；8、取消重复取消上述的重复播放；9、重新设置文语转换参数，包括上述的音调、音量、音速、发音性别、发音年龄、重读位置、停顿位置和时长等参数。
具体地，在H.248协议包中的定义为信号包括TTS暂停、(1)TTS暂停(TTS Pause)，用于指示暂停TTS。
信号名称 TTS暂停(TTS pause)信号标识 tp(0x？？)说明指示暂停TTS
类型信号 BR时长不可用附加参数无(2)TTS恢复(TTS Resume)，用于指示恢复TTS暂停。
信号名称 TTS恢复(TTS Resume)信号标识 tr(0x？？)说明指示恢复TTS暂停类型信号 BR时长不可用附加参数无(3)TTS跳过字词(TTS Jump Words)，用于指示跳过几个字后继续进行。
信号名称 TTS跳过字词信号标识 tjw(0x？？)说明指示跳到某一个位置继续进行类型信号 BR时长不可用附加参数I.
参数名跳过多少(Jump Size)参数标识 js(0x？？)说明跳过的字个数，正表示向后，负表示向前类型整数是否可选否可能值任何默认值无(4)TTS跳过句子(TTS Jump Sentences)，用于指示跳过几个句子后继续进行。
信号名称 TTS jump sentences信号标识 tjs(0x？？)说明指示跳过几个句子后继续进行类型信号 BR时长不可用附加参数包括I.
参数名跳过多少参数标识 js(0x？？)说明跳转的句子个数，正表示向后，负表示向前类型整数是否可选否可能值任何默认值无(5)TTS跳过段落(TTS Jump Paragraphs)，用于指示跳过几个段落后继续进行。
信号名称 TTS跳过段落信号标识 tjp(0x？？)说明指示跳过几个段落后继续进行类型信号 BR时长不可用附加参数包括I.
参数名跳过多少参数标识js(0x？？)说明跳转的段落个数，正表示向后，负表示向前类型整数是否可选否可能值任何默认值无(6)TTS跳过秒数(TTS Jump Seconds)，用于指示跳过几秒的语音后继续进行。
信号名称TTS跳过秒数信号标识tjs(0x？？)说明指示跳过几秒语音后继续进行类型信号BR时长不可用附加参数包括I.
参数名跳过多少参数标识js(0x？？)说明跳转的秒数，正表示向后，负表示向前类型整数是否可选否可能值任何默认值无(7)TTS跳过语音单元(TTS Jump Voice Unit)，用于指示跳过几个语音单元后继续进行。
信号名称 TTS跳过语音单元信号标识 tjvu(0x？？)说明指示跳过几个语音单元后继续进行，语音单元大小实现自定义类型信号 BR时长不可用附加参数包括I.
参数名跳过多少参数标识 js(0x？？)说明跳转的语音单元数，正表示向后，负表示向前类型整数是否可选否可能值任何默认值无(8)TTS重新开始(TTS Restart)信号名称 TTS重新开始信号标识 tr(0x？？)说明 TTS重新开始类型信号 BR时长不可用附加参数无(9)TTS结束(TTS End)信号名称 TTS结束信号标识te(0x？？)说明TTS结束类型信号BR时长不可用附加参数无(10)TTS重复(TTS Repeat)，指示重复进行TTS的某一段文字。
信号名称TTS重复信号标识tre(0x？？)说明重复进行TTS的某一段文字类型信号BR时长不可用附加参数包括I.
参数名重复位置参数标识pos(0x？？)说明重复位置类型字符串是否可选否可能值当前句子，当前段落，所有内容默认值无是否可选yes可能值大于0秒步骤6，媒体资源处理设备4在接收到该指示之后，确认并返回确认信息。
步骤7，媒体资源处理设备4将在文语转换过程中检测到的事件如正常结束，超时等反馈给媒体资源控制设备3。
文语转换过程检测到的事件包括异常情况下的错误码、以及正常转换结束时描述结果的参数。
1、文语转换功能执行的错误码媒体资源处理设备在执行文语转换过程中，若产生异常，要向媒体资源控制设备返回具体的错误码。错误码的具体值由标准组织统一分配，内容包括(1)不能识别的单词或者字；(2)不能发音的字；(3)文本串文件不存在；(4)文本串文件读取错误；(5)参数不支持或者错误；(6)对文语转换的控制不支持或者错误；(7)媒体资源处理设备硬件错误；(8)媒体资源处理设备软件错误；(9)其它错误。
2、文语转换正常结束后返回的描述结果的参数文语转换正常结束时，可以返回以下信息(1)文语转换过程正常结束；(2)用户输入触发文语转换中止用户输入中止键，用户输入DTMF，用户输入语音。
(3)统计信息向用户播放的文语转换语音时长。
具体如下事件(1)TTS执行失败(TTS Failure)事件名(Event Name) TTS执行失败事件标识(EventID) ttsfail(0x？？)说明文语转换执行失败，返回错误码事件说明参数(EventDescriptor Parameters) 无检测到的事件参数(ObservedEventDescriptor parameters)包括I.
参数名错误返回码(Error Return Code)参数标识erc(0x？？)说明错误码参数参数类型整数是否可选否可能值以上方案定义的错误码默认值无(2)TTS执行完成(TTS Success)事件名称TTS执行完成事件标识ttssuss(0x？？)说明文语转换执行完成，返回结果事件说明参数无检测到的事件参数(ObservedEventDescriptor parameters)包括L.
参数名结束原因(End Cause)参数标识ec(0x？？)说明触发文语转换结束的原因类型整数是否可选是可能值转换完成，用户输入DTMF、用户输入语音默认值无II.
参数名 TTS时间(TTS Time)
参数标识 tt(0x？？)说明执行文语转换的时长类型整数是否可选是可能值大于0秒默认值无步骤8，媒体资源控制设备3将确认消息反馈给媒体资源处理设备4，文语转换结束。
通过本发明提供的方法，可以在移动或者固网的媒体资源应用中，给用户提供文语转换相关的业务应用，如把网页上的内容转成声音读给用户听。同时，在修改时只需修改文本，不需要重新录音，并且可以根据用户需求播放更个性化的提示音。
可以理解的是，本发明并不限于上述的实施例，本领域的技术人员可以在理解本发明的基础上进行相应的变更或者修饰。例如，媒体资源控制设备3可以同时向媒体资源处理设备4发出上述步骤1和步骤3中的指示，并且媒体资源处理设备4可以同时执行步骤2和步骤4中的操作。
权利要求
1.一种实现文语转换功能的方法，其特征在于，媒体资源控制设备通过H.248协议，控制媒体资源处理设备实现文语转换，该方法包括以下步骤步骤一，媒体资源控制设备通过定义H.248协议扩展包，在H.248消息中携带扩展包参数，指示媒体资源处理设备执行与该参数相应的文语转换处理；以及步骤二，媒体资源处理设备根据上述消息中的参数调用文语转换器执行文语转换处理，并将文语转换结果反馈媒体资源控制设备。
2.如权利要求1所述的方法，其特征在于，该扩展包参数中携带有文本串的相关信息，媒体资源处理设备根据该文本串的相关信息，调用文语转换器进行文语转换。
3.如权利要求2所述的方法，其特征在于，上述文本串的相关信息为该文本串本身，其作为能被正确发音的字符串嵌入在H.248消息中，媒体资源处理设备接收到该文本串后，直接提取该文本串调用文语转换器进行文语转换。
4.如权利要求2所述的方法，其特征在于，当文本串预先存储在媒体资源处理设备或者外部服务器上时，上述文本串的相关信息为包括该文本串的标识和存储位置信息的文本文件，媒体资源处理设备接收到上述文本文件后，根据其中的存储位置信息，从本地或者外部服务器读取文本串放入缓存，并调用文语转换器进行文语转换。
5.如权利要求2所述的方法，其特征在于，上述文本串的相关信息包括文本串和另一文本串的文本文件，该文本文件包括该另一文本串的标识和存储位置信息，该文本文件的标识和文本串组合成连续文本串，并在文本文件标识前增加关键词标识该组合为一发音文本文件，媒体资源处理设备接收到该组合后，首先从本地或者外部服务器读取文本串，将其和H.248消息中携带的发音文本串进行串接后放入缓存，然后调用文语转换器进行文语转换。
6.如权利要求2所述的方法，其特征在于，上述文本串的相关信息包括一文本串和一录音文件的组合，并在文本串前增加关键词标识该组合为一语音文件，媒体资源处理设备接收到该组合后，首先调用文语转换器对文本串进行文语转换，然后将文语转换后输出的语音与录音文件组合一语音片断。
7.如权利要求2所述的方法，其特征在于，上述文本串的相关信息包括一文本文件和一录音文件的组合，该文本文件包括该另一文本串的标识和存储位置信息，并在该标识前增加关键词标识该组合为一语音文件，媒体资源处理设备接收到该组合后，首先根据存储位置信息从本地或者外部服务器读取文本串放入缓存，然后调用文语转换器对读取的文本串进行文语转换，并将文语转换后输出的语音与录音文件组合一语音片断。
8.如权利要求2所述的方法，其特征在于，该H.248消息中进一步携带有文语转换输出的语音属性的相关参数，该相关参数包括发音语言种类、发音性别、发音年龄、发音速度、发音音量、发音音调、特殊文字的发音方式、停顿、重读、或者在用户输入时是否中止文语转换，媒体资源处理设备接收到该相关参数后调用文语转换器为输出的语音设置相应的属性。
9.如权利要求1至8任何一项所述的方法，其特征在于，在步骤二中媒体资源处理设备调用文语转换器执行文语转换过程中，进一步包括步骤21，媒体资源控制设备指示媒体资源处理设备检测语音识别过程中发生的异常事件。
10.如权利要求9所述的方法，其特征在于，在检测到异常事件时，媒体资源处理设备将表示异常事件相应的错误码反馈给媒体资源控制设备。
11.如权利要求9所述的方法，其特征在于，在步骤二中媒体资源处理设备调用文语转换器执行文语转换过程中，进一步包括步骤22，媒体资源控制设备对文语转换过程进行控制。
12.如权利要求11所述的方法，其特征在于，媒体资源控制设备对文语转换过程的控制包括暂时停止对用户播放文语转换后的语音。
13.如权利要求12所述的方法，其特征在于，媒体资源控制设备对文语转换过程的控制进一步包括从上述暂停状态恢复到播放状态。
14.如权利要求11所述的方法，其特征在于，媒体资源控制设备对文语转换过程的控制包括使播放快进或者快退，该快进包括快进若干字、句子或者段落，或者快进若干秒，该快退包括包括快退若干字、句子或者段落，或者快退若干秒。
15.如权利要求11所述的方法，其特征在于，媒体资源控制设备对文语转换过程的控制包括重新开始文语转换。
16.如权利要求11所述的方法，其特征在于，媒体资源控制设备对文语转换过程的控制包括用户中止文语转换。
17.如权利要求11所述的方法，其特征在于，媒体资源控制设备对文语转换过程的控制包括重复播放当前句、段落或者全文。
18.如权利要求17所述的方法，其特征在于，媒体资源控制设备对文语转换过程的控制进一步包括取消对当前句、段落或者全文的重复播放。
全文摘要
一种实现文语转换功能的方法，其中，媒体资源控制设备通过H.248协议，控制媒体资源处理设备实现文语转换。该方法包括以下步骤媒体资源控制设备通过定义H.248协议扩展包，在H.248消息中携带扩展包参数，指示媒体资源处理设备执行与该参数相应的文语转换处理；以及，媒体资源处理设备根据上述消息中的参数调用文语转换器执行文语转换处理，并将文语转换结果反馈媒体资源控制设备。通过本发明提供的方法，可以在移动或者固网的媒体资源应用中给用户提供文语转换相关的业务应用，同时，在修改时只需修改文本，不需要重新录音，并且可以根据用户需求播放更个性化的提示音。
文档编号G10L13/04GK1953053SQ20051011427
公开日2007年4月25日申请日期2005年10月21日优先权日2005年10月21日
发明者陈诚申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈诚
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：电子音乐设备系统、服务器端及客户端电子音乐设备的制作方法
上一篇：一种实现语音识别功能的方法