对文本数据进行编码,以包含用在文本-语音(tts)系统中的增强型语音数据的方法以及...的制作方法

文档序号:6401027阅读:174来源:国知局
专利名称:对文本数据进行编码,以包含用在文本-语音(tts)系统中的增强型语音数据的方法以及 ...的制作方法
技术领域
本发明涉及一种对文本数据进行编码,以便包含那些用在文本-语音(TTS)系统中的增强型语音数据的方法,并且涉及一种解码方法,一种TTS系统和一种包含所述TTS系统的移动电话。
文本-语音(TTS)系统将文本转换成语音,其中包括判定正确的发音。除了正确发音之外,许多TTS系统通过定义特殊的语音模式来控制如何讲述文本。语音模式至少可以相对于韵律学来进行定义,所述韵律学即为语音韵律、不同单词的重读、音调变化、说话速率、音量变化以及如何根据其他特征中尤其是币值、日期、时间等等来说出文本。在下文中,所要讲述的文本与这种语音模式一起称为文本数据。
基于万维网的开发正在不断普及,并且普遍使用诸如XML或HTML这类标记语言来控制基于文本和/或图形的信息的显示,此外还普遍使用上述标记语言来指导那些使用显示器和计算机键盘和/或鼠标输入而进行的人/机对话,这一切都促使开发出标记语言来控制声频信息的显示和指导那些使用语音输入(例如语音识别)和语音输出设备(例如文本-语音或已记录音频)的人/机对话。这种基于听觉的标记语言包括VoiceXML以及更早的JSML(JAVA语音标记语言)。因此,使用标记语言来定义语音模式在现有技术中是已知的。而使用这类标记语言的实例则可以在US6088675或US6269336B中找到。
将TTS系统引入应用的设计人员可以通过使用那些分配给所有或部分输入文本的标签而将标记语言用于定义语音模式。作为选择,设计人员也可以选择使用TTS系统提供的软件编程接口(使用一个专有接口或是更为广泛采用的接口,例如Microsoft SAP I(www.microsoft.com/speech))。因此,定义一种语音模式需要具备关于TTS系统或所用标记语言所使用的特定编程接口方面的专家级经验。并且可以通过使用那些用于自动生成标记语言的工具来保证这种专家级经验。然而,不论发生哪一种情况,TTS系统的大多数用户都不具有这种经验或者使用这种支持工具。
本发明的一个目的是在不需要这种专家级经验的情况下增强语音模式。
US6006187中描述了一种用于控制人工合成的语音特征的交互式图形用户界面。然而,这个方法需要具有一个显示器并且相当麻烦,尤其在与诸如移动电话这类移动设备相结合的情况下。
因此,本发明针对的是一种对文本数据进行编码,以便包含那些在文本-语音(TTS)系统中使用的增强型语音数据的方法,所述方法包括向文本数据添加一个标识符,以便能够识别所述增强型语音数据;规定增强型语音数据;以及将所述增强型语音数据添加到所述文本数据中;其中所述改进在于所述文本数据包含了文本和初始语音数据,并且所述增强型语音数据改善了所述文本的发音。
并且,本发明还针对一种对那些带有注释的文本数据进行解码的方法,所述文本数据包括那些在文本-语音(TTS)系统中使用的增强型语音数据和文本数据,所述方法包括对带有注释的文本数据中的标识符进行检测,以便能够识别所述增强型语音数据;以及从所述文本数据中分离所述增强型语音数据;其中所述改进在于所述文本数据包含了文本和初始语音数据,并且所述增强型语音数据改善了所述文本的发音。
本发明还包含了所附权利要求中定义的TTS系统。
最后,本发明还涉及一种包含了所附权利要求所定义的TTS系统的移动电话。
现在参考附图来对只作为进一步实例的本发明实施例进行描述,其中

图1是本发明的图示;图2是引入了根据本发明的TTS系统的移动电话的示意图;图3是引入了根据本发明的TTS系统的便携式个人计算机的示意图;以及图4是引入了根据本发明的TTS系统的数码相机的示意图。
如图1所示,首先使用输入设备2来输入那些将要作为语音输出的文本。其中可以包括用户输入文本数据或是由一个嵌入了TTS系统的应用来进行接收。举例来说,如果将TTS系统嵌入移动电话,那么,主叫用户或移动电话业务供应商可以通过移动电话来接收文本。在本发明中添加了一个报头,以便将其标记给正在添加增强型语音数据的TTS系统。所述报头是由一个报头4施加的。
增强型语音数据添加到控制序列注释器6中的文本数据中,以便创建带有注释的文本数据。以下给出了增强语音数据中的这种控制序列的实例/ 表示低音调/\ 表示高音调<< 表示慢速>> 表示快速/M 表示男声/F 表示女声## 表示耳语.. 表示暂停_ 表示重读的单词/D 表示作为日历日期的发音/T 表示时间的发音/S 表示拼出了单词/P 表示作为电话号码的发音从上文可以清楚了解,增强型语音数据很短,通常只有1或2个字符并且通常小于5个字符。
因此,举例来说,用户可以如下输入带有增强型语音数据的文本“Hello George.Guess where I am?I′m in a bar.We need to set a datefor a meeting.Say at 4 o′clock on the 23rd May.Thanks Jane”“/F Hello George.Guess where /\ I am?I′m in a ## bar.We needto set a date for a meeting.Say/T 4.00 on/D 23/05.Thanks Jane”。
控制序列都是那些很容易在多数键盘上找到的字符,尤其是大多数移动电话小键盘及其他具有简化键盘的设备,例如报警控制面板。使用短序列将会增加用户不参考任何说明性文本而将其记住的可能性。此外,短序列易于与初始语音数据进行区分。最后,还选择了控制序列,以使控制序列易于在文本或初始语音数据这些输入文本中自然使用的可能性减至最小。
某些控制序列可以预先确定成开放的(open-ended)。也就是说,跟随这个控制序列的所有文本都将附属于这个特定的增强型语音。在上文给出的实例中,可以将/、/\、<<、>>、/M、/F全都预定为是开放的。而某些控制序列则可以预定为闭合(closed)。也就是说,只有其后单词才附属于这个特定的增强型语音。在上文给出的实例中,可以将_、..、/D、/T都预定为是闭合的。在某些情况下,控制序列可以是开放的,也可以是闭合的,用户可以添加一个控制符来指示所添加的控制序列的范围。在上文给出的实例中,##可以是开放的,也可以是闭合的,并且用户可以确定应用其中哪一种类型。
增强型语音数据是非常简单的,并且很容易使用和学习,它使用了那些嵌入了TTS系统的终端设备上的键盘部件,并且独立于现场设计TTS系统时施加的任何标记语言或修改。因此,可以对输出文本进行定制,以便改善语音质量,并使用户能够将其消息个人化。
带有注释的文本数据包括文本数据以及增强型语音数据,其由控制序列注释器6输出,并且可以保存在同一终端设备或应用内部,其中将TTS系统嵌入一个存储设备8。如果已经保存了带有注释的文本数据,则可以在稍后日期读取所述文本,例如在警报或是约会提醒消息的情况下。作为补充或是替换,可以使用传输装置10而把带有注释的文本数据发送到另一个同样包含TTS系统的终端设备或应用。而带有注释的文本数据则可以由接收终端设备加以保存和/或直接输出。
在稍后时间和/或从另一个终端设备发送之后,带有注释的文本数据将由检索设备12接收。报头识别装置14检测是否已将报头添加到带有注释的文本数据中。如果检测到报头,则将带有注释的文本数据传递到一个分析器16。
分析器16识别控制序列及其在文本数据中的位置。分析器16从文本数据中分离出控制序列并且在显示器18上输出文本。同时,分析器将文本数据和分离的控制序列传递到一个TTS转换器20。TTS转换器20获取文本数据中的全部属性来确定语音模式,并且该TTS转换器还转换控制序列,以便修改这些属性,如果必要,它还会指示语音模式。TTS转换器20将文本和语音模式转换到TTS系统22,以使TTS系统输出作为语音并且带有增强型语音发音的文本。
在对读取文本进行物理限制的应用中,能够添加增强型语音数据将是非常有利的。这种物理限制有可能是因为用于保存文本的存储容量,也可能是因为嵌入了TTS系统的应用所发送和接收的文本的大小。并且这种限制经常存在于移动电话中。在发送文本的情况下,有时候传输带宽将会严重受限。在使用GSM短消息服务(SMS)时,这种受限传输带宽是非常严重的。因此,能够添加增强型语音数据将是非常有利的,由此保持或改善了语音质量,但却没有明显影响文本的大小。
此外,考虑到增强型语音数据的简化,可以在没有明显减慢文本输出的情况下得到经过改善的语音质量,如果这种语音质量是由TTS系统所确定的现有语音模式提供的,那么文本输出明显会更快。
对于在小型移动电子产品中使用而言,例如移动电话,个人数字助理(PDA),计算机,CD播放器,DVD播放器等等,本发明是非常有利的,然而本发明并不局限于此。
现在将对几种嵌入了TTS系统的终端设备进行描述<1便携电话>
在这里描述的是将一个TTS系统应用于便携或移动电话的实例。图2是描述便携电话结构的立体图。在图中,便携电话1200具有多个操作键1202,一个耳机1204,一个送话口1206,和一个显示面板100。送话口1206或耳机1204可用于输出语音。
<2便携式计算机>
现在描述的是把根据上述实施例之一的TTS系统应用于便携式个人计算机的实例。
图3是描述这种个人计算机结构的立体图。在图中,个人计算机1100具有一个包含键盘1102和显示单元1106的机身1104。如上所述,根据本发明,TTS系统可以使用显示单元1106或键盘1102来提供用户接口。
<3数码相机>
接下来将对使用TTS系统的数码相机进行描述。图4是简要描述数码相机结构以及与外部设备的连接的立体图。
典型的照相机基于来自物体的光学图像而使胶卷感光,而数码相机1300是通过使用例如电荷耦合器件(CCD)来进行光电变换,由此从光学图像中产生图像信号。数码相机1300具有一个处于机壳1302背面的OEL部件100,以便根据来源于CCD的图像信号而进行显示。因此,显示面板100充当一个用于显示物体的取景器。照片接收单元1304包括光学透镜,并且CCD是在机壳1302前侧(图中的背面)提供的。所述TTS系统可以在数码相机中实现。
与图2所示便携电话、图3所示个人计算机以及图4所示数码相机不同的其他终端设备的进一步实例包括个人数字助理(PDA),电视,取景器类型和监视器类型的录像机,汽车导航系统,寻呼机,电子记事本,便携式计算器,文字处理机,工作站,电视电话,销售点系统(POS)终端以及具有触摸板的设备。当然,本发明的TTS系统也可以应用于这些终端设备中的任何一种。
以上的描述仅仅是作为实例给出的,本领域技术人员可以了解,在不脱离本发明范围的情况下可以进行各种修改。
权利要求
1.一种对文本数据进行编码,以便包含那些在文本-语音(TTS)系统中使用的增强型语音数据的方法,所述方法包括向文本数据添加一个标识符,以便能够识别所述增强型语音数据;规定增强型语音数据;以及将所述增强型语音数据添加到所述文本数据中;其中所述改进在于所述文本数据包括文本和初始语音数据,并且所述增强型语音数据改善了所述文本的发音。
2.根据权利要求1所述的对文本数据进行编码,以便包含那些在文本-语音(TTS)系统中使用的增强型语音数据的方法,还包括保存所述增强型语音数据和所述文本数据。
3.根据权利要求1或2所述的对文本数据进行编码,以便包含那些在文本-语音(TTS)系统中使用的增强型语音数据的方法,还包括发送所述增强型语音数据和所述文本数据。
4.根据权利要求1到3中任一所述的对文本数据进行编码,以便包含那些在文本-语音(TTS)系统中使用的增强型语音数据的方法,其中所述指定所述增强型语音数据包括指定多个控制序列,其中包括将至少一个第一控制序列规定为开放,由此使得所有文本都能附属于所述第一控制序列,和/或将至少一个第二控制序列规定为闭合,由此使得与第二控制序列相关联的文本附属于所述第二控制序列,和/或将至少一个第三控制序列规定为开放或是闭合。
5.一种对带有注释的文本数据进行解码的方法,所述文本数据包括那些在文本-语音(TTS)系统中使用的增强型语音数据和文本数据,所述方法包括对带有注释的文本数据中的标识符进行检测,以便能够识别所述增强型语音数据;以及从所述文本数据中分离所述增强型语音数据;其中所述改进在于所述文本数据包含了文本和初始语音数据,并且所述增强型语音数据改善了所述文本的发音。
6.根据权利要求5所述的对带有注释的文本数据进行解码的方法,还包括接收所述文本数据并且保存所述文本数据。
7.根据权利要求5或6所述的对带有注释的文本数据进行解码的方法,还包括显示所述文本。
8.一种文本-语音(TTS)系统,用于实施一种对文本数据进行编码,以便包含根据权利要求1到4中任一所述的增强型语音数据的方法,以及用于实施一种对根据权利要求5到7中任一所述的对带有注释的文本数据进行解码的方法。
9.根据权利要求8所述的TTS系统,包括用于添加标识符的装置,语音数据注释器,用于检测标识符的装置,以及用于从所述文本数据中分离出所述增强型语音数据的分析器。
10.根据权利要求9所述的TTS系统,当从属于权利要求2时,还包括用于保存所述文本数据和所述增强型语音数据的存储器。
11.根据权利要求9或10所述的TTS系统,当从属于权利要求3时,还包括用于发送所述文本数据和所述增强型语音数据的传输装置。
12.一种包含了根据权利要求8到11中任一所述的文本-语音系统的移动电话。
全文摘要
一种对文本数据进行编码,以便包含那些用在文本-语音(TTS)系统中的增强型语音数据的方法,并且涉及一种解码方法,一种TTS系统和一种包含所述TTS系统的移动电话。文本-语音(TTS)系统将文本转换成语音并且包括了确定正确的发音。除了正确发音之外,许多TTS系统通过定义特殊的语音模式来控制如何讲述文本。语音模式至少可以相对于韵律学来进行定义,所述韵律学即为语音韵律、不同单词的重读、音调变化、说话速率、音量变化以及如何根据其他特征中尤其是币值、日期、时间等等来说出文本。本发明涉及一种用于对增强型语音数据进行编码的方法。增强型语音数据是非常简单的,并且很容易使用和学习,它使用了那些嵌入了TTS系统的终端设备上的键盘部件,并且独立于现场设计TTS系统时施加的任何标记语言或修改。因此,可以对输出文本进行定制,以便改善语音质量,并使用户能够将其消息个人化。本发明由此涉及一种对文本数据进行编码以及对带有注释的文本数据进行解码的方法,一种TTS系统以及一种用于实施上述内容的移动电话。
文档编号G06F3/16GK1522430SQ03800560
公开日2004年8月18日 申请日期2003年4月30日 优先权日2002年5月1日
发明者约翰·安德顿, 约翰 安德顿 申请人:精工爱普生株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1