分布式语音合成方法

文档序号:2824784阅读:457来源:国知局
专利名称:分布式语音合成方法
技术领域
本发明涉及在计算机和其它计算设备上将任意文本转换为自然的口语语音输出的技术。
传统TTS系统的一般处理流程如附

图1所示,它主要包括文本预处理、语言分析、韵律生成、语音单元挑选、语音合成等关键处理环节。
传统TTS系统处理环节众多,计算复杂度高,系统所需的词典、音库容量大。随着研究的不断深入,TTS已经由桌面级系统向服务器级系统发展,由低自然度、低性能系统向高自然度、高性能系统发展,因而对计算机的处理能力和存储容量提出了更大的需求。
特别是近一两年以来,移动终端设备(如个人数字助理PDA、嵌入式系统)迅速普及,无线互联网方兴未艾,终端应用掀起了对语音合成的迫切需求。由于移动终端设备处理能力相对低下,存储容量相对不足,它们的这些天然特性加上其赖以通信的无线互联网现状(连接距离短、带宽窄、稳定性较差),PC上传统TTS系统在该领域不再适用。这对TTS研究提出了新的课题。
为解决这个问题,已有研究者通过减少TTS系统的处理环节,简化文本分析规则和韵律模型,减少音库中的语言单元数量,压缩音库等办法,研制出基于PDA和嵌入式系统的独立TTS系统。但这种系统从本质上而言是PC上大型TTS系统的极端简化版本,无论是合成语音的自然度、清晰度、可懂度,还是系统效率均与大型TTS系统差距甚远。
本发明的目的在于提供一种分布式语音合成方法,旨在将传统TTS系统一般处理流程中的各个处理环节按先后顺序划分为前后两个部分,每个部分均由连续的处理环节组成,为在资源敏感的移动终端设备上合成出与PC上大型TTS系统相同自然度的自然语音。
为实现上述目的,本发明采用一种分布式语音合成方法,它包括语音合成前端处理环节和语音合成后端处理环节,所述的前端处理环节和语音合成后端处理环节之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。
上述方法中,采用DSS服务器完成前端环节任务,它接收文本,经过一系列的处理过程,将其转换为某种中间数据输出,所输出的中间数据传输给用于完成后端环节任务的DSS客户机继续处理。
上述方法中,语音合成前端处理环节至少包括文本预处理、语言分析、韵律生成、语音单元挑选、语音合成五个处理模块中的一个或多个,其余的处理模块由语音合成后端处理环节完成。
上述方法中,所述的DSS服务器选择完成标记文本层任务,进行文本预处理,所述的DSS客户机进行语言分析、韵律生成、语音单元挑选、语音合成处理,中间交换数据为文本预处理结果。
上述方法中,所述的DSS服务器选择完成语言分析层任务,进行文本预处理、语言分析处理,所述的DSS客户机进行韵律生成、语音单元挑选、语音合成处理,中间交换数据为语言分析结果。
上述方法中,所述的DSS服务器选择完成韵律分析层任务,进行文本预处理、语言分析、韵律生成处理,所述的DSS客户机进行语音单元挑选、语音合成处理,中间交换数据为韵律分析结果。
上述方法中,所述的DSS服务器选择完成音元属性层任务,进行文本预处理、语言分析、韵律生成、语音单元挑选处理,所述的DSS客户机进行语音合成处理,中间交换数据为音元属性序列。
为在资源敏感的移动终端设备上合成出与PC上大型TTS系统相同自然度的自然语音,我们提出分布式语音合成(Distributed SpeechSynthesis、DSS)的思想将传统TTS系统一般处理流程中的各个处理环节按先后顺序划分为前后两个部分,每个部分均由连续的处理环节组成。我们把前面部分的处理环节总和称为语音合成前端,把后面部分的处理环节总和称为语音合成后端。分布式语音合成就是指采用客户/服务器(C/S)计算模式,语音合成前端运行在服务器上,语音合成后端运行在客户机上,服务器和客户机之间通过一定的数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。通过服务器和客户机之间的协同工作,将部分工作压力放在服务器上,减轻了客户机的负荷,使得设计人员可以把注意力集中放在语音合成提升效果上,因而可以获得高自然度的合成语音。我们把完成语音合成前端任务的服务器称为DSS服务器,把完成语音合成后端任务的客户机称为DSS客户机。
同现有技术相比,本发明具有突出的实质性特点和显著的技术进步,主要表现在以下方面1)提出语言分布式合成的方案在无线移动场合的应用,由于终端的移动状态和操作屏幕的天然不兼容,使得语音合成成为必须。目前的移动终端设备由于计算能力低下,存储容量小,无法进行十分复杂的计算和大量数据的存储,但在终端(特别是通信终端)场合下,内容往往是服务端(内容提供端)集中生成的,因此在综合带宽等因素情况下,分布式合成语言的方法成为有效且唯一解决方案;2)提出语音合成效果最佳化,终端空闲资源利用最大化,服务器和网络负载最小化思想在大规模移动终端语音应用的场合中,每一个终端设备均在某一原则的指导下,获取最佳效果的语音合成服务。这个原则是尽可能地利用自身的空闲资源,以最大化的释放网络和服务器的负载,使得其它用户可以方便地接入。
参见图2,图2给出了发明的基本工作原理,C/S计算模式要求参与者有服务器、客户机、数据交换标准和网络协议四个组成部分。下面我们就这四个组成部分分别进行阐述。
1.DSS服务器DSS服务器指在DSS方法中,完成语音合成前端任务的执行实体。一台独立的计算机是DSS服务器最常见的形式,但不限于此。DSS服务器接收文本(来自DSS客户机或网络上的Web服务器),经过一系列的处理过程(语音合成前端),将其转换为某种中间数据(相对于TTS系统的最终输出——语音)输出,这种输出将被传输给DSS客户机继续处理。
由于需要与DSS客户机和Web服务器交互,网络连接成为必须,并且DSS服务器所接入的网络必须支持HTTP传输协议。
DSS服务器的基本结构如图3所示DSS服务器包括以下几个组成部件1)服务器核心引擎(Server Engine)指DSS服务器中,完成文本到某种中间数据转换的功能部件,即实现语音合成前端的功能部件。
2)转码器(Transcoder)指DSS服务器中,将待合成的内容转换为文本的功能部件,待合成的内容是文本,也可以是HTML、XML,URL指向内容,最常见的形式是将HTML、XML等转为文本。
3)服务器浏览器(Server Browser)指DSS服务器中,负责获取指定URL内容的功能部件。
4)分布式语音合成网络应用协议(DSSNAP)指DSS服务器中,负责与DSS客户机进行通信的功能部件。
5)服务器浏览器(Server Browser)指DSS服务器中,负责获取指定URL内服务器应用程序开发接口(Server API)提供给第三方开发DSS服务器的应用程序开发接口。
DSS服务器接受两种来自DSS客户机的请求,一是内容请求(Content Request),表示DSS客户机直接将带合成内容(文本或其它)发送给DSS服务器;二是URL请求(URL Request),表示DSS客户机将URL发送给DSS服务器,由DSS服务器负责从网络上获取合成内容。
DSS服务器获取到合成内容后,将非文本内容送入转码器,得到文本。然后将文本送入核心引擎,得到中间数据。这种中间数据以CSSML(中文语音合成标记语言)的形式存在。有关CSSML的内容,我们将在“中间数据交换标准”一节中进行阐述。
在URL请求模式中,如果URL指向一CSSML文档,这个文档将直接被送给DSS客户机,因为它已不需要DSS服务器的处理。
2.DSS客户机DSS客户机指在DSS方法中,完成语音合成后端任务的执行实体。一台独立的计算机是DSS客户机最常见的形式,但不限于此。DSS客户机接收某种中间数据(来自DSS服务器或网络上的Web服务器),经过一系列的处理过程(语音合成后端),将其转换为最终语音输出,完成TTS系统的完整处理过程。
由于需要与DSS服务器和Web服务器交互,网络连接成为必须,并且DSS客户机所接入的网络必须支持HTTP传输协议。
DSS客户机的基本结构如图2.3所示DSS客户机包括以下几个组成部件1)客户机核心引擎(Server Engine)指DSS客户机中,完成某种中间数据到语音转换的功能部件,即实现语音合成后端的功能部件。
2)分布式语音合成网络应用协议(DSSNAP)指DSS客户机中,负责与DSS服务器进行通信的功能部件。
3)客户机应用程序开发接口(Client API)提供给第三方开发DSS客户机的应用程序开发接口。
DSS客户机可以向DSS服务器发出两种请求,即内容请求和URL请求,作用与DSS服务器完全对应。DSS客户机从DSS服务器或Web服务器接收某种中间数据(以CSSML形式存在),将其转换为语音输出。
3.中间数据交换标准在分布式计算方案中,特别是在C/S模式下,服务器和客户机协同工作,共同完成某件任务。因此,服务器和客户机之间必然需要交换具有一定格式和意义的数据。我们来考察图1传统TTS系统的一般处理流程。该图指出,传统TTS系统,按照处理环节相对独立、边界清晰度大的原则,可以分为文本预处理、语言分析、韵律生成、语音单元挑选、语音合成五个模块。划分语音合成前后端,就是哪些模块放在服务器处理,哪些模块放在客户机处理的问题。由于前后端划分必须遵循处理环节连续的原则,因此,针对TTS系统,有如下六种划分方法名 前端(服务器执行)处 后端(客户机执行)处理 中间交换数据称 理环节 环节纯 文本预处理 纯文本文 语言分析本 韵律生成层 语音单元挑选语音合成标 文本预处理 语言分析 文本预处理结记 韵律生成 果文 语音单元挑选本 语音合成层语 文本预处理 韵律生成 语言分析结果言 语言分析语音单元挑选分 语音合成析层韵 文本预处理 语音单元挑选 韵律分析结果律 语言分析语音合成分 韵律生成析层音 文本预处理 语音合成 音元属性序列元 语言分析属 韵律生成性 语音单元挑选层语 文本预处理语音音 语言分析层 韵律生成语音单元挑选语音合成上表中第一层纯文本层和第六层语音层,其合成方式属于现有技术,分别对应现有的Client-Only和Server-Only两种架构。本发明涉及的技术解决方案提出了第二层至第五层所列的具体分步式合成方式。
上述语音合成前后端的不同划分方法,对服务器负载、客户机负载、网络带宽等的要求不同。因为服务器负载、客户机负载、网络带宽是随时变动的,因此,DSS采取这样的策略,在任何时刻,语音合成前后端的划分,取决于该时刻服务器负载、客户机负载、网络带宽的综合评估。
针对上表中的6种划分方法,决定了DSS服务器和DSS客户机之间共有6种中间数据交换内容。我们基于XML结构化文档基础上,提出层次化中文语音合成标注语言(ML-CSSML),对这6种中间数据交换内容进行了全面的描述,作为DSS方法中间数据交换标准。本发明则要求前端与后端选择完成上述第2层~第5层中的各项对应任务。
4.网络与协议DSS服务器和DSS客户机之间的通信除了遵循一定的数据交换标准之外,还必须遵循一定的协议标准,以定义DSS服务器和DSS客户机的交互行为。根据语音合成固有的请求/响应机制,我们基于HTTP协议基础之上,制定分布式语音合成网络应用协议(DSSNAP)。它具有如下主要特性1)动态仲裁根据服务器负载、客户机负载、网络带宽综合因素,动态仲裁使用何种数据交换标准。仲裁的原则是终端空闲资源利用最大化,服务器和网络负载最小化。
在合成语音效果保证的前提下,尽可能最大化地使用终端的资源,以释放服务器和网络负载,从而允许更多的终端访问,使大应用环境的建立成为可能。
2)负载平衡根据服务器负载情况,自动将客户机的请求导向负载较小的服务器,以实现负载平衡。
3)数据压缩
DSS方法中的中间交换数据以CSSML为载体。基于XML的CSSML文档,由于以文本的形式描述结构化数据,而这种结构化数据要求具有良好的自描述能力,因此必须足够大以容纳所有必需的标记和属性。通常,CSSML文档的尺寸都比较大,不利于在网络上传输。必须在协议层提供数据压缩功能,以完成CSSML文档的透明压缩和解压。
4)数据安全指数据在传输过程中不丢失、不泄漏、不被非法使用。
DSS有三种应用模式离线、在线和定制。
离线式DSS指DSS服务器完成文本到CSSML文档的转换,DSS客户机完成CSSML文档到语音的转换,DSS服务器和DSS客户机之间不需要实时通信,CSSML文档可以通过某种数据传输服务(如网络、电话信道或光盘、磁带等静态媒体等)非实时地由服务端送往客户端。
在线式DSS指除了DSS服务器和DSS客户机的功能与离线式DSS相同之外,DSS服务器和DSS客户机之间需要实时通信并且遵循分布式语音合成网络应用协议(DSSNAP)。
结合离线式DSS和在线式DSS的各自的特点,定制DSS指除了DSS服务器和DSS客户机的功能与离线式DSS或在线式DSS相同之外,DSS服务器和DSS客户机之间需要实时通信,但通信功能模块与具体应用相关,由应用定制。
以下是本发明中有关术语和名词的具体解释C/S(Client/Server)客户/服务器模式。指网络应用中一种非对称(或者叫主从式)的协同计算模式。在该模式中,服务器往往完成工作量较大的任务,客户往往完成工作量较少的任务,客户和服务器之间通过一定的协议交换数据。
HTTP(Hyper Text transfer protocol)超文本传输协议。WWW(万维网)上的一种标准的超文本传输协议。
URL(Uniform Resource Locator)一致性资源定位法。用于指明资料在互联网络上的取得方式与位置。其格式为通讯协议//服务器地址通讯端口/路径/文件名。例如http//www.hljucm.net.cnHTML(Hyper Text Markup Language)超文本标识语言。是用于创建网页的编程语言。
XML(Extensible Markup Language)可扩展标记语言。使用它就可以以容易而一致的方式格式格式化和传送数据。
Server API(Server Application Programming Interface)服务器应用程序开发接口。指提供给第三方开发DSS服务器的开发接口。
CSSML(Chinese Speech Synthesis Markup language)中文语音合成标注语言。DSS服务器与客户机之间进行通信必须遵循的中间数据交换标准,是一种基于可扩展标注语言XML的语音合成前后端之间数据交换的载体。
DSSNAP(DSS Net Application Protocol)分布式语音合成网络应用协议。DSS服务器与客户机之间进行通信必须遵循的协议标准。
Client API客户机应用程序开发接口。指提供给第三方开发DSS客户机的开发接口。
ML-CSSML(Multi-layer CSSML)层次化中文语音合成标注语言。由于DSS系统中存在不同层次的中间交换数据,因此,作为数据交换的载体的CSSML也必须是相应层次化的,以描述各个层次的中间交换数据。
DSS定制应用模式介于离线和在线两种模式之中的DSS应用模式。它指DSS服务器和客户机需要实时通信,但通信的手段、方法、内容可以根据具体应用定制,不受DSSNAP的制约。
权利要求
1.一种分布式语音合成方法,它包括语音合成前端处理环节和语音合成后端处理环节,所述的前端处理环节和语音合成后端处理环节之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。
2.根据权利要求1所述的分布式语音合成方法,其特征在于采用DSS服务器完成前端环节任务,它接收文本,经过一系列的处理过程,将其转换为某种中间数据输出,所输出的中间数据传输给用于完成后端环节任务的DSS客户机继续处理。
3.根据权利要求1或2所述的分布式语音合成方法,其特征在于语音合成前端处理环节至少包括文本预处理、语言分析、韵律生成、语音单元挑选、语音合成五个处理模块中的一个或多个,其余的处理模块由语音合成后端处理环节完成。
4.根据权利要求3所述的分布式语音合成方法,其特征在于所述的DSS服务器完成标记文本层任务,进行文本预处理,所述的DSS客户机进行语言分析、韵律生成、语音单元挑选、语音合成处理,中间交换数据为文本预处理结果。
5.根据权利要求3所述的分布式语音合成方法,其特征在于所述的DSS服务器完成语言分析层任务,进行文本预处理、语言分析处理,所述的DSS客户机进行韵律生成、语音单元挑选、语音合成处理,中间交换数据为语言分析结果。
6.根据权利要求3所述的分布式语音合成方法,其特征在于所述的DSS服务器完成韵律分析层任务,进行文本预处理、语言分析、韵律生成处理,所述的DSS客户机进行语音单元挑选、语音合成处理,中间交换数据为韵律分析结果。
7.根据权利要求3所述的分布式语音合成方法,其特征在于所述的DSS服务器完成音元属性层任务,进行文本预处理、语言分析、韵律生成、语音单元挑选处理,所述的DSS客户机进行语音合成处理,中间交换数据为音元属性序列。
8.根据权利要求2所述的分布式语音合成方法,其特征在于所述的DSS服务器包括以下几个组成部件1)服务器核心引擎(Server Engine),它用于完成文本到某种中间数据转换;2)转码器(Transcoder),待合成的内容转换为文本;3)服务器浏览器(Server Browser),负责获取指定URL内容;4)分布式语音合成网络应用协议(DSSNAP),负责与DSS客户机进行通信的功能部件;5)服务器应用程序开发接口(Server API),提供给第三方开发DSS服务器的应用程序开发接口。
9.根据权利要求2所述的分布式语音合成方法,其特征在于DSS客户机包括以下几个组成部件1)客户机核心引擎(Server Engine),完成某种中间数据到语音的转换;2)分布式语音合成网络应用协议(DSSNAP),负责与DSS服务器进行通信;3)客户机应用程序开发接口(Client API)提供给第三方开发DSS客户机的应用程序开发接口。
10.根据权利要求8或9所述的分布式语音合成方法,其特征在于DSS服务器接受两种来自DSS客户机的请求,一是内容请求(ContentRequest),表示DSS客户机直接将带合成内容(文本或其它)发送给DSS服务器,二是URL请求(URL Request),表示DSS客户机将URL发送给DSS服务器,由DSS服务器负责从网络上获取合成内容;DSS客户机可以向DSS服务器发出两种请求,即内容请求和URL请求,作用与DSS服务器相互对应,DSS客户机从DSS服务器或Web服务器接收某种中间数据(以CSSML形式存在),将其转换为语音输出DSS客户机和Web服务器通过网络连接,并且DSS服务器所接入的网络支持HTTP传输协议。
全文摘要
本发明的目的在于提供一种分布式语音合成方法,旨在将传统TTS系统一般处理流程中的各个处理环节按先后顺序划分为前后两个部分,所述的前端处理环节和语音合成后端处理环节之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程,为在资源敏感的移动终端设备上合成出与PC上大型TTS系统相同自然度的自然语音,尽可能地利用自身的空闲资源,以最大化的释放网络和服务器的负载,使得其它用户可以方便地接入。
文档编号G10L13/00GK1384490SQ0211601
公开日2002年12月11日 申请日期2002年4月23日 优先权日2002年4月23日
发明者唐浩, 尹波 申请人:安徽中科大讯飞信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1