分布式语音合成系统的制作方法

文档序号:2824420阅读:289来源:国知局
专利名称:分布式语音合成系统的制作方法
技术领域
本发明涉及在计算机和其它计算设备上将任意文本转换为自然的口语语音输出技术。
背景技术
语音合成,又称文语转换(Text-To-Speech、TTS),旨在研究如何在计算机和其它计算设备上将任意文本转换为自然的口语语音输出的问题。它涉及语言学、语音学、声学、信号处理、人工智能和多媒体等领域的知识。国内外很多公司、大学和研究机构对TTS做了大量的研究,并且取得了令人瞩目的成就。
传统TTS系统的一般处理流程如附

图1所示,它主要包括文本预处理、语言分析、韵律生成、语音单元挑选、语音合成等关键处理环节。
传统TTS系统处理环节众多,计算复杂度高,系统所需的词典、音库容量大,随着研究的不断深入,TTS已经由桌面级系统向服务器级系统发展,由低自然度、低性能系统向高自然度、高性能系统发展,因而对计算机的处理能力和存储容量提出了更大的需求。
特别是近一两年以来,移动终端设备(如个人数字助理PDA、嵌入式系统)迅速普及,无线互联网方兴未艾,终端应用掀起了对语音合成的迫切需求。由于移动终端设备处理能力相对低下,存储容量相对不足,它们的这些天然特性加上其赖以通信的无线互联网现状(连接距离短、带宽窄、稳定性较差),PC上传统TTS系统在该领域不再适用。这对TTS研究提出了新的课题。
为解决这个问题,已有研究者通过减少TTS系统的处理环节,简化文本分析规则和韵律模型,减少音库中的语言单元数量,压缩音库等办法,研制出基于PDA和嵌入式系统的独立TTS系统。但这种系统从本质上而言是PC上大型TTS系统的极端简化版本,无论是合成语音的自然度、清晰度、可懂度,还是系统效率均与大型TTS系统差距甚远。
技术内容本发明的目的在于提供一种分布式语音合成系统,旨在将传统TTS系统一般处理流程中的各个处理环节按先后顺序划分为前后两个部分,每个部分均由连续的处理环节组成,为在资源敏感的移动终端设备上合成出与PC上大型TTS系统相同自然度的自然语音。
为实现上述目的,本发明所公开的分布式语音合成系统,其特征在于系统包括语音合成前端处理环节和语音合成后端处理环节,所述的语音合成前端环节运行在服务器上,语音合成后端环节运行在客户机上,采用客户/服务器(C/S)计算模式,服务器和客户机之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。
为在资源敏感的移动终端设备上合成出与PC上大型TTS系统相同自然度的自然语音,我们提出分布式语音合成(Distributed SpeechSynthesis、DSS)的思想将传统TTS系统一般处理流程中的各个处理环节按先后顺序划分为前后两个部分,每个部分均由连续的处理环节组成。我们把前面部分的处理环节总和称为语音合成前端,把后面部分的处理环节总和称为语音合成后端。分布式语音合成就是指采用客户/服务器(C/S)计算模式,语音合成前端运行在服务器上,语音合成后端运行在客户机上,服务器和客户机之间通过一定的数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。通过服务器和客户机之间的协同工作,将部分工作压力放在服务器上,减轻了客户机的负荷,使得设计人员可以把注意力集中放在语音合成提升效果上,因而可以获得高自然度的合成语音。我们把完成语音合成前端任务的服务器称为DSS服务器,把完成语音合成后端任务的客户机称为DSS客户机。
同现有技术相比,本发明具有突出的实质性特点和显著的技术进步,主要表现在以下方面1)提出分布式计算方案在无线移动场合的应用,由于终端的移动状态和操作屏幕的天然不兼容,使得语音合成成为必须。目前的移动终端设备由于计算能力低下,存储容量小,无法进行十分复杂的计算和大量数据的存储,但在终端(特别是通信终端)场合下,内容往往是服务端(内容提供端)集中生成的,因此在综合带宽等因素情况下,分布式计算成为有效且唯一解决方案;2)提出语音合成效果最佳化,终端空闲资源利用最大化,服务器和网络负载最小化思想在大规模移动终端语音应用的场合中,每一个终端设备均在某一原则的指导下,获取最佳效果的语音合成服务。这个原则是尽可能地利用自身的空闲资源,以最大化的释放网络和服务器的负载,使得其它用户可以方便地接入。
附图概述图1是传统TTS系统的一般处理流程原理框图;图2本发明DSS系统的基本原理架构图;图3是发明DSS系统中DSS服务器的基本结构示意图;图4是发明DSS系统中DSS客户机的基本结构示意图。
实施方式参见图2,图2给出了发明DSS系统的基本工作原理,C/S计算模式要求参与者有服务器、客户机、数据交换标准和网络协议四个组成部分。下面我们就这四个组成部分分别进行阐述。
1.DSS服务器DSS服务器指在DSS系统中,完成语音合成前端任务的执行实体。一台独立的计算机是DSS服务器最常见的形式,但不限于此。DSS服务器接收文本(来自DSS客户机或网络上的Web服务器),经过一系列的处理过程(语音合成前端),将其转换为某种中间数据(相对于TTS系统的最终输出——语音)输出,这种输出将被传输给DSS客户机继续处理。
由于需要与DSS客户机和Web服务器交互,网络连接成为必须,并且DSS服务器所接入的网络必须支持HTTP传输协议。
DSS服务器的基本结构如图3所示DSS服务器包括以下几个组成部件1)服务器核心引擎(Server Engine)指DSS服务器中,完成文本到某种中间数据转换的功能部件,即实现语音合成前端的功能部件。
2)转码器(Transcoder)指DSS服务器中,将待合成的内容转换为文本的功能部件,待合成的内容最常见的形式是将HTML、XML等转为文本。
3)服务器浏览器(Server Browser)指DSS服务器中,负责获取指定URL内容的功能部件。
4)分布式语音合成网络应用协议(DSSNAP)指DSS服务器中,负责与DSS客户机进行通信的功能部件。
5)服务器浏览器(Server Browser)指DSS服务器中,负责获取指定URL内服务器应用程序开发接口(Server API)提供给第三方开发DSS服务器的应用程序开发接口。
DSS服务器接受两种来自DSS客户机的请求,一是内容请求(Content Request),表示DSS客户机直接将带合成内容(文本或其它)发送给DSS服务器;二是URL请求(URL Request),表示DSS客户机将URL发送给DSS服务器,由DSS服务器负责从网络上获取合成内容。
DSS服务器获取到合成内容后,将非文本内容送入转码器,得到文本。然后将文本送入核心引擎,得到中间数据。这种中间数据以CSSML(中文语音合成标记语言)的形式存在。有关CSSML的内容,我们将在“中间数据交换标准”一节中进行阐述。
在URL请求模式中,如果URL指向一CSSML文档,这个文档将直接被送给DSS客户机,因为它已不需要DSS服务器的处理。
2.DSS客户机DSS客户机指在DSS系统中,完成语音合成后端任务的执行实体。一台独立的计算机是DSS客户机最常见的形式,但不限于此。DSS客户机接收某种中间数据(来自DSS服务器或网络上的Web服务器),经过一系列的处理过程(语音合成后端),将其转换为最终语音输出,完成TTS系统的完整处理过程。
由于需要与DSS服务器和Web服务器交互,网络连接成为必须,并且DSS客户机所接入的网络必须支持HTTP传输协议。
DSS客户机的基本结构如图2.3所示DSS客户机包括以下几个组成部件1)客户机核心引擎(Server Engine)指DSS客户机中,完成某种中间数据到语音转换的功能部件,即实现语音合成后端的功能部件。
2)分布式语音合成网络应用协议(DSSNAP)指DSS客户机中,负责与DSS服务器进行通信的功能部件。
3)客户机应用程序开发接口(Client API)提供给第三方开发DSS客户机的应用程序开发接口。
DSS客户机可以向DSS服务器发出两种请求,即内容请求和URL请求,作用与DSS服务器完全对应。DSS客户机从DSS服务器或Web服务器接收某种中间数据(以CSSML形式存在),将其转换为语音输出。
3.中间数据交换标准在分布式计算系统中,特别是在C/S模式下,服务器和客户机协同工作,共同完成某件任务。因此,服务器和客户机之间必然需要交换具有一定格式和意义的数据。我们来考察图1.1传统TTS系统的一般处理流程。该图指出,传统TTS系统,按照处理环节相对独立、边界清晰度大的原则,可以分为文本预处理、语言分析、韵律生成、语音单元挑选、语音合成五个模块。划分语音合成前后端,就是哪些模块放在服务器处理,哪些模块放在客户机处理的问题。由于前后端划分必须遵循处理环节连续的原则,因此,针对TTS系统,有如下表所列的六种划分方法名 前端(服务器执行)处 后端(客户机执行)处 中间交换数据称 理环节 理环节纯 文本预处理 纯文本文 语言分析本 韵律生成层 语音单元挑选语音合成标 文本预处理 语言分析文本预处理结记 韵律生成果文 语音单元挑选本 语音合成层语 文本预处理 韵律生成语言分析结果言 语言分析语音单元挑选分 语音合成析层韵 文本预处理 语音单元挑选 韵律分析结果律 语言分析语音合成分 韵律生成析层音 文本预处理 语音合成 音元属性序列元 语言分析属 韵律生成性 语音单元挑选层语 文本预处理 语音音 语言分析层 韵律生成语音单元挑选语音合成上表中第一层纯文本层和第六层语音层,其合成方式属于现有技术,分别对应现有的Client-Only和Server-Only两种架构。本发明涉及的技术解决方案提出了第二层至第五层所列的具体合成方式。
上述语音合成前后端的不同划分方法,对服务器负载、客户机负载、网络带宽等的要求不同。因为服务器负载、客户机负载、网络带宽是随时变动的,因此,DSS采取这样的策略,在任何时刻,语音合成前后端的划分,取决于该时刻服务器负载、客户机负载、网络带宽的综合评估。
针对上表中的6种划分方法中的第2~4种,决定了DSS服务器和DSS客户机之间共有4种中间数据交换内容。我们基于XML结构化文档基础上,提出层次化中文语音合成标注语言(ML-CSSML),对这4种中间数据交换内容进行了全面的描述,作为DSS系统中间数据交换标准。
4.网络与协议DSS服务器和DSS客户机之间的通信除了遵循一定的数据交换标准之外,还必须遵循一定的协议标准,以定义DSS服务器和DSS客户机的交互行为。根据语音合成固有的请求/响应机制,我们基于HTTP协议基础之上,制定分布式语音合成网络应用协议(DSSNAP)。它具有如下主要特性1)动态仲裁根据服务器负载、客户机负载、网络带宽综合因素,动态仲裁使用何种数据交换标准。仲裁的原则是终端空闲资源利用最大化,服务器和网络负载最小化。
在合成语音效果保证的前提下,尽可能最大化地使用终端的资源,以释放服务器和网络负载,从而允许更多的终端访问,使大应用环境的建立成为可能。
2)负载平衡根据服务器负载情况,自动将客户机的请求导向负载较小的服务器,以实现负载平衡。
3)数据压缩DSS系统的中间交换数据以CSSML为载体。基于XML的CSSML文档,由于以文本的形式描述结构化数据,而这种结构化数据要求具一致性资源定位法。用于指明资料在互联网络上的取得方式与位置。其格式为通讯协议//服务器地址通讯端口/路径/文件名。例如http//www.hljucm.net.cnHTML(Hyper Text Markup Language)超文本标识语言。是用于创建网页的编程语言。XML(Extensible Markup Language)可扩展标记语言。使用它就可以以容易而一致的方式格式格式化和传送数据。Server API(Server Application Programming Interface)服务器应用程序开发接口。指提供给第三方开发DSS服务器的开发接口。CSSML(Chinese Speech Synthesis Markup language)中文语音合成标注语言。DSS服务器与客户机之间进行通信必须遵循的中间数据交换标准,是一种基于可扩展标注语言XML的语音合成前后端之间数据交换的载体。DSSNAP(DSS Net Application Protocol)分布式语音合成网络应用协议。DSS服务器与客户机之间进行通信必须遵循的协议标准。Client API客户机应用程序开发接口。指提供给第三方开发DSS客户机的开发接口。ML-CSSML(Multi-layer CSSML)层次化中文语音合成标注语言。由于DSS系统中存在不同层次的中间交换数据,因此,作为数据交换的载体的CSSML也必须是相应层次化的,以描述各个层次的中间交换数据。DSS定制应用模式介于离线和在线两种模式之中的DSS应用模式。它指DSS服务器和客户机需要实时通信,但通信的手段、方法、内容可以根据具体应用定制,不受DSSNAP的制约。
权利要求
1.一种分布式语音合成系统,其特征在于系统包括语音合成前端处理环节和语音合成后端处理环节,所述的语音合成前端环节运行在服务器上,语音合成后端环节运行在客户机上,采用客户/服务器(C/S)计算模式,服务器和客户机之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。
2.根据权利要求1所述的分布式语音合成系统,其特征在于客户/服务器(C/S)计算模式包括服务器、客户机、数据交换标准及网络协议标准四部分。
3.根据权利要求1或2所述的分布式语音合成系统,其特征在于用于完成前端环节任务的DSS服务器,它接收文本,经过一系列的处理过程,将其转换为某种中间数据输出,所输出的中间数据传输给用于完成后端环节任务的DSS客户机继续处理。
4.根据权利要求3所述的分布式语音合成系统,其特征在于所述的DSS客户机继续处理的环节至少包括文本预处理、语言分析、韵律生成、语音单元挑选、语音合成五个处理模块中的一个或多个。
5.根据权利要求3所述的分布式语音合成系统,其特征在于所述的DSS服务器包括以下几个组成部件1)服务器核心引擎(Server Engine),它用于完成文本到某种中间数据转换;2)转码器(Transcoder),待合成的内容转换为文本;3)服务器浏览器(Server Browser),负责获取指定URL内容;4)分布式语音合成网络应用协议(DSSNAP),负责与DSS客户机进行通信的功能部件;5)服务器应用程序开发接口(Server API),提供给第三方开发DSS服务器的应用程序开发接口。
6.根据权利要求3所述的分布式语音合成系统,其特征在于DSS客户机包括以下几个组成部件1)客户机核心引擎(Server Engine),完成某种中间数据到语音的转换;2)分布式语音合成网络应用协议(DSSNAP),负责与DSS服务器进行通信;3)客户机应用程序开发接口(Client API)提供给第三方开发DSS客户机的应用程序开发接口。
7.根据权利要求5或6所述的分布式语音合成系统,其特征在于DSS服务器接受两种来自DSS客户机的请求,一是内容请求(Content Request),表示DSS客户机直接将待合成内容(文本或其它)发送给DSS服务器,二是URL请求(URL Request),表示DSS客户机将URL发送给DSS服务器,由DSS服务器负责从网络上获取合成内容;DSS客户机可以向DSS服务器发出两种请求,即内容请求和URL请求,作用与DSS服务器相互对应,DSS客户机从DSS服务器或Web服务器接收某种中间数据(以CSSML形式存在),将其转换为语音输出;DSS客户机和Web服务器通过网络连接,并且DSS服务器所接入的网络支持HTTP传输协议。
全文摘要
本发明公开一种分布式语音合成系统,其特征在于:系统包括语音合成前端处理环节和语音合成后端处理环节,所述的语音合成前端环节运行在服务器上,语音合成后端环节运行在客户机上,采用客户/服务器(C/S)计算模式,服务器和客户机之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。这个原则是:尽可能地利用自身的空闲资源,以最大化的释放网络和服务器的负载,使得其它用户可以方便地接入。
文档编号G10L13/00GK1384489SQ02108890
公开日2002年12月11日 申请日期2002年4月22日 优先权日2002年4月22日
发明者唐浩, 尹波 申请人:安徽中科大讯飞信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1