在语音合系统中将背景音与文本语音混合输出的方法

文档序号：2821630阅读：161来源：国知局

专利名称：在语音合系统中将背景音与文本语音混合输出的方法
技术领域：
本发明涉及语音合成方法，具体是在使用计算机完成从文本到自然语音的转换过程中，管理和应用背景音乐的方法。
背景技术：
目前，在IVR、呼叫中心等电话语音系统中，已经广泛采用完成从文本到语音功能的语音合成系统。随着信息服务系统所提供信息范围越来越广，信息量越来越大，时效要求越来越强，以前的人工服务已经无法满足这种需求，而语音合成系统的功能就是把海量信息的文本及时转换成语音文件，并且立即播放出来。合成语音清晰准确，能满足实时信息播报的需要，能减少人工服务的成本并避免人工播报经常出现的口齿不清、误读等许多问题。
目前语音合成技术的发展已经可以满足大多数语音应用系统的要求，提供自然、流畅、清晰的合成语言。但是由于目前技术所限，合成语音还存在语气不够亲切等问题，影响用户的感受。
另外，在目前的语音应用中往往会同时使用预录语音和合成语音，预录语音与合成语音在音色、音量等语音参数方面存在的差异会影响两种语音衔接处的效果。
如上所述，目前在合成语音的应用过程中会存在一些影响最终效果的缺点，影响了用户的感受。申请人公司的研发人员通过实验和测听发现，在合成语音中适当的添加背景音乐，可以改善用户在实际应用过程中对语音的体验，使语音服务更加的亲切自然。
一般的电话语音应用中，通常没有使用背景音，或仅用背景音乐填补用户的等待时间。这样的使用方法常常会在背景音乐与合成语音切换时造成能量等方面的突兀差别，使语音信息服务常常缺少人性化的亲和力，用户长时间收听合成语音播放的信息，很容易产生疲劳感。
如果希望实现背景音与合成语音的同步播放，语音服务方必须了解语音学的相关知识，并且进行一定的编码工作。这种改进增加了集成开发的工作量，并且存在一定的难度，因此电话语音系统中插入背景音的问题长时间以来都没有得到妥善解决。
实验发现，在语音信息服务中，为合成语音适当地添加背景音乐，可以有效改善用户在实际应用过程中对合成语音的体验，使语音服务更加的亲切自然。

发明内容
本发明的目的就是提供一种在语音合成系统中将背景音与文本语音混合输出的方法，为用户提供背景音应用和管理的界面，使背景音和合成语音相辅相成，将背景音与文本语音合成后输出，提高语音服务品质。
本发明的目的是通过以下技术方案实现的。
一种在语音合成系统中将背景音与文本语音混合输出的方法，包括用户向合成系统提供合成文本信息，合成系统经过文本分析(对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、语调等)，再调用音库中的发音单元，组合成连续的合成文本语音数据，其特征是建立背景音库，建立标识(序号或名称)与音库内容相对应的背景音索引，在语音合成系统的资源管理中心中增加对背景音库进行添加、删除、音量调整、描述内容编辑的管理操作等程序内容；在合成文本文件中需要添加背景音的位置加入背景音的CSSML标记，确定添加背景音的起始和终止位置，指定使用的背景音文件名称或者是背景音编号/名称，或者在语音合成系统的用户开发接口提供的设置合成参数的函数中增加背景音的合成参数(合成系统原来支持的合成参数包括设置文本特性的参数字符集，文本类型，输入缓冲区大小；设置语音数据特性的参数发音人，语音数据格式，语音数据头格式，字节序，输出缓冲区大小；设置韵律特性的参数音高，音量，语速；设置读法处理的参数回车处理，数字处理，英文处理；)；可以从背景音库中提取出CSSML标记或合成参数设置的背景音，把背景音与合成文本语音按照一定能量比例进行混音处理，获得带有背景音效果的合成语音数据输出。
背景音库的的制作步骤如下(1)收集背景音用户根据自己的应用需要，预先收集或录制适用的背景音乐，并保存为语音文件；(2)格式转化用户将背景音语音文件的格式手工转换为wav格式；(3)采样率的转换合成系统根据用户安装的音库采样率，把背景音转换成相同采样率的语音文件；
(4)能量调整合成系统根据用户指定的参数，对背景音进行能量的调整；(5)语音数据压缩合成系统将所有背景语音数据压缩成alaw格式；(6)保存合成系统将背景音文件保存到背景音库中。
在合成系统开发接口提供的设置合成参数的函数中增加的背景音合成参数，用于指定在语音合成时添加的背景音标识(序号或名称)，从背景音库中将用户选择的背景音提出后，将合成语音和背景音按一定能量或波形比例进行混音处理，得到带有背景音的合成语音数据输出。
从背景音库中提取出CSSML标记设置的背景音，其步骤是(1)添加CSSML标记用户可以手工或使用工具生成CSSML文件，并在文件中需要添加背景音的位置加入背景音的CSSML标记，以句为单位精确的控制背景音的播放位置；(2)解析标记合成系统对送入的CSSML文件进行解析，提取背景音CSSML标记的信息，并将信息保存下来，供后继处理使用；(3)提取背景音文件根据解析结果，合成系统从背景音库中提取出指定的背景音语音数据；(4)混音处理按照指定的比例，将合成语音和背景音进行混音处理，得到带有背景音的合成语音；(5)语音数据输出将带有背景音的合成语音数据从合成系统中输出，进行必要的格式转化等操作。
资源管理中心的背景音用户界面中，设置“资源管理中心”的“背景音库”界面实现背景音资源的添加、删除和修改，以及设置提示音的相关属性；设置“背景音属性设置”界面实现背景音属性的设置与修改，这些属性包括背景音名称、编号、背景音时长、重复播放选项、背景音说明；设置“背景音属性设置”界面实现背景音试听和调节功能，界面中为用户提供背景音与合成语音音量对比的调节工具，用户可以试听，并根据需要进行适当调整，以获得最佳混音效果；设置“合成演示程序”界面“高级参数设置”决定是否使用背景音。
背景音是合成系统的一种资源，存放于系统的背景音库中。在使用合成系统前，需要将用户想要播放的背景音添加到背景音库中，然后就可以在合成系统中使用了。
发明的效果背景音的灵活应用。可以对被合成文本设置任何符合格式要求的背景音，增强信息播报的听觉效果。可以在被合成文本的任何位置插入不同的背景音，例如，配合开门声，风雨声，或者歌声，人群欢笑声，以营造不同的气氛，满足不同性质语音信息，以及不同信息受众的需要。
背景音的统一管理。用户可以根据各自的需要或喜好，自行定制背景音库。合成系统提供了背景音添加向导，帮助用户完成背景音的添加和设置。并且可以用背景音名称或编号减缩，使用十分方便。
试听和调整功能。方便用户调整背景音与合成语音的能量对比，达到和谐悦耳的效果。
术语解释语音合成(Text-To-Speech)又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科，是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，目的是让计算机能够产生高清晰度、高自然度的连续语音。
IVR交互式语音应答(Interactive Voice Response)，是呼叫中心系统结构中不可或缺的重要组成部分，它能为来话者提供相应的语音引导，并为其实现自动语音服务。
CSSML即中文语音合成标记语言(Chinese Speech SynthesisMarkup Language)，是针对中文语音合成的特点，由科大讯飞公司制定的中文语音合成标记规范，该规范是SSML v1.0规范的扩展，于2002年12月发布。本公司语音合成系统产品都把CSSML规范作为中文语音合成的支持标准，用户可以通过CSSML标记文本来指定文本的合成方式，这种方法能够规范化文本的合成方式、解决许多语音合成系统难以智能处理的问题。

图1在InterPhonic 3.0语音合成系统的资源管理中心背景音界面管理背景音资源。可以添加、删除背景音文件，修改背景音属性等。
图2在InterPhonic 3.0语音合成系统的背景音属性设置界面设置背景音属性和调节试听效果。
图3在InterPhonic 3.0语音合成系统的合成演示程序界面中设置系统参数，确定是否启用背景音。
图4本发明的工作流程框图。
具体实施例方式
一种在语音合成系统中将背景音与文本语音混合输出的方法，包括用户向合成系统提供合成文本信息，合成系统经过文本分析(对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、语调等)，再调用音库中的发音单元，组合成连续的合成文本语音数据，其特征是建立背景音库，建立序号或名称与音库内容相对应的背景音索引，在语音合成系统的资源管理中心中增加对背景音库进行添加、删除、音量调整、描述内容编辑的管理操作等程序内容；在合成文本文件中需要添加背景音的位置加入背景音的CSSML标记，确定添加背景音的起始和终止位置，指定使用的背景音文件名称或者是背景音编号/名称，或者在语音合成系统的用户开发接口提供的设置合成参数的函数(本例中采用为TtssetSyuthParam函数)中增加背景音的合成参数；可以从背景音库中提取出CSSML标记或合成参数设置的背景音，把背景音与合成文本语音按照一定能量比例进行混音处理，获得带有背景音效果的合成语音数据输出。
背景音库的的制作步骤如下(1)收集背景音用户根据自己的应用需要，预先收集或录制适用的背景音乐，并保存为语音文件；(2)格式转化用户将背景音语音文件的格式手工转换为wav格式；(3)采样率的转换合成系统根据用户安装的音库采样率，把背景音转换成相同采样率的语音文件；(4)能量调整合成系统根据用户指定的参数，对背景音进行能量的调整；(5)语音数据压缩合成系统将所有背景语音数据压缩成alaw格式；(6)保存合成系统将背景音文件保存到背景音库中。
在合成系统开发接口提供的设置合成参数的函数中增加的背景音合成参数，用于指定在语音合成时添加的背景音序号，从背景音库中将用户选择的背景音提出后，将合成语音和背景音按一定能量或波形比例进行混音处理，得到带有背景音的合成语音数据输出。
从背景音库中提取出CSSML标记设置的背景音，其步骤是(1)添加CSSML标记用户可以手工或使用工具生成CSSML文件，并在文件中需要添加背景音的位置加入背景音的CSSML标记，以句为单位精确的控制背景音的播放位置；(2)解析标记合成系统对送入的CSSML文件进行解析，提取背景音CSSML标记的信息，并将信息保存下来，供后继处理使用；(3)提取背景音文件根据解析结果，合成系统从背景音库中提取出指定的背景音语音数据；(4)混音处理按照指定的比例，将合成语音和背景音进行混音处理，得到带有背景音的合成语音；(5)语音数据输出将带有背景音的合成语音数据从合成系统中输出，进行必要的格式转化等操作。
本发明采用计算机软件形式，应用于InterPhonic CE3.0语音合成系统中，为用户提供一系列背景音应用和管理的用户界面，用户可以轻松实现背景音的管理和使用。
目前系统只支持未经压缩的wav格式的音频数据，对于A/U law等压缩格式的音频数据，则不能使用。系统推荐使用16K、16Bits以上高质量的音频文件。
在InterPhonic CE3.0语音合成系统中还设置了相应参数，指定在语音合成时添加的背景音，从背景音库中将用户选择的背景音提出后，按照一定的比例，将合成语音和背景音按一定能量或波形比例进行混音处理，得到带有背景音的合成语音数据输出。
■界面1(图1)在InterPhonic 3.0语音合成系统的资源管理中心背景音界面管理背景音资源。可以添加、删除背景音文件，修改背景音属性等。
■界面2(图2)在InterPhonic 3.0语音合成系统的背景音属性设置界面设置背景音属性和调节试听效果。
其中各项参数说明编号当前所设置的背景音在背景音库中的编号，自动显示。
时长正常情况下，当前背景音的播放时间，自动显示。
重复播放背景音在语音合成过程中，应用当前背景音时，是否重复播放。用户选择。
名称当前背景音的名称。在背景音库中，背景音文件的名称必须唯一，长度不大于36字符。
描述对当前背景音的简单说明，长度不大于256字符。
混音比例在进行语音合成时，背景音与合成语音的音量比例。
取值范围0～0.6，值越大，背景音音量越大；取值为零，表示背景音为静音。
试听功能单击“试听”按钮，可以试听当前正在设置的背景音。单击“停止”按钮结束试听。
■界面3(图3)在InterPhonic 3.0语音合成系统的合成演示程序界面中设置系统参数，确定是否启用背景音。选择“不使用背景音”，合成的语音文件中不出现背景音，这是默认形式；选择具体的背景音文件名，就是在合成的语音文件中使用此背景音。默认情况下，合成以后的语音文件中通篇都将应用同一段背景音乐。如果只需要在被合成文本某些地方使用背景音乐，或者对不同语句应用不同的背景音乐，应当在被合成文本的适当位置添加CSSML标记，例如

在合成文本中用CSSML标记引用背景音可以有三种形式一是用背景音名称，如<environment src＝″name背景音名称″></environment>
二是用背景音编号，如<environment src＝″id2″></environment>
三是用背景音文件路径，如<environment src＝″d\music.wav″></environment>
权利要求
1.一种在语音合成系统中将背景音与文本语音混合输出的方法，包括用户向合成系统提供合成文本信息，合成系统经过文本分析(对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、语调等)，再调用音库中的发音单元，组合成连续的合成文本语音数据，其特征是建立背景音库，建立标识(序号或名称)与音库内容相对应的背景音索引，在语音合成系统的资源管理中心中增加对背景音库进行添加、删除、音量调整、描述内容编辑的管理操作等程序内容；在合成文本文件中需要添加背景音的位置加入背景音的CSSML标记，确定添加背景音的起始和终止位置，指定使用的背景音文件名称或者是背景音序号/名称，或者在语音合成系统用户开发接口提供的设置合成参数的函数中增加背景音合成参数；可以从背景音库中提取出CSSML标记或合成参数设置的背景音，把背景音与合成文本语音按照一定能量比例进行混音处理，获得带有背景音效果的合成语音数据输出。
2.根据权利要求1所述的在语音合成系统中将背景音与文本语音混合输出方法，其特征在于背景音库的的制作步骤如下(1)收集背景音用户根据自己的应用需要，预先收集或录制适用的背景音乐，并保存为语音文件；(2)格式转化用户将背景音语音文件的格式手工转换为wav格式；(3)采样率的转换合成系统根据用户安装的音库采样率，把背景音转换成相同采样率的语音文件；(4)能量调整合成系统根据用户指定的参数，对背景音进行能量的调整；(5)语音数据压缩合成系统将所有背景语音数据压缩成alaw格式；(6)保存合成系统将背景音文件保存到背景音库中。
3.根据权利要求1所述的在语音合成系统中将背景音与文本语音混合输出方法，其特征在于在合成系统开发接口提供的设置合成参数的函数中增加的背景音合成参数，用于指定在语音合成时添加的背景音标识(序号)，从背景音库中将用户选择的背景音提出后，将合成语音和背景音按一定能量或波形比例进行混音处理，得到带有背景音的合成语音数据输出。
4.根据权利要求1所述的在语音合成系统中将背景音与文本语音混合输出方法，其特征在于从背景音库中提取出CSSML标记设置的背景音，其步骤是(1)添加CSSML标记用户可以手工或使用工具生成CSSML文件，并在文件中需要添加背景音的位置加入背景音的CSSML标记，以句为单位精确的控制背景音的播放位置；(2)解析标记合成系统对送入的CSSML文件进行解析，提取背景音CSSML标记的信息，并将信息保存下来，供后继处理使用；(3)提取背景音文件根据解析结果，合成系统从背景音库中提取出指定的背景音语音数据；(4)混音处理按照指定的比例，将合成语音和背景音进行混音处理，得到带有背景音的合成语音；(5)语音数据输出将带有背景音的合成语音数据从合成系统中输出，进行必要的格式转化等操作。
5.根据权利要求1所述的在语音合成系统中将背景音与文本语音混合输出方法，其特征在于资源管理中心的背景音用户界面中，设置“资源管理中心”的“背景音库”界面实现背景音资源的添加、删除和修改，以及设置提示音的相关属性；设置“背景音属性设置”界面实现背景音属性的设置与修改，这些属性包括背景音名称、编号、背景音时长、重复播放选项、背景音说明；设置“背景音属性设置”界面实现背景音试听和调节功能，界面中为用户提供背景音与合成语音音量对比的调节工具，用户可以试听，并根据需要进行适当调整，以获得最佳混音效果；设置“合成演示程序”界面“高级参数设置”决定是否使用背景音。
全文摘要
本发明公开了一种在语音合成系统中将背景音与文本语音混合输出的方法，包括用户向合成系统提供合成文本信息，合成系统经过文本分析和韵律分析，再调用音库中的发音单元，组合成连续的合成文本语音数据。本发明特征是建立背景音库，在合成文本文件中加入背景音的CSSML标记，或者在语音合成系统用户开发接口提供背景音合成参数；然后从背景音库中提取出CSSML标记或合成参数设置的背景音，把背景音与合成文本语音按照一定能量比例进行混音处理后输出，增强了信息播报的听觉效果。
文档编号G10L13/00GK1584979SQ200410044998
公开日2005年2月23日申请日期2004年6月1日优先权日2004年6月1日
发明者严峻, 于继栋, 李海方申请人:安徽中科大讯飞信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：严峻;于继栋;李海方
技术所有人：安徽中科大讯飞信息科技有限公司
我是此专利的发明人