嵌入式设备、双模态语音合成系统和方法

文档序号：2837487阅读：368来源：国知局

专利名称：嵌入式设备、双模态语音合成系统和方法
技术领域：
本发明涉及嵌入式设备上任意文本到自然语音转换的语音合成技术，更具体地，涉及一种嵌入式设备、一种双模态语音合成系统和一种双模态语音合成方法，可以在满足用户对实时性和音质要求的基
10础上，为用户提供高音质的语音合成输出。
背景技术：
随着数字时代的来临，语音交互技术得到了越来越多的应用，从文本到语音的语音合成技术作为语音交互的重要一环，受到了学术界
15 和产业界越来越多的重视。国内外很多公司、大学以及科研院所针对语音合成技术做了广泛深入地研究，提出了基于预录制语音库的波形拼接合成技术(参见参考文献[1][2])、基于语音参数的语音合成技术(参见参考文献[3] [4])以及基于人类语音产生机理的语音合成(参见参考文献[5])等多种方法。除基于人类语音产生机理的语音合成方
20 法仅处在研究阶段外，其他两种方法均已有多年的研究历史并且在近几年取得了较大的进展，实现了一些具体应用。
波形拼接语音合成技术需要预先按照合成单元，存储语音数据 (即语音库)，在合成时，根据文本分析和韵律预测的结果，从预存的语音数据中选择出合适的拼接单元，最后将所选的拼接单元按照时间
25序列拼接在一起，从而得到最终的合成语音。这种方法的优点在于最终合成语音为真实的录音数据，结合准确的韵律预测模块，最终产生的语音非常接近于自然语音。而缺点在于要得到较好的合成结果，需要事先存储大量的语音数据，合成结果与存储数据量的大小直接相关，即当语音库大幅减小后，其音质也会大幅下降。目前基于大语音
30库拼接技术的语音合成技术，以其自然的韵律和高质量的音质成为了服务器版和桌面版语音合成的主流。
参数合成法(也被称为分析合成方法)把语音参数根据语音产生的数学模型转换为语音数据。参数合成预先存储的不是语音数据本身，而是提取出的语音参数，因此参数合成法对于存储空间的要求较波形 5 拼接要小得多。在合成阶段，系统将根据语音模型把语音参数转换为语音数据。由于参数合成所采用的语音模型只能近似模拟人的发音机理，因此参数合成法生成的语音音质较差。最近几年随着语音模型的深入研究、语音信号处理技术以及统计技术的发展，参数合成法的音质也得到了很大的提高。除了存储空间要求小以外，参数合成法相对 10 于波形拼接的另外一个优点是得到的合成语音连贯性较好。
而随着软、硬件技术的发展，目前嵌入式设备(如PDA、车载终
端和智能手机等)的计算能力和存储能力已经有了很大的改善，进而使得改善用户界面的需求更加强烈。最近几年语音合成技术在嵌入式设备上的应用已经成为了语音研究领域的热点。对于语音合成技术来
15 说，嵌入式设备相对于计算机有计算能力低、存储空间小等特点。根据嵌入式设备的特点，已有研究者(参见参考文献[6])通过简化文本分析和韵律预测模块以及减少音库中语音单元数量的方法，将拼接语音合成技术移植到了嵌入式设备中，但是随之而来的是合成音质和自然度的大幅度下降。参数合成应用在嵌入式设备(参见参考文献[7])
20 中时，资源占用并不是问题，但在很多情况下其提供的合成语音并不能让用户满意。如何在嵌入式设备现有的资源下获得高质量的合成语音已成为了当前嵌入式语音合成领域最棘手的问题。

发明内容
25 本发明提出了一种在嵌入式设备上进行双模态语音合成的解决方案来提高嵌入式设备上语音合成的性能。所谓双模态语音合成指的是在嵌入式设备端的参数合成和在服务器端的大音库波形拼接合成，而双模态之间的切换是系统根据实时性、对音质的要求和用户选择等
因素自动进行的。本发明的目的在于在满足实时性的要求时，利用
30服务器端的波形拼接合成，向嵌入式设备用户提供音质最好的合成语音；当不满足实时性要求时，在满足音质要求的情况下，利用设备自身的参数合成提供稍差的合成语音，这样就可以在各种情况下向用户提供尽可能好的语音合成服务。
本发明既利用大音库拼接合成音质好的特点，又利用了参数合成 5 占用资源少速度快的特点，将两者结合在一起的双模态语音合成系统可以在满足用户对实时性和音质要求的基础上，为用户提供高音质的语音合成输出。与在嵌入式设备中单独使用参数合成、以及在嵌入式设备中单独使用拼接合成相比，本发明提出的双模态语音合成系统在嵌入式设备中具有更为明显的优势。
10 根据本发明的第一方案，提出了一种嵌入式设备，包括网络可
用性检测单元，用于在接收到待合成的文本时，检测网络的可用性，如果网络可用，则将接收到的待合成的文本通过网络传输至服务器侧的拼接合成单元；如果网络不可用，则将接收到的待合成的文本输入到参数合成单元中；参数合成单元，用于对来自网络可用性检测单元
15 的输入文本进行参数语音合成处理，并将处理后所得到的语音输出提供给音质检测单元；音质检测单元，用于在实时性允许的范围内，接收来自嵌入式设备侧的参数合成单元的参数合成结果和来自服务器侧的拼接合成单元的拼接合成结果，对上述结果进行语音质量评价，选择语音质量最好的合成结果进行输出。
20 优选地，所述嵌入式设备还包括实时性检测单元，用于在从网
络可用性检测单元接收到准备进行实时性检测的通知时，启动实时性检测处理，检查服务器侧的拼接合成单元的语音拼接合成进度，由此
确定是否满足实时性的要求；其中所述网络可用性检测单元在将接收到的待合成的文本通过网络传输至服务器侧的拼接合成单元的同时，
25 通知所述实时性检测单元准备进行实时性检测处理。
更优选地，当实时性检测单元确定满足实时性要求时，等待至下一预定时刻再次进行实时性检测处理，直至服务器侧的拼接合成单元通知其已完成语音拼接合成处理为止；当实时性检测单元确定不满足实时性要求时，通知服务器侧的拼接合成单元停止语音拼接合成处理、
30并返回此时的中间结果；并在接收到从服务器侧的拼接合成单元返回的中间结果时，实时性检测单元将返回的中间结果提供给参数合成单元。
优选地，所述嵌入式设备侧的实时性检测单元首先根据所接收到的、由服务器侧的拼接合成单元在完成预定处理时、自动发送的指示 5 当前所处状态的数据包来确定是否满足实时性要求；当经过了预定时间仍未接收到上述数据包时，向服务器侧的拼接合成单元发送査询命令，并根据服务器侧的拼接合成单元对所述查询命令的响应来确定是否满足实时性要求。
更优选地，所述实时性要求是用户预先指定的或系统缺省设置
10 的。
优选地，所述音质检测单元在评价参数合成结果和拼接合成结果的语音质量时，选择其语音质量优于用户预设或系统缺省设置的语音质量的合成结果进行输出。
优选地，所述音质检测单元基于离线评价来进行语音质量评价，
15 其中预先离线设置系统的音质等级，在使用中，在具有不低于用户所设定的可接受音质等级的多个合成结果中，选择具有最高音质等级的合成结果进行输出；或者所述音质检测单元基于在线评价来进行语音质量评价，其中从合成语音结果中提取多个预定参数，根据所述预定参数的模型和分布情况，估计所述合成语音结果的音质，在具有不低
20 于用户所设定的可接受音质等级的多个合成结果中，选择具有最高音质等级的合成结果进行输出。
根据本发明的第二方案，提出了一种双模态语音合成系统，包括根据上述本发明所述的嵌入式设备；和服务器，包括拼接合成单元，用于接收来自网络可用性检测单元的输入文本，对其进行语音拼接合
25成处理，并将处理后所得到的语音输出提供给音质检测单元。
根据本发明的第三方案，提出了一种双模态语音合成方法，包括以下步骤在接收到待合成的文本时，检测网络的可用性；如果网络可用，则将接收到的待合成的文本通过网络传输至服务器，由服务器对待合成的文本进行语音拼接合成处理，并在完成语音拼接合成处理
30时，将合成语音通过网络传输至嵌入式设备；如果网络不可用，则对待合成的文本进行参数语音合成处理，并输出处理后所得到的语音合成结果；以及在实时性允许的范围内，接收来自嵌入式设备自身的参数合成结果和来自服务器的拼接合成结果，并对上述结果进行语音质量评价，选择语音质量最好的合成结果进行输出。 5 优选地，所述双模态语音合成方法还包括在将接收到的待合成
的文本通过网络传输至服务器的同时，启动实时性检测处理，检查服务器的语音拼接合成进度，由此确定是否满足实时性的要求。
更优选地，当满足实时性要求时，等待至下一预定时刻再次进行实时性检测处理，直至服务器通知其己完成语音拼接合成处理为止； 10 当确定不满足实时性要求时，通知服务器停止语音拼接合成处理、并返回此时的中间结果；并在接收到从服务器返回的中间结果时，将返回的中间结果输入所述参数语音合成处理步骤。
优选地，首先根据所接收到的、由服务器在完成所述语音拼接合成处理中的预定子处理步骤时、自动发送的指示当前所处状态的数据 15包来确定是否满足实时性要求；当经过了预定时间仍未接收到上述数据包时，向所述服务器发送查询命令，并根据所述服务器对所述查询命令的响应来确定是否满足实时性要求。
更优选地，所述实时性要求是用户预先指定的或系统缺省设置的。
20 优选地，在所述合成结果评价和选择步骤中，选择其语音质量优
于用户预设或系统缺省设置的语音质量的合成结果进行输出。
优选地，基于离线评价来进行语音质量评价，其中预先离线设置系统的音质等级，在使用中，在具有不低于用户所设定的可接受音质等级的多个合成结果中，选择具有最高音质等级的合成结果进行输出；
25 或者基于在线评价来进行语音质量评价，其中从合成语音结果中提取多个预定参数，根据所述预定参数的模型和分布情况，估计所述合成语音结果的音质，在具有不低于用户所设定的可接受音质等级的多个合成结果中，选择具有最高音质等级的合成结果进行输出。
本发明提供的双模态语音合成系统和方法的特点主要在于
30 a、嵌入式设备提供基于语音参数的语音合成，服务器提供基于大音库的拼接语音合成，嵌入式设备和服务器通过标准的网络通讯协议进行通讯，传输内容包括文本数据、语音数据和控制数据等；
b、嵌入式设备收到用户请求进行一段文本的语音合成时，最终的合成语音来自于设备端的参数合成还是服务器端的拼接合成取决于 5 实时性、音质以及用户选择的要求等各种因素；
C、实时性要求受到网络传输能力、服务器端的负载以及拼接合成速度、设备端负载以及参数合成速度等因素的影响；
d、音质要求由服务器端拼接合成的音质、嵌入式设备端参数合成的音质以及用户可接受音质等因素决定。 10 本发明所描述的双模态语音合成系统和方法是针对嵌入式设备资源少、计算能力低的特点而提出的，在嵌入式设备上应用本发明可以在满足实时性和音质要求的基础上，为用户尽可能提供高质量的语音合成输出。同现有技术相比，本发明具有以下显著的有益效果
1. 提出了嵌入式设备上双模态语音合成的概念，根据系统实时 15 性和音质要求自动选择是采用远程服务器端波形拼接的合成语音还是
采用本地嵌入式设备参数合成的合成语音。在条件受限的情况下为用户提供尽可能好的语音合成服务。
2. 考虑到了嵌入式设备语音合成实时性的要求。在嵌入式设备上进行语音合成时，如果等待时间太长用户会失去耐心。本发明通过
20 实时性判断模块可以尽快提供合成语音。
3. 考虑到了嵌入式设备语音合成音质的要求。嵌入式设备由于
资源有限，自身语音合成技术提供的合成音质较差，本发明利用网络和服务器端波形拼接合成，在一定条件下可以为嵌入式设备用户提供
高质量的语音合成。
2

图1是根据本发明的嵌入式设备双模态语音合成系统的示意图。图2是根据本发明的嵌入式设备双模态语音合成系统的系统方框图。
30 图3示出了根据本发明的嵌入式设备双模态语音合成方法的流程图。
图4是由参数语音合成模块130所执行的参数合成步骤S103的详细流程图。
图5是由拼接合成模块210所执行的拼接语音合成步骤S104的 5 详细流程图。
具体实施例方式
图1是根据本发明的嵌入式设备双模态语音合成系统的示意图。在图1中，用户l拥有嵌入式设备l，用户2拥有嵌入式设备2。嵌入 10式设备1和2均可以通过无线连接与服务器1和2相连。
图2是根据本发明的嵌入式设备双模态语音合成系统的系统方框图。如图2所示，根据本发明的嵌入式设备双模态语音合成系统分为嵌入式设备侧100和服务器侧200。在用户设备侧100，主要包括文本预处理模块110、网络可用性检测模块120、参数合成模块130、实时 15 性检测模块140、音质检测模块150和语音输出模块160。在服务器侧 200，主要包括拼接合成模块210。当然，如本领域普通技术人员所公
知，嵌入式设备和服务器还应当包括用于实现其它功能的各个模块，由于与本发明的技术方案无关联，在此省略对其的详细描述。
文本预处理模块IIO用于对用户所发出的请求进行处理，以获得 20待合成的文本，并将所得到的文本提供给网络可用性检测模块120。网络可用性检测模块120在从文本预处理模块110接收到文本曰寸，检测网络的可用性，即检测与服务器侧200的拼接合成模块210 之间是否存在可用的网络连接，如果与拼接合成模块210间存在或可建立可用的网络连接，则将接收到的文本通过网络传输至服务器侧 25200的拼接合成模块210，并通知实时性检测模块140准备进行实时性检测。另一方面，如果与拼接合成模块210间不存在可用的网络连接且不能建立可用的网络连接，则将接收到的文本输入到嵌入式设备侧 100的参数合成模块130中。
参数合成模块130用于对来自网络可用性检测模块120的输入文 30本进行参数语音合成处理，并将处理后所得到的语音输出提供给音质检测模块150。
实时性检测模块140在从网络可用性检测模块120接收到准备进行实时性检测的通知时，启动实时性检测处理，检查拼接合成模块210 的语音拼接合成进度，由此，确定是否满足实时性的要求(所述实时 5 性要求是用户预先指定的或系统缺省设置的)。当满足实时性要求时，实时性检测模块140等待至下一预定时刻再次进行实时性检测处理，直至拼接合成模块210通知其己完成语音拼接合成处理为止。另一方面，当实时性检测模块140确定不满足实时性要求时，通知拼接合成模块210停止语音拼接合成处理、并返回此时的中间结果；并在接收
10 到从拼接合成模块210返回的中间结果时，实时性检测模块140将返回的中间结果提供给参数合成模块130 (稍后将对实时性检测的具体操作进行详细描述)。
音质检测模块150在实时性允许的范围内，接收来自嵌入式设备侧100的参数合成模块130的参数合成结果和来自服务器侧200的拼
15接合成模块210的拼接合成结果，对上述结果进行语音质量评价，选择语音质量最好的合成结果，输出至语音输出模块160。更好的是，选择其语音质量优于用户预设或系统缺省设置的语音质量的合成结果输出至输出模块160。
语音输出模块160用于输出由音质检测模块150在实时性允许的
20 范围内所选择出的语音质量最好的合成结果。
拼接合成模块210接收来自网络可用性检测模块120的输入文本，对其进行语音拼接合成处理，并将处理后所得到的语音输出提供给音质检测模块150。在语音拼接合成处理的过程中，拼接合成模块 210在完成预定处理时，自动发送指示当前所处状态的数据包；还响
25 应来自实时性检测模块140的拼接合成进度检查命令，向实时性检测模块140报告拼接合成进度；且根据实时性检测模块140的通知指令，在不满足实时性要求的情况下，停止语音拼接合成处理，返回中间结果。
图3示出了根据本发明的嵌入式设备双模态语音合成方法的流程
30 图。具体地，在步骤S101，用户发出文本合成请求，对用户请求进行处理，以获得待合成的文本；
在步骤S102，检测网络的可用性，如果网络可用，则执行步骤 S104，否则执行步骤S103;
5 在步骤S103，对待合成的文本进行参数语音合成处理，并输出处
理后所得到的语音合成结果；
在步骤S104，将待合成的文本通过网络传输至服务器侧，由服务器对待合成的文本进行语音拼接合成处理；
在步骤S105，根据用户预先指定的或系统缺省设置的实时性要 10求，每隔预定时间，向服务器发送合成进度检查命令，检查是否满足实时性要求；如果满足实时性要求，则执行步骤S108，否则执行步骤 S106;
在步骤S106，服务器停止语音拼接合成处理，并将语音合成的中间结果返回至嵌入式设备； 15 在步骤S107 ，接收服务器返回的中间结果，并执行上述步骤S103;
在步骤S108，如果服务器尚未完成语音拼接合成处理，则返回步骤S105，如果服务器已完成语音拼接合成处理，则将合成语音通过网络传输到嵌入式设备；
在步骤S109，嵌入式设备在实时性允许的范围内，接收来自嵌入 20式设备自身的参数合成结果和来自服务器的拼接合成结果，并对上述结果进行语音质量评价，以选择语音质量最好的合成结果；更好的是，选择其语音质量优于用户预设或系统缺省设置的语音质量的合成结果；
最后，在步骤SllO，由嵌入式设备输出所选择的具有最佳语音质 25量的合成结果，本次用户的语音合成请求结束。
图4是由参数语音合成模块130所执行的参数合成步骤S103的详细流程图，由图4可知，参数合成步骤S103由文本处理、韵律预测、参数生成和语音生成四个子步骤组成。文本处理子步骤包括输入文本的规范化、韵律词/韵律短语的划分、拼音标注和词性标注等功能；韵 30律预测子步骤主要指根据拼音序列以及词性、停顿等信息预测韵律参数，这里的韵律参数包括基频、时长以及音强等参数；参数生成子步骤根据要合成的语音序列以及预测的韵律参数生成合成所需的语音参数，语音参数从大类上可分为声源参数和声道参数，声源参数主要由基频决定，而声道参数一般由倒谱、LPC系数及其推导形式、共振峰 5 参数等组成，在某些参数合成系统中韵律预测和参数生成是集成在一个模块中的；语音生成子步骤进行由语音参数到语音数据的转换，该
子步骤的基本原理是人类语音产生机理的数学模型。
图5是由拼接合成模块210所执行的拼接语音合成步骤S104的详细流程图，由图5可以看出拼接语音合成步骤S104由文本处理、韵
10 律预测、单元选择和波形拼接四个子步骤组成，其中的文本处理、韵律预测子步骤的功能和操作在参数合成步骤S103和拼接合成步骤 S104中是一致的，因此拼接合成处理中这两个模块的结果可以作为辅助信息用于嵌入式设备侧100的参数合成模块130。单元选择子步骤的目的是在预存的大语音库中搜索最符合文本处理和韵律预测结果的
15 语音单元，波形拼接子步骤将单元选择子步骤中选中的单元的语音按照文本序列拼接在一起，最终得到了拼接的合成语音。
实时性检测模块140的主要目的是确保在实时性要求范围内得到合成语音。实时性和网络传输能力、服务器端的负载以及拼接合成速度、设备端负载以及参数合成速度等因素有关。因为在设备端进行参
20 数合成所需的时间基本是固定的，所以实时性检测主要是判断当前的服务器端拼接合成速度和网络传输速度能否在给定的时间内提供拼接合成结果。实时性检测的具体过程如下服务器端收到合成文本语音合成启动以后，每个合成子步骤结束后都会向设备端发送简单的状态数据包表明现在的合成进度，另外当收到设备端的査询命令时也会发
25送当前所在状态的数据包；设备端接收来自服务器端的状态数据包，并且在一段时间没有收到状态数据包时会向服务器发送查询命令；只有设备端在合成开始后指定的时间(该时间取决于用户的实时性要求) 内接收到服务器发送的各状态数据包时，实时性检测模块140才认为目前的服务器合成符合实时性要求，否则判定当前的服务器合成状态
30 不符合实时性的要求。音质检测模块150的目的在于保证用户最终得到合成语音其音质为用户所能接受的、系统能够提供的、最好的合成语音。音质评价是一项比较困难的工作，原因在于音质的好坏是人类的主观感受，而这种主观感受很难用语音参数和数学模型进行描述。在本发明中音质评 5 价模块有两种方法，分别是离线评价和在线评价。离线评价是指，一个语音合成系统开发完成后，对一批精选的测试文本进行语音合成测试，合成结果由多个专业测听人员进行打分，综合所有测试文本所有测听人员的分数即可得到该系统的音质等级，嵌入式设备用户会设定一个可以接受的音质等级，音质评价模块会在不低于用户可接受音质 10 等级的合成语音中选取最高的一个合成结果进行输出。在线评价是通过对合成语音提取一些参数，根据这些参数的模型以及该参数的分布情况，估计该语音的音质，目前该方法的效果还有待提高。
网络连接300用于在设备端和服务器端之间传输合成文本、合成语音、状态数据以及查询命令等。网络连接300可以是基于TCP/IP 15协议的以太网，但不限于此，也可以由任何可以完成以上数据传输的系统构成，例如蓝牙、GPRS等。
本发明可以由用户设定完成一次语音合成请求可以接受的等待时间(实时性要求)以及可以接受的合成音质，不但为用户提供了方便，而且具有很强的定制性。本发明综合利用了目前两种语音合成方 20法的优点，可以在满足用户对实时性和音质要求的基础上，为用户提供高音质的语音合成输出。参考文献列表
1. 张鹏、王琳、刘胜，《基于韵律匹配代价和韵律拼接代价的汉
语语音合成》，哈尔滨工业大学学报，2006年38巻11期，2006-2008;
2. 望月亮、.'.野敏幸、西村洋文，《语音合成装置和方法》，申 5请号CN01140652.6;
3. 杨红云、向茂楠，《LSP参数的语音分析和合成研究》，北京理工大学学报，1992年12巻l期，71-77;
4. 鲁弘茂，《混合参数模式的语音合成系统及方法》，申请号 CN200510005145. 1;
10 5. Dang， J. and Honda， K. ， J p力/sic^(9^7'csJ迈ooW o/s oy/j柳j.c
raca2 trsct /ar 5"/ eec/ /77Y t/i/c"(9/7， Acoust. Sic. & Tech， 22， 6,
415-425， 2001/12;
6.刘建、汪俊杰、颜永红、张建平，《一种嵌入式语音合成方法
及系统》，申请号CN02146655.6; 15 7.李晶皎，《嵌入式语音技术及凌阳16位单片机应用》，北京航
空航天大学出版社。
权利要求
1.一种嵌入式设备，包括网络可用性检测单元，用于在接收到待合成的文本时，检测网络的可用性，如果网络可用，则将接收到的待合成的文本通过网络传输至服务器侧的拼接合成单元；如果网络不可用，则将接收到的待合成的文本输入到参数合成单元中；参数合成单元，用于对来自网络可用性检测单元的输入文本进行参数语音合成处理，并将处理后所得到的语音输出提供给音质检测单元；音质检测单元，用于在实时性允许的范围内，接收来自嵌入式设备侧的参数合成单元的参数合成结果和来自服务器侧的拼接合成单元的拼接合成结果，对上述结果进行语音质量评价，选择语音质量最好的合成结果进行输出。
2. 根据权利要求l所述的嵌入式设备，还包括实时性检测单元，用于在从网络可用性检测单元接收到准备进行实时性检测的通知时，启动实时性检测处理，检査服务器侧的拼接合成单元的语音拼接合成进度，由此确定是否满足实时性的要求； 20 其中所述网络可用性检测单元在将接收到的待合成的文本通过网络传输至服务器侧的拼接合成单元的同时，通知所述实时性检测单元准备进行实时性检测处理。
3. 根据权利要求2所述的嵌入式设备，其特征在于当实时性检测单元确定满足实时性要求时，等待至下一预定时刻 25再次进行实时性检测处理，直至服务器侧的拼接合成单元通知其已完成语音拼接合成处理为止；当实时性检测单元确定不满足实时性要求时，通知服务器侧的拼接合成单元停止语音拼接合成处理、并返回此时的中间结果；并在接收到从服务器侧的拼接合成单元返回的中间结果时，实时性检测单元 30将返回的中间结果提供给参数合成单元。
4. 根据权利要求2或3所述的嵌入式设备，其特征在于所述嵌入式设备侧的实时性检测单元首先根据所接收到的、由服务器侧的拼接合成单元在完成预定处理时、自动发送的指示当前所处状态的数据包来确定是否满足实时性要求；当经过了预定时间仍未接 5 收到上述数据包时，向服务器侧的拼接合成单元发送查询命令，并根据服务器侧的拼接合成单元对所述査询命令的响应来确定是否满足实时性要求。
5. 根据权利要求3或4所述的嵌入式设备，其特征在于所述实时性要求是用户预先指定的或系统缺省设置的。
6.根据权利要求1 5之一所述的嵌入式设备，其特征在于所述音质检测单元在评价参数合成结果和拼接合成结果的语音质量时，选择其语音质量优于用户预设或系统缺省设置的语音质量的合成结果进行输出。
7. 根据权利要求1 6之一所述的嵌入式设备，其特征在于- 所述音质检测单元基于离线评价来进行语音质量评价，其中预先离线设置系统的音质等级，在使用中，在具有不低于用户所设定的可接受音质等级的多个合成结果中，选择具有最高音质等级的合成结果进行输出；或者所述音质检测单元基于在线评价来进行语音质量评价，其中从合 20成语音结果中提取多个预定参数，根据所述预定参数的模型和分布情况，估计所述合成语音结果的音质，在具有不低于用户所设定的可接受音质等级的多个合成结果中，选择具有最高音质等级的合成结果进行输出。
8. —种双模态语音合成系统，包括根据权利要求1 7之一所述的嵌入式设备；和服务器，包括拼接合成单元，用于接收来自网络可用性检测单元的输入文本，对其进行语音拼接合成处理，并将处理后所得到的语音输出提供给音质检测单元。
9. 一种双模态语音合成方法，包括以下步骤在接收到待合成的文本时，检测网络的可用性；如果网络可用，则将接收到的待合成的文本通过网络传输至服务器，由服务器对待合成的文本进行语音拼接合成处理，并在完成语音拼接合成处理时，将合成语音通过网络传输至嵌入式设备；如果网络不可用，则对待合成的文本进行参数语音合成处理，并 5 输出处理后所得到的语音合成结果；以及在实时性允许的范围内，接收来自嵌入式设备自身的参数合成结果和来自服务器的拼接合成结果，并对上述结果进行语音质量评价，选择语音质量最好的合成结果进行输出。
10. 根据权利要求9所述的双模态语音合成方法，还包括在将接收到的待合成的文本通过网络传输至服务器的同时，启动实时性检测处理，检查服务器的语音拼接合成进度，由此确定是否满足实时性的要求。
11. 根据权利要求IO所述的双模态语音合成方法，其特征在于当满足实时性要求时，等待至下一预定时刻再次进行实时性检测处理，直至服务器通知其已完成语音拼接合成处理为止；当确定不满足实时性要求时，通知服务器停止语音拼接合成处理、并返回此时的中间结果；并在接收到从服务器返回的中间结果时，将返回的中间结果输入所述参数语音合成处理步骤。
12. 根据权利要求10或11所述的双模态语音合成方法，其特征在于首先根据所接收到的、由服务器在完成所述语音拼接合成处理中的预定子处理步骤时、自动发送的指示当前所处状态的数据包来确定是否满足实时性要求；当经过了预定时间仍未接收到上述数据包时，向所述服务器发送查询命令，并根据所述服务器对所述查询命令的响 25 应来确定是否满足实时性要求。
13. 根据权利要求11或12所述的双模态语音合成方法，其特征在于所述实时性要求是用户预先指定的或系统缺省设置的。
14. 根据权利要求9 13之一所述的双模态语音合成方法，其特征在于在所述合成结果评价和选择步骤中，选择其语音质量优于用户预设或系统缺省设置的语音质量的合成结果进行输出。
15.根据权利要求9 14之一所述的双模态语音合成方法，其特征在于基于离线评价来进行语音质量评价，其中预先离线设置系统的音质等级，在使用中，在具有不低于用户所设定的可接受音质等级的多个合成结果中，选择具有最高音质等级的合成结果进行输出；或者基于在线评价来进行语音质量评价，其中从合成语音结果中提取多个预定参数，根据所述预定参数的模型和分布情况，估计所述合成 10语音结果的音质，在具有不低于用户所设定的可接受音质等级的多个合成结果中，选择具有最高音质等级的合成结果进行输出。
全文摘要
本发明提出了一种嵌入式设备、一种双模态语音合成系统和一种双模态语音合成方法。根据本发明，所述嵌入式设备包括网络可用性检测单元，用于检测网络的可用性，如果网络可用，则将接收到的文本通过网络传输至服务器侧的拼接合成单元；如果网络不可用，则将文本输入到参数合成单元中；参数合成单元，用于对输入文本进行参数语音合成处理，并将处理后所得到的语音输出提供给音质检测单元；音质检测单元，用于在实时性允许的范围内，接收来自参数合成单元的参数合成结果和来自服务器侧的拼接合成单元的拼接合成结果，对上述结果进行语音质量评价，选择语音质量最好的合成结果进行输出。
文档编号G10L13/00GK101409072SQ20071018012
公开日2009年4月15日申请日期2007年10月10日优先权日2007年10月10日
发明者夏海荣申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：夏海荣
技术所有人：松下电器产业株式会社
我是此专利的发明人

上一篇：提供多种歌词卡拉ok系统的系统、方法、设备的制作方法
上一篇：一种孤立词语音端点检测的方法及系统的制作方法