用于文本转语音性能评价的系统和方法

文档序号：9818463阅读：582来源：国知局

用于文本转语音性能评价的系统和方法
【技术领域】
[0001] 本发明涉及文本转语音(TTS)合成的领域，更具体地，涉及用于文本转语音合成的性能评价的系统和相关方法。
【背景技术】
[0002] 话音控制技术已被研究20年以上，许多提出的益处已在各种应用中得到证明。计算机硬件和软件的不断发展使话音控制技术的使用更实用、灵活和可靠。结果，话音控制系统在现代电子设备中变得越来越普及。例如，话音控制系统已被结合到智能电话机、车载电子设备(比如可从BMW Corp.获得的iSpeech系统）、智能家居应用等中。
[0003] 话音控制系统一般基于语音识别和文本转语音(TTS)合成。语音识别可把用户产生的音频信号转换成对应命令，根据所述命令，电子设备进行特定操作。另一方面，文本转语音合成向用户提供话音读出功能。例如，在车载电子设备的情况下，语音识别可让驾驶员利用口头命令控制诸如电话机、空调、导航和音响系统之类的功能部件，并且文本转语音合成可提供话音导航信息，或者为驾驶员朗读电子邮件或SMS消息。这不仅更舒适，而且安全：驾驶员的双手始终保持在方向盘上，他(她)对周围交通情况的注意力不被分散。
[0004] 文本转语音合成是文本到语音的转换。这种转换依照特定语言的发音规范，把文本变换成尽可能接近真实人类语音的合成语音。通常，TTS合成包含自然语言处理的第一步骤。更具体地，文本输入被变换成包括待产生的音素、其持续时间、短语边界的位置以及各个短语的音高/频率轮廓的语言表达。随后，TTS合成的第二步骤是通过数字信号处理，把在语言分析阶段中获得的标音和韵律信息变换成声波波形。K.R.Aida-Zade等在"the main principles of text-to-speech synthesis system"（International Journal of Signal Processing, Vol. 6，No. 1,2010)中也描述了TTS合成系统，该文献通过引用整体包含于此。
[0005] TTS的质量非常重要，因为它与TTS合成系统或引擎生成的话音输出是否可被客户理解以及当听到所述话音输出时客户是否感到舒适有关。语音合成系统的最关键质量是自然性和可懂度。自然性描述输出的声音到底有多像人类语音，而可懂度是理解所述输出的容易度。理想的语音合成器既自然又易懂。语音合成系统通常试图使这两种特性最大化。 [0006] 目前，存在许多可用的TTS引擎，比如Apple Corp.的Siri、Microsoft Corp.的 SAM、Android TTS引擎以及许多其它因特网TTS引擎。从而，出现如何评价这样的引擎以便选择对客户来说最佳的TTS产品的挑战。TTS评价旨在关于诸如可懂度和自然性之类的重要准则，评价由TTS合成引擎生成的语音。在TTS性能的评价中，一般使用主观评价方法，比如 M0S(平均意见得分）、DRT(诊断押韵测试）、DAM(诊断接受度测量）、CT(理解测试)等。
[0007]以M0S为例，它是通过计算一组标准和主观测试的结果的平均值进行的，在所述一组测试中，许多听众评定由TTS合成引擎生成的测试句子的感知话音质量的等级。下表1表示M0S分级方案。M0S被表示成在1-5的范围中的单一数字，其中1是最低的感知音频质量，5 是最高的感知音频质量测量。通过求所有听众的所有得分的平均值，计算各个测试句子的感知得分。
[0008] 表1:M0S分级方案
[0010] 正如其名称所暗指的，主观评价方法依赖于听众的个人主观感知，这意味结果受对于测试句子的个体反应的随机性影响。为了降低结果的不确定性和增大结果的可重复性，通常对于测试装置、数据、条件和听众有严格要求（即，理想地，对于不同参与者的测试环境应严格一致）。通常，主观评价方法非常费时、费力和耗费成本。
[0011] 另一方面，主观评价方法不能自动生成TTS性能评价结果。到目前为止，不存在自动评价不同TTS合成引擎的性能的现有解决方案。目前，提供TTS产品的公司很多，为了选择对客户来说最佳的TTS产品，非常期望一种能够高效并且无偏地自动生成评价结果的TTS性能评价系统。在开发基于TTS的产品的过程中，对供应商或初始设备制造商(OEM)来说，随着产品的更迭，能够评价性能是得到改善还是下降也是非常合乎需要的。主观评价方法或许适合于科学研究，但是不能满足产业层级要求。

【发明内容】

[0012] 本发明的一个方面提供一种能够解决上述和其它现有技术问题中的一个或多个问题的用于文本转语音性能评价的系统和方法。
[0013] 本发明的另一个方面提供一种能够自动生成TTS性能评价结果的用于文本转语音性能评价的系统和方法。
[0014] 按照本发明的一个例证实施例，提供一种用于文本转语音(TTS)性能评价的方法，包括:提供多个语音样本和与相应语音样本关联的得分;根据所述多个语音样本和对应得分，建立语音模型;和通过语音模型评价TTS引擎。
[0015] 在本实施例的一个例子中，所述提供步骤还可包括:记录基于相同的一组训练文本、来自多个语音源的多个语音样本;和对所述多个语音样本中的每个语音样本分级，以向其分配得分。
[0016] 在本实施例的另一个例子中，所述多个语音源可包括多个TTS引擎，以及方言不同和发音的清晰度不同的人类。
[0017] 在本实施例的另一个例子中，所述分级步骤可通过选自由下列构成的组中的方法进行:平均意见得分(M0S)、诊断接受度测量(DAM)和理解测试(CT)。
[0018] 在本实施例的另一个例子中，所述建立步骤还可包括:预处理所述多个语音样本，以便获得相应的波形;从每个预处理波形中提取特征;和通过提取的特征和对应得分，训练语音模型。
[0019] 在本实施例的另一个例子中，提取的特征可包括时域特征和频域特征中的一个或多个特征。
[0020] 在本实施例的另一个例子中，所述训练步骤可通过利用HMM(隐式马尔可夫模型）、 SVM(支持向量机）、深度学习或神经网络进行。
[0021] 在本实施例的另一个例子中，所述评价步骤还可包括：向被评价的TTS引擎提供一组测试文本;接收由被评价的TTS引擎变换自所述一组测试文本的语音;和根据训练的语音模型计算每个语音的得分。
[0022]按照本发明的另一个例证实施例，提供一种用于文本转语音(TTS)性能评价的系统，包括:包含多个语音样本和与相应语音样本关联的得分的样本库;被配置成根据所述多个语音样本和对应得分建立语音模型的语音建模部分;和被配置成通过语音模型评价TTS 引擎的评价部分。
[0023] 在本实施例的一个例子中，系统还可包括:被配置成记录基于相同的一组训练文本、来自多个语音源的多个语音样本的采样部分;和被配置成对所述一组语音样本中的每个语音样本分级，以向其分配得分的分级部分。
[0024] 在本实施例的另一个例子中，所述多个语音源可包括多个TTS引擎，以及方言不同和发音的清晰度不同的人类。
[0025] 在本实施例的另一个例子中，所述分级部分可被配置成通过选自由下列构成的组中的方法对每个语音样本分级：平均意见得分(M0S)、诊断接受度测量(DAM)和理解测试 (CT)。
[0026] 在本实施例的另一个例子中，语音建模部分还可包括:被配置成预处理所述多个语音样本，以便获得相应波形的预处理单元;被配置成从每个预处理波形中提取特征的特征提取单元;和被配置成通过提取的特征和对应得分训练语音模型的机器学习单元。
[0027] 在本实施例的另一个例子中，提取的特征可包括时域特征和频域特征中的一个或多个特征。
[0028]在本实施例的另一个例子中，所述机器学习单元可被配置成通过利用HMM(隐式马尔可夫模型）

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：C·伊泽特;赖胜;C·聚斯;H·胡;
技术所有人：宝马股份公司;
我是此专利的发明人