语音合成设备及方法

文档序号：2830816阅读：299来源：国知局

专利名称：语音合成设备及方法
技术领域：
本发明涉及一种语音合成技术。
背景技术：
对于车站站台上的列车指南和高速公路上的交通堵塞信息等，使用组合和连接预先记录的语音数据(预先存储的单词语音数据和短语语音数据)的指定域合成(domain-specific synthesis )。由于该^支术应用于指定J^或，因而该方案可以;彈到具有高度自然性的合成语音，但是该方案不能合成对应于任意文本的语音。作为典型的基于规则的语音合成系统的连接合成系统通过将输入文本划分成单词，向这些单词附加发音信息，并根据发音信息连接语音段，来生成基于规则的合成语音。尽管该方案可以合成对应于任意文本的语音，然而合成语音的自然性不高。曰本特开2002-221980公开了一种通过组合预先记录的i吾音和基于规则的合成语音来生成合成语音的语音合成系统。该系统包括保存预先记录的语音的短语字典以及保存发音和口音的发音字典。在接收到输入文本时，在短语字典中登记有该单词的情况下，该系统输出单词的预先记录的语音，并在发音字典中登记有该单词的情况下，该系统输出根据单词的发音和口音生成的单词的基于规则的合成语音。在曰本特开2002-221980公开的语音合成中，由于音质在预先记录的语音和基于规则的合成语音之间的边界附近改变极大，因而可理解性可能劣化。发明内容考虑到上述问题做出了本发明，并且本发明的目的是在通过组合预先记录的语音和基于规则的合成语音来生成合成语音时，改善可理解性。根据本发明的一个方面，一种语音合成设备，包括语言分析部件，用于通过对所提供的文本进行语言分析来识别单词；选择部件，用于选择基于所述语言分析的结果来进行基于规则的合成的第一语音合成处理、以及进行基于预先记录的语音的合成以回放预先记录的语音数据的第二语音合成处理之一，作为要对从所述语言分析的结果提取的所关注的单词执行的语音合成处理，其中，所述选择部件基于与所关注的单词相邻的单词，来选择所述第一语音合成处理或所述第二语音合成处理；处理执行部件，用于对所关注的单词执行由所述选择部件选择的所述第一语音合成处理或所述第二语音合成处理；以及输出部件，用于输出由所述处理执行部件生成的合成语音。根据本发明的另一个方面，一种语音合成方法，包括语言分析步骤，用于通过对所提供的文本进行语言分析来识别单词；选择步骤，用于选择基于所述语言分析的结果来进行基于规则的合成的第一语音合成处理、以及进行基于预先记录的语音的合成以回放预先记录的语音数据的第二语音合成处理之一，作为要对从所述语言分析的结果提取的所关注的单词执行的语音合成处理，其中，所述选择步骤基于与所关注的单词相邻的单词，来选择所述第一语音合成处理或所述第二语音合成处理；处理执行步骤，用于对所关注的单词执行所述选择步骤中选择的所述第一语音合成处理或所述第二语音合成处理；以根据下面参考附图对典型实施例的说明，本发明的其它特征将显而易见。

图1是示出根据第一实施例的语音合成设备的硬件配置的框图。图2是示出根据第一实施例的语音合成设备的模块配置的框图。图3是示出根据第一实施例的语音合成设备中的处理的流程图。图4是示出根据第二实施例的语音合成设备的模块配置的框图。图5是说明第二实施例中的连接失真的示意图。图6是示出根据第三实施例的语音合成设备中的处理的流程图。图7是以网格形式表示第三实施例中的作为语言分析结果的多个解的示意图。图8是以网格形式表示转换成合成候选语音数据的图7中的候选单词的示意图。图9是示出根据第四实施例的语音合成设备的模块配置的框图。图IO是示出根据第四实施例的语音合成设备中的处理的流程图。图ll是示出第四实施例中的步骤S1004结束时的状态的示意图。图12是示出第四实施例中作为直到步骤S1004的语音合成处理的结果所获得的合成候选语音数据的示意图。图13是示出第五实施例中的合成候选语音数据的示意图。图1 4是示出根据第六实施例的语音合成设备的模块配置的框图。图15是示出第九实施例中的语言分析结果的示意图。
具体实施方式
以下将参考附图详细说明本发明的各种典型实施例、特征和方面。实施例的 >开内容并不限制本发明，并且实施例中所述的特征的所有组合并不总是本发明的解决手段所必需的。下面的实施例以如下情况为例子进行说明用于基于规则的合成的语言分析的语言字典中所登记的或者用于基于预先记录的语音的合成的预先记录的语音数据中所登记的词语是单词。然而，本发明并不仅限于此。所登记的词语可以是包括多个单词串的短语或者比单词小的单元。第一实施例图l是示出根据第一实施例的语音合成设备的硬件配置的框图。参考图1,附图标记101表示存储根据本实施例的语音合成程序1011和固定数据的控制存储器(ROM); 102表示进行数值处理/控制等处理的中央处理单元；103表示用于存储临时数据的存储器(RAM); 104表示外部存储装置；105表示用户用来向该设备输入数据并向其发出操作指令的输入装置；106表示在中央处理单元102的控制下向用户呈现各种信息的诸如显示装置的输出装置；107表示输出语音的语音输出装置；108表示用于各个装置交换数据的总线；109表示用户用来向该设备输入语音的语音输入装置。图2是示出根据本实施例的语音合成设备的模块配置的框图。参考图2，文本保存单元201保存作为语音合成对象的输入文本。作为语言分析部件的语言处理单元202通过使用语言字典 212执行语言分析，来识别从文本保存单元20 l提供的文本的单词。利用该操作，提取作为语音合成处理对象的单词，并生成语音合成处理所需的信息。分析结果保存单元203保存由语言处理单元202获得的分析结果。基于规则合成单元204基于由分析结果保存单元203保存的分析结果，来进行基于规则的合成(第一语音合成处理)。基于规则合成数据205包括基于规则合成单元204执行基于规则的合成所需的规则和单元分割数据。基于预先记录语音合成单元206基于由分析结果保存单元203保存的分析结果，来进行基于预先记录的语音的合成(第二语音合成处理)，以回放预先记录的语音数据。基于预先记录语音合成数据 207是基于预先记录语音合成单元206执行基于预先记录的语音的合成所需的单词或短语的预先记录的语音数据。合成语音保存单元208保存由基于规则合成单元204或者基于预先记录语音合成单元206获得的合成语音。合成选择单元209基于由分析结果保存单元203保存的分析结果和由选择结果保存单元210保存的先前的选择结果，来选择要应用于所关注的单词的语音合成方法(基于规则的合成或者基于预先记录的语音的合成)。选择结果保存单元210将由合成选择单元209选择的用于所关注的单词的语音合成方法与先前的结果一起保存。语音输出单元211通过语音输出装置107输出由合成语音保存单元208保存的合成语音。语言字典212保存单词的拼写信息和发音信息等。该方法中的基于预先记录的语音的合成是通过组合预先记录的单词或者短语等预先记录的语音数据来生成合成语音的方法。不必说，当组合预先记录的语音数据时，可以对该语音数据进行处理，或者可以在不进行任何处理的情况下输出该语音数据。图3是根据本实施例的语音合成设备中的处理的流程图。在步骤S301,语言处理单元202通过使用语言字典212对由文本保存单元201保存的作为合成对象的文本进行语言分析，来提取作为语音合成对象的单词。本实施例是以从文本的开头开始依次进行语音分析的过程为前提的。由于该原因，从文本的开头开始依次提取单词。另外，将发音信息附加到各个单词，并从基于预先记录语音合成数据207提取表示是否存在与各个单词相对应的预先记录的语音的信息。分析结果保存单元203 保存分析结果。然后，处理转移到步骤S302。如果在步骤S302判断为由分析结果保存单元203保存的分析结果包含未合成的单词，则处理转移到步骤S303。如果分析结果不包含未合成的单词，则处理结束。在步骤S303，合成选择单元209基于由分析结果保存单元 203保存的分析结果和由选择结果保存单元210保存的用于先前处理的单词的语音合成方法选择结果，来选择用于所关注的单词(第一单词)的语音合成方法。选择结果保存单元210保存该选择结果。如果选择基于规则的合成作为语音合成方法，则处理转移到步骤S304。如果选择基于预先记录的语音的合成，而不是基于规则的合成作为语音合成方法，则处理转移到步骤5305。在步骤S304 ，作为处理执行部件的基于规则合成单元204 通过使用由分析结果保存单元203保存的分析结果和基于规则合成数据205,来对所关注的单词进行基于规则的合成。合成语音保存单元208保存所生成的合成语音。然后，处理转移到步骤5306。在步骤S305 ，作为处理执行部件的基于预先记录语音合成单元206通过使用由分析结果保存单元203保存的分析结果和基于预先记录合成数据207，来对所关注的单词进行基于预先记录的语音的合成。合成语音保存单元208保存所生成的合成语音。然后，处理转移到步骤S306。在步骤S306，语音输出单元211通过语音输出装置211输出由合成语音保存单元208保存的合成语音。处理返回步骤S302。下面是用于本实施例的步骤S303中的语音合成方法的选择标准。首先优选基于预先记录的语音的合成方案。在其它情况下，优先选择与所关注的单词相邻的单词(第二单词)，例如，紧接在所关注的单词之前的单词选择的语音合成方法相同的语音合成方法。如果没有登记所关注的单词的预先记录的语音，则不能进行基于预先记录的语音的合成。在该情况下，因此，选择基于规则的合成。基于规则的合成通常可以合成任意单词，因而始终可以选4奪。根据以上处理，根据用于紧接在所关注的单词之前的单词的语音合成方法，来选择用于所关注的单词的语音合成方法。这使得可以连续使用相同的语音合成方法，并抑制语音合成方法的切换次数。这可以改善合成语音的可理解性。第二实施例在上述的第一实施例中，为所关注的单词优先选择与为紧接在所关注的单词之前的单词选择的语音合成方法相同的语音合成方法。与此相反，第二实施例将连接失真的最小化设置为选择标准。这将在下面详细说明。图4是示出根据第二实施例的语音合成设备的模块配置的框图。图4中相同的附图标记表示进行与图2中的第一实施例中的处理相同的处理的模块，并省略重复说明。图4示出与图2中示出的配置相比，还包括连接失真计算单元401的配置。连接失真计算单元401计算由合成语音保存单元208保存的紧接在所关注的单词之前的单词的合成语音和所关注的单词的合成候选语音之间的连接失真。合成语音保存单元208保存由基于规则合成单元204或基于预先记录语音合成单元206获得的合成语音，直到选择下一单词的语音合成方法为止。合成选冲奪单元209选4奪连接失真计算单元401计算出具有最小连接失真的合成候选语音和与其相对应的语音合成方法。选4,结果保存单元210保存该合成候选语音和与其相对应的语音合成方法。将参考第一实施例中的图3来说明根据本实施例的语音合成设备中的处理过程。注意，步骤S303以外的处理过程与第一实施例的处理过程相同，因此将省略重复说明。在步骤S303，连接失真计算单元401计算由合成语音保存单元208保存的紧接在所关注的单词之前的单词的合成语音和所关注的单词的合成对象语音之间的连接失真。然后，合成选择单元209选择连接失真计算单元401计算出具有最小连接失真的合成候选语音和与其相对应的语音合成方法。选择结果保存单元210保存该选择结果。如果所选择的语音合成方法是基于规则的合成，则处理转移到步骤S304。如果所选择的语音合成方法不是基于规则的合成而是基于预先记录的语音的合成，则处理转移到步骤S305。图5是说明第二实施例中的连接失真的示意图。参考图5 ，附图标记501表示紧接在所关注的单词之前的单词的合成语音；502表示通过将基于规则的合成应用到所关注的单词的发音而获得的合成候选语音；503表示通过将基于预先记录的语音的合成应用到预先记录的语音而获得的合成候选语音。本实施例中的连接失真是紧接在所关注的单词之前的单词的合成语音的结束和所关注的单词的合成语音的开始之间的频谱距离(spectral distance )。连接失真计算单元401计算紧前单词的合成语音501和通过所关注的单词的基于^L则的合成所获得的合成候选语音(根据发音合成的语音)502之间的连接失真，以及紧前单词的合成语音501和通过基于预先记录的语音的合成所获得的合成候选语音503之间的连接失真。合成选择单元 209选择连接失真最小的合成候选语音及其语音合成方法。显然，连接失真不限于频谱距离，可以基于以倒谱距离 (cepstral distance)或基本频率为代表的声学特征量或者通过使用其他已知技术来定义连接失真。考虑例如发声速度。在这种情况下，可以基于紧前单词的发声速度和合成候选语音的发声速度之间的差或比率来定义连接失真。如果将发声速度差定义为连接失真时，则可以定义为差越小，连接失真越小。当将发声速度比率定义为连接失真时，则可以定义为发声速度比率和基准比率l之间的差越小，连接失真越小。换句话说，可以定义为发声速度比率相对基准比率l的距离越小，连接失真越小。如上所述，如果对于所关注的单词存在多个合成候选语音数据，则设置连接失真的最小化作为选择标准，使得可以选择在连接点处具有较小失真的合成候选语音及其语音合成方法。这可以改善可理解性。第三实施例第一实施例和第二实施例被配置成逐个单词地选择语音合成方法。然而，本发明不限于此。例如，能够选择各个单词的合成候选语音及其语音合成方法，以满足全部或部分的提供文本的选才奪标准。第一实施例和第二实施例是以语言处理单元202唯一地识别单词为前提的。然而，本发明不仅限于此。分析结果可以包含多个解。本实施例以存在多个解的情况为例子进行说明。图6是示出根据本实施例的语音合成设备中的处理的流程图。图6中相同的附图标记表示与图3中的步骤相同的步骤。注意，图2中的配置表示本实施例的语音合成设备的模块配置。参考图6，在步骤S301,语言处理单元202通过针对由文本保存单元201保存的作为合成对象的文本查阅语言字典202，来构造单词网才各。另夕卜，语言处理单元2 02将发音附加到各个单词，并从基于预先记录语音合成数据207提取表示是否存在与各个单词相对应的预先记录的语音的信息。本实施例与第一实施例的不同之处在于，分析结果包含多个解。分析结果保存单元203 保存分析结果。然后，处理转移到步骤S601。在步骤S601,合成选择单元209基于由分析结果保存单元 203保存的分析结果，来选择满足全部或部分文本的选择标准的合成候选语音数据的最佳序列。选择结果保存单元210保存所选择的最佳序列。然后，处理转移到步骤S302。假定合成选择单元209采用的选择标准是"使语音合成方法的切换的次数和合成候选语音的连接的次数的和最小化"。如果在步骤S302判断为由选择结果保存单元210保存的最佳序列包含未合成的单词，则处理转移到步骤S303。如果不存在未合成的单词，则处理结束。在步骤S303,合成选择单元209基于由选择结果保存单元 210保存的最佳序列，来使要应用于所关注的单词的处理分支到步骤S304或步骤S305 。如果为所关注的单词选择基于规则的合成，则处理转移到S304。如果为所关注的单词选择基于预先记录的语音的合成而不是基于规则的合成，则处理转移到步骤S305。由于步一骤S304、 S305和S306的处J里与第一实施例的处J里相同，因而省略重复il明。接着将参考图7和8说明语言分析的多个解和最佳序列的选择。图7是以网格形式表示本实施例中的作为语言分析结果的多个解的示意图。参考图7，附图标记701表示代表网格的开始的节点；707 表示代表网格的结束的节点。附图标记702 706表示候选单词。在该情况下，存在符合以下三个解的单词序列(1 ) 702-703-706(2 ) 702-704-706(3 ) 702-705图8是以网格形式表示转换成合成候选语音数据的图7中的候选单词的示意图。参考图8，附图标记801 809表示合成候选语音数据。在合成候选语音数据中，无阴影的椭圆801、 802、 804、 805和808 表示的数据是通过将基于规则的合成应用到语言字典212中登记的单词的发音所获得的合成候选语音数据。另一方面，阴影的椭圆803、 806、 807和809是通过将基于预先记录的语音的合成应用到基于预先记录语音合成数据207中登记的预先记录的语音所获得的合成候选语音数据。由于候选项702和704中没有登记与基于预先记录语音合成数据207相对应的预先记录的语音数据，因而不存在基于预先记录的语音的合成的合成候选语音。参考图8，图7中示出的候选单词由具有与图7中表示相同候选单词的附图标记相同的附图标记的虛线来表示。图8所示的例子包括以下九个合成候选语音数据的序列 (1 )謝-802-808(2 ) 801-802-809 (3 ) 801-803-808 (4 ) 801-803-809 (5 )謝-804-808 (6 )謝-804-譜 (7 )謝-805 (8 ) 801-806 (9 ) 801-807按照理解，这些合成候选语音数据的序列中的每个表示考虑到是否存在各个单词的预先记录的语音数据的语音合成方法的选择模式。本实施例选择所获得的选择模式中使语音合成方法的切换的次数与单词的连接的次数的和最小化的选择模式。在这种情况下，序列"(7 ) 801-805"使语音合成方法的切换的次数与单词的连接的次数的和最小化。因此，合成选择单元209选择序列"801-805"。第四实施例语音合成的通用用户字典功能在用户字典中登记多对拼写和发音。如本发明中的具有基于规则的合成功能和基于预先记录的语音的合成功能两者的语音合成设备优选允许用户除发音以外还登记预先记录的语音。还优选登记多个预先记录的语音数据。考虑本实施例设置有能够登记拼写和发音、拼写和预先记录的语音、以及拼写、发音和预先记录的语音中的任意组合的用户字典功能的情况。通过使用基于规则的合成来将用户登记的发音转换成合成语音。另外，通过使用基于预先记录的语音的合成来将用户登记的预先记录的语音转换成合成语音。假定在本实施例中，当存在登记在系统中的预先记录的语音时，选择通过使用基于预先记录的语音的合成所获得的合成语音。还假定如果不存在登记在系统中的预先记录的语音，则选择通过将基于规则的合成应用到发音所获得的合成语音。依赖于记录环境，用户登记的预先记录的语音并不总是具有高质量。因此，需要一些设计来选择用户登记的单词的合成语音。将说明通过使用关于前后单词的语音合成方法的信息来选择用户登记的单词的合成语音的方法。
图9是示出根据本实施例的语音合成设备的模块配置的框图。图9中相同的附图标记表示进行与在图2的第一实施例中的处理相同的处理的模块。
文本保存单元201保存作为语音合成对象的文本。文本基于规则合成单元901通过使用发音登记在语言字典212和用户字典 906中的单词，对由识别结果保存单元904保存的未知单词(后面说明)的拼写进行语言分析，然后，基于语言分析结果来进行基于规则的合成。然后，文本基于规则合成单元901输出合成语音。发音基于规则合成单元902接收用户字典906中登记的发音，进行基于规则的合成，并输出合成语音。基于预先记录语音合成单元206通过使用基于预先记录语音合成数据207,对由识别结果保存单元904保存的单词识别结果中识别为单词的单词识别结果进行基于预先记录的语音的合成，并输出合成语音。基于预先记录语音合成数据207保存单词和短语的发音和预先记录的i吾音。
单词识别单元903通过使用基于预先记录语音合成数据207 和用户字典906中登记的预先记录的语音数据的拼写，来识别由文本保存单元201保存的文本的单词。识别结果保存单元904保存单词识别结果。单词识别结果可以包含既未登记在基于预先记录语音合成数据207中也未登记在用户字典906中的字符串 (在本实施例中为未知单词)。单词登记单元905将用户通过输入装置105输入的拼写和发音登记在用户字典906中。单词登记单元905将用户通过语音输入装置109输入的预先记录的语音和用户通过输入装置105输入的拼写登记在用户字典906中。用户字典906可以登记拼写和发音、4并写和预先记录的语音、以及拼写、发音和预先记录的语音中的任意组合。当用户字典906中登记的单词出现在识别结果保存单元904中时，合成语音选择单元9 0 7根据选择标准来选择所关注的单词的合成语音。语音输出单元211输出由合成语音保存单元208保存的合成语音。合成语音保存单元208保存分别从文本基于规则合成单元901、发音基于规则合成单元902和基于预先记录语音合成单元206输出的合成语音数据。下面将参考图IO来说明根据本实施例的语音合成设备中的处理。参考图IO,在步骤SIOOI,单词识别单元903通过使用基于预先记录语音合成数据207和用户字典906中登记的预先记录的语音数据的拼写，来识别由文本保存单元201保存的文本的单词。识别结果保存单元904将不能识别的单词的字符串作为未知单词与识别出的单词一起保存。然后，处理转移到步骤S1002。在步骤S1002，基于预先记录语音合成单元206通过使用基于预先记录语音合成数据207和用户字典906中登记的预先记录的语音，来对由识别结果保存单元904保存的单词识别结果中识别为单词的单词识别结果进行基于预先记录的语音的合成。合成语音保存单元208保存所生成的合成语音。然后，处理转移到步骤S1003。在步骤S1003,文本基于规则合成单元901通过使用发音登记在语言字典212和用户字典906中的单词，来对由合成结果保存单元904保存的未知单词的拼写进行语言分析，然后，基于语言分析结果来进行基于规则的合成。合成语音保存单元208保存' 所生成的合成语音。然后，处理转移到步骤S1004。在步骤S1004，发音基于规则合成单元902对由识别结果保存单元904保存的单词识别结果中发音登记在用户字典906中的单词进行基于规则的合成。合成语音保存单元208保存所生成的合成语音。然后，处理转移到步骤S1005。在步骤S1005，如果关于识别结果保存单元904中的包括未知单词的单词，存在多个合成候选语音数据，则合成语音选择单元907选择它们中的一个。选择结果被反映在合成语音保存单元208中(例如，登记所选择的合成语音，或者删除未选择的合成语音)。然后，处理转移到步骤S1006。在步骤S1006,语音输出单元211从文本的开头开始依次输出由合成语音保存单元208保存的合成语音数据。然后，终止该处理。图ll是示出上述步骤S1004结束时的状态的示意图。参考图ll，用圆角矩形来表示各个数据，而用普通矩形来表示各个处理模块。附图标记llOl表示由文本保存单元201保存的文本；而1102 1104表示对文本1101进行单词识别所获得的结果。结果1102是未知单词，而结果1103和1104是基于预先记录语音合成数据207中登记的单词。结果1103还是发音和预先记录的语音登记在用户字典中的单词。结果1104是仅在基于预先记录语音合成数据207中登记的单词。附图标记1105、 1106和1107表示作为直到步骤S1004的语音合成处理的结果所获得的合成语音数据。合成语音1105对应于未知单词1102,并仅包括文本基于规则合成语音。合成语音1106 对应于单词1103，并包括基于预先记录语音合成语音、用户基于预先记录语音合成语音和用户发音基于规则合成语音。合成语音1107对应于单词1104,并仅包括基于预先记录语音合成语音。文本基于规则合成单元901输出文本基于规则合成语音。发音基于规则合成单元902输出用户发音基于规则合成语音。基于预先记录语音合成单元206输出基于预先记录语音合成语音和用户基于预先记录语音合成语音。图12是示出作为直到步骤S1004的语音合成处理的结果所获得的合成语音的细节的示意图。将参考图12说明步骤S1005中的处理。参考图12,附图标记1201表示文本基于规则合成语音；1202表示基于预先记录语音合成语音；1203表示用户基于预先记录语音合成语音；1204 表示用户发音基于规则合成语音；以及1205表示基于预先记录语音合成语音。假定在本实施例中，语音1201和语音1205出现在所关注的单词的前后，并且不存在其他类型的合成候选语音数据。合成语音选择单元907选择基于预先记录语音合成语音 1202、用户基于预先记录语音合成语音1203以及用户发音基于规则合成语音12 0 4中满足选择标准的合成语音。考虑选择标准是"优选与紧前语音合成方法相同或类似的语音合成方法"的情况。在该情况下，由于紧前语音合成方法是文本基于规则合成，因而选择作为一种基于基于规则的合成的语音的用户发音基于规则合成语音1204。如果选择标准是"优选与紧后语音合成方法相同或类似的语音合成方法"，则选择基于预先记录语音合成语音1202。如上所述，提供将发音和预先记录的语音与各个单词的拼写相对应地登记在用户字典中的功能，将增加语音合成方法的选择的选项数量，从而改善可理解性。第五实施例
第四实施例已经以如下情况作为例子进行说明在用户登记的单词前后^f叉存在一个合成候选语音数据。第五实施例以如下情况作为例子进行说明用户登记的单词连续出现。
图13是表示第五实施例中的合成候选语音数据的示意图。
参考图13，对于在两端的两个单词1301和1308，确定已经选4奪的合成语音数据。附图标记1302 1307表示对应于用户登记的单词的合成候选语音数据。
如第四实施例中一样，合成语音选择单元907才艮据预定选择标准，从合成候选语音数据选择一个合成语音数据。如果例如选择标准是"最小化语音合成方法的切换的次数并且优选基于预先记录语音合成语音"，则选择1301-1302-1305-1308。如果选择标准是"优选用户基于预先记录语音合成语音并且最小化语音合成方法的切换的次数"，则选择1301-1303-1306-1308。
考虑到用户登记的预先记录的语音的音质不稳定的可能性，使用标准"最小化连接点处的连接失真的总和"同样有效。
如上所述，即-使用户登记的单词连续出现，也可以通过i殳置选择标准以实现全部或部分的最佳化，来改善可理解性。
第六实施例
第一到第五实施例已经以如下情况作为例子进行说明基于所关注的单词的单词信息以外的单词信息，来为所关注的单词选择语音合成方法。然而，本发明不仅限于此。本发明可以采用用于仅基于所关注的单词的单词信息来选择语音合成方法的配置。
图14是示出根据第六实施利的语音合成设备的模块配置的框图。
图14中相同的附图标记表示进行与图2 9的第一到第五实施例中的处理相同的处理的模块，并省略重复说明。波形失真
计算单元1401计算通过将基于规则的合成应用到语言字典212
中登记的发音所获得的合成候选语音和通过将基于预先记录的
语音的合成应用到用户字典906中登记的预先记录的语音所获得的合成候选语音之间的波形失真(后面将说明)。合成选择单元209将波形失真计算单元1401所获得的波形失真与预先设置的阈值进行比较，并且当波形失真大于阈值时，在不考虑前后单词的语音合成方法的情况下，选择用户登记的单词。
由于第六实施例中的处理过程与第一实施例中的处理过程相同，所以将参考图3说明第六实施例中的处理过程。
图3的步骤S301、 S302、 S304、 S305和S306中的处理过程与第一实施例中的处理过程相同，因此，省略重复说明。
在步骤S303,波形失真计算单元1401计算通过将基于规则的合成应用到语言字典212中登记的发音所获得的合成候选语音和通过将基于预先记录的语音的合成应用到用户字典906中登记的预先记录的语音所获得的合成候选语音之间的波形失真。然后，合成选择单元209将波形失真计算单元1401所获得的波形失真与预先设置的阈值进行比较。如果波形失真大于阈值，则合成选择单元209不考虑前后单词的语音合成方法，选择基于预先记录的语音的合成。然后，处理转移到步骤S305;否则，处理转移到步骤S304。
作为波形失真，可以使用基于已知技术的值，例如，各个时间点处波形的振幅之间的差的总和或者频谱距离的总和。可选地，可以通过在两个合成候选语音数据之间建立时间对应关系时使用动态设计等来计算波形失真。
如上所述，引入波形失真使得可以优先用户登记预先记录的语音的目的(不仅仅是增加变化的简单目的，例如，根据所登记的预先记录的语音来对单词进行发音的目的)。第七实施例
第六实施例已经以如下情况作为例子进行说明考虑到通过将基于规则的合成应用到语言字典212中登记的发音所获得的合成候选语音和通过将基于预先记录的语音的合成应用到用户字典906中登记的预先记录的语音所获得的合成候选语音之间的波形失真，来为所关注的单词选择语音合成方法。然而，要获得波形失真的对象不仅限于它们。即，注意到基于系统中登记的发音或预先记录的语音的合成候选语音和基于用户字典中登记的发音或预先记录的语音的合成候选语音之间的波形失真就足够了。在该情况下，如果波形失真大于阈值，则优选基于用户字典中登记的发音或预先记录的语音的合成候选语音。
第/\实施例
第一和第二实施例以如下情况作为例子进行说明当要为各个单词选4奪语音合成方法时，从文本的起始单词开始处理文本。然而，本发明不仅限于此，并可以采用用于从文本的结束单词开始处理文本的配置。当要从文本的结束单词开始处理文本时，基于紧后单词的语音合成方法，来为所关注的单词选择语音合成方法。另外，本发明可以采用用于从任意单词开始处理文本的配置。在该情况下，基于前后单词的所选择的语音合成方法，来为所关注的单词选择语音合成方法。
第九实施例
第一到第三实施例以如下情况作为例子进行说明语言处理单元202通过使用语言字典212来将文本划分成单词。然而，本发明不仅限于此。例如，本发明可以采用用于通过使用语言字典212和基于预先记录语音合成数据207中包括的单词和短语来识别单词的配置。图15是示出通过使语言处理单元202通过使用语言字典212 和基于预先记录语音合成数据207中包括的单词和短语来将文本划分成单词或短语所获得的结果的示意图。参考图15,附图标记1501 1503表示基于用于基于预先记录的语音的合成的基于预先记录语音合成数据207中包括的单词和短语的识別结果。结果1501和1503表示均包括多个单词的短语。附图标记 1504 1509表示通过用于基于规则的合成的语言字典212所获得的识别结果；而1510表示接着要进行语音合成处理的位置。
如果在图3的步骤S303中选择基于规则的合成，则选择单词1504 1509作为用于语音合成的处理单元。如果选择基于预先记录的语音的合成，则选择短语1501和1503或者单词1502作为用于合成的处理单元。假定在图15所示的情况下，已经完成了直到位置1510的语音合成处理。在该情况中，接着对短语1503 或单词1507进行语音合成处理。当选择基于预先记录的语音的合成时，基于预先记录语音合成单元206处理短语1503。当处理短语1503时，从步骤S302中的选择对象排除单词1507 1509。参考图15,该操作等同于将虛线1510从短语1503 (单词1509 ) 向后移动，该虚线1510表示接着要进行语音合成处理的位置。
如果选择基于规则的合成，则基于规则合成单元204处理单词1507。当处理单词1507时，从步骤S302中的选^^对象排除短语1503，并且接着处理单词1508。参考图15,该操作等同于将虚线1510从单词1507向后移动，该虚线1510表示接着要进行语音合成处理的位置。
如上所述，当要使用通过使用语言字典212和基于预先记录语音合成数据207中包括的单词和短语来进行语言分析所获得的结果时，需要在建立短语和对应单词之间的对应关系的同时进行处理。当要生成语言字典212时，将基于预先记录语音合成数据
207的单词和短语的信息引入语言字典212中，使得语言处理单元不需要在执行语言分析时，访问基于预先记录语音合成数据 207。
第十实施例
根据第一实施例，语音合成方法的选择标准是"优选与为紧前单词选择的语音合成方法相同的语音合成方法"。然而，本发明不仅限于此。能够使用其他选择标准，或者将上述选择标准和任意选纟奪标准组合。
例如，组合选择标准"在呼气群处重新设置语音合成方法" 和上述选择标准，以设置选择标准"选择与为紧前单词选择的语音合成方法相同的语音合成方法，但是当在呼气群处重新设置语音合成方法时，优选基于预先记录的语音的合成方法"。表示是否检测到呼气群的信息是通过语言分析获得的单词信息中的一个。即，语言处理单元202包括用于判断所识别出的各个单词是否对应于呼气群的部件。
在第一实施例中的选择标准的情况下，当选择基于规则的合成时，基本上保持选择该方法直到处理结束。与此相反，在选择标准的上述组合的情况下，由于在呼气群处重新设置选择，因而可以容易地选择基于预先记录的语音的合成方法。因此，可以改善音质。注意，语音合成方法在呼气群处的切换几乎不影响可理解性。
第十一实施例
第二实施例已经以如下情况作为例子进行说明一个预先记录的语音数据对应于所关注的单词。然而，本发明不仅限于此，并且可以存在多个预先记录的语音数据。在该情况下，计算通过将基于规则的合成应用到单词的发音所获得的合成候选语音和紧前合成语音之间的连接失真、以及通过将基于预先记. 录的语音的合成应用到多个预先记录的语音数据所获得的合成候选语音和紧前合成语音之间的连接失真。在这些合成候选语音数据中，选择展现最小连接失真的合成候选语音。从多功能性和减少连接失真的观点看，为一个单词准备多个预先记录的语音数据是有效的方法。第十二实施例
在第三实施例中，选择标准是"最小化语音合成方法的切换的次数与合成候选语音的连接的次数的总和"。然而，本发明不仅限于此。例如，能够使用如第二实施例中所使用的用于连接失真最小化的标准等已知选择标准，或者能够引入任意选择标准。
第十三实施例
第四实施例已经以如下情况作为例子进行说明如图ll所示，当存在基于预先记录语音合成语音时，不将文本基于规则合成语音设置为合成候选语音。然而，本发明不仅限于此。在图U中的数据1106中，文本基于规则合成语音还可以作为合成候选语音而存在。在该情况下，在步骤S1003，需要对未知单词以外的单词进行文本基于规则合成(参见图10)。
其它实施例
注意，可以将本发明应用于包括单个装置的设备或者包括多个装置的系统。
此外，通过向系统或设备直接地或间接地提供实现前述实施例的功能的软件程序，利用系统或设备的计算机读取所提供的程序代码，然后执行程序代码，可以实现本发明。在该情况下，只要系统或者设备具有程序的功能，实现模式就不依赖于程序。因此，由于通过计算机实现了本发明的功能，因此安装在计算机中的程序代码也实现本发明。换句话说，本发明的权利要求还覆盖用于实现本发明的功能的计算机程序。在这种情况下，只要系统或者设备具有程序的功能，可以以如下任何形式执行程序诸如对象代码、解释器执行的程序、或者提供给操作系统的脚本数据等。可以用于提供程序的存储介质的例子有软盘、硬盘、光盘、磁光盘、CD-ROM、 CD-R、 CD-RW、磁带、非易失性存储卡、 ROM和DVD(DVD画ROM和DVD-R)等。至于提供该程序的方法，使用客户计算机的浏览器可将客户计算机连接到因特网上的网站，并且本发明的计算机程序或者程序的可自动安装的压缩文件可,皮下载到如石更盘等记录介质。此外，通过将构成程序的程序代码分成多个文件并从不同的网站下载该文件，可以4是供本发明的程序。换句话说，通过计算机将实现本发明的功能的程序文件下载至多个用户的 WWW(World Wide Web,万维网)服务器也被本发明的权利要求所覆盖。还可以对本发明的程序进行加密并存储在如CD-ROM等存储介质上，将该存储介质分发给用户，允许满足一定要求的用户通过因特网从网站下载解密密钥信息，并允许这些用户通过使用密钥信息对加密后的程序进行解密，从而将该程序安装在用户计算机中。除通过计算机执行读取的程序代码来实现根据实施例的上述功能的情况以外，在计算机上运行的操作系统等可以执行实际处理的全部或者部分，使得可以通过该处理来实现上述实施例的功能。此外，在将从存储介质读取的程序写入插入计算机中的功能扩展板或连接到计算机的功能扩展单元中设置的存储器中之后，功能扩展板或功能扩展单元上所安装的CPU等执行实际处理的全部或部分，使得可以通过该处理来实现上述实施例的功6匕 f)匕。尽管已经参考典型实施例对本发明进行了描述，但应当理解，本发明不限于已经7>开的典型实施例。所附片又利要求的范围符合最宽的解释，以包含所有这类修改、等同结构和功能。
权利要求
1.一种语音合成设备，其特征在于，包括语言分析部件，用于通过对所提供的文本进行语言分析来识别单词；选择部件，用于选择基于所述语言分析的结果来进行基于规则的合成的第一语音合成处理、以及进行基于预先记录的语音的合成以回放预先记录的语音数据的第二语音合成处理之一，作为要对从所述语言分析的结果提取的所关注的单词执行的语音合成处理，其中，所述选择部件基于与所关注的单词相邻的单词，来选择所述第一语音合成处理或所述第二语音合成处理；处理执行部件，用于对所关注的单词执行由所述选择部件选择的所述第一语音合成处理或所述第二语音合成处理；以及输出部件，用于输出由所述处理执行部件生成的合成语音。
2. 根据权利要求l所述的语音合成设备，其特征在于，所述选择部件选择与所述处理执行部件先前对与所关注的单词相邻的单词执行的语音合成处理相同的语音合成处理。
3. 根据权利要求l所述的语音合成设备，其特征在于，所述选择部件计算在选择所述第一语音合成处理时所关注的单词的合成语音和相邻单词的合成语音之间的连接失真、以及在选择所述第二语音合成处理时所关注的单词的合成语音和与所关注的单词相邻的单词的合成语音之间的连接失真，并选择使连接失真最小化的语音合成处理。
4. 根据权利要求l所述的语音合成设备，其特征在于，所述选择部件根据是否存在各个单词的预先记录的语音数据，来获得关于解中识别出的单词序列的所述第一语音合成处理和所述第二语音合成处理的选择模式，并选择所获得的选择模式中使所述第一语音合成处理和所述第二语音合成处理的切换的次数与单词的连接的次数的和最小化的选择模式。
5. 根据权利要求1到4中任一项所述的语音合成设备，其特征在于，所述语言分析部件根据来自用户的指令，对与登记相关联的单词进行使用用户字典的语言分析，其中，所述用户字典能够添加拼写信息和发音信息的组合、拼写信息和预先记录的语音的组合、以及拼写信息、发音信息和预先记录的语音的组合之一，其中，所述处理执行部件基于所述用户字典，对所关注的单词执行由所述选才奪单元选择的所述第一语音合成处理和所述第二语音合成处理之一。
6. 根据权利要求5所述的语音合成设备，其特征在于，在所关注的单词是登记在所述用户字典中的单词时，所述选择部件计算在选择所述第一语音合成处理时所关注的单词的合成语音和在选择所述第二语音合成处理时通过进行使用所述用户字典的基于预先记录的语音的合成所生成的合成语音之间的波形失真，并且在所述波形失真大于阈值时，所述选择部件选择所述第二语音合成处理。
7. 根据权利要求2所述的语音合成设备，其特征在于，所述语言分析部件包括用于判断识别出的各个单词是否处于呼气群的开始的部件，以及在为所关注的单词选择所述第一语音合成处理时，所述选择部件在所述语言分析部件判断为当前处理的所关注的单词处于呼气群的开始的情况下，为所关注的单词进一步选择所述第二语音合成处理。
8. —种语音合成方法，包括语言分析步骤，用于通过对所提供的文本进行语言分析来识别单词；选择步骤，用于选择基于所述语言分析的结果来进行基于规则的合成的第一语音合成处理、以及进行基于预先记录的语音的合成以回放预先记录的语音数据的第二语音合成处理之一，作为要对从所述语言分析的结果提取的所关注的单词执行的语音合成处理，其中，所述选择步骤基于与所关注的单词相邻的单词，来选择所述第一语音合成处理或所述第二语音合成处理；处理执行步骤，用于对所关注的单词执行所述选择步骤中选择的所述第一语音合成处理或所述第二语音合成处理；以及输出步骤，用于输出所述处理执行步骤中生成的合成语音。
全文摘要
本发明提供了一种语音合成设备及方法。语言处理单元通过对从文本保存单元提供的文本进行语言分析，来识别单词。合成选择单元针对从语言分析结果提取的所关注的单词，选择由基于规则合成单元进行的语音合成处理或者由基于预先记录语音合成单元进行的语音合成处理。所选择的基于规则合成单元或基于预先记录语音合成单元对所关注的单词执行语音合成处理。
文档编号G10L13/06GK101266789SQ20081008471
公开日2008年9月17日申请日期2008年3月14日优先权日2007年3月14日
发明者奥谷泰夫, 深田俊明, 相泽道雄申请人:佳能株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：奥谷泰夫;相泽道雄;深田俊明
技术所有人：佳能株式会社
我是此专利的发明人

上一篇：自动演奏用键盘装置的制作方法
上一篇：一种背景噪声激励信号的生成方法及装置的制作方法