语音合成设备及方法

文档序号:2830816阅读:299来源:国知局
专利名称:语音合成设备及方法
技术领域
本发明涉及一种语音合成技术。
背景技术
对于车站站台上的列车指南和高速公路上的交通堵塞信息 等,使用组合和连接预先记录的语音数据(预先存储的单词语音数据和短语语音数据)的指定域合成(domain-specific synthesis )。由于该^支术应用于指定J^或,因而该方案可以;彈到具 有高度自然性的合成语音,但是该方案不能合成对应于任意文 本的语音。作为典型的基于规则的语音合成系统的连接合成系统通过 将输入文本划分成单词,向这些单词附加发音信息,并根据发 音信息连接语音段,来生成基于规则的合成语音。尽管该方案 可以合成对应于任意文本的语音,然而合成语音的自然性不高。曰本特开2002-221980公开了 一种通过组合预先记录的i吾 音和基于规则的合成语音来生成合成语音的语音合成系统。该 系统包括保存预先记录的语音的短语字典以及保存发音和口音 的发音字典。在接收到输入文本时,在短语字典中登记有该单 词的情况下,该系统输出单词的预先记录的语音,并在发音字 典中登记有该单词的情况下,该系统输出根据单词的发音和口 音生成的单词的基于规则的合成语音。在曰本特开2002-221980公开的语音合成中,由于音质在预 先记录的语音和基于规则的合成语音之间的边界附近改变极 大,因而可理解性可能劣化。发明内容考虑到上述问题做出了本发明,并且本发明的目的是在通 过组合预先记录的语音和基于规则的合成语音来生成合成语音 时,改善可理解性。根据本发明的一个方面, 一种语音合成设备,包括语言 分析部件,用于通过对所提供的文本进行语言分析来识别单词; 选择部件,用于选择基于所述语言分析的结果来进行基于规则的合成的第一语音合成处理、以及进行基于预先记录的语音的 合成以回放预先记录的语音数据的第二语音合成处理之 一 ,作 为要对从所述语言分析的结果提取的所关注的单词执行的语音 合成处理,其中,所述选择部件基于与所关注的单词相邻的单 词,来选择所述第一语音合成处理或所述第二语音合成处理; 处理执行部件,用于对所关注的单词执行由所述选择部件选择 的所述第一语音合成处理或所述第二语音合成处理;以及输出 部件,用于输出由所述处理执行部件生成的合成语音。根据本发明的另一个方面, 一种语音合成方法,包括语 言分析步骤,用于通过对所提供的文本进行语言分析来识别单 词;选择步骤,用于选择基于所述语言分析的结果来进行基于 规则的合成的第 一语音合成处理、以及进行基于预先记录的语 音的合成以回放预先记录的语音数据的第二语音合成处理之 一 ,作为要对从所述语言分析的结果提取的所关注的单词执行 的语音合成处理,其中,所述选择步骤基于与所关注的单词相 邻的单词,来选择所述第一语音合成处理或所述第二语音合成处理;处理执行步骤,用于对所关注的单词执行所述选择步骤 中选择的所述第 一语音合成处理或所述第二语音合成处理;以根据下面参考附图对典型实施例的说明,本发明的其它特征将显而易见。


图1是示出根据第 一 实施例的语音合成设备的硬件配置的框图。图2是示出根据第 一 实施例的语音合成设备的模块配置的框图。图3是示出根据第 一 实施例的语音合成设备中的处理的流程图。图4是示出根据第二实施例的语音合成设备的模块配置的框图。图5是说明第二实施例中的连接失真的示意图。图6是示出根据第三实施例的语音合成设备中的处理的流程图。图7是以网格形式表示第三实施例中的作为语言分析结果 的多个解的示意图。图8是以网格形式表示转换成合成候选语音数据的图7中的 候选单词的示意图。图9是示出根据第四实施例的语音合成设备的模块配置的 框图。图IO是示出根据第四实施例的语音合成设备中的处理的流程图。图ll是示出第四实施例中的步骤S1004结束时的状态的示意图。图12是示出第四实施例中作为直到步骤S1004的语音合成 处理的结果所获得的合成候选语音数据的示意图。图13是示出第五实施例中的合成候选语音数据的示意图。图1 4是示出根据第六实施例的语音合成设备的模块配置的框图。图15是示出第九实施例中的语言分析结果的示意图。
具体实施方式
以下将参考附图详细说明本发明的各种典型实施例、特征 和方面。实施例的 >开内容并不限制本发明,并且实施例中所 述的特征的所有组合并不总是本发明的解决手段所必需的。下面的实施例以如下情况为例子进行说明用于基于规则 的合成的语言分析的语言字典中所登记的或者用于基于预先记 录的语音的合成的预先记录的语音数据中所登记的词语是单 词。然而,本发明并不仅限于此。所登记的词语可以是包括多 个单词串的短语或者比单词小的单元。第一实施例图l是示出根据第 一 实施例的语音合成设备的硬件配置的框图。参考图1,附图标记101表示存储根据本实施例的语音合成 程序1011和固定数据的控制存储器(ROM); 102表示进行数值 处理/控制等处理的中央处理单元;103表示用于存储临时数据 的存储器(RAM); 104表示外部存储装置;105表示用户用来 向该设备输入数据并向其发出操作指令的输入装置;106表示在 中央处理单元102的控制下向用户呈现各种信息的诸如显示装 置的输出装置;107表示输出语音的语音输出装置;108表示用 于各个装置交换数据的总线;109表示用户用来向该设备输入语 音的语音输入装置。图2是示出根据本实施例的语音合成设备的模块配置的框图。参考图2,文本保存单元201保存作为语音合成对象的输入 文本。作为语言分析部件的语言处理单元202通过使用语言字典 212执行语言分析,来识别从文本保存单元20 l提供的文本的单 词。利用该操作,提取作为语音合成处理对象的单词,并生成 语音合成处理所需的信息。分析结果保存单元203保存由语言处 理单元202获得的分析结果。基于规则合成单元204基于由分析 结果保存单元203保存的分析结果,来进行基于规则的合成(第 一语音合成处理)。基于规则合成数据205包括基于规则合成单 元204执行基于规则的合成所需的规则和单元分割数据。基于预 先记录语音合成单元206基于由分析结果保存单元203保存的分 析结果,来进行基于预先记录的语音的合成(第二语音合成处 理),以回放预先记录的语音数据。基于预先记录语音合成数据 207是基于预先记录语音合成单元206执行基于预先记录的语音 的合成所需的单词或短语的预先记录的语音数据。合成语音保 存单元208保存由基于规则合成单元204或者基于预先记录语音 合成单元206获得的合成语音。合成选择单元209基于由分析结果保存单元203保存的分析 结果和由选择结果保存单元210保存的先前的选择结果,来选择 要应用于所关注的单词的语音合成方法(基于规则的合成或者 基于预先记录的语音的合成)。选择结果保存单元210将由合成 选择单元209选择的用于所关注的单词的语音合成方法与先前 的结果一起保存。语音输出单元211通过语音输出装置107输出 由合成语音保存单元208保存的合成语音。语言字典212保存单 词的拼写信息和发音信息等。该方法中的基于预先记录的语音的合成是通过组合预先记 录的单词或者短语等预先记录的语音数据来生成合成语音的方 法。不必说,当组合预先记录的语音数据时,可以对该语音数据进行处理,或者可以在不进行任何处理的情况下输出该语音数据。图3是根据本实施例的语音合成设备中的处理的流程图。在步骤S301,语言处理单元202通过使用语言字典212对由 文本保存单元201保存的作为合成对象的文本进行语言分析,来 提取作为语音合成对象的单词。本实施例是以从文本的开头开 始依次进行语音分析的过程为前提的。由于该原因,从文本的 开头开始依次提取单词。另外,将发音信息附加到各个单词, 并从基于预先记录语音合成数据207提取表示是否存在与各个 单词相对应的预先记录的语音的信息。分析结果保存单元203 保存分析结果。然后,处理转移到步骤S302。如果在步骤S302判断为由分析结果保存单元203保存的分 析结果包含未合成的单词,则处理转移到步骤S303。如果分析 结果不包含未合成的单词,则处理结束。在步骤S303,合成选择单元209基于由分析结果保存单元 203保存的分析结果和由选择结果保存单元210保存的用于先前 处理的单词的语音合成方法选择结果,来选择用于所关注的单 词(第一单词)的语音合成方法。选择结果保存单元210保存该 选择结果。如果选择基于规则的合成作为语音合成方法,则处 理转移到步骤S304。如果选择基于预先记录的语音的合成,而 不是基于规则的合成作为语音合成方法,则处理转移到步骤5305。在步骤S304 ,作为处理执行部件的基于规则合成单元204 通过使用由分析结果保存单元203保存的分析结果和基于规则 合成数据205,来对所关注的单词进行基于规则的合成。合成语 音保存单元208保存所生成的合成语音。然后,处理转移到步骤5306。在步骤S305 ,作为处理执行部件的基于预先记录语音合成 单元206通过使用由分析结果保存单元203保存的分析结果和基 于预先记录合成数据207,来对所关注的单词进行基于预先记录 的语音的合成。合成语音保存单元208保存所生成的合成语音。 然后,处理转移到步骤S306。在步骤S306,语音输出单元211通过语音输出装置211输出 由合成语音保存单元208保存的合成语音。处理返回步骤S302。下面是用于本实施例的步骤S303中的语音合成方法的选 择标准。首先优选基于预先记录的语音的合成方案。在其它情况下, 优先选择与所关注的单词相邻的单词(第二单词),例如,紧接 在所关注的单词之前的单词选择的语音合成方法相同的语音合 成方法。如果没有登记所关注的单词的预先记录的语音,则不 能进行基于预先记录的语音的合成。在该情况下,因此,选择 基于规则的合成。基于规则的合成通常可以合成任意单词,因 而始终可以选4奪。根据以上处理,根据用于紧接在所关注的单词之前的单词 的语音合成方法,来选择用于所关注的单词的语音合成方法。 这使得可以连续使用相同的语音合成方法,并抑制语音合成方 法的切换次数。这可以改善合成语音的可理解性。第二实施例在上述的第一实施例中,为所关注的单词优先选择与为紧 接在所关注的单词之前的单词选择的语音合成方法相同的语音 合成方法。与此相反,第二实施例将连接失真的最小化设置为 选择标准。这将在下面详细说明。图4是示出根据第二实施例的语音合成设备的模块配置的 框图。图4中相同的附图标记表示进行与图2中的第 一 实施例中的 处理相同的处理的模块,并省略重复说明。图4示出与图2中示 出的配置相比,还包括连接失真计算单元401的配置。连接失真 计算单元401计算由合成语音保存单元208保存的紧接在所关注 的单词之前的单词的合成语音和所关注的单词的合成候选语音 之间的连接失真。合成语音保存单元208保存由基于规则合成单 元204或基于预先记录语音合成单元206获得的合成语音,直到 选择下一单词的语音合成方法为止。合成选冲奪单元209选4奪连接 失真计算单元401计算出具有最小连接失真的合成候选语音和 与其相对应的语音合成方法。选4,结果保存单元210保存该合成候选语音和与其相对应的语音合成方法。将参考第 一实施例中的图3来说明根据本实施例的语音合成设备中的处理过程。注意,步骤S303以外的处理过程与第一 实施例的处理过程相同,因此将省略重复说明。在步骤S303,连接失真计算单元401计算由合成语音保存 单元208保存的紧接在所关注的单词之前的单词的合成语音和 所关注的单词的合成对象语音之间的连接失真。然后,合成选 择单元209选择连接失真计算单元401计算出具有最小连接失真 的合成候选语音和与其相对应的语音合成方法。选择结果保存 单元210保存该选择结果。如果所选择的语音合成方法是基于规 则的合成,则处理转移到步骤S304。如果所选择的语音合成方 法不是基于规则的合成而是基于预先记录的语音的合成,则处 理转移到步骤S305。图5是说明第二实施例中的连接失真的示意图。 参考图5 ,附图标记501表示紧接在所关注的单词之前的单 词的合成语音;502表示通过将基于规则的合成应用到所关注的 单词的发音而获得的合成候选语音;503表示通过将基于预先记录的语音的合成应用到预先记录的语音而获得的合成候选语音。本实施例中的连接失真是紧接在所关注的单词之前的单词 的合成语音的结束和所关注的单词的合成语音的开始之间的频谱距离(spectral distance )。连接失真计算单元401计算紧前单 词的合成语音501和通过所关注的单词的基于^L则的合成所获 得的合成候选语音(根据发音合成的语音)502之间的连接失真, 以及紧前单词的合成语音501和通过基于预先记录的语音的合 成所获得的合成候选语音503之间的连接失真。合成选择单元 209选择连接失真最小的合成候选语音及其语音合成方法。显然,连接失真不限于频谱距离,可以基于以倒谱距离 (cepstral distance)或基本频率为代表的声学特征量或者通过 使用其他已知技术来定义连接失真。考虑例如发声速度。在这 种情况下,可以基于紧前单词的发声速度和合成候选语音的发 声速度之间的差或比率来定义连接失真。如果将发声速度差定 义为连接失真时,则可以定义为差越小,连接失真越小。当将 发声速度比率定义为连接失真时,则可以定义为发声速度比率 和基准比率l之间的差越小,连接失真越小。换句话说,可以定义为发声速度比率相对基准比率l的距离越小,连接失真越小。 如上所述,如果对于所关注的单词存在多个合成候选语音数据,则设置连接失真的最小化作为选择标准,使得可以选择在连接点处具有较小失真的合成候选语音及其语音合成方法。这可以改善可理解性。 第三实施例第 一 实施例和第二实施例被配置成逐个单词地选择语音合 成方法。然而,本发明不限于此。例如,能够选择各个单词的 合成候选语音及其语音合成方法,以满足全部或部分的提供文本的选才奪标准。第 一 实施例和第二实施例是以语言处理单元202唯 一 地识 别单词为前提的。然而,本发明不仅限于此。分析结果可以包 含多个解。本实施例以存在多个解的情况为例子进行说明。图6是示出根据本实施例的语音合成设备中的处理的流程 图。图6中相同的附图标记表示与图3中的步骤相同的步骤。注 意,图2中的配置表示本实施例的语音合成设备的模块配置。参考图6,在步骤S301,语言处理单元202通过针对由文本 保存单元201保存的作为合成对象的文本查阅语言字典202,来 构造单词网才各。另夕卜,语言处理单元2 02将发音附加到各个单词, 并从基于预先记录语音合成数据207提取表示是否存在与各个 单词相对应的预先记录的语音的信息。本实施例与第一实施例 的不同之处在于,分析结果包含多个解。分析结果保存单元203 保存分析结果。然后,处理转移到步骤S601。在步骤S601,合成选择单元209基于由分析结果保存单元 203保存的分析结果,来选择满足全部或部分文本的选择标准的 合成候选语音数据的最佳序列。选择结果保存单元210保存所选 择的最佳序列。然后,处理转移到步骤S302。假定合成选择单元209采用的选择标准是"使语音合成方法 的切换的次数和合成候选语音的连接的次数的和最小化"。如果在步骤S302判断为由选择结果保存单元210保存的最 佳序列包含未合成的单词,则处理转移到步骤S303。如果不存 在未合成的单词,则处理结束。在步骤S303,合成选择单元209基于由选择结果保存单元 210保存的最佳序列,来使要应用于所关注的单词的处理分支到 步骤S304或步骤S305 。如果为所关注的单词选择基于规则的合 成,则处理转移到S304。如果为所关注的单词选择基于预先记录的语音的合成而不是基于规则的合成,则处理转移到步骤S305。由于步一骤S304、 S305和S306的处J里与第一实施例的处J里 相同,因而省略重复il明。接着将参考图7和8说明语言分析的多个解和最佳序列的选 择。图7是以网格形式表示本实施例中的作为语言分析结果的多 个解的示意图。参考图7,附图标记701表示代表网格的开始的节点;707 表示代表网格的结束的节点。附图标记702 706表示候选单词。 在该情况下,存在符合以下三个解的单词序列(1 ) 702-703-706(2 ) 702-704-706(3 ) 702-705图8是以网格形式表示转换成合成候选语音数据的图7中的候选单词的示意图。参考图8,附图标记801 809表示合成候选语音数据。在合 成候选语音数据中,无阴影的椭圆801、 802、 804、 805和808 表示的数据是通过将基于规则的合成应用到语言字典212中登 记的单词的发音所获得的合成候选语音数据。另一方面,阴影 的椭圆803、 806、 807和809是通过将基于预先记录的语音的合 成应用到基于预先记录语音合成数据207中登记的预先记录的 语音所获得的合成候选语音数据。由于候选项702和704中没有 登记与基于预先记录语音合成数据207相对应的预先记录的语 音数据,因而不存在基于预先记录的语音的合成的合成候选语 音。参考图8,图7中示出的候选单词由具有与图7中表示相同候 选单词的附图标记相同的附图标记的虛线来表示。图8所示的例子包括以下九个合成候选语音数据的序列 (1 )謝-802-808(2 ) 801-802-809 (3 ) 801-803-808 (4 ) 801-803-809 (5 )謝-804-808 (6 )謝-804-譜 (7 )謝-805 (8 ) 801-806 (9 ) 801-807按照理解,这些合成候选语音数据的序列中的每个表示考 虑到是否存在各个单词的预先记录的语音数据的语音合成方法 的选择模式。本实施例选择所获得的选择模式中使语音合成方 法的切换的次数与单词的连接的次数的和最小化的选择模式。 在这种情况下,序列"(7 ) 801-805"使语音合成方法的切换的 次数与单词的连接的次数的和最小化。因此,合成选择单元209选择序列"801-805"。 第四实施例语音合成的通用用户字典功能在用户字典中登记多对拼写 和发音。如本发明中的具有基于规则的合成功能和基于预先记 录的语音的合成功能两者的语音合成设备优选允许用户除发音 以外还登记预先记录的语音。还优选登记多个预先记录的语音 数据。考虑本实施例设置有能够登记拼写和发音、拼写和预先 记录的语音、以及拼写、发音和预先记录的语音中的任意组合 的用户字典功能的情况。通过使用基于规则的合成来将用户登 记的发音转换成合成语音。另外,通过使用基于预先记录的语 音的合成来将用户登记的预先记录的语音转换成合成语音。假定在本实施例中,当存在登记在系统中的预先记录的语 音时,选择通过使用基于预先记录的语音的合成所获得的合成语音。还假定如果不存在登记在系统中的预先记录的语音,则 选择通过将基于规则的合成应用到发音所获得的合成语音。依赖于记录环境,用户登记的预先记录的语音并不总是具 有高质量。因此,需要一些设计来选择用户登记的单词的合成 语音。将说明通过使用关于前后单词的语音合成方法的信息来 选择用户登记的单词的合成语音的方法。
图9是示出根据本实施例的语音合成设备的模块配置的框图。图9中相同的附图标记表示进行与在图2的第一实施例中的处理相同的处理的模块。
文本保存单元201保存作为语音合成对象的文本。文本基于 规则合成单元901通过使用发音登记在语言字典212和用户字典 906中的单词,对由识别结果保存单元904保存的未知单词(后 面说明)的拼写进行语言分析,然后,基于语言分析结果来进 行基于规则的合成。然后,文本基于规则合成单元901输出合成 语音。发音基于规则合成单元902接收用户字典906中登记的发 音,进行基于规则的合成,并输出合成语音。基于预先记录语 音合成单元206通过使用基于预先记录语音合成数据207,对由 识别结果保存单元904保存的单词识别结果中识别为单词的单 词识别结果进行基于预先记录的语音的合成,并输出合成语音。 基于预先记录语音合成数据207保存单词和短语的发音和预先 记录的i吾音。
单词识别单元903通过使用基于预先记录语音合成数据207 和用户字典906中登记的预先记录的语音数据的拼写,来识别由 文本保存单元201保存的文本的单词。识别结果保存单元904保 存单词识别结果。单词识别结果可以包含既未登记在基于预先 记录语音合成数据207中也未登记在用户字典906中的字符串 (在本实施例中为未知单词)。单词登记单元905将用户通过输入装置105输入的拼写和发音登记在用户字典906中。单词登记单元905将用户通过语音输入装置109输入的预先 记录的语音和用户通过输入装置105输入的拼写登记在用户字 典906中。用户字典906可以登记拼写和发音、4并写和预先记录 的语音、以及拼写、发音和预先记录的语音中的任意组合。当 用户字典906中登记的单词出现在识别结果保存单元904中时, 合成语音选择单元9 0 7根据选择标准来选择所关注的单词的合 成语音。语音输出单元211输出由合成语音保存单元208保存的 合成语音。合成语音保存单元208保存分别从文本基于规则合成 单元901、发音基于规则合成单元902和基于预先记录语音合成 单元206输出的合成语音数据。下面将参考图IO来说明根据本实施例的语音合成设备中的 处理。参考图IO,在步骤SIOOI,单词识别单元903通过使用基于 预先记录语音合成数据207和用户字典906中登记的预先记录的 语音数据的拼写,来识别由文本保存单元201保存的文本的单 词。识别结果保存单元904将不能识别的单词的字符串作为未知 单词与识别出的单词一起保存。然后,处理转移到步骤S1002。在步骤S1002,基于预先记录语音合成单元206通过使用基 于预先记录语音合成数据207和用户字典906中登记的预先记录 的语音,来对由识别结果保存单元904保存的单词识别结果中识 别为单词的单词识别结果进行基于预先记录的语音的合成。合 成语音保存单元208保存所生成的合成语音。然后,处理转移到 步骤S1003。在步骤S1003,文本基于规则合成单元901通过使用发音登 记在语言字典212和用户字典906中的单词,来对由合成结果保 存单元904保存的未知单词的拼写进行语言分析,然后,基于语言分析结果来进行基于规则的合成。合成语音保存单元208保存' 所生成的合成语音。然后,处理转移到步骤S1004。在步骤S1004,发音基于规则合成单元902对由识别结果保 存单元904保存的单词识别结果中发音登记在用户字典906中的 单词进行基于规则的合成。合成语音保存单元208保存所生成的 合成语音。然后,处理转移到步骤S1005。在步骤S1005,如果关于识别结果保存单元904中的包括未 知单词的单词,存在多个合成候选语音数据,则合成语音选择 单元907选择它们中的一个。选择结果被反映在合成语音保存单 元208中(例如,登记所选择的合成语音,或者删除未选择的合 成语音)。然后,处理转移到步骤S1006。在步骤S1006,语音输出单元211从文本的开头开始依次输 出由合成语音保存单元208保存的合成语音数据。然后,终止该 处理。图ll是示出上述步骤S1004结束时的状态的示意图。 参考图ll,用圆角矩形来表示各个数据,而用普通矩形来 表示各个处理模块。附图标记llOl表示由文本保存单元201保存 的文本;而1102 1104表示对文本1101进行单词识别所获得的结 果。结果1102是未知单词,而结果1103和1104是基于预先记录 语音合成数据207中登记的单词。结果1103还是发音和预先记录 的语音登记在用户字典中的单词。结果1104是仅在基于预先记 录语音合成数据207中登记的单词。附图标记1105、 1106和1107表示作为直到步骤S1004的语音 合成处理的结果所获得的合成语音数据。合成语音1105对应于 未知单词1102,并仅包括文本基于规则合成语音。合成语音1106 对应于单词1103,并包括基于预先记录语音合成语音、用户基 于预先记录语音合成语音和用户发音基于规则合成语音。合成语音1107对应于单词1104,并仅包括基于预先记录语音合成语音。文本基于规则合成单元901输出文本基于规则合成语音。发 音基于规则合成单元902输出用户发音基于规则合成语音。基于 预先记录语音合成单元206输出基于预先记录语音合成语音和 用户基于预先记录语音合成语音。图12是示出作为直到步骤S1004的语音合成处理的结果所 获得的合成语音的细节的示意图。将参考图12说明步骤S1005中的处理。参考图12,附图标 记1201表示文本基于规则合成语音;1202表示基于预先记录语 音合成语音;1203表示用户基于预先记录语音合成语音;1204 表示用户发音基于规则合成语音;以及1205表示基于预先记录 语音合成语音。假定在本实施例中,语音1201和语音1205出现 在所关注的单词的前后,并且不存在其他类型的合成候选语音 数据。合成语音选择单元907选择基于预先记录语音合成语音 1202、用户基于预先记录语音合成语音1203以及用户发音基于 规则合成语音12 0 4中满足选择标准的合成语音。考虑选择标准是"优选与紧前语音合成方法相同或类似的 语音合成方法"的情况。在该情况下,由于紧前语音合成方法 是文本基于规则合成,因而选择作为一种基于基于规则的合成 的语音的用户发音基于规则合成语音1204。如果选择标准是"优选与紧后语音合成方法相同或类似的 语音合成方法",则选择基于预先记录语音合成语音1202。如上所述,提供将发音和预先记录的语音与各个单词的拼 写相对应地登记在用户字典中的功能,将增加语音合成方法的 选择的选项数量,从而改善可理解性。第五实施例
第四实施例已经以如下情况作为例子进行说明在用户登 记的单词前后^f叉存在 一 个合成候选语音数据。第五实施例以如 下情况作为例子进行说明用户登记的单词连续出现。
图13是表示第五实施例中的合成候选语音数据的示意图。
参考图13,对于在两端的两个单词1301和1308,确定已经 选4奪的合成语音数据。附图标记1302 1307表示对应于用户登 记的单词的合成候选语音数据。
如第四实施例中 一样,合成语音选择单元907才艮据预定选择 标准,从合成候选语音数据选择一个合成语音数据。如果例如 选择标准是"最小化语音合成方法的切换的次数并且优选基于 预先记录语音合成语音",则选择1301-1302-1305-1308。如果 选择标准是"优选用户基于预先记录语音合成语音并且最小化 语音合成方法的切换的次数",则选择1301-1303-1306-1308。
考虑到用户登记的预先记录的语音的音质不稳定的可能 性,使用标准"最小化连接点处的连接失真的总和"同样有效。
如上所述,即-使用户登记的单词连续出现,也可以通过i殳 置选择标准以实现全部或部分的最佳化,来改善可理解性。
第六实施例
第一到第五实施例已经以如下情况作为例子进行说明基 于所关注的单词的单词信息以外的单词信息,来为所关注的单 词选择语音合成方法。然而,本发明不仅限于此。本发明可以 采用用于仅基于所关注的单词的单词信息来选择语音合成方法 的配置。
图14是示出根据第六实施利的语音合成设备的模块配置的框图。
图14中相同的附图标记表示进行与图2 9的第 一到第五实施例中的处理相同的处理的模块,并省略重复说明。波形失真
计算单元1401计算通过将基于规则的合成应用到语言字典212
中登记的发音所获得的合成候选语音和通过将基于预先记录的
语音的合成应用到用户字典906中登记的预先记录的语音所获 得的合成候选语音之间的波形失真(后面将说明)。合成选择单 元209将波形失真计算单元1401所获得的波形失真与预先设置 的阈值进行比较,并且当波形失真大于阈值时,在不考虑前后 单词的语音合成方法的情况下,选择用户登记的单词。
由于第六实施例中的处理过程与第一实施例中的处理过程 相同,所以将参考图3说明第六实施例中的处理过程。
图3的步骤S301、 S302、 S304、 S305和S306中的处理过程 与第一实施例中的处理过程相同,因此,省略重复说明。
在步骤S303,波形失真计算单元1401计算通过将基于规则 的合成应用到语言字典212中登记的发音所获得的合成候选语 音和通过将基于预先记录的语音的合成应用到用户字典906中 登记的预先记录的语音所获得的合成候选语音之间的波形失 真。然后,合成选择单元209将波形失真计算单元1401所获得的 波形失真与预先设置的阈值进行比较。如果波形失真大于阈值, 则合成选择单元209不考虑前后单词的语音合成方法,选择基于 预先记录的语音的合成。然后,处理转移到步骤S305;否则, 处理转移到步骤S304。
作为波形失真,可以使用基于已知技术的值,例如,各个 时间点处波形的振幅之间的差的总和或者频谱距离的总和。可 选地,可以通过在两个合成候选语音数据之间建立时间对应关 系时使用动态设计等来计算波形失真。
如上所述,引入波形失真使得可以优先用户登记预先记录 的语音的目的(不仅仅是增加变化的简单目的,例如,根据所登记的预先记录的语音来对单词进行发音的目的)。 第七实施例
第六实施例已经以如下情况作为例子进行说明考虑到通 过将基于规则的合成应用到语言字典212中登记的发音所获得 的合成候选语音和通过将基于预先记录的语音的合成应用到用 户字典906中登记的预先记录的语音所获得的合成候选语音之 间的波形失真,来为所关注的单词选择语音合成方法。然而, 要获得波形失真的对象不仅限于它们。即,注意到基于系统中 登记的发音或预先记录的语音的合成候选语音和基于用户字典 中登记的发音或预先记录的语音的合成候选语音之间的波形失 真就足够了。在该情况下,如果波形失真大于阈值,则优选基 于用户字典中登记的发音或预先记录的语音的合成候选语音。
第/\实施例
第 一 和第二实施例以如下情况作为例子进行说明当要为 各个单词选4奪语音合成方法时,从文本的起始单词开始处理文 本。然而,本发明不仅限于此,并可以采用用于从文本的结束 单词开始处理文本的配置。当要从文本的结束单词开始处理文 本时,基于紧后单词的语音合成方法,来为所关注的单词选择 语音合成方法。另外,本发明可以采用用于从任意单词开始处 理文本的配置。在该情况下,基于前后单词的所选择的语音合 成方法,来为所关注的单词选择语音合成方法。
第九实施例
第 一 到第三实施例以如下情况作为例子进行说明语言处 理单元202通过使用语言字典212来将文本划分成单词。然而, 本发明不仅限于此。例如,本发明可以采用用于通过使用语言 字典212和基于预先记录语音合成数据207中包括的单词和短语 来识别单词的配置。图15是示出通过使语言处理单元202通过使用语言字典212 和基于预先记录语音合成数据207中包括的单词和短语来将文 本划分成单词或短语所获得的结果的示意图。参考图15,附图 标记1501 1503表示基于用于基于预先记录的语音的合成的基 于预先记录语音合成数据207中包括的单词和短语的识別结果。 结果1501和1503表示均包括多个单词的短语。附图标记 1504 1509表示通过用于基于规则的合成的语言字典212所获 得的识别结果;而1510表示接着要进行语音合成处理的位置。
如果在图3的步骤S303中选择基于规则的合成,则选择单 词1504 1509作为用于语音合成的处理单元。如果选择基于预 先记录的语音的合成,则选择短语1501和1503或者单词1502作 为用于合成的处理单元。假定在图15所示的情况下,已经完成 了直到位置1510的语音合成处理。在该情况中,接着对短语1503 或单词1507进行语音合成处理。当选择基于预先记录的语音的 合成时,基于预先记录语音合成单元206处理短语1503。当处理 短语1503时,从步骤S302中的选择对象排除单词1507 1509。 参考图15,该操作等同于将虛线1510从短语1503 (单词1509 ) 向后移动,该虚线1510表示接着要进行语音合成处理的位置。
如果选择基于规则的合成,则基于规则合成单元204处理单 词1507。当处理单词1507时,从步骤S302中的选^^对象排除短 语1503,并且接着处理单词1508。参考图15,该操作等同于将 虚线1510从单词1507向后移动,该虚线1510表示接着要进行语 音合成处理的位置。
如上所述,当要使用通过使用语言字典212和基于预先记录 语音合成数据207中包括的单词和短语来进行语言分析所获得 的结果时,需要在建立短语和对应单词之间的对应关系的同时 进行处理。当要生成语言字典212时,将基于预先记录语音合成数据
207的单词和短语的信息引入语言字典212中,使得语言处理单 元不需要在执行语言分析时,访问基于预先记录语音合成数据 207。
第十实施例
根据第一实施例,语音合成方法的选择标准是"优选与为 紧前单词选择的语音合成方法相同的语音合成方法"。然而,本 发明不仅限于此。能够使用其他选择标准,或者将上述选择标 准和任意选纟奪标准组合。
例如,组合选择标准"在呼气群处重新设置语音合成方法" 和上述选择标准,以设置选择标准"选择与为紧前单词选择的 语音合成方法相同的语音合成方法,但是当在呼气群处重新设 置语音合成方法时,优选基于预先记录的语音的合成方法"。表 示是否检测到呼气群的信息是通过语言分析获得的单词信息中 的一个。即,语言处理单元202包括用于判断所识别出的各个单 词是否对应于呼气群的部件。
在第 一 实施例中的选择标准的情况下,当选择基于规则的 合成时,基本上保持选择该方法直到处理结束。与此相反,在 选择标准的上述组合的情况下,由于在呼气群处重新设置选择, 因而可以容易地选择基于预先记录的语音的合成方法。因此, 可以改善音质。注意,语音合成方法在呼气群处的切换几乎不 影响可理解性。
第十一实施例
第二实施例已经以如下情况作为例子进行说明 一 个预先 记录的语音数据对应于所关注的单词。然而,本发明不仅限于 此,并且可以存在多个预先记录的语音数据。在该情况下,计 算通过将基于规则的合成应用到单词的发音所获得的合成候选语音和紧前合成语音之间的连接失真、以及通过将基于预先记. 录的语音的合成应用到多个预先记录的语音数据所获得的合成 候选语音和紧前合成语音之间的连接失真。在这些合成候选语 音数据中,选择展现最小连接失真的合成候选语音。从多功能 性和减少连接失真的观点看,为一个单词准备多个预先记录的 语音数据是有效的方法。 第十二实施例
在第三实施例中,选择标准是"最小化语音合成方法的切 换的次数与合成候选语音的连接的次数的总和"。然而,本发明 不仅限于此。例如,能够使用如第二实施例中所使用的用于连 接失真最小化的标准等已知选择标准,或者能够引入任意选择 标准。
第十三实施例
第四实施例已经以如下情况作为例子进行说明如图ll所 示,当存在基于预先记录语音合成语音时,不将文本基于规则 合成语音设置为合成候选语音。然而,本发明不仅限于此。在 图U中的数据1106中,文本基于规则合成语音还可以作为合成 候选语音而存在。在该情况下,在步骤S1003,需要对未知单 词以外的单词进行文本基于规则合成(参见图10)。
其它实施例
注意,可以将本发明应用于包括单个装置的设备或者包括 多个装置的系统。
此外,通过向系统或设备直接地或间接地提供实现前述实 施例的功能的软件程序,利用系统或设备的计算机读取所提供 的程序代码,然后执行程序代码,可以实现本发明。在该情况 下,只要系统或者设备具有程序的功能,实现模式就不依赖于 程序。因此,由于通过计算机实现了本发明的功能,因此安装在 计算机中的程序代码也实现本发明。换句话说,本发明的权利 要求还覆盖用于实现本发明的功能的计算机程序。在这种情况下,只要系统或者设备具有程序的功能,可以 以如下任何形式执行程序诸如对象代码、解释器执行的程序、或者提供给操作系统的脚本数据等。可以用于提供程序的存储介质的例子有软盘、硬盘、光盘、磁光盘、CD-ROM、 CD-R、 CD-RW、磁带、非易失性存储卡、 ROM和DVD(DVD画ROM和DVD-R)等。至于提供该程序的方法,使用客户计算机的浏览器可将客 户计算机连接到因特网上的网站,并且本发明的计算机程序或 者程序的可自动安装的压缩文件可,皮下载到如石更盘等记录介 质。此外,通过将构成程序的程序代码分成多个文件并从不同 的网站下载该文件,可以4是供本发明的程序。换句话说,通过 计算机将实现本发明的功能的程序文件下载至多个用户的 WWW(World Wide Web,万维网)服务器也被本发明的权利要求 所覆盖。还可以对本发明的程序进行加密并存储在如CD-ROM等存 储介质上,将该存储介质分发给用户,允许满足一定要求的用 户通过因特网从网站下载解密密钥信息,并允许这些用户通过 使用密钥信息对加密后的程序进行解密,从而将该程序安装在 用户计算机中。除通过计算机执行读取的程序代码来实现根据实施例的上 述功能的情况以外,在计算机上运行的操作系统等可以执行实 际处理的全部或者部分,使得可以通过该处理来实现上述实施 例的功能。此外,在将从存储介质读取的程序写入插入计算机中的功能扩展板或连接到计算机的功能扩展单元中设置的存储器中之 后,功能扩展板或功能扩展单元上所安装的CPU等执行实际处理的全部或部分,使得可以通过该处理来实现上述实施例的功6匕 f)匕。尽管已经参考典型实施例对本发明进行了描述,但应当理 解,本发明不限于已经7>开的典型实施例。所附片又利要求的范 围符合最宽的解释,以包含所有这类修改、等同结构和功能。
权利要求
1.一种语音合成设备,其特征在于,包括语言分析部件,用于通过对所提供的文本进行语言分析来识别单词;选择部件,用于选择基于所述语言分析的结果来进行基于规则的合成的第一语音合成处理、以及进行基于预先记录的语音的合成以回放预先记录的语音数据的第二语音合成处理之一,作为要对从所述语言分析的结果提取的所关注的单词执行的语音合成处理,其中,所述选择部件基于与所关注的单词相邻的单词,来选择所述第一语音合成处理或所述第二语音合成处理;处理执行部件,用于对所关注的单词执行由所述选择部件选择的所述第一语音合成处理或所述第二语音合成处理;以及输出部件,用于输出由所述处理执行部件生成的合成语音。
2. 根据权利要求l所述的语音合成设备,其特征在于,所述选择部件选择与所述处理执行部件先前对与所关注的单词相 邻的单词执行的语音合成处理相同的语音合成处理。
3. 根据权利要求l所述的语音合成设备,其特征在于,所 述选择部件计算在选择所述第一语音合成处理时所关注的单词 的合成语音和相邻单词的合成语音之间的连接失真、以及在选 择所述第二语音合成处理时所关注的单词的合成语音和与所关 注的单词相邻的单词的合成语音之间的连接失真,并选择使连 接失真最小化的语音合成处理。
4. 根据权利要求l所述的语音合成设备,其特征在于,所 述选择部件根据是否存在各个单词的预先记录的语音数据,来 获得关于解中识别出的单词序列的所述第一语音合成处理和所 述第二语音合成处理的选择模式,并选择所获得的选择模式中 使所述第一语音合成处理和所述第二语音合成处理的切换的次数与单词的连接的次数的和最小化的选择模式。
5. 根据权利要求1到4中任一项所述的语音合成设备,其特征在于,所述语言分析部件根据来自用户的指令,对与登记相 关联的单词进行使用用户字典的语言分析,其中,所述用户字 典能够添加拼写信息和发音信息的组合、拼写信息和预先记录 的语音的组合、以及拼写信息、发音信息和预先记录的语音的 组合之一,其中,所述处理执行部件基于所述用户字典,对所关注的 单词执行由所述选才奪单元选择的所述第一语音合成处理和所述 第二语音合成处理之一。
6. 根据权利要求5所述的语音合成设备,其特征在于,在 所关注的单词是登记在所述用户字典中的单词时,所述选择部 件计算在选择所述第一语音合成处理时所关注的单词的合成语 音和在选择所述第二语音合成处理时通过进行使用所述用户字 典的基于预先记录的语音的合成所生成的合成语音之间的波形 失真,并且在所述波形失真大于阈值时,所述选择部件选择所 述第二语音合成处理。
7. 根据权利要求2所述的语音合成设备,其特征在于, 所述语言分析部件包括用于判断识别出的各个单词是否处于呼气群的开始的部件,以及在为所关注的单词选择所述第一语音合成处理时,所述选 择部件在所述语言分析部件判断为当前处理的所关注的单词处于呼气群的开始的情况下,为所关注的单词进一步选择所述第 二语音合成处理。
8. —种语音合成方法,包括语言分析步骤,用于通过对所提供的文本进行语言分析来 识别单词;选择步骤,用于选择基于所述语言分析的结果来进行基于 规则的合成的第一语音合成处理、以及进行基于预先记录的语 音的合成以回放预先记录的语音数据的第二语音合成处理之 一 ,作为要对从所述语言分析的结果提取的所关注的单词执行 的语音合成处理,其中,所述选择步骤基于与所关注的单词相 邻的单词,来选择所述第一语音合成处理或所述第二语音合成处理;处理执行步骤,用于对所关注的单词执行所述选择步骤中选择的所述第 一语音合成处理或所述第二语音合成处理;以及 输出步骤,用于输出所述处理执行步骤中生成的合成语音。
全文摘要
本发明提供了一种语音合成设备及方法。语言处理单元通过对从文本保存单元提供的文本进行语言分析,来识别单词。合成选择单元针对从语言分析结果提取的所关注的单词,选择由基于规则合成单元进行的语音合成处理或者由基于预先记录语音合成单元进行的语音合成处理。所选择的基于规则合成单元或基于预先记录语音合成单元对所关注的单词执行语音合成处理。
文档编号G10L13/06GK101266789SQ20081008471
公开日2008年9月17日 申请日期2008年3月14日 优先权日2007年3月14日
发明者奥谷泰夫, 深田俊明, 相泽道雄 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1