韵律修改装置和方法及存储有韵律修改程序的记录介质的制作方法

文档序号:2830830阅读:306来源:国知局
专利名称:韵律修改装置和方法及存储有韵律修改程序的记录介质的制作方法
技术领域
本发明涉及包括接收从人类发声中提取的真实话音韵律信息的真实 话音韵律输入部和修改该真实话音韵律输入部接收到的所述真实话音韵 律信息的真实话音韵律修改部的韵律修改装置、韵律修改方法,以及存 储有韵律修改程序的记录介质。
背景技术
近年来,许多系统和装置使用了将字符串(文本)转换成语音并且输出获取的语音的语音合成技术。例如,将这种技术应用于IVR (交互 话音响应)系统、车载信息终端,以及移动电话,以阅读关于操作方法 的手册或邮件,支持用于视力减弱人员和语音减弱人员的系统等。然而, 根据语音合成技术的当前状况,难于生成和人真实语音一样自然和富于 表达的合成语音。合成语音的韵律一般由执行诸如语素字素(morphogical)分析的处 理来确定,即,分析字符串中的字的阅读和部分语音、分析子句和修改 关系、设置重音、语调、停顿以及语速等。然而,根据处理技术的当前 状况,难于和人类一样准确地考虑句子含义和进行上下文的分析,并且 在分析的结果中可能包含错误。结果,与人类真实话音相比,语音合成 技术生成的合成语音的韵律(韵律可确定诸如话音音调、语调、节奏等 的讲话方式)可能在某种程度上不自然。为了解决上述问题,已知下面的用于改进合成语音的韵律的质量的 方法。在这种情况下,预先确定要转换成合成语音的字符串,从人类发 声中提取韵律信息,以及利用提取的真实话音的韵律信息原样生成合成 语音(例如,参见JPIO (1998)画153998A、 JP9 (1997) -292897A、 JP 11 (1999) -143483A,以及JP7 (1995) -140996A)。在这种方法中,要求预先进行提取人类发声及其韵律的操作,因为利用了从人类发声中提 取的真实话音的韵律信息来生成合成语音,所以可以生成和人类真实话 音一样自然和富于表达的合成语音。同时,为了从人类发声中提取韵律信息,通过手动操作或者利用DP(动态编程)匹配、HMM (隐藏马尔可夫模型)等自动地针对各音素(phoneme)设置音素边界。在前一情况下,例如,需要人基于显示的语音波形针对各音素可视 地区别音素边界,以设置音素边界。这种操作需要关于语音的专业知识 并且费时费力。另一方面,在后一情况下,可能错误地提取韵律信息,其意指设置 错误的音素边界。即使利用DP匹配、HMM等,由于类似声音和噪声的 缘故,有时也难于设置正确的音素边界。如果从真实话音中错误地提取 韵律信息,则生成韵律不自然的合成语音。从而,需要修改错误地提取 的韵律信息。为了修改错误地提取的韵律信息,最终需要人可视地确认 自动设置的音素边界,并且修改错误地设置的音素边界。这种操作和前 一情况一样也需要关于语音的专业知识并且费时费力。发明内容本发明鉴于上述情况实现,其目的是提供一种可以修改从人类发声 中错误地提取的真实话音韵律信息而不会减损人类真实话音的自然性和 表达性并且不会费时费力的韵律修改装置、韵律修改方法以及存储有韵 律修改程序的记录介质。为了实现上述目的, 一种根据本发明的韵律修改装置包括真实话 音韵律输入部,该真实话音韵律输入部接收从人类发声中提取的真实话 音韵律信息;规则韵律生成部,该规则韵律生成部针对所述真实话音韵 律信息中的至少包括要修改的音素或音素串的部分,利用表示人类发声 中的规则的或统计出的音素长度的数据来生成规则韵律信息,该规则韵 律信息具有确定音素之间的边界的规则音素边界和音素的规则音素长 度;以及真实话音韵律修改部,该真实话音韵律修改部利用所述规则韵律生成部生成的所述规则韵律信息,重置所述真实话音韵律信息中的要 修改的所述音素或所述音素串的真实话音音素边界,以使所述真实话音 韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界 和真实话音音素长度接近于所述人类发声的实际音素边界和实际音素长 度,由此,修改了所述真实话音韵律信息。根据本发明的韵律修改装置,所述真实话音韵律输入部接收从人类 发声中提取的真实话音韵律信息。所述规则韵律生成部针对所述真实话 音韵律信息中的至少包括要修改的音素或音素串的部分,利用表示人类 发声中的规则的或统计出的音素长度的数据来生成规则韵律信息,该规 则韵律信息具有确定音素之间的边界的规则音素边界和音素的规则的音 素长度。所述真实话音韵律修改部利用生成的所述规则韵律信息,重置 所述真实话音韵律信息中的要修改的所述音素或所述音素串的真实话音 音素边界,以使所述真实话音韵律信息中的要修改的所述音素或所述音 素串的所述真实话音音素边界和真实话音音素长度接近于所述人类发声 的实际音素边界和实际音素长度,由此,修改了所述真实话音韵律信息。 因为重置了所述真实话音音素边界,使其接近于人类发声的实际音素边 界,所以可以修改从该人类发声中错误地提取的真实话音韵律信息而不 会减损人类真实话音的自然性和表达性并且不会费时费力。优选的是,根据本发明的韵律修改装置还包括修改部分确定部,该 修改部分确定部基于所述真实话音韵律信息的音素串类型或所述真实话 音音素边界确定的各音素的所述真实话音音素长度,来确定所述真实话 音韵律信息中的包括要修改的所述音素或所述音素串的所述部分。利用上述构造,所述修改部分确定部基于所述真实话音韵律信息的 音素串类型或所述真实话音音素长度来确定所述真实话音韵律信息中的 包括要修改的所述音素或所述音素串的所述部分。由此,可以将所述真 实话音韵律信息中的包括要修改的所述音素或所述音素串的所述部分限 制成很可能要错误地提取真实话音韵律信息的部分。在根据本发明的韵律修改装置中,优选的是,所述真实话音韵律修 改部包括音素边界重置部,该音素边界重置部基于包括要修改的音素或音素串的所述部分中由所述规则音素边界确定的各音素的规则音素长度 比来重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的 所述真实话音音素边界,由此,修改所述真实话音韵律信息。利用上述构造,所述音素边界重置部基于由所述部分中的所述规则 音素边界确定的各音素的所述规则音素长度比来重置所述真实话音韵律 信息中的要修改的所述音素或所述音素串的所述真实话音音素边界,由 此修改所述真实话音韵律信息。例如,所述音素边界重置部重置所述真 实话音韵律信息的所述真实话音音素边界,以使所述部分中的各真实话 音音素长度接近于所述部分中的各规则音素长度比,由此,修改所述真 实话音韵律信息。换句话说,修改后的真实话音韵律信息总体上基于所 述部分中的各音素的所述真实话音音素长度,并且局部地具有基于各音 素的所述规则音素长度比重置的其真实话音音素边界。因此,可以修改 从人类发声中错误地提取的所述真实话音韵律信息而不会减损人真实话 音的自然性和表达性并且不会费时费力。在根据本发明的韵律修改装置中,优选的是,所述真实话音韵律修 改部包括音素边界重置部,该音素边界重置部基于所述规则韵律信息的 各音素的所述规则音素长度和作为所述部分中的所述真实话音韵律信息 的语速与所述规则韵律信息的语速之间的比率的语速比,来重置所述真 实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界,由此,修改所述真实话音韵律信息。利用上述构造,所述音素边界重置部基于所述规则韵律信息的各音 素的所述规则音素长度和作为包括要修改的所述音素或所述音素串的所 述部分中的所述真实话音韵律信息的语速与所述规则韵律信息的语速之 间的比率的语速比,来重置所述真实话音韵律信息中的要修改的所述音 素或所述音素串的所述真实话音音素边界,由此,修改所述真实话音韵 律信息。按这种方式,因为所述真实话音韵律信息基于局部恰当的规则 音素长度和所述语速比来修改,所以修改后的真实话音韵律信息总体上 接近于真实话音中的发声。结果,可以修改从人发声中错误地提取的所 述真实话音韵律信息而不会减损人真实话音的自然性和表达性并且不会费时费力。优选的是,根据本发明的韵律修改装置还包括语速比检测部,该语 速比检测部在由所述真实话音韵律信息中的包括要修改的所述音素在内 的至少一个或更多个音素或短音节组成的语速计算范围内,基于所述真 实话音音素边界确定的相应音素的所述真实话音音素长度的总和与所述 语速计算范围中的音素或短音节的数量来计算针对要修改的所述音素的 所述真实话音韵律信息的语速,并且基于所述规则音素边界确定的相应 音素的所述规则音素长度的总和与所述语速计算范围中的音素或短音节 的数量来计算针对要修改的所述音素的所述规则韵律信息的语速,以及 计算所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比 率,作为所述语速比。优选的是,所述音素边界重置部基于所述规则韵 律信息中的各所述音素的所述规则音素长度和所述语速比检测部计算出 的所述语速比来计算包括要修改的所述音素或所述音素串的所述部分中 的修改后的音素长度,并且重置所述真实话音韵律信息的所述真实话音 音素边界,以使所述部分中的每一个真实话音音素长度变为所述修改后 的音素长度,由此,修改所述真实话音韵律信息。利用上述构造,所述语速比检测部在语速计算范围内,基于各音素 的所述真实话音音素长度的总和与所述语速计算范围中的音素或短音节 的数量来计算针对要修改的所述音素的所述真实话音韵律信息的语速。 所述语速比检测部还在所述语速计算范围内,基于各音素的所述规则音 素长度的总和与所述语速计算范围中的音素或短音节的数量来计算针对 要修改的所述音素的所述规则韵律信息的语速。而且,所述语速比检测 部计算所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的 比率,作为所述语速比。所述音素边界重置部基于每一个所述音素的所 述规则音素长度和计算出的所述语速比来计算所述部分中的修改后的音 素长度,并且重置所述真实话音韵律信息的所述真实话音音素边界,以 使所述部分中的每一个真实话音音素长度变为所述修改后的音素长度, 由此修改所述真实话音韵律信息。按这种方式,因为将所述语速比应用 至局部恰当的所述规则音素长度,所以修改的真实话音韵律信息总体上接近于真实话音中的发声。换句话说,修改的真实话音韵律信息是其中 因再现节奏而造成人真实话音趋于改变的韵律信息。结果,可以修改从 人类发声中错误地提取的所述真实话音韵律信息而不会减损人真实话音 的自然性和表达性并且不会费时费力。优选的是,根据本发明的韵律修改装置还包括音素长度比计算部, 该音素长度比计算部计算所述真实话音音素边界确定的各音素的所述真 实话音音素长度与所述规则音素边界确定的所述音素的所述规则音素长 度之间的比率,作为所述真实话音韵律信息中的包括要修改的所述音素 或所述音素串的所述部分中的所述音素的音素长度比;和语速比计算部, 该语速比计算部平滑所音素长度比计算部计算出的所述音素长度比,由 此,计算所述真实话音韵律信息的语速与所述规则韵律信息的语速之间 的比率,作为所述语速比。优选的是,所述音素边界重置部基于所述规 则韵律信息中的所述音素的所述规则音素长度和所述语速比计算部计算 出的所述语速比来计算包括要修改的所述音素或所述音素串的所述部分 中的修改后的音素长度,并且重置所述真实话音韵律信息的所述真实话 音音素边界,以使所述部分中的每一个真实话音音素长度变为所述修改 后的音素长度,由此修改所述真实话音韵律信息。利用上述构造,所述音素长度比计算部计算所述真实话音音素边界 确定的各音素的所述真实话音音素长度与所述规则音素边界确定的所述 音素的所述规则音素长度之间的比率,作为所述部分中的所述音素的音 素长度比。所述语速比计算部平滑计算出的所述音素长度比,由此,计 算所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比 率,作为所述语速比。所述音素边界重置部基于所述规则韵律信息的所 述音素的所述规则音素长度和计算出的所述语速比来计算所述部分中的 修改后的音素长度,并且重置所述真实话音韵律信息的所述真实话音音 素边界,以使所述部分中的每一个真实话音音素长度变为所述修改后的 音素长度,由此修改所述真实话音韵律信息。按这种方式,因为将所述 语速比应用至局部恰当的所述规则音素长度,所以修改后的真实话音韵 律信息总体上接近于真实话音中的发声。换句话说,修改后的真实话音韵律信息是其中因再现节奏而造成人类真实话音趋于改变的韵律信息。 结果,可以修改从人类发声中错误地提取的所述真实话音韵律信息而不 会减损人真实话音的自然性和表达性并且不会费时费力。优选的是,根据本发明的韵律修改装置包括真实话音韵律存储部, 该真实话音韵律存储部存储所述真实话音韵律输入部接收到的所述真实 话音韵律信息或所述真实话音韵律修改部修改的所述真实话音韵律信 息;和会聚判断部,该会聚判断部在所述真实话音韵律修改部修改的所 述真实话音韵律信息的所述真实话音音素长度与所述真实话音韵律存储 部中存储的未修改的所述真实话音韵律信息的所述真实话音音素长度之 差不小于阈值时,在所述真实话音韵律存储部中写入所述真实话音韵律 修改部修改的所述真实话音韵律信息并指令所述真实话音韵律修改部修 改所述真实话音韵律信息,并且在所述真实话音韵律修改部修改的所述 真实话音韵律信息的所述真实话音音素长度与所述真实话音韵律存储部 中存储的未修改的所述真实话音韵律信息的所述真实话音音素长度之差 小于所述阈值时,输出通过所述真实话音韵律修改部修改的所述真实话 音韵律信息。利用上述构造,所述会聚判断部判断所述真实话音韵律修改部修改 的所述真实话音韵律信息的所述真实话音音素长度与所述真实话音韵律 存储部中存储的未修改的所述真实话音韵律信息的所述真实话音音素长 度之差是否小于阈值。如果所述差不小于所述阈值,则所述会聚判断部在所述真实话音韵律存储部中写入所述真实话音韵律修改部修改的所述 真实话音韵律信息并指令所述真实话音韵律修改部修改所述真实话音韵律信息。另一方面,如果所述差小于所述阈值,则所述会聚判断部输出 通过所述真实话音韵律修改部修改的所述真实话音韵律信息。结果,所 述会聚判断部可以输出其中所述真实话音音素边界更接近于实际真实话 音音素边界的所述真实话音韵律信息。根据本发明的GUI装置允许编辑经上述韵律修改装置修改的所述真 实话音韵律信息。利用上述构造,所述GUI装置允许编辑经所述韵律修改装置修改的所述真实话音韵律信息。因为所述GUI装置编辑所述韵律修改装置修改 的所述真实话音韵律信息,所以管理者例如可以针对所述真实话音韵律 信息进行精细调节。根据本发明的语音合成器输出基于经上述韵律修改装置修改的所述 真实话音韵律信息所生成的合成语音。利用上述构造,所述语音合成器可以输出基于所述韵律修改装置修 改的所述真实话音韵律信息所生成的合成语音。根据本发明的语音合成器输出基于通过上述GUI装置编辑的所述真 实话音韵律信息所生成的合成语音。利用上述构造,所述语音合成器可以输出基于通过所述GUI装置编辑的所述真实话音韵律信息所生成的合成语音。为了实现上述目标,提供了一种根据本发明的韵律修改方法,其包括以下步骤真实话音韵律输入操作步骤,在该真实话音韵律输入操作 步骤中,设置在计算机中的真实话音韵律输入部接收从人类发声中提取 的真实话音韵律信息;规则韵律生成操作步骤,在该规则韵律生成操作步骤中,设置在所述计算机中的规则韵律输生成部针对所述真实话音韵 律信息中的至少包括要修改的音素或音素串在内的部分,利用表示人类 发声中的规则或统计音素长度的数据来生成规则韵律信息,该规则韵律信息具有确定音素之间的边界的规则音素边界和音素的规则音素长度; 以及真实话音韵律修改操作步骤,在该真实话音韵律修改操作步骤中, 设置在所述计算机中的真实话音韵律修改部利用在所述规则韵律生成操 作步骤中生成的所述规则韵律信息,重置所述真实话音韵律信息中的要 修改的所述音素或所述音素串的真实话音音素边界,以使所述真实话音 韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界 和真实话音音素长度接近于所述人类发声的实际音素边界和实际音素长 度,由此,修改所述真实话音韵律信息。为了实现上述目标,提供了一种存储有根据本发明的韵律修改程序的记录介质,该韵律修改程序允许计算机执行以下处理真实话音韵律 输入处理,该真实话音韵律输入处理接收从人类发声中提取的真实话音韵律信息;规则韵律生成处理,该规则韵律生成处理针对所述真实话音 韵律信息中的至少包括要修改的音素或音素串在内的部分,利用表示人 类发声中的规则或统计音素长度的数据来生成规则韵律信息,该规则韵 律信息具有确定音素之间的边界的规则音素边界和音素的规则音素长度;以及真实话音韵律修改处理,该真实话音韵律修改处理利用在所述规则韵律生成处理中生成的所述规则韵律信息,重置所述真实话音韵律 信息中的要修改的所述音素或所述音素串的真实话音音素边界,以使所 述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话 音音素边界和真实话音音素长度接近于所述人类发声的实际音素边界和 实际音素长度,由此,修改所述真实话音韵律信息。根据本发明的韵律修改方法和存储有韵律修改程序的记录介质提供 了和上述韵律修改装置的效果相同的效果。


图1是示出了根据本发明的实施方式1的韵律修改系统的示意构造。图2是示出了韵律修改系统中的真实话音韵律提取部提取的真实话音韵律信息的示例的概念图。图3是示出了韵律修改系统中的规则韵律生成部生成的规则韵律信息的示例的概念图。图4是示出了经韵律修改系统中的音素边界重置部修改的真实话音韵律信息的示例的概念图。图5是示出了韵律修改系统的修改实施例中的示意构造的框图。 图6是示出了韵律修改系统的修改实施例中的示意构造的框图。 图7是示出了韵律修改系统中的韵律修改装置的操作的实施例的流程图。图8是用于说明各音素与该音素的音素长度比之间的关系的图形。 图9是示出了根据本发明的实施方式2的韵律修改系统的示意构造 的框图。图10是示出了韵律修改系统中的韵律修改装置的操作的实施例的 流程图。图11是示出了根据本发明的实施方式3的韵律修改系统的示意构造 的框图。图12是用于说明在韵律修改系统中的真实话音韵律提取部所提取的真实话音韵律信息中的各音素与该音素的真实话音音素长度之间的关 系的图形。图13用于说明在韵律修改系统中的规则韵律生成部所生成的规则 韵律信息中的各音素与该音素的规则音素长度之间的关系的图形。图14是用于说明各音素与该音素的音素长度比之间的关系的图形。 图15是用于说明各音素与各经平滑音素的音素长度比之间的关系 的图形。图16是用于说明经韵律修改系统中的音素边界重置部修改的真实 话音韵律信息中的各音素与该音素的真实话音音素长度之间的关系的图 形。图17是示出了韵律修改系统中的韵律修改装置的操作的实施例的 流程图。图18是示出了根据本发明的实施方式4的韵律修改系统的示意构造 的框图。图19是示出了根据本发明的实施方式5的韵律修改系统的示意构造 的框图。图20是示出了在韵律修改系统中的GUI装置的屏幕上显示的示例 的概念图。
具体实施方式
下文中,参照附图,通过更具体的实施方式对本发明进行详细说明。 [实施方式1]图1是示出了根据当前实施方式的韵律修改系统1的示意构造的方 框图。根据本实施方式的韵律修改系统1包括韵律提取器2和韵律修改装置3。在对韵律修改装置3的详细构造进行说明之前,对韵律提取器2的 构造简要说明如下。韵律提取器2包括发声输入部21、字符串输入部22、以及真实话 音韵律提取部23。该发声输入部21、字符串输入部22以及真实话音韵 律提取部23还可由计算机的CPU根据用于实现这些部件的功能的程序 进行操作来具体实现。发声输入部21具有接收人类发声的功能,并且例如由麦克风或模拟 -数字转换器构成。在当前实施方式中,假定发声输入部21接收了人类发 声"雨力;("amega")",发声输入部21将接收到的人发声转换成可以由 计算机处理的数字语音数据。发声输入部21将获得的语音数据输出至真 实话音韵律提取部23。发声输入部21可以直接接收记录在诸如CD (光 盘)和MD (迷你盘)的记录介质上的数字语音数据、经由有线或无线通 信网络发等送来的数字语音数据等、以及通过播放预先记录在记录介质 上的人类发声所获取的模拟语音。针对接收到的语音数据被压縮的情况, 发声输入部21可以具有解压已压縮语音数据的功能。字符串输入部22具有接收表示发声输入部21接收到的真实话音中 的发声的内容的字符串(文本)的功能。在当前实施方式中,字符串输 入部22接收唯一地标识真实话音中的发声的内容的这种字符串。例如, 字符串由日语假名表字符、方日语字符、字母表等组成,如同"7 乂力、'"。 字符串输入部22将接收到的字符串例如转换成按如同"AmEgA"的音素 单位表达的字符串数据。字符串输入部22将获取的字符串数据输出至真 实话音韵律提取部23和韵律修改装置3。字符串输入部22还接收并不唯 一地标识发声的内容的字符串。例如,该字符串由混合汉语字符和日语 假名表字符组成,如同"雨力、'"。接着,字符串输入部22可以执行针对 接收到的字符串的语素字素分析,并且基于语素字素分析的结果将该字 符串转换成按音素单位表达的字符串数据。真实话音韵律提取部23基于从字符串输入部22输出的字符串数据,从发声输入部21输出的语音数据中提取真实话音韵律信息。具体来说,真实话音韵律提取部23从发声输入部21输出的语音数据中提取确定诸如话音音调、语调、节奏(rhythm)等的讲话方式的真实话音韵律信息。 然而,在当前实施方式中,为便于说明,假定真实话音韵律提取部23仅 提取关于节奏的真实话音韵律信息。在此应注意到,节奏指一系列音素 和它们的音素长度。更具体地说,真实话音韵律提取部23针对真实话音 的各音素设置音素边界和音素长度,由此,从语音数据中提取真实话音 韵律信息。在此应注意到,音素指在任意单独语言中区别彼此含义的最 小单位话音。针对各音素设置音素边界可以由确认语音波形的人人工地、 或利用DP匹配、HMM等自动地执行。这里,设置方法没有被特别限制。 图2是示出了真实话音韵律提取部23提取的真实话音韵律信息的示 例的概念图。在图2所示的示例中,按语音波形W的形式表达语音数据。 L,到L6中的每一个都表示针对真实话音的各音素设置的音素边界(下文 中,称为"真实话音音素边界")。"与"之间的部分对应于音素"A" 的真实话音音素长度V^ L2与L3之间的部分对应于音素"m"的真实话音音素长度V2。 L3与L4之间的部分对应于音素"E"的真实话音音素长 度V3。 U与L5之间的部分对应于音素"g"的真实话音音素长度V4。 L5 与L6之间的部分对应于音素"A"的真实话音音素长度Vs。即,从发声 输入部21输出的语音数据是表示"雨力《"的数据。V表示总真实话音音素长度,作为相应真实话音音素长度、到V5的总和。这里,假定真实话音音素边界L4因类似声音和噪声而被错误较大地 设置。换句话说,假定真实话音韵律提取部23错误地提取了韵律信息。而且,假定在实际发声中,真实话音音素边界L4应当正确地定位在真实话音音素边界Q处。因为错误地提取了韵律信息,所以音素"E"的真 实话音音素长度V3变得比实际发声的真实话音音素长度(Ls与Q之间 的部分)短。而且,音素"g"的真实话音音素长度V4变得比实际发声 的真实话音音素长度(C4与Ls之间的部分)长。从而,当利用图2所示 真实话音韵律信息生成合成语音时,合成语音在音素"E"和"g"的部 分中具有不自然节奏。[韵律修改装置的构造]韵律修改装置3包括真实话音韵律输入部31、修改部分确定部32、语速检测部33、规则韵律生成部34、真实话音韵律修改部35、以及真实 话音韵律输出部36。真实话音韵律输入部31接收从真实话音韵律提取部23输出的真实 话音韵律信息。真实话音韵律输入部31将接收到的真实话音韵律信息输 出至修改部分确定部32、语速检测部33、以及真实话音韵律修改部35。基于从字符串输入部22输出的字符串数据或从真实话音韵律输入 部31输出的真实话音韵律信息,修改部分确定部32确定从人类发声提 取的真实话音韵律信息中的很可能是错误地提取出的真实话音韵律信息 部分,作为真实话音韵律信息的要修改的修改部分。例如,在基于从字 符串输入部22输出的字符串数据确定修改部分的情况下,修改部分确定 部32将从无声或非发话音(unvoiced sound)与发话音之间的边界到随后 的发话音与无声或非发话音之间的边界的部分确定为修改部分。按这种 方式,当发话音与非发话音之间边界(在该处,不太可能错误地提取真 实话音韵律信息)被设置为修改部分的各端部时,可以以更准确地执行 修改。在修改部分确定部32基于真实话音韵律信息确定修改部分的情况 下,即,在基于从真实话音韵律信息中提取的音素串确定修改部分的情 况下,修改部分确定部32不必接收来自字符串输入部22的字符串数据。 因而,在这种情况下,不需要图1中的从字符串输入部22到修改部分确 定部32的箭头。在当前实施方式中,假定修改部分确定部32将修改部分确定为由基 于从字符串输入部22输出的字符串数据"AmEgA"中的五个连续音素 "A"、 "m"、 "E"、 "g"以及"A"组成的部分。因而,在当前实施方式 中,修改部分确定部32将确定的修改部分"AmEgA"输出至语速检测部 33、规则韵律生成部34、以及真实话音韵律修改部35。在上述示例中,修改部分确定部32将整个输入音素确定为修改部 分。然而,修改部分确定部32例如可以将表示"雨"的音素"AmE"任 意地确定为修改部分。即,修改部分确定部32可以将被假定为是错误地 提取的真实话音韵律信息的任何数量的任意部分确定为修改部分。例如,修改部分确定部32可以将修改部分确定为真实话音韵律信息的很可能是 被错误地提取的部分,如连续元音部分、包括縮短音的连续发话音部分 等。而且,如果假定没有错误地提取真实话音韵律信息,则修改部分确定部32不必确定出修改部分。修改部分确定部32可以包括接收韵律修 改系统1的管理者确定的修改部分的修改部分指定部,该修改部分指定 部可以接收韵律修改系统1的管理者指定的修改部分。语速检测部33在从真实话音韵律输入部31输出的真实话音韵律信 息中检测从修改部分确定部32输出的修改部分中的语音的速率。为此, 语速检测部33包括总真实话音音素长度计算部33a、短音节计算部33b、 以及语速计算部33c。总真实话音音素长度计算部33a在从真实话音韵律输入部31输出的 真实话音韵律信息中计算从修改部分确定部32输出的修改部分中的总真 实话音音素长度。在当前实施方式中,因为修改部分是"AmEgA",所以 总真实话音音素长度计算部33a计算出的总真实话音音素长度V是相应 真实话音音素长度Vi到V5的总和。总真实话音音素长度计算部33a将计 算出的总真实话音音素长度输出至语速计算部33c。短音节计数部33b对从修改部分确定部32输出的修改部分中包括的 短音节(mora)的总数量进行计数。在当前实施方式中,因为从修改部 分确定部32输出的修改部分是"AmEgA",所以短音节计数部33b将针 对"a"、 "me"以及"ga"的三个短音节计数为短音节的总数。在此应注 意到,短音节指具有特定音位时长的话音的子句单位。短音节计数部33b 将计数出的短音节总数输出至语速比计算部33c。语速计算部33c基于从总真实话音音素长度计算部33a输出的修改 部分中的总真实话音音素长度和从短音节计数部33b输出的修改部分中 的短音节的总数来计算语音的速率。更具体地说,语速计算部33c采用 通过将总真实话音音素长度除以短音节的总数所获取的值的倒数,由此, 将语音的速率计算为每秒钟短音节数。在当前实施方式中,语速计算部 33c计算出语速为3/V。语速计算部33c将计算出的语速输出至规则韵律 生成部34,作为语速信息。针对至少包括从修改部分确定部32输出的修改部分"AmEgA"的 部分,规则韵律生成部34利用表示与从语速检测部33输出的修改部分 中的语速相同或大致相同的语速对应的人类发声中的规则的或统计出的 音素长度的数据,来设置音素长度和用于确定音素之间的边界的音素边 界,由此生成用于修改部分的规则韵律信息。为此,规则韵律生成部34 包括音素长度表34a,该音素长度表34a存储有表示与语速相关联的人类 发声中的规则的或统计出的音素长度的数据。例如,音素长度表34a按 日语语音次序存储有表示音素"A"的平均音素长度的数据、表示音素"I" 的平均音素长度的数据、表示音素"U"的平均音素长度的数据、…。这 些数据中的每一个数据都和语速相关联,并且音素长度表34a存储有与 多个语速有关的数据。代替音素长度表34a地,规则韵律生成部34可以 具有根据语速生成表示音素长度的数据的功能。表示音素长度的数据可 以通过分析由 一个人发出的真实话音或者由多个人发出的真实话音来获 取。虽然规则韵律信息是统计学上恰当的韵律信息,但这种信息是平均 数据,由此,与真实话音韵律信息相比,表达性不足(节奏变化较小)。图3是示出了规则韵律生成部34生成的规则韵律信息的示例的概念 图。Bt到B6中的每一个都表示针对修改部分中的各音素设置的音素边界 (下文中,称为"规则音素边界")。Bi与B2之间的部分对应于音素"A" 的规则音素长度Ri。 B2与B3之间的部分对应于音素"m"的规则音素长 度R2。 B3与B4之间的部分对应于音素"E"的规则音素长度R3。 B4与 Bs之间的部分对应于音素"g"的规则音素长度R4。 B5与B6之间的部分 对应于音素"A"的规则音素长度Rs。 R表示总规则音素长度,作为相应 规则音素长度&到R5的总和。在当前实施方式中,假定音素"A"的规则音素长度&为"120"毫 秒、音素"m"的规则音素长度R2为"70"毫秒、音素"E"的规则音素 长度R3为"150"毫秒、音素"g"的规则音素长度R4为"60"毫秒,而 音素"A"的规则音素长度Rs为"140"毫秒。规则韵律生成部34将生 成的规则韵律信息输出至真实话音韵律修改部35。真实话音韵律修改部35利用从规则韵律生成部34输出的规则韵律信息重置真实话音韵律信息的真实话音音素边界,以使修改部分中的真 实话音韵律信息的真实话音音素边界接近于实际真实话音音素边界,由此,修改真实话音韵律信息。为此,真实话音韵律修改部35包括规则音素长度比计算部35a和音素边界重置部35b。规则音素长度比计算部35a计算从规则韵律生成部34输出的规则韵 律信息的各规则音素长度比。在当前实施方式中,规则音素长度比计算 部35a最初采用音素"A"的规则音素长度R!,即,"120"毫秒,作为 基准规则音素长度比"1"。在这种情况下,音素"m"的规则音素长度比 为R2/Ri,音素"E"的规则音素长度比为R3/R!,音素"g"的规则音素 长度比为RVRp而音素"A"的规则音素长度比为R4/R4。换句话说,规 则音素长度比计算部35a计算出音素"A"的规则音素长度比"1",音素"m"的规则音素长度比"0.58",音素"E"的规则音素长度比"1.25", 音素"g"的规则音素长度比"0.5"、以及音素"A"的规则音素长度比"1.17"。在当前实施方式中,将各规则音素长度比计算成两个小数位。从而,规则韵律信息的相应规则音素长度之比为"1: 0.58: 1.25: 0.5:1.17"。规则音素长度比计算部35a将计算出的相应规则音素长度之比输 出至音素边界重置部35b。音素边界重置部35b重置真实话音韵律信息的真实话音音素边界, 以使修改部分中的相应真实话音音素长度的总和根据修改部分中的相应 规则音素长度比分界,由此,修改真实话音韵律信息。在当前实施方式 中,因为修改部分涉及五个音素"A"、 "m"、 "E"、 "g"以及"A",所以 音素边界重置部35b根据相应规则音素长度之比"h 0.58: 1.25: 0.5: 1.17"划分总真实话音音素长度V,以重置真实话音音素边界L2到L5, 由此,修改真实话音韵律信息。而且,还可以通过获取修改过的音素长 度(其为以规则音素长度比进行划分的结果)和从真实话音韵律输入部 31输出的未经修改的音素长度的任意加权平均值来获取各音素的最终音 素长度。可以更多地加权修改过的音素长度,以便确保更高稳定性,或 者另选的是,可以更多地加权未修改音素长度,以便确保实际发声的节 奏。按这种方式,可以获取希望的修改结果。图4是示出了经音素边界重置部35b修改的真实话音韵律信息的实 施例的概念图。mL2到mL5中的每一个都表示重置真实话音音素边界。 L,与mL2之间的部分对应于音素"A"的修改后真实话音音素长度mV" mL2与mL3之间的部分对应于音素"m"的修改后真实话音音素长度mV2。 mL3与mL4之间的部分对应于音素"E"的修改后真实话音音素长度mV3。 mL4与mL5之间的部分对应于音素"g"的修改后真实话音音素长度mV4。 mL5与L6之间的部分对应于音素"A"的修改后真实话音音素长度mV5。 与图2所示真实话音音素边界L4相比,图4所示真实话音音素边界mL4 接近于实际真实话音音素边界C4。这是因为修改后的真实话音韵律信息 总体上基于修改部分中的相应真实话音音素长度的总和,而局部地采用 了规则的或统计学上恰当的规则韵律信息的缘故。音素边界重置部35b 将修改的真实话音韵律信息输出至真实话音韵律输出部36。真实话音韵律输出部36将从音素边界重置部35b输出的真实话音韵 律信息输出至真实话音韵律修改装置3的外部。例如,从真实话音韵律 输出部36输出的真实话音韵律信息被语音合成器使用,以生成和输出合 成语音。因为从真实话音韵律输出部36输出的真实话音韵律信息已经修 正了其提取中的错误,所以利用从真实话音韵律输出部36输出的真实话 音韵律信息生成的合成语音和人类语音一样自然和富于表达。代替被语 音合成器使用来生成合成语音地或除了被语音合成器使用来生成合成语 音以外,从真实话音韵律输出部36输出的真实话音韵律信息还可以被韵 律词典组织装置使用,以组织用于语音合成的韵律词典。而且,真实话 音韵律信息可以被波形词典组织装置使用,以组织用于语音合成的波形 词典。而且,真实话音韵律信息可以被声学模型生成装置使用,以生成 用于语音识别的声学模型。S卩,不存在针对怎样使用从真实话音韵律输 出部36输出的真实话音韵律信息的特别限制。目前,韵律修改装置3还通过在诸如个人计算机的任意计算机上安 装程序来实现。换句话说,真实话音韵律输入部31、修改部分确定部32、 语速检测部33、规则韵律生成部34、真实话音韵律修改部35以及真实 话音韵律输出部36可由计算机的CPU根据用于实现这些部件的功能的程序进行操作来具体实现。就此而言,用于实现真实话音韵律输入部31、修改部分确定部32、语速检测部33、规则韵律生成部34、真实话音韵律 修改部35以及真实话音韵律输出部36的功能的程序或存储有这种程序 的记录介质也是本发明的实施方式。韵律修改系统1的构造不限于上述图1所示构造。例如,还可以提 供韵律修改系统la (参见图5),该韵律修改系统la包括代替韵律修改 部3中的语速检测部33和真实话音韵律修改部35的语速比检测部37和 真实话音韵律修改部38。此外,还可以提供韵律修改系统lb(参见图6), 该韵律修改系统lb包括代替韵律提取器2中的字符串输入部22的语音 识别部24。图5是示出了韵律修改系统la的示意构造的框图,该韵律修改系统 la在韵律修改装置3中包括代替图1所示语速检测部33和真实话音韵律 修改部35的语速比检测部37和真实话音韵律修改部38。在图5中,具 有和图1中的组件的功能相同的功能的组件用相同标号指示。语速比检 测部37包括总真实话音音素长度计算部37a、总规则音素长度计算部 37b、以及语速比计算部37c。因为图5所示韵律修改装置3不包括图1 所示语速检测部33,所以规则韵律输出部34不接收语速信息。由此,图 5所示规则韵律生成部34仅必须生成与任意语速对应的规则韵律信息。 然而,更优选的是,规则韵律生成部34可以利用与各种情况下的人语音 的平均速率对应的音素长度数据来生成规则韵律信息。总真实话音音素长度计算部37a计算修改部分中的真实话音韵律信 息的相应真实话音音素长度的总和。这里,总真实话音音素长度计算部 37a计算出总真实话音音素长度V,其是相应真实话音音素长度Vi到V5 的总和(参见图2)。总规则音素长度计算部37b计算修改部分中的规则 韵律信息的相应规则音素长度的总和。这里,总规则音素长度计算部37b 计算出总规则音素长度R,其是相应规则音素长度R4到R5的总和(参见 图3)。语速比计算部37c计算总真实话音音素长度计算部37a计算出的 真实话音音素长度的总和与总规则音素长度计算部37b计算出的规则音 素长度的总和之比的倒数,作为语速比。这里,语速比计算部37c计算出语速比H为R/V。真实话音韵律修改部38包括音素边界重置部38a。音素边界重置部 38a重置真实话音音素边界k到L6,以使修改部分中的相应真实话音音 素长度变为相应音素长度Ri/H、 R2/H、…Rs/H,其是通过将修改部分中 的相应规则音素长度&到R5分别乘以作为语速比计算部37c计算出的语 速比H的倒数的1/H获取的,由此,修改真实话音韵律信息。结果,经 音素边界重置部38a修改的真实话音韵律信息如图4所示,其与图1所 示的音素边界重置部35b修改的真实话音韵律信息一样。换句话说,尽 管语速比检测部37和真实话音韵律修改部38以与真实话音韵律修改部 35的方式不同的方式修改真实话音韵律信息,但可以获取相同的修改结 果。在图5所示韵律修改系统la中,可以在修改部分确定部32与规则 韵律生成部34之间设置图1所示语速检测部33,以使规则韵律输生成部 34可以生成与和真实话音韵律信息的语速相同或大致相同的语速对应的 规则韵律信息,并将生成的规则韵律信息输出至语速比检测部37。图6是示出了在韵律提取部2中包括语音识别部24的韵律修改系统 lb的示意构造的框图。在图6中,具有和图1的组件的功能相同的功能 的组件用相同标号来指示。语音识别部24具有识别发声的内容的功能。 为此,语音识别部24最初将从发声输入部21输出的语音数据转换成特 征值。利用获取的特征值,语音识别部24参照关于声学模型和语言模型 (两种都未示出)的信息,输出用于表示输入的真实话音的内容的最可 能词汇或字符串,作为识别的结果。语音识别部24将识别结果输出至真 实话音韵律提取部23和韵律修改装置3。如上所述,即使韵律修改系统lb不包括如在图1所示的韵律修改系 统1中设置的用于接收表示真实话音中的发声内容的字符串"雨力;"的 字符串输入部22,语音识别部24也可以识别发声的内容,并将表示"雨 力、'"的识别结果输出至真实话音韵律提取部23和韵律修改装置3。[韵律修改装置的操作]接下来,参照图7,对具有上述构造的韵律修改装置3的操作进行说明。图7是示出了韵律修改装置3的操作的实施例的流程图。如图7所示,真实话音韵律输入部31接收从真实话音韵律提取部23输出的真实 话音韵律信息(Opl)。接着,基于从字符串输入部22输出的字符串或在Op l中接收到的 真实话音韵律信息,修改部分确定部32确定从人类发声中提取的真实话 音韵律信息中的很可能是错误地提取的真实话音韵律信息的部分,作为 真实话音韵律信息的要修改的修改部分(Op 2)。语速检测部33计算在 Op 1中接收到的真实话音韵律信息中的在Op2中确定的修改部分内的语 速(Op3)。此后,规则韵律生成部34利用表示与和Op 3中计算出的语速相同 或大致相同的语速对应的人类真实话音中的规则的或统计出的音素长度 的数据设置确定音素之间的边界的规则音素边界,由此,生成规则韵律 信息(Op4)。此后,规则音素长度比计算部35a计算在Op4中生成的规则韵律信 息的相应规则音素长度之比(Op5)。音素边界重置部35b重置真实话音 韵律信息的真实话音音素边界,以使修改部分中的相应真实话音音素长 度的总和根据Op5中计算出的相应规则音素长度之比来分界,由此,修 改真实话音韵律信息(Op6)。真实话音韵律输出部36将Op6中修改的 真实话音韵律信息输出至真实话音韵律修改装置3的外部(Op7)。如上所述,根据当前实施方式的韵律修改装置3,在要修改的音素 或音素串的部分中,音素边界重置部35b基于规则韵律信息中的各音素 的规则音素长度和作为真实话音韵律信息的语速与规则韵律信息的语速 之间的比率的语速比,重置真实话音韵律信息中的要修改的音素或音素 串的真实话音音素边界,由此,修改真实话音韵律信息。换句话说,经 修改的真实话音韵律信息总体上基于修改部分中的相应真实话音音素边 界的总和,并且局部地具有根据统计学上恰当的规则音素长度比重置了 的真实话音音素边界。结果,可以修改从人类发声中错误地提取的真实 话音韵律信息而不会减损人类真实话音的自然性和可表达性并且不会费时费力。下文中,参照图8A到8C,通过具体实施例的方式,对根据当前实施方式的韵律修改装置3的操作进行说明。图8A是用于说明图2所示的 真实话音韵律信息的各音素与该音素的真实话音音素长度比之间的关系 的图形。即,图8A所示标记o分别表示音素"A"、 "m"、 "E"、 "g"以 及"A"与真实话音韵律提取部23提取的真实话音韵律信息中的开始音 素"A"的真实话音音素长度比。具体来说,音素"A"的真实话音音素 长度V,是基准真实话音音素长度比"1",音素"m"的真实话音音素长 度比是V2/V"音素"E"的真实话音音素长度比是V3/Vp音素"g"的 真实话音音素长度比是V4/Vp而音素"A"的真实话音音素长度比是 Vs/Vp图8A所示标记0表示在以实际真实话音音素边界Q定位图2所 示真实话音音素边界L4的情况下音素"E"和"g"的真实话音音素长度 比。图8B是用于说明图3所示的规则韵律信息的各音素与该音素的规则 音素长度比之间的关系的图形。即,图8B所示标记A分别表示音素"A"、 "m"、 "E"、 "g"以及"A"与规则韵律生成部34生成的规则韵律信息 中的开始音素"A"的规则音素长度比。如上所述,相应音素的规则音素长度比为"1: 0.58: 1.25: 0.5: 1.17"。图8C是用于说明图4所示的真实话音韵律信息的各音素与该各音素 的真实话音音素长度比之间的关系的图形。即,图8C所示标记A分别表 示音素"A"、 "m"、 "E"、 "g"以及"A"与经音素边界重置部35b修改 的真实话音则韵律信息中的开始音素"A"的真实话音音素长度比。如图 8C所示,音素"E"和"g"的真实话音音素长度比接近于图8C中标记 O表示的音素"E"和"g"的实际真实话音音素长度比。这是因为修改 后的真实话音韵律信息总体上基于修改部分中的相应真实话音音素长度 的总和,并且局部地采用统计学上恰当的规则韵律信息的缘故。[实施方式2]图9是示出了根据当前实施方式的韵律修改系统10的示意构造的框 图。根据当前实施方式的韵律修改系统IO包括代替图1所示韵律修改装置3的韵律修改装置4。在图9中,具有和图1中的组件的功能相同的功 能的组件用相同标号指示,并且省略对其的详细说明。 [韵律修改装置的构造]韵律修改装置4包括代替图1所示语速检测部33和真实话音韵律修 改部35的语速比检测部41和真实话音韵律修改部42。语速比检测部41 和真实话音韵律修改部42还可由计算机的CPU根据用于实现这些部件 的功能的程序进行操作来具体实现。语速比检测部41包括:语速计算范围设置部41a、短音节计数部41b、 总真实话音音素长度计算部41c、真实话音语速计算部41d、总规则音素 长度计算部41e、规则语速计算部41f、以及语速比计算部41g。针对从修改部分确定部32输出的修改部分中的各音素,语速计算范 围设置部41a设置由包括要修改的音素在内的至少一个或更多个音素或 短音节组成的语速计算范围。在当前实施方式中,语速计算范围设置部 41a设置分别用于修改部分中的音素"A"、 "m"、 "E"、 "g"以及"A" 的语速计算范围K[l]、 K[2]、 K[3]、 K[4]以及K[5]。这里,假定语速计' 算范围设置部41a针对修改部分中的各音素,设置包括与包括要修改的 音素在内的短音节相邻的两个短音节的三个短音节的语速计算范围。然 而,语速计算范围设置部41a针对修改部分中的位于呼吸边界的短音节 中的各音素,设置与包括要修改的音素在内的短音节相邻的两个短音节 的语速计算范围。更具体地说,针对修改部分"AmEgA"中的第二音素 "m"要被修改的情况,语速计算范围设置部41a设置具有三个短音节的 由五个音素"A"、 "m"、 "E"、 "g"以及"A"组成的语速计算范围K[2]。 语速计算范围设置部41a将设置的语速计算范围K[n](n为1或以上的整 数)输出至短音节计数部41b、总真实话音音素长度计算部41c,以及总 规则音素长度计算部41e。优选的是,语速计算范围设置部41a根据音素的环境动态地改变语 音数据计算范围的设置。例如,语速计算范围设置部41a针对很可能是 错误地提取的真实话音韵律信息的部分(如连续发出元音声的部分)中 的音素将语速计算范围设置成更宽,而针对不太可能被错误地提取的真实话音韵律信息的部分(如包括发话声与非发话声之间的许多边界的部 分)中的音素将语速计算范围设置成更窄。结果,变得可以针对不太可 能错误地提取真实话音韵律信息的部分,以真实话音的较高重要性来计 算语速,而针对很可能错误地提取的真实话音韵律信息的部分计算更稳 定的语速。由此,变得可以计算接近于真实话音的节奏的语速,并且整 体上稳定。
短音节计数部41b对从语速计算范围设置部41a输出的语速计算范
围中的短音节的总数进行计数。在当前实施方式中,因为语速计算范围 被设置成包括与包括要修改的音素在内的短音节相邻的两个短音节的三
个短音节,所以短音节计数部41b将短音节的总数计数为3个。然而, 如果按呼吸边界定位包括要修改的音素在内的短音节,则短音节计数部 41b将短音节的总数计数为两个。短音节计数部41b将计数出的短音节总 数输出至真实话音语速计算部41d和规则语速计算部41f。
总真实话音音素长度计算部41c计算真实话音韵律输入部31输出的 真实话音韵律信息中,在语速计算范围设置部41a输出的语速计算范围 内的总真实话音音素长度。在当前实施方式中,总真实话音音素长度计 算部41c针对语速计算范围K[l]、 K[2]、 K[3]、 K[4]以及K[5]分别计算 总真实话音音素长度V[l]、 V[2]、 V[3]、 V[4]以及V[5]。例如,针对语 速计算范围是K[2]的情况,总真实话音音素长度计算部41c计算出总真 实话音音素长度V为V[2],其是相应真实话音音素长度Vi到V5的总和 (参见图2)。总真实话音音素长度计算部41c将计算出的总真实话音音 素长度V[n]输出至真实话音语速计算部41d。
真实话音语速计算部41d针对真实话音韵律信息中的修改部分中的 要修改的音素计算出语速Sv,作为每秒钟发声的短音节数。更具体地说, 真实话音语速计算部41d釆用通过将从总真实话音音素长度计算部41c 输出的总真实话音音素长度除以从短音节计数部41b输出的短音节总数 所获取的值的倒数,由此,计算真实话音韵律信息的语速Sv。在当前实 施方式中,真实话音语速计算部41d针对V[l]、 V[2]、 V[3]、 V[4]以及 V[5]分别计算语速Sv[1]、 Sv[2]、 Sv[3]、 Sv[4]以及Sv[5]。例如,针对总真实话音音素长度是V[2]的情况,真实话音语速计算部41d计算出语速 Sv[2]为3/V[2]。真实话音语速计算部41d将计算出的语速Sv[n]输出至语 速比计算部41g。
总规则音素长度计算部41e按从语速计算范围设置部41a输出的语 速计算范围来计算从规则韵律生成部34输出的规则韵律信息中的总规则 音素长度。在当前实施方式中,总规则音素长度计算部41e针对语速计 算范围K[l]、 K[2]、 K[3]、 K[4]以及K[5]分别计算总规则音素长度R[1]、 R[2]、 R[3]、 R[4]以及R[5]。例如,针对语速计算范围是K[2]的情况,总 规则音素长度计算部41e计算出总规则音素长度R为R[2],其是相应规 则音素长度Ri到Rs的总和(参见图3)。总规则音素长度计算部41e将 计算出的规则音素长度R[n]输出至规则语速计算部41f。
规则语速计算部41f针对规则韵律信息中的修改部分中的要修改的 音素计算出语速SR,作为每秒钟发声的短音节数。更具体地说,规则语 速计算部41f采用通过将从总规则音素长度计算部41e输出的总规则音素 长度除以从短音节计数部41b输出的短音节总数所获取的值的倒数,由 此,计算出规则韵律信息的语速SR。在当前实施方式中,规则语速计算 部41f针对总规则音素长度R[1]、 R[2]、 R[3]、 R[4]以及R[5]分别计算语 速Sr[I]、 Sr[2]、 Sr[3]、 Sr[4]以及Sr[5]。例如,针对总规则音素长度是 R[2]的情况,规则语速计算部41f计算出语速SR[2]为3/R[2]。规则语速 计算部41f将计算出的语速SR[n]输出至语速比计算部41g。
语速比计算部41g计算从规则语速计算部41f输出的语速Sr[h]与从 真实话音语速计算部41d输出的语速Sv[n]之间的比率,作为语速比H'[n]。 更具体地说,语速比计算部41g计算出语速Sv[n]与语速SR[n]之比,作为 语速比H'[n]。换句话说,语速比H'[n]是Sv[n]/SR[n]。在当前实施方式中, 语速比计算部41g计算出语速比H'[l]为SV[1]/SR[1]、 H'[2]为SV[2]/SR[2]、 H'[3]为SV[3]/SR[3]、 H'[4]为Sv[4]/Sr[4]以及H'[5]为SV[5]/SR[5]。语速比 计算部41g将计算出的语速比H'[n]输出至真实话音韵律修改部42。
真实话音韵律修改部42包括音素边界重置部42a。音素边界重置部 42a重置真实话音韵律信息的真实话音音素长度,以使修改部分中的每一个真实话音音素长度变为通过将修改部分中的每一个规则音素长度乘以
从语速比检测部41输出的语速比H'[n]的倒数所获取的各音素长度。在当 前实施方式中,音素边界重置部42a最初将图3所示相应规则音素长度 Ri到Rs分别乘以从语速比检测部41输出的语速比H'[l]到H'[5]。换句话 说,音素"A"的音素长度是IVH'[l],音素"m"的音素长度是R2/H'[2], 音素"E"的音素长度是R3/H'[3],音素"g"的音素长度是IVH'[4],而 音素"A"的音素长度是R5/H'[5]。音素边界重置部42a重置真实话音音 素边界k到L6,以使修改部分中的相应真实话音音素长度Vi到Vs分别 变为如上所述计算出的音素长度R4/H'[1]到R5/H'[5],由此,修改了真实 话音韵律信息。结果,修改了真实话音韵律提取部23错误地提取的韵律 信息。这是因为由于将用于实现与真实话音的节奏接近的节奏的语速比 H'应用到了统计学上恰当的规则韵律信息,所以将真实话音韵律信息修 改成整体接近于真实话音的节奏,同时修改了其局部韵律杂乱的缘故。 音素边界重置部42a将修改后的真实话音韵律信息输出至真实话音韵律 输出部36。
音素边界重置部42a可以通过获取利用语速比H'所修改的音素长度 Rn/H'[n]和从真实话音韵律输入部31输出的未修改的音素长度的任意加 权平均值,来获取各音素的最终音素长度。可以更多地加权修改后的音 素长度,以便确保更高的稳定性,或另选的是,可以更多地加权未修改 的音素长度,以便确保实际发声的节奏。按这种方式,可以获取希望的 修改结果。
接下来,参照图IO,对具有上述构造的韵律修改装置4的操作进行 说明。在图10中,示出和图7中的处理相同的处理的部分用相同标号指 示,并且省略了对其的详细说明。
图10是示出了韵律修改装置4的操作的实施例的流程图。图10所 示Op 1禾B Op 2中的操作和图7所示Op 1和Op 2中的操作相同。在图 10所示Op3中,除了规则韵律生成部34没有接收语速信息以外,执行 和图7所示Op4中的操作几乎相同的操作。由此,在图10所示Op3中,规则韵律生成部34生成与任意语速对应的规则韵律信息。
在Op 3之后,语速计算范围设置部41a针对Op 2中确定的修改部 分中的各音素设置由包括要修改的音素在内的一个或更多个音素或短音 节组成的语速计算范围(Opll)。短音节计数部41b对Op11中设置的语 速计算范围中包括的短音节总数进行计数(Opl2)。
接着,总真实话音音素长度计算部41c计算从真实话音韵律输入部 31输出的真实话音韵律信息中的在Op 11中设置的语速计算范围内的总 真实话音音素长度(Op 13)。真实话音语速计算部41d采用通过将Op 13 中计算出的总真实话音音素长度除以Op 12中计算出的短音节的总数所 获取的值的倒数,由此,计算真实话音韵律信息的语速Sv (Opl4)。
此后,总规则音素长度计算部41e计算Op3中生成的规则韵律信息 中的在Op 11中设置的语速计算范围内的总规则音素长度(Op 15)。规 则语速计算部41f采用通过将Op 15中计算出的总规则音素长度除以Op 12中计算出的短音节总数所获取的值的倒数,由此,计算出规则韵律信 息的语速SR (Op 16)。
此后,语速比计算部41g计算Op 14中计算出的语速Sy与Op 16中 计算出的语速SR之比作为语速比H' (Opl7)。音素边界重置部42a重置 真实话音韵律信息的真实话音音素边界,以使修改部分中的每一个真实 话音音素长度变为通过将修改部分中的每一个规则音素长度乘以Op 17 中计算出的语速比H'的倒数所获取的各音素长度,由此,修改真实话音 韵律信息(Opl8)。
接着,如果音素边界重置部42a完成针对修改部分中的真实话音韵 律信息中的所有音素的修改(Op 19中的是),则真实话音韵律输出部36 将Op 18中修改过的真实话音韵律信息输出至韵律修改装置4的外部(Op 20)。另一方面,如果音素边界重置部42a没有完成针对修改部分中的真 实话音韵律信息中的所有音素的修改(Op 19中的否),则处理返回至Op 11 ,跟着针对修改部分中的真实话音韵律信息中的未修改音素重复执行 的Opll到Opl8中的处理。
如上所述,根据当前实施方式中的韵律修改装置4,真实话音语速计算部41d基于相应音素的真实话音音素长度的总和与语速计算范围中 的音素或短音节的数量,针对语速计算范围中要修改的各音素计算真实 话音韵律信息的语速。而且,规则语速计算部41f基于相应音素的规则音 素长度的总和与语速计算范围中的音素或短音节的数量,针对语速计算 范围中要修改的各音素,计算规则韵律信息的语速。而且,语速比计算 部41g计算真实话音韵律信息的语速与规则韵律信息的语速之间的比率,
作为语速比。音素边界重置部42a基于修改部分中的各音素的规则音素 长度和计算出的语速比来计算修改后的音素长度,并且重置真实话音韵 律信息的真实话音音素长度,以使修改部分中的每一个真实话音音素长 度变为修改后的音素长度,由此,修改了真实话音韵律信息。按这种方 式,因为将语速比应用至局部恰当的规则音素长度,所以修改后的真实 话音韵律信息总体上接近于真实话音中的发声。换句话说,修改后的真 实话音韵律信息是其中因再现节奏而造成人真实话音趋于改变的韵律信 息。结果,可以修改从人类发声中错误提取的真实话音韵律信息而不会 减损人类真实话音的自然性和可表达性并且不会费时费力。 [实施方式3]
图11是示出了根据当前实施方式的韵律修改系统11的示意构造的 框图。根据当前实施方式的韵律修改系统11包括代替图1所示的韵律修 改装置3的韵律修改装置5。在图11中,具有和图1的组件的功能相同 的功能的组件用相同标号指示,并且省略了对其的详细说明。
在当前实施方式中,与实施方式1和2不同,为便于说明,假定真 实话音韵律提取部23提取表示"四万十川(shimantogawa)"的真实话音 韵律信息。图12是用于说明真实话音韵律提取部23提取的真实话音韵 律信息的各音素"sH"、 "1"、 "m"、 "A"、 "N"、 "t"、 "O"、 "g"、 "A"、 "w"以及"A"与各该音素的真实话音音素长度之间的关系的图形。在 图12所示示例中,假定确定音素"m"与"A"之间的边界的真实话音 音素边界被错误地设置成更大范围。因此,在图12所示示例中,音素"m" 的真实话音音素长度变得比实际真实话音音素长度长,而音素"A"的真 实话音音素长度变得比实际音素长度短。从而,如果利用图12所示的真实话音韵律信息生成合成语音,则该合成语音在音素"m"和"A"的部
分中韵律上不自然。
而且,在当前实施方式中,与实施方式1和2不同,为便于说明, 假定字符串输入部22接收表示"9 ^ >卜力'7 " ("shimantogawa")的字 符串,将接收到的字符串转换成字符串数据"sHImANtOgAwA",并且输 出获取的字符串数据。而且,在当前实施方式中,假定修改部分确定部 32基于从字符串输入部22输出的字符串数据"sHImANtOgAwA"确定 由H^—个音素"sH"、 "1"、 "m"、 "A"、 "N"、 "t"、 "O"、 "g"、 "A"、 "w" 以及"A"组成的修改部分。因此,在当前实施方式中,规则韵律生成部 34生成表示"四万十川"规则韵律信息。图13是用于说明规则韵律生成 部34生成的规则韵律信息的各音素"sH"、 "1"、 "m"、 "A"、 "N"、 "t"、 "0"、 "g"、 "A"、 "w"以及"A"与各该音素的规则音素长度之间的关 系的图形。虽然图13所示的规则韵律信息是统计学上恰当的韵律信息, 但与图12所示真实话音韵律信息相比,这种信息表达不足(节奏变化较 少)。
韵律修改装置5包括代替图1所示的语速检测部33和真实话音韵律 修改部35的语速比检测部51和真实话音韵律修改部52。语速比检测部 51和真实话音韵律修改部52还可由计算机的CPU根据用于实现这些部 件的功能的程序进行的操作来实现。
语速比检测部51包括:音素长度比计算部51a、平滑范围设置部51b、 以及语速比计算部51c。
音素长度比设置部51a计算修改部分中的各音素的真实话音音素长 度与各该音素的规则音素长度之比,作为音素长度比。在当前实施方式 中,音素长度比计算部51a最初计算音素"sH"的真实话音音素长度与 该音素的规则音素长度之比,作为音素长度比。接着,音素长度比计算 部51a针对剩余音素"1"、 "m"、 "A"、 "N"、 "t"、 "O"、 "g"、 "A"、 "w" 以及"A"重复这种操作。按这种方式,音素长度比计算部51a计算出各 音素的音素长度比。图14是用于说明各音素"sH"、"I"、"m"、"A"、"N"、"t"、 "0"、 "g"、 "A"、 "w"以及"A"与各该音素的音素长度比之间的 关系的图形。音素长度比计算部51a将计算出的各音素长度比输出至平 滑范围设置部51b和语速比计算部51c。平滑范围设置部51b设置平滑范围,g卩,针对音素长度比计算部51a 计算出的各音素长度比进行平滑以计算语速比的范围。在当前实施方式 中,假定平滑范围设置部51b将包括其中央处的任意音素的五个音素设 置为平滑范围。平滑范围设置部51b将设置的平滑范围输出至语速比计 算部51c。优选的是,平滑范围设置部51b根据音素的环境动态地改变平滑范 围的设置。例如,平滑范围设置部51b针对很可能被错误地提取的真实 话音韵律信息的部分(如连续发出元音声的部分)中的音素将平滑范围 设置成更宽,而针对不太可能被错误地提取的真实话音韵律信息的部分 (如包括发话音与非发话音之间的许多边界的部分)中的音素将平滑范 围设置成更窄。结果,变得可以针对不太可能错误地提取真实话音韵律 信息的部分更重视真实话音地计算语速,而针对很可能错误地提取的真 实话音韵律信息的部分计算更稳定的语速。由此,变得可以计算接近于 真实话音的节奏的语速,并且整体上稳定。平滑范围设置部51b可以包括检测音素长度比的变化的变化检测 部。这里,变化检测部检测长度比计算部51a计算出的各音素长度比中 音素长度比急剧地变大或变小的部分。结果,平滑范围设置部51b可以 针对音素长度比急剧地改变的音素将平滑范围设置成更宽。在这种情况 下,例如,平滑范围设置部51b可以计算检测到的音素长度比的不同值, 以设置与计算出的不同值成比例的值,作为平滑范围。针对修改部分中的各音素的音素长度比,语速比计算部51c在平滑 范围设置部51b设置的平滑范围中平滑各音素长度比,并且计算平滑结 果,作为语速比。在当前实施方式中,语速比计算部51c计算平滑范围 中的相应音素的音素长度比的平均值,由此,计算出语速比。语速比计 算部51c可以计算平滑范围中的相应音素的音素长度比的加权平均值。 例如,语速比计算部51c针对很可能错误地提取的真实话音韵律信息的音素,通过将较小的权值分配给该音素的音素长度比,并且针对不太可 能错误地提取真实话音韵律信息的音素,通过将较大权值分配给该音素 的音素长度比,来计算平滑范围内的相应音素的音素长度比的平均值。图15是用于说明各音素"sH"、 "1"、 "m"、 "A"、 "N"、 "t"、 "0"、 "g"、 "A"、 "w"以及"A"与通过平滑所获取的各该音素的语速比之间的关 系的图形(应注意到,图15的图形表示每一个语速比的倒数)。语速计 算部51c将通过平滑所获取的语速比输出至真实话音韵律修改部52。真实话音韵律修改部52包括音素边界重置部52a。音素边界重置部 52a重置真实话音韵律信息的真实话音音素边界,以使修改部分中的各音 素的真实话音音素长度变为通过将修改部分中的各规则音素长度乘以从 语速比计算部51c输出的各音素的语速比的倒数所获取的各音素的音素 长度,由此,修改了真实话音韵律信息。在当前实施方式中,音素边界 重置部52a最初地将图13所示各音素的规则音素长度乘以图15所示各 音素的语速比的倒数。结果,计算出了各音素的修改后的音素长度。音 素边界重置部52a重置真实话音音素边界,以使图12所示的各音素的真 实话音音素长度变为最近计算出的各音素的修改后的音素长度,由此, 修改真实话音韵律信息。图16是用于说明各音素"sH"、 "1"、 "m"、 "A"、 "N"、 "t"、 "O"、 "g"、 "A"、 "w"以及"A"与该音素的修改真实话音 音素长度之间的关系的图形。换句话说,图16所示真实话音韵律信息是 修改图12所示的错误地提取的韵律信息的结果。这是因为将通过平滑所 获取的语速比应用至统计学上恰当的规则韵律信息的缘故。音素边界重 置部52a将修改的真实话音韵律信息输出至真实话音韵律输出部36。 [韵律修改装置的操作]接下来,参照图17,对具有上述构造的韵律修改装置5的操作进行 说明。在图17中,示出了和图7的处理相同的处理的部分用相同标号指 示,并且省略了对其的详细说明。图17是示出了韵律修改装置5的操作的实施例的流程图。图17所 示Op 1禾B Op 2中的操作和图7所示Op 1和Op 2中的操作相同。在图 17所示Op3中,除了规则韵律生成部34没有接收语速信息以外,执行和图7所示Op4中的操作几乎相同的操作。由此,在图17所示Op3中, 规则韵律生成部34生成与任意语速对应的规则韵律信息。在Op3之后,音素长度比计算部51a计算修改部分中的各音素的真 实话音音素长度与规则音素长度之比,作为音素长度比(Op 21)。平滑 范围设置部51b设置平滑范围,gp,针对Op 21中计算出的各音素的音 素长度比进行平滑以计算语速比的范围(Op22)。接着,针对修改部分中的各音素的音素长度比,语速比计算部51c 在Op 22中设置的平滑范围内,平滑各音素的音素长度比,并且计算平 滑结果,作为语速比(Op 23)。音素边界重置部52a重置真实话音韵律 信息的真实话音音素边界,以使修改部分中的各音素的真实话音音素长 度变为通过将修改部分中的各规则音素长度乘以Op 23中计算出的各音 素的语速比的倒数所获取的各音素的修改后的音素长度,由此,修改了 真实话音韵律信息(Op 24)。真实话音韵律输出部36将Op 24中修改的 真实话音韵律信息输出至真实话音韵律修改装置5的外部(Op 25)。在 图17中,可以针对修改部分中的各音素重复Op22到Op24中的处理。如上所述,根据当前实施方式的韵律修改装置5,音素长度比计算 部51a计算真实话音音素边界确定的各音素的真实话音音素长度与规则 音素边界确定的各音素的规则音素长度之比,作为修改部分中的各音素 的音素长度比。语速比计算部51c平滑计算出的各音素长度比,由此, 计算出真实话音韵律信息的语速与规则韵律信息的语速之间的比率,作 为语速比。音素边界重置部52a基于规则韵律信息中的各音素的规则音 素长度和计算出的修改部分中的语速比来计算修改后的音素长度,并且 重置真实话音韵律信息的真实话音音素边界,以使修改部分中的各真实 话音音素长度变为修改后的音素长度,由此,修改了真实话音韵律信息。 按这种方式,因为将语速比应用至局部恰当的规则音素长度,所以修改 后的真实话音韵律信息总体上接近于真实话音中的发声。换句话说,修 改后的真实话音韵律信息是其中因再现节奏而造成人类真实话音趋于改 变的韵律信息。结果,可以修改从人类发声中错误地提取的真实话音韵 律信息而不会减损人类真实话音的自然性和可表达性并且不会费时费力。[实施方式4]图18是示出了根据当前实施方式的韵律修改系统12的示意构造的 框图。根据当前实施方式的韵律修改系统12包括代替图9所示的韵律修 改装置4的韵律修改装置6。在图18中,具有和图9中的组件的功能相 同的功能的组件用相同标号指示,并且省略了对其的详细说明。而且, 参照图18所示语速比检测部14,其构成组件41a到41g中的每一个都未 示出。参照图18所示的真实话音韵律修改部42,未示出音素边界重置部 42a。韵律修改装置6除了图9所示的韵律修改装置4的组件以外,还包 括真实话音韵律存储部61和会聚判断部62。会聚判断部62还可由计算 机的CPU根据用于实现该部件的功能的程序进行操作来实现。真实话音韵律存储部61存储真实话音韵律输入部31接收到的真实 话音韵律信息或真实话音韵律修改部42修改后的真实话音韵律信息。真 实话音韵律存储部61最初存储从真实话音韵律输入部31输出的真实话 音韵律信息。会聚判断部62判断从真实话音韵律修改部42输出的真实话音韵律 信息的真实话音音素长度与存储在真实话音韵律存储部61中的未修改真 实话音韵律信息的真实话音音素长度之差是否不小于阈值。例如,会聚判断部62对单独真实话音音素长度的差进行求和,并且判断其总和是否 不小于阈值。另选的是,例如,会聚判断部62采用针对单独真实话音音 素长度的差中的最大差,作为代表值,并且判断该代表值是否不小于阈 值。如果该差不小于阈值,则会聚判断部62将从真实话音韵律修改部42 输出的真实话音韵律信息写入真实韵律存储部61中。结果,将经真实话 音韵律修改部42修改的真实话音韵律信息最新地存储在真实话音韵律存 储部61中。在这种情况下,会聚判断部62指令语速比检测部41再次计 算语速比。而且,会聚判断部62指令真实话音韵律修改部42再次修改 存储在真实话音韵律存储部61中的真实话音韵律信息。这时,会聚判断 部62可以将差的结果输出至修改部分确定部32,并且修改部分确定部32仅可以确定大的差的范围,作为新的修改部分。结果,仅主要错误部 分可以被考虑修改。当接收到来自会聚判断部62的指令时,语速比检测部41读出存储 在真实话音韵律存储部16中的真实话音韵律信息,并且计算修改部分中 的新的语速比。真实话音韵律修改部42在接收到来自会聚判断部62的 指令时,读出存储在真实话音韵律存储部61中的真实话音韵律信息,并 且利用语速比检测部41计算出的新的语速比来修改真实话音韵律信息。另一方面,如果所述差小于所述阈值,则会聚判断部62将从真实话 音韵律修改部42输出的真实话音韵律信息输出至真实话音韵律输出部 36。所述阈值被预先记录在设置在会聚判断部62中的存储器中,而其不 限于此。例如,该阈值可以被韵律修改系统12的管理者被设置为恰当的。 另选的是,该阈值可以根据音素串改变。如上所述,根据当前实施方式的韵律修改装置6,会聚判断部62判 断真实话音韵律修改部42修改的真实话音韵律信息的真实话音音素长度 与存储在真实话音韵律存储部61中的未修改真实话音韵律信息的真实话 音音素长度之差是否不小于阈值。如果该差不小于该阈值,则会聚判断 部62将经真实话音韵律修改部42修改的真实话音韵律信息写入真实话 音韵律存储部62中,并且指令真实话音韵律修改部42修改该真实话音 韵律信息。另一方面,如果该差小于该阈值,则会聚判断部62输出经真 实话音韵律修改部42修改的真实话音韵律信息。结果,会聚判断部62可以输出其中真实话音音素边界更接近于实际真实话音音素边界的真实 话音韵律信息。在上述实施例中,会聚判断部62判断从真实话音韵律修改部42输 出的真实话音韵律信息的真实话音音素长度与存储在真实话音韵律存储 部61中的未修改真实话音韵律信息的真实话音音素长度之差是否不小于 阈值,但并不限于此。例如,会聚判断部62可以判断从真实话音韵律修 改部42输出的真实话音韵律信息的真实话音音素长度与规则韵律生成部 44生成的规则音韵律信息的规则音素长度之差是否不小于阈值。这允许 会聚判断部62输出其中真实话音音素边界更接近于规则音素边界的真实话音韵律信息。而且,在上述实施例中,图18所示的韵律修改装置6除了图9所示 韵律修改装置4的组件以外,还包括真实话音韵律存储部61和会聚判断部62,但并不限于此。S卩,除了图11所示韵律修改装置5的组件以外, 还还可以将包括真实话音韵律存储部和会聚判断部的韵律修改装置应用 至当前实施方式。 [实施方式5]图19是示出了根据当前实施方式的韵律修改系统13的示意构造的 框图。根据当前实施方式的韵律修改系统13除了图1所示韵律修改系统 1的组件以外还包括GUI (图形用户接口)装置7和语音合成器8。在图 19中,具有和图1中的组件的功能相同的功能的组件用相同标号指示, 并且省略了对其的详细说明。而且,参照图19所示韵律修改装置3,其 构成组件32到36中的每一个都未示出。GUI装置7和语音合成器8可 以设置在图5所示韵律修改系统la、图6所示韵律修改系统lb、图9所 示韵律修改系统10、图11所示韵律修改系统11以及图18所示韵律修改 系统12中的任一个中。与实施方式1到4不同,在当前实施方式中,假定真实话音韵律提 取部23从发声输入部21输出的语音数据中除了关于节奏的真实话音韵 律信息以外还提取了关于话音音调、语调等的真实话音韵律信息。GUI装置7允许韵律修改系统13的管理者编辑从韵律修改装置3输 出的真实话音韵律信息。为此,GUI装置7向管理者提供显示真实话音 韵律信息的用户接口功能,并且允许管理者操作诸如鼠标器和键盘的指 示装置。图20是示出了 GUI装置7的显示画面的示例的概念图。如图 20所示,GUI装置7的显示画面包括真实话音波形显示部71、音调模 式显示部72、合成波形显示部73、发声内容输入部74、读取假名(日语 音标)输入部75、以及操作部76。 GUI装置7除了允许管理者编辑从韵 律修改装置3输出的真实话音韵律信息以外,还可以允许管理者编辑真 实话音韵律提取部23提取的真实话音韵律信息。真实话音波形显示部71显示输入至发声输入部21的语音的波形信息和关于经韵律修改装置3修改的节奏的真实话音韵律信息。更具体地 说,真实话音波形显示部71以语音波形的形式显示语音数据,语音波形 上显示有音素边界和对应音素类型。在图20所示的示例中,真实话音波形显示部71显示音素"kY"、 "0-"、 "w"、 "A"、 "h"、 "A"、 "r"、 "E"、 "d"、 "E"、 "s"以及"u",和韵律修改装置3重置的相应真实话音音素 边界。而且,真实话音波形显示部71以可以区别其它真实话音音素边界 的方式,显示真实话音音素边界,针对该真实话音音素边界,经韵律修 改装置3修改的真实话音韵律信息的真实话音音素边界与未修改的真实 话音韵律信息的真实话音音素边界之差大于阈值。例如,真实话音波形显示部71使用不同颜色用于真实话音音素边界,或另选的是,允许真实 话音音素边界闪烁。在图20所示的示例中,因为针对音素"r"与"E" 之间的真实话音音素边界和音素"E"与"d"之间的真实话音音素边界 的差大于阈值,所以真实话音波形显示部71允许这些真实话音音素边界 闪烁(图20中虚线所示),以使它们可以与其它真实话音音素边界区别。 在当前实施方式中,真实话音波形实现部71允许管理者利用指示装置进 行操作来移动显示的真实话音音素边界,以使得可以重置真实话音音素 边界。音调模式显示部72显示有关于从韵律修改装置3输出的话音音调的 真实话音韵律信息。更具体地说,音调模式显示部72显示音调模式(基 础频率)。音调模式是表示话音音调或语调的随着时间的变化的时间序列 数据。在图20所示示例中,音调模式显示部72显示利用标记o表示的 控制点,和通过连接控制点获取的音调模式。在当前实施方式中,音调 模式显示部72允许管理者利用指示装置进行操作来移动音调模式或控制 点,以可以重置音调模式或控制点。例如,针对移动控制点的情况,管 理者例如使鼠标器的指针接触要移动的控制点,向上或向下移动(拖拉) 接触位置(指示位置),并且落在希望位置处,由此,在希望位置处设置 该控制点。在这种情况下,自动修正控制点之间的音调模式。优选的是, 音调模式显示部72以在光谱图上叠加的这种方式来显示音调模式。合成波形显示部73显示基于从韵律修改装置3输出的真实话音韵律信息所生成的合成语音的波形。在图20所示的示例中,合成波形显示部73显示合成语音的波形、音素"kY"、 "O画"、"w"、 "A"、 "h"、 "A"、 "r"、 "E"、 "d"、 "E"、 "s"以及"u"、韵律修改装置3重置的相应真实话音 音素边界、以及真实话音波形显示部71重置的相应真实话音音素边界。发声内容输入部74允许管理者按混合汉语字符和日语假名表字符 的方式输入表示和人类发出的真实话音的内容相同的内容的字符串。在 图20所示的示例中,发声内容输入部74允许管理者输入"今日〖i晴扎 e t " ("kyo-waharedesu")。读取假名输入部75允许管理者按方日语字符将输入的字符串的读 取假名输入发声内容输入部74。在图20所示的示例中,读取假名输入部 75允许管理者输入"* 3 一 7 7八k于"》"。操作部76包括录音按钮76a、文本文件阅读按钮76b、真实话音 韵律提取按钮76c、播放按钮76d、语音文件指定按钮76e、读取假名阅 读按钮76f、韵律修改按钮76g、以及停止按钮76h。录音按钮76a被设置用于对人类发出的真实话音进行录音。文本文 件阅读按钮76b被设置用于阅读预先制备的字符串文本文件。真实话音 韵律提取按钮76c被设置用于指令真实话音韵律提取部23提取真实话音 韵律信息。播放按钮76d被设置用于播放向发声输入部21输入的语音数 据或基于从韵律修改装置3输出的真实话音韵律信息所生成的合成语音 数据。语音文件指定按钮76e被设置用于指定预先制备的语音数据的文 件。读取假名阅读按钮76f被设置用于阅读预先制备的读取假名的文本文 件。真实话音韵律修改按钮76g被设置用于指令韵律修改装置3修改真 实话音韵律信息。停止按钮76h被设置用于停止播放合成语音数据。语音合成器8具有输出(播放)从GUI装置7输出的合成语音的功 能。为此,语音合成器8包括扬声器等。语音合成器8播放基于真实话 音韵律提取部23提取的真实话音韵律信息所生成的合成语音数据、基于 经韵律修改装置3修改的真实话音韵律信息所生成的合成语音数据,以 及基于经GUI装置7编辑的真实话音韵律信息所生成的合成语音数据。 结果,管理者可以通过收听其来比较相应合成语音。如上所述,根据当前实施方式的韵律修改系统13, GUI装置7允许编辑经韵律修改装置3修改的真实话音韵律信息。因为GUI装置7编辑 经韵律修改装置3修改的真实话音韵律信息,所以管理者例如可以针对 真实话音韵律信息进行精细调节。如上所述,作为包括接收从人类发声中提取的真实话音韵律信息的 真实话音韵律输入部和修改该真实话音韵律输入部接收到的该真实话音 韵律信息的真实话音韵律修改部的韵律修改装置、韵律修改方法或存储 有韵律修改程序的记录介质,本发明是有用的。在不脱离本发明的精神或基本特征的情况下,可以以其它形式对本 发明进行具体实施。本申请中公开的实施方式在所有方面都是例示性而 非限制性的。本发明的范围通过所附权利要求而非前述说明来指示,并 且落入本权利要求的等同含义和范围内的全部改变都被涵盖于此。
权利要求
1、一种韵律修改装置,该韵律修改装置包括真实话音韵律输入部,该真实话音韵律输入部接收从人类发声中提取的真实话音韵律信息;规则韵律生成部,该规则韵律生成部针对所述真实话音韵律信息中的至少包括要修改的音素或音素串的部分,利用表示人类发声中的规则的或统计出的音素长度的数据来生成规则韵律信息,该规则韵律信息具有确定音素之间的边界的规则音素边界和音素的规则音素长度;以及真实话音韵律修改部,该真实话音韵律修改部利用所述规则韵律生成部生成的所述规则韵律信息,重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的真实话音音素边界,以使所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界和真实话音音素长度接近于所述人类发声的实际音素边界和实际音素长度,由此,修改了所述真实话音韵律信息。
2、 根据权利要求l所述的韵律修改装置,所述韵律修改装置还包括 修改部分确定部,该修改部分确定部基于所述真实话音韵律信息的音素 串类型或所述真实话音音素边界确定的各音素的所述真实话音音素长度 来确定所述真实话音韵律信息中的包括要修改的所述音素或所述音素串 的所述部分。
3、 根据权利要求l所述的韵律修改装置,其中,所述真实话音韵律 修改部包括音素边界重置部,该音素边界重置部基于在包含要修改的所 述音素或所述音素串的所述部分中由所述规则音素边界确定的各音素的 规则音素长度比来重置所述真实话音韵律信息中的要修改的所述音素或 所述音素串的所述真实话音音素边界,由此修改所述真实话音韵律信息。
4、 根据权利要求1所述的韵律修改装置,其中,所述真实话音韵律 修改部包括音素边界重置部,该音素边界重置部基于所述规则韵律信息 的各音素的所述规则音素长度和作为包括要修改的所述音素或所述音素 串的所述部分中的所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比率的语速比,来重置所述真实话音韵律信息中的要修改的 所述音素或所述音素串的所述真实话音音素边界,由此修改所述真实话 音韵律信息。
5、 根据权利要求4所述的韵律修改装置,所述韵律修改装置还包括语速比检测部,该语速比检测部在语速计算范围内,基于所述真实话音 音素边界确定的各音素的真实话音音素长度的总和与所述语速计算范围 中的音素或短音节的数量来计算要修改的所述音素的所述真实话音韵律 信息的语速,并且基于所述规则音素边界确定的各音素的所述规则音素 长度的总和与所述语速计算范围内的音素或短音节的数量来计算要修改 的所述音素的所述规则韵律信息的语速,并计算所述真实话音韵律信息 的语速与所述规则韵律信息的语速之间的比率,作为所述语速比,其中 所述语速计算范围由至少一个或更多个音素或短音节组成并且包括真实 话音韵律信息中的要修改的所述音素,其中,所述音素边界重置部基于所述规则韵律信息中的各所述音素 的所述规则音素长度和所述语速比检测部计算出的所述语速比来计算包 括要修改的音素或所述音素串的所述部分中的修改后的音素长度,并且 重置所述真实话音韵律信息的所述真实话音音素边界,以使所述部分中 的每一个真实话音音素长度变为修改后的音素长度,由此,修改所述真实话音韵律信息。
6、 根据权利要求4所述的韵律修改装置,所述韵律修改装置还包括音素长度比计算部,该音素长度比计算部计算所述真实话音音素边 界确定的各音素的所述真实话音音素长度与所述规则音素边界确定的所 述音素的所述规则音素长度之间的比率,作为所述真实话音韵律信息中 的包括要修改的所述音素或所述音素串的所述部分中的所述音素的音素长度比;禾口语速比计算部,该语速比计算部平滑所音素长度比计算部计算出的 所述音素长度比,由此,计算所述真实话音韵律信息的语速与所述规则 韵律信息的语速之间的比率,作为所述语速比,其中,所述音素边界重置部基于所述规则韵律信息中的所述音素的所述规则音素长度和所述语速比计算部计算出的所述语速比来计算包括 要修改的音素或音素串的所述部分中的修改后的音素长度,并且重置所 述真实话音韵律信息的所述真实话音音素边界,以使所述部分中的各真 实话音音素长度变为所述修改后的音素长度,由此修改所述真实话音韵 律信息。
7、 根据权利要求1所述的韵律修改装置,所述韵律修改装置包括 真实话音韵律存储部,该真实话音韵律存储部存储所述真实话音韵律输入部接收到的所述真实话音韵律信息或经所述真实话音韵律修改部 修改的所述真实话音韵律信息;和会聚判断部,该会聚判断部在经所述真实话音韵律修改部修改的所 述真实话音韵律信息的所述真实话音音素长度与所述真实话音韵律存储 部中存储的未修改的所述真实话音韵律信息的所述真实话音音素长度之 差不小于阈值时,在所述真实话音韵律存储部中写入所述真实话音韵律 修改部修改的所述真实话音韵律信息并指令所述真实话音韵律修改部修 改所述真实话音韵律信息,并且在经所述真实话音韵律修改部修改的所 述真实话音韵律信息的所述真实话音音素长度与所述真实话音韵律存储 部中存储的未修改的所述真实话音韵律信息的所述真实话音音素长度之 差小于所述阈值时,输出经所述真实话音韵律修改部修改的所述真实话 音韵律信息。
8、 一种GUI装置,该GUI装置允许编辑经根据权利要求1所述的 韵律修改装置修改的所述真实话音韵律信息。
9、 一种语音合成器,该语音合成器输出基于经根据权利要求1所述 的韵律修改装置修改的所述真实话音韵律信息所生成的合成语音。
10、 一种语音合成器,该语音合成器输出基于根据权利要求8所述 的GUI装置编辑的所述真实话音韵律信息所生成的合成语音。
11、 一种韵律修改方法,该韵律修改方法包括以下步骤真实话音韵律输入操作步骤,在该真实话音韵律输入操作步骤中, 设置在计算机中的真实话音韵律输入部接收从人类发声中提取的真实话 音韵律信息;规则韵律生成操作步骤,在该规则韵律生成操作步骤中,设置在所 述计算机中的规则韵律输生成部针对所述真实话音韵律信息中的至少包 括要修改的音素或音素串在内的部分,利用表示人类发声中的规则的或 统计出的音素长度的数据来生成规则韵律信息,该规则韵律信息具有音 素的规则音素长度和确定音素之间的边界的规则音素边界;以及真实话音韵律修改操作步骤,在该真实话音韵律修改操作步骤中, 设置在所述计算机中的真实话音韵律修改部利用在所述规则韵律生成操 作步骤中生成的所述规则韵律信息,重置所述真实话音韵律信息中的要 修改的所述音素或所述音素串的真实话音音素边界,以使所述真实话音 韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界 和真实话音音素长度接近于所述人类发声的实际音素边界和实际音素长 度,由此修改所述真实话音韵律信息。
12、 一种存储有韵律修改程序的记录介质,该韵律修改程序允许计 算机执行以下处理真实话音韵律输入处理,该真实话音韵律输入处理接收从人类发声中提取的真实话音韵律信息;规则韵律生成处理,该规则韵律生成处理针对所述真实话音韵律信 息中的至少包括要修改的音素或音素串在内的部分,利用表示人类发声 中的规则的或统计出的音素长度的数据来生成规则韵律信息,该规则韵 律信息具有音素的规则音素长度和用于确定音素之间的边界的规则音素 边界;以及真实话音韵律修改处理,该真实话音韵律修改处理利用在所述规则 韵律生成处理中生成的所述规则韵律信息,重置所述真实话音韵律信息 中的要修改的所述音素或所述音素串的真实话音音素边界,以使所述真 实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音 素边界和真实话音音素长度接近于所述人类发声的实际音素边界和实际 音素长度,由此修改所述真实话音韵律信息。
全文摘要
本发明涉及韵律修改装置和方法及存储有韵律修改程序的记录介质。该韵律修改装置包括真实话音韵律输入部,用于接收从人类发声中提取的真实话音韵律信息;规则韵律生成部,用于针对真实话音韵律信息中的至少包括要修改的音素或音素串的部分,利用表示人类发声中的规则的或统计出的音素长度的数据来生成规则韵律信息(其具有确定音素之间的边界的规则音素边界和音素的规则音素长度);以及真实话音韵律修改部,其利用生成的规则韵律信息,重置真实话音音素边界,以使真实话音韵律信息中的要修改的音素或音素串的真实话音音素边界和真实话音音素长度接近于人类发声的实际音素边界和实际音素长度,由此修改真实话音韵律信息。
文档编号G10L13/00GK101271688SQ20081008674
公开日2008年9月24日 申请日期2008年3月20日 优先权日2007年3月20日
发明者村濑健太郎, 片江伸之 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1