语音合成设备的制作方法

文档序号:2834764阅读:227来源:国知局
专利名称:语音合成设备的制作方法
技术领域
本发明涉及语音(speech)合成设备,尤其涉及能够产生情感上表达的合成声音(voice)的语音合成设备。
背景技术
在公知的语音合成设备中,给出文本或音标字母字符以产生相应的合成声音。
最近,例如,像宠物型的宠物机器人,有语音合成设备能够与用户说话的宠物机器人已经被提议了。
像另外一类宠物机器人,使用代表情感状态的情感模型并且根据情感模型代表的情感状态遵从/违反用户给的命令的宠物机器人已经被提议了。
如果可以依据情感模型改变合成声音的音调,那么可以输出依据情感的有音调的合成声音。这样,宠物机器人变得更有趣。

发明内容
考虑到前述情况,本发明的目的是根据情感状态通过产生具有可变音调的合成声音生成情感上表达的合成声音。
本发明的语音合成设备包括音调影响信息产生部件,用于在预定信息中,根据指示情感状态的外部提供的状态信息,产生用于影响合成声音的音调的音调影响信息;和语音合成部件,用于使用音调影响信息产生具有受控制的音调的合成声音。
本发明的语音合成方法包括在预定信息中,根据指示情感状态的外部提供的状态信息,产生用于影响合成声音的音调的音调影响信息的音调影响信息产生步骤;和使用音调影响信息产生具有受控制的音调的合成声音的语音合成步骤。
本发明的程序包括在预定信息中,根据指示情感状态的外部提供的状态信息,产生用于影响合成声音的音调的音调影响信息的音调影响信息产生步骤;和使用音调影响信息产生具有受控制的音调的合成声音的语音合成步骤。
本发明的记录介质具有有记录在其中的程序,该程序包括在预定信息中,根据指示情感状态的外部提供的状态信息,产生用于影响合成声音的音调的音调影响信息的音调影响信息产生步骤;和使用音调影响信息产生具有受控制的音调的合成声音的语音合成步骤。
根据本发明,在预定信息中,根据指示情感状态的外部提供的状态信息产生用于影响合成声音的音调的音调影响信息。使用音调影响信息产生具有受控制的音调的合成声音。


图1是显示应用了本发明的机器人实施例的外部构造的例子的透视图。
图2是显示机器人内部构造的例子的方框图。
图3是显示控制器10功能构造的例子的方框图。
图4是显示语音识别单元50A构造的例子的方框图。
图5是显示语音合成器55构造的例子的方框图。
图6是显示基于规则的合成器32构造的例子的方框图。
图7是描述由基于规则的合成器32执行的处理的流程图。
图8是显示波形发生器42构造的第一个例子的方框图。
图9是显示数据转换器44构造的第一个例子的方框图。
图10A是较高频率增强(emphasis)滤波器特性的图解。
图10B是较高频率抑制滤波器特性的图解。
图11是显示波形发生器42构造的第二个例子的方框图。
图12是显示数据转换器44构造的第二个例子的方框图。
图13是显示应用了本发明的计算机实施例的构造的例子的方框图。
具体实施例方式
图1示出应用了本发明的机器人实施例的外部构造的例子,并且图2示出同样实施例的电路构造的例子。
在这一实施例中,机器人有像狗一样四腿动物的形式。腿部单元3A,3B,3C和3D与身体单元2的前面,后面,左边和右边相连。同样,头部单元4和尾部单元5与身体单元2分别在前面和后面相连。
尾部单元5从在身体单元2顶部表面提供的基部单元5B延展,并且尾部单元5延展,以便以两个自由度弯曲或摇摆。
身体单元2包括在其中的用于控制整个机器人的控制器10,作为机器人电力源的电池11,以及包含电池传感器12和热传感器13的内部传感器单元14。
头部单元4在各自预定的位置拥有相当于“耳朵”的麦克风15,相当于“眼睛”的CCD(电荷偶合装置)摄像机16,相当于触觉接收器的触觉传感器17,和相当于“嘴”的扬声器18。同样,头部单元4拥有相当于嘴的下颚并且可以以一个自由度移动的下颚4A。下颚4A移动来张开/关闭机器人的嘴。
如图2所示,腿部单元3A到3D的关节,腿部单元3A到3D与身体单元2之间的关节,头部单元4与身体单元2之间的关节,头部单元4与下颚4A之间的关节,以及尾部单元5和身体单元2之间的关节分别拥有调节器3AA1到3AAk,3BA1到3BAk,3CA1到3CAk,3DA1到3DAk,4A1到4AL,5A1和5A2。
头部单元4的麦克风15收集包括用户语音的周围语音(声音),并把获取的语音信号发送到控制器10。CCD摄像机16捕捉周围环境的图像并把获取的图像信号发送到控制器10。
触觉传感器17被提供在,例如,头部单元4的顶部。触觉传感器17检测物理接触,例如用户的“轻拍”或“打击”施加的压力,并且把检测结果作为压力检测信号发送到控制器10。
身体单元2的电池传感器12检测剩余在电池11中的电力并把检测结果作为电池剩余电力检测信号发送到控制器10。热传感器13检测机器人中的热并把检测结果作为热检测信号发送到控制器10。
控制器10包括在其中的CPU(中央处理单元)10A,存储器10B等。CPU10A执行存储器10B中的控制程序,以执行不同的处理。
具体的,控制器10根据分别由扬声器15、CCD摄像机16、触觉传感器17、电池传感器12、和热传感器13提供的语音信号、图像信号、压力检测信号、电池剩余电力检测信号、和热检测信号,确定环境的特性,如用户是否给了命令,或者用户是否接近。
根据确定结果,控制器10确定要进行的随后动作。根据动作确定结果,控制器10在调节器3AA1到3AAk,3BA1到3BAk,3CA1到3CAk,3DA1到3DAk,4A1到4AL,5A1和5A2当中激活必要的单元。这引起头部单元4竖直地和水平地摇摆和下颚4A张开和关闭。而且,这引起尾部单元5移动并激活腿部单元3A到3D,以使得机器人行走。
随着环境需要,控制器10产生合成声音并将产生的声音提供到扬声器18输出声音。此外,控制器10引起提供在机器人“眼睛”位置的LED(发光二极管)(没有示出)打开、关闭、或者闪烁开和关。
因此,机器人被构造为根据周围状态等自主地行动。
图3示出图2所示的控制器10的功能构造的例子。图3所示的功能构造通过CPU10A执行储存在存储器10B中的控制程序来实现。
控制器10包括用于识别具体外部状态的传感器输入处理器50;用于积累传感器输入处理器50获取的识别结果和表达情感,本能和成长状态的模型储存单元51;用于根据传感器输入处理器50获取的识别结果确定随后动作的动作确定装置52;用于引起机器人根据动作确定装置52获取的确定结果实际执行动作的姿态变化装置53;用于驱动和控制调节器3AA1到5A1和5A2的控制装置54;以及用于产生合成声音的语音合成器55。
传感器输入处理器50根据由扬声器15、CCD摄像机16、触觉传感器17等提供的语音信号、图像信号、压力检测信号等,识别具体的外部状态,用户做的具体接近,和用户给的命令,并且通知模型存储单元51和动作确定装置52指示识别结果的状态识别信息。
更具体地,传感器输入处理器50包括语音识别单元50A。语音识别单元50A执行由扬声器15提供的语音信号的语音识别。语音识别单元50A把如“行走”,“下来”,“抓球”等的命令的语音识别结果作为状态识别信息报告给模型存储单元51和动作确定装置52。
传感器输入处理器50包括图像识别单元50B。图像识别单元50B使用由CCD摄像机16提供的图像信号执行图像识别处理。当图像识别单元50B作为结果检测到,例如,“一个红的圆的物体”或“一个与预定高度或更高的地面垂直的平面”时,图像识别单元50B把像“有一个球”或“有一堵墙”这样的图像识别结果作为状态识别信息报告给模型存储单元51和动作确定装置52。
此外,传感器输入处理器50包括压力处理器50C。压力处理器50C处理由触觉传感器17提供的压力检测信号。当压力处理器50C作为结果检测到在短时间内施加的超出预定阈值的压力时,压力处理器50C识别到机器人被“打(惩罚)”了。当压力处理器50C检测到在长时间内施加的降低到预定阈值以下的压力时,压力处理器50C识别到机器人被“轻拍(奖励)”了。压力处理器50C把识别结果作为状态识别信息报告给模型存储单元51和动作确定装置52。
模型存储单元51存储并管理分别用于表达情感、本能、和成长状态的情感模型、本能模型、和成长模型。
情感模型使用预定范围内的值(例如,-1.0到1.0)代表情感状态(程度),例如,“快乐”,“悲伤”,“愤怒”,和“享乐”。该值根据来自传感器输入处理器50、过去的时间等的状态识别信息而改变。本能模型用预定范围内的值代表愿望状态(程度)如“饿”,“睡觉”,“移动”等。该值根据来自传感器输入处理器50、过去的时间等的状态识别信息而改变。成长模型用预定范围内的值代表成长状态(程度)如“童年”,“青年”,“成年”,“老年”等。该值根据来自传感器输入处理器50、过去的时间等的状态识别信息而改变。
以这种方式,模型存储单元51把分别由情感模型,本能模型,和成长模型的值代表的情感、本能、和成长的状态作为状态信息输出到动作确定装置52。
状态识别信息由传感器输入处理器50提供到模型存储单元51。另外,指示机器人做的当前的或过去的动作的内容的动作信息,例如,“走了很长时间”由动作确定装置52提供到模型存储单元51。即使提供了同样的状态识别信息,模型存储单元51根据动作信息指示的机器人的动作产生不同的状态信息。
更具体地,例如,如果机器人向用户问好并且用户轻拍机器人的头,指示机器人向用户问好的动作信息和指示机器人被轻拍头部的状态识别信息被提供到模型存储单元51。在这种情况下,代表“快乐”的情感模型的值在模型存储单元51中增加。
相反的,如果机器人被轻拍头部同时执行特定的任务,指示机器人现在正执行任务的动作信息和指示机器人被轻拍头部的状态识别信息被提供到模型存储单元51。在这种情况下,代表“快乐”的情感模型的值在模型存储单元51中不变。
模型存储单元51通过参考状态识别信息和指示机器人做的当前或过去动作的动作信息,设定情感模型的值。这样,当用户轻拍机器人头部来挑逗机器人,而机器人正在执行特定任务时,防止情感中不自然的变化,如代表“快乐”的情感模型的值的增加。
如在情感模型中,模型存储单元51根据状态识别信息和动作信息增加或减少本能模型和成长模型的值。同样,模型存储单元51根据其他模型的值增加或减少情感模型、本能模型、或成长模型的值。
动作确定装置52根据由传感器输入处理器50提供的状态识别信息、由模型存储单元51提供的状态信息、过去的时间等确定随后的动作,并且把确定的动作的内容作为动作命令信息发送到姿态变化装置53。
具体的,动作确定装置52管理有限状态自动控制装置,在这个有限状态自动控制装置中,可能由机器人做的动作作为限定机器人动作的动作模型与状态联系起来。有限状态自动控制装置中如动作模型的状态根据来自传感器输入处理器50的状态识别信息、模型存储单元51中的情感模型、本能模型、或成长模型的值,过去的时间等,经历转变。动作确定装置52然后确定一个对应于转变后的状态的动作,作为随后动作。
如果动作确定装置52检测到预定的触发器,那么动作确定装置52就引起状态经历转变。换句话说,当对应于当前状态的动作被执行了预定长度的时间,当接收到预定的状态识别信息,或者当由模型存储单元51提供的状态信息指示的情感、本能、或成长的状态的值变得少于或等于预定阈值或者变得大于或等于预定阈值时,动作确定装置52引起状态经历转变。
如上所述,动作确定装置52不仅根据来自传感器输入处理器50的状态识别信息而且根据模型存储单元51中的情感模型、本能模型、和成长模型等的值引起动作模型中的状态经历转变。即使输入同样的状态识别信息,下一状态根据情感模型、本能模型和成长模型(状态信息)的值而不同。
结果,例如,当状态信息指示机器人“不生气”和“不饿”,并且当状态识别信息指示“一只手伸到机器人面前”时,动作确定装置52产生动作命令信息指导机器人“摇爪子”来响应有一只手伸到机器人面前。动作确定装置52把产生的动作命令发送到姿态变化装置53。
当状态信息指示机器人“不生气”和“饿”,并且当状态识别信息指示“一只手伸到机器人面前”时,动作确定装置52产生动作命令信息指导机器人“舔手”来响应有一只手伸到机器人面前。动作确定装置52把产生的动作命令发送到姿态变化装置53。
例如,当状态信息指示机器人“生气”,并且当状态识别信息指示“一只手伸到机器人面前”时,动作确定装置52产生动作命令信息指导机器人“转过头去”而不顾状态信息指示机器人是“饿”或“不饿”。动作确定装置52把产生的动作命令发送到姿态变化装置53。
动作确定装置52可以确定行走速度,腿移动的幅度和速度等,这些是根据由从模型存储单元51提供的状态信息指示的情感、本能、和成长的状态,对应于下一状态的动作参数。在这种情况下,包含这些参数的动作命令信息被发送到姿态变化装置53。
如上所述,动作确定装置52不仅产生指导机器人活动它的头和腿的动作命令信息,而且产生指导机器人说话的动作命令信息。指导机器人说话的动作命令信息被提供到语音合成器55。被提供到语音合成器55的动作命令信息包括对应于要由语音合成器55产生的合成声音的文本。响应于来自动作确定装置52的动作命令信息,语音合成器55根据包含在动作命令信息中的文本产生合成声音。该合成声音被提供到扬声器18并从扬声器18输出。这样,扬声器18输出机器人的声音,对用户不同的请求如“我饿了”,响应于用户口头接触的回答如“什么 ”,以及其他语音。状态信息要从模型存储单元51提供到语音合成器55。语音合成器55可以根据这一状态信息代表的情感状态产生音调受控制的合成声音。另外,语音合成器55可以根据情感、本能、和成长的状态产生音调-控制的合成声音。
姿态变化装置53根据由动作确定装置52提供的动作命令信息产生用于引起机器人从当前姿态移动到下一姿态的姿态变化信息,并把姿态变化信息发送到控制装置54。
根据身体和腿的形状、重量、机器人的物理形状如各部分间的连接状态、和调节器3AA1到5A1和5A2的机械装置如弯曲方向和关节的角度,确定当前状态可以变化到的下一状态。
下一状态包括当前状态可以直接变化到的状态和当前状态不能直接变化到的状态。例如,虽然四腿机器人可以直接从机器人伸开它的腿的躺着的状态变化到坐着的状态,但是机器人不能直接变到站立的状态。要求机器人执行两步的动作。第一,机器人的四肢拉向身体地躺在地面上,然后机器人站立起来。另外,有一些机器人不能可靠地假定的姿态。例如,如果当前正处于站立姿态的四腿机器人试图收起它的前爪,那么机器人容易摔倒。
姿态变化装置53提前存储机器人可以直接变化到的姿态。如果由动作确定装置52提供的动作命令信息指示机器人可以直接变化到的姿态,那么姿态变化装置53把动作命令信息作为姿态变化信息发送到控制装置54。相反地,如果动作命令信息指示机器人不能直接变化到的姿态,姿态变化装置53产生引起机器人先假定一个机器人可以直接变化到的姿态,然后再假定一个目标姿态的姿态变化信息,并且把姿态变化信息发送到控制装置54。因此,防止机器人强迫自己假定不可能的姿态或者防止其摔倒。
控制装置54依据由姿态变化装置53提供的姿态变化信息产生用于驱动调节器3AA1到5A1和5A2的控制信号,并把控制信号传送到调节器3AA1到5A1和5A2。所以,依据控制信号驱动调节器3AA1到5A1和5A2,并且因此,机器人自主地执行动作。
图4示出图3中所示的语音识别单元50A的构造的例子。
来自麦克风15的语音信号被提供到AD(模拟数字)变换器21。AD变换器21对由麦克风15提供的模拟信号的语音信号取样,并量化取样的语音信号,从而把该信号AD-变换为是数字信号的语音数据。该语音数据被提供到特征提取单元22和语音部分检测器27。
特征提取单元22执行,例如,语音数据的MFCC(Mel频率倒频谱系数)分析,它是以适当帧为单位输入进去,然后把作为分析结果获取的MFCCs作为特征参数(特征向量)输出到匹配单元23。另外,特征提取单元22可以提取,如特征参数、线性预测系数、倒频谱系数、线频谱对、和在每个预定频率带中的能量(滤波器存储体的输出)。
使用从特征提取单元22提供的特征参数,匹配单元23根据,例如,连续分布的HMM(隐藏的马尔可夫模型)方法通过必要时参考声学模型存储单元24、字典存储单元25、和语法存储单元26,执行输入到麦克风15的语音(输入的语音)的语音识别。
具体的,声学模型存储单元24以经受语音识别的语音语言存储指示每个音素或每个音节的声学特征的声学模型。例如,根据连续分布的HMM方法执行语音识别。HMM(隐藏的马尔可夫模型)被用作声学模型。字典存储单元25存储包含关于要被识别的每个字的发音的信息(音素信息)的词语字典。语法存储单元26存储描述注册在字典存储单元25的词语字典中的字是如何被连接起来的(链接的)语法规则。例如,无上下文语法(CFG)或根据统计的字连接概率(N-gram)的规则可以被用作语法规则。
匹配单元23参考字典存储单元25的词语字典,以连接存储在声学模型存储单元24中的声学模型,这样形成一个字的声学模型(字模型)。匹配单元23也参考存储在语法存储单元26中的语法规则来连接几个字模型,并且通过使用连续分布的HMM方法根据特征参数使用连接的字模型来识别经麦克风15输入的语音。换句话说,匹配单元23检测具有正被观察的时间序列特征参数的最高得分(可能性)的一序列字模型,这一序列字模型由特征提取单元22输出。匹配单元23把音素信息(发音)输出在对应于字模型的序列的字符串上,作为语音识别结果。
更具体的,匹配单元23积累关于对应于连接的字模型的字符串发生的每个特征参数的概率,并且假定积累的值为一个得分。匹配单元23把音素信息输出在有最高得分的字串上,作为语音识别结果。
输入到麦克风15的语音的识别结果,如上面描述地被输出,作为状态识别信息输出到模型存储单元51和动作确定装置52。
关于来自AD变换器21的语音数据,语音部分检测器27计算出如在特征提取单元22执行的MFCC分析中每个帧的能量。此外,语音部分检测器27用一个预定的阈值比较每个帧中的能量,并且检测由拥有大于或等于阈值的能量的帧形成的部分,作为输入用户语音的语音部分。语音部分检测器27把被检测的语音部分提供到特征提取单元22和匹配单元23。特征提取单元22和匹配单元23仅执行语音部分的处理。语音部分检测器27执行的用于检测语音部分的检测方法不限于上面描述的能量与阈值比较的方法。
图5示出图3中所示的语音合成器55的构造的例子。
包括经受语音合成和从动作确定装置52输出的文本的动作命令信息被提供到文本分析器31。文本分析器31参考字典存储单元34和产生的语法存储单元35并且分析包含在动作命令信息中的文本。
具体的,字典存储单元34存储包含在每个字上的语音部分信息、发音信息、和重音信息的词语字典。产生的语法存储单元35存储关于包含在字典存储单元34的词语字典中的每个字的产生的例如字连接上的限制的语法规则。根据词语字典和产生的语法规则,文本分析器31执行例如形态学分析和解析造句法分析的输入文本的文本分析(语言分析)。文本分析器31提取对于基于规则的合成器32在随后的阶段执行的基于规则的语音合成必要的信息。基于规则的语音合成需要的信息包括,例如,用于控制停顿、重音、和语调的位置的韵律信息和指示每个字发音的音素信息。
文本分析器31获得的信息被提供到基于规则的合成器32。基于规则的合成器32参考语音信息存储单元36并在对应于输入到文本分析器31的文本的合成声音上产生语音数据(数字数据)。
具体的,语音信息存储单元36以CV(辅音和元音)、VCV、CVC、和如音高的波形数据的形式存储音素单元数据,作为语音信息。根据来自文本分析器31的信息,基于规则的合成器32把必要的音素单元数据连接起来并处理音素单元数据的波形,这样适当地添加了停顿、重音、和语调。因此,基于规则的合成器32为对应于输入到文本分析器31的文本的合成声音(合成的声音数据)产生语音数据。可选的,语音信息存储单元36把语音特征参数存储为语音信息,例如通过分析波形数据的声学获得的线性预测系数(LPC)和倒频谱系数。根据来自文本分析器31的信息,基于规则的合成器32使用必要的特征参数作为用于语音合成的合成滤波器的抽头(tap)系数,并且控制用于输出要提供到合成滤波器的驱动信号的声音源,这样适当地添加了停顿、重音、和语调。因此,基于规则的合成器32为对应于输入到文本分析器31的文本的合成声音(合成的声音数据)产生语音数据。此外,状态信息从模型存储单元51被提供到基于规则的合成器32。根据,例如,状态信息中情感模型的值,基于规则的合成器32产生用于控制来自储存在语音信息存储单元36中的语音信息的基于规则的语音合成的音调控制信息或不同的合成控制参数。因此,基于规则的合成器32产生音调控制的合成声音数据。
以上述方式产生的合成声音数据被提供到扬声器18,并且扬声器18输出对应于输入到文本分析器31的文本的合成声音,同时依据情感控制音调。
如上所述,图3所示的动作确定装置52根据动作模型确定随后的动作。要被作为合成声音输出的文本的内容可以与机器人做的动作联系起来。
具体的,例如,当机器人执行一个从坐的状态变化到站立的状态的动作时,文本“杭育(alley-oop)!”可以与该动作联系起来。在这种情况下,当机器人从坐的状态变化到站立的状态时,合成声音“杭育!”与姿态的变化同步地输出。
图6示出图5所示的基于规则的合成器32的构造的例子。
文本分析器31(图5)获得的文本分析结果被提供到韵律产生器41。韵律产生器41产生用于根据指示例如,停顿、重音、语调的位置、和能量以及音素信息的韵律信息,具体控制合成声音的韵律的韵律数据。韵律产生器41产生的韵律数据被提供到波形发生器42。作为韵律数据,韵律产生器41产生形成合成声音的每个音素的持续时间、指示合成声音音高(pitch)周期的时间变化模型的周期模型信号、和指示合成声音时间变化能量模型的能量模型信号。
如上所述,除韵律数据外,文本分析器31(图5)获得的文本分析结果被提供到波形发生器42。同样,合成控制参数从参数产生器43被提供到波形发生器42。依据包含在文本分析结果中的音素信息,波形发生器42从被转换的语音信息存储单元45读取必要的被转换的语音信息,并且使用被转换的语音信息执行基于规则的语音合成,这样就产生合成声音。当执行基于规则的语音合成时,波形发生器42根据来自韵律产生器41的韵律数据和来自参数产生器43的合成控制参数,通过调整合成声音数据的波形控制合成声音的韵律和音调。波形发生器42输出最终获得的合成声音数据。
状态信息从模型存储单元51(图3)被提供到参数产生器43。根据状态信息中的情感模型,参数产生器43产生用于由波形发生器42控制基于规则的语音合成的合成控制参数和用于转换存储在语音信息存储单元36(图5)中的语音信息的转换参数。
具体的,参数产生器43存储一个转换表,在其中指示例如“快乐”,“悲伤”,“愤怒”,“享乐”,“兴奋”,“想睡”,“舒适”,和“不适”的情感状态作为情感模型的值(以下在必要时称为情感模型值)与合成控制参数和转换参数联系起来。使用转换表,参数产生器43输出与来自模型存储单元51的状态信息中的情感模型值相关的合成控制参数和转换参数。
形成存储在参数产生器43中的转换表以便情感模型值与合成控制参数和转换参数联系起来,以便于产生具有指示宠物机器人情感状态的音调的合成声音。情感模型值与合成控制参数和转换参数联系起来的方式可以由,例如,仿真确定。
使用转换模型,合成控制参数和转换参数从情感模型值中产生。可选的,合成控制参数和转换参数可以由以下方法产生。
具体的,例如,Pn代表情感#n的情感模型值,Qi代表合成控制参数或转换参数,并且fi,n()代表预定函数。合成控制参数或转换参数Qi可以通过计算等式Qi=∑fi,n(Pn)来计算,其中∑代表变量n的总和。
在上面的情况中,使用了转换表,在其中考虑到例如“快乐”,“悲伤”,“愤怒”,和“享乐”的状态的所有情感模型值。可选的,例如,可以使用下面的简化的转换表。
具体的,情感状态被分为几类,例如,“正常”,“悲伤”,“愤怒”,和“享乐”,并且是唯一数字的情感号码被分配到每个情感。换句话说,例如,情感号码0,1,2,3等被分配到“正常”,“悲伤”,“愤怒”,和“享乐”。创造一个转换表,在其中情感号码与合成控制参数和转换参数联系起来。当使用该转换表时,有必要依据情感模型值把情感状态分为“正常”,“悲伤”,“愤怒”,和“享乐”。这可以按以下方式执行。具体的,例如,给定多个情感模型值,当最大情感模型值与第二大情感模型值的差大于或等于预定的阈值时,那一情感被分类为对应于最大情感模型值的情感状态。否则,那一情感被分类为“正常”状态。
参数产生器43产生的合成控制参数包括,例如,用于调整每个声音音量平衡的参数,如有声的声音,无声的摩擦音,和破擦音;用于控制驱动信号产生器60(图8)的输出信号的振幅波动量的参数,驱动信号产生器60如下述用作波形发生器42的声音源;以及影响合成声音音调的参数,如用于控制声音源频率的参数。
参数产生器43产生的转换参数被用来转换语音信息存储单元36(图5)中的语音信息,例如变化形成合成声音的波形数据的特性。
参数产生器43产生的合成控制参数被提供到波形发生器42,并且转换参数被提供到数据转换器44。数据转换器44从语音信息存储单元36读取语音信息并依据转换参数转换语音信息。因此,数据转换器44产生被用作用于改变形成合成声音的波形数据的特性的语音信息的被转换的语音信息,并且把被转换的语音信息提供到被转换语音信息存储单元45。被转换的语音信息存储单元45存储从数据转换器44提供的被转换的语音信息。如果必要,被转换语音信息由波形发生器44读取。
参考图7的流程图,现在将描述图6所示的基于规则的合成器32执行的处理。
图5所示的文本分析器31输出的文本分析结果被提供到韵律产生器41和波形发生器42。图5所示的模型存储单元51输出的状态信息被提供到参数产生器43。
当韵律产生器41接收到文本分析结果时,在步骤S1中,韵律产生器41产生韵律数据,例如由包含在文本分析结果中的音素信息指示的每个音素的持续时间、周期性的模式信号、和能量模式信号,把该韵律数据提供到波形发生器,并前进到步骤S2。
随后地,在步骤S2中,参数产生器确定机器人是否在情感反映模式中。具体的,在这个实施例中,在其中输出有情感反映音调的合成声音的情感反映模式和在其中输出具有情感未被反映的音调的合成声音的无情感反映模式中的任何一个可以被预置。在步骤S2中,确定机器人的模式是否是情感反映模式。
可选的,倘若不提供情感反映模式和无情感反映模式,机器人可以被设置一直输出情感反映的合成声音。
如果在步骤S2中确定机器人不在情感反映模式中,那么跳过步骤S3和S4。在步骤S5中,波形发生器42产生合成声音,并且处理终止。
具体的,如果机器人不在情感反映模式中,参数产生器43不执行特别的处理。这样,参数产生器43不产生合成控制参数和转换参数。
结果,波形发生器42经过数据转换器44和被转换语音信息存储单元45读取存储在语音信息存储单元36(图5)中的语音信息。使用语音信息和默认的合成控制参数,波形发生器42执行语音合成处理,同时依据来自韵律产生器41的韵律数据控制韵律。这样,波形发生器42产生具有默认音调的合成声音数据。
相反的,如果在步骤S2中确定机器人在情感反映模式中,在步骤S3中,参数产生器43根据来自模型存储单元51的状态信息中的情感模型,产生合成控制参数和转换参数。合成控制参数被提供到波形发生器42,并且转换参数被提供到数据转换器44。
随后地,在步骤S4中,数据转换器44依据来自参数生成器43的转换参数转换存储在语音信息存储单元36(图5)中的语音信息。数据转换器44提供并在被转换语音信息存储单元45中存储作为结果的被转换语音信息。
在步骤S5中,波形发生器42产生合成声音,并且处理终止。
具体的,在这种情况下,波形发生器42从存储在被转换语音信息存储单元45中的语音信息中读取必要的信息。使用被转换语音信息和由参数产生器43提供的合成控制参数,波形发生器执行语音合成处理,同时依据来自韵律产生器41的韵律数据控制韵律。因此,波形发生器42产生具有对应于机器人的情感状态的音调的合成声音数据。
如上所述,根据情感模型值产生合成控制参数和转换参数。使用通过根据合成控制参数和转换参数转换语音信息产生的被转换语音信息,执行语音合成。因此,可以产生有受控音调的情感上表达的合成声音,在其中,例如,频率特性和音量平衡是受控的。
图8示出当存储在语音信息存储单元36(图5)中的语音信息是例如用作语音特征参数的线性预测系数时,图6中所示的波形发生器42的构造的例子。
通过执行所谓的线性预测分析产生线性预测系数,例如使用从语音波形数据计算出的自相关系数解Yule-Walker(耶鲁-步行者)等式。关于线性预测分析,sn代表在当前时刻n的音频信号(的样本值),并且sn-1,sn-2,...,sn-p代表邻近sn的P个过去样本值。假定下面等式表达的线性组合为真sn+α1sn-1+α2sn-2+…+αPsn-P=en...(1)依据下面等式使用P个过去样本值sn-1,sn-2,...,sn-p线性预测在当前时刻n的样本值sn的预测值(线性预测值)sn’sn’=-(α1sn-1+α2sn-2+…+αPsn-P)...(2)计算用于最小化实际样本值sn和线性预测值sn’之间的均方误差的线性预测系数αP。
在等式(1)中,{en}(...,en-1,en,en+1,...)是不相关随机变量,它的平均值是0,并且它的方差是σ2。
由等式(1),样本值sn可以表达为sn=en- (α1sn-1+α2sn-2+...+αPsn-P)
...(3)通过等式(3)的Z转换,下面等式为真S=E/(1+α1z-1+α2z-2+…+αPz-P)...(4)其中S和E代表等式(3)中的sn和en的Z变换。
由等式(1)和(2),en可以表达为en=sn-sn’...(5)其中en被称为实际样本值sn和线性预测值sn’之间的残留信号。
由等式(4),线性预测系数αP用作IIR(无限冲击响应)滤波器的抽头系数,并且残留信号en被用作IIR滤波器的驱动信号(输入信号)。因此,可以计算出语音信号sn。
图8所示的波形发生器42执行用于依据等式(4)产生语音信号的语音合成。
具体的,驱动信号产生器60产生并输出成为驱动信号的残留信号。
韵律数据、文本分析结果、和合成控制参数被提供到驱动信号产生器60。依据韵律数据、文本分析结果、和合成控制参数,驱动信号产生器60在信号如白色噪音上叠加周期(频率)和振幅是受控的周期脉冲,这样产生用于把相应的韵律、音素、和音调(声音质量)给到合成声音的驱动信号。周期性的脉冲主要有助于有声声音的产生,反之如白色噪音的信号主要有助于无声声音的产生。
在图8中,加法器61、P个延迟电路(D)621至62P、和P个乘法器631至63P形成功能为语音合成的合成滤波器的IIR滤波器。IIR滤波器把来自驱动信号产生器60的驱动信号用作声音源并且产生合成声音数据。
具体的,从驱动信号产生器60输出的残留信号(驱动信号)经过加法器61提供到延迟电路621。延迟电路62P按照残留信号的一个样本延迟输入进去的输入信号并且把被延迟信号输出到之后的延迟电路62P+1和计算单元63P。乘法器63P把延迟电路62P的输出乘以为此设定的线性预测系数αP,并把乘积输出到加法器61。
加法器61把乘法器631至63P的所有输出与残留信号e相加,并把和提供到延迟电路621。另外,加法器61把和作为语音合成结果(合成语音数据)输出。
系数提供单元64根据包含在文本分析结果中的音素从被转换语音信息存储单元45读取线性预测系数α1,α2,…,αP,这些系数被用作必要的被转换语音信息,并且把线性预测系数α1,α2,…,αP分别设置到乘法器631至63P。
图9示出当储存在语音信息存储单元36(图5)中的语音信息包括,例如,被用作语音特征参数的线性预测系数(LPC)时,图6所示的数据转换器44的构造的例子。
是存储在语音信息存储单元36中的语音信息的线性预测系数被提供到合成滤波器71。合成滤波器71是与图8所示的由加法器61、P个延迟电路(D)621至62P、和P个乘法器631至63P形成的合成滤波器相似的IIR滤波器。合成滤波器71把线性预测系数用作抽头系数并把脉冲用作驱动信号并且执行滤波,这样把线性预测系数转换为语音数据(时域中的波形数据)。语音数据被提供到傅立叶变换单元72。
傅立叶变换单元72执行来自合成滤波器71的语音数据的傅立叶变换并计算频域中的信号,即频谱,并且把该信号或频谱提供到频率特性转换器73。
因此,合成滤波器71和傅立叶变换单元72把线性预测系数α1,α2,...,αP转换为频谱F(θ)。可选的,线性预测系数α1,α2,...,αP转换为频谱F(θ)可以通过依据下面等式把θ由0变化到π来执行F(θ)=1/|1+α1z-1+α2z-2+…+αPz-P|2z=e-jθ...(6)其中θ代表每个频率。
从参数产生器43(图6)输出的转换参数被提供到频率特性转换器73。通过依据转换参数转换来自傅立叶变换单元72的频谱,频率特性转换器73改变由线性预测系数获得的语音数据(波形数据)的频率特性。
在图9所示的实施例中,频率特性转换器73由扩充/收缩处理器73A和均衡器73B形成。扩充/收缩处理器73A在频率轴方向扩充/收缩由傅立叶变换单元72提供的频谱F(θ)。换句话说,扩充/收缩处理器73A通过用Δθ代替θ来计算等式(6),其中Δ代表扩充/收缩参数,并且计算出在频率轴方向被扩充/被收缩的频谱F(Δθ)。
在这种情况下,扩充/收缩参数Δ是转换参数。扩充/收缩参数Δ是,例如,从0.5到2.0范围内的值。
均衡器73B均衡由傅立叶变换单元72提供的频谱F(θ)并且加强或抑制高频率。换句话说,均衡器73B使频谱F(θ)经受于图10A所示的高频率增强滤波或图10B所示的高频率抑制滤波,并且计算出其频率特性改变的频谱。
在图10中,g代表增益,fc代表截止频率,fw代表衰减宽度,并且fs代表语音数据(合成滤波器71输出的语音数据)的取样频率。在这些值中,增益g、截止频率fc、和衰减宽度fw是转换参数。
通常,当执行图10A所示的高频率增强滤波时,合成声音的音调变得刺耳。当执行图10B所示的高频率抑制滤波时,合成声音的音调变得柔和。
可选的,频率特性转换器73可以通过,例如,执行n度平均滤波或通过计算倒频谱系数并执行滤波来使频谱平滑。
其频率特性被频率特性转换器73改变的频谱被提供到逆傅立叶变换单元74。逆傅立叶变换单元74对来自频率特性转换器73的频谱执行逆傅立叶变换,以计算出时域中的信号,即语音数据(波形数据),并且把信号提供到LPC分析器75。
LPC分析器75通过对来自逆傅立叶变换单元74的语音数据执行线性预测分析计算出线性预测系数,并把线性预测系数作为被转换语音信息提供并存储在被转换语音信息存储单元45(图6)中。
虽然线性预测系数在这种情况下被用作语音特征参数,但是可选的,可以使用倒频谱系数和线频谱对。
图11示出当存储在语音信息存储单元36(图5)中的语音信息包括,例如,被用作语音数据(波形数据)的音素单元数据时,图6所示的波形发生器42的构造的例子。
韵律数据、合成控制参数、和文本分析结果被提供到连接控制器81。依据韵律数据、合成控制参数、和文本分析结果,连接控制器81确定要被连接的音素单元数据,以产生合成声音和波形处理方法或调整方法(例如,波形的振幅),并且控制波形连接器82。
在连接控制器81的控制下,波形连接器82从被转换语音信息存储单元45读取是被转换语音信息的必要的音素单元数据。相似的,在连接控制器81的控制下,波形连接器82调整并连接被读取的音素单元数据的波形。因此,波形连接器82产生并输出拥有对应于韵律数据、合成控制参数、和文本分析结果的韵律、音调、和音素的合成声音数据。
图12示出当存储在语音信息存储单元36(图5)中的语音信息是语音数据(波形数据)时,图6所示的数据转换器44的构造的例子。在图中,对相应于图9中元件的元件给出同样的参考标号,并且省略了共同部分的重复的描述。换句话说,除了没有提供合成滤波器71和LPC分析器75之外,图12所示的数据转换器44与图9中的数据转换器相似。
在图12所示的数据转换器44中,傅立叶变换单元72对是存储在语音信息存储单元36(图5)中的语音信息的语音数据执行傅立叶变换,并且把作为结果的频谱提供到频率特性转换器73。频率特性转换器73依据转换参数转换来自傅立叶变换单元72的频谱的频率特性,并且把被转换频谱输出到逆傅立叶变换单元74。逆傅立叶变换单元74对来自频率特性转换器73的频谱执行逆傅立叶变换,使其转换为语音数据,并且把语音数据作为被转换语音信息提供并存储在被转换语音信息存储单元45(图6)中。
虽然在这里有本发明应用于娱乐机器人(如假宠物的机器人)的描述过的情况,但是本发明不限于这些情况。例如,本发明广泛适用于有语音合成设备的不同系统。同样,本发明不仅适用于真实世界机器人,而且适用于在例如液晶显示器的显示器上显示的虚拟机器人。
虽然在本实施例中已经描述了一系列上述处理通过执行程序由CPU 10A来执行,但是一系列处理可以由专用硬件来执行。
该程序可以提前存储在存储器10B(图2)中。可选的,程序可以暂时或永久地存储(记录)在可移动记录介质,例如软盘、CD-ROM(致密盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或半导体存储器。可移动记录介质可以作为所谓的封装软件提供,并且软件可以安装在机器人中(存储器10B)。
可选的,该程序可以经过数字广播卫星由下载地址无线发送,或者该程序可以通过网络,例如LAN(局域网)或国际互联网,使用有线进行发送。被发送的程序可以安装在存储器10B中。
在这种情况下,当程序的版本升级了,升级的程序可以容易地安装在存储器10B中。
在本说明中,用于写引起CPU10A执行不同处理的程序的处理步骤不需要依据流程图中描述的顺序按时间序列处理。同样包括与其它步骤平行执行的步骤或单独执行的步骤(例如,平行处理或按照对象处理)。
该程序可以由单一的CPU处理。可选的,该程序可以由多个CPU在分散的环境中处理。
图5中所示的语音合成器55可以由专用硬件或软件来实现。当语音合成器55由软件实现时,构造那个软件的程序被安装进通用计算机中。
图13示出安装用于实现语音合成器55的程序的计算机的实施例的构造的例子。
程序可以预先记录在硬盘105或ROM103中,ROM103是包含在计算机中的内置记录介质。
可选的,该程序可以暂时或永久地存储(记录)在可移动记录介质111,例如软盘,CD-ROM,MO盘,DVD,磁盘,或半导体存储器。可移动记录介质111可以作为所谓的封装软件提供。
该程序可以从上述的可移动记录介质111安装在计算机中。可选的,该程序可以经过数字广播卫星无线从下载地址传送到计算机,或者可以经过网络,例如LAN(局域网)和世界互联网,进行有线传送。在计算机中,被发送的程序由通信单元108接收并安装在内置硬盘105。
计算机包括CPU(中央处理单元)102。输入/输出接口110经过总线101连接到CPU102。当用户操作由键盘、鼠标、和麦克风形成的输入单元107并且通过输入/输出接口110输入命令到CPU102时,CPU102依据命令执行存储在ROM(只读存储器)103的程序。可选的,CPU102把存储在硬盘105的程序、从卫星或网络转移的由通信单元108接收并安装在硬盘105中的程序、从装配在驱动器109的可移动记录介质读取并安装在硬盘105中的程序装载进RAM(随机存取存储器)104并执行程序。因此,CPU102依据上述的流程图执行处理或者执行上述方框图中所示的构造执行的处理。如果必要,CPU102从由LCD(液显示器)和扬声器形成的输出单元106经过输入/输出接口110输出处理结果,或者从通信单元108发送处理结果,并且CPU2把处理结果记录在硬盘105上。
虽然在这个实施例中合成声音的音调根据情感状态改变,可选的,例如,合成声音的韵律也可以根据情感状态改变。合成声音的韵律可以根据情感模型通过控制,例如,合成声音音高周期的时间变化模式(周期性的模式)和合成声音的能量的时间变化模式(能量模式)而改变。
虽然在这个实施例中从文本(包括有中文字符和日文音节字符的文本)产生合成声音,但是合成声音也可以从音标字母产生。
工业实用性如上所述,根据本发明,在预定的信息中,影响合成声音音调的音调影响信息根据指示情感状态的外部提供的状态信息产生。使用音调影响信息,产生了音调控制的合成声音。通过依据情感状态产生具有改变的音调的合成声音,可以产生情感上表达的合成声音。
权利要求
1.用于使用预定信息执行语音合成的语音合成设备,包括音调影响信息产生部件,用于在预定信息中,根据指示情感状态的外部提供的状态信息,产生用于影响合成声音的音调的音调影响信息;以及语音合成部件,用于使用音调影响信息产生具有受控音调的合成声音。
2.根据权利要求1的语音合成设备,其中音调影响信息产生部件包括转换参数产生部件,用于根据情感状态产生用于转换音调影响信息以改变形成合成声音的波形数据的特性的转换参数;以及音调影响信息转换部件,用于根据转换参数转换音调影响信息。
3.根据权利要求2的语音合成设备,其中音调影响信息是在要被连接以产生合成声音的预定单元中的波形数据。
4.根据权利要求2的语音合成设备,其中音调影响信息是从波形数据提取的特征参数。
5.根据权利要求1的语音合成设备,其中语音合成部件执行基于规则的语音合成,以及音调影响信息是用于控制基于规则的语音合成的合成控制参数。
6.根据权利要求5的语音合成设备,其中合成控制参数控制音量平衡、声音源的振幅波动量、或声音源的频率。
7.根据权利要求1的语音合成设备,其中语音合成部件产生其频率特性或音量平衡是受到控制的合成声音。
8.一种用于使用预定信息执行语音合成的语音合成方法,包括音调影响信息产生步骤,用于在预定信息中,根据指示情感状态的外部提供的状态信息,产生用于影响合成声音的音调的音调影响信息;以及语音合成步骤,用于使用音调影响信息产生具有受控音调的合成声音。
9.一种用于引起计算机执行用于使用预定信息执行语音合成的语音合成处理的程序,包括音调影响信息产生步骤,用于在预定信息中,根据指示情感状态的外部提供的状态信息,产生用于影响合成声音的音调的音调影响信息;以及语音合成步骤,用于使用音调影响信息产生具有受控音调的合成声音。
10.一种已经在其中记录用于引起计算机执行用于使用预定信息执行语音合成的语音合成处理的程序的记录介质,该程序包括音调影响信息产生步骤,用于在预定信息中,根据指示情感状态的外部提供的状态信息,产生用于影响合成声音的音调的音调影响信息;以及语音合成步骤,用于使用音调影响信息产生具有受控音调的合成声音。
全文摘要
一种能够通过生成根据情感状态改变音调质量的合成音调,生成富于情感的合成音调的声音合成装置,其中参数生成单元(43)根据指示宠物机器人的情感状态的状态信息生成变换参数和合成控制参数。数据变换单元(44)把音素片数据的频率特性变换为声音信息。波形生成单元(42)根据包含在文本分析结果中的音素信息获取必要的音素片数据,并且把音素片数据连接起来,同时根据韵律数据和合成控制参数处理数据,以生成具有相应韵律和音调质量的合成音调数据。本装置适用于生成合成音调的机器人。
文档编号G10L13/08GK1461463SQ02801122
公开日2003年12月10日 申请日期2002年3月8日 优先权日2001年3月9日
发明者山崎信英, 小林贤一郎, 浅野康治, 狩谷真一, 藤田八重子 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1