身体性声反应玩具的制作方法

文档序号：1591417阅读：211来源：国知局

专利名称：身体性声反应玩具的制作方法
技术领域：
本发明涉及一种进行会话娱乐的玩具或利用声音实现意思表达的身体性声反应玩具。
近年来流行对声音有反应而活动手足或头的玩具。例如美国专利USP4,923,428中揭示的“互动说话玩具(Interactive talking toy)”就是这种玩具。这些玩具随声音执行特定动作造型或组合执行多个动作造型，因而并非是生成为交流动作(对人类的思想沟通起到促进或变得亲近的动作)的动作造型。而是让无法养动物等宠物的都市楼宇内的独处者、尤其是女性中得到好感，目前销售许多这种玩具。
同样利用声音的玩具还有对声音进行录放的留言装置。这种玩具将预先录音的发言人声音随机器人动作重放，以便实现意思表达。这通过声音解决时间性隔离。而这种对声音的利用，并非是玩具，也可以视为用记录声音的盒式磁带对话的留言手段。与仅仅是文字的意思表达相比，由于传达的是发信人活生生的声音，因而可以比书信实现更为顺畅或亲密的交流。这通过声音解决距离性隔离。
对声音产生反应的玩具，对独处的人的精神稳定因素具有意义，而玩具的反应很重要。但现有的这类玩具只是简单地输入声音，反馈与振幅大小成正比的动作，存在不怎么能融入情感这种问题。而利用声音的意思表达，不会让距离或时间上分离的双方感到距离或时间差的存在，在实现顺畅或亲密的交流方面有利。但这种意思表达手段也存在说话一侧和倾听一侧只是与手足不停活动的机器人对话，难以在声音中融入情感这种缺点。因此，对进行会话娱乐的玩具或利用声音实现意思表达的玩具等声音玩具，研究容易融入情感的手段。
研究的结果，开发出一种身体性声反应玩具，由声音输入输出部、声反应模拟人格和模拟人格控制部构成，声音输入输出部承担外部的声音输入或至外部的声音输出，模拟人格控制部根据经过声音输入输出部的声音确定声反应模拟人格的举动并使该声反应模拟人格动作。该身体性声反应玩具也可以对声音输入输出部增加数据输入输出部和数据变换部构成，数据输入输出部承担外部的非声音数据输入或至外部的非声音数据输出，数据变换部实现非声音数据与声音的相互变换，与声音输入输出部进行声音交换。数据输入输出部将声音以外可以合成声音的数据输入输出。模拟人格控制部根据声音确定机器人的举动，但可变换为模拟声音的信号(准声音)的话，即便未必能判别含义也行。数据变换部承担这种数据与声音或准声音之间的相互变换。数据合成的声音或准声音经过声音输入输出部送至模拟人格控制部。
声反应模拟人格以基本上模仿人类的方式为佳，但也可以是拟人化的动植物、其他无机物、想象的生物或物体。如下文所述，本发明随声音的通断，作出人类说者或听者共同拥有会话节奏的举动，即作出交流动作，因而只要作出这种举动，说者或听者是原本无机物的交通工具或建筑、其他想象中的生物或物体都行。变形物体或建筑等倒是融入亲和力玩具方面拿手的，故而较佳。听者控制部或说者控制部由计算机构成。机器人是将驱动电路与计算机(或专用处理芯片等)连接进行控制驱动的。计算机可以按硬件或软件方式构成声音输入输出部、数据输入输出部、数据变换部，而且控制方式变更也很方便。
具体来说，(1)声反应模拟人格是听者机器人，模拟人格控制部是听者控制部，听者机器人响应声音进行点头动作、张口闭口动作、眨眼动作或身体姿势动作这种举动，听者控制部根据经过声音输入输出部的声音确定听者机器人举动，使听者机器人动作。
而且，(2)声反应模拟人格是说者机器人，模拟人格控制部是说者控制部，说者机器人响应声音进行头部姿态动作、张口闭口动作、眨眼动作或身体姿势动作这种举动，说者控制部根据经过声音输入输出部的声音确定说者机器人举动，使说者机器人动作。
此外，(3)声反应模拟人格是说者和听者共用机器人，模拟人格控制部是说者和听者控制部，共用机器人响应声音进行点头动作、头部姿态动作、张口闭口动作、眨眼动作或身体姿势动作这种举动，听者控制部根据经过声音输入输出部的声音确定共用机器人作为听者的举动使该共用机器人动作，而说者控制部根据经过声音输入输出部的声音确定共用机器人作为说者的举动使该共用机器人动作。
即使在显示部上利用动画等显示模拟听者或模拟说者来替代机器人，本发明的基本作用、效果也没有改变。显示部上可显示的模拟说者或模拟听者可以利用采用真实图像进行应答的合成图像、另行制作图像的CG(计算机图形)、动画。听者控制部或说者控制部用计算机时，计算机对合成图像、CG或动画进行合成，在计算机显示部上显示所述各活动影像。
用上述显示部的场合，具体来说，(4)声反应模拟人格是显示听者的听者显示部，模拟人格控制部是听者控制部，听者显示部响应声音在听者显示部上显示进行点头动作、张口闭口动作、眨眼动作或身体姿势动作这种举动的模拟听者，听者控制部根据经过声音输入输出部的声音确定模拟听者举动，使听者显示部上显示的模拟听者活动。
或者，(5)声反应模拟人格是显示说者的说者显示部，模拟人格控制部是说者控制部，说者显示部响应声音信号在说者显示部上显示进行头部姿态动作、张口闭口动作、眨眼动作或身体姿势动作这种举动的模拟说者，说者控制部根据经过声音输入输出部的声音确定模拟说者举动，使说者显示部上显示的模拟说者活动。
或者，(6)声反应模拟人格是显示听者和说者的共用显示部，模拟人格控制部是听者控制部和说者控制部，共用显示部响应声音信号在同一空间中分别显示进行点头动作、头部姿态动作、张口闭口动作、眨眼动作或身体姿势动作这种举动的模拟说者和模拟听者，听者控制部根据经过声音输入输出部的声音确定模拟听者举动，使上述共用显示部上显示的该模拟听者活动，而说者控制部根据经过声音输入输出部的声音确定模拟说者举动，使共用显示部上显示的模拟说者活动。
本发明用作会话娱乐的玩具时，声音输入输出部直接与受话器或扬声器交换声音。而用作意思表达的玩具时，通过另外增设的声音录/放部，将声音记录于记录媒体上送给对方，靠重放出来进行接收。基于数据的场合，可让数据记录/回放部记录、回放数据。记录媒体可与声音输入输出部、数据输入输出部一体构成，但除了记录媒体以外还用外部存储装置的话，便可处理更长时间的声音或数据。对于外部存储装置来说，可利用各种磁带(包含盒式磁带)、磁盘、磁光盘、用到存储器的各种媒体。上述外部存储装置大多为可檫除记录内容并重复利用的，但一次性意思表达就行时，也可以利用CD-ROM、CD-R、DVD-ROM、唱片。
重要的声反应模拟人格其举动，对于声反应模拟人格是说者还是听者有所不同。(a)作为听者的声反应模拟人格其举动(交流动作)由点头动作、眨眼动作或身体姿势动作的选择性组合所组成，点头动作按根据声音通断所推定的点头预测值超过点头阈值的点头动作定时执行，眨眼动作按以上述点头动作定时为起始点且随时间呈指数分布的眨眼动作定时执行，身体姿势动作按根据声音通断所推定的点头预测值超过身体姿势阈值的身体姿势动作定时执行。
而且，(b)作为说者的声反应模拟人格其举动(交流动作)由头部姿态动作、张口闭口动作、眨眼动作或身体姿势动作的选择性组合所组成，姿态动作按根据声音通断所推定的姿态预测值超过姿态阈值的姿态动作定时执行，眨眼动作则按根据声音通断所推定的眨眼预测值超过眨眼阈值的眨眼动作定时执行，身体姿势动作则按根据声音通断所推定的姿态预测值或身体姿势预测值超过身体姿势阈值的身体姿势动作定时执行。
如此确定的举动(交流动作)，在模拟听者和说者之间(或模拟说者和听者之间)营造出会话的节奏，出现身体性参与现象(也简称为参与现象)。这种参与现象创造出说话或倾听的轻松气氛，使机器人或显示部内动画等演绎的模拟说者或模拟听者融入情感。
举动中的组合是自由的。例如模拟说者用头部姿态动作替代点头动作，或是模拟听者基本上不用张口闭口动作。身体姿势动作是在得到点头动作定时的算法当中利用数值低于点头阈值的身体姿势阈值得到身体姿势动作定时的。而且，身体姿势动作随声音的变化驱动活动部位，根据声音选择身体活动部位，或选择预定的动作造型(活动部位组合以及各部分动作量)。对身体姿势动作的活动部位或动作造型的选择，使点头动作和身体姿势动作的联系自然。这样，本发明除了张口闭口动作或基于声音振幅的身体各部位动作以外，还利用模拟听者以点头动作定时为中心、模拟说者以姿态动作为中心的举动，实现交流动作。
这样，重要的点头动作定时利用一比较算法，比较靠线性或非线性耦合点头动作相对声音得到的预测模型、例如MA模型(移动平均值模型Moving-AverageModel)或神经网络模型(Neural Network Model)所得到的点头预测值和预定的点头阈值来确定。本发明中，模拟听者场合用的是声音与点头动作相关联的预测模型，而模拟说者场合用的是声音与头部动作相关联的预测模型。这些算法将声音当作随时间通断的电信号俘获，将这种随时间通断的电信号得到的点头预测值(说者场合为头部姿态预测值)与点头阈值(说者场合为头部姿态阈值)或身体姿势阈值比较，导出点头动作定时或身体姿势动作定时。由于是以简单电信号通断为基础的，因而计算量较少，即便将性能低的CPU用于实时确定举动，也不失即时响应性。本发明特征在于，根据将声音视为电信号时的通断，引发参与现象。而且，除了上述通断以外，还可以一并考虑电信号随时间变化所给出的韵律或抑扬声调。
附图简要说明

图1是模拟熊玩偶的身体性声反应玩具(品名“传话太郎”)的构成图。图2是该玩具进行听者控制时的流程图。图3是该玩具进行说者控制时的流程图。图4是利用熊动画造型的身体性声反应玩具(品名“传话太郎”)的构成图。图5是作为应用例的身体性声反应玩具(品名“说话太郎”)的构成图。
图1和图4例子，是用兼作模拟听者或模拟说者的玩偶1或动画2构成的。也可以仅构成模拟听者，仅构成模拟说者。
图1例子在熊玩偶1当中内置了受话器3、扬声器4、声音输入输出部5、模拟人格控制部6和声音录/放部7。玩偶1按模拟听者工作时，便按下听者开关8将模拟人格控制部6设定为听者控制部，由声音输入输出部5将受话器3收集的声音送给模拟人格控制部6，使玩偶1按模拟听者动作。声音同时送给声音录/放部7，记录于记录媒体9中。而玩偶1按模拟说者工作时，通过按下说者开关10将模拟人格控制部6设定为说者控制部，由声音输入输出部5将声音录/放部7对记录媒体9进行重放得到的声音送给模拟人格控制部6，使玩偶1按模拟说者动作。声音同时由声音输入输出部送给扬声器4播放到外部。实现意思表达时，将玩偶1本身与记录媒体9一起交换，或是实现意思表达的两者具有相同的本发明玩具而仅仅交换记录媒体9。本例虽然是玩偶1兼作模拟听者和模拟说者的例子，但玩具仅仅有其中之一时，则以表达源具有模拟听者、表达对象具有模拟说者的情形为前提，仅交换记录媒体9。
例如可以在盒式磁带录音机中将声音输入输出部5和声音录/放部7一体构成，可在微机中将模拟人格控制部6做成一整体。各部分装入玩偶1的位置是自由的。本例中，令工装裤左纽扣为听者开关8，其右纽扣为说者开关10，受话器3和扬声器4埋入头部，对于工装裤胸袋安排盒式磁带录音机的磁带插入口，躯体部分内置构成声音输入输出部5和声音录/放部7的盒式录音机和构成模拟人格控制部6的微机(图1中虚线四边形内)。各部分为电器或电子设备，通过内置电池或AC适配器(未图示)供电。
玩偶1作为模拟听者动作时，在按下听者开关8的状态下，由受话器3收集向熊1发话的使用者的声音，并由声音输入输出部5取得，由声音录/放部7录音到盒式磁带(记录媒体)9上。同时，声音输入输出部5将声音传送给作为听者控制部动作的模拟人格控制部6，按照图2所示的模拟听者控制流程，分别有选择地使头部驱动手段13、眼睛驱动手段14和身体驱动手段15动作，使玩偶1进行适宜的点头动作、眨眼动作和身体姿势动作。对于身体姿势动作来说，除了点头以外，还有头部倾斜或转动、手势或手弯曲、躯体弯曲或转动、以及足部姿势或足部弯曲。作为模拟听者开口闭口是不自然的，因而没有开口闭口动作，但也可以并用开口闭口动作。头部驱动手段13、眼睛驱动手段14和身体驱动手段15可以利用电动机、螺线管、汽缸、形状记忆合金或电磁铁，或者可利用曲柄运动或齿轮运动。
玩偶1作为模拟说者动作时，由声音录/放部7重放经过录音的盒式磁带((记录媒体)9，通过声音输入输出部5从扬声器4当中播放声音。并且，声音还从声音输入输出部5传送给作为说者控制部的模拟人格控制部6，按照图3所示的模拟说者控制流程，分别有选择地使眼睛驱动手段14、口部驱动驱动手段16和身体驱动手段15动作，使玩偶1进行适宜的头部姿态动作、眨眼动作、张口闭口动作或身体姿势动作。眼睛驱动手段14、口部驱动手段16和身体驱动手段15除了可以利用电动机、螺线管、汽缸、形状记忆合金或电磁铁以外，还可利用曲柄运动或齿轮运动。
模拟听者控制流程中各动作定时确定当中，最重要的是点头动作定时，除了身体各部分基于开口闭口动作或声音振幅的动作以外，眨眼动作或身体姿势动作要么以点头动作定时为基础(眨眼动作)，要么利用同样的算法(身体姿势动作)。具体来说，如下所述。首先，根据声音输入输出部5给出的声音，在模拟人格控制部6内对推定模拟听者的点头动作定时(点头推定)。本例中，利用声音线性耦合对点头动作进行预测的模型采用MA模型。该点头推定根据随时间变化的声音实时地计算时刻变化的点头预测值的。这里，比较点头预测值和预先设定的点头阈值，当点头预测值超过点头阈值时，便取为点头动作定时，使头部驱动手段13按点头动作定时动作，执行点头动作。眨眼动作将最初得到的点头动作定时设定为初始眨眼动作定时，以初始眨眼动作定时(=初始点头动作定时)为起点，得到随时间具有指数分布的眨眼动作定时。这种与点头动作有关系的眨眼动作，可视为会话当中听者较为自然的反应，因而给对玩偶1说话的人，营造出容易说话的氛围(出现参与现象)。身体姿势动作是预先制作出熊1各部分活动部位(例如手、躯体、足)组合的多个动作造型，每一身体姿势动作定时从这些多个动作造型当中选择动作造型加以执行。具体来说，较好是按照声音大小形成手腕姿势的话，则在身体姿势动作上加上强弱。这种动作造型的选择，实现的是没有机械性重复的自然的身体姿势动作。此外，还考虑选择活动部位独立或连带地动作，还根据声音信号经语言分析得到的所带的含义对身体姿势动作进行控制。
上述说明，对于模拟人格控制部6起到说者控制部作用的情形也一样。但考虑熊1的举动随着是模拟听者还是模拟说者而有所不同，因而在导出点头预测值或姿态预测值的预测模型方面设置差异(对于模拟听者MA模型使声音与点头动作相关联，对于模拟说者MA模型使声音与头部姿态动作相关联)，或身体姿势阈值对于模拟听者或模拟说者采用不同数值。考虑到装置的成本，听者控制部和说者控制部不必单独构成，况且各控制流程相似，因而可以在硬件方面形成一体的模拟人格控制部6，在内部分开利用控制流程。
图4例子，是显示器17将上述熊一样的动画2当作模拟听者或模拟说者显示的身体性声反应玩具。与图1例子不同之处在于，不是用声音确定动画20的举动，而是用文本数据所合成的声音使模拟人格控制部6动作。例如，计算机18内按硬件或软件方式构成数据输入输出部19、数据记录/回放部20、数据变换部21、模拟人格控制部6。数据利用键盘12输入数据输入输出部19，由数据变换部21合成声音再通过声音输入输出部5从扬声器4当中播放出来。键盘12还承担模拟人格控制部6对听者控制和说者控制进行的切换。本例情形，由数据记录/回放部20将数据保存至记录媒体9，或由声音录/放部7将所合成的声音保存至记录媒体9。而且，从扬声器中播放声音时，较好是将数据输入输出部19所应回放的数据显示成由模拟说者动画2横向说出的对白22。
作为特殊应用例，可示意图5所示的身体性声反应玩具。本例记录媒体9采用市场上销售的音乐CD或游戏软件(以软件内记录的声音数据或可进行声音合成的文本数据为对象)，例如将对音乐CD进行回放得到的信号靠接线输入送到声音输入输出部5(送入数据时将经过数据输入输出部19、数据变换部21后得到的声音输入声音输入输出部5，参照图4)，从扬声器4当中播放音乐，同时使作为说者的玩偶1活动。由于是以实现玩偶1动作为目的的，因而与图1例子不同，模拟人格控制部6采用的是头驱动手段13也进行适当驱动的说者控制流程。以往，使身体符合音乐CD活动的人物造型或玩具有很多，但应用本发明的话，玩偶1便出现参与现象，因而在视觉上动作得容易融入情感，对音乐欣赏或游戏更有兴致。这时，玩具1动作本身在视觉上也具有娱乐效果。同样，还可以考虑将电话或电视的声音通过接线输入使仅仅为声音的电话加以视觉化进行娱乐，或以对电视有反应的玩偶1的动作进行娱乐。
本发明提供一利用声音并且更容易融入情感的玩具。具体来说，人们作为说者时，模拟听者同时拥有与说者会话的节奏，出现参与现象，能够使会话融入情感。而当作进行声音(或数据)记录的传话装置时，可将说者感情流露的话语记录到记录媒体上。而人们作为倾听者时，通过模拟说者表示出与所重放声音相适合的举动(交流动作)，在与听者之间共同拥有会话的节奏，利用参与现象实现更为顺畅或亲密的意思表达。
作为传话装置的身体性声反应玩具，还可以仅交换记录媒体便实现意思的表达。这时，传达发出方和传达接收方两者都有本发明身体性声反应玩具最好，但例如仅仅是单方具有身体性声反应玩具，也可以在记录时将所要传达的声音融入情感，或者可以在重放时情感丰富地表现所传达的声音。这意味着，即便在记录媒体为盒式磁带且一方用盒式磁带录音机的情形，只要另一方拥有本发明身体性声反应玩具，便可以享有本发明效果。
这样，本发明便提供一种更容易融入情感的身体性声反应玩具。因此，对于以往利用声音的玩具也可考虑如同上述例子的应用。最为简易的应用是进行与例如音乐CD回放或游戏声音数据相一致的动作的机器人或动画。此外，还可以是与电话连接并对说者随声附和或与对方声音相一致动作的机器人或动画。这样的应用例，通过组合以点头或头部姿态为中心的身体各部位动作，可以实现更为自然、易为人们所接受的前所未有的情感融入。
权利要求
1．一种身体性声反应玩具，其特征在于，由声音输入输出部、声反应模拟人格和模拟人格控制部构成，声音输入输出部承担外部的声音输入或至外部的声音输出，模拟人格控制部根据经过声音输入输出部的声音确定声反应模拟人格的举动，并使该声反应模拟人格动作。
2．如权利要求1所述的身体性声反应玩具，其特征在于，对声音输入输出部增加数据输入输出部和数据变换部构成，数据输入输出部承担外部的非声音数据输入或至外部的非声音数据输出，数据变换部实现非声音数据与声音的相互变换，与声音输入输出部进行声音交换。
3．如权利要求1所述的身体性声反应玩具，其特征在于，声反应模拟人格是听者机器人，模拟人格控制部是听者控制部，听者机器人响应声音进行点头动作、张口闭口动作、眨眼动作或身体姿势动作这种举动，听者控制部根据经过声音输入输出部的声音确定听者机器人举动，使该听者机器人动作。
4．如权利要求1所述的身体性声反应玩具，其特征在于，声反应模拟人格是说者机器人，模拟人格控制部是说者控制部，说者机器人响应声音进行头部姿态动作、张口闭口动作、眨眼动作或身体姿势动作这种举动，说者控制部根据经过声音输入输出部的声音确定说者机器人举动，使该说者机器人动作。
5．如权利要求1所述的身体性声反应玩具，其特征在于，声反应模拟人格是说者和听者共用机器人，模拟人格控制部是说者和听者控制部，共用机器人响应声音进行点头动作、头部姿态动作、张口闭口动作、眨眼动作或身体姿势动作这种举动，听者控制部根据经过声音输入输出部的声音确定共用机器人作为听者的举动使该共用机器人动作，而说者控制部根据经过声音输入输出部的声音确定共用机器人作为说者的举动使该共用机器人动作。
6．如权利要求1所述的身体性声反应玩具，其特征在于，声反应模拟人格是显示听者的听者显示部，模拟人格控制部是听者控制部，听者显示部响应声音在听者显示部上显示进行点头动作、张口闭口动作、眨眼动作或身体姿势动作这种举动的模拟听者，听者控制部根据经过声音输入输出部的声音确定模拟听者举动，使听者显示部上显示的该模拟听者活动。
7．如权利要求1所述的身体性声反应玩具，其特征在于，声反应模拟人格是显示说者的说者显示部，模拟人格控制部是说者控制部，说者显示部响应声音信号在说者显示部上显示进行头部姿态动作、张口闭口动作、眨眼动作或身体姿势动作这种举动的模拟说者，说者控制部根据经过声音输入输出部的声音确定模拟说者举动，使说者显示部上显示的该模拟说者活动。
8．如权利要求1所述的身体性声反应玩具，其特征在于，声反应模拟人格是显示听者和说者的共用显示部，模拟人格控制部是听者控制部和说者控制部，共用显示部响应声音信号在同一空间中分别显示进行点头动作、头部姿态动作、张口闭口动作、眨眼动作或身体姿势动作这种举动的模拟说者和模拟听者，听者控制部根据经过声音输入输出部的声音确定模拟听者举动，使上述共用显示部上显示的该模拟听者活动，而说者控制部根据经过声音输入输出部的声音确定模拟说者举动，使共用显示部上显示的模拟说者活动。
9．如权利要求1所述的身体性声反应玩具，其特征在于，作为听者的声反应模拟人格其举动由点头动作、眨眼动作或身体姿势动作的选择性组合所组成，点头动作按根据声音通断所推定的点头预测值超过点头阈值的点头动作定时执行，眨眼动作按以上述点头动作定时为起始点且随时间呈指数分布的眨眼动作定时执行，身体姿势动作按根据声音通断所推定的点头预测值超过身体姿势阈值的身体姿势动作定时执行。
10．如权利要求1所述的身体性声反应玩具，其特征在于，作为说者的声反应模拟人格其举动由头部姿态动作、张口闭口动作、眨眼动作或身体姿势动作的选择性组合所组成，姿态动作按根据声音通断所推定的姿态预测值超过姿态阈值的姿态动作定时执行，眨眼动作按根据声音通断所推定的眨眼预测值超过眨眼阈值的眨眼动作定时执行，身体姿势动作按根据声音通断所推定的姿态预测值或身体姿势预测值超过身体姿势阈值的身体姿势动作定时执行。
11．如权利要求1所述的身体性声反应玩具，其特征在于，对声音输入输出部增加声音录/放部构成。
12．如权利要求2所述的身体性声反应玩具，其特征在于，对数据输入输出部增加数据记录/回放部构成。
全文摘要
本发明提供一种属于易于融入情感的身体性声反应玩具的机器人或显示器上的动画形象,由声音输入输出部、声反应模拟人格、模拟人格控制部所构成,声音输入输出部承担外部的声音输入或至外部的声音输出,模拟人格控制部根据经过声音输入输出部的声音确定声反应模拟人格举动,并使声反应模拟人格动作。
文档编号A63H3/28GK1305858SQ0011997
公开日2001年8月1日申请日期2000年6月30日优先权日1999年6月30日
发明者渡边富夫, 小川浩基申请人:对话支援技术株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：渡边富夫;小川浩基
技术所有人：对话支援技术株式会社
我是此专利的发明人

上一篇：电视游戏控制方法和装置以及记录程序的计算机可读媒体的制作方法
上一篇：体重支承件和教学用具的制作方法