通讯系统以及机器人的制作方法_2

文档序号：9308978阅读：来源：国知局

、控制部125以外，还记载有放大器127。放大器127对来自远程操作侧300的声音信号进行放大后供给至扬声器122。此外，虽然机器人100具有图1?图3所示的构成要素，但在图4中省略了它们的记载。
[0049]网络200是有线或者无线的网络。远程操作侧300是机器人100的远程操作者执行该远程操作的地方，具备麦克301 (第二麦克风)、放大器302、扬声器303 (第二扬声器)、回波抵消器304以及控制终端305。
[0050]以下，对于远程操作侧300的各部进行说明。麦克301经由网络200与扬声器122连接。通过远程操作者对麦克301输入自身的声音，从而该声音被转换为电信号，经由网络200、放大器127被送出至扬声器122。按照上述，扬声器122将该声音信号转换为声音并输出。这样一来，远程操作者能够使自身的声音从距离较远的机器人100输出。
[0051]放大器302经由网络200获取麦克123输出的声音信号，进行放大并输出至扬声器303。扬声器303将该声音信号转换为声音并输出。这样一来，远程操作者能够听到机器人100周围的声响。
[0052]回波抵消器304是消除由扬声器122、麦克123、麦克301、扬声器303产生的回波的单元。回波抵消器304被设置在连接麦克301和扬声器122的连接线与连接放大器302和麦克123的连接线之间。
[0053]通过远程操作者从麦克301输入自身的声音，从而该声音被从扬声器122输出。此时，由于该声音从麦克123输入，从而声音被从扬声器303输出。S卩，会产生回波。为了防止该回波产生，回波抵消器304从连接线检测输出至麦克301的远程操作者的声音信号，将使该声音信号取消的取消信号输出至连接放大器302和麦克123的连接线。由此，回波抵消器304能够防止回波产生。
[0054]控制终端305 (控制部)获取说话人数判定部124输出的判定结果，并基于此执行机器人100的控制。例如控制终端305能够自动地控制机器人100的扬声器122的音量。以下，对该控制的详细进行说明。
[0055]图5是表示在机器人100的周边的人的说话声音的大小的一个例子的曲线图。在图5中，以在机器人100的周边有A先生?F先生这6个人作为前提。在图5中，横轴表示时刻，纵轴表示说话声音的大小。另外，在图5中初始时刻是t0。
[0056]在图5中，A先生在时刻t0?tl不说话，在时刻tl?t2用较小的声音说话，在时刻t2?t3不说话，在时刻t3?t4用较小的声音说话，在时刻t4?t5不说话，在时刻t5?t6用较大的声音说话，在时刻t6以后不说话。B先生在时刻t0?t7不说话，在时刻t7?t8用中等程度的声音说话，在时刻t8?t9不说话，在时刻t9以后用中等程度的声音说话。C先生在时刻to?tlO用较小的声音说话，在时刻tlO?til不说话，在时刻til?tl2用较小的声音说话，在时刻tl2以后用较大的声音说话。D先生在时刻t0?tl3不说话，在时刻tl3?tl4用较大的声音说话，在时刻tl4以后不说话。E先生在时刻t0?tl5不说话，在时刻tl5?tl6用较小的声音说话，在时刻tl6以后不说话。F先生从时刻t0以后不说话。这样，人的说话声音的特征在于，除了较大的声音、较小的声音混在以外，若从较长的跨度来看，一个人的声音并不连续而是断续的。麦克123获取这样的说话声音作为声音数据。
[0057]麦克123获取到的声音数据经由网络200、放大器302被输入至扬声器303。并且，麦克123获取到的声音数据被输入至说话人数判定部124。
[0058]说话人数判定部124根据麦克123获取到的声音数据判定当前正在说话的人(说话人)的数量。这里，对于人的声音，人的声带的固有振动不同。因此，即使同时2个人以上的声音发出的情况下，说话人数判定部124也通过解析声音数据，来检测2个以上的不同的固有振动。由此，说话人数判定部124判定2个人以上正在发出声音。这样一来，说话人数判定部124判定说话人数，说话人数表示麦克123周围的说话人的人数。
[0059]图6是说话人数判定部124判定出的说话人数的曲线图的例子。在图6中，横轴表示时刻，纵轴表示特定的时刻中的说话人数。在图6中，在初始时刻t20中，麦克123的周边(即，机器人100的周边)的说话人数是I人。在时刻t21中，说话人数减少到O人。在时刻t22中，说话人数返回到I人。在时刻t23中，说话人数增加到2人。在时刻t24中，说话人数为3人，之后立刻增加到4人。在时刻t25中，说话人数减少到2人。在时刻t26中，说话人数为I人。在时刻t27中，说话人数返回到2人。在时刻t28中，说话人数一时为I人，但立刻返回到2人。在时刻t29中，说话人数为I人。在时刻t30中，说话人数返回到2人。在时刻t31中，说话人数为3人。在时刻t32中，说话人数为2人。
[0060]说话人数判定部124如以上那样判定麦克123周围的说话人的人数。说话人数判定部124经由网络200向控制终端305输出。控制终端305基于其判定结果来控制扬声器122的音量。
[0061]并且，说话人数判定部124基于说话人数判定部124判定出的现在麦克123周围的说话人数以及某一定时间内的过去的麦克123周围的说话人数，计算出周围的说话人数的单纯移动平均(以下，记载为移动平均说话人数)。移动平均说话人数的数据也作为说话人数判定部124判定的结果输出至控制终端305。
[0062]在以下的说明中，控制终端305通过基于程序自动地设定扬声器122的音量，输出控制扬声器122的音量的控制信号，来控制扬声器122的音量。其中，远程操作者也可以通过基于显示于控制终端305的判定结果来操作控制终端305，从而控制扬声器122的音量。具体而言，将控制扬声器122的音量的控制信号从控制终端305输出至控制部125，控制部125根据该控制信号来控制扬声器122的音量。由此，远程操作者能够控制扬声器122的音量。
[0063]这里，说话人数判定部124在麦克123获取到的声音中，将发出一定等级以上的音量的声音的人计数为说话人数，发出小于一定等级的音量的声音的人不计数在说话人数中。“发出一定等级以上的音量的声音的人”是在通常的对人距离中与人进行交谈的人，“发出小于一定等级的音量的声音的人”表示用低声细语、耳语这样小的声音与人进行交谈的人。说话人数判定部124例如将音压等级的阈值设为55dB，将发出其以上的音量的声音的人计数在说话人数中，从而仅将发出一定等级以上的音量的声音的人计数在说话人数中。这是因为相对于一般的交谈的音压等级约为60dB，低声细语的音压等级是30?40dB，通过将音压等级的阈值设为55dB，能够仅将进行一般的交谈的人计数在说话人数中。此外，音压等级的阈值也可以是50dB、40dB等其他的值。
[0064]控制终端305基于被设定的阈值以及由说话人数判定部124计算出的移动平均说话人数，将周围的状态分类成以下的3个状态来进行判定。
[0065]a.多个人正在聊天的状态
[0066]b.比较安静地等待某人开始说话的状态(等待演讲的状态)
[0067]c.特定的人进行演讲的状态或者马上就要进行演讲的状态
[0068]以下，对于详细进行说明。
[0069]在控制终端305，在麦克123周围的说话人数中，作为第一阈值Rl设定有1.5，作为第二阈值R1’设定有2.5，作为第三阈值R2设定有3.5，作为第四阈值R2’设定有4.5。这里第一阈值Rl?第四阈值R2’的大小关系是Rl < Rl’ < R2 < R2’。
[0070]并且，作为移动平均说话人数的一定时间内的倾斜度α (微分值)的阈值设定有第五阈值R3以及第六阈值R3’ (R3以及R3’是任意负数)。这里，第一阈值R1、第二阈值R1’以及第五阈值R3是用于供控制终端305判定周围的状况是特定的人进行演讲的状态等还是等待演讲的状态的阈值。另外，第三阈值R2、第四阈值R2’以及第六阈值R3’是用于供控制终端305判定周围的状况是多个人正在聊天的状态还是等待演讲的状态的阈值。以下，对于具体的控制终端305的判定进行说明。
[0071]如果说话人数判定部124计算出的移动平均说话人数是第三阈值R2以上(即，如果移动平均说话人数是3.5人以上)，则作为原则，控制终端305将周围的状况判定为是多个人正在聊天的状态(状态a)。是因为人数不是少数的人正在进行交谈，所以考虑为周围的状态不是正在进行演讲等的状态，而是正在进行聊天的状态。
[0072]但是，即使移动平均说话人数是第三阈值R2以上，在移动平均说话人数小于第四阈值R2’，并且移动平均说话人数的一定时间内的倾斜度α (微分值)小于第六阈值R3’的情况下，控制终端305也将周围的状况判定为是状态b。换句话说，控制终端305将周围的状况判定为从多个人正在聊天的状态突然过渡到等待演讲的状态。这里第六阈值R3’是被视为在移动平均说话人数小于第四阈值R2’时，移动平均说话人数以倾斜度第六阈值R3’减少，从而在特定时间内(例如3秒以内)移动平均说话人数减少到小于第三阈值R2的值。
[0073]如果说话人数判定部124计算出的移动平均说话人数是第一阈值Rl以上并且小于第三阈值R2，则作为原则，控制终端305将周围状况判定为是安静地等待某人开始说话的状态(状态b)。周围的状态是少数人正在交谈的状态，虽然不是特定的人正在演讲的状态或者演讲马上就要进行的状态，但是也不是周围的人随意地正在聊天的状态。因此，周围的状态考虑为是周围的人等待演讲等，并且少数人正在说话的状态这是妥当的。
[0074]但是，即使移动平均说话人数是第一阈值Rl以上，在移动平均说话人数小于第二阈值R1’，并且移动平均说话人数的一定时刻内的倾斜度α小于第五阈值R3的情况下，控制终端305也将周围的状况判定为是状态C。换句话说，控制终端305将周围的状况判定为从等待演讲的状态突然过渡到特定的人正在进行演讲的状态等。这里第五阈值R3是被视为在移动平均说话人数小于第二阈值R1’时，移动平均说话人数以倾斜度第五阈值R3减少，从而在特定时间内移动平均说话人数减少到小于第一阈值Rl的值。
[0075]如果说话人数判定部124计算出的移动平均说话人数小于第一阈值R1，则控制终端305将周围的状况判定为是特定的人正在进行演讲的状态或者演讲马上就要进行的状态(状态C)。这是因为在麦克123周围的说话人数是I人的情况下，考虑为在周围不进行交谈，而正在进行对于听众的祝辞、致辞、讲演等演讲。另外，在周围的说话人数是O人的情况下，考虑为是麦克123周围的人正在等待马上就要开始的演讲而不说话的状态。
[0076]综上所述，控制终端305如下那样判定麦克123周围的状态是上述状态a、b、c中的哪一个状态。如果移动平均说话人数是第三阈值R2以上，则作为原则，控制终端305判定为麦克123周围的状态是状态a。但是，控制终端305在移动平均说话人数小于第四阈值R2’并且是第三阈值R2以上且移动平均说话人数的倾斜度小于第六阈值R3’的情况下，判定为麦克123周围的状态是状态b。如果移动平均说话人数小于第三阈值R2且是第一阈值Rl以上，则作为原则，控制终端305判定为麦克123周围的状态是状态b。但是，控制终端305在移动平均说话人数小于第二阈值R1’并且是第一阈值Rl以上且移动平均说话人数的倾斜度小于第五阈值R3的情况下，判定为麦克123周围的状态是状态C。如果移动平均说话人数小于第一阈值R1，则控制终端305判定为麦克123周围的状态是状态C。
[0077]图7是表示某特定时刻中的控制终端305的状态判定的处理的一个例子的流程图。以下，对于控制终端305的状态判定处理的例子进行说明。
[0078]控制终端305首先判定移动平均说话人数是否小于第一阈值Rl (步骤SI)。如果移动平均说话人数小

完整全部详细技术资料下载

当前第2页1 2 3 4 5