语音识别装置、响应装置、响应选择装置以及采用这些装置的响应玩具的制作方法

文档序号:2819901阅读:212来源:国知局
专利名称:语音识别装置、响应装置、响应选择装置以及采用这些装置的响应玩具的制作方法
技术领域
本发明涉及一种语音响应装置以及其他一些装置。
充有氦气的气球通常包括其驱动装置一推进器和马达,和一个无线发射机,操作人员通过操纵带有一个无线发射机的本地遥控器上的操纵杆来指挥气球前后、左右和上下移动。
但是,由于是通过遥控器的操纵杆进行控制,气球是被作为一个无生命物来对待的,从而牺牲了气球本身固有的活性。
这个问题可以采用下列装置加以解决。
这种结构包括一个语音选择装置,用于从一组语音中选择和输出用一随机数标志的某一语音作为一个输入信号;一个具有若干麦克风的方向探测装置,从这些麦克风中确定其中输入的语音能量最大的那个麦克风的方向作为所探测的方向;一个带有方位测量仪的方向选择装置,用于根据该方位测量仪所指示的方向确定下一个移动方向;和一个语音识别装置。
本发明还涉及一种包括一个循环存储器的语音别装置,用于在一定时间里循环储存包含在所发出的语音中的声音;一个用于探测声音结束点的语音结束点探测装置;一个语音探测装置,用于从循环存储器中剪切直到语音结束点部分所发的语音;一个特征量提取装置,用于提取特征量,如语音的零交叉值;和一个用于测量发出的语音中发音时间的语音持续时间探测装置;其中需要存储的语音特征量和发音时间已经预先储存作为数据库,需要识别的语音特征量则利用特征量提取装置来确定,发声时间利用语音持续时间探测装置来确定,然后确定语音特征量和数据库中语音发出时间的差别,将所得到的数据库中最接近的语音作为识别的结果。
本发明还涉及一种包括充有氦气或类似气体的反重力装置的响应装置,和用于拉出一根或多根绳索的绳索驱动装置,其中绳索和反重力装置的某一部分相连,反重力装置的机械响应,诸如变形、移动、和动作都是由绳索驱动装置控制的。
下面描述本发明的工作方式。
由语音识别装置识别语音,然后由一个语音选择装置利用从为每一识别结果准备的一组语音中以随机数标志的一个语音输出。并且根据识别的结果,按照语音规程驱动一个动力装置工作。或者,利用识别的结果,由方向探测装置确定下一个移动方向,从而利用动力装置沿所确定的方向移动。另一方面,用方向探测装置探测语音发出的方向,再根据这个方向用方向选择装置确定下一个移动方向,并在动力装置的推动下,按照设计沿所确定的方向移动。作为选择,还可以把所说方向探测装置探测到的方向输入动力装置,则气球也将沿着所探测到的方向移动。


图1为语音选择装置的结构示意图;图2为语音选择装置中输入和输出状态的示意图;图3为语音选择装置的结构示意图;图4为方向探测装置的结构示意图;图5为语音波形和帧幅的示意图;图6为将偏移量作为输入值的方向选择装置结构示意图7为将绝对值作为输入值的方向选择装置结构示意图;图8为说明语音波形、能量、和循环存储器的示意图;图9为说明语音结束点检测方法的示意图;图10为说明语音检测方法的示意图;图11为语音识别装置的结构示意图;图12为包括语音识别装置和语音选择装置的语音响应装置结构示意图;图13为包括方向探测装置和动力装置的语音响应装置结构示意图;图14为包括语音识别装置、方向选择装置和动力装置的语音响应装置结构示意图;图15为包括方向检测装置、方向选择装置和动力装置的语音响应装置结构示意图;图16为包括语音识别装置和动力装置的语音响应装置结构示意图;图17为可用遥控器操纵的语音响应装置结构示意图;图18为说明一个使用了语音响应装置的玩具的示意图;图19为表示本发明的语音识别装置工作方式的流程图;图20是表示词语的时间长度的图示;图21是表示本发明的反重力装置一个实例的响应玩具的示意图;图22是表示本发明的反重力装置一个实例的响应玩具的功能结构示意图;图23是具有本发明的反重力装置的接触检测功能的响应玩具的功能结构示意图24是表示本发明的反重力装置一个实例的响应玩具接触检测功能的电路示意图;图25为表示本发明的反重力装置一个实例的响应玩具猫示意图;图26为表示本发明的反重力装置一个实例的响应玩具经过改进的功能图;图27为表示本发明的反重力装置实例响应玩具的另一个实施例示意图。
下面参照附图,描述本发明的实施例。先描述基本装置,如语音选择装置,方向检测装置和方向选择装置,再描述与语音识别有关的装置,如语音结束点检测装置,语音探测装置,特征量提取装置,和语音识别装置,最后描述由它们结合构成的装置。
语音选择装置102包括一个输入和输出状态105,由在状态s的输入值x(非负整数)和n(s)段输出语音信号sp(x,i)(0≤i<n(s))构成;一个随机数发生装置101,和一个输入和输出状态存储器103(参见图1)。首先假设将图2中的初始状态201储存在输入和输出状态存储器103中。这里,在输入值为x的情况下,选择相应的一组输出语音信号sp(x,i),并由一个随机数发生装置101r(n(s))(其中0≤r(n(s))<n(s))从中确定i值,然后输出语音。这时,状态转换装置104监测输出结果,并改变该输入和输出状态存储器。例如,若在初始状态201输出“你好吗?”,则与此输出对应、借助输入和输出状态105改变到状态202。这样,还能建立一个简单的对话系统。或者,按照图3所示的简单结构,只作出一个响应。
如图4所示,方向探测装置401包括许多麦克风402。例如,在有四个麦克风的情况下,从麦克风m(i)进入的语音s(m(i),t)(0≤i<4)被分成若干帧f(m(i),j)501(0≤j,间隔如16ms)(见图5)。在所划分的帧幅中,确定语音能量e(m(n),j)。将这种能量值e(m(n),j)依次存入长度为1(例如,长度为100)的循环存储器中。每次确定各帧幅的能量,就求出在每个麦克风的上一个帧幅中的能量之和,再确定一个最大的能量和。如果该最大值大于预先通过试验确定的阈值“The”,则认为测量出最大值的麦克风的方向是语音产生的方向,并输出它的麦克风序号i。
如图6所示,根据输入值x(x是一个非负整数),利用偏差计算装置求出与当前方向的偏差,并将此偏差量加入由方位测量仪602测得的方向中,从而将下一个移动方向存储在目标方向存储器603中。偏差计算装置601建立一个输入值x的偏差表,并在偏差值为x的情况下输出一个相应的偏差值。或者,如图7所示,对于输入值x(x是一个非负整数),利用一个方向计算装置701确定一个绝对方向,并将此绝对方向存入该目标方向存储器603中。此方向计算装置701也可以象偏差计算装置601一样,通过将对应于输入值x的方向值建立一个表来实现。当整个装置移动时,在确定目标方向之后,接着由方位测量仪测量其方向,输出所测得的方向与存储在目标方向存储器603中的方向之间的偏差,并通过反馈控制,可使整个装置沿着目标方向移动。
下面描述与语音识别有关的装置。也就是描述语音结束点探测装置,语音检测装置和特征量提取装置。首先将麦克风输入的语音s(t)分成若干帧f(i)(i是一个非负整数,帧间距比如为16ms),并将帧幅中的能量假设为e(i)802(见图8)。这里,每次输入帧幅单位的语音,都确定在一定周期内经历的帧幅能量偏差值,如果这个变化值超过预先从较大一侧到较小一侧确定的试验阈值Thv,就可求出语音结束点。下面描述从在一定周期内的每一帧幅中确定能量偏差值的方法。首先,在采用循环存储器的方法中,从每一帧幅得到的能量被依次存入长度为1的循环存储器803中。每次确定帧幅能量,都从循环存储器中提取一定周期内的过去能量值,并求出其偏差值。在另一种方法中,不使用循环存储器。在保有过去能量的平均值m(i-1)和偏差值v(i-1)的同时,再求出新确定能量e(i)的平均值和过去能量的加权和,以此作为新能量平均值m(i),并求出过去的偏差值v(i-1)与|e(i)-m(i)|的加权和,以此作为新偏差值v(i),从而确定一个寄生能量偏差值。这里,将衰减因子α用为权重因子,由下面所示的公式求出偏差值。α的值为1.02。m(i)=m(i-1)a+a-1ae(i)]]>v(i)=v(i-1)a+a-1a|e(i)-m(i)|]]>按照这种方式,就不需要循环存储器,可以省去这个存储器,并且每次确定新能量值时还可以省略求出一定周期内的能量之和的工作,从而可以缩短处理时间。
图10为语音检测方法的示意图,图11为语音识别装置的结构示意图。
安装一个用于能量值的循环存储器Me803和一个用于修匀能量值的循环存储器Mse902,每次确定帧幅能量时,将能量802存入存储器Me中,修匀能量901存入存储器Mse中。当求取结束点902时,将能量值记录留在这些循环存储器中;如果循环存储器的长度足够长(例如,相当于2秒的长度),则留下一个单词的能量值。在此,从这个存储器中提取发音部分。作为提取这个部分的方法,确定某一阈值Th,在观测循环存储器Me中的能量值时,求出从过去至今第一次超过该阈值的点,并以此点作为语音的开始点。当从语音的终点返回到过去时,超过该阈值的点为语音的结束点,在该开始点和结束点之间的部分就是该发音部分。这里,为了确定阈值Th,在检测语音结束点时,求得存储器Me中的最大值max1001和存储器Mse中修匀能量的最小值min1002,并将下式所示的值确定为阈值Th。Th=min+β(max-min)β是大约为0.07的值。作为修匀方法,可以使用特定窗口中的中间值,但并不限于此,例如,可以使用平均值。因此在确定阈值时,将此能量用为最大值,因为在修匀能量的情况下,当词语长度变化时,最大值偏差较大,所以阈值也发生改变,从而无法得到令人满意的语音检测结果。
其次是从探测到的语音中提取特征量。与能量值一样,从每一帧幅中确定特征量,并将之存储在循环存储器中。这种特征量是由三个分量组成的特征矢量,三个分量是原始信号的零交叉数值、原始信号的微分信号的零交叉数值、和各帧幅的原始信号的对数结果之差。
图11为语音识别装置的结构示意图。
将利用语音结束点探测装置1101、语音探测装置1102、和特征量提取装置1103得到特征量矢量,在一个距离计算装置1104中与一个预先存储的语音特征量矢量数据库1105比较,再将最接近的值作为识别结果输出。按照这种比较方法,能够容易得到矢量之间的欧几里德距离;或者,也可以采用DP匹配方法。
下面描述本发明所用的操作装置。所数操作装置包括,譬如三个带推进器的马达和一个马达驱动装置,当输入下一个移动方向指令时,三个马达受到控制,致使整个应用装置可以沿着该方向移动。
图12为由语音识别装置和语音选择装置构成的语音响应装置结构示意图。
下面描述一个采用这些装置的应用装置。先描述包括这样的语音识别装置1201和语音选择装置1 202的语音响应装置1203(图12)。所数语音识别装置1201中可存储许多语音,并输出与输入的语音最接近的存储语音。作为这个输出,比如对每个被存储的语音都设置一个存储序号。另一方面,在语音选择装置1202中,许多语音都存储成存储序号。当输入某一存储序号时,从这多个语音中随机选择一个,并将其输出。总之,当输入某个语音时,就输出相应的语音,而且,对于同样的输入,该装置作出各种不同的响应。例如,对于“早上好”而言,就有两种响应语音“早上好”和“你好吗?”;一旦识别出“早上好”,即可随机地发出这些响应语音。
图13为一个采用方向检测装置和动力装置的语音响应装置结构示意图。
第二个实例是一个包括方向探测装置1301和动力装置1302的语音响应装置1303,其中像上面所表示的确那样,将方向检测装置1301所得的方向输入到动力装置1302中,于是整个装置沿着该方向移动。
图14为包括语音识别装置、方向选择装置和动力装置的语音响应装置结构示意图。
第三个实例是一个包括语音识别装置1201、方向选择装置1401和动力装置1302的语音响应装置1402,其中将语音识别装置1201的结果输入至方向选择装置1401中,再将它的输出输入至动力装置1302中,以致在把当前方向与目标方向比较时,整个装置移动到目标方向上。例如,假设正北方向为0度和转向东为正方向时,若整个装置向着0度方向,并且在语音识别装置识别出“向右”语音的情况下,通过给单词“向右”赋予+90度的量值,则整个装置的确最终方向为0+90=90度,从而动力装置动作,沿此目标方向移动。这时,随着整个装置移动,将当前的方向与其目标方向进行比较,同时动力装置操纵马达,以便沿着目标方向移动。在本申请中,不使用表示相对方向的词语,如右和左,而使用表示绝对方向如北和东南这样的词语,当目标方向为北时,方向值为0度,而当目标方向为东南时,方向值为-135度。在本申请中,目标方向的范围从-180到+180度。
图15是一个采用方向检测装置、方向选择装置和动力装置的语音响应装置结构示意图。
第四个实例涉及一个语音响应装置1501,该装置包括方向检测装置1301、方向选择装置1401和动力装置1302。与语音响应装置1402的第三实例相同,在该装置中,将方向检测装置1301的检测结果输入到方向选择装置1401中,再将它的输出输入到动力装置1302中,当把整个装置的当前方向与目标方向进行比较时,整个装置就沿着目标方向移动。
图16是采用语音识别装置和动力装置的语音响应装置结构示意图。
第五个实例涉及一个语音响应装置1601,该装置包括语音识别装置1201和动力装置1302,与在语音响应装置1402中一样,在语音响应装置1601中,将语音识别装置1201的识别结果输入到动力装置1302中,整个装置沿着目标方向移动。
图17为一个可通过遥控操纵的语音响应装置的结构示意图。
在这五种语音响应装置中,那些包括语音识别装置1201的装置中另在语音识别装置一侧增加一个信号发送器1701,并在设置在各种结构中语音识别装置的后部的语音选择装置1202、方向选择装置1401或动力装置1302中增加了一个信号接收器1702,从而只有语音识别装置可以用一个本地遥控器在一定距离内进行控制。在本发明中,在信号发送和接收过程中可以采用红外线或无线装置。
将这样的语音响应装置安装到气球上,就可以与气球对话或者控制该气球,并且可以得到利用气球固有活性的玩具。
图18为采用语音识别装置的玩具示意图。
准备两个气球,它们各有一个包含这样的语音识别装置和语音选择装置的语音响应装置1203,并且让两个语音响应装置互相对话,代替操纵者与语音响应装置对话,就能制成一个自由对话的玩具。另外,可以准备多个带语音响应装置的气球,并让它们彼此对话。这时,若在语音识别程序中设置一个滤阻功能,则在每个带语音响应装置的气球中,就可以只对特定的词语有响应,也可以只允许一个气球对特定的发声有响应。例如,可以给每个气球起名,于是就可以只使被呼名字的起名气球有响应。在所数滤阻方法中,当识别该装置时,由内部指令计算出距离,并以试验方式确定阈值,如超过该阈值,就设计成拒收该信号。
这类玩具并不仅仅限于气球,而可用于诸如玩偶和画片。还可以应用于显示中的动画。
图19为按照本发明权利要求25语音识别装置的一个实施例结构示意图。此实施例是通过在图11的语音识别装置中增加一个循环存储器1901和一个语音持续时间检测器1902而实现的。也就是说,循环存储器1901用于在一定的时间里循环储存包含在输入的发声中的语音。语音持续时间检测器1902用于检测由语音检测装置1102测得之语音的持续时间。在数据库1105中,除了语音的特征量以外,还储存了语音发音的持续时间。
以下介绍该实施例的工作方式。
循环存储器1901存储在一定时间里循环输入的语音。语音结束点检测装置1101根据存储在循环存储器1901中的语音检测语音的结束点。在语音结束点检测装置探测语音的结束点时,语音检测装置1102从循环存储器1901中提取语音发音部分。语音持续时间检测器1902检测与此语音发音部分长度对应的语音持续时间。特征量提取装置1103利用所测得的语音检测用于识别的特征量。在如此得到的语音特征量和语音持续时间的基础上,借助于数据库1105和距离计算器1104,将最接近的语音值作为识别结果输出。
本实施例中,根据如此得到的语音特征量和语音持续时间,借助于数据库1105和距离计算器1104,将最接近的语音值作为识别结果输出,但并不限于此,例如,可将存储在数据库1105中的词语按语音持续时间分成若干组,识别时,先识别语音持续时间为特定的一组,并将该组中特征量最接近的语音值作为识别结果输出。图20为表示按语音持续时间将数据库1105中所存词语分组的示意图。也就是说,A和B属于同一语音组。C和D属于同一组,但是这一组与A和B构成的组不同。
以下参见图21,描述本发明的其他情况响应装置的实施例。
在该示意图中,所述响应装置包括充有氦气或者类似气体的球形反重力装置2101,作为放出或卷绕细绳索2102的绳索驱动装置一部分的皮带轮2103,用于旋转和驱动皮带轮2103的电机2104,和一个将电机2104的转矩传送到皮带轮2103上用的传送带2105。细绳索2102与反重力装置2101的某一部分相连,该反重力装置2101的机械响应,如变形、移动和动作都通过皮带轮2103和电机2104起作用。
该响应装置还具有麦克风2106,用于探测人的语音;包含CPU和ROM的控制电路2107识别从麦克风2106中输入的语音,并向各个部分发出特定输出信号;以及一个作为响应动作用于传递声音的扬声器2108。所述反重力装置2101的表面,画有一个带有兴奋表情的人脸。
安装诸如皮带轮2103、电机2104、麦克风2106和控制电路2107等部分的主体2109有一平坦的底部,从而使其能够安装在地板上。主体2109上部有一个孔,绳索2102通过该孔上下运动。
在如此构成的实施例中,其工作方式如下所述。
根据从麦克风2106输入的人的语音,利用控制电路2107的作用,从扬声器2108中输出一个语音。在发出输出语音的同时,电机2104开始转动。
举例来说,通过让电机2104交替地顺时针和逆时针转动,该反重力装置2101就可以作出点头的动作。
这时,如果转动电机2104,使绳索2102完全放开,则反重力装置2102慢慢地向上飘浮,在接近上限的时刻,电机2104反向旋转将绳索2102回绕,致使该反重力装置2101突然下降,于是可以形成一个非常有趣的动作。
特别是,由于外部条件,如风的影响,反重力装置2101的这种动作可以表现为出乎预料的运动,并且可以作出非常拟人的和热情的动作。这种效果是用固定的机械动作所无法得到的。
本发明所用的绳索并不是指狭义的绳索,而是包括缆带、软金属线和其他广义的绳索。
上述实施例中采用如图21所示的响应装置,但是并不局限于此,譬如可采用如图27所示的结构。
这就是,采用一对鞋形固定部分2701a、2701b,用挠性纸制成的相当于腿的伸缩软管形部分2702a、2702b从这两个鞋形部分向上延伸。在腿部2702a、2702b的上面装有球形反重力装置2703,作为对应于身体上半部的部分。反重力装置中充有氦气或者类似的气体,一根细绳索2705与其下部相连。作为对应于胳膊的部分2704a、2704b,从反重力装置2703两侧,向左和向右倾斜向下延伸。固定部分2701a中安装有麦克风、扬声器、控制电路和其他部件。固定部分2701b中,安装有电机、皮带轮和其他部件。绳索2705的一端与该皮带轮相连。借助电机的旋转动作,反重力装置2703作出点头和其他动作,这与上述实施例基本相同。本图显示了两条腿的伸展状态。
以下参见一个表,描述本发明在不同情况下的一个响应选择装置的实施例。
该响应选择装置具有一组输入,和由与各个输入对应的多个语音响应和多个机械反应构成的多个输入和输出状态,其中选择一个语音响应和机械响应,并对应于一个输入而输出,将此状态改变到多个输入和输出状态中的一种,并根据输入和输出的过去经历确定下一个输入和输出。
基本工作情况与在图1到图3的实施例中所做的说明是一样的。
下面参照该表说明与上述装置的主要不同点。
<初始状态>
输入 输出语音机械响应0早上好 早上好 模式0很好 模式11你好吗?下午好 模式0很好 模式12Smiley?什么? 模式2这里,模式0表示对“早上好”和“你好吗?”响应的慢动作,模式1表示对于“你好吗?”响应的快动作。模式2表示更快的动作。
以图21中所示的响应装置为例加以说明。这个响应装置名叫Smiley。
也就是说,在初始状态下,人们说“你好吗?”问候Smiley,Smiley将这个语音输入控制电路,并发出一个输出语音“很好”。这时的动作规定为模式1,表现为一个快速动作。
在Smiley答复“很好”之后,动作满足下表中所示输入、输出语音,以及机械响应间的关系。
<与“很好”相应的输入和输出状态>输入输出语音机械反应0 我们去哪儿?模式1我们干什么?模式11 你们干得怎么样?模式2加油 模式1歇一会儿怎么样?模式3
现在参照图22描述本发明其他情况的一个响应玩具的一个实施例。
如图所示,这个实施例中的响应玩具包括充有以氦气为主的反重力装置(未画出)、语音识别装置2201、用于接收识别结果并确定语音响应及机械响应的响应选择装置2202,用于发出语音响应结果的语音输出装置2203,和根据机械响应结果驱动所述反重力装置的响应装置2204。
图25中表示本实施例的一个特别应用实例。
如图所示,主体2501为一个形状象猫的反重力装置,它充有氦气。图22中所示响应玩具的控制及驱动装置2502被置于主体2501的腹部。
如图25所示,控制及驱动装置2502有绳索A,用于开启和关闭设在主体2501的嘴部的嘴,绳索B用于移动尾部的尾巴,还有绳索C、D、E、F用于驱动脚爪部分的脚爪。
在这种结构中,当人们对主体2501讲话时,由语音识别装置2201对此语音进行识别,再由响应选择装置2202选择输出语音,如“早上好”,并从语音输出装置2203中发出这个声音。在发出语音的同时,猫主体的各个部分根据机械响应模式移动。
图25是表示与本发明权利要求30一致的响应玩具实施例的确示意图。图23是与该响应玩具有关装置的结构示意图。图25中所示的猫主体2501是一个充有氦气的反重力装置。图23中响应玩具的装置被存放于图25中的区域2502中。响应玩具的装置2502是在图22中所示的装置中增加了一个接触探测器2301的结构。接触探测器2301是一个设置在主体2501整体或者局部的镀铝或用树脂涂覆的触摸传感器。如图24所示,当人触摸这个包覆着触摸传感器的猫(它是一个反重力装置)时,该接触就被测知。
当人对响应玩具讲话和/或触摸此响应玩具时,该响应玩具的响应的实例被表示如下。
语音输入触摸输入输出语音机械响应0 早上好 模式0你好吗?模式11 下午好 模式0你好吗?模式12 什么? 模式20 喵 模式31 呜 模式1当人对该响应玩具讲话时,这对应于一组语音输入。例如,当语音输入0为“早上好”时,语音识别装置2201识别该语音,响应选择装置2202选择语音“早上好”,并从语音输出装置将此声音传送出去。与输出这个声音的同时,对应于“早上好”的语音输入,选择装置2202选择与此响应装置相应的机械响应模式。所述机械响应模式体现为猫特定部分动作的速度和/或幅度。在图25所示的实施例中,这些特定部分为A、B、C、D、E和F。也就是说,当摇尾巴时,绳索B动作,当张开或闭上嘴巴时,绳索A动作。
当人触摸该响应玩具时,对应于一组触摸输入。例如,触摸输入0是在猫的颈部,此触摸位置被接触探测器2301检测出来,同时响应选择装置选择语音“喵”,并从语音输出装置2203中传送出来。与输出语音的同时,对应于此触摸输入,选择装置2202选择与此响应装置对应的机械响应。在这种情况下,比如猫摇它的尾巴。
本实施例的语音识别装置也可以用权利要求25或26中的语音识别装置实现。
此外,如图26所示,语音识别装置2201可以装备一个语音检测装置2601和一个能量检测装置2602,可以根据输入语音的语音能量改变机械响应的模式。因此,通过大声命令“别动”,则尾巴的摇动就会停止,同时图25中的绳索B就会被拉动,使尾巴位于后爪处,从而能够实现更象动物的表现。
通过预置权利要求1所述的多种输入和输出状态,以及根据输入和输出的过去经历改变这种输入和输出状态,可以实现简单的对话。或者通过对于一种输入预置多种输出,一种输入可以对应多种响应,而不总是同一种响应。
通过包括权利要求4所述的多个麦克风,并通过检测接收最大能量的麦克风,可以检测出语音发出的方向。
通过装备权利要求5所述的方位测量仪,可将整个装置正确地定向到输入方向。
通过采用权利要求8所述的特征量,权利要求9所述的语音识别装置利用权利要求6所述的语音结束点检测装置首先确定语音的结束点,再利用权利要求7所述的语音探测装置自动确定阈值,并提取语音部分来识别语音。在本申请中,阈值是利用语音检测装置根据循环存储器中能量的最大值和修匀能量的最小值确定的,而这个阈值是用来与发声部分的长度对应的。
权利要求10所述的语音响应装置通过将权利要求l所述的语音识别装置和语音选择装置相结合而形成人-机对话界面,在这个界面中,人说话,机器应答。
通过结合权利要求11所述的方向探测装置和动力装置,整个装置可以对应于语音而移动,从而可以建立装置对于语音的响应。
如权利要求12所述,通过结合语音识别装置、方向选择装置和动力装置,整个装置能够沿着语音内容中指定的方向正确移动。
如权利要求13所述,通过结合方向探测装置、方向选择装置和动力装置,整个装置能够沿着语音的方向正确移动。
如权利要求14所述,通过结合语音识别装置和动力装置,整个装置可沿着由语音内容所指定的方向移动。
通过在语音识别装置中增加一个信号发送器,在各个装置中的语音识别装置后面的装置中增加一个信号接收装置,权利要求15、16、17中的语音响应装置可用遥控器控制。
如权利要求18和19所述,准备两个或多个权利要求10所述的语音响应装置,并将它们面对面设置,就可以制造出自动对话的玩具。
如权利要求20、21、22、23、24所述,通过将权利要求10、11、12、13、14所述的语音响应装置附在气球上,就可以制成一个具有气球的固有热情的讲话玩具。此外,通过配置一个时钟,在预定的时间传送一个适当的语音,就可以制成一个由机器讲话,而不是由人讲话的装置。
在权利要求25和26中,由于考虑了词语持续时间长度,语音识别非常容易。
在权利要求27到33中,由于使用了比如绳索,所以能够实现更加自然的动作。
权利要求
1.一种包括多个输入和输出状态的语音选择装置,这些状态由一组输入和与各输入对应的多种语音组成,该装置选择并输出一种输入对应的语音,然后转换到所说多个输入和输出状态中的一个状态,并根据输入和输出的过去经历确定下一个输入和输出状态。
2.一种如权利要求1所述的语音选择装置,其特征在于只有一种输入和输出状态,并根据输入从多种语音中选择并输出一种语音。
3.一种如权利要求1所述的语音选择装置,其特征在于在从多种语音中选择一种语音的方法中采用随机数。
4.一种方向探测装置,它包括多个麦克风,其特征在于多个麦克风中输入语音能量最大的一个麦克风的方向被作为探测的方向。
5.一种方向选择装置,它包括一个方位测量仪,其特征在于通过顺序地输出一个正在改变其方向的装置的目标方向与由该方位测量仪所指示的方向之间的偏差而引导该装置正确地移向目标方向。
6.一种语音结束点检测装置,用于接收语音,将语音划分成多个帧幅,确定由每个帧幅中的能量组成的能量序列,当该能量序列的变化量小于通过试验预设的一个阈值时,确定此语音的一个结束点。
7.一种语音探测装置,它包括一个用于检测语音结束点的语音结束点检测装置和一个关于规定时间的循环存储器,其特征在于将每一帧幅的能量顺序地存储在所述循环存储器中,当语音结束点检测装置测得语音结束点时,确定存储在循环存储器中一个能量序列中的最大值并通过修匀所说能量序列而得到的一个修匀能量序列中的最小值,从该最大值和最小值得出一个阈值,再对照此能量序列,确定一个从第一部分到最后部分大于该阈值的部分作为一个语音发音部分。
8.一种特征量提取装置,它包括一个语音检测装置,其特征在于在所测得之语音的每一帧幅中,将原始信号的零交叉值、原始信号微分信号的零交叉值和原始信号能量确定作为该帧幅的特征量矢量。
9.一种语音识别装置,它包括一个如权利要求6所述的语音结束点检测装置,一个如权利要求7所述的语音检测装置,和一个如权利要求8所述的特征量提取装置,其特征在于利用所述特征量提取装置将需要存储的语音特征量作为数据库预先存储,利用所说特征量提取装置确定需要识别的语音特征量,确定所得到的特征量到数据库中的特征量的距离,将数据库中最接近的语音确定为识别结果。
10.一种语音响应装置,它包括如权利要求1所述的一个语音识别装置和一个语音选择装置,其特征在于对一个输入的语音产生一个响应。
11.一种语音响应装置,它包括如权利要求4所述的一个方向检测装置,和一个动力装置,其特征在于所述动力装置根据所述方向检测装置的结果而被驱动。
12.一种语音响应装置,它包括一个语音识别装置、一个如权利要求5所述的方向选择装置,和一个动力装置,其特征在于所述语音识别装置的输出被用作所述方向选择装置的输入,并且根据该方向选择装置的输出驱动所述动力装置。
13.一种语音响应装置,它包括如权利要求4所述的一个方向检测装置,如权利要求5所述的一个方向选择装置,和一个动力装置,其特征在于所述方向探测装置的输出被用作所述方向选择装置的输入,并且根据所述方向选择装置的输出驱动所述动力装置。
14.一种语音响应装置,它包括一个语音识别装置和一个动力装置,其特征在于根据所述语音识别装置的输出驱动所述动力装置。
15.一种如权利要求10所述的语音响应装置,其特征在于在所述语音识别装置中设置一个信号发送装置,在所述语音选择装置中设置一个信号接收装置,从而能够进行遥控。
16.一种如权利要求12所述的语音响应装置,其特征在于在所述语音识别装置中设置一个信号发送装置,在所述方向选择装置中设置一个信号接收装置,从而能够进行遥控。
17.一种如权利要求14所述的语音响应装置,其特征在于在所述语音识别装置中设置一个信号发送装置,在所述动力装置中设置一个信号接收装置,从而能够进行遥控。
18.一种玩具,它包括两个如权利要求10所述的语音响应装置,其特征在于所说的两个语音响应装置彼此对话。
19.一种玩具,它包括多个如权利要求10所述的语音响应装置,其特征在于其他语音响应装置中的一部分语音响应装置对由一个语音响应装置发出的语音作出响应,因此所述多个语音响应装置彼此对话。
20.一种玩具,它包括一个如权利要求10所述的语音响应装置和一个气球,其特征在于对于一个输入语音作出响应。
21.一种玩具,它包括一个如权利要求11所述的语音响应装置和一个气球,其特征在于它沿着语音发出的方向移动。
22.一种玩具,它包括一个如权利要求12所述的语音响应装置和一个气球,其特征在于它沿着由输入语音指示的方向移动。
23.一种玩具,它包括一个如权利要求13所述的语音响应装置和一个气球,其特征在于它沿着语音发出的方向移动。
24.一种玩具,它包括一个如权利要求14所述的语音响应装置和一个气球,其特征在于它沿着由输入语音指示的方向移动。
25.一种语音识别装置,它包括一个循环存储器,用于在规定的时间里循环存储包含发音的语音,一个用于检测所说语音的结束点的语音结束点探测装置,一个用于从所说的循环存储器中剪切一个语音发音部分直到所说的结束点的语音检测装置,一个用于提取特征量如语音零交叉值的特征量提取装置,和一个语音持续时间检测装置,用于测量在所说语音发音部分中的语音发音时间,其特征在于将需存储的语音特征量和语音发出时间预先存储为一个数据库,由特征量提取装置确定需被识别的语音特征量,由语音发音时间检测装置确定语音发音时间,确定所述语音特征量与所述数据库中语音发音时间之间的距离,然后将得到的数据库中最接近的语音作为识别结果。
26.一种如权利要求25所述的语音识别装置,其特征在于将存储在所述数据库中的多个词语划分成语音发音时间的特定时间不同的词语组,识别语音时先检测语音发音时间,再选择对应于已测得时间的词语组,继而,在同一词语组的各词语中,选择由特征量提取装置提取的特征量不同的一个词语。
27.一种响应装置,它包括充有氦气或类似气体的反重力装置,和用于引导一根或多根绳索的绳索驱动装置,其特征在于所述绳索与所述反重力装置的某一部分相连,由所述绳索驱动装置控制所述反重力装置的机械响应,如变形、移动和动作等。
28.一种响应选择装置,它具有(1)一组输入,(2)包括与所述各输入对应的多个语音响应的多种输入和输出状态,和(3)多个机械响应,其特征在于对于一个输入选择一个语音响应和一个机械响应,并输出之,将所述状态变换成所述多个输入和输出状态中的一个状态,并根据输入和输出的过去经历确定下一个输入和输出。
29.一种响应玩具,它包括充有氦气或类似气体的反重力装置,一个语音识别装置,一个如权利要求28所述的响应选择装置,用于接收识别结果并确定一个语音响应和一个机械响应,用于发出所确定的语音响应的语音输出装置,和一个如权利要求27所述的响应装置,用于根据所确定的机械响应驱动所述反重力装置。
30.一种响应玩具,它包括充有氦气或类似气体的反重力装置,一个语音识别装置,一个具有触摸传感器的接触探测装置,所述触摸传感器设置在所述反重力装置的整个表面或者一部分表面上,用于输出手或类似部分的触摸检测,一个如权利要求28所述的响应选择装置,用于接收识别结果和触摸检测结果并确定语音响应和机械响应,用于发出语音响应结果的语音输出装置,和一个如权利要求27所述的响应装置,用于根据机械响应的结果驱动反重力装置。
31.一种如权利要求29所述的响应玩具,其特征在于所述语音识别装置是一个如权利要求25或权利要求26所述的语音识别装置。
32.一种如权利要求30所述的响应玩具,其特征在于所述语音识别装置是一个如权利要求25或26所述的语音识别装置。
33.一种如权利要求31或32所述的响应玩具,其特征在于所述语音识别装置包括用于检测发出的语音能量的能量检测装置,所述响应装置控制机械响应的幅度以使其相应于所发语音的能量。
全文摘要
一种响应装置,具有充有氦气的反重力装置,和用于引导多根绳索的绳索驱动装置,所述绳索与所述反重力装置的某一部分相连,所述反重力装置的机械响应如变形、移动和动作等都由该绳索驱动装置控制。
文档编号G10L15/22GK1140295SQ96106098
公开日1997年1月15日 申请日期1996年3月31日 优先权日1995年3月31日
发明者萱岛一弘, 松川善彦, 松井谦二, 前川英嗣 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1