标准图形生成装置和方法以及计算机可读的记录媒体的制作方法

文档序号:2834384阅读:188来源:国知局
专利名称:标准图形生成装置和方法以及计算机可读的记录媒体的制作方法
技术领域
本发明涉及语音识别中的生成表达效率高的标准图形的标准图形生成装置和标准图形生成方法以及记录了实现该方法的标准图形生成程序的计算机可读媒体。
用字音识别来进行输入声音与字的标准图形的图形选配并输出该选配的距离最小的字作为识别结果的方法是一般的方法。通常,标准图形是字输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列。这里,T是字长度(帧数)。但是,在像上述那样保持标准图形时,因为帧数T因字而异,所以,标准图形的大小也因字而异,即使决定了字数,也不能决定用来保持标准图形的存储器的容量。帧数T的值越大,用来保持标准图形的存储器的容量就越大。因此,一直在研究沿时间轴压缩输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列,不依字的帧数T来生成一定状态数J(>1)的标准图形的装置和方法。


图17是例如日本公开专利JP-A-64-44997中所揭示的那种原来的标准图形生成装置的一构成例方框图,图中,1是输入声音信号2的输入端,3是进行输入声音信号2的音响分析的分析器,4是作为输入声音信号2的音响分析结果的特征矢量的时间序列,5是由特征矢量的时间序列4生成初始标准图形6的初始标准图形生成器,7是由初始标准图形6生成标准图形8的标准图形生成器。
下面来说明动作。
当由发声者从输入声音信号的输入端1输入标准图形生成用的声音时,分析器3对来自该输入端1的输入声音信号2进行A/D变换,并对每个称之为帧的短的时间区间进行音响分析,同时从数字声音信号切出声音区间,计算并输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。这里,T是从数字声音信号抽出的声音区间的全部帧数即特征矢量数。因为正确切出声音区间是困难的,所以在首尾数帧内包含有间歇区间。在该例中,取特征矢量X(t)为由例如LPC(线性预测)得到的LPC倒频谱。
初始标准图形生成部5把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照以下说明的步骤来生成标准图形的初始标准图形6。该初始标准图形6的生成步骤的流程表示在图18上。
在图18所示的步骤ST101中,初始标准图形生成部5把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4沿时间轴方向分割为J(>1)个小区间B(1),B(2),B(3),…,B(J),使任何两个相邻接的小区间都不重迭,而且在可能的情况下使它们均等。此时,用以下的(1)式~(3)式来求出各小区间B(j)的开始帧sz(j)和结束帧ez(j)。
L=[T/J](1) 在上述(1)式中,[.]表示进行四舍五入取整数的运算。
把帧数即特征矢量X(1),X(2),X(3),…,X(T)的数取为T=15,小区间B(1),B(2),B(3),…,B(J)的数即标准图形的状态数取为J=5的情况下的上述分割的情况表示于图19中,如图所示,特征矢量X(t)的时间序列4的特征矢量X(1)~X(3)被均分为小区间B(1),特征矢量X(4)~X(6)被均分为小区间B(2),…,特征矢量X(13)~X(15)被均分为小区间B(5)。
然后进到步骤ST102,按照下面所示的(4)对每个在上述步骤ST101分割的各小区间B(j)式把属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,生成初始值Rz(j),(j=1,2,3,…,J)。Rz(j)=1ez(j)-sz(j)+1Σk=sz(j)ez(j)X(k)----(4)]]>把状态数取为J=5的情况下的初始值Rz(j),(j=1,2,3,…,J)的生成的情况表示于图19。如图所示,把属于小区间B(1)的特征矢量X(1)~X(3)的时间序列4的部分取平均值,生成初始值Rz(1),把属于小区间B(2)的特征矢量X(4)~X(6)的时间序列4的部分取平均值,生成初始值Rz(2),…,把属于小区间B(5)的特征矢量X(13)~X(15)的时间序列4的部分取平均值,生成初始值Rz(5)。
按照上述的平均值处理,就能求出属于由下面(5)式计算的小区间B(j)的特征矢量X(sz(j))~X(ez(j))与初始标准图形的各状态Rz(j)的欧几里德距离之和D(j)达到最小值的那个初始值Rz(j)。D(j)=Σk=sz(j)ez(j)|Rz(j)-X(k)|2-----(5)]]>结束由初始标准图形生成部5进行的初始标准图形6的生成处理。
标准图形生成部7以由初始标准图形生成部5生成的多个状态即Rz(1),Rz(2),Rz(3),…,Rz(J)构成的初始标准图形6和来自分析器3的输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照以下的步骤生成由用Rz(1),Rz(2),Rz(3),…,Rz(J)表示各状态的多个状态构成的标准图形。该标准图形的各状态Rz(j)的生成步骤的流程表示在图20中。
标准图形生成部7首先在步骤ST201把学习次数计数器的值c设定为0;然后进到步骤ST202,按照以下的(6)式把初始标准图形的各状态Rz(j),(j=1,2,3,…,J)复制为中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)。
R(c)(j)=Rz(j),(j=1,2,3,…,J)(6)该(6)式中的(c)就是上述学习次数计数器的值。
接着在步骤ST203,把标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4一一对应。作为这种对应,使用维特比算法进行对应,使以下所述的图形选配距离D最小。维特比算法是用下面表示的(7)式和(8)式进行初始设定,然后用(9)式和(10)反复进行渐进运算,图形选配距离D由下面的(11)式给出。
G(t,0)=∞,t=0~T (7)G(1,1)=|X(1)-Rz(1)|2(8)G(t,j)=|X(t)-Rz(j)|2+min{G(t-1,j),G(t-1,j-1)}(9) D=G(T,J) (11)这里,G(t,j)是累积维特比距离,BTK(t,j)是折回信息,D是输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列与中间标准图形的各状态R(c)(1),R(c)(2),R(c)(3),…,R(c)(J)的图形选配距离。(9)式中的min{.,.}是选择最小值的运算符。
按照上述(9)式和(10)式进行的渐进运算之后,从帧T开始沿时间轴逆向跟踪前述折回信息BTK(t,j),就能够得到由上述(11)式给出的使图形选配距离D最小的中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的对应。以下把该对表称之为维特比路径。在该步骤ST203,还根据该维特比路径求出J个新的各小区间B'(j),(j=1,2,3,…,J)的开始帧s'(j)和结束帧e'(j)。
接着进到步骤ST204,用下面的(12)式对上述步骤ST203中分割出来的每个小区间B(j)求属于各小区间B(j)的特征矢量X(t)的时间序列4,由此来求出中间标准图形的更新状态R(c+1)(j),(j=1,2,3,…,J)。R(c+1)(j)=1e′(j)-s′(j)+1Σk=s′(j)e′(j)X(k)----------(12)]]>这里,s'(j)是各小区间B'(j)的开始帧,e'(j)是其结束帧。
接着在步骤ST205,把学习次数计数器的值c加1,然后在步骤ST206判断该学习次数计数器的值c是否达到了预先设定的规定次数(阈值CC)。其结果,如果学习次数计数器的值c已经达到了相应的阈值CC,就分路到步骤ST207,把更新的中间标准图形的各状态R(c)(1),R(c)(2),R(c)(3),…,R(c)(J)作为标准图形输出,并结束该标准图形生成步序。另一方面,如果学习次数计数器的值c未达到相应的阈值CC,就返回步骤ST203,重复进行上述标准图形生成步序的处理。通过反复进行该标准图形生成步序的处理就能够把前述图形选配距离D收敛到局部最小值。所谓该图形选配距离D小,是说标准图形是压缩信息量的缺损少的表达效率高的标准图形。
因为原来的标准图形生成装置像以上那样构成,所以,在初始标准图形生成部5中,只决定属于各小区间B(j),(j=1,2,3,…,J)的特征矢量X(t),并求出各初始值Rz(j),使属于各小区间的特征矢量X(t),(t=sz(j)~ez(j))与初始标准图形的各状态Rz(j)的欧几里德距离之和D(j)达到最小。因此,在标准图形生成部7中,即使根据图形选配距离D的最小化基准再次进行一一对应的情况下,大多数的情况也是与被分配到前面的各小区间B(j),(j=1,2,3,…,J)相同的特征矢量的时间序列4的部分属于再次新对应的小区间B'(j),(j=1,2,3,…,J)。即大多被陷落到初始标准图形,标准图形的更新有可能按不太好的局部最小值收敛。
本发明的目的就是为解决上述的问题,提供一种能够降低按不太好的局部最小值收敛标准图形的更新的现象并能够生成表达效率高的标准图形的标准图形生成装置、标准图形生成方法以及记录了该标准图形生成程序的记录媒体。
按照本发明的标准图形生成装置设置有初始标准图形生成器和标准图形生成器;初始标准图形生成器把由声音信号生成的特征矢量的时间序列分割成任何两个邻接的小区间相互重叠的多个小区间,再对属于各小区间的特征矢量的时间序列的部分取平均值来生成初始标准图形;标准图形生成器把由初始标准图形生成器生成的初始标准图形的各状态按照图形选配一一对应,并对对应于各状态的特征矢量的时间序列的部分取平均值来更新初始标准图形,由此来生成标准图形。
按照本发明的标准图形生成装置,初始标准图形生成器把特征矢量的时间序列分割为多个小区间,在可能的情况下全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等。
按照本发明的标准图形生成装置,初始标准图形生成器一面把声音信号的空缺部分和声音部分区分开,一面把特征矢量的时间序列分割为多个小区间,以便把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分。
按照本发明的标准图形生成装置,初始标准图形生成器从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。
按照本发明的标准图形生成装置,初始标准图形生成器设置有第一初始标准图形生成器、第二初始标准图形生成器和第三初始标准图形生成器;第一初始标准图形生成器把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始标准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;第二初始标准图形生成器把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始标准图形,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分;第三初始标准图形生成器从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始标准图形,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内;标准图形生成器还设置有标准图形选择器,用来根据第一到第三初始标准图形生成三个标准图形,并进行由标准图形生成器生成的各标准图形与特征矢量的时间序列的图形选配,再选择图形选配距离最小的标准图形。
按照本发明的标准图形生成方法,包括把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的分割步骤;对属于各小区间的特征矢量的时间序列取平均值,来生成初始标准图形的初始标准图形生成步骤;根据图形选配进行所生成的初始标准图形的各状态与特征矢量的时间序列的一部分的一一对应,再对对应于各状态的特征矢量的时间序列的一部分取平均值来生成更新初始标准图形的标准图形的标准图形生成步骤。
按照本发明的标准图形生成方法,分割步骤把特征矢量的时间序列分割为多个小区间,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等。
按照本发明的标准图形生成方法,分割步骤把特征矢量的时间序列分割为多个小区间,把声音信号的空缺部分和声音部分区分开的同时,把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分。
按照本发明的标准图形生成方法,分割步骤从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。
按照本发明的标准图形生成方法,分割步骤和初始标准图形生成步骤是生成第一初始标准图形的生成步骤、生成第二初始标准图形的生成步骤和生成第三初始标准图形的生成步骤;生成第一初始标准图形的生成步骤把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始标准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;生成第二初始标准图形的生成步骤把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始标准图形;生成第三初始标准图形的生成步骤从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始标准图形;标准图形生成步骤还具有选择图形选配距离最小的标准图形选择步骤,用来根据第一到第三初始标准图形生成三个标准图形,并进行所生成的各标准图形与特征矢量的时间序列的图形选配,再选择图形选配距离最小的标准图形。
按照本发明的计算机可读媒体,记录了计算机可执行的步骤的标准图形生成程序,这些步骤包括把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的分割步骤;对属于各小区间的特征矢量的时间序列取平均值,来生成初始标准图形的初始标准图形生成步骤;根据图形选配进行所生成的初始标准图形的各状态与特征矢量的时间序列的一部分的一一对应,再对对应于各状态的特征矢量的时间序列的一部分取平均值来生成更新初始标准图形的标准图形的标准图形生成步骤。
按照本发明的计算机可读媒体,分割步骤把特征矢量的时间序列分割为多个小区间,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等。
按照本发明的计算机可读媒体,分割步骤把特征矢量的时间序列分割为多个小区间,把声音信号的空缺部分和声音部分区分开的同时,把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分。
按照本发明的计算机可读媒体,分割步骤从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。
按照本发明的计算机可读媒体,分割步骤和初始标准图形生成步骤是生成第一初始标准图形的生成步骤、生成第二初始标准图形的生成步骤和生成第三初始标准图形的生成步骤;生成第一初始标准图形的生成步骤把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始标准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;生成第二初始标准图形的生成步骤把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始标准图形,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分;生成第三初始标准图形的生成步骤从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始标准图形,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内;标准图形生成步骤还具有选择图形选配距离最小的标准图形选择步骤,用来根据第一到第三初始标准图形生成三个标准图形,并进行所生成的各标准图形与特征矢量的时间序列的图形选配,再选择图形选配距离最小的标准图形。
图1是按照本发明的实施例1的标准图形生成装置的方框图。
图2是实施例1中的重叠初始值生成器的动作顺序流程图。
图3是实施例1中的重叠初始值生成器的动作的说明图。
图4是实施例1中的标准图形生成器的动作顺序流程图。
图5是实施例1中的标准图形与特征矢量的时间序列的对应关系的概要说明图。
图6是按照本发明的实施例1的标准图形生成方法的流程图。
图7是按照本发明的实施例2的标准图形生成装置的方框图。
图8是实施例2中的空缺区别重叠初始值生成器的动作顺序流程图。
图9是实施例2中的空缺区别重叠初始值生成器的动作概要说明图。
图10是按照本发明的实施例2的标准图形生成方法的流程图。
图11是按照本发明的实施例3的标准图形生成装置的方框图。
图12是实施例3中的频谱变化重叠初始值生成器的动作顺序流程图。
图13是实施例3中的频谱变化重叠初始值生成器的动作说明图。
图14是按照本发明的实施例3的标准图形生成方法的流程图。
图15是按照本发明的实施例4的标准图形生成装置的方框图。
图16是按照本发明的实施例4的标准图形生成方法的流程图。
图17是原来的标准图形生成装置的方框图。
图18是原来的初始值生成器的动作说明图。
图19是原来的标准图形生成装置中的初始值生成器的动作概要说明图。
图20是原来的标准图形生成装置中的标准图形生成器的动作顺序流程图。
以下来说明本发明的实施例。
实施例1图1是表示本发明的标准图形生成装置的构成的一例的方框图。图1中,1是输入声音信号2的输入端,3是进行该输入信号2的音响分析的分析器(分析装置),4是作为分析器3进行的输入信号2的音响分析结果的特征矢量的时间序列。9是初始标准图形生成器(初始标准图形生成装置),用来把特征矢量的时间序列4切分为区间长相等且任意两个邻接的小区间都相互重叠的多个小区间,并对属于这些各个小区间的特征矢量的时间序列4的部分取平均值来生成由多个状态构成的初始标准图形10;7是标准图形生成器(标准图形生成装置),用来根据图形选配把由分析器3输出的特征矢量的时间序列4与初始标准图形生成器9生成的初始标准图形10的各状态一一对应起来,并对与各个状态的每个状态相对应的特征矢量的时间序列4的部分取平均值来更新初始标准图形10,由此来生成标准图形8。
下面来说明动作。
首先,发声者从输入端1输入标准图形生成用的声音信号,一旦从输入端1输入了输入声音信号2,分析器3就对该信号进行A/D变换,并对每个称之为帧的短的时间区间进行音响分析,同时,根据各帧内的音响分析结果切分出声音区间,并计算与该声音区间有关的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。此外,对每帧生成了各特征矢量。上述T是从数字声音信号中提取出来的声音区间的全部帧数。因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。即使在实施例1中,特征矢量X(t)也是用例如LPC(线性预测)分析得到的LPC频谱。
初始标准图形生成器9把由该分析器3对输入声音信号2的音响分析结果即特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照以下说明的顺序生成初始标准图形10,该初始标准图形10的生成顺序表示于图2的流程图。
在图2所示的流程图的步骤ST301中,初始标准图形生成器9首先把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4沿时间轴分割成为J(J>1)个小区间B(1),B(2),B(3),…,B(J)。这时,在可能的情况下,这些小区间全都均等,否则除B(J)之外全都均等,任意相邻接的两个小区间也部重叠。这时,用以下的(13)式~(15)来求出各小区间B(j)的开始帧s(j)和结束帧e(j)。
L=[T/J](13)s(j)=(j-1)*L+1 (14) 还有,上述(13)式中的[.]表示四舍五入取整数运算。
在(15)式中,K是预定的常数,是控制各小区间B(j)的重叠帧数的重叠参数。例如设帧数T即特征矢量X(1),X(2),X(3),…,X(T)的数T=15,小区间B(1),B(2),B(3),…,B(J)的数即标准图形的状态数J=5,重叠参数K=2,这时的分割情况表示于图3。这样,特征矢量X(t)的时间序列的特征矢量X(1)~X(5)被分割到小区间B(1),特征矢量X(4)~X(8)被分割到小区间B(2),…,特征矢量X(13)~X(15)被分割到小区间B(5),它们相互重叠。
然后进到步骤ST302,对上述步骤ST301分割的各小区间B(j)的每个小区间,根据下面所示的(16)式对属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,生成各个初始值R1(j),(j=1,2,3,…,J)。R1(j)=1e(j)-s(j)+1Σk=s(j)e(j)X(K)-----(16)]]>
图3中表示了各个初始值R1(j),(j=1,2,3,…,J)作成的情况。如图所示,属于小区间B(1)的特征矢量X(1)~X(5)取平均值生成初始值R1(1),属于小区间B(2)的特征矢量X(4)~X(8)取平均值生成初始值R1(2),…,属于小区间B(5)的特征矢量X(13)~X(15)取平均值生成初始值R1(5)。
这样,初始标准图形生成器9就结束了包含多个状态即多个初始值的R1(1),R1(2),R1(3),…,R1(J)的初始标准音形型10的生成。
接着,标准音形生成器7把由初始标准图形生成器9生成的多个状态R1(1),R1(2),R1(3),…,R1(J)构成的初始标准音形型和由分析器3送来的输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,并按照以下说明的顺序生成由R(j),(j=1,2,3,…,J)表示各状态的多个状态构成的标准图形。该标准图形的生成步骤的流程图表示于图4中。
在标准音形生成器7中,首先在图4所示的步骤ST401把学习次数c设定为0。然后进到步骤ST402,按照以下所示的(17)式把由初始标准图形生成器9生成的初始标准图形的各状态R1(j),(j=1,2,3,…,J)复制到中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)。
R(c)(j)=R1(j),(j=1,2,3,…,J)(17)在该(17)式中的(c)内的c就是上述学习次数计数器的值c。
接着在步骤ST403中,作中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的一一对应。作为这种对应,与例如原来的标准图形生成装置的情况一样,用维特比算法进行使下述的音形选配距离D最小化的对应。如用原来的标准图形生成装置所说明的那样,用(7)式和(8)式进行初始设定,用(9)式和(10)式反复进行渐进运算,由此来实现维特比算法。
与原来的标准图形生成装置的情况一样,按照上述(9)式和(10)式进行的渐进运算之后,从帧T开始沿时间轴逆向跟踪前述折回信息BTK(t,j),就能够得到使图形选配距离D最小的中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的对应。图5中表示了中间标准图形的各状态R(c)(j)与输入声音的特征矢量X(t)的时间序列4的对应关系的概况。在图5中,纵轴是中间标准图形的各状态R(c)(j),横轴是输入声音的特征矢量X(t)的时间序列,图中的粗实线是维特比路径。在图5中,所表示的情况是帧数T即特征矢量X(t)的数取为T=15,标准图形的状态数取为J=5。
然后在步骤ST403,由图5所示的维特比路径求出J个新的小区间B'(j),(j=1,2,3,…,J)的开始帧s'(j)和结束帧e'(j)。即把对应于中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)的特征矢量X(t),(t=1,2,3,…,T)的开始帧和结束帧作为各新小区间B'(j),(j=1,2,3,…,J)的开始帧和结束帧。在图5所示的例子中,因为X(1)~X(3)对应于R(c)(1),所以s'(1)=1,e'(1)=3;因为X(4)~X(7)对应于R(c)(2),所以s'(2)=4,e'(2)=7;…,因为X(13)~X(15)对应于R(c)(5),所以s'(5)=13,e'(5)=15。
然后进到步骤ST404,对上述步骤ST403分割的各新的小区间B'(j)的每个小区间,根据下面所示的(18)式对属于各小区间B'(j)的特征矢量X(t)的时间序列4的部分取平均值,求出更新了的中间标准图形的状态R(c+1)(j),(j=1,2,3,…,J)。R(c+1)(j)=1e′(j)-s′(j)+1Σk=s′(j)e′(j)X(k)---------(18)]]>该式(18)中的s'(j)是各小区间B(j)的开始帧,e'(j)是各小区间B(j)的结束帧。
接着在步骤ST405,把学习次数计数器的值c加1,然后在步骤ST406判断该学习次数计数器的值c是否达到了预先设定的阈值CC。其结果,如果学习次数计数器的值c已经达到了相应的阈值CC,就分支到步骤ST407,把由R(c+1)(1),R(c+1)(2),R(c+1)(3),…,R(c+1)(J)构成的更新的中间标准图形作为标准图形输出,并结束该标准图形生成步序。另一方面,如果学习次数计数器的值c未达到相应的阈值CC,就返回步骤ST403,重复进行上述标准图形生成步序的处理。通过反复进行该标准图形生成步序的处理就能够把前述图形选配距离D收敛到局部最小值。所谓该图形选配距离D小,是说标准图形是压缩信息量的缺损少的表达效率高的标准图形。
下面具体说明生成这样的标准图形生成装置使用的标准图形的方法,图6是本发明的实施例1中的标准图形生成方法的步骤流程图。
一旦发声者从输入端1输入标准图形生成用的声音,就开始图6中用步骤701所示的分析步骤。在该分析步骤中,把该输入声音信号2进行A/D变换,并对每帧进行音响分析,同时,根据各帧内的音响分析结果切分出声音区间,并对各帧计算特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。这样,就对每帧生成了各特征矢量。上述T是从数字声音信号中提取出来的声音区间的全部帧数。因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。在该例中,上述特征矢量X(t)是用例如LPC分析得到的LPC频谱。
接着,进到图6中用ST702表示的初始标准图形生成的步骤。在该初始标准图形生成步骤中,以分析步骤得到的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4为输入来生成初始标准图形10。该初始标准图形生成步骤的详细顺序如图2的流程图所示。
即沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)(ST301)。这时,在可能的情况下使这些小区间全都均等,否则除小区间B(J)之外都均等,同时任意相邻接的两个小区间都重叠。用(13)式~(15)式来求出各B(j)的开始帧s(j)和结束帧e(j)。图3中,表示取帧数T即特征矢量X(1),X(2),X(3),…,X(T)的数T为T=15、取标准图形的状态数为J=5、重叠参数K=2的情况下的分割状态。
然后对步骤ST301分割的每个小区间B(j)按照图3所示的式(16)把属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值来生成各初始值R1(j),(j=1,2,3,…,J)(ST302)。然后就结束初始标准图形的生成。
接下来,进到图6中用ST703表示的标准图形生成的步骤。以上述初始标准图形生成步骤生成的初始标准图形的多个状态R1(1),R1(2),R1(3),…,R1(J)和输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4为输入,按照以下的顺序来生成由用R(j),(j=1,2,3,…,J)表示的多个状态构成的标准图形。该标准图形生成步骤的详细顺序如图4的流程图所示。
首先把学习次数计数器的值c设定为0(ST401);然后按照(17)式把把由初始标准图形生成器9生成的初始标准图形的各状态R1(j),(j=1,2,3,…,J)复制到中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)(ST402)。
然后,用例如维特比算法把中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4进行一一对应,使音形选配距离D最小化。如上所述,用(7)式和(8)式进行初始设定,用(9)式和(10)式反复进行渐进运算,由此来实现维特比算法。按照(9)式和(10)式进行的渐进运算结束之后,从帧T开始沿时间轴逆向跟踪前述折回信息BTK(t,j),就能够得到使图形选配距离D最小的中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的对应关系。图5中表示了这种对应关系的概况。根据该维特比路径来求出J个新的小区间B'(j),(j=1,2,3,…,J)的开始帧s'(j)和结束帧e'(j)(ST403)。即把对应于中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)的特征矢量X(t),(t=1,2,3,…,T)的开始帧和结束帧作为各新小区间B'(j)的开始帧和结束帧。
按照图5所示的例子,因为X(1)~X(3)对应于R(c)(1),所以s'(1)=1,e'(1)=3;因为X(4)~X(7)对应于R(c)(2),所以s'(2)=4,e'(2)=7;因为X(8)~X(10)对应于R(c)(3),所以s'(3)=8,e'(3)=10;…;因为X(13)~X(15)对应于R(c)(5),所以s'(5)=13,e'(5)=15。
然后,对这样分割的各新的小区间B'(j)的每个小区间,用(18)式对属于各新小区间B'(j)的特征矢量X(t)的时间序列4的部分取平均值,求出更新了的中间标准图形的状态R(c+1)(j),(j=1,2,3,…,J)(ST404)。
接着把学习次数计数器的值c加1(ST405),判断该学习次数计数器的值c是否达到了规定的阈值CC(ST406)。如果学习次数计数器的值c达到了该阈值CC,就把由R(c+1)(1),R(c+1)(2),R(c+1)(3),…,R(c+1)(J)构成的更新的中间标准图形作为标准图形输出(ST407),并结束该标准图形生成步序。另一方面,如果学习次数计数器的值c未达到阈值CC,就返回到步骤ST403,重复进行上述的处理。
在要用软件来实现该实施例1的标准图形生成的情况下,就必须要有可用计算机读取的计算机可读媒体,这种媒体记录有用来在计算机中生成标准图形的程序,这种程序具有对输入信号2进行音响分析并求出特征矢量X(t)的时间序列4的分析步骤、生成初始标准图形的各状态R1(j)的步骤和进行中间标准图形的各状态R(c)(j)的更新的步骤;生成初始标准图形的各状态R1(j)的步骤是把该特征矢量X(t)的时间序列4分割为任意两个小区间都相互重叠的多个小区间B(1),B(2),B(3),…,B(J),并对属于这些小区间B(j)的特征矢量X(t)的时间序列取平均值,由此来生成初始值即初始标准图形的各状态R1(j);进行中间标准图形的各状态R(c)(j)的更新的步骤是按照图形选配把特征矢量X(t)的时间序列4的部分与初始标准图形的各状态R1(j)(=R(c)(j))一一对应起来,再对与每一个状态相对应的特征矢量X(t)的时间序列4的部分取平均值,由此来更新中间标准图形的各状态R(c)(j)。
如上所述,按照该实施例1,因为用初始标准图形生成器9把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4重叠地进行分割,所以,就不只是决定生成各初始值R1(j)的阶段分割的各小区间B(j)的边界。而且,在标准图形生成器7中,用维特比算法根据图形选配距离D最小化基准来使标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的部分对应起来时,因为最初不使其重叠地分割小区间,来只是决定其边界,所以,被陷落到初始标准图形内的少,能够减少按不希望的局部最小值来收敛标准图形的学习。为了生成初始标准图形10,把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为任意相邻接的两个小区间都相互重叠的多个小区间B(1),B(2),B(3),…,B(J)时,因为在可能的情况下使所有的小区间的区间长度都均等,而在不可能的情况下,除最后的小区间B(J)之外都均等地分割小区间的区间长度,所以,能够简单地进行这些小区间的分割。
实施例2图7是按照本发明的实施例2的标准图形生成装置的构成一例的方框图,在与实施例1中的各功能方块同等的部分标注与图1相同的符号,并省略其说明。图中,11是初始标准图形生成器(初始标准图形生成装置),把由分析器3送来的特征矢量的时间序列4分割为任意相邻接的两个小区间都相互重叠的多个小区间时,一面区分包含在输入数字声音信号中提取出来的声音区间内的两个空缺端部和声音部分,一面把一个小区间分配到各空缺部分,把其余的小区间分配到声音部分,并把属于这些小区间的特征矢量的时间序列4取平均值来生成初始标准图形12。
这样,按照该实施例2标准图形生成装置与实施例1的标准图形生成装置不同之点在于初始标准图形生成器11把特征矢量的时间序列4分割为任意相邻接的两个小区间都相互重叠的多个小区间时,一面区分包含在输入数字声音信号中提取出来的声音区间内的两个空缺端部和声音部分,一面把一个小区间分配到各空缺部分,把其余的小区间分配到声音部分。
下面来说明动作。
一旦发声者把标准图形生成用的声音信号输入输入端1,分析器3就对来自该输入端1的输入声音信号2进行A/D变换,并对每个称之为帧的短的时间区间进行音响分析,同时,切分出声音区间,并对各帧计算特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。这时,分析器3还对各帧计算声音信号的功率的时间序列即P(1),P(2),P(3),…,P(T),并把它与上述特征矢量X(1),X(2),X(3),…,X(T)的时间序列4一起输出。其中,T是从数字声音信号中提取出来的声音区间的全部帧数。这里,因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。在实施例2中,特征矢量X(t)也是用例如LPC分析得到的LPC频谱。
初始标准图形生成器11把该特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照以下说明的步骤来生成初始标准图形12。该初始标准图形的生成步骤表示于图8的流程图,初始标准图形的生成步骤例表示于图9的说明图。
如图9所示,在图8所示的流程的步骤ST501,初始标准图形生成器11首先把输入到输入端1的声音信号的功率P(t)(t=1,2,3,…,T)从t=1开始沿时间轴按顺方向与预定的阈值Pth相比较,检测出声音信号的功率P(t)超过该阈值的帧,并把该帧作为T1。在图9的例子中,因为t=3时超过阈值Pth,所以,T1=3。
接着在步骤ST502,把上述声音信号的功率P(t)(t=1,2,3,…,T)从t=T开始沿时间轴逆方向与预定的阈值Pth相比较,检测出声音信号的功率P(t)超过该阈值的帧,并把该帧作为T2。在图9的例子中,因为t=13时超过阈值Pth,所以,T2=13。
然后进到步骤ST503,取沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)时的从开头数第一小区间B(1)的开始帧sp(1)为sp(1)=1。把该小区间B(1)的结束帧ep(1)取为在上述步骤ST501求出的T1。即取ep(1)=T1。
同样,在下面的步骤ST504,取沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)时的从开头数第J小区间B(J)的开始帧sp(J)为在上述步骤ST502求出的T2,即sp(J)=T2。把该小区间B(J)的结束帧ep(J)取为ep(J)=T。
接下来进到步骤ST505,用以下的(19)式~(20)式求出取沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(i),(i=1,2,3,…,J)时的从开头数第二小区间到第J-1小区间B(j),(j=1,2,3,…,J-1)的开始帧sp(j)和结束帧ep(j)。
L2=[(T2-T1+3)/(J-2)](19)sp(j)=T1-1+(j-2)*L2 (20) 上式(19)中的[.]为四舍五入取整数运算。(21)式中K2的是预定的常数,是控制各小区间B(j)的重叠帧的参数。图9表示例如取帧数T即特征矢量X(t)的数T=15、取小区间B(1),B(2),B(3),…,B(J)的数即标准图形的状态数为J=5、重叠参数K2=2的情况下的分割状态。
接着在步骤ST506,对每一个在上述步骤ST503~步骤ST505中分割的小区间B(j),根据式(22)对属于各个小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,由此生成初始值Rp(j),(j=1,2,3,…,J)。Rp(j)=1ep(j)-sp(j)+1Σk=sp(j)ep(j)X(k)---(22)]]>这样就结束了由初始标准图形生成器11进行的初始标准图形12的生成。
标准音形生成器7把由初始标准图形生成器11生成的多个初始值即多个状态Rp(1),Rp(2),Rp(3),…,Rp(J)构成的初始标准音形型和输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,生成由R(j),(j=1,2,3,…,J)表示各状态的多个状态构成的标准图形。这时,把根据上述式(17)把初始标准图形的各状态Rp(j),(j=1,2,3,…,J)复制到中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)中,代替上述实施例1的R1(j),(j=1,2,3,…,J)。c是学习次数计数器(未示出)的值。此后,按照与实施例1中的标准图形生成器7一样的步序进行处理,来更新中间标准图形的各状态R(c)(j),(j=1,2,3,…,J),如果学习次数计数器的值c到达了规定的阈值CC,就输出更新标准图形的各状态R(c+1)(j),(j=1,2,3,…,J)作为标准图形的各状态R(j),(j=1,2,3,…,J)。
接着,来具体说明使用这样的标准图形生成装置生成标准图形的方法。图10是本发明的实施例2中的标准图形生成方法的步骤流程图。
一旦发声者从输入端1输入标准图形生成用的声音,就开始图10中用步骤801所示的分析步骤。在该分析步骤中,把该输入声音信号2进行A/D变换,并对每帧进行音响分析,同时,根据各帧内的音响分析结果切分出声音区间,并对各帧计算输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。在该例中,也与上述实施例1的情况一样,特征矢量X(t)是用例如LPC分析得到的LPC频谱。在该实施例2中的分析步骤,还对每一帧计算声音信号的功率P(t),(t=1,2,3,…,T)的时间序列4,并与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4一起输出。
接着进行图10中步骤ST802表示的初始标准图形生成步骤,把上述分析步骤所得到的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,生成初始标准图形12。该初始标准图形的生成步骤表示于图8的流程图,该初始标准图形生成的概要表示于图9中。
如图9所示,从t=1开始沿时间轴顺方向进行声音信号的功率P(t)(t=1,2,3,…,T)与规定阈值Pth的比较,检测出声音信号的功率P(t)超过阈值Pth的帧,并把该帧作为T1(ST501)。在图9的例子中,因为t=3时超过阈值Pth,所以,T1=3。
同样,从t=T开始沿时间轴逆方向进行上述声音信号的功率P(t)(t=1,2,3,…,T)与阈值Pth的比较,检测出声音信号的功率P(t)超过该阈值Pth的帧,并把该帧作为T2(ST502)。在图9的例子中,因为t=13时超过阈值Pth,所以,T2=13。
然后,为了把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4沿时间轴方向分割为J个小区间B(1),B(2),B(3),…,B(J),把从开头数第一个小区间B(1)的开始帧sp(1)取为sp(1)=1。把该小区间B(1)的结束帧ep(1)取为上述的T1(即ep(1)=T1)(步骤ST503)。
同样,取沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)时的从开头数第J个小区间B(J)的开始帧sp(J)为上述的T2(即sp(J)=T2),把该小区间B(J)的结束帧ep(J)取为ep(J)=T(步骤ST504)。
接下来,用以下的(19)式~(21)式求出沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(i),(i=1,2,3,…,J)时的从开头数第二个小区间到第J-1小区间B(j),(j=2,3,…,J-1)的开始帧sp(j)和结束帧ep(j)(步骤ST505)。图9表示例如取帧数T即特征矢量X(t)的数T=15、取标准图形的状态数为J=5、重叠参数K2=2的情况下的分割状态。
接着,对每一个在上述步骤中分割的小区间B(j),根据式(22)对属于各个小区间的特征矢量X(t)的时间序列4的部分取平均值,由此生成初始值Rp(j),(j=1,2,3,…,J)(步骤ST506)。然后结束初始标准图形的生成。
接着进到图10中由步骤ST803表示的标准图形生成步骤,把由上述初始标准图形生成步骤生成的多个状态Rp(1),Rp(2),Rp(3),…,Rp(J)构成的初始标准音形型和输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,生成由R(j),(j=1,2,3,…,J)表示各状态的多个状态构成的标准图形。与图6中由步骤ST703表示的标准图形生成步骤的不同点在于在该标准图形生成步骤中,把根据上述式(17)把初始标准图形的各状态Rp(j),(j=1,2,3,…,J)复制为中间标准图形的各状态R(c)(j),(j=1,2,3,…,J),来代替R1(j),(j=1,2,3,…,J)。
在要用软件来实现该实施例2的标准图形生成的情况下,就必须要有可用计算机读取的计算机可读媒体,这种媒体记录有用来在计算机中生成标准图形的程序,这种程序具有对输入信号2进行音响分析并求出特征矢量X(t)的时间序列4和声音信号的功率P(t)的时间序列的步骤、生成初始标准图形的各状态Rp(j)的步骤和进行中间标准图形的各状态R(c)(j)的更新的步骤;生成初始标准图形的各状态Rp(j)的步骤是把特征矢量X(t)的时间序列4分割为任意两个小区间都相互重叠的多个小区间,同时一面用该声音信号的功率P(t)的时间序列把包含在从输入数字声音信号中提取出来的声音区间内的两个空缺端部和声音部分,一面把一个小区间分配到各空缺部分,把其余的小区间分配到声音部分,再对属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,由此来生成标准图形的各初始值即初始图形的各状态Rp(j);进行中间标准图形的各状态R(c)(j)的更新的步骤是按照图形选配把特征矢量X(t)的时间序列4与初始标准图形的各状态Rp(j)的多个状态的各个状态一一对应起来,再对与每一个状态相对应的特征矢量X(t)的时间序列4的部分取平均值,由此来更新中间标准图形的各状态R(c)(j)。
如上所述,按照该实施例2,因为用初始标准图形生成器11把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为相互重叠的小区间,同时一面用该声音信号的功率P(t)的时间序列把包含在从输入数字声音信号中提取出来的声音区间内的两个空缺端部和声音部分,一面把一个小区间分配到各空缺部分,把其余的小区间分配到声音部分,由此来生成标准图形的各初始值即初始图形的各状态Rp(j),(j=1,2,3,…,J),所以,能够防止向声音区间和空缺区间的混合引起的局部最小值的收敛,能够以更好的局部最小值来收敛标准图形的学习。
实施例3图11是按照本发明的实施例3的标准图形生成装置的构成一例的方框图,在与实施例1中的各功能方块同等的部分标注与图1相同的符号,并省略其说明。图中,13是初始标准图形生成器(初始标准图形生成装置),用来从由分析器3送来的特征矢量的时间序列4中分别提取出对紧接在前的时刻的特征矢量变化更大的规定数的特征矢量,并把特征矢量的时间序列4分割为多个小区间,使之任意相邻接的两个小区间都相互重叠,并且重叠的多个部分分别包含上述规定数的特征矢量,并把属于这些小区间的特征矢量的时间序列4取平均值来生成各个初始标准图形14。
这样,按照该实施例3标准图形生成装置与实施例1或实施例2的标准图形生成装置不同之点在于初始标准图形生成器13从由分析器3送来的特征矢量的时间序列4中分别提取出对紧接在前的时刻的特征矢量变化更大的规定数的特征矢量,并把特征矢量的时间序列4分割为多个小区间,使之任意相邻接的两个小区间都相互重叠,并且重叠的多个部分分别包含上述规定数的特征矢量。
下面来说明动作。
一旦发声者把标准图形生成用的声音信号输入输入端1,分析器3就对来自该输入端1的输入声音信号2进行A/D变换,并对每个称之为帧的短的时间区间的每个区间进行音响分析,同时,切分出声音区间,并对各帧计算且输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。其中,T是从数字声音信号中提取出来的声音区间的全部帧数。这里,因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。特征矢量X(t)也是用例如LPC分析得到的LPC频谱。
初始标准图形生成器13把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照以下说明的步骤来生成初始标准图形14。该初始标准图形14的生成步骤表示于图12的流程图,初始标准图形的生成步骤例表示于图13。
在图12所示的流程的步骤ST601,初始标准图形生成器13首先按照下面的(23)式对帧t=2~T求出特征矢量X(t)与X(t-1)的频谱变化量dx(t)。
dx(t)=|X(t)-X(t-1)|2(t=2,3,…,T) (23)接着进到步骤ST602,选择按照上述(23)式计算出来的频谱变化量dx(t)的值大的上位(J-1)个帧,并根据时间轴上的顺序号把该上位(J-1)个帧设为F(1),F(2),F(3),…,F(J-1)。这里,J是分割为小区间时的分割数。这种分割的情况表示于图13。在图13中,纵轴是频谱变化量,横轴是特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。图13是J=5的情况的一例,前述频谱变化量dx(t)的值大的上位4个帧是t=3,7,9,13,所以F(1)=3,F(2)=7,F(3)=9,F(4)=13。
然后进到步骤ST603,用以下所示的(24)式和(25)式来求出沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)时的开始帧ss(j)和结束帧es(j)。
(24)式中K3的是预定的常数,表示控制各小区间B(j)的重叠帧的参数。图13表示例如取帧数T即特征矢量X(t)的数T=15、取小区间B(1),B(2),B(3),…,B(J)的数即标准图形的状态数为J=5、重叠参数K3=1的情况下的分割状态。
接着在步骤ST604,对每一个在上述步骤ST603中分割的小区间B(j),根据式(26)对属于各个小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,由此生成初始值Rs(j),(j=1,2,3,…,J)。Rs(j)=1es(j)-ss(j)+1Σk=ss(j)es(j)X(k)---(26)]]>这样就结束了由初始标准图形生成器13进行的初始标准图形14的生成。
标准音形生成器7把由初始标准图形生成器13生成的初始标准图形的多个状态Rs(1),Rs(2),Rs(3),…,Rs(J)和输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,生成由R(j),(j=1,2,3,…,J)表示各状态的多个状态构成的标准图形。这时,把根据上述式(17)把各初始值即初始标准图形的各状态Rs(j),(j=1,2,3,…,J)复制为中间标准图形的各状态R(c)(j),(j=1,2,3,…,J),来代替上述实施例1的R1(j),(j=1,2,3,…,J)或上述实施例2的Rp(j),(j=1,2,3,…,J)。c是学习次数计数器(未示出)的值。此后,按照与实施例1或实施例2中的标准图形生成器7一样的步序进行处理,来更新中间标准图形的各状态R(c)(j),(j=1,2,3,…,J),如果学习次数计数器的值c到达了规定的阈值CC,就输出更新标准图形的各状态R(c+1)(j),(j=1,2,3,…,J)作为标准图形的各状态R(j),(j=1,2,3,…,j)。
接着,来具体说明生成这样的标准图形生成装置使用的标准图形的方法。图14是本发明的实施例3中的标准图形生成方法的步骤流程图。
一旦发声者从输入端1输入标准图形生成用的声音,就开始图14中用步骤901所示的分析步骤。在该分析步骤中,把该输入声音信号2进行A/D变换,并对每帧进行音响分析,同时,根据分析结果切分出声音区间,并对各帧计算输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。在该例中,也与上述实施例1和实施例2的情况一样,特征矢量X(t)是用例如LPC分析得到的LPC频谱。
接着进到图14中步骤ST902表示的初始标准图形生成步骤,把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照如下说明的步骤生成初始标准图形14。该初始标准图形14的生成步骤的流程表示于图12,该初始标准图形生成步骤的一例表示于图13中。
首先按照(23)式对帧t=2~T求出特征矢量X(t)与X(t-1)的频谱变化量dx(t)(步骤ST602)。接着选择所得到的频谱变化量dx(t)的值大的上位(J-1)个帧,并根据时间轴上的顺序号把该上位(J-1)个帧设为F(1),F(2),F(3),…,F(J-1)(步骤ST602)。这里,J是分割为小区间时的分割数。因为图13表示J=5的情况,上述频谱变化量dx(t)的值大的上位4个帧是t=3.7.9.13,所以F(1)=3,F(2)=7,F(3)=9,F(4)=13。
然后,用(24)式和(25)式来求出沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)时的各小区间B(1),B(2),B(3),…,B(J)的开始帧ss(j)和结束帧es(j)(步骤ST603)。图13中所表示的是例如取帧数T即特征矢量X(t)的数T=15、取标准图形状态数J=5、重叠参数K3=1的情况下的分割状态。
然后对前述步序中分割的各小区间B(j)的每个小区间,按照(26)式对属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,由此生成初始值Rs(j),(j=1,2,3,…,J)步骤ST604) 。
接着进到图14中用ST903表示的标准图形生成步骤,把由初始标准图形生成步骤生成的多个状态Rs(1),Rs(2),Rs(3),…,Rs(J)构成的初始标准音形型和输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,生成由R(j),(j=1,2,3,…,J)表示各状态的多个状态构成的标准图形。与实施例1和实施例2中的标准图形生成步骤(ST703,ST803)的不同点在于在该标准图形生成步骤中,把根据上述式(17)把初始标准图形的各状态Rs(j),(j=1,2,3,…,J)复制为中间标准图形的各状态R(c)(j),(j=1,2,3,…,J),来代替R1(j),(j=1,2,3,…,J)或Rp(j),(j=1,2,3,…,J)。
在要用软件来实现该实施例3的标准图形生成的情况下,就必须要有可用计算机读取的计算机可读媒体,这种媒体记录有用来在计算机中生成标准图形的程序,这种程序具有对输入信号2进行音响求出并分析特征矢量X(t)的时间序列4的步骤、生成标准图形的初始值即各状态Rs(j)的步骤和进行中间标准图形的各状态R(c)(j)的更新的步骤;生成初始标准图形的各状态Rs(j)的步骤是从特征矢量X(t)的时间序列中选择对紧接在前的特征矢量比变化量更大的规定数的特征矢量,再把特征矢量X(t)的时间序列4分割为任意两个小区间都相互重叠的多个小区间B(1),B(2),B(3),…,B(J),同时使所选择出来的特征矢量分别包含在多个小区间的重叠部分内,然后对属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,由此来生成标准图形的各初始值即初始图形的各状态Rs(j);进行中间标准图形的各状态R(c)(j)的更新的步骤是按照图形选配把特征矢量X(t)的时间序列4与初始标准图形的各状态Rs(j)的多个状态的各个状态一一对应起来,再对与每一个状态相对应的特征矢量X(t)的时间序列4的部分取平均值,由此来更新中间标准图形的各状态R(c)(j)。
如上所述,按照该实施例3,因为用初始标准图形生成器13以频谱变化量更大的帧作为分割界线的基准把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为多个小区间B(j),所以,能够防止向由于频谱差异大的不同特征矢量之间混合引起的局部最小值的收敛,能够以更好的局部最小值来收敛标准图形的学习。
实施例4图15是按照本发明的实施例4的标准图形生成装置的构成一例的方框图,在与实施例1~实施例3中的各功能方块同等的部分标注与图1、图7或图11相同的符号,并省略其说明。图中,15是用来存储包含输入声音信号功率的时间序列在内的对输入声音信号2进行了音响分析的分析器3输出的特征矢量的时间系列4的特征矢量存储器。16是标准图形生成器(标准图形生成装置),用来根据分别由第一初始标准图形生成器(第一初始标准图形生成装置)9、第二初始标准图形生成器(第二初始标准图形生成装置)11和第三初始标准图形生成器(第三初始标准图形生成装置)13生成的第一初始标准图形10、第二初始标准图形12和第三初始标准图形14生成第一到第三标准图形17a、17b、17c。18是标准图形选择器(标准图形选择装置),用来进行由标准图形生成器16生成的第一到第三标准图形17a、17b、17c与从特征矢量存储器15读出的特征矢量的时间序列4的图形选配,再选择图形选配距离最小的标准图形作为最终标准图形输出。
这样,按照该实施例4标准图形生成装置与实施例1~实施例3的标准图形生成装置不同之点在于设置有按照上述实施例1~3的第一初始标准图形生成器9、第二初始标准图形生成器11和第三初始标准图形生成器13,并进行由这些初始标准图形生成器生成的第一到第三初始标准图形生成的第一到第三标准图形与特征矢量的时间序列4的图形选配,再选择图形选配距离最小的标准图形作为最终标准图形输出。
下面来说明动作。
一旦发声者从输入端1输入标准图形生成用的声音信号,分析器3就对输入声音信号2进行A/D变换,并对每个称之为帧的短的时间区间的每个区间进行音响分析,同时,切分出声音区间,并对各帧计算且输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。这时,还对各帧计算声音信号的功率P(1),P(2),P(3),…,P(T)的时间序列,并与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4一起输出。即使在这种情况下,因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。特征矢量X(t)也是用例如LPC分析得到的LPC频谱。
由该分析器3的音响分析所得到的输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4和声音信号的功率P(1),P(2),P(3),…,P(T)的时间序列被送到特征矢量存储器15中暂时存储起来。把该特征矢量存储器15的输出端Y连接到初始标准图形生成器9的输入端A1,同时,把标准图形生成器16输入端Z连接到第一初始标准图形生成器9输出端A2。在这种连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。第一初始标准图形生成器9和标准图形生成器16按与实施例1的情况相同的步骤动作,来生成标准图形。标准图形生成器16根据第一初始标准图形10把所生成的该标准图形作为第一标准图形17a输出到标准图形选择器18。
接着,把特征矢量存储器15的输出端Y连接到第二初始标准图形生成器11的输入端B1,同时,把标准图形生成器16输入端Z连接到第二初始标准图形生成器11输出端B2。在这种连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4和声音信号的功率P(t),(t=1,2,3,…,T)的时间序列。第二初始标准图形生成器11和标准图形生成器16按与实施例2的情况相同的步骤动作,来生成标准图形。标准图形生成器16根据第二初始标准图形12把所生成的该标准图形作为第二标准图形17b输出到标准图形选择器18。
接着,把特征矢量存储器15的输出端Y连接到第三初始标准图形生成器13的输入端C1,同时,把标准图形生成器16输入端Z连接到第三初始标准图形生成器13输出端C2。在这种连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。第三初始标准图形生成器13和标准图形生成器16按与实施例3的情况相同的步骤动作,来生成标准图形。标准图形生成器16根据第三初始标准图形14把所生成的该标准图形作为第三标准图形17c输出到标准图形选择器18。
标准图形选择器18把特征矢量存储器15保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4、基于第一初始标准图形10的第一标准图形17a、基于第二初始标准图形12的第二标准图形17b和基于第三初始标准图形14的第三标准图形17c作为输入,用在实施例1中所说明的维特比算法计算第一到第三标准图形17a、17b和17c与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的图形选配距离。并选择该图形选配距离为最小的标准图形作为最终标准图形19输出。
接着,来具体说明使用这样的标准图形生成装置生成标准图形的方法。图16是本发明的实施例4中的标准图形生成方法的步骤流程图。
一旦发声者从输入端1输入标准图形生成用的声音,在图16中用ST1001所示的分析步骤中,把该输入声音信号2进行A/D变换,并对每个称之为帧的短的时间区间进行音响分析,同时,切分出声音区间,并对各帧计算输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。这时还对各帧计算声音信号的功率P(1),P(2),P(3),…,P(T)的时间序列,并与上述特征矢量X(1),X(2),X(3),…,X(T)的时间序列4一起输出。这种情况下,因为把声音区间正确地切分出来也是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。在该例中,特征矢量X(t)是用例如LPC分析得到的LPC频谱。
接着进到图16中用ST1002表示的第一初始标准图形生成步骤,在该第一初始标准图形生成步骤中,把该特征矢量存储器15的输出端Y连接到第一初始标准图形生成器9的输入端A1,把标准图形生成器16输入端Z连接到第一初始标准图形生成器9输出端A2,在该连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。在第一初始标准图形生成器9中,按与实施例1的情况相同的步骤生成第一初始标标准图形10。然后在图16用ST1003表示的标准图形生成步骤中,标准图形生成器16按与实施例1的情况相同的步骤生成标准图形,并把它作为基于第一初始标准图形10的第一标准图形17a输出。
接着进到图16中用ST1004表示的第二初始标准图形生成步骤,在该第二初始标准图形生成步骤中,把该特征矢量存储器15的输出端Y连接到第二初始标准图形生成器11的输入端B1,把标准图形生成器16输入端Z连接到第二初始标准图形生成器11输出端B2,在该连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4和声音信号的功率P(t).(t=1,2,3,…,T)。在第二初始标准图形生成器11中,按与实施例2的情况相同的步骤生成第二初始标标准图形12。然后在图16用ST1005表示的标准图形生成步骤中,标准图形生成器16按与实施例2的情况相同的步骤生成标准图形,并把它作为基于第二初始标准图形12的第二标准图形17b输出。
接着进到图16中用ST1006表示的第三初始标准图形生成步骤,在该第三初始标准图形生成步骤中,把该特征矢量存储器15的输出端Y连接到第三初始标准图形生成器13的输入端C1,把标准图形生成器16输入端Z连接到第三初始标准图形生成器13输出端C2,在该连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。在第三初始标准图形生成器13中,按与实施例3的情况相同的步骤生成第三初始标标准图形14。然后在图16用ST1007表示的标准图形生成步骤中,标准图形生成器16按与实施例3的情况相同的步骤生成标准图形,并把它作为基于第三初始标准图形14的第三标准图形17c输出。
接着,在图16中用ST1008表示的标准图形选择步骤中,把特征矢量存储器15保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4、基于第一初始标准图形10的第一标准图形17a、基于第二初始标准图形12的第二标准图形17b和基于第三初始标准图形14的第三标准图形17c作为输入,用在实施例1中所说明的维特比算法计算第一到第三标准图形17a、17b和17c与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的图形选配距离,并选择该图形选配距离为最小的标准图形作为最终标准图形19输出。
在要用软件来实现该实施例4的标准图形生成的情况下,就必须要有可用计算机读取的计算机可读媒体,这种媒体记录有用来在计算机中生成标准图形的程序,这种程序具有对输入信号2进行音响分析并求出特征矢量X(t)的时间序列4和声音信号的功率P(t)的时间序列的分析步骤、对属于根据均等分割决定的各小区间B(j)的特征矢量X(t)的时间序列的部分取平均值来生成第一初始标准图形10的第一初始标准图形生成步骤、用该第一初始标准图形10生成第一标准图形17a的标准图形生成步骤、对属于分别由空缺区间和声音区间决定的各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值来生成第二初始标准图形12的第二初始标准图形生成步骤、用该第二初始标准图形12生成第二标准图形17b的标准图形生成步骤、选择对紧接在前的特征矢量比变化量更大的规定数的特征矢量同时对属于使这些特征矢量分别包含在多个重叠区间内所决定的各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值来生成第三初始标准图形14的第三初始标准图形生成步骤、用该第三初始标准图形14生成第三标准图形17c的标准图形生成步骤、以及选择第一到第三标准图形17a、17b和17c与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的图形选配距离为最小的标准图形作为最终标准图形19输出的标准图形选择步骤。
如上所述,按照该实施例4,因为从基于第一初始标准图形10的第一标准图形17a、第二初始标准图形12的第二标准图形17b、第三初始标准图形14的第三标准图形17c中选择与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的图形选配距离为最小的标准图形作为最终标准图形19,所以能够得到表达效率更高的标准图形。
这样,按照本发明,初始标准图形生成装置把由声音信号生成的特征矢量的时间序列分割为任意两个相邻接的小区间都相互重叠的多个小区间;再对属于各小区间的特征矢量的时间序列的部分取平均值来生成初始标准图形;该初始标准图形生成装置按照图形选配进行该初始标准图形的各状态与特征矢量的时间序列的一一对应,对与各状态的每个状态相对应的特征矢量的时间序列取平均值来进行初始标准图形的更新;所以,可实现被陷落到初始标准图形内的少且能够减少按不希望的局部最小值来收敛标准图形的学习的标准图形生成装置。
按照本发明,初始标准图形生成装置把由特征矢量的时间序列分割为多个小区间,在可能在情况下全部小区间的区间长度均等,在不可能在情况下,除一端部的小区间之外都均等,所以,各小区间的分割单纯化。
按照本发明,初始标准图形生成装置把特征矢量的时间序列分割为多个小区间,以便于一面区分声音信号的空缺部分,一面把一个小区间分配到各空缺部分,把其余的小区间分配到声音部分,所以,能够防止向声音区间与空缺区间的混合引起的局部最小值的收敛,从而能够以更好的最小值来收敛标准图形的学习。
按照本发明,初始标准图形生成装置把特征矢量的时间序列分割为多个小区间,以便于从特征矢量中选择对紧接在前的时刻的特征矢量变化更大的、等于形成在多个小区间内的重叠区间的数的规定数的特征矢量,并使这些特征矢量分别被包含在重叠的区间内。所以,能够防止向因频谱差异大的特征矢量混合引起的局部最小值的收敛,从而能够以更好的局部最小值来收敛标准图形的学习。
按照本发明,初始标准图形生成装置设置有第一初始标准图形生成装置、第二初始标准图形生成装置和第三初始标准图形生成装置;第一初始标准图形生成装置把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始标准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;第二初始标准图形生成装置把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始标准图形,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分;第三初始标准图形生成装置从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始标准图形,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内;标准图形生成装置还设置有标准图形选择装置,用来根据第一到第三初始标准图形生成三个标准图形,并进行由标准图形生成装置生成的各标准图形与特征矢量的时间序列的图形选配,再选择图形选配距离最小的标准图形。所以,能够得到表达效率更高的标准图形。
按照本发明,把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠;对属于各小区间的特征矢量的时间序列取平均值,来生成初始标准图形;根据图形选配进行所生成的初始标准图形的各状态与特征矢量的时间序列的一部分的一一对应,再对对应于各状态的特征矢量的时间序列的一部分取平均值来生成更新初始标准图形;所以,能够使被陷落到初始标准图形内的少且能够减少按不希望的局部最小值来收敛标准图形的学习。
按照本发明,因为在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等,所以,能够使各小区间的分割单纯化。
按照本发明,把特征矢量的时间序列分割为多个小区间,以便于把声音信号的空缺部分和声音部分区分开的同时,把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分,所以,能够防止向声音区间与空缺区间的混合引起的局部最小值的收敛,从而能够以更好的最小值来收敛标准图形的学习。
按照本发明,因为从特征矢量的时间序列中选择对紧接在前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。所以,可以实现能够防止向因频谱差异大的特征矢量混合引起的局部最小值的收敛且能够以更好的局部最小值来收敛标准图形的学习的标准图形生成方法。
按照本发明,包含有生成第一初始标准图形的步骤,把特征矢量的时间序列分割成多个小区间,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等,对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始标准图形;生成第二初始标准图形的步骤,把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始标准图形;生成第三初始标准图形的步骤,从特征矢量的时间序列中选择对紧接在前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始标准图形;并进行根据第一到第三初始标准图形生成三个标准图形的步骤,即进行所生成的各标准图形与特征矢量的时间序列的图形选配的步骤,用来选择图形选配距离最小的标准图形。所以能够得到表达效率更高的标准图形。
权利要求
1.一种标准图形生成装置设置,设置有初始标准图形生成器和标准图形生成器;初始标准图形生成器把由声音信号生成的特征矢量的时间序列分割成任何两个邻接的小区间相互重叠的多个小区间,再对属于各小区间的特征矢量的时间序列的部分取平均值来生成初始标准图形;标准图形生成器把所述初始标准图形生成器生成的初始标准图形的各状态按照图形选配一一对应,并对对应于各状态的特征矢量的时间序列的部分取平均值来更新初始标准图形,由此来生成标准图形。
2.根据权利要求1的标准图形生成装置,其特征在于所述初始标准图形生成器把特征矢量的时间序列分割为多个小区间,使得在可能的情况下全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等。
3.根据权利要求1的标准图形生成装置,其特征在于所述初始标准图形生成器把特征矢量的时间序列分割为多个小区间,使得一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分。
4.根据权利要求1的标准图形生成装置,其特征在于所述初始标准图形生成器从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。
5.根据权利要求1的标准图形生成装置,其特征在于所述初始标准图形生成器设置有第一初始值生成器、第二初始值生成器和第三初始值生成器;第一初始值生成器把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始标准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;第二初始值生成器把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始标准图形,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分;第三初始值生成器从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始标准图形,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内;标准图形生成器还设置有标准图形选择器,用来根据第一到第三初始标准图形生成三个标准图形,并进行由标准图形生成器生成的各标准图形与特征矢量的时间序列的图形选配,再选择图形选配距离最小的标准图形。
6.一种标准图形生成方法,包括把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的分割步骤;对属于各小区间的特征矢量的时间序列取平均值,来生成初始标准图形的初始标准图形生成步骤;根据图形选配进行所生成的初始标准图形的各状态与特征矢量的时间序列的一部分的一一对应,再对对应于各状态的特征矢量的时间序列的一部分取平均值来生成更新初始标准图形的标准图形的标准图形生成步骤。
7.根据权利要求6的标准图形生成方法,所述分割步骤把特征矢量的时间序列分割为多个小区间,使得在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等。
8.根据权利要求6的标准图形生成方法,所述分割步骤把特征矢量的时间序列分割为多个小区间,以把声音信号的空缺部分和声音部分区分开的同时,把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分。
9.根据权利要求6的标准图形生成方法,所述分割步骤从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。
10.根据权利要求6的标准图形生成方法,所述分割步骤和初始标准图形生成步骤是生成第一初始标准图形的生成步骤、生成第二初始标准图形的生成步骤和生成第三初始标准图形的生成步骤;生成第一初始标准图形的生成步骤把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始标准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;生成第二初始标准图形的生成步骤把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始标准图形;生成第三初始标准图形的生成步骤从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始标准图形;所述标准图形生成步骤还具有根据第一到第三初始标准图形生成三个标准图形的步骤,即进行所生成的各标准图形与特征矢量的时间序列的图形选配,来选择图形选配距离最小的标准图形的步骤。
11.一种计算机可读媒体,记录了计算机可执行的步骤的标准图形生成程序,这些步骤包括把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的分割步骤;对属于各小区间的特征矢量的时间序列取平均值,来生成初始标准图形的初始标准图形生成步骤;根据图形选配进行所生成的初始标准图形的各状态与特征矢量的时间序列的一部分的一一对应,再对对应于各状态的特征矢量的时间序列的一部分取平均值来生成更新初始标准图形的标准图形的标准图形生成步骤。
12.根据权利要求11的计算机可读媒体,其特征在于所述分割步骤把特征矢量的时间序列分割为多个小区间,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等。
13.根据权利要求11的计算机可读媒体,其特征在于所述分割步骤把特征矢量的时间序列分割为多个小区间,把声音信号的空缺部分和声音部分区分开的同时,把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分。
14.根据权利要求11的计算机可读媒体,其特征在于所述分割步骤从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。
15.根据权利要求11的计算机可读媒体,其特征在于所述分割步骤和初始标准图形生成步骤是生成第一初始标准图形的生成步骤、生成第二初始标准图形的生成步骤和生成第三初始标准图形的生成步骤;生成第一初始标准图形的生成步骤把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始标准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;生成第二初始标准图形的生成步骤把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始标准图形,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分;生成第三初始标准图形的生成步骤从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始标准图形,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内;所述标准图形生成步骤还具有根据第一到第三初始标准图形生成三个标准图形的步骤,即进行所生成的各标准图形与特征矢量的时间序列的图形选配,来选择图形选配距离最小的标准图形选择步骤。
全文摘要
能够降低以不希望的局部最小值来收敛标准图形的更新的现象,并能够生成表达效率更高的标准图形。初始标准图形生成器9把输入声音的特征矢量的时间序列4相互重叠地分割开,把属于这些小区间的特征矢量的时间序列取平均值来生成初始标准图形10,标准图形生成器7按照音形选配使初始标准图形的各状态与特征矢量的时间序列一一对应,对与各状态相对应的特征矢量的时间序列取平均值来更新初始标准图形,由此来生成标准图形8。
文档编号G10L15/12GK1301006SQ0013383
公开日2001年6月27日 申请日期2000年9月12日 优先权日1999年9月13日
发明者花泽利行 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1