语音合成器的制作方法

文档序号：2819703阅读：404来源：国知局

专利名称：语音合成器的制作方法
技术领域：
本发明是一种信号合成装置，尤其是一种应用在语音信号合成领域的语音合成装置。
在语音合成技术领域中，常会面临两大难题，即信号储存成本与提升语音合成品质这二大互为相关矛盾的问题，而目前常见作法中，在为了维持声音品质而又能适当地降低信号储存成本考虑下，多数都采用降低取样频率(即减少取样信号的储存量)，然后以插值法或补偿法来增加输出信号的平滑度，保证较高语音合成品质输出。
请参阅图1，它是常见的语音合成装置方柜图，图1中该语音合成装置1包括语音只读存贮器11，语音信号合成电路12，振荡电路13，控制电路14及数字模拟转换装置15；其中，振荡电路13用来产生语音合成装置1所需的时序，控制电路14用来处理输出与输入的信号区域；语音信号合成电路12与语音只读存贮器11则共同连接在f点，使用相同的频率，当该语音信号合成电路12从语音只读存贮器11取一语音信号时，则在输出(out)处产生一语音合成信号输出；而语音只读存贮器11及数字模拟转换装置15的工作原理是熟知原理，在此不赘述。
插值法改善语音合成品质的方法，请参见图2，在图2a中所示，它是在图1中语音信号合成电路12与数字模拟转换装置15间增加一个插值电路2，其插值电路2包括延迟电路21，数字模拟转换电路22及加成电路23，因此，如图2b所示，其中实线部分R是图2a中标DA1处的输出信号，而虚线部分E是图2a中标DA2处的输出信号，当然，输出处的输出信号，则是经加成电路23处理所得的语音合成信号；再有图2b的横轴t代表时间，纵轴A代表信号的振幅。
由于插值电路2是外加电路，因此增加了电路，使设计复杂，提高了生产成本。
为改进上述已知用插值法来改善语音品质的方法，请参阅图3，其中，将图2a的插值电路2改为补偿电路3(它包括上/下数计数器31、数字模拟转换电路32及一个较简单的加成电路33)，该数字模拟转换电路32和图2a的数字模拟转换电路22相同。
现举例说明图3的工作原理如果原语音信号合成电路12的输出是Bit12-Bit4的最高有效值信号时，则该最高有效值信号在经数字模拟转换装置15前，即将触发该补偿电路3而且经数字模拟转换电路15后，在DA3处输出一语音信号；再有，补偿电路3经触发后，上/下数计数器31即产生一组Bit3-Bit0的最低有效值信号，并经过数字模拟转换装置32的转换在DA4处产生另一语音信号输出，再与DA3处输出的语音信号合成进入加成电路33，而后在输出处产生一Bit12-bit0的较佳品质语音合成信号输出；由上可知，加成电路33的信号是由语音信号合成电路12产生的最高有效值信号和补偿电路3产生的最低有效值信号分别处理，因此，较图2a中的加成电路23简单许多，不过，由于该补偿电路3仍是外加电路，所以，整体电路成本仍相当贵。
因此，如果能在不较大改变图1所示方案下，仍能提高语音合成品质，而电路成本降为最低，不必如前所述的外加插值电路2及补偿电路3的方案，即能达到上述目的。
本发明目的是，提供一种既减少语音信号储存量，又具有高品质及低成本的语音合成信号装置。
本发明是一种语音合成装置，它包括第一信号输入端的取样语音信号储存装置，该取样语音信号储存装置处理第一信号输入端所输入之一读取信号，以输出所储存的取样语音信号，语音合成装置还包括第二信号输入端和取样语音信号输入端的语音信号合成电路，该语音信号合成电路处理第二信号输入端所输入的运算信号，以自电压联接在该取样语音信号储存装置的取样语音信号输入端处，重复输入相同的取样语音信号多次，然后将该重复输入的取样语音信号经多次语音运算，输出一语音合成信号；其中，该运算信号的频率高于读取信号的频率，并使该语音信号合成电路的频率在读取信号频率的同一周期内，完成其多次语音运算。
另，其中取样语音信号储存装置可以是一个语言只读存贮器。
其中储存在取样语音信号储存装置的取样语音信号，是指在差分脉码调制语音合成系统中，为将任一语音信号经取样后所得的取样结果，其振幅除以多倍后，储存在该抽样语音信号储存装置中。
而且，其中语音运算是指在差分脉码调制语音合成系统中，该语音信号合成电路是将取样语音信号输入端所输入的取样语音信号，以下列公式(a)、(b)或(c)进行运算公式(a)A(t)＝(A0)＝0，t＝0时公式(b)A(t+1/M)＝A(t)+Ai/M＝A(t)+Di，t≠0时公式(c)A(T+1)＝A(T)+M*Di＝A(T)+Ai其中，A(t)是指在变数时间t时的取样语音信号的振幅；A(t+1/M)是指在变数时间t+1/M时的取样语音信号的振幅；A(T)是指在常数时间T时的取样语音信号的振幅；A(T+1)是指在常数时间T+1时的取样语音信号的振幅；Ai是指第i个语音信号的取样结果未经除以多倍前的振幅；M 是指该倍数；Di是指储存在取样语音信号储存装置中的第i个取样语音信号的振幅(Di)。
当然，其中公式(b)中的任一变数时间t，应在T至T+1的时间内，在公式(b)中使用相同的第i个取样语音信号的振幅(Di)。
其中储存在该取样语音信号储存装置的取样语音信号，是指在自适应差分脉码调制的语音合成系统中，为将任一语音信号经取样后所得的取样结果，其振幅经振幅幅度函数与量化阶梯差函数运算后，储存在该取样语音信号储存装置中。
其中该语音运算是指在自适应差分脉码调制语音合成系统中，语音信号合成电路取得取样语音信号输入端所输入的取样语音信号，并以下公式(d)及(e)与(f)进行运算公式(d)A(t+1/M)＝A(t)+f1(Q(t))*Di＝A(t)+Aij公式(e)Q(t+1/M)＝Q(t)+f2(Q(t)，Di)公式(f)A(T+1)＝A(T)+Ai其中，A(t)是指在变数时间t时的取样语音信号的振幅；A(t+1/M)是指在变数时间t+1/M时的取样语音信号的振幅A(T)是指在常数时间T时的取样语音信号的振幅；A(T+1/M)是指在常数时间T+1/M时的取样语音信号的振幅Q(t)是指在变数时间t时的量化阶梯；Q(t+1/M)是指在变数时间t+1/M时的量化阶梯；Di是指储存在取样语音信号储存装置中的第i个取样语音信号的振幅；f1是指相对于量化阶梯的振幅幅度函数；f2是指相对于量化阶梯与Di的量化阶梯差函数；Ai是指第i个语音信号的取样结果未经该振幅幅度函数f1与该量化阶梯差函数f2运算前的振幅；
Aij是指在变数时间t时该f1(Q(t))与Di为乘积值，其中，j是指1-M中的任一值；M是指倍数。
其中公式(d)及(e)中的任一变数时间t，应介于T至T+1的时间内，在公式(d)及(e)中使用相同的第i个取样语音信号的振幅(Di)。
其中该语音合成装置还包括时钟脉冲信号发生器具有第一及第二信号输出端，该第一及第二信号输出端分别连接在第一及第二信号输入端，以使时钟脉冲信号发生器经第一信号输出端输出读取信号，供语音信号储存装置使用，而且时钟脉冲信号发生器经第二信号输出端输出的频率高于读取信号的运算信号，供语音信号合成电路使用。
其中该时钟脉冲信号发生器是一个可产生与输出二种不同频率的振荡电路。该语音合成装置还包括一个控制装置连接在时钟脉冲信号发生器及第二信号输入端，以供处理输出、输入音域使用；一个数字模拟转换装置，连接在语音信号合成电路，它用来将语音合成信号由数位信号转为模拟信号输出。
本发明结合

如下图1是熟知的语音合成装置方框图。
图2a、2b是熟知以插值法改善语音合成品质的方框图及波形图。
图3是熟知以补偿法改善语音品质的方框图。
图4是本申请的较佳实施例的电路方框图。
图5a-5c是将差分脉码调制语音合成装置使用本发明方案所得波形图。
图6是将差分脉码调制语音合成装置使用本发明后产生的波形图。
请参阅图4，其中语音合成装置4包括取样语音信号储存装置41，语音信号合成电路42，时钟脉冲发生器43，控制装置44及数字模拟转换器45；其中，取样语音信号储存装置41包括第一信号输入端411；该语音信号合成电路42包括第二信号输入端421以及语音信号输入端422；而时钟脉冲发生器包括第一及第二信号输出端431，432。
在图4中，整体的电路方框图仍与图1相似；即包括取样语音信号储存器41，语音信号合成电路42，控制装置44以及数字模拟转换器45的功能都与图1中所示的语言只读存贮器11相同，语音信号合成电路12，控制电路14以及该数字模拟转换电路15相同。
本发明的特征在于时钟脉冲发生器43可产生两种不同的频率信号(读取信号及运算信号)，分别由第一及第二信号输出端431，432输出至取样语音信号储存装置41与语音信号合成电路42中；其中，运算信号的频率高于读取信号多倍(倍数可为整数，也可为非整数)，因此语音信号合成电路42对应该运算信号，是在读取信号的同一周期内，重复多次从取样语音信号储存装置41中输入相同的取样语音信号。而且重复使用该取样语音信号多次，因此，没有对图1所示的方框图做大的改动下，由于提高运算次数，即可达到所熟知的插值效果；又由于提高运算次数后即能达到多点取样还原波形效果；比单点取样并还原波形达到的效果更为平滑。
为进一步说明本发明实施效果，现分别列举差分脉码调制及可适应差分脉码调制两种语音合成系统，用来说明本发明的方案，可适用于各种语音合成结构。(一)以差分脉码调制语音合成系统为例请参阅图5，它是将差分脉码调制语音合成装置使用本发明改进后所得的波形图，其中图5a，是以原先在差分脉码调制中的任一语音信号经取样后所得的结果，A1-A7则分别为各取样结果。
现以运算信号的频率为读取信号频率的2倍(即倍数M＝2)为例。用来说明如何重复使用该取样语音信号储存装置41中取样语音信号的原理，其中，现储存在取样语音信号储存器41中的取样语音信号分别为A1/2(D0)，A2/2(D1)，A3/2(D2)，...，A7/2(D6)，其中，除以2的原因是由于在读取信号的同一周期，必须进行二次运算，语音信号合成电路42每经两次运算后方能在输出处输出一组近似原未取样前的波形信号，其输出效果的原理是A(0)＝0；A(1/2)＝A(0)+D0＝A(0)+A1/2＝A1/2；A(1)＝A(1/2)+D0＝A(1/2)+A1/2＝A1/2+A1/2＝A1；A(1+1/2)＝A(1)+D1＝A1+A2/2；A(2)＝A(1+1/2)+D1＝A1+A2/2+D1＝A1+A2/2+A2/2＝A1+A2；A(2+1/2)＝A(2)+D2＝A1+A2+D2；. ..
. ..
.. .
.. .
.. .
.. .
上述结果可参见图5b所示，它与使用熟知的插值法而得的语音品质具有同样效果，但整体电路并不需多大改动，仅将语音信号合成电路42的频率提升M倍，而储存于取样语音信号储存装置中的任一取样语音信号，则将其振幅降为1/M倍，即可达到本发明提高语音品质降低成本的方案。
将上述以倍数M＝2为例，将其输出结果的公式整理如下，同时，将该公式作一说明使之有更清楚的了解公式(a)A(t)＝A(0)＝0，t＝0时公式(b)A(t+1/M)＝A(t)+Ai/M＝A(t)+Di，t≠0时公式(c)A(T+1)＝A(T)+M*Di＝A(T)+Ai其中，A(t)是指在变数时间t时的取样语音信号的振幅；A(t+1/M)是指在变数时间t+1/M时的取样语音信号的振幅；A(T)是指在常数时间T时的取样语音信号的振幅；A(T+1)是指在常数时间T+1时的取样语音信号的振幅；Ai是指第i个语音信号的取样结果未经除以多倍前的振幅；M是指倍数；Di是指储存在取样语音信号储存器中的第i个取样语音信号的振幅；在变数时间t介于T至T+1时间内，才可区分为T+1/M，T+2/M，T+3/M，T+4/M，...，T+M/M＝T+1等时间点，以此套入该公式(b)，可得下列方程式A(T+1/M)＝A(T)+Di；A(T+2/M)＝A(T+1/M)+Di＝A(T)+Di+Di＝A(T)+2*Di；. . .
. . .
. . .
. . .
. . .
. . .
A(T+M/M)＝A(T+1)＝A(T)+M*Di；由于在公式(b)中使用相同的第i个取样语音信号的振幅(Di)，所以经M次运算后得Di*M＝Ai，因此，语音合成信号在T+1时的振幅是公式(c)A(T+1)＝A(T)+M*Di＝A(T)+Ai时的结果。
图5c中所示，则是在倍数M＝4为例所示的在输出处输出波形图，其中，储存在取样语音信号储存装置41中的取样语音信号分别是A1/4，A2/4，A3/4，...，A7/4。(二)可适应差分脉码调制语音合成系统为例请参阅图6，它是将可适应差分脉码调制语音合成装置使用本发明方法改进后所得的波形图。
其中，以次数M＝2，A(0)＝0为例，工作原理如下所示A(1/2)＝A(0)+f1(Q(0))*D0＝A(0)+A01＝A01；Q(1/2)＝Q(0)+f2(Q(0)，D0)；
A(1)＝A(1/2)+f2(Q(1/2))*D0＝A01+A02＝A0；Q(1)＝Q(1/2)+f2(Q(1/2)，D0)；A(1+1/2)＝A(1)+f1(Q(1)+D1＝A0+A11；Q(1+1/2)+Q(1)+f2(Q(1)，D1)；A(2)＝A(1+1/2)+f1(Q(1+1/2))*D1＝A0+A11+A12＝A0+A1；Q(2)＝Q(1+1/2)+f2(Q(1+1/2)，D1)；. . .
. . .
. . .
. . .
. . .
. . .
其中，读取信息D0是重复读取两次，但如果函数f1与f2不同，则由上述公式即可得知所产生的A01与A02并不一定会相同；当然，以其读取信号D1、D2、...分别产生A11与A12、A21与A22、...，以此类推。
现将上述结果整理出如下公式公式(d)A(t+1/M)+A(t)+f1(Q(t))*Di＝A(t)+Aij公式(e)Q(t+1/M)＝Q(T)+f2(Q(t)，Di)公式(f)A(T+1)＝A(T)+Ai其中，A(t)是指在变数时间t时的取样语音信号的振幅；A(t+1/M)是指在变数时间t+1/M时的取样语音信号的振幅；
A(T)是指在常数时间T时的取样语音信号的振幅；A(T+1/M)是指在常数时间T+1/M时的取样语音信号的振幅；Q(t)是指在变数时间t时的量化阶梯；Q(t+1/M)是指在变数时间t+1/M时的量化阶梯；Di是指储存在取样语音信号储存器中的第i个取样语音信号的振幅；f1是指相对于量化阶梯的振幅的幅度函数；f2是指相对于量化阶梯与Di的量化阶梯差函数；Ai是指第i个语音信号的取样结果未经该振幅幅度函数f1与量化阶梯差函数f2运算前的振幅；Aij是指在变数时间t时该f1(Q(t))与Di为乘积值，其中，j是指1-M中的任一值；M是指该次数。
其中，该运算式(d)及(e)中的任一变数时间t，应介于T至T+1的时间，在运算式(d)及(e)中使用相同的第i个取样语音信号的振幅(Di)。
另外，在上述公式中运算式(f)A(T+1)＝A(T)+Ai的结果，是以下列方式推导所得A(T+1)＝A(T+M/M)＝A(T+(M-1)/M+1/M)＝A(T+(M-1)/M)+f1(Q(T+(M-1)/M))*Di；. . .
. . .
. . .
. . .
. . .
. . .
＝A(T)+Ai其中，Ai＝Ai1+Ai2+Ai3+.....+AiM；可以看出，仅在时间T与T+1之间增加M-1次合成运算，即可获得较佳的语音合成信号输出。
综上所述，本发明通过重复使用记忆体元件的结果，配合近乎不变的语音合成技术，并以较高合成运算频率的作法，便取样语音信号储存量减少，即可得到较高品质的语音合成装置。
权利要求
1.一种语音合成装置，它包括第一信号输入端的取样语音信号储存装置，该取样语音信号储存装置处理第一信号输入端所输入的读取信号，以输出所储存的取样语音信号，其特征在于，该语音合成装置还包括一个第二信号输入端及取样语音信号输入端的语音信号合成电路，该语音合成电路处理第二信号输入端所输入的运算信号，并以自电压联接在取样语音信号储存装置的取样语音信号输入端，重复输入相同的取样语音信号多次，然后将重复输入的取样语音信号经多次语音运算，输出一语音合成信号；其中，该运算信号的频率高于读取信号的频率，并使语音信号合成电路的频率与读取信号的频率在同一周期内，完成其多次语音运算。
2.如权利要求1中所述的语音合成装置，其特征在于，取样语音信号储存装置是一个语言只读存贮器。
3.如权利要求1中所述的语音合成装置，其特征在于，储存在取样语音信号储存装置的取样语音信号，是指在差分脉码调制语音合成系统中，任一语音信号经取样后的结果，振幅除多倍后，储存在取样语音信号储存装置中。
4.如权利要求3中所述的语音合成装置，其特征在于，该语音运算是指在差分脉码调制语音合成系统中，该语音信号合成电路将取样语音信号输入端所输入的取样信号以下列公式a或b与c进行运算公式(a)A(t)＝(A0)＝0，t＝0时公式(b)A(t+1/M)＝A(t)+Ai/M＝A(t)+Di，t≠0时公式(c)A(T+1)＝A(T)+M*Di＝A(T)+Ai其中，A(t)是指在变数时间t时的取样语音信号的振幅；A(t+1/M)是指在变数时间t+1/M时的取样语音信号的振幅；A(T)是指在常数时间T时的取样语音信号的振幅；A(T+1)是指在常数时间T+1时的取样语音信号的振幅；Ai是指第i个语音信号的取样结果未经除以多倍前的振幅；M是指该倍数；Di是指储存在取样语音信号储存装置中的第i个取样语音信号的振幅(Di)。
5.如权利要求4中所述的语音合成装置，其特征在于，该公式b中的任一变数时间t，应介于T至T+1区域内，在公式b中使用相同第i个取样语音信号的振幅Di。
6.如权利要求1中所述的语音合成装置，其特征在于，储存在取样语音信号储存装置的取样语音信号，是自适应差分脉码调制语音合成，为将任一语音信号经取样后所得的取样信号其振幅经振幅幅度函数与量化阶梯差函数运算，储存在该取样语音信号储存装置中。
7.如权利要求6中所述的语音合成装置，其特征在于，该语言运算是指在可适应性差分脉码调制语音合成系统中，该语音信号合成电路将取样语音信号输入端所输入的取样语音信号以下列公式d及e与f进行运算公式(d)A(t+1/M)＝A(t)+f1(Q(t))*Di＝A(t)+Aij公式(e)Q(t+1/M)＝Q(t)+f2(Q(t)，Di)公式(f)A(T+1)＝A(T)+Ai其中，A(t)是指在变数时间t时的取样语音信号的振幅；A(t+1/M)是指在变数时间t+1/M时的取样语音信号的振幅；A(T)是指在常数时间T时的取样语音信号的振幅；A(T+1/M)是指在常数时间T+1/M时的取样语音信号的振幅；Q(t)是指在变数时间t时的量化阶梯；Q(t+1/M)是指在变数时间t+1/M时的量化阶梯；Di是指储存在取样语音信号储存装置中的第i个取样语音信号的振幅；f1是指相对于量化阶梯的振幅幅度函数；f2是指相对于量化阶梯与Di的量化阶梯差函数；Ai是指第i个语音信号的取样结果未经该振幅幅度函数f1与该量化阶梯差函数f2运算前的振幅；Aij是指在变数时间t时该f1(Q(t))与Di为乘积值，其中，j是指1-M中的任一值；M是指次数。
8.如权利要求7中所述的语音合成装置，其特征在于，该公式d及e中任一变数时间t，介于T至T+1的区域内，在公式d和e中使用相同的第i个取样语音信号的振幅Di。
9.如权利要求1中所述的语音合成装置，其特征在于，该语音合成装置还包括一个时钟脉冲信号发生器和第一及第二信号输出端，该第一及第二信号输出端分别连接第一信号和第二信号输入端，以便该时钟脉冲信号发生器经第一信号输出端输出该读取信号，供语音信号储存装置使用，而时钟脉冲信号发生器经由第二信号输出端输出频率高于读取信号的运算信号频率，供语音合成电路使用。
10.如权利要求9中所述的语音合成装置，其特征在于，该时钟脉冲发生器是一可产生二种输出频率的振荡电路。
11.如权利要求1中所述的语音合成装置，其特征在于，该语音合成装置还包括一个控制装置，连接在时钟脉冲信号发生器的第二信号输入端，处理输出与输入区域使用；及一个数字模拟转换装置，连接在语音信号合成电路，用以将语音合成信号由数字信号转为模拟信号输出。
全文摘要
本发明是一种语音合成装置，它包括第一信号输入端的取样语音信号储存装置，处理第一信号输入端所输入的读取信号，输出储存的取样语音信号。其特征是语音合成装置还包括第二信号输入端及取样语音信号输入端的语音合成电路，处理第二信号端输入的运算信号，以自电压连接在取样语音信号储存装置的输入端，重复输入相同的取样语音信号多次进行语音运算，输出一合成信号，运算信号频率高于读取信号。并使语音合成电路与读取信号的频率在同一周期内。
文档编号G10L13/00GK1132386SQ95102809
公开日1996年10月2日申请日期1995年3月24日优先权日1995年3月24日
发明者林京元申请人:华邦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林京元
技术所有人：华邦电子股份有限公司
我是此专利的发明人