产生一预定时段的输出语音数据的方法

文档序号：2822110阅读：208来源：国知局

专利名称：产生一预定时段的输出语音数据的方法
技术领域：
本发明涉及一种产生一预定时段的输出语音数据的方法，特别是涉及一种产生具有可调整回音(echo)及残响(reverberation)比重的输出语音数据的方法。
背景技术：
现代音乐很少有不加回音效果的，因为在密闭空间中原音和经过墙壁反射的回音重迭后，声音听起来较扎实。
为了模拟真实的回音效果，以往是利用机械式的回音仿真装置，例如弹簧(spring)或是特殊的金属板(metal plate)，来产生类似的回音效果。但是这种机械式的回音仿真装置除了音量大小外什么都不能调，所以回音效果有限。
不过随着现今的电子音响系统(electrical acoustic system)的快速发展，数字式的语音合成器已经逐渐成为主流，因为数字的讯号要改变音质非常容易。
请参阅图1，图1是已知数字式语音合成器(sound synthesizer)20的功能方块图。已知数字式语音合成器20包含一延迟部件(delay element)22、一混合部件(mixer)24、一衰减单元(attenuator)26以及一存储单元28。语音合成器20用来模拟回音效果，当要仿真储存在存储单元28内的某一时段的输入的声音(图1标示以”IN”)时，该时段的输入的声音经过衰减单元26之后，再经过延迟部件22延迟一预设时间ΔT后，最后通过混合部件24与该预设时间后的输入声音结合，以此产生具有回音的声音讯号(图1标示以”OUT”)。请参阅图2，图2为一脉冲讯号在各延迟时间时的响应的示意图。从图2可以发现，真实的声音会在发出后呈现指数衰减，假设要产生第t秒的输出声音o(t)，不仅要考虑输入声音i(t)，还要考虑之前的输入声音所产生的回音，所以如果利用图1的架构去模拟真实的声音，因为其架构仅会延迟一预设时间ΔT前的输入声音i(t-ΔT)，所以输出声音o(t)＝i(t)+k*i(t-ΔT)，其中k系衰减单元的衰减参数。显然地，单以图1的架构观之，输出声音o(t)并没有办法包含i(t-2ΔT)、i(t-3ΔT)的输入声音，这样的输出声音缺乏连续渐次减少的音质效果，所以这样的语音合成器20产生的输出声音并不自然。所以为了有较佳的回音效果，就必须利用更多的存储空间的存储单元28来储存较长时间的输入声音，使得输出声音o(t)＝i(t)+k*i(t-ΔT)+k2*i(t-2ΔT)+k3*i(t-3ΔT)+……。这样模拟出来的输出声音才会较接近真实的声音。所以，对于要模拟回音较大的环境时，将会占用更多的输入存储空间28去存储i(t)、i(t-ΔT)、i(t-2ΔT)、i(t-3ΔT)，甚至更多的存储空间来保留各时段的输入声音，如此一来将占用较多的存储器空间，并且数字式语音合成器20针对各个输入讯号i(t-nΔT)，均必须增设一延迟部件22及衰减单元26。
有鉴于此，目前还有另外一种语音合成器来解决上述问题。请参阅图3，图3为已知另一数字式的语音合成器10的功能方块图。语音合成器10包含一延迟部件12、一混合部件14以及一衰减单元16，混合部件14用来混合输入端(图3标示以”IN”)输入的未延迟语音数据以及输入端输入但经延迟部件12延迟的语音数据，以在输出端(图3标示以”OUT”)产生回音的效果，延迟部件12用来延迟混合部件14的输出一预设时间ΔT，而衰减单元16则会衰减延迟部件12的输出。利用图3的架构，输出声音o(t)＝i(t)+k*o(t-ΔT)，而o(t-ΔT)＝i(t-ΔT)+k*o(t-2ΔT)、o(t-2ΔT)＝i(t-2ΔT)+k*o(t-3ΔT)，所以o(t)＝i(t)+k*i(t-ΔT)+k2*i(t-2ΔT)+k3*i(t-3ΔT)+……，其中k为衰减单元16的增益(gain)，其是介于0与1之间，而延迟部件12的预设时间为ΔT。语音合成器10只需保留i(t)以及o(t-ΔT)这两个声音参数就足以解决图1架构的缺失，也就是模拟出来的输出声音就不单仅是单调而干涩的输入声音，反而带有尾音补偿的效果。因此，如果衰减参数α(α＝1-k)太小，则由于输出声音衰减不易会造成明显的尾音，这样会使输出声音混浊；若衰减参数α太大，则输出声音的回音效果又会不明显。如果要设计一个具有第一次回音效果明显的语音合成器，但又不希望有太长的尾音使得输出声音混浊，若使用图1架构的语音合成器20，输出声音会缺乏尾音修饰，使用图3架构的语音合成器10，则无法实现目的，因为为了要使第一次回音效果明显，语音合成器10需要选择小的衰减参数α，而若选择小的衰减参数α，语音合成器10不只会产生强烈的第一次回音，亦会产生强烈的二阶以上的回音，因此造成强烈的残响，所以如何改善此一问题是很重要的课题。

发明内容
因此，本发明的目的在于提供一种产生具有可调整回音及残响比重的输出语音数据的方法，使得该输出语音数据不但具有良好的第一次回音效果且带有尾音修饰补偿，并减少存储器空间的输出语音数据的方法，以解决上述的问题。
为了实现本发明的上述目的，提供了一种产生一预定时段的输出语音数据的方法，其包含混合该预定时段的输入语音数据、该预定时段之前一时段的输入语音数据、以及该预定时段之前一时段的输出语音数据以产生该预定时段的输出语音数据。
本发明还提供了一种语音合成器，其包含一输入端、一输出端以及一逻辑单元。该输入端用来输入语音数据，该输出端用来输出语音数据。该逻辑单元用来混合由该输入端于一预定时段输入的语音数据、由该输入端在该预定时段之前一时段输入的语音数据、以及于该预定时段之前一时段由该输出端输出的语音数据以产生该预定时段的输出语音数据。

图1是已知数字式语音合成器的功能方块图。
图2是一脉冲讯号在各延迟时间时的响应的示意图。
图3是已知另一数字式的语音合成器的功能方块图。
图4是本发明第一实施例的语音合成器的功能方块图。
图5是本发明运用逻辑单元以进行语音数据转换的流程图。
图6以及图7的图5逻辑单元在运算过程中相关存储空间分配关系图。
附图符号说明10、20、30、50 语音合成器 12、22延迟部件14、24 混合部件16、26衰减单元28 存储单元32输入端34 输出端 36逻辑单元42 第一延迟部件44第二延迟部件46 第一混合部件48第二混合部件60 输入存储单元62输出存储单元601、602、621、622存储区段
具体实施例方式
请参照图4，图4是本发明的语音合成器(sound synthesizer)30的功能方块图。语音合成器30包含一输入端32、一输出端34、一输入存储单元60、一输出存储单元62以及一逻辑单元36。逻辑单元36则包含一第一延迟部件(delay element)42、一第二延迟部件44、一第一混合部件(mixer)46以及一第二混合部件48。输入端32用来输入语音数据，第一延迟部件42用来延迟输入端32输入的语音数据；第一混合部件46用来混合输入端32输入的语音数据及延迟第一混合部件46的输出讯号所产生的输入讯号；第二延迟部件44用来延迟第一混合部件46的输出讯号，以及第二混合部件48则用来混合第一混合部件46的输出讯号及经由第一延迟部件42延迟的语音数据，易言之，第二延迟部件44与第一混合部件46形成一回授回路。最后，输出端34则输出第二混合部件48混合后的语音数据。
为更清楚说明本发明，请同时参阅图5至图7，图5是本发明运用逻辑单元36进行语音数据转换的流程图，图6及图7是图5逻辑单元36在运算过程中相关存储空间分配关系图。一语音数据输入语音合成器30会提供一输入存储单元60以及一输出存储单元62，分别用来储存输入语音数据，以及依据输入语音数据所产生的输出语音数据，语音合成器30产生该语音数据带有回音的输出的步骤如下步骤100开始；此时输入存储单元60以及输出存储单元62的初始值皆为”空”(null)；步骤102输入一预定时段长度的语音数据经由输入端32存入输入存储单元60；步骤104逻辑单元36将混合该预定时段的输入语音数据、该预定时段之前一时段的输入语音数据与一第一衰减值a的乘积、以及该预定时段之前一时段的输出语音数据与一第二衰减值b的乘积以产生该预定时段的输出语音数据；步骤106将该预定时段的输出语音数据存入输出存储单元62；步骤108由输出端34输出由输出存储单元62所储存的该预定时段的输出语音数据；步骤110结束。
为便于说明，以下将假设输入存储单元60以及输出存储单元62分别有两个存储区段601、602以及存储区段621、622，且这些存储区段的长度皆相同，意即所能存储的语音数据长度相同，而且每个存储区段所储存的时段皆为10毫秒(10msec)，当然设计者可视自己的需求调整存储区段存取的时段长度，并不一定要局限于10毫秒。以下将开始说明语音数据间处理的对应关系，假设初始语音数据A由输入端32存入输入存储单元60的存储区段601，逻辑单元36会依据步骤104处理该预定时段的输入语音数据A，因为存储区段602、621、622皆为“null”，所以得出的输出语音数据仍为A并存入存储区段621，再由输出端34输出。当第10毫秒结束后，存储区段602储存了输入的语音数据B，而逻辑单元36依据步骤104得出输出语音数据为B+aA+bA并存入存储区段622，再由输出端34输出。当第20毫秒结束后，存储区段601会存入新的语音数据C，而逻辑单元36依据步骤104得出输出语音数据为C+aB+b(B+aA+bA)并存入存储区段621。当第30毫秒结束后，存储区段602储存了输入的语音数据D，逻辑单元36依据步骤104得出输出语音数据为D+aC+b(C+aB+b(B+aA+bA))并存入存储区段622，之后，逻辑单元36会重复以上的流程直到不再有输入语音讯号为止。从以上观之，可以发现在第30毫秒之后，第20毫秒时的第一次回音效果经过适当控制的衰减后(亦即可以把参数a调整大一些)仍保持饱满的回音状态，加上可把参数b相较于参数a调小，这样一来之前的输入声音(第10毫秒的输入声音B以及第0毫秒的输入声音A)在第30毫秒时可获得大幅衰减，且其衰减所能维持的时间不会拖太长。
如果仅利用图1的语音合成器20而想实现具有清楚的第一次回音效果，因为图1的语音合成器20只能混合前一时段的输入声音i(t-ΔT)，而缺乏其它更前时段的声音如i(t-2ΔT)、i(t-3ΔT)，所以会使声音具有缺乏尾音补偿的缺点；如果仅利用图2的语音合成器10来完成清楚的第一次回音效果，就必须把衰减参数设小，但这样不只会产生强烈的第一次回音，亦会产生强烈的二阶以上的回音，而导致尾音拉长。相较之下，本发明的方法可通过适当地调大参数a，并让参数b相对于参数a调小，不但可以有明显的第一次回音效果，同时避免尾音拉长的不良影响，并适当地带有尾音补偿。
在实际应用时，图4中的逻辑单元36也可以是语音合成器储存在存储器内的程序代码。
相较于已知技术，本发明的语音合成器对于预定时段的输出语音数据是根据该预定时段的输入语音数据、该预定时段之前一时段的输入语音数据、以及该预定时段之前一时段的输出语音数据的结合，可适当地加强该预定时段之前一时段的输入语音数据的强度，以使第一次回音的效果明显，又可适当地减少该预定时段之前一时段的输出语音数据的强度，以保留尾音补偿修饰的效果，而且本发明的方法还能节省存储器的使用空间，为一存储需求量小且能强化第一次回音效果并兼具尾音补偿修饰的解决方法。
以上所述仅为本发明的较佳实施例，凡依本发明权利要求所做的均等变化与修饰，均应属本发明专利的涵盖范围。
权利要求
1.一种产生一预定时段的输出语音数据的方法，其包含混合该预定时段的输入语音数据、该预定时段之前一时段的输入语音数据、以及该预定时段之前一时段的输出语音数据以产生该预定时段的输出语音数据。
2.如权利要求1所述的方法，其是使用一语音合成器产生该预定时段的输出语音数据。
3.一种语音合成器，其包含一输入端，用来输入语音数据；一输出端，用来输出语音数据；一逻辑单元，用来混合由该输入端于一预定时段输入的语音数据、由该输入端在该预定时段之前一时段输入的语音数据、以及在该预定时段之前一时段由该输出端输出的语音数据以产生该预定时段的输出语音数据。
4.如权利要求3所述的语音合成器，其中该逻辑单元包含一第一延迟部件，用来延迟该输入端输入的语音数据；一第一混合部件，用来混合该输入端输入的语音数据及延迟该第一混合部件的输出讯号所产生的输入讯号；一第二延迟部件，用来延迟该第一混合部件的输出讯号；以及一第二混合部件，用来混合该第一混合部件的输出讯号及经由该第一延迟部件延迟的语音数据。
5.如权利要求3所述的语音合成器，其还包含一存储器，其中该逻辑单元为储存于该存储器的程序代码。
全文摘要
一种产生一预定时段的输出语音数据的方法，其包含混合该预定时段的输入语音数据、该预定时段之前一时段的输入语音数据、以及该预定时段之前一时段的输出语音数据以产生该预定时段的输出语音数据。
文档编号G10L13/00GK1567430SQ03147439
公开日2005年1月19日申请日期2003年7月10日优先权日2003年7月10日
发明者吴俊德申请人:扬智科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴俊德
技术所有人：扬智科技股份有限公司
我是此专利的发明人

上一篇：语音识别的隐马尔可夫模型边缘化解码数据重建方法
上一篇：语音识别的概率加权平均缺失特征数据重建方法