话速变换方法及其装置的制作方法

文档序号：2821822阅读：175来源：国知局

专利名称：话速变换方法及其装置的制作方法
技术领域：
本发明是申请号为98800566.2的发明专利申请的分案申请，该原案申请日为1998年4月30日，发明名称为“声音区域的检测方法及其装置，以及利用这个方法及装置的话速变换方法及其装置”。
本发明还涉及在广播频道和录音带或日常生活中对伴有杂音或背景音发声的声音进行加工既变更声音的高低或说话速度、又将意思内容作机械识别，在符号化传送或者记录场合等等，将输入信号中的声音区域和非声音区域加以判别的声音区域检测方法及其装置。
在这个话速变换方法及其装置中，本发明能自动生成下述功能比如使用于电视的视听时，利用延伸声音以达到图像和声音的时间差最小为目的，将有着与话速变换中期待的迟缓程度(变换倍率)相适应而被设定的可变下框界值以上长度的非声音区域加以适当地缩短，进而依据相对于输入数据长的输出数据长的时间差的程度通过适应性变化变换倍率，一面将变换声音的发话时间几乎保持在原发生音的发话时间内，一面在所决定的时间限界里能实现最大的舒适感。
本发明对于输入信号数据，在每一个设定的时间间隔中，用具有所设定的时间间隔的帧单位将其功率算出，在保持住过去所设定的时间内的功率最大值和最小值同时，利用和相应于保持着的最大值以及最大值与最小值的差而变化的功率有关的下框界值，一面逐次适应输入信号中声音和背景音的各自功率的变化，一面在每个帧中，依据进行声音区域和非声音区域的判别，正确检测出输入信号中的声音区域，对广播频道、录音带或者日常生活中伴有杂音和背景音的已发出的声音予以加工、变换声音的高低和话语速度，机械认识意思内容，在符号化后传送或记录等的场合中，谋求加工声音的音质提高，声音认识率的改善，符号化效率的上升或译码化声音品质的提高。
而且，由于仅利用了功率比较简便求得的特征量，因此在缩短运算时间的同时降低了造价，并可能实时进行声音的处理。
把话速变换方法适用于实际的传播的场合、紧急播送等，会有比原声音迟缓的问题，特别伴有影像的媒体，这种迟缓会带来与话速变换中所期待的效果相反的坏影响。
因此，不使比原声音迟缓的发生，作为实现话速变换效果(舒适感)的手法，一种不是均衡地慢慢变换，而以从一口气说话发音的开始点到终了点的所经过的时间的函数、用话速从慢到快变化、或将句子间的非声音部区适当地缩短的方法(池泽龙等，平成4年日本音响学会春期研究发表会“吸收与话速变换相应的时间伸张的一种方法”2-6-2，PP，331～332)和将这一方法实时处理化的方法(今井笃等，平成7年电子情报通信学会，综合大会讲演论文集“与话速变换相应的时间伸张的实时吸收法”D-694、PP300)等有所报告。
前者是，在完全知晓发话样式的基础上，以适当的函数用手动设定的，后者也将给与倍率的函数用手动规定，在一次设定以后，把这固定起来的。
另外，非声音区域的缩短也是仅把一定的残留时间，用手动加以规定的，例如“偏移”累计多了时就将在缓冲存储器中积蓄的伸张部分的声音用手动加以清除。
因此，传统的话速变换装置中的播放声音的发话形态(话速、间隔的取法等)由发话者不一而各种各样，利用手动形式，则必须设定出每个都要适应的参数，因此伴随操作点多不但使设定本身困难、而且一般用户安装起来也困难，这是言不为过的问题。
而且在上述的话速变换装置中有必要把声音区域和非声音区域识别后认识，传统的声音区域控制方式有各种各样。
作为传统的声音区域检测方式之一，是以声音信号的功率等为基础，计算出杂音能级、声音能级，以这个计算结果为基准设定能级的下框界值、将这个能级下框界值与输入信号加以比较、输入信号的能级大时，将这判定成声音区域，能级小时将这判定非声音区域。采用这种方式的能级下框界值设定方法有代表性的是第1～第3种方式，第1种方式中在声音输入时的杂音能级值里加入预设的常数所得到的值作为能级下框值。而将这改良的第2种方式，是从输入声音信号能级最大值中减去杂音能级值。所得值大时，在比较大值中设定上述的能级下框值，所得值小时，将比较小值定上述能级下框界值(如特开昭58-130395号公报、特开昭61-272796号公报等)。又第3种方式中，是在这些能级下框界值的设定方法里添加对以上输入信号的连续观测、这一能级经一定时间保持一定时，则把这视为杂音能级、而后一面逐次更新杂音能级，一面设定为检测出声音区域的下框界值(平成7年、电子情报通信学会综合大会讲演论文集D-695.301页)。
但是上述传统的声音区域检出方式中，存在有下述的问题，首先第1种方式虽有简便的优点，在声音的平均能级为中等程度时，其机能优越，但存在有声音的平均能级过大时容易将杂音等作为声音误检出来、而且在过小时又容易丢失声音的一部分后再检测等问题。
其次，第2种方式，虽能将这样的第1种方式的问题加以解决，但是因为是以输入信号中的杂音、背景音的能级差不多一定为前提，所以面对声音的能级变动虽可将其追踪，但在杂音和背景音的能级时时刻刻变化的场合则有无法保证正确的声音区域被检出的问题。
再次，第3种方式中，由于考虑到这样杂音能级的变动，杂音能级逐次变化着，也不会发生误检出。
但是在播放频道等里也不是仅存杂音，作为效果音的音乐和拟音等的背景音也存在，而一般情况下这些的音能级时刻在变动，而且与此同时，声音通常是持续发生的，输入信号能级过了一定时间几乎不会是固定的，在这样场合下，即使是第3种方式也不能正确地设定杂音能级，声音区域的正确检出成为难题。
本发明有鉴于上述问题，以提供具有下述功能的话速变换方法及其装置为目的使用者仅是一次设定操作作为数阶段大致标准的变换倍率，适应性地控制与被设定的条件相适应的话速变换倍率和非声音区域。在实际发话的时间段内，话速变换中所期待的效果就能稳定地得到。
而且以提供具有下述功能的声音区域检测方法及其装置为目的仅仅应用功率比较简便地求得特征量、运算时间缩短的同时、成本随着降低而且逐次适应输入声音、背景音和各自的能级变化、实时进行声音处理，能判别声音区域和非声音区域。
由于上述的构成，本发明第一方面所记载的声音区域检测方法，对于输入进来的信号数据在每一所设定的时间间隔内以所设定的帧幅算出帧功率，同时保持住过去所设定时间内的帧功率的最大值及最小值，决定下框界值，这个下框界值和相应于被保持着的最大值以及最大值与最小值的差而变化的功率有关，将这个下框界值与现在的帧的功率作一比较，依据决定现在的帧是声音区域还是非声音区域，逐次对应输入声音和背景音各自能级的变化进行实时声音处理、判别声音区域非声音区域。
本发明第二方面所记载的声音区间检测方法的特征是在权利要求1中记载的声音区域检测方法里，最大值与最小值的差未达到所设定的值的场合，相比于最大值与最小值的差在所设定值以上的场合将上述下框界值决定为接近最大值。
为了达到上述的目的，本发明第三方面所记载的声音区域检测装置，其特征是具备对于输入进来的信号数据，在所设定的时间间隔中在所设定的帧幅把帧功率计算出的功率运算器和把过去所设定的时间内的帧功率最大值保持着的瞬时功率最大值保持器及把过去所设定时间内的帧功率最小值保持着的瞬时功率最小值保持器以及，决定下框界值的功率下框界值决定器，这个下框界值和保持在这些瞬时功率最大值保持器、瞬时功率最小值保持器里的最大值以及最大值与最小值的差二者而变化的功率有关，还有依据这个功率下框界值决定器得出的下框界值同现在的帧的功率作一比较，把是声音区域还是非声音区域加以决定的判定器。
根据上述的构成，本发明第三方面所记载的声音区域检测装置中利用功率运算器，在每一所设定的时间间隔里，用具有所设定的时间幅的帧单位把输入进来的信号数据加以处理，将其功率计算出来的同时，利用瞬时功率最大值保持器及瞬时功率最小值保持器，保持住在过去所设定时间内的功率最大值和功率最小值，同时利用功率下框界值决定器决定下框界值，这个下框界值和相应予被保持着的最大值以及最大值与最小值的差而变化的功率有关，根据判定器、基于上述下框界值将上述输入信号数据区分帧单位属于声音区域和非声音区域。由于仅将功率比较简便地作特征量于以利用，在缩短运算时间的同时，降低了成本，同时将输入声音同背景声各自的能级的变化逐次适应，进而实时进行声音处理，判别声音区间和非声音区间。
本发明第四方面所记载的声音区域检测装置其特征是在本发明第三方面里记载的声音区域检测装置里上述功率下框界值决定器中最大值与最小值的差未达到所设定值时，相比于最大值与最小值的差在所设定值以上的场合，把上述下框界值决定为接近最大值。
而且为达到上述的目的，本发明还提出一种话速变换方法，在该方法的第一方面中记载的话速变换方法，包括在时间变化的任意比率下当将输入数据伸张合成而得出的输出数据中出现某非声音区域，这个非声音区间的继续时间超越所设定的下框界值时，削减对应于输入数据的输出数据伸张时间，此削减的只是这个伸张时间内的任意时间。
上述的构成中，该话速变换方法记载的第一方面中，在时间变化的任意比率下当将输入数据伸张合成而得出的输出数据中出现非声音区域，这个非声音区域的继续时间超越所设定的下框界值时，削减对应于这个输入数据的输出数据伸张时间，此削减的只是这个伸张时间内的任意时间，使用者只需仅仅一次设定操作成为数阶段大体目标的变换倍率，与被设定的条件相适应，适应性地控制非声音区域和话速变换倍率，在实际上发话时间的范围内话速变换中能稳定获得期待的效果。
所记载的话速变换方法第二方面中，其特征是在上述第一方面记载的话速变换方法里当输入数据伸张合成之时，输入数据长和将任意的伸缩倍率乘以这个输入数据长而计算出的目标数据长及实际的输出数据长的关系没有矛盾、一边逐次监视一边进行合成处理、相对于时间变化的任意伸缩合成比率，关于声音部分，在达到信息不会丢失的同时使对于伴随着话速变换的伸张的正确时间信息得以保持。
在上述构成里，该话速变换方法记载的第二方面中，将输入数据进行伸缩合成时，输入数据和这个输入数据长乘以任意的伸缩倍率而计算出的目标数据长和实际的输出数据长的关系不发生矛盾，所以一边逐次监视一边进行合成处理，对于随时间变化的任意的伸缩合成比率，关系到声音部分，在以不发生信息丢失的同时，由于相对于伴随话速变换的伸张的正确时间信息保持住，因此用户只要仅一次设定操作作为数阶段的大体目标的变换倍率就能相应于被设定的条件适应性地控制话速变换倍率和非声音区域，在实际发话的时间范围内，在话速变换中能稳定获得所期待的效果。
该话速变换方法记载的第三方面中的特征是在其第一方面中记载的话速变换方法里将伴随话速变换的输入数据长的伸张部分解除时，把继续一定时间以上的非声音区域的一部分消除，对应于话速变换倍率、伸张量等，使非声音区域的残存比率发生适应性的变化。
上述构成中所述第三方面记载的话速变换方法里伴随着话速变换的输入数据长的伸张部分解除时、把继续一定时间以上的非声音区域一部分清除，对应于话速变换倍率、伸张量等，根据非声音区域的残存比率发生适应性变化、用户仅仅只一次设定操作作为数阶段的大体目标的变换倍率，就能相应于被设定了的条件适应性地控制话速变换倍率和非声音区域，在实际上发话的时间范围内，在话速速变换中能稳定获得所期待的效果。
该话速变换方法记载的第四方面其特征是在所述第一方面记载的话速变换方法里，在被限定了的时间范围内进行话速变换时，输入数据长和这个输入数据长乘以任意的伸缩倍率而算出的目标数据长和与实际的输出数据长的关系不发生矛盾，所以一面逐次监视一面用预先设定的时间间隔测定伸张量，根据这个测定结果，在时间差少时，把话速变换倍率暂时上升，而在时间差多时，把话速变换倍率暂时下降，依此适应性地变化话速变换倍率。
上述的构成中其第四方面记载的话速变换方法里在所限定的时间范围内进行话速变换时，输入数据长和这个输入数据长乘以任意的伸缩倍率而得出的目标数据长和实际的输出数据长的关系不矛盾，所以一面逐次监视一面用予先设定的时间间隔测定伸张量，基于这个测定结果，时间差少的时候，将话速变换倍率暂时上升，而时间差多的时候，将话速变换倍率暂时下降，由于话速变换倍率发生适应性改变，用户只要仅仅一次设定操作作为数阶段的大体目标之变换倍率，就能适应地控制话速变换倍率和非声音区域，在实际上发话的时间范围内，在话速变换中能稳定获得所期待的效果。
该话速变换方法记载的第五方面的特征是在所述第一方面记载的话速变换方法里，识别声音区域和非声音区域时，相对于输入进来的信号数据，在每个设定的时间间隔里，用所设定的帧幅计算出帧功率的同时，保持住过去设定时间内的帧功率的最大值和最小值，决定下框界值，此下框界值和对应于被保持的最大值和最大值与最小值之差而变化的功率有关，将这个下框界值和现在的帧功率作比较，决定现在的帧是声音区域还是非声音区域。
该话速变换方法记载的第六方面的特征是在所述第五方面记载的话速变换方法里，最大值与最小值的差未达到所设定值时，相比于最大值与最小值的差在所定值以上的场合，将上述下框界值决定为接近最大值。
而且，为达到上述的目的本发明话速变换装置记载的第一方面的特征是在把输入数据分割成各块而生成各数据块的同时具备下列手段基于各数据块生成连接数据的分割处理/连接数据生成手段；以及基于输入进来的所期待的话速，根据上述分割处理连接生成手段而生成的各数据块，决定各连接数据的连接顺序，把这些连接起来，生成输出数据的连接处理手段；这个连接处理手段在时间变化的任意比率下将各数据块伸张合成而得出的输出数据中出现非声音区域，这个非声音区域的继续时间超越所设定的下框界值时将削减对应于这个数据块的输出数据的伸张时间，此削减的仅仅是这个伸张时间内的任意时间。
上述的构成中所述话速变换装置记载的第一方面里将输入数据分割成各块生成数据块时具有基于各数据块，生成连接数据的分割处理/连接数据生成手段和基于输入进来的所期望的话速、根据上述分割处理/连接数据生成手段而生成的各数据块决定各连接数据的连接顺序，把这些连接起来，生成输出数据的连接处理手段，依据上述连接处理手段，当在时间上变化的任意比率下将伸张合成各数据块而得到的输出数据中出现非声音区域，这个非声音区域的继续时间超越所设定的下框界值的时候将削减把对应于这个数据块的输出数据的伸张时间、由于仅仅削减这个伸张时间内的任意的时间，用户仅仅只一次设定操作作为数阶段的大体目标的变换倍率，就能相应于被设定的条件，适应性地控制话速变换倍率和非声音区域、在实际上发话的时间范围内，能稳定获得在话速变换中所期待的效果。
所述话速变换装置记载的第二方面的特征是在所述第一方面记载的话速变换装置里上述连接处理手段作伸缩合成输入数据时，输入数据长和这个输入数据长乘以任意的伸缩倍率而算出的目标数据长及实际的输出数据长的关系不发生矛盾，所以逐次监视、同时进行合成处理，对于时间变化的任意的伸缩合成比率，有关声音部分在达到信息不会丢失目的的同时、对于伴随着话速变化的伸张的正确时间信息被保持住。
上述的构成里所述第二方面记载的话速变换装置中，用上述连接处理手段伸缩合成输入数据时、输入数据长和这个输入数据长乘以任意伸缩倍率而算出的目标数据长和实际的输出数据长的关系不发生矛盾，所以一面逐次监视、一面进行合成处理、对于时间变化的任意的伸缩合成比率，关于声音部分、在达到信息不会丢失的目的同时因为对于伴随着话速变化的伸张的正确时间信息被保持住，因此用户仅仅只一次设定操作成为数阶段的大体目标的变换倍率，相应于被设定的条件，适应性地控制话速变换倍率和非声音区域，实际发话的时间范围里，能稳定获得在话速变换中期待的效果。
本发明话速变换装置记载的第三方面的特征是在所述第一方面记载的话速变换装置里，上述连接处理手段，在把从伴随着话速变换的输入数据长的伸张部分解除时，把继续一定时间以上的非声音区域的一部分消除，而对应于话速变换倍率、伸张量等，使非声音区域的残存比例发生适应性变化。
上述构成里，所述第三方面记载的话速变换装置中，采用上述连接处理手段、在把伴随着从话速变换的输入数据长的伸长部分解除时、把继续一定时间以上的非声音区域的一部分消除，而对应于话速变换倍率、伸张量等、由于非声音区域的残存比例发生适应性变化，因此用户仅仅一次设定操作成为数阶段大体目标的变换倍率，对应于设定条件，适应性控制话速变换率或非声音区、在实际上发话的时间范围里，在话速变换中能稳定获得期待的效果。
本发明话速变换装置记载的第四方面的特征是在所述第一方面记载的话速变换装置里，上述连接处理手段在限定的时间范围进行话速变换时，输入数据长和这个输入数据长乘以任意的伸缩倍率而算出的目标数据长与实际的输出数据长的关系不发生矛盾，所以便一面逐次监视一面用予先设定的时间间隔测定伸张量，基于这个测定结果，在时间差少的时候、使话速变换倍率暂时上升，而在时间差多的时候使话速变换倍率暂时下降、因此使话速变换倍率发生适应性变化。
上述构成中、所述第四方面记载的话速变换装置里依据上述连接处理手段在限定的时间范围进行话速变换时，输入数据长和这个输入数据长乘以任意的倍率而算出的目标数据长与实际的输出数据长的关系不矛盾，所以便一面逐次监视一面用预先设定的时间间隔测定伸张量，基于这个测定结果，由于在时间差少的时候，使话速变换倍率暂时上升而在时间差多的时候使话速变换倍率暂时下降致使话速变换倍率发生适应性变化，因此用户仅仅一次设定操作成为数阶段大体目标的变换倍率，对应于设定条件适应性控制话速变换率和非声音区域，实际发话的时间范围内，在话速变换中能稳定获得所期待的效果。
本发明话速变换装置记载的第五方面的特征是在所述第一方面记载的话速变换装置里还具备分折处理手段；对于上述输入数据，在每个所设定的时间间隔里，用所设定的帧幅运算帧功率的同时，保持过去所设定的时间内帧功率的最大值及最小值，决定下框界值，这个下框界值和相应于被保持着的最大值以及最大值与最小值的差的变化的功率有关，将这个下框界值与现在的帧功率作一比较，现在的帧由上述分折处理手段决定是声音区域或非声音区域。
本发明话速变换装置记载的第六方面的特征是在所述第五方面记载的话速变换装置里，上述分析处理手段在最大值与最小值的差未达到所设定值的场合，相比于最大值与最小值的差在所设定值以上的场合，将上述的下框界值决定为接近最大值。
图2是表示本发明声音区域检测装置的一种实施例的方框图。
图3是表示在图2中表示的声音区域检测装置的动作的示意图。
图4是显示在

图1中表示的连接数据生成器中反复连接同一块时采用连接数据生成法的示意图。
图5是表示在图1中表示的连接顺序生成器里输出入数据长监视比较部分的详细构成例子的方框图。
图6是在图1中表示的连接顺序生成器中生成的连接顺序一个例子的示意图。
图1是表示本发明话速变换装置的一种实施例的方框图。
表示在这个图中的话速变换装置具备端子1、A/D变换器2、分析处理器3、数据块分割器4、数据块存储器5、连接数据生成器6、连接数据存储器7、连接顺序生成器8、声音数据连接器9、D/A变换器10、端子11等，从发话者来的输入声音数据、基于声音数据属性施加分析处理，使用该分析信息所希望的函数合成话速变换声音数据时，将输入声音数据的数据长(输入数据长)和在这里乘上任意的伸缩倍率而运算出的目标数据长和实际的输出声音数据的数据长(输出数据长)作一比较，不产生矛盾便对这些进行处理，面对伸缩倍率的变化也不会发生声音信息的丢失现象，而且时时刻刻监视变化的原声音与变换声音的时间差。在时间差少的场合将使话速变换倍率暂时上升，与此相反，时间差多的场合使话速变换倍率暂时下降，使倍率发生适应性变化，进而基于话速变换倍率或伸张量等，使非声音区域的残存比例发生适应性变化，将从伴随话速变换的原声音来的时间差适应性地解除。
在A/D变换器2中在所设定的抽样速度(例如32KHz)下对，输入进端子1中的声音信号，例如将从话筒、电视、无线电、其它的映像机器、音响机器的模拟声音输出端子输出的声音信号进行A/D变换的同时把利用这些得到的声音数据缓冲寄存到先进先出存储器中、既不过多也不过少，供给到后续的分析处理器3和数据块分割器4里。
在分析处理器3里，分析从A/D变换器2来的输出声音数据，抽出声音区域以及非声音区域的同时，基于这些区域在数据块分割器4进行的声音数据的分割处理生成决定必要的各块时间长的分割信息，并将这些供给到数据块分割器4中。
在此说明本发明的声音区域检测方法及其装置的一个实施例。
本发明的声音区域检测方法及其装置中，以输入信号的功率作为指标时，有关输入信号中的声音的能级变动被反映在当前为止的输入功率的最大值中，有关背景音的能级变动，则被反映在当前为止输入功率的最小值中。以此作为着眼点、决定声音/非声音判别的下框界值时，杂音几乎不存在时，从当前为止输入功率的最大值中仅减去所设定值，将所得的值作为基本的下框界值。随着从当前为止输入的功率最大值中扣除最小值而得到的值变小时(S/N随着变小)、下框界值则变得大了，加以修正处理后决定下框界值。
而后，在所定的每一时间间隔用具备所定的时间幅的帧单位运算出输入声音数据的功率，一面保持过去所设定时间内的功率最大值和最小值，一面利用和对应于最大值以及最大值与最小值的差而变化的功率有关的下框界值，逐次适应输入声音、背景声各自功率变化，在每个帧里进行声音区域与非声音区域的判别。
以下利用图作具体说明图2是表示声音区域检测装置一个例子的框图。
图中表示的声音区域检测装置31具备对于数字化后的输入进来的输入信号数据在每一时间间隔里用所设定的帧幅将功率运算出来的功率运算器32；保持住过去的所设定的时间内帧功率的最大值的瞬时功率最大值保持器33；保持在过去所设定时间内帧功率最小值的瞬时功率最小值保持器34；决定与对应于在这些瞬时功率最大值保持器33、瞬时功率最小值保持器34中保持着的最大值、以及最大值与最小值差这二者而变化的功率有关的下框界的功率的下框界值决定器35；由这个功率下框界值决定器35决定的下框界值与现在的帧的功率进行比较而决定是声音区域还是非声音区域的判定器36。
而后在这个声音区域检测装置31中，对于输入信号数据所设定的每一时间间隔里用具备所设定的时间幅值的帧单位运算出输入信号的功率，在保持住过去所设定时间内的功率最大值和最小值的同时，利用与相应最大值及最大值与最小值的差而变化的功率有关的下框界值，逐次适应输入声音和背景声音的各自功率的变化、在每个帧里进行声音区域与非声音区域的判别。
在功率运算器32中，例如对20ms的帧幅利用5ms的时间间隔运算出信号的平方和乃至平方平均值，将其对数化，即分贝化，将那一时刻的帧功率取作“P”供给瞬时功率最大值保持器33和瞬时功率最小值保持器34及判定器36。
瞬时功率最大值保持器33设计来保持住所设定时间内(例如6秒)的帧功率“P”的最大值，通常那个保持值“Pupper”供给到功率下框界值决定器35中。但是一旦在帧功率P满足“P＞Pupper”状态被从功率运算器32提供，则立即更改最大值“Pupper”。
瞬时功率最小值保持器34设计来保持住过去所设定的时间内(如4秒)的帧功率“P”最小值，通常那个保持值“Plower”供给到功率下框界值决定器35中。但是下框界功率“P”是“P＜Plower”状态，被从功率运算器32提供，则立即更改那个最小值“Plower”。
功率下框界值决定器35是利用保持在瞬时功率最大值保持器33及瞬时功率最小值保持器34中的最大值“Pupper”和最小值“Plower”，例如，进行下式所示的运算决定关系到功率的下框界值“Pthr”，将结果提供到判定器36。
Pupper-Plower≥60[dB]时Pthr＝Pupper-35……(1)Pupper-Plower＜60[dB]时Pthr＝Pupper-35+35×{1-(Pupper-Plower)/60} ……(2)但是背景音的能级接近声音的能级场合为防止本发明装置的误动作，希望Pthr以Pthr＝Pupper-13作为上限。而且上式中的常数35是在上述的杂音几乎不存在时的基本下框界值。
在判定器36，从功率运算器32来的供给每个帧的功率“P”和从功率下框界值决定器35来的下框界值“Pthr”作一比较，每一帧里如果“P＞Pthr”则该帧判定为声音区域、如果“P≤Pthr”则该帧判定为非声音区域、基于这些各判定结果、输出声音/非声音的判别信号。
因此，如图3所示。输入信号数据值变化时，基于从功率运算器32输出的功率“P”，瞬时功率最大值保持器33和瞬时功率最小值保持器34中各自保持住最大值“Pupper”和最小值“Plower”的同时，基于这些最大值“Pupper”和最小值“Plower”决定下框界值“Pthr”、基于这个下框界值、各帧终将会判定是声音区域还是非声音区域。
这样，于这个实施例中，在所定的时间间隔里用具有所定的时间幅的帧单位运算出输入信号数据的功率，在保持住过去所定的时间内的功率最大值和最小值的同时，最大值以及利用有关相应于最大值和最小值之差而变化的功率的下框界值，逐次适应输入声音和背景音的各自功率的变化，在每个帧里进行声音区域与非声音区域的判别，因此在广播节目、录音带或日常生活中面对伴有杂音和背景音的发声、都能正确判别出在每一个帧里是声音区域还是非声音区域。而且在这个实施例中，基于过去所定的时间内瞬时功率最小值，而将背景音的能级推定，因此，广播节目等中即使背景声时刻都在变动、并持续不断发声也能判别输入信号是声音区域还是非声音区域。
这一结果，对于输入信号中的声音处于(a)被声音的处理改变了声的高低和话速；(b)机械地认识声音意思内容；(c)符号化传送或记录；等场合，都有可能提高加工声音的音质、改善声音认识率、符号化效率的提高、改善译码化声音的品质。
而且由于功率方面利用的仅仅是比较简便求得的特征量，因此能缩短演算的时间，同时也使装置整体构成简单，降低了成本，可能进行实时声音处理。
本发明话速变换中接着作如下的处理功率在所设定的下框界值Pthr以上的区域即声音区域进行着伴随声带振动的声音为有声音还是未伴随着声带振动的声音为无声音的判定。在这里不仅仅是功率的大小，还同时使用了零交叉分析、自相关分析等。
而且为了分析声音数据，在决定各块的时间长时，声音区域(有声音区域、无声音区域)以及非声音区域进行既定的自相关分析且检测周期性，基于这个周期性决定块长。在有声音区域，检测声带振动周期的音调周期、各音调周期按各块长进行分割。这时由于有声音区域的音调周期分布在1.25～28.0ms左右广大范围，因此进行长短各异的窗幅的自相关分析，尽可能检测正确的音调周期。另外作为有声音区域的块长，利用了音调周期，防止了起因于块单位的反复而引起的声高的变化(变成低声)对于无声音区域、非声音区域，检测5ms以内的周期性继而检测块长。
数据块分割器4，按照用分析处理器3决定的块长、分割从A/D变换器2输出的声音数据，把从这个分割处理得到的块单位的声音数据和那个块长提供给数据块存储器5中，同时把用分割处理得到的各块单位声音数据的两端部即把从开始部分所设定的时间长(如2ms程度)和终了部分所设定的时间长(如2ms程度)的前面部分提供给连接数据生成器6。
块存储器5中，利用环形缓冲存储器将从数据块分割器4提供的块单位声音数据及块长暂时收纳、必要时将暂时记忆着的块单位声音数据提供给声音数据连接器9中，同时必要时将暂时记忆着的块长提供给连接顺序生成器8。
连接数据生成器6中，在各块里，如图4所示对即将完结的块的终了部分、本块的开始部分的声音、紧接其后的块开始部分的声音数据进行加窗以后、即将完结的块的终了部分和本块的终了部分进行重复相加以及该块的开始部分和紧接其后的块开始部分也进行重复相加、与此同时将这些连接起来、在各块里生成连接数据，随之把这些提供给连接数据存储器7。
连接数据存储器7中利用环形缓冲存储器把连接数据生成器6提供的各块每一连接数据暂时记忆，同时，必要的话将暂时记忆着的连接数据提供给声音数据连接器9。
连接顺序生成器8中，为了实现受听者设定的期望话速、生成块单位的声音数据以及连接数据的连接顺序。这时受听者将数字存储媒体(digital volume)作为转换界面接口，可以设定各属性(有声音区域、无声音区域或非声音区域)各自的时间伸张倍率。这个值收存在可以重录的存储器中。而且，这个值可提供两种工作方式；固定的伸张倍率的处理方法(＝均匀伸张模式)和一面以这个固定的伸张倍率为目标，一面不累计一定时间以上的偏移而是把各声音属性综合并加以适应性地控制，在所限的时间范围实现话速变换效果的方法(＝时间伸张吸收模式)，这两种方式可以任选。
如若采用这个连接顺序生成器8则对于设定在上述存储器里的伸张倍率进行实际声音合成时，因为将同时刻的输入声音数据长和输出声音数据长以及将来希望合成的声音数据长的各时间关系采用实时加以把握、所以通常可以监视原声音的发话时刻和变换声音的输出时刻之间的时间差，反馈这个信息就能够把时间差自动地抑制在一定长的时间里。同时对于用任意的时刻变更到任意值的伸缩倍率在其实行时，可以校对是否发生时间上矛盾(例如与输入声音数据长相比要求缩短输出声音数据长)，能够防止合成时声音信息的丢失。
其次具体说明这个连接顺序生成器的处理。设定采用任意函数的声音伸缩倍率时基于由数据块存储器5提供的各块长、逐次运算出数据块分割器4规定的处理单位声音数据长(＝输入数据长)，这个输入数据长，乘以由受听者设定的伸缩倍率所得结果作为目标数据长。在声音数据连接器9与这个目标数据值一致为目的进行声音数据的连接，同时把实际上变成输出了的输出声音数据长的声音数据长(＝输出数据长)逐次反馈到连接顺序生成器8中。
如图5所示由设置在连接顺序生成器8中的输出入数据长监视比较器20生成的目标长作为连接顺序信息送到声音数据连接器9中。输出入数据长监视比较器20由输入数据长监视器21、输出目标运算器22、比较器23、输出数据长监视器24以及比较器25构成。监视器21、监视输入数据长。运算器22，对采用以输入数据长监视器21得到的输入数据长和由受听者(或装置中内藏的函数存储器)给于的值为基准进行的话速倍率变换生成的输出数据目标长(目标数据长)做出运算的同时，还对这个目标数据长自动进行修正。比较器23功能是由这个输出目标长运算器22得出的目标数据长和输入数据长监视器21得出的输入数据长作一比较，目标数据长比输入数据长较短时，则将目标数据长调到与输入数据长一致，当目标数据长比输入数据长较长时则把目标数据长照原样输出。监视器24对与由声音数据连接器9来的输出数据有关的既有连接信息作为输入的输出数据长进行监视。比较器25的功能是从输出数据长监视器24得到的输出数据长和由比较器23得到的目标数据长进行比较，目标数据长比输出数据长较短时，将目标数据长调到与输出数据长一致，而目标数据长比输出数据长较长时则将目标数据长按原样输出。然后，如下所述，用所设定的时间间隔读出设定的每个声音属性的存储器值，同时为了实现读出属性的每个伸张倍率，在求目标数据长的同时，根据这个目标数据长和在输出数据长监视器24得出的输出数据长、时时刻刻生成附加声音的伸缩信息的连接信息，且如图6所示把各块的声音数据及连接数据连接起来。
首先把输入数据长与目标数据长逐次比较，当判定输入数据长在目标数长之上时，将目标数据长修正到与输入数据长一致，而判定输入数据长未达到目标数据长时，则中止目标数据长的变更。
其次对目标数据长与实际输出数据长进行比较，当判断输出数据长在目标数据长之上时，则修正目标数据长以达到与输出数据长一致，而判定输出数据长未达到目标数据长时则中止目标数据长的变更。
为了使这些经比较处理后得到的目标数据长一致，生成了显示伸张信息和连接信息等等的连接指令，并将其提供到声音数据连接器9中。
其次说明连接顺序生成器8中话速变换倍率的控制条件。例如，广播的时间范围等，在限定的时间范围内，将进行的话速变换工作处于所期望的场合中逐次监视输入数据长和输出数据长，用预先任意设定的时间间隔测两个数据的时间差，依此，延迟量少的时候，暂时升高话速变换倍率、相反，多的时候进行下降话速变换的处理、如果设定出可适应的倍率变化则控制良好。
例如在这个实施的例中，在出现200ms以上的非声音区域时点，将这之后出现的最初有声开始的时刻当作“t＝0”、把“0≤t≤T”范围出现的各有声音的开始时刻相对应的倍率作为设定条件的函数、可以使用下式的余弦函数
f(t)＝rs+0.5(rs-re)(cosπt/T+1.0)………(3)式中t0≤t≤Trs受听者决定的外部输入值(1.0≤rs≤1.6)re作为初始值设定的值(如re＝1.0)在此输入数据长与输出数据长的时间差以等于一定的时间间隔例如1秒计算，对应于此时的时间差将初始值re从“1.0”开始以“0.05”持续增加、相反时减少到“0.95”程度。但是在超越周期T时点而200ms以上的非声音区域尚未出现的场合中，其以下的有声音区域里例如适用1.0倍的倍率，此处以音调或功率等的变化量作为指标也可以重新设定倍率。致于非声音区域的残存比率也可以借鉴话速变换倍率或伸张量等等进行适应性变化。这个作为函数也可以任意设定。
与外部输入值re相对应，设定非声音区域的缩短容许限(显示最低应保存的不消减的值)，以上述那样函数表现自然好，但也能如下所述离散设定。
rs＝1.0时可以削减到300msrs＝1.1时可以削减到250msrs＝1.2时可以削减到230msrs＝1.3时可以削减到200msrs＝1.4时可以削减到200msrs＝1.5时可以削减到150msrs＝1.6时可以削减到100ms等设定也很好。
又，非声音区域的削减方式可以在环形缓冲存储器上的任意地址上移动指针来实现。在这个实施例中，利用移动指针到紧随该非声音区域之后的有声音的开始部分使声音信息的丢失得以防止。
声音数据连接器9随着在连接顺序生成器8决定的连接顺序，把数据块存储器5来的块单位的声音数据读出，将指定块的声音数据伸张，同时，一面读出由连接数据存储器7来的连接数据，一面抑制连接处理，使D/A变换器10中设置的先入先出存储器中不会引起过大或不足，把声音数据和连接数据连接起来，生成输出声音数据，继而将这提供给D/A变换器10。
D/A变换器10中利用先入先出存储器一面寄存从声音数据连接器9提供的输出声音数据，一面用所设定的抽样速度(如32KHz)将输出声音数据D/A变换、生成输出声音信号，并从端子11输出。
这样，在这个实施例中，对于从发话者来的输入声音数据，基于声音数据的属性施加分析处理，使用对应于该分析信息的所期望的函数合成话速变换声音数据时，一面将输入数据长和对它乘以任意的伸缩倍率而算出的目标数据长以及实际的输出声音数据长进行比较，使其不发生矛盾，由于有目的地进行了这些处理，即使面对伸缩倍率的变化也能做到声音信息不会丢失。而且监视时刻变化的原声音与变换声音的时间差，时间差少的场合话速变换倍率暂时上升，相反，多的场合，话速变换倍率暂下降等等，使倍率适应性变化，进而基于话速变换倍率和伸张量、使非声音区域的残存比率发生适应性变化，从伴随话速变换的原声音来的时间差进行了有目的适应性消除，因此用户只要仅仅一次设定操作作为数阶段大体目标的变换倍率，相应于被设定的条件，适应性地控制话速变换倍率和非声音区域，在实际发话的时间范围内，在话速变换中能稳定获得所期待效果。
根据这些即使在话者频繁交替进入的广播节目中，也能够自动地提供对发话者最适宜的话速变换效果，用极其简单的操作，对于说的快时感到听起来困难的老人或视听障碍者，即使面对有实时性的紧急广播或电视等附有画面的媒体声音也能够时间上不迟缓且稳定舒服地听取。
如以上说明那样如果采用本发明的话速变换方法及其装置，用户只要仅仅一次设定操作作为数阶段的大体目标的变换倍率、可相应于设定的条件而适应性控制话速变换倍率和非声音区域，在实际发话的时间范围内在话速变换中能稳定获得所期待的效果。
而且如果采用本发明的话速变换方法及其装置，功率方面，由于仅仅使用了比较简便得到的特征量、因此在缩短运算时间的同时一方面可以降低成本、另一方面输入声音和背景音逐次适应各自的能级变化、以实时进行声音处理，可以判别声音区域和非声音区域。
权利要求
1.一种话速变换方法，其特征是在时间变化的任意比率下当将伸张合成输入数据而得到的输出数据中出现非声音区域、这个非声音区域持续时间超越所设定的下框界值时削减与这个输入数据相对应的输出数据的伸张时间，此削减的只是这个伸张时间内的任意时间。
2.根据权利要求1中记载的话速变换方法，其特征是在输入数据伸缩合成时，输入数据长和以任意的伸缩倍率乘以这个输入数据长而运算出的目标数据长和实际的输出数据长的关系不矛盾，一面逐次监视一面进行合成处理；关于声音部分对于时间变化的任意的伸缩合成比率在做到信息的丢失不会发生的同时保持住相对于伴有话速变换的伸张的正确时间信息。
3.根据权利要求1中记载的话速变换方法，其特征是把从伴随着话速变换的输入数据长的伸长部分解除时、把持续一定时间以上的非声音区域的一部分消除，相应于话速变换倍率、伸张量等、使非声音区域残存比率发生适应性变化。
4.根据权利要求1中记载的话速变换方法，其特征是在所限制的时间范围内进行话速变换时，输入数据长和这个输入数据长乘以任意的伸缩倍率而得出的目标数据长和实际的输出数据长的关系不发生矛盾，所以一面逐次监视一面用预先设定的时间间隔测定伸长量，基于这个测定结果，在时间差少的时候将话速变换倍率暂时上升，而时间差多的时候，将话速变换倍率暂时下降，依此，话速变换倍率发生适应性变化。
5.根据权利要求1中记载的话速变换方法，其特征是识别声音区域和非声音区域时，相对于输入进来的信号数据，在每个所设定的时间间隔里，用所设定的帧幅计算出帧功率的同时，保持住过去所设定时间内的帧功率最大值和最小值、决定下框界值，这个下框界值和相应于被保持着的最大值以及最大值与最小值的差而变化的功率有关；这个下框界值和现在的帧功率作比较决定现在的帧是声音区域或非声音区域。
6.根据权利要求5中记载的话速变换方法，其特征是最大值与最小值的差未达到所设定值时，相比于最大值与最小值的差在所设定值以上的场合，将上述下框界值决定为接近最大值附近。
7.一种话速变换装置，其特征是把输入数据分割成各块而生成各数据块的同时，具备下列各种手段基于各数据块生成连接数据的分割处理/连接数据生成手段；以及基于输入进来的所期待的话速，根据上述分割处理/连接数据生成手段而生成的各数据块，决定各连接数据的连接顺序，把这些连接起来，生成输出数据的连接处理手段；其中这个连接处理手段在时间变化的任意比率下将各数据块伸张合成而得到的输出数据中出现非声音区域，这个非声音区域的持续时间超越所设定的下框界值时，将削减对应于这个数据块的输出数据的伸张时间，此削减的仅仅是这个伸张时间内的任意的时间。
8.根据权利要求7中记载的话速变换装置，其特征是上述连接处理手段在伸缩合成输入数据时，输入数据长和这个输入数据长乘以任意伸缩倍率而算出的目标数据长和实际的输出数据长的关系不发生矛盾，所以一面逐次监视一面进行合成处理；对于时间变化的任意伸缩合成比率，有关声音部分在达到信息不会丢失的同时、对于伴随着话速变化的伸张的正确时间信息被保持住。
9.根据权利要求7中记载的话速变换装置，其特征是上述连接处理手段，在把从伴随着话速变换的输入数据长的伸张部分解除时，把持续一定时间以上的非声音区域的一部分消除，而对应于话速变换倍率、伸张量等，使非声音区域的残存比例发生适应性变化。
10.根据权利要求7中记载的话速变换装置，其特征是上述的连接处理手段，在限定的时间范围进行话速变换时，输入数据长和这个输入数据长乘以任意的伸缩倍率而算出的目标数据长与实际的输出数据长的关系不发生矛盾，所以一面逐次监视，一面用预先设定的时间间隔测定伸张量，基于这个测定结果，在时间差少的时候，使话速变换倍率暂时上升，而在时间差多的时候使话速变换倍率暂时下降，因此话速变换倍率发生适应性变化。
11.根据权利要求7中记载的话速变换装置，其特征是还具备分析处理手段；对于上述的输入数据在每个所设定的时间间隔里，用所设定的帧幅运算帧功率的同时，保持过去所设定的时间内帧功率的最大值和最小值，决定下框界值，这个下框界值和相应于被保持着的最大值以及最大值与最小值差的变化的功率有关，将这个下框界值与现在的帧功率作一比较，现在的帧由上述分析处理手段决定是声音区域或非声音区域。
12.根据权利要求11中记载的话速变换装置，其特征是上述分析处理手段在最大值与最小值的差未达到所设定值的场合，相比于最大值与最小值的差在所设定值以上的场合，将上述的下框界值决定为接近最大值。
全文摘要
本发明涉及将人的发出声音进行加工、实时变换发话速度的话速变换方法及其装置。迟缓收听声音的发音速度(话速)的时候，利用连接顺序生成器(8)把输入声音的数据长和根据事先给出的伸缩倍率有关的变换系数而预先计算出的输出声音长和实际输出的声音数据长用一定的处理单位时常加以监视，由此决定不生成矛盾的连接顺序，控制声音数据连接器(9)，不丢失声音信息，连接声音数据和连接数据。此外运算输出信号数据的功率，识别声音区和非声音区时，与那个最大值及最大值和最小值的差相对应，决定下框界值。
文档编号G10L25/78GK1441403SQ03119259
公开日2003年9月10日申请日期2003年3月6日优先权日1997年4月30日
发明者今井笃, 清山信正, 都木彻申请人:日本放送协会

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：今井笃;清山信正;都木彻
技术所有人：日本放送协会
我是此专利的发明人