改变发音速度的方法

文档序号：6416359阅读：605来源：国知局

专利名称：改变发音速度的方法
技术领域：
本发明涉及一种改变发音速度的方法，应用于数位化的语音信息的发音处理，用以在对数位化的语音信息进行发音速度的改变后，不会使其发音的音调失真的方法。
参照图1，无论是Microsoft开发的ActiveMovie，MCI，还是其它公司开发的语音编辑软件，其在计算机中对语音的采集、存储、播放的方式，是将各种音源产生设备(如麦克风、卡式录音机等)10，所产生的语音信号，由一语音处理单元(如语音卡)20对语音信号进行采样，并通过逻辑处理单元30转换成相对应的数位化的语音信号、参照图2，数位化的语音信号40是由多个音符信号段41、51、61所组成，而且每个音符信号段41还包含有多个信号采样点411，最后再将此数位化的语音信号40存入一记录媒体50的语音文件中；在播放语音时，只要将语音文件中的每个音符信号段41内的信号采样点411传递、输出到语音处理单元30中，再由语音处理单元30将这些信号采样点411放大输出到声音输出单元60，即可由声音输出单元60发出可听到的声音信号。
而其中与发音有密切关系的数据是信号采样点411，信号采样点411是按照预先设定的采样频率，对原语音信号(指由麦克风或卡式录音机等设备产生者)进行采样，再将由这些信号采样点411所组成的音符信号段41经过处理后存入记录媒体50内的语音文件中。然后再以与采样频率相同的频率通过语音处理单元30将这些信号采样点还原播放。在目前的语音信号的格式中22kHz、8bit的格式为单声道收音机音质，44kHz、16bit的格式为立体声CD音质；其中22kHz(44kHz)就是指采样频率，8bit(16bit)就是指存放一个信号采样点411所占用的位数，而语音处理单元30就是以一既定的播放速率，根据前述的语音格式来播放声音，且立体声CD音质的播放速度为172kb/s，单声道收音机音质的播放速度为22kb/s。
传统改变语音发音的方法，是以每个信号采样点411做为基本单位，进行信号采样点411复制或删减以实现语音播放速度加快或减慢。因此如果要将原语音的播放速度减慢一倍，就是将每个音符信号段41中的每个信号采样点411都复制一次，并插入每个原来的信号采样点之后；如此，音符信号段41的波形周期就被拉长一倍，于是在播放的过程中，如果保持采样频率不变，则播放出来的语音语速就降低一倍，同时声音就会变低、变粗。参照图3，为原始的音符信号段411的波形图，如图所示为含有一幅度为156的采样信号，播放时间为2毫秒的音符信号段41，今若要以慢一倍的速度播放音符信号段41，那么根据前述的传统变速处理方式，就须对音符信号段41中的每个信号采样点411进行复制，并将复制后的信号采样点411a插入音符信号段41中，置于原信号采样点411的后面，那么经过处理后的音符信号段41a将如图4所示，包含有多组两个相邻且采样频率相同的信号采样点411、411a，所以如果按照预定的采样频率进行声音的还原和播放，则原来需要2毫秒完成一个振动周期的音符信号段41，就变成需要4毫秒才能完成一个振动周期的音符信号段41a；这样一来，语音的播放速度固然减慢了，但由于改变了原来声音的振动周期和频率，所以语音就产生了变调的现象。这是因为假如原本是以22kHz采样频率录制的音符信号段41，经过上述的处理后就转换成了一个以44kHz采样频率录制的音符信号段41a，但是由于仍是按原来的22kb/s速度播放，所以还原后的声音的频率比录制时慢了一倍，再加上发声的声调与声波的振动频率有直接的关系，所以就会出现变调的现象。
目前的语音变速的技术，在对原语音文件的采样信号进行处理的过程中，改变了还原后语音声波的振动频率，所以会出现变调的现象；因此目前的语音变速技术不论是频率变低或变高，均会在变速后使声音变得模糊不清，造成使用者在听觉上的不悦。特别是在进行语音教学过程中，学习者一般都对口语和听力学习感觉困难，其中一部分原因是对方说话的语速过快，初学者来不及反应。如果能够将声音的速度减慢将可以大大提高训练的效果。
本发明的主要目的在于提出一种对语音信号进行任意速度的快速播放或者慢速播放时，不会出现变调现象的方法，使得在调整语音的播放速度后，语音清淅、语调保持不变、声音不失音。
本发明处理语音变速的原理，并不是以图1中的每个信号采样点411作为复制或删减的基本单元，而是以原语音信号40中的音符信号段(即一个完整的振动周期)41作为一个基本的单元，来进行复制或删减。参照图3和图5，若要使输出的音符信号段41具有较标准的播放速度慢一倍的效果时，是对图3中音符信号段41进行复制，并把复制后的音符信号段41a置于原音符信号段41的后面，构成一新的音符信号段42，如图5所示，再由语音处理单元30以原来取样频率的播放速度进行音符信号段42的播放，这样一来就不会改变每个音符信号段41、41a的原有频率，而且还可在改变语音播放速度后，仍维持原来语音的语调(频率)。
有关本发明的详细内容及技术，现结合

如下图1为语音变速播放处理装置的方块图；图2为语音信号的波形图；图3为以原始的音符信号段的波形图；图4为以传统方法经慢速播放处理后的波形图；图5为图3的音符信号段经慢一倍的速度播放处理后的波形图；图6为图2的语音信号经慢一倍的速度播放处理后的波形图；图7为图2的语音信号经慢二分之一倍的速度播放处理后的波形图；图8为图2的语音信号经快一倍的速度播放处理后的波形图；图9为结构链表的示意图；图10A为本发明处理语音变速播放的方法的部分流程图；图10B为本发明处理语音变速播放的方法的部分流程图；图10C为本发明处理语音变速播放的方法的部分流程图。
参照图2，本发明所采用的方法是在进行语音信号40的变速播放时，不是复制或删除语音信号40中的每一个信号采样点411，而是根据要将语音信号40以加快或变慢方式播放的要求，对其内的音符信号段(声波的一个完整振动周期)41作复制或删除的动作，所以在对语音信号40作变速播放的处理之前，就必须先找出语音信号40中的每个音符信号段41，以下所列为决定语音信号内的音符信号段的条件1.这个音符信号段的起始点44和终止点45的必须是中心点或者它和它的下一个信号采样点组成的连线与中心线46相交，并且起始点44和终止点45的采样信号与它们下一个信号采样点组成的变化趋势同为上升趋势或同为下降趋势。
2.起始点45和终止点45之间在时间上的间隔应该为440Hz为基波的一个表动周期的范围内，即起始点与终止点间的时间相隔为2-3毫秒。
3.一个音符信号段和邻近的下一个音符信号段，应有一定的共同性，即两个音符信号段的中心线46以上的最大值或中心线46以下的最小值之间的差距小于中心线到最大变化范围的十分之一。
4.不满足以上条件的不能作为一个音符信号段，而且对于不满足条件的数据在语音变速处理时保持不变，既不复制也不删减。
参照图10A至图10C，为本发明语音变速播放处理的流程图，其变速的处理步骤依序为步骤A1，于数位化的语音信号中，以比较每两个信号采样点411的方式进行扫描，并将所有中心线46上的信号采样点411，或与其后的信号采样点的连线与中心线46相交的采样点，以及所有拐点(即指波峰、波谷的转折点)的信息记录到一个结构链表47内，其中每个链表471的结构如表一所示表一、链表的结构
步骤A2，在结构链表46中滤除多余的拐点记录，在两个相邻的中心点间最多只保留一个距离中心线45最远的拐点；步骤A3，从结构链表46的头向后寻找一个上升趋势或下降趋势的中心点；步骤A4，判断是否存在一个上升趋势或下降趋势的中心点，若为是则跳至步骤A6，若为否则执行下一步骤；步骤A5，寻找下一个为上升趋势或下降趋势的中心点，并跳至步骤A4。
步骤A6，判断是否有中心点的记录，若为是则执行下一步骤；若为否则执行步骤A8；步骤A7，记录中心点的记录，并跳至步骤A9；步骤A8，记录中心点的位置于记录媒体中；
步骤A9，判断记录媒体中是否有两个具有相同特征的中心点，若为是则跳至步骤A11，若为否，则执行下一步骤；步骤A10，判断是否全部搜寻完毕，若为是则执行下一步骤，若为否则跳至步骤A5；步骤A11，计算两个中心点之间的偏移量；步骤A12，再根据采样频率计算出两个中心点之间时间上的间隔；步骤A13，判断间隔是否小于2至3毫秒，若为是则执行下一步骤，若为否则跳至步骤A5；步骤A14，将两个中心点间的信号采样点作为一个音符信号段，并记录到一个临时的记录媒体中；步骤A15，重复步骤8～14寻找出次一个音符信号段；步骤A16，比较次一个音符信号段中，中心线与最大点的偏移值，是否远远小于前一个音符信号段中，中心线与最大值的偏移量，若为是，则可以认定此为语音的淡出状态，在变速处理时将不对此段声音做特殊处理，并跳至步骤A19，若为否，执行下一步骤；步骤A17，比较次一个音符信号段中，中心线与最大点的偏移值，是否与前一个音符信号段中，中心线与最大值的偏移量近似，若为是，跳至步骤19，若为否，执行下一步骤；步骤A18，以第一个音符信号段的第二个中心点为基准，跳至步骤A5；步骤A19，判断结构表中的所有记录点是否都经过了比较辩认，若为是则执行下一步骤，若为否，则跳至步骤A5；步骤A20，确定语音信号中音符信号段；步骤A21，根据发音速度的设定将所有的音符信号段在一记录媒体中进行复制；步骤A22，以语音处理单元20，将复制于记录媒体中的音符信号段转换成可听的声音信号；步骤A23，判断是否已处理完所有复制后的音符信号段，若为是，执行步骤A25，若为否，执行下一步骤；步骤A24，取出下一笔复制后的音符信号段，并跳至步骤A22；以及步骤A25，将语音处理单元20置于等待状态。
在上述步骤A21中，若所设定发音速度较标准的发音速度慢一倍，则图2中的语音信号40经处理后将如图6所示，将每个音符信号段41、51、61在记录媒体中做两次的复制，于是在原来的每个音符信号段41、51、61之后将分别产生音符信号段41a、51a、61a；但是若所设定发音速度较标准的发音速度慢二分之一倍，则会如图7所示，将语音信号中奇数的音符信号段41、61，在记录媒体中做两次的复制，产生音符信号段41a、61a，偶数的音符信号段51，则在记录媒体中只做一次的复制；另外，参照图8，若是设定发音速度较标准的发音速度快一倍，则是每隔一个音符信号段，在记录媒体中复制一个音符信号段，也就是只对在该语音信号中为奇数顺位的音符信号段41、61进行复制，便可以实现语音的快速播放。
本发明的方法对各种格式的语音文件都可以做变速处理，以使得在调整语音的播放速度后，所产生的语音清淅、语调保持不变、声音不失真。
以上所述仅为本发明的较佳实施例，并不限于以上述硬件的装置实施，任何本领域的技术人员在本发明的领域内所做的任何修饰，具有同等的功效的，均应含盖于权利要求的范围内。
权利要求
1.一种改变发音速度的方法，应用于数位化的语音信号的播放，以使一语音处理单元能以预定的发音速度播放该语音信号，所述方法包括有取得该语音信号中的一音符信号段；设定该语音信号的一播放速度；由一逻辑运算单元根据该播放速度，复制该音符信号段于一记录媒体中；以及通过该语音处理单元，将存储于该记录媒体该音符信号段换成可听的声音信号。
2.如权利要求1所述改变发音速度的方法，其中该音符信号段是由多个信号采样点所组成。
3.如权利要求1所述改变发音速度的方法，其中该逻辑运算单元是将该音符信号段复制两次于该记录媒体中。
4.如权利要求1所述改变发音速度的方法，其中该逻辑运算单元是将在该语音信号中为奇数顺序的该音符信号段复制两次于该记录媒体中，并将偶数顺序的该音符信号段复制一次于该记录媒体中。
5.如权利要求1所述改变发音速度的方法，其中该逻辑运算单元是仅将在该语音信号中为奇数顺序的语音符信号段复制一次于该记录媒体中。
全文摘要
一种改变发音速度的方法,特别是指一种用于处理改变数位化的语音信号播放速度的方法,可使数位化的语音信号以非标准速度进行发音时,仍可维持其各音节原有的音调。即将语音信号中的每一音符信号段,根据预定播放速度,作等倍的复制或删除,再以语音处理单元依原来的采样频率进行播放,可使所播放的声音符合预定的播放速度而仍维持原来的语调。
文档编号G06F17/20GK1270356SQ99104829
公开日2000年10月18日申请日期1999年4月8日优先权日1999年4月8日
发明者刘晓波, 宋建福, 林光信申请人:英业达股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘晓波;宋建福;林光信
技术所有人：英业达股份有限公司
我是此专利的发明人

上一篇：在文字档案中显示不同的文字格式的控制方法
上一篇：多种媒体混合播放的方法及其装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。