自动分割单字语音信号的装置与方法

文档序号：2831162阅读：527来源：国知局

专利名称：自动分割单字语音信号的装置与方法
技术领域：
本发明涉及一种分割单字语音信号的装置与方法，尤其是一种自动分割单字语音信号的装置与方法。
背景技术：
在语言学习过程中，常会借助许多语言学习工具，如电子辞典等，用来增加学习效果与加快学习速度。目前一般的电子辞典都具有发音的功能，也就是说当使用者通过电子辞典查询单字或例句后，可通过发音的功能，而听取正确的单字或例句的发音。如此，将可大幅提升使用者在语言学习上，在听与说方面的能力。因此，有越来越多的厂商日益重视电子辞典的发音功能。
近来电子辞典标榜具有真人发音的功能，已成为各厂商所诉求的特色。而真人发音可通过真人来录制各个单字的声波，而达到真人发音的功能。然而，利用真人来录制所有单字的声波，将耗费掉电子辞典内存非常多的储存空间，进而提升成本的支出。
因此，发展出通过发音合成的方式，而达到接近真人发音的功能，如此可节省内存的空间，也同时提高发音的质量。发音合成的方式一般可分为两种，以英文单字为例说明如下。
第一种方式，依照英文辞典单字表中的音标来决定音节。在合成一个英文单字的语音数据前，必须先将此英文单字分割为单个或多个音节，再由原始录音的数据中获取出与音节相对应的声波，并加以结合即可。
第二种方式，录制所有各种声母、韵母及音调组合的各个音节声波，并储存在内存中。在合成----个英文单字的语音数据前，必须先将此英文单字分割为单个或多个音节，再由录制的数据中获取出与分割后的各个音节相对应的声波，并加以结合即可。
由上述说明可知，不论是哪种发音合成的方式，都必须先将英文单字分割为单个或多个音节，才能进行后续的处理。而传统的作法上，是通过人耳听音而利用手工切分。如此，需投入大量的人力与工时才能完成。另外，手工切分音节的工作枯燥、数量庞大，且采用人耳听音而作音节的切分，极易产生误差。因此，如何解决传统上人工切分单字语音所衍生的问题，为亟待解决的议题。

发明内容
本发明为解决背景技术中存在的上述技术问题，而提出一种自动分割单字语音信号的装置与方法。
本发明的技术解决方案是本发明为一种自动分割单字语音信号的装置，其特殊之处在于该装置包括接收模块，用来接收单字语音信号，并将单字语音信号划分为多个音框；分析模块，分析音框，产生对应于每一个音框的语音特征；分割模块，根据语音特征，分割单字语音信号为音节，接收模块接入分析模块，分析模块接入分割模块。
上述语音特征包含音框的平均振幅值。
上述语音特征包含音框的平均过零率。
上述语音特征包含音框的倒频谱参数。
上述分析模块根据语音特征产生门坎值，通过分割模块对比语音特征与门坎值。
一种实现上述自动分割单字语音信号装置的方法，其特殊之处在于该方法包含下列步骤
1) 接收单字语音信号；
2) 划分单字语音信号为多个音框；
3) 分析音框，产生对应于每一个音框的语音特征；
4) 根据语音特征，分割单字语音信号为音节。上述语音特征包含音框的平均振幅值。上述语音特征包含音框的平均过零率。上述语音特征包含音框的倒频谱参数。上述步骤4)的具体步骤如下
4.1)根据语音特征产生门坎值，4.2)通过对比语音特征与门坎值，找出语音信号中的每一个音节的分割点; 4.3根据分割点，将单字语音信号分割为音节。
本发明提供的自动分割单字语音信号的装置与方法，通过语音特征来自动分割单字语音信号为音节，完全替代了传统的人工切分单字语音的方式，整个过程不需要人工介入，省时省力，效率高，且大大降低了人为带来的失误率。

图1为自动分割单字语音信号的装置示意图；图2为多音节单字语音信号的示意图；图3为多音节单字语音信号的分割示意图；图4为自动分割单字语音信号的方法流程图。
其中，10-接收模块，20-分析模块，30-分割模块；
具体实施例方式
参见图l，自动分割单字语音信号的装置包含接收模块IO、分析模块20 及分割模块30。
接收模块10接收单字语音信号，并将单字语音信号划分为多个音框。分析模块20分析多个音框，并产生对应于每一个音框的语音特征。分割模块30根据分析模块20所分析出的语音特征，进而分割单字语音信号为音节。
每个单字的语音信号不会完全相同，但具有一些共同的特性，例如多音节单字的发音是由各个音节所组成；音节组成在语音信号上有特定的规律可循；利用语音特征可进行音节切分等。因此，本发明提出先将单字语音信号划分为多个音框，然后以每--个音框为单位，利用分析模块20分析出每一个音框的语音特征。
其中，上述所提及的语音特征包含平均振幅值、平均过零率、倒频谱参数等。下面将针对每个语音特征做简单说明。
语音信号的振幅所指的即为语音信号的大小，如同人类说话一般会有高低起伏，所以语音信号的波形所呈现出来的也会有高低或强弱之分。而振幅便是代表语音信号的大小，而平均振幅值，便是将所有音框的振幅值加总后再做平均，如此可看出单位时间内，某段语音信号与整段语音信号相比的信号强弱分布。
语音信号的平均过零率是指单位时间内信号波形穿过横轴(零轴)的次数。也就是说，语音信号的振幅值在单位时间内，正值和负值之间的跳变次数称为过零率。而将信号按音框进行划分，把所有音框的过零率作统计平均，即称为平均过零率。
因此过零率简单的说，便是语音信号在单位时间过零的次数。而过零率应用广泛，尤其在语音辨识方面。过零率高的区段对应于清音或无声区。相对的，噪声较高，过零率较低的区段对应于浊音。由此可知，通过判断过零率即可区别语音信号中的清音与浊音、有声与无声等。
接着介绍倒频谱参数。在信号的辨识中，最常用的特征参数是信号在频谱
(spectrum)上的能量值，例如高频信号只在高频部分有较大的能量值，相对
的低频信号在低频部份的能量较大，而这些在频谱上的能量值便可称为一种特
征值。利用傅立叶转换(Fourier Transform)的方法可以把时间轴上的信号转换到频谱上来作处理。然而，针对语音信号而言，另一种称为倒频谱的参数更能代表语音信号的特性，而使辨识率提高。因此，采用倒频谱参数可提升单字语音信号的辨识率。
因此，本发明通过分析语音特征，再通过分割模块30根据语音特征而达到自动分割单字语音信号为单个或多个音节。其中，分析模块20可根据语音特征产生门坎值，利用门坎值可判断是否为音节的分割点。当单字语音信号的音框语音特征低于门坎值时，即表示该音框为音节的分割点。因此，当分析模块20 产生门坎值后，分割模块30对比语音特征与门坎值，进而将单字语音信号分割为单个多个音节。
举例说明，参见图2，其中以单字dagoba (舍利子塔)为例作说明。Dagoba 具有三个音节，由图2中可清楚看出各个音节之间有明显的语音特征可区分。
参见图3，在此实施例中采用语音特征中的平均振幅值与平均过零率相结合，但不限于此。利用分割模块30将平均振幅值、平均过零率与门坎值作比较，当发现平均振幅值、平均过零率低于门坎值时，即表示为音节的分割点。因此，由图3中可清楚看出Dagoba的单字语音信号，根据其语音特征而被切分为三个音节。
此外，当分割模块30根据语音特征，将单字语音信号分割为单个或多个音节后，可利用储存模块(图中未示)将每一个音节储存起来，以提供后续利用，例如电子辞典中，发音的合成等。
参见图4，自动分割单字语音信号的方法，包含下列步骤
步骤S10:接收单字语音信号。
步骤S20:划分单字语音信号为多个音框。
步骤S30:分析音框，产生对应于每一个音框的语音特征。其中，语音特征包含音框的平均振幅值、音框的平均过零率或音框的倒频谱参数等。
步骤S40:根据语音特征，分割单字语音信号为音节。在此步骤中，还可包含储存每一个音节。
此外，可根据语音特征产生门坎值，再通过对比语音特征与门坎值，找出语音信号中的每一个音节的分割点，而进一步将单字语音信号分割为音节。
权利要求
1、一种自动分割单字语音信号的装置，其特征在于该装置包括接收模块，用来接收单字语音信号，并将单字语音信号划分为多个音框；分析模块，分析音框，产生对应于每一个音框的语音特征；分割模块，根据语音特征，分割单字语音信号为音节，所述接收模块接入分析模块，所述分析模块接入分割模块。
2、根据权利要求l所述的自动分割单字语音信号的装置，其特征在于所述语音特征包含音框的平均振幅值。
3、根据权利要求l所述的自动分割单字语音信号的装置，其特征在于所述语音特征包含音框的平均过零率。
4、根据权利要求1所述的自动分割单字语音信号的装置，其特征在于所述语音特征包含音框的倒频谱参数。
5、根据权利要求l所述的自动分割单字语音信号的装置，其特征在于所述分析模块根据语音特征产生门坎值，通过分割模块对比语音特征与门坎值。
6、一种实现权利要求l所述的自动分割单字语音信号装置的方法，其特征在于该方法包含下列步骤1) 接收单字语音信号；2) 划分单字语音信号为多个音框；3) 分析音框，产生对应于每一个音框的语音特征；4) 根据语音特征，分割单字语音信号为音节。
7、根据权利要求6所述的自动分割单字语音信号的方法，其特征在于所述语音特征包含音框的平均振幅值。
8、根据权利要求6所述的自动分割单字语音信号的方法，其特征在于所述语音特征包含音框的平均过零率。
9、根据权利要求6所述的自动分割单字语音信号的方法，其特征在于所述语音特征包含音框的倒频谱参数。
10、根据权利要求6或7或8或9所述的自动分割单字语音信号的方法，其特征在于所述步骤4)的具体步骤如下 1) 根据语音特征产生门坎值； 2) 通过对比语音特征与门坎值，找出语音信号中的每一个音节的分割点; 3) 根据分割点，将单字语音信号分割为音节。
全文摘要
本发明涉及一种自动分割单字语音信号的装置与方法，该装置包含接收模块，用来接收单字语音信号，并将单字语音信号划分为多个音框；分析模块，分析音框，产生对应于每一个音框的语音特征；分割模块，根据语音特征，分割单字语音信号为音节，接收模块接入分析模块，分析模块接入分割模块，本发明完全替代了传统的人工切分单字语音的方式，整个过程不需要人工介入，省时省力，效率高，且大大降低了人为带来的失误率。
文档编号G10L13/04GK101419796SQ20081023254
公开日2009年4月29日申请日期2008年12月2日优先权日2008年12月2日
发明者杨亚冬, 陈淮琰, 韩召宁申请人:无敌科技(西安)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈淮琰;韩召宁;杨亚冬
技术所有人：无敌科技（西安）有限公司
我是此专利的发明人

上一篇：一种提高语音辨识效率的方法及其语音辨识装置的制作方法
上一篇：一种声像联合的监控方法及系统的制作方法