测定多路运行声信号端点的装置及方法

文档序号:2818905阅读:316来源:国知局
专利名称:测定多路运行声信号端点的装置及方法
技术领域
本发明大致上关于语音识别系统及较特别地是关于连续性声信号端点测定。
在通过机器自动地语音识别的方法中,此等方法是使机器基于所观察到的信号的声学特征及声学特征与语音声调的已知关系去解码一声信号波形。选择捕获语音主要语言特性的声信号区域同时去除其他区域以改善语音识别的精确度。因为机器仅能处理自原始信号提取出的声信号区域,若所选择的区域包含噪音或其他不表示本身语音的人工语音,则将不可能有准确的机器语音识别。另一方面,若舍弃语音的主成份,因为信息一旦失去将永久失去,则下游的语音识别性能将严重减低。
清楚地,在用于连续性语音的语音识别方法中,若要达到准确的识别,必须精准地检测发音的起始点及终止点。一种通过扰动端点来测定端点误差对测定准确性的影响的多重扬声器数字测定实验,已显示出即使小端点误差,仍会导致数字测定准确性的显著减低。例如,若二端点的误差为±60ms(一般为语音的4个帧),准确性下降3%。再者,当端点误差增加时,准确度同样地减低。
最早期的口语音节的端点测定的熟知方法是简单地以将端点固定在信号的能量密度低于某一预定级的点为基础,然后在此点切割语音波形并将整个语音波形分解成待处理的片段。在理想的收听状况下,此一方法有时候能产生可接受的语音识别结果。然而,在吵杂的背景状况下,低于特定级的主要语音的能量强度的检测将很难测定。实际谈话环境中的不利状况一般包含背景噪音、语音失真、及个人的独特发音特性。来自人们谈话及移动、家庭电器用品、机器、交通状况的背景噪音,几乎存在住家、办公室、车子或公共场所等任何环境中。语音图谱的失真可源自话筒的频率反应、安装位置及变换器的品质,以及信号传送路线中的干扰。再者,各自的说话者各自具有自身独特的发音倾向,以及甚至对同一说话者而言,因为瞬间的情绪造成沉重呼吸或特别是界于字间的音调改变(已知为伦巴德效应)等其他事情,可能发生语音变化。
再者,一般在单字发音的开始及终止期间,说话者通常产生例如唇响、沉重呼吸及嘴巴开合的声等人工声音。对端点检测而言,特别不易处理者为无声子音,尤其是摩擦音,例如″s″、″f″、″ch″及″sh″,其通常无法识别成语音的主要部分。摩擦音为声带处的狭窄收缩所引起的空气扰动产生的声音。如此使得摩擦音很难利用熟知端点检测技术来记录,因为其能量级及频谱特性与声音背景无显著差异。再者,因为正常语音包含许多不同的说话速度及声调,依各自的说话者而定,一种精准的语音识别系统必须具有精准的端点检测系统以致能解释此等差异。
语音端点检测的直接方式为简单地取得语音的经抽出特征,寻找并界定语音事件,并接着传送事件至用于辨识的图形配对算法。直接方式常因为非静态干扰及吵杂的背景环境而失败。间接方式考虑通过包含一比较模板中特定声音背景的模式,同时进行语音检测与图形配对过程。间接方式主要通过在特定条件下容许不同语音端点来改良语音检测,然而,其必须携带非常沉重的计算负荷。此混合方式通过仅考虑一小组通过直接方式选择的合理的端点估算值来降低计算负担。然而,在分析及级次化等能量线的形式上必须进行可观的预处理以发现经估算的端点对,由此获得大量的实验数据以供辨识合理的端点估算值。
因此,所需要的是一种精确端点检测系统,其不会舍弃例如无声辅音的语音的主要部分,且解释在不利的声音环境下的一般语音的异常。本发明为用于测定一对精制的用于语音识别处理的声信号端点的装置及方法,包含用于处理声信号的声信号处理器;一海平面(sea level)分析仪,其耦合至声信号处理器,以供测定声信号的噪音海平面及零穿越率海平面;一有声部分的初始端点产生器,其耦合至海平面分析仪,以供产生声信号的第一对起始及终止点;一无声部分精制端点产生器,其耦合至有声部分初始端点产生器,以供产生声信号的第二对起始及终止点;以及一精制产生器,其耦合至无声部分精制端点产生器,以供利用零穿越率海平面产生声信号的第三对起始及终止点。
第1图为典型的语音波形图,显示信号幅度及穿越水平轴的信号;第2图为说明本发明的端点检测系统的示意流程图;第3图为说明根据本发明的声信号处理器的示意流程图;第4图为说明根据本发明的近(enerby)海平面的计算的流程图;第5图为说明根据本发明的零穿越率海平面的计算的流程第6图为一秒钟声信号的概要说明图,显示根据本发明的有声部分;第7图为第6图的一秒钟语音发音的概要说明图,显示根据本发明的无声部分;第8图为第6图的一秒钟语音发音的概要说明图,显示利用根据本发明的能级斜率进行的端点的第二次检测;第9图为一利用根据本发明的能级斜率计算起始及终止点的第二次检测的步骤的流程图;第10图为第6图的一秒钟语音发音的概要说明图,其中起始及终止点是经延伸以供进行根据本发明的端点的第三次检测;第11(a)图显示在安静的实验室环境中,″Toyota″(丰田)一字的波形;以及第11(b)图显示在吵杂的办公室环境中,″Toyota″(丰田)一字的波形。
本发明优先地利用多路运行技术以供准确地测定声信号的端点。一完整连续的声信号是由多个代表音节或完整单词的声信号所组成。对每一声信号而言,根据本发明检测端点的基本步骤如下测定声信号的能级及零穿越率(ZCR,zero crossing rate),接着利用声信号的起始及终止点计算噪音级及ZCR以便产生一海平面背景噪音及ZCR。将声信号动态范围的第一个预定百分比加至海平面以提供第一对阈值,用于测定利用端点划界有声部分的声信号的有声部分;换言之,如果对一已有的帧而言,其能级及ZCR两者皆高于其各自的阈值,则此帧被视为有声部分的一部分且第一个低于各自阈值的帧是声信号的有声部分的一端点。包含无声部分的第二能量阈值增加第二预定百分比至背景噪音海平面,且它通过在第一阈值至第二阈值的区域中搜寻具有最大能量斜率的帧来测定第二对端点,此帧为新的起始点或终止点。通过使第二对起始及终止点分别向前及向后延伸,并在该区域内搜寻具有小于ZCR海平面的ZCR的帧,第三对端点仅单利用ZCR,此将会是根据本发明的最终精制的起始及终止点。
零穿越率(ZCR)测量信号的频率内容,及语音与非语音的ZCR的差异很大。因此,ZCR的测量排除如唇响声、重呼吸声及嘴巴开合声的高幅度杂声。再者,ZCR测量检测单字的起始及终止处的低能量语音部分,若仅使用能级方法的话,此低能量语音部分将被遗漏(视为非语音)。例如,在″Steve″字中的字母声音/s/及在″dish″字中的/sh/为一般会被常规语音识别系统遗漏的低能量语音信号。
第1图为典型的语音波形图,显示信号幅度及穿越水平轴的信号。每单位时间或每语音帧有多少次信号穿越该轴为零穿越率。第2图为说明本发明的较佳具体示例的示意流程图。一声信号处理器201接收如第1图所示的声音输入信号,细分此声信号成多个帧并测量声信号的能级及零穿越率,然后将此声信号传送至背景噪音分析仪202。在本发明较佳的具体实施例中,是利用对比接近声信号的起始及终止区域的能级的算法,通过计算背景噪音级来测定一背景噪音海平面。同样地,一零穿越率海平面是利用接近声信号的起始及终止区域的ZCR计算而得。有声部分的初始点产生器203,利用一预定的能级及零穿越率阈值以产生一对声信号的初始端点。通过在205处比较低于第一能级阈值的第二预定能级阈值和第一个能级阈值的区域内的能级斜率,无声部分的准确端点产生器204产生一精制的端点测定。最后,第三对精制的端点是通过在206处比较零穿越率与接近第二对端点的延伸区域内的零穿越率海平面而产生,由此根据本发明产生更精确且精制端点测定。
第3图更详细地说明声信号处理器201。接收一声信号(如第1图所示)并将其细分成多个声信号帧。能级数据分析仪301利用下式计算各个帧i的能量RiRi=[Σns2(n)]i]]>其中i是帧下标而s(n)是信号幅度。零穿越率分析仪302利用下式计算帧i中的零-轴穿越数Z(i)Z(i)=∑(零轴穿越数)在本发明较佳实例中,此声信号被细分成20毫秒帧且在每一帧中测量其两个信号特性利用能级数据分析仪301的信号能量(以伏特表示)及利用零穿越率分析仪302的零穿越率(穿越水平零轴的数目)。熟习该项技术者可了解到使声信号分配成帧的任何方法均在本发明的预期范围之内,且不限于20毫秒帧。此二信号特性是传送至成组帧处理器303以供第一次处理。
第4图为一流程图,说明在发音过程中呈现的背景噪音级N(海平面)的计算。在本具体实例中,使用此声信号的前五及后五个帧。熟悉该项技术者可了解到所选择的分别接近起始及终止信号位置的帧的组合是位于本发明的预期范围之内。前五个帧的噪声能级,N1,及后五个帧,N2,是由来自401的声信号测得的。在402处,若N1大于2×N2,则噪音级N恰为N2。若N1不大于2×N2,则在403决定N2是否大于2×N1;若是,则噪音级N恰为N1,以及若不是,则此噪音级N是在404的N1和N2的平均值。在本发明中已发现到,噪音级N在多数例子中为起始及终止噪音级的平均值。
第5图为说明在发音的前五及后五个帧期间的零穿越率计算的流程图。熟习该项技术者可了解到,任何所选择的分别接近起始及终止信号位置的帧的组合,均于本发明的预期范围之内。前五个帧的零穿越率,Z1,及后五个帧的零穿越率,N2,是由来自501的声信号测得。在502处,若Z1大于2×Z2,则零穿越率Z恰为Z2。若Z1不大于2×Z2,则在503决定Z2是否大于2×Z1;若是,则零穿越率Z恰为Z1,以及若否,则此零穿越率Z是在504的Z1和Z2的平均值。
第6图为一秒钟声信号的说明图。本发明通过测量每一个帧以确定是否该声信号的能级及零穿越率二者皆高出其各自的预定阈值,来测定声信号中哪一部分是有声部分(例示于虚线中)。在较佳的具体实例中,该阈值是海平面加上声信号动态区域的预定百分比(例如5%)。所加入的百分比可以实验确定,以提供此声信号有声部分的最佳范围。在时间内向前处理,若当此声信号能级及零穿越率在一特定帧中皆高于其两者的阈值,则此帧即为该声信号有声部分的起始点(第6图中虚线的左手测)。趋近发音终止时,测量每个帧的能级及零穿越率(但在此是由声信号的终点向起点),若两者皆高于各自的阈值,则该特定帧即为声信号有声部分的终点(见于第6图右手侧的虚线)。
第7图为第6图的一秒钟语音发音概要说明图,其利用一个较第一个能级阈值低的预定能量阈值测定无声部分。在此较佳的具体例中,此新的阈值是为噪音海平面加上另一个声信号动态区域的预定百分比(例如2%)。所加入的百分比可以实验定的,以提供此声信号无声部分的最佳范围。因为此第二个阈值较第一个为低,第二个阈值常延展要分析的声信号区域;该值将永远不会缩短此区域。因此,并不会导致重要信号在此遗失。
第8图为第6图的一秒钟语音发音概要说明图,利用包括此声信号无声部分的能级再一次测定端点。在声信号的起始点,每个帧能级的测量是由第一个阈值到第二个阈值向后行进,且新的起始点是在具有最大能级斜率的帧处。在声信号的终点,该测量是由第一个阈值到第二个阈值向前行进,且新的终点是在具有最大能级斜率的帧处。第9图是用以精制该发音起始点程序的流程图。可制得类似的流程图以估计终点。在901处,i是由第一个阈值开始的起始帧下标。在902处,一虚构的变数MAX被设定至零且在第一个通过计算得的斜率后将可被取代。在903处,帧i的能级斜率是以SLOPE=Ri/R(i-1)计算得到。在904处,因为MAX=0,SLOPE将大于MAX,故可决定在帧i处的新起始点且设定SLOPE等同于MAX。帧下标i在906处递减,因此向后行进至帧前(在此声信号的时间之内)以及在907处对比能级Ri与第二个阈值。若Ri小于第二个阈值,则该帧i是此声信号的新起始点。若Ri大于第二个阈值,则在903处可利用第(i-1)帧计算斜率。再一次,于904对比计算得的斜率与MAX,且若SLOPE不大于MAX,该帧下标于908处递减(向后)并在909处对照其能级Ri与第二个阈值RT。若Ri小于第二个阈值,则该帧是为新的精制起始点。若Ri大于第二个阈值,则在903处计算该帧的斜率。再一次,于904对照此递减帧的斜率与MAX。若SLOPE大于MAX,设定该SLOPE为新的最大斜率值(MAX),且该帧下标在906处递减。如此持续(在时间内向后进行)至达到第二个阈值而MAX的数值将是具有落于两阈值间的最大斜率的帧值,因此可根据本发明决定一精制的第二个起始点。对于一精制的第二个终点,在906及908处利用递增的帧下标执行行相同的程序,并在903处利用SLOPE=R(i-1)/Ri计算斜率。
第10图为第6图的一秒钟语音发音概要说明图,显示第三个测定阶段,其中起始点向后延伸200毫秒而终止点向前延伸200毫秒。应明白任何起始及终止区域的延伸均于本发明的范围之内,且200毫秒仅是作为本较佳模式的说明目的而已。零穿越率的测量可从时间内自第二起始点向后延伸直至到达ZCR海平面或是到达200毫秒的限制,视何者先到达。此为精制的第三个声信号起始点。ZCR的测量可从时间内自第二起始点向前延伸直至到达ZCR海平面或是到达200毫秒的限制,视何者先到达。此为精制的第三个声信号终点。这些新的声信号精制起始及终止点变成语音信号的起始及终止点,该语音信号被传送做进一步的语音识别处理。
在操作中,″Toyota″此字以无声辅音发出而成为″stoyotaz″。熟知的语音识别系统将无法辨认出此差异,但本发明正确地辨识其端点,并因而为下游语音识别系统提供有较好的发音以执行进一步的语音识别。
第1图重复于第11(a)图,″Toyota″此字的波形在一安静的实验室环境中,包括三个口语音节及一个呼气。对每个音节的端点是相对地清楚且每个音节都高于识别处理的阈值。第11(b)图是同一字说出于一个吵杂的环境。其端点清楚介于并不清晰,且在该阈值处,第三音节实际上是低于此阈值而将导致遗失不作为进一步的辨识处理,明显地降低了语音识别的准确性。
虽然上述为特定具体实例的完整说明,但可利用各种不同的改良、替代结构及等效物。例如,能级及零穿越率阈值可适当的选自实验中,而且可作为零穿越率端点测定的延伸区域可根据本特定的声信号波形型式而调整。因此,上述说明及解释不应用于限制本发明的范围,本发明的范围是通过后附权利要求来界定的。
权利要求
1.一种用于声信号的语音识别的端点检测系统,包含一声信号处理器,用于处理声信号;一海平面分析仪,其耦合至声信号接收器,以供测定声信号的背景噪音海平面及零穿越率海平面;一有声部分的初始端点产生器,耦合至海平面分析仪,以供产生声信号的第一对起始及终止点;以及一无声部分精制端点产生器,耦合至有声部分初始端点产生器,以供产生声信号的第二对起始及终止点。
2.如权利要求1的端点检测系统,其中该声信号处理器包含一分组成帧器,用于细分该声信号为多个帧;一能级处理器,用于计算该声信号帧的能级;一零穿越率检测器,其耦合至能级检测器,以供测量该声信号帧的零穿越率;以及一分组帧处理器,其耦合至能级检测器以及零穿越率检测器,以供处理该帧的计算的能级及测量的零穿越率。
3.如权利要求1的端点检测系统,其中该海平面分析仪计算在声信号起始及终止处的预定数目的帧的平均能级以及计算在声信号起始及终止处的预定数目的帧的平均零穿越率。
4.如权利要求1的端点检测系统,其中由有声部分的初始点产生器产生的该第一对起始及终止点,是响应于第一个预定的阈值能级及一预定的阈值零穿越率。
5.如权利要求1的端点检测系统,其中由无声部分精制端点产生器产生的该第二对起始及终止点,是响应于一第二个阈值能级。
6.如权利要求1的端点检测系统,更包含一零穿越率精制端点产生器,其耦合至该无声部分精制端点产生器,以产生一响应于该零穿越率海平面的第三对起始及终止点。
7.一种确定声信号起始及终止点的方法,包含步骤(a)决定该声信号的有声部分;(b)产生该声信号的第一对起始及终止点,该声信号是界定于此声信号的有声部分;(c)精制该声信号的该第一对起始及终止点;(d)测定该声信号的无声部分;以及(e)产生该声信号的一第二对起始及终止点,该声信号是由此声信号的无声部分所界定。
8.如权利要求7的方法,其中该步骤(a)更包含步骤(a)细分该声信号为多个帧;(b)测量该声信号帧的幅度;(c)计算该每个声信号帧能级;(d)测量该每个声信号帧的零穿越率;(e)决定该声信号的背景噪音海平面;(f)决定该声信号的零穿越率海平面;(g)设定该第一个阈值背景噪音能级;(h)设定一阈值零穿越率;(i)将该每个声信号帧能级与该第一个阈值背景噪音级进行对照;以及(j)将该每个声信号帧的零穿越率与该阈值零穿越率进行对照,且若该帧的能级和零穿越率两者皆分别大于该第一个阈值背景噪音级及该阈值零穿越率,则该帧即在此声信号的有声部分之内,由此决定该有声部分。
9.如权利要求8的方法,其中该步骤(e)测量接近该声信号的开始的一预定数目帧与接近该声信号的结束的一预定数目帧的能级。
10.如权利要求9的方法,其中该预定帧的数目为5。
11.如权利要求9的方法,其中该背景噪音海平面是通过下述步骤计算而得计算接近该声信号的开始的一预定数目帧的一第一个能级;计算接近该声信号的结束的一预定数目帧的一第二个能级;以及平均该第一及第二个能级。
12.如权利要求9的方法,其中该背景噪音海平面是由下述步骤测定计算接近该声信号的开始的一预定数目帧的一第一个能级;计算接近该声信号的结束的一预定数目帧的一第二个能级;以及将该第一个能级与第二个能级对照,且若该第一个能级大于两倍的第二个能级,则该噪音级即为该第二个能级,若该第一个能级未大于两倍的第二个能级,且该第二个能级大于两倍的第一个能级,则该噪音级即为该第一个能级;而若该第二个能级未大于两倍的第一个能级,则该噪音级即为该第一个与第二个能级的平均值。
13.如权利要求8的方法,其中该步骤(f)包含下述步骤,测量接近该声信号的开始的一预定数目帧与接近该声信号的结束的一预定数目帧的零穿越率。
14.如权利要求13的方法,其中该预定帧的数目为5。
15.如权利要求13的方法,其中该零穿越率海平面由下述步骤测定测量接近该声信号的开始的一预定数目帧的一第一个零穿越率;测量接近该声信号的结束的一预定数目帧的一第二个零穿越率;以及平均该第一及第二个零穿越率。
16.如权利要求13的方法,其中该零穿越率是由下述步骤测定测量接近该声信号的开始的一预定数目帧的一第一个零穿越率;测量接近该声信号的结束的一预定数目帧的一第二个零穿越率;以及将该第一个零穿越率与第二个零穿越率进行对照,且若该第一个零穿越率大于两倍的第二个零穿越率,则该噪音级即为该第二个零穿越率,然若该第一个零穿越率未大于两倍的第二个零穿越率,且该第二个零穿越率大于两倍的第一个零穿越率,则该噪音级即为该第一个零穿越率;而若该第二个零穿越率未大于两倍的第一个零穿越率,则该噪音级即为该第一个与第二个零穿越率的平均值。
17.如权利要求8的方法,其中该步骤(g)通过将该声信号动态范围的一预定百分比加到该背景噪音海平面而设定该第一个阈值背景噪音级。
18.如权利要求17的方法,其中该声信号动态范围的第一个预定百分比主要是5%。
19.如权利要求8的方法,其中该步骤(h)通过把该声信号动态范围的一预定百分比加到该零穿越率海平面而设定该阈值零穿越率。
20.如权利要求19的方法,其中该声信号动态范围的预定百分比主要是5%。
21.如权利要求7的方法,其中该无声部分的测定及第二对起始及终止点的产生还包括下列步骤(a)设定一低于该第一个阈值背景噪音级的第二阈值背景噪音级;以及(b)在该第一个阈值背景噪音级及第二阈值背景噪音级之间的声信号区域,比较该每个声信号帧的能级斜率,具有最大斜率的帧就是该声信号无声部分的端点。
22.如权利要求7的方法,在步骤(d)后还包含下述步骤(a)把该声信号的第二对起始及终止点延伸一预定数目的声信号帧;以及(b)在所延伸的预定数目帧内,将预定数目帧内的每个帧的零穿越率与零穿越率海平面进行对照,具有比零穿越率海平面低的零穿越率的帧即为第三对起始及终止点。
23.如权利要求7的方法,其中该预定数目的帧主要构成200毫秒的声信号。
24.如权利要求7的方法,其中该已延伸的预定数目的帧是在时间上自该第二对起始及终止点的起始点向后延伸,而且该对照是在时间上向后进行。
25.如权利要求7的方法,其中该已延伸的预定数目的帧是在时间自该第二对起始及终止点的终点向前延伸,且其对照在时间上向前进行。
26.一种测定声信号起始及终止点的方法,包含步骤(a)细分该声信号为多个帧;(b)测定该声信号的一背景噪音海平面;(c)决定该声信号的一零穿越率海平面;(d)计算一第一个阈值背景噪音;(e)设定一阈值零穿越率;(f)响应该第一个阈值背景噪音级及该阈值零穿越率,产生该声信号的一第一对起始及终止点;(g)设定该声信号的一第二个阈值背景噪音级;(h)响应该第二个阈值背景噪音级,产生该声信号的一第二对起始及终止点;以及(i)响应该零穿越率海平面,产生该声信号的一第三对起始及终止点。
全文摘要
包含语音的主要部分且解释语音的异常的多路运行端点测定系统,用于测定一对精制的、用于语音识别的声信号端点的装置及方法,包含声信号处理器;海平面分析仪,以供测定声信号的背景噪音海平面及零穿越率海平面;有声部分初始端点产生器,用于产生声信号的第一对起始及终止点;无声部分精制端点产生器,以供产生声信号的第二对起始及终止点;以及精制产生器,以供利用零穿越率海平面产生声信号的第三对起始及终止点。
文档编号G10L15/00GK1381829SQ0110957
公开日2002年11月27日 申请日期2001年4月17日 优先权日2001年4月17日
发明者金润 申请人:韦尔博泰克公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1