移动通讯终端机的语音识别方法

文档序号：2821665阅读：360来源：国知局

专利名称：移动通讯终端机的语音识别方法
技术领域：
这是关于语音识别的发明，特别是移动通讯终端机中通过屈折词语音识别能够实现电话号码簿搜索功能的移动通讯终端机语音识别方法。
背景技术：
语音识别技术是通过语音启动众多电器、电子设备的常用技术，如果活用到移动电话中，会给用户带来很大的便利。
上述语音识别技术中，最简单的是特定语者孤立词识别技术，该技术只能识别经过训练的语音。通过上述特定语者语音识别方法拨通电话时，首先要登记所需的电话号码，并且要用用户的语音发音1次或者2次以上相应于电话号码的人名。就是说，用户要用自己的语音进行语音训练过程，并保存相应的语音特征参数(Parameter)，这样才可以实现语音识别。
但，这种特定语者语音识别方法必须要对用户登记的每一个词语进行语音训练，无疑给用户带来了很多不便性；而且，如果用户进行的语音训练过程中出现错误，就会造成语音识别功能显著下降的问题。
另外，最近市面上销售的电话机可以登记数百名至数千名的电话号码，因此很难通过语音识别过程保存其特征。
为了解决上述问题，已经开始普及非特定语者语音识别技术。这种非特定语音识别技术采用了从众多语音数据中收集以及提取的特定语音参数，因此无须用户进行单独的语音训练过程，也可以实现语音识别功能；由于无须用户的训练过程，因此不存在训练过程中的语音识别率差异，可以确保一定的语音识别率。但是，这种非特定语者语音识别技术的语音识别对象词语是相对固定的，因此无法在根据用户其识别对象词语(或者姓名)发生变化的语音识别电话机中使用。
为了解决上述问题，需要非特定语者屈折词识别技术。该技术中，当输入识别对象词语的文字信息时，就会生成相应于该文字信息的识别网络，而且与所需的音响模型形成配套(Matching)；因此，只要用户输入文字信息，就可以进行所需词语的语音识别。
正如前面所讲述的，在使用非特定语者屈折词识别技术的过程中，为了使用语音识别功能，用户只要利用终端机上的键盘登记电话号码或者通过计算机下载输入电话号码，就可以实现语音拨号。

发明内容但，上述非特定语者屈折词识别方法中，为了生成对任意文字信息的识别网络，必须要保存有关韩语所有音素信息的数据，并且要具备较快的处理速度，因此很难设置在电话机等有限的硬件中。
因此，为了解决上述问题点，本项发明采用了适用三音素的隐马尔科夫模型(HMM)和识别网络，将已登记的电话号码变换成三音素数据进行保存，并且利用上述隐马尔科夫模型将已输入的语音变换成三音素数据，然后将已变换的三音素数据和与上述已登记电话号码相对应的姓名三音素数据做比较，以此进行语音识别。通过上述过程提供了，每次更换电话号码簿内容时，无须其他训练过程，仅仅依靠语音识别也可以获取所需的信息，并且实现使用便利性的移动通讯终端机语音识别方法。
另外，由于本项发明采用了适用1000个左右三音素数据的隐马尔科夫模型(Hidden Markov Model)，实现了更快的语音识别处理速度。
为了达到上述目的，本项发明中的移动通讯终端机语音识别方法包括以下几个步骤内容步骤一，构成利用三音素(Triphone)的音像学模型；步骤二，登记电话号码；步骤三，形成对上述已登记电话号码名称或者商号名称的三音素数据，并进行保存；步骤四，输入用户语音；步骤五，相关上述已输入语音的所定数据和保存在电话号码簿上的三音素数据进行比较；步骤六，上述比较结果，如果识别成功，就拨通相应于该输入语音的电话号码。
正如前面所讲述的，本项发明中将登记的电话号码名称变换成三音素数据，并进行保存；然后通过隐马尔科夫模型将输入到的语音变换成三因素数据；接着比较以变换三音素数据和上述已登记电话号码名称的三音素数据，以此实现语音识别；这样，即使电话号码簿的内容更换，也无须经过单独的训练过程，也可以获取所需的信息，大大提高了使用上的方便性。
另外，本项发明中采用了适用1000个三音素数据的隐马尔科夫模型，提高了语音识别处理速度。

图1是适用本项发明的移动通讯终端机部分构成模块图。
图2是本项发明中移动通讯终端机语音识别方法的流程顺序图。
具体实施方式
下面参照附图，对具有上述特征的本项发明中移动通讯终端机语音识别方法的实例进行说明。
图1是适用于本项发明的装置构成模块图；正如图所示，由以下几个部件组成麦克风10，用户为了语音拨号，登记电话号码时，输入接收者的姓名或者商号名称；编译码器20，将通过上述麦克风10输入的语音信号变换输出为脉冲代码调制(Pulse Code ModulationPCM)信号或者麦克风低(μ-Law)PCM信号；语音编码器30，接收上述编译码器20输出的PCM信号，并且将该PCM信号压缩输出为所定数据(例如，语音编码器(QCELP))信号；控制装置40，接收上述语音编码器30输出的所定数据信号，并执行语音识别以及语音合成等语音识别功能；数据存储器50，保存所定语音数据；程序存储器60，保存运行终端机的所有序列号；音响SP，输出语音。
在说明本项发明的工作原理之前，先对本项发明中必需的音响学模型和识别网络进行说明。
一般性，更换识别对象词汇时，无须变换音响模型也可以进行识别的驱折词识别中，必须要具备反映所有语音特征的音响学性模型。
本项发明中使用了适用三音素的隐马尔科夫模型(Hidden Markov ModelHMM)。
普通三因素以大规模语音数据库(DB)为基础，采用了左右上下文信息；而且每个三因素都具有将语音的简短区间(音片)建模(Modeling)为导入、安定、迁移等3个状态(State)的构造。
对此，下面举例说明。
‘？？’的基本音素表现hagggyo.
‘？？’的三音素表现#_h_a_h_a_g a_g_gg g_gg_y gg_y_o y_o_#另外，假设基本音为40个时，三因素可以生成40X40X40个；除去无法发音的部分，可以用2000个左右的数量表现大部分词汇。就是说，发生60000个状态时，本项发明为了缩小模型的大小，测定状态之间的类似度，执行聚类功能(Clustering)捆绑相互类似的状态，以此缩小为1000个左右的数量；每个状态都共有一个编码本(Codebook)，并且表现为具备相互不同观测概率值的构造。
另外，本项发明中内设有发音变换规则程序，通过该程序可以将登记在电话号码簿中的姓名或者商号名称文字信息变换成上述音响学模型信息。上述发音变换规则中包括了底音法则、头音法则、子音同化、轻音化等能够将韩语准确标记为发音标记的所有必须规则。
本项发明采用的识别网络中，登记电话号码时，只要输入姓名或者商号名称，就根据发音规则将该文字信息变换成三因素信息，并且保存在已设定的存储器领域中。
下面参照图2，对具备上述音响学模型和识别网络的本项发明的工作原理进行说明。
图2是本项发明中移动通讯终端机语音识别方法的流程顺序图；如图所示，包括以下几个步骤内容步骤一，构成利用三音素(Triphone)的音像学模型；步骤二，登记电话号码；步骤三，利形成对上述已登记电话号码名称或者商号名称的三音素数据，并进行保存；步骤四，输入用户语音；步骤五，相关上述已输入语音的所定数据和保存在电话号码簿上的三音素数据进行比较；步骤六，上述比较结果，如果识别成功，就拨通相应于该输入语音的电话号码。
另外，还包括以下步骤内容上述比较结果，如果识别失败，就重新返回到上述输入语音的步骤。
本项发明的工作原理如下首先，形成采用三音素的HMM模型(S10)，然后利用该模型，通过终端机上的电话号码簿登记菜单，登记所需的电话号码(S20)。这时，就会输入与已登记电话号码相对应的姓名或者商号名称。
上述电话号码被登记后，就会利用保存在程序存储器60中的识别网络，形成对应于上述已登记电话号码名称或者商号名称的三音素数据(S30)。而且，上述三音素数据被保存在上述已登记电话号码保存着的存储器中(S40)。就是说，当用户登记电话号码时，只要文字输入对应于该电话号码的姓名或者商号名称，就会利用保存在程序存储器60中的识别网络和保存在数据存储器50中的三音素数据，构成相应于上述输入文字的三音素数据，并且将三音素数据保存在已设定的存储器区域中。
另外，如果上述三音素数据与已保存的其他电话号码三音素数据重复时，就会共有该重复三音素数据，并且只保存之外的其他数据。例如，假设已保存的电话号码名称为‘洪吉童’，那么所定存储器区域中就会保存对‘洪吉童’的三音素数据；如果登记其他电话号码时，与之相对应的姓名为‘洪吉洙’，那么洪吉洙’中的‘洪吉’和上述已保存的‘洪吉童’中的‘洪吉’其三音素数据是相同的，因此就会共有与‘洪吉’相对应的三音素数据信息，只是保存对应于‘洙’的三音素数据。
通过上述过程登记用户所需的所有电话号码后，通过麦克风10语音输入与所需电话号码相应的姓名(S50)；接着，编译码器20将输入的语音转变成PCM数据，并进行输出；语音编码器30接收上述编译码器20输出的PCM数据，并压缩输出为所定的数据(例如，语音编号器)。
在这里，上述语音编码器30输出的所定数据中，包括有显示输入语音状态信息的系数和对语音励磁信号(Excitation Signal)进行建模的信息以及增益(Gain)等。例如，语音编码器30输出的所定数据会由线谱对(Line SpectrumPairLSP)系数、编码本索引(Codebook Index)和增益(Gain)等组成。
控制装置40接收到上述语音编码器30输出的所定数据后，利用保存在数据存储器50中的1000个三音素数据，将相应于该所定数据的三音素数据，构成为具有最高观测概率值的三音素数据。
然后，上述已构成三音素数据和对应于已登记电话号码名称的三音素数据进行比较(S60)。在这里，上述所定数据的三音素数据由所定的帧(Frame)单位组成。例如，输入的语音为‘洪吉童’，并且一个帧为一个字时，首先构成对应第一个帧‘洪’的三音素数据，并且与记录在电话号码簿上的姓名三音素数据进行比较；如果存在与该‘洪’配套(Matching)的三音素数据，接着比较第二个帧‘吉’的三音素数据和上述‘洪’的配套姓名三音素数据。通过上述过程比较输入的语音，如果存在与输入的语音相配套的电话号码名称，就会拨通该电话号码(S80)。
另外，对应于上述输入语音的语音识别结果为2个以上时，例如输入的语音为‘洪吉童’，与‘洪吉童’配套的电话号码名称为‘洪吉童家’、‘洪吉童事务所’、‘洪吉童手机’等多数个配套结果时，将其结果显示在终端机的显示窗中，然后利用事先设定的语音，例如‘关于输入语音的结果如下’，通过音响SP通报给用户。
用户可以在显示窗中的显示结果(目录)，选择要通话的电话号码。
相反，如果不存在与上述过程S70中输入的语音配套的电话号码名称，利用事先设定的语音，例如‘不存在与输入语音相同的电话号码，请重新输入。’，通过音响通报给用户；用户收到统治后重新进行语音输入。如果存在与重新输入的语音相对应的电话号码，就拨通该电话号码。
权利要求
1.移动通讯终端机语音识别方法，包括步骤一，构成利用三音素的音像学模型；步骤二，登记电话号码；步骤三，形成对上述已登记电话号码名称或者商号名称的三音素数据，并进行保存；步骤四，输入用户语音；步骤五，相关上述已输入语音的所定数据和保存在电话号码簿上的三音素数据进行比较；步骤六，上述比较结果，如果识别成功，就拨通相应于该输入语音的电话号码。
2.如权利要求1所述的移动通讯终端机语音识别方法，其特征在于，所述方法进一步包括上述比较结果，如果识别失败，就重新返回到上述输入语音的步骤。
3.如权利要求1所述的移动通讯终端机语音识别方法，其特征在于，上述音响学模型是隐马尔科夫模型(Hidden Markov ModelHMM)。
4.如权利要求3所述的移动通讯终端机语音识别方法，其特征在于，上述音响学模型采用状态聚类技法。
5.如权利要求1所述的移动通讯终端机语音识别方法，其特征在于，对应于上述输入语音的识别结果为2个以上时，显示其结果，并利用事先设定语音通报给用户。
6.如权利要求1所述的移动通讯终端机语音识别方法，其特征在于，共有对应于上述已保存电话号码名称或者商号名称的三音素数据。
全文摘要
本发明公开了移动通讯终端机语音识别方法。包括步骤一，构成利用三音素(Triphone)的音像学模型；步骤二，登记电话号码；步骤三，形成对上述已登记电话号码名称或者商号名称的三音素数据，并进行保存；步骤四，输入用户语音；步骤五，相关上述已输入语音的所定数据和保存在电话号码簿上的三音素数据进行比较；步骤六，上述比较结果，如果识别成功，就拨通相应于该输入语音的电话号码。通过本项发明的应用，每次更换电话号码簿内容时，无须其他训练过程，仅仅依靠语音识别也可以获取所需的信息，实现了使用上的便利性；而且由于采用了适用1000个左右三音素数据的隐马尔科夫模型(Hidden Markov Model)，实现了更快的语音识别处理速度。
文档编号G10L15/14GK1746970SQ20041005147
公开日2006年3月15日申请日期2004年9月10日优先权日2004年9月10日
发明者金勋, 金正熙, 具东昱申请人:乐金电子(惠州)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金勋;金正熙;具东昱
技术所有人：乐金电子（惠州）有限公司
我是此专利的发明人