提升个人语音识别率的方法及模块的制作方法

文档序号：2837279阅读：442来源：国知局

专利名称：提升个人语音识别率的方法及模块的制作方法
技术领域：
本发明有关一种提升个人语音识别率的方法及模块；更详细地说，是关于一种用于一可携式电子装置的提升个人语音识别率的模块及其方法。
背景技术：
藤着数字化时代的来临，人类与可携式电子化产品之间的互动也越来越频繁，但现今可携式电子化产品的操控界面已渐渐无法满足使用者的需求。在人类日常生活中最为自然的沟通方式就是语言，因此若能使人类直接使用语言下指令予可携式电子化产品，将会使可携式电子化产品的操控界面更易被使用者所接受，使可携式电子化产品操作上更为方便，并大幅增加可携式电子化产品的附加价值。举例而言，具有语音识别功能的手机，具有一预设的识别模型，此识别模型是根据一音素模型所建构。而后根据此识别模型，手机可用以对一使用者所发送的至少一指令语音进行识别。此预设的识别模型与使用者无关，意即使用者无需预录语音，即可享受语音识别的便利。然而此种识别模型无法顾及特定使用者的语音差异，当使用者的语音与预设的识别模型相差较大时，识别率即会降低。隐藏式马尔可夫模型(Hidden Markov Model,以下简称HMM)为语音识别领域中常使用的语音模型，用以构成一音素模型。一个HMM语音模型视每一输入数据 (例如一语音)为一个机率式生成模型。HMM语音模型对于每一个索引(例如字或词) 都有一机率分布，欲査询某一语音为何时，则是通过查询所有索引于此语音发生的可能性来决定。为了使语音识别的效果更为精准。则需要使用语音数据调整HMM 语音模型，使其能够通过此调适作用以辨认不同使用者的语音讯号。在另一方面，人类所发出的每个语音都是由不同的音素所组成，以中文为例，每一个字的发音都可由不同的声母或韵母组成，所以每一不同的声母或韵母便可视为不同的音素。音素模型便是以HMM语音模型为基础，针对每一个不同的音素所建立的模型。为了达到上述以语言下指令的目的，现有的指令语音识别方法，便是以音素模型组成每一个指令的识别模型。例如"打电话给王小明"，其中"打电话给"便可视为一指令，但每个人说话的声调不同，所以需要使用者针对不同的指令，输入与其相对应的语音数据以调整其指令识别模型。但此调整是渐进式的，所以使用者便需重复提供"打电话给"的语音数据，直到相对应的指令识别模型可以识别使用者 "打电话给"这个指令为止。上述提升个人语音识别率的方法，皆需要求使用者针对不同指令识别模型逐一进行调整，亦可能须对同一指令识别模型重复输入多笔语音数据，这对使用者来说极不方便及亦缺乏效率。综上所述，如何提升调整指令识别模型的效率，让使用者不需要针对不同指令识别模型逐一进行调整，以节省时间并提升个人语音识别率，这是语音识别厂商刻正努力的目标。发明内容本发明的一目的在于提供一种提升个人语音识别率的方法，该方法用于一可携式电子装置，此方法可根据一预先规则将与语音数据相关的音素模型分群，之后每当使用者提供语音数据，便可调整音素模型，这样也连带调整了由音素模型所组成的指令识别模型。因此本发明可改善现有的指令语音识别方法需要使用者针对不同的指令识别模型，输入与其相对应的语音数据的缺点。为达上述目的，本发明所揭示的方法，通过撷取使用者所提供的语音数据，建构出调整参数；而后整合音素模型及调整参数，以调适该识别模型。通过上述步骤，便可调整可携式电子装置内的识别模型。本发明另一目的在于提供一种提升个人语音识别率的模块，此模块可用于一可携式电子装置，并执行前述的方法，以改善现有的指令语音识别需要使用者针对不同的指令识别模型，输入与其相对应的语音数据的缺点。为达上述目的，本发明所揭示的模块包含一识别模型、一调整参数模型及一整合模块，其中识别模型是由音素模型所组成，调整参数模型是根据使用者所提供的语音数据所建构。而整合模块用以整合音素模型及调整参数，以调适识别模型。借此，本发明可通过使用者调适技术，改善可携式电子装置中，识别模型对于特定使用者的识别率。在参阅附图及随后描述的实施方式后，所属技术领域具有通常知识者便可了解本发明的其他目的，以及本发明的技术手段及实施态样。

图1是本发明的方法实施例的流程图；图2是本发明的方法实施例的进一步流程图；图3是本发明的音素模型群组架构的示意图；以及图4是本发明的模块实施例的示意图。
具体实施方式
本发明的较佳实施例为一种提升个人语音识别率的方法，应用于一具有语音识别功能的可携式电子装置，在本实施例中为一手机。手机中具有识别系统，包含一预设的识别模型，此识别模型是根据至少一音素模型所建构，本方法通过整合此音素模型及一调整参数，以调适该识别模型。而后根据此调适后的识别模型，手机可提升对一使用者所发送的至少一指令语音的识别率。详细来说，尚未进行调适的预设识别模型，对于不同使用者皆以相同的识别模型进行语音识别，可视为由一非特定的音素模型所建构。请参阅图i，首先，执行步骤ioo，建构一特定的文字数据库，在本较佳实施例当中，特定的文字数据库是与使用者可使用的指令语音所对应的文字相关，而不需要与指令完全相同。举例而言，手机内预设用以操作手机的指令语音为"打电话给"、"关机"等指令，而特定的文字数据库即是根据这些指令语音的特征而建构，将用以改善手机对特定使用者的语音识别率。因此，此特定的文字数据库可由上述指令构成，亦可由与上述指令的语音特征有关的其他文字所构成。关于语音特征，进一步说明于后文。接下来，执行步骤ioi，在使用者根据上述特定文字数据库发出语音时，撷取使用者所发出的多个语音数据中的特征，以建构出一调整参数。最后，执行步骤102整合调整参数及音素模型以调适识别模型。请参阅图2，详细来说，步骤101包含下列步骤执行步骤200由多个语音数据中撷取特征向量，其中特征向量可为梅尔倒频谱系数(Mel-scale Frequency C印stral Coefficients)、线性预估倒频谱系数(Linear Predictive C印stral Coefficient)、以及倒频谱(C印stral)其中之一或其组合。接下来执行步骤201，利用被撷取出的特征向量，辅以一音素模型的群组架构，以建构出一调整参数。此群组架构是根据预设的音素模型所建立，与使用者的语言倾向无关。关于群组架构的进一步说明请参考图3与后文。详细来说，在步骤201中，识别系统撷取语音数据后，撷取语音数据内的特征向量，这些特征向量即与使用者个人发音习惯相关，之后识别系统利用此特征向量，辅以一音素模型的群组架构，以建构出一调整参数。举例而言，可采用最大后机率估测法(Maxim咖a posteriori estimation, MAP)、最大相似度线性回归法(Maximum Likelihood Linear Regression, MLLR)禾口向量场平滑化(Vector-Field Smoothing, VFS)的综合方式，来达到各种训练声音数据下的最佳调适效果。其中MLLR和VFS 演算法，采用分群的方法来克服机率分布模型的调适数据不足或缺乏的问题，当某一机率分布模型数据不足时，就可以参考该机率分布模型(例如HMM语音模型)同一群组的其它具有特定关联性的机率分布模型，来调整该机率分布模型，而各机率分布模型的特定关联性便以建立一群组架构来表示。为了避免分群群组中仍有数据不足或缺乏的现象，分群群组将被建立为树状结构，若某一群组数据不足时，可往上追溯，与另一群组合并，若数据还是不足时，则再往上追溯，直到用以调适识别模型的一群组内有足够的数据为止。请参考图3，图3为一群组架构3的示意图，分群的方法是使用现有的的 k-means演算法，将语音数据的音素模型分成5个子群组300、 301、 302、 303及 304，在此不再详述。然后采用自下至上(bottom-up)方式增强各个子群组间的关系，使一群组内有足够的数据以调适识别模型。利用这些子群组间的相似度(即距离或最大相似度)，结合成父群组305、 306、 307及308，进而往上建构一个树状结构，完成此群组架构。上述的方法可视实际情况而调整，并非用以限制本发明的范围。使用者的口音(即语言倾向)的关系，使用者"勿"及"〈〈" 的发音是很相近的，所以在此群组架构中，便可将"勿"及"〈〈"的模型视为在同一子群组300中的两个音素模型，而音素模型"勿"及"〈〈"便可视为特定关联性的语音，只要被撷取出的特征向量中包含与"勿"及"〈〈"有关的特征向量，这些有关"勿"及"〈〈"的特征向量也会被用以调适同一群组内的音素模型。因此本实施例即可根据如上述的群组架构，整合调整参数及音素模型，以调整预设的识别模型，因此调整参数实际上已根据使用者的口音被分群，所以在此较佳实施例中，只要预设的识别模型中有"关机"及"打电话"的指令识别模型，且使用者发出的语音中有包含"勿"或"〈〈"，便会调整音素模型"力"及"〈〈"，这样也连带调整了包含音素模型"勿"及"〈〈"的"关机"及"打电话"指令识别模型。换句话说，所有包含相同音素模型的识别模型，都可以一并连带调整，而调适后的识别模型便可视为由特定的音素模型所建构。由上述说明可知，本发明可通过较少的语音数据调整识别模型，利用音素模型的群组架构，当使用者在念出某一语音时，连带调整与此语音相关的音素模型，进而调整指令的识别模型，使使用者输入较少的语音数据便可调整所有的识别模型。本发明的另一较佳实施例为一提升个人语音识别率的模块4，用于一可携式电子装置(如手机)，模块4包含一识别模型400、一调整参数模型401及一整合模块402，可利用如前述较佳实施例的方法，改善语音识别率。识别模型400是由一音素模型所建构，用以对一使用者所发送的指令语音进行识别，此音素模型与前述较佳实施例所述的音素模型相同，在此不加赘述。而调整参数模型401是根据使用者的语音数据所建构，此调整参数模型401包含一如前述较佳实施例所述的群组架构，此群组架构是根据音素模型间的特定关联性所形成，此群组架构如前述较佳实施例所述的群组架构，在此不再赘言。此调整参数模型 401的建构，是撷取使用者根据一特定的文字数据库所发出的多个语音数据的特征向量，辅以群组架构而得。特定文字数据库的设计目的，是使使用者发出与构成指令语音的音素模型相关的语音，举例而言，特定的文字可为一指令，如"打电话"、 "关机"等，亦可为一段特定文字，如"房间里有电话"、"天气真好"等。针对相同文字，不同使用者的发音亦有所不同。整合模块402用以整合音素模型及调整参数模型，以调适识别模型，其调整方式如前述较佳实施例所述，在此不加赘述。除了图4所描绘的操作及功能外,模块4亦能执行前述方法实施例的所有步骤。所属技术领域具有通常知识者可直接了解模块4如何基于前述方法实施例以执行这些步骤，在此不加赘述。由上述可知，本发明可将音素模型做分类，以产生一群组架构，并根据此群组架构，利用与使用者相关的调整参数以调整音素模型，借此也连带调整了识别模型。因此本发明可克服现有的指令语音识别方法的缺点，通过输入较少的语音，即可调适识别模型，以提升个人语音识别率。上述的实施例仅用来例举本发明的实施态样，以及阐释本发明的技术特征，并非用来限制本发明的范畴。任何熟悉此技术者可轻易完成的改变或均等性的安排均属于本发明所主张的范围，本发明的权利范围应以本申请权利要求范围为准。
权利要求
1.一种提升个人语音识别率的方法，用于一可携式电子装置，该可携式装置，具有一预设的识别模型，该识别模型是根据至少一音素模型所建构，以对一使用者所发送的至少一指令语音，进行识别；该方法包含下列步骤建构一特定的文字数据库，与该指令语音所对应的文字相关；撷取该使用者根据该文字数据库所发出的多个语音数据，以建构出一调整参数；以及整合该至少一音素模型及该调整参数，以调适该识别模型。
2. 根据权利要求1所述的方法，其特征在于该建构一调整参数的步骤，是撷取该多个语音数据的特征向量，并针对该至少一音素模型，建立一群组架构。
3. 根据权利要求2所述的方法，其特征在于该建构一调整参数的步骤，是根据特定关联性的语音，建立该群组架构。
4. 根据权利要求2所述的方法，其特征在于该调适识别模型的步骤，是根据该群组架构，以对该至少一音素模型及该调整参数，进行整合。
5. 根据权利要求1所述的方法，其特征在于该识别模型是由至少一非特定的音素模型所建构。
6. —种提升个人语音识别率的模块，用于一可携式电子装置，包含-一识别模型，预设于该可携式电子装置中，该识别模型是由至少一音素模型所建构，是用以对一使用者所发送的至少一指令语音，进行识别；一调整参数模型，包含一群组架构，该群组架构与一使用者的一语言倾向无关；及一整合模块，整合该至少一音素模型及该调整参数模型，以调适该识别模型。
7. 根据权利要求6所述的模块，其特征在于该群组架构，是根据该至少一音素模型的特定关联性所形成。
8. 根据权利要求6所述的模块，其特征在于该识别模型是由至少一非特定的音素模型所建构。
全文摘要
本发明是一种提升个人语音识别率的方法及模块，用于一可携式电子装置，此可携式装置具有一预设的识别模型，此识别模型是由一音素模型所建构，用以对一使用者所发送的至少一指令语音，进行识别，此方法包含下列步骤建构一特定的文字数据库，与此指令语音所对应的文字相关；撷取此使用者根据此文字数据库所发出的多个语音数据，以建构出一调整参数；以及整合此音素模型及此调整参数，以调适此识别模型。根据上述步骤，使用者可以有效的调整识别模型，以提升个人语音识别率。
文档编号G10L15/00GK101320561SQ20071010989
公开日2008年12月10日申请日期2007年6月5日优先权日2007年6月5日
发明者何泰轩, 刘进荣, 徐志文, 高鸿宗申请人:赛微科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐志文;高鸿宗;刘进荣;何泰轩
技术所有人：赛微科技股份有限公司
我是此专利的发明人

上一篇：可移动装置的编辑音乐数据方法与相关编辑音乐数据装置的制作方法
上一篇：键盘装置的制作方法