整合语音与手写输入的识别方法及其系统的制作方法

文档序号：2822041阅读：359来源：国知局

专利名称：整合语音与手写输入的识别方法及其系统的制作方法
技术领域：
本发明涉及一种识别方法及其系统，特别是涉及一种整合语音与手写输入的识别方法及其系统。
背景技术：
目前人机间的通讯方式，不外乎是以键盘、鼠标、手写、语音、影像等方式来进行，其中特别是以手写与语音输入的方式，由于与人类彼此间所惯用的沟通方式相同，因此广为产学界所致力开发研究，然而因为其识别率、输入速度无法有效提高，故其成果并未完全获致商业上的成功。
语音与手写输入识别的技术发展上，其相关技术已见诸于各类技术文件中，例如以语音识别而言，美国第5,692,097号专利披露了一种在语音中识别出字符的方法、美国第5,129,000号专利则揭示了一种利用音节(syllable)进行语音识别的方法，或者如台湾第283744号专利揭示了一种智能型国语语音输入方法等等。另一方面，手写识别则如美国第6,226,403号专利揭示了一种利用输入笔划的多寡来进行字符识别的方法，或者如美国专利第6,275,611号专利揭示了一种将使用者输入的字符分解、分类成许多子结构后加以识别的方法，足见语音与手写输入的识别技术皆已逐渐成熟。
然而，虽然上述各专利技术皆致力于算法的改进、手写/语音输入的特徾(feature)撷取，或是改进语音或手写模型的建立准则等等，然其识别率的提高依然相当有限，故有人提出整合手写与语音输入的讯息以提高识别率的概念。
其中，美国专利第6,285,785号专利披露了一种整合语音与手写输入的信息的讯息识别方法，以下将其全文并入本案作为参考数据，它所采用的方法是针对每一字符(word)给予不同的语音或手写权重(α，β)，例如某一字符以语音输入的方式较易被正确地识别出来，因此其语音的权重α较高而手写的权重β较低，而若某一字符以手写输入方式较易被正确地识别，其手写权重β自然较语音权重α为高。
接着，当使用者欲进行输入讯息的识别时，藉由语音输入与手写输入来分别取得二个包含有许多可能的候选字的字列(list)，并依权重(α，β)来将此二字列合并成为一新的字列，再由其中决定出一相似度最高的字符，因此能够有效地提高识别率。
然而，虽然上述方法在识别率的提高上确能达到其效果，却依然存在有许多待解决的问题。首先，由于此种识别方法需要对于每一字符进行完整的语音与手写输入，故其识别流程过于繁复而不甚实用。其次，特别是针对中文、韩文或日文等东方语系的语言来说，除了因为字符的笔划较富于变化而不利于进行完整的手写输入外，由于其一字一音的特性，使得同一字符会具有不同的读音，或者是同一读音存在有许多的同音字，皆使得上述整合式的语音与手写输入识别方法不甚适用。

发明内容
因此，本发明的目的，是提供一种适用于一字一音式的语系并能有效地整合语音、手写输入以有效提高识别率的识别方法及其系统。
在一较佳实施例中，本发明整合语音与手写输入的识别系统包含有一语音输入装置、一手写输入装置、一语音相似度估计器，以及一手写相似度估计器。
该语音输入装置用来接收一具有至少一字符的语音输入，并能将该语音输入转换为一第一信号。该手写输入装置，用于接收一描绘有该字符之一特征的手写输入，并能将该手写输入转换为一第二信号。语音相似度估计器则能依据该第一信号产生一字列，该字列具有多个与该字符相对应的识别字符。手写相似度估计器则是用于依据该第二信号，自该字列中取出与该字符最相符合的识别字符。其中，该字符的特征是构成该字符之一部首。
依据上述架构，本发明整合语音与手写输入的识别方法的步骤是先接收一具有一字符的语音输入，并识别该语音输入而产生一字列，该字列具有多个与该字符相对应的识别字符，接着再接收一描绘该字符之一特征的手写输入，最后依据该特征，由该字符列中撷取与该字符最相符合的识别字符。
因此，利用语音与手写输入的互补特性，特别是以一字符的完整语音输入搭配其部分笔划的手写输入，由于提供了较为足够的信息来进行识别，因此能够有效地提升识别率。

图1是示意图，说明本发明整合语音与手写输入的识别系统；图2是一流程图，说明本发明整合语音与手写输入的识别方法的步骤；图3是一流程图，说明本发明整合语音与手写输入的识别方法的步骤；图4是一示意图，说明一语音数据库中以同音字所建置出的字列；图5是一示意图，说明以手写输入来描绘出「缝」字的部首；图6是一示意图，说明以手写输入来描绘出「缝」字的部分笔划；图7是一示意图，说明以手写输入来描绘出「奋」字的部首；以及图8是一示意图，说明以手写输入来描绘出「炮」字的部首。
附图标记说明1 第一输入装置2 第二输入装置3 语音模型训练器4 手写模型训练器5 第一特征撷取器6 第二特征撷取器7 第一相似度估计器8 第二相似度估计器
30 语音数据库40 手写数据库50 显示器21～27步骤201～206 步骤具体实施方式
本发明之前述以及其它技术内容、特点与优点，在以下配合参考图式之一较佳实施例的详细说明中，将可清楚的明白。
在进行详细说明之前，要先说明的是，本发明特别是适用于一字一音式的语言，例如繁体中文、简体中文、韩文、日文等等，而在本实施例中，是以繁体中文来作说明，但不应以此作为本实施例的限制。
参阅图1，本发明整合语音与手写输入的识别系统的较佳实施例包含一第一输入装置1、第二输入装置2、一语音模型训练器3、一手写模型训练器4、一第一特征撷取器5、一第二特征撷取器6、一第一相似度估计器7，以及一第二相似度估计器8。
第一输入装置1是指语音输入装置，例如一麦克风或换能器(transducer)，以及一与麦克风相连接的模拟/数字转换器(ADC)(图未示)，因此能够接收使用者的语音输入并将其转换为数字式之一第一信号S1。当然，对于使用者的语音信号输入，能够设定以不同的频率进行取样或者利用例如快速付里叶转换(FFT)来对输入信号进行处理，以便于后续的识别步骤进行。
第二输入装置2是指手写输入装置，例如一触控板或手写板等等，能够供使用者以触控笔(stylus)或亲手书写，当然，此第二输入装置2亦具有一模拟/数字转换器(图未示)，能够将使用者所书写、描绘的笔划、形状加以取样、转换为一第二信号S2，以利后续的识别步骤进行。
特别要说明的是，第二信号S2并非皆指一字符的完整手写输入，由于一般手写输入装置的设计是在一定的时距内供使用者进行输入，若使用者没有持续进行手写的动作则视为输入完毕，故此处所指的第二信号S2乃是使用者在一定的时距内所描绘的图形、笔划，而此笔划可能仅表示一个字符的部分笔划、部首，或是其全体。
语音模型训练器3是依据隐藏式马可夫模型(hidden Markov model)技术来识别使用者藉由第一输入装置1所发出的第一信号S1，并藉此来建立出个人的语音模型。而关于隐藏式马可夫模型技术的进一步说明，已披露于例如前述的美国第6,285,785号专利，或如台湾第308666号专利中，在此不另加以赘述。
同理，手写模型训练器4是接收使用者藉由第二输入装置2所发出的第二信号S2，并藉此来建立出个人的手写模型。而关于手写模型的建立方法，是利用所谓的模式识别(pattern recognition)技术来进行，此一技术亦已披露于例如美国第5,982,929号专利中，在此不另加以赘述。
此外，本发明还包含一语音数据库30与一手写数据库40。语音数据库30中储存有多个语音模型、相关的中文字/词库，以及中文文法规则等数据。而手写数据库40中则是储存有多个手写模型、相关的中文字/词库，以及中文文法规则等数据库。必需说明的是，为了便于下述识别步骤的进行，语音数据库30中的数据，是如图4所示(由上而下分别为ㄈㄥ，ㄈㄥㄈㄥㄈㄥ )，依据同一读音以及使用的频率来决定，换言之，每一字列皆是由许多同一读音的识别字符所构成，而在字列中越左边的识别字符代表在一般情况下使用频率越高。另一方面，手写数据库40中的数据，是依据字符的笔划多寡，以及部首的笔划依序排列，而关于依据字符的部首、笔划来建立相关数据库的方法亦已披露于例如美国第6,539,113号专利中，在此不另赘述。
因此，图1虚线箭头所示乃是本发明在训练模式下所进行的数据流向，当使用者利用第一、第二输入装置1、2来进行输入后，语音模型训练器3以及手写模型训练器4就能够由依据第一、第二信号S1、S2，以及利用语音、手写数据库40中的数据建立出个人的语音与手写模型，并将其分别储存在语音、手写数据库30、40中，以加速识别步骤的进行与识别率的提升。
第一特征撷取器5与第一输入装置1相连接，故第一特征撷取器5能够接收第一信号S1，并由第一信号S1取出第一输入的特征(向量)V1，此特征向量V1的取出例如在频域中取出一定范围内的振幅变化，藉此以得到分属不同频率的多个特征向量V1。同理，第二特征撷取器6是与第二输入装置2相连接，并能够取出第二信号S2的特征，并产生多个特征向量V2。
第一相似度估计器7与语音数据库30以及第一特征撷取器5相连接。第二相似度估计器8则与手写数据库40以及第二特征撷取器6相连接。第一相似度估计器7能够依据语音数据库30中的语音模型，并依据第一信号S1自语音数据库30中撷取出可能的字列或字符。而由于语音模型的建立，因此可以有效地摒弃不相似的资料，以进一步减少第一相似度估计器7在语音数据库30中搜寻的时间。
同理，第二相似度估计器8依据手写数据库40中的手写模型，并依据第二信号自手写数据库40中指定可能的字列或字符。除此之外，第一、第二相似度估计器7、8相互连接，因此例如第一相似度估计器7依据使用者的语音输入，自语音数据库30中指定一字列时，第二相似度估计器8亦能够依据其手写输入，自第一相似度估计器7所指定的字列中再指定一个相符合的识别字符。
最后，经由第一或第二相似度估计器7、8所指定的识别字符，最后会输出到应用程序中，例如Microsoft word，并显示在显示器50上。当然，上述除了第一、第二输入装置1、2以外，其余构件的功能是以计算机程序码的方式加以编写，并供计算机执行后即能产生上述的功能，而语音、手写数据库30、40中的数据则是事先加以整理、内建，故能供使用者所使用。
因此，藉由上述的架构并配合图2所示，本发明整合语音与手写输入的识别方法是如步骤21、22所示，首先先接收一第一输入，也就是利用第一输入装置1来接收使用者的语音输入并加以转换为第一信号S1，例如说使用者欲输入一「缝」字，而以语音输入「ㄈㄥ」后，藉由第一特征撷取器5以及第一相似度估计器7的作用，即能够针对第一输入加以辨别，并自语音数据库30中撷取相对应的数据，以产生出符合第一输入的字列，因此所取出的字列应如图3的字列所示，依其使用频率依序包含有「逢、缝、冯、夆、沨……」等字。
接着，如步骤23所示，可以依据人为设定或者程序的默认值来指定一预定时距，例如2秒，并检测在此预定时距内是否有表示该字符的第二输入存在。
若在此时距内，使用者利用第二输入装置2输入有表示「缝」字符的「特征」，则如步骤24所示，是自字列中取出与第二输入相对应之一识别字符。特别要说明的是，使用者输入此字符的「特征」，在本实施例中，是表示此字符的部首，因此，如图5所示，使用者可以输入「缝」的部首「纟」。
由于第一相似度估计器7已取出「ㄈㄥ」音的字列，而此时再利用第二相似度估计器8以模式识别技术，自「ㄈㄥ」音字列中搜寻此字列中有与「纟」相类似的形状、部首的识别字符，因此，可以得知有「纟」字旁的「缝」最符合于第二输入的限制，所以输出「缝」字，并如步骤25所示，于显示器50上显示出符合第一、第二输入的识别字符「缝」。当然，为了表示「缝」字的特征，使用者亦可以仅描绘出一部分的笔划，例如图6中所示的「幺」，或是表示此识别字符与其它同音的识别字符的相异处，亦可供进行模式识别而撷取出「缝」的识别字符。
同理，另一个例子是例如使用者欲输入一「奋」字，则先以语音输入「ㄈㄣ」后，即产生包含有识别字符「份、忿、奋、愤、分、粪、偾、瀵……」等的字列，接着使用者仅需以手写输入「奋」的部首「大」，如图7所示，则以模式识别技术即能由该字列中取出「奋」字。
或者例如使用者欲输入一「炮」字时，能先以语音输入「ㄆ幺」，则其相对应的字列依其使用频率应依序包含有「泡、炮、炮、疱、奅、麭、……」等识别字符，则当使用者如图8所示以手写输入一部首「火」时，第二相似度估计器8自然会取出包含有「火」部首的「炮」字，当然，若此时使用者是以手写输入一部首「大」，则会相对应地取出「奅」字。凡此种种，其例不胜枚举，本发明的识别方法有效地利用了中文字的特性，故使用者仅需以语音输入加上手写输入部份笔划或部首即可以达到快速输入与高识别率的目的。
另一方面，如步骤26、27所示，若无第二输入存在，则仅是一单纯的语音识别而已，因此会依据使用者所输入的语音「ㄈㄥ」，并依据使用上的频率，自「ㄈㄥ」音的字列中取出最常使用的识别字符，即「逢」字。当然，在仅有语音输入的情形下，其识别率并无法提高，除非使用者所欲输入的字符恰好等于使用频率最高的识别字符。
此外，参阅图3，本发明亦可如步骤201～203所示，当使用者输入「ㄈㄥ」音后，直接在显示器50上显示最常使用的识别字符「逢」，若使用者发现「逢」并非其欲输入的「缝」字，则可在一定时距内再施以第二输入(纟字旁)，则如步骤204、205所示，本发明会依据第二输入自字列中取出识别字符「缝」，并如步骤206所示，以「缝」来置换先前的「逢」字，因此校正了原先识别错误的字符。
由于中文字特性的缘故，故往往相同读音的众多字符中，其各个字符在书写上的混淆度却不高，例如「逢、缝、冯、夆、沨……」，其部首以及笔顺皆相去甚远。因此利用语音与手写输入的互补特性，使得使用者在念出读音后，再辅以该字的部首或部分笔划，即能够有效地提高字符的识别率，并且不需要使用者将笔划繁多的中文字体书写完毕，因此能够加快输入与识别的效率，确实实现本发明的目的。
如上所述，仅为本发明的较佳实施例而已，而不能以此限定本发明实施的范围，凡依本发明权利要求及说明书内容所作的简单的等效变化与修饰，皆应仍属本发明专利涵盖的范围内。
权利要求
1.一种整合语音与手写输入的识别方法，其特征在于包含下列步骤A)接收一具有一字符的语音输入；B)识别该语音输入而产生一字列，该字列具有多个与该字符相对应的识别字符；C)接收一描绘该字符之一特征的手写输入；以及D)依据该特征，由该字符列中撷取与该字符最相符合的识别字符。
2.如权利要求1所述的识别方法，其中，该步骤D)中，该手写输入是描绘出构成该字符之一部分笔划。
3.如权利要求2所述的识别方法，其中，该一部分笔划是该字符的部首。
4.如权利要求1所述的识别方法，还包含一于该步骤B)与该步骤C)之间，显示一该字列中最常使用的识别字符的步骤E)。
5.如权利要求4所述的识别方法，还包含一于该步骤D)之后，显示与该字符最相符合的识别字符以置换与该最常使用的识别字符的步骤F)。
6.一种整合语音与手写输入的识别方法，其特征在于包含下列步骤接收表示有一字符之一第一输入；识别该第一输入，并产生一字列，该字列具有多个与该字符相对应的识别字符；检测在一预定时距内是否有一表示有该字符的第二输入；以及当该第二输入存在时，依据该第二信号由该字列中撷取与该字符相符合的识别字符，其中，该第一输入是一语音输入与一手写输入其中之一，该第二输入是该语音输入与该手写输入其中另一。
7.如权利要求6所述的识别方法，还包含一接收该第一输入后，将该第一输入转换为一第一信号的步骤，以及一接收该第二输入后，将该第二输入转换为一第二信号的步骤。
8.如权利要求7所述的识别方法，还包含一由该第一信号中撷取该第一输入的特征的步骤，以及一由该第二信号中撷取该第二输入的特征的步骤。
9.如权利要求6所述的识别方法，还包含一当该第二输入不存在时，由该字列中撷取一最常使用的识别字符的步骤。
10.如权利要求9所述的识别方法，还包含一显示该最常使用的识别字符的步骤。
11.如权利要求6所述的识别方法，还包含一显示与该字符相符合的识别字符的步骤。
12.一种整合语音与手写输入的识别系统，其特征在于包含一语音输入装置，用于接收一具有一字符的语音输入，并能将该语音输入转换为一第一信号；一手写输入装置，用于接收一描绘有该字符之一特征的手写输入，并能将该手写输入转换为一第二信号；一语音相似度估计器，用于依据该第一信号产生一字列，该字列具有多个与该字符相对应的识别字符；以及一手写相似度估计器，用于依据该第二信号，自该字列中取出与该字符最相符合的识别字符。
13.如权利要求12所述的识别系统，其中，该字符的特征是构成该字符的一部首。
14.如权利要求12所述的识别系统，还包含一储存有多个语音模型的语音数据库，该等语音模型是供该语音相似度估计器对该第一信号进行比对，进而产生该字列。
15.如权利要求12所述的识别系统，还包含一语音特征撷取器，是用于自该第一信号中撷取出该语音输入的特征，并将该特征传送至该语音相似度估计器上。
16.如权利要求12所述的识别系统，还包含一储存有多个手写模型的手写数据库，该等手写模型是供该手写相似度估计器依据该第二信号自该字列中进行比对，进而撷取与该字符最相符合的识别字符。
17.一种整合语音与手写输入的识别系统，其特征在于包含一第一输入装置，用于接收一表示有一字符的第一输入，并能将该第一输入转换为一第一信号；一第二输入装置，用于接收表示有该字符的第二输入，并能将该第一输入转换为一第二信号；一第一相似度估计器，用于依据该第一信号产生一字列，该字列具有多个字符相对应的识别字符；以及一第二相似度估计器，用于依据该第二信号，自该字符列中取出与该字符最相符合的识别字符，其中，该第一输入是一语音输入与一手写输入其中之一，该第二输入是该语音输入与该手写输入其中另一。
18.如权利要求17所述的识别系统，还包含一储存有多个语音模型的语音数据库，以及一储存有多个手写模型的手写数据库，该等数据库其中之一是能供该第一相似度估计器对该第一信号进行比对，进而产生该字列，该等数据库其中另一则是供该第二相似度估计器对该第二信号进行比对，进而由该字列中取出与该字符最相符合的识别字符。
19.如权利要求17所述的识别系统，还包含一第一特征撷取器，以及一第二特征撷取器，该第一特征撷取器是能够由该第一信号取出该第一输入的特征，并将该第一输入的特征传送至该第一相似度估计器上，该第二特征撷取器则是能由该第二信号取出该第二输入的特征，并将该第二输入的特征传送至该第二相似度估计器上。
20.一种计算机可读取的记录媒体，其特征在于包含多个能供一计算机执行以进行下述步骤的计算机程序码接收一具有一字符的语音输入；识别该语音输入而产生一字列，该字列具有多个与该字符相对应的识别字符；接收一描绘该字符之一特征的手写输入；以及依据该特征，由该字符列中撷取与该字符最相符合的识别字符。
21.如权利要求20所述的记录媒体，其中，该字符的特征是构成该字符之一部首。
22一种计算机可读取的记录媒体，包含多个供一计算机执行以进行如权利要求6所述的步骤的计算机程序码。
全文摘要
一种整合语音与手写输入的识别方法，是先接收一具有一字符的语音输入后，识别该语音输入而产生一字列，且该字列具有多个与该字符相对应的识别字符，接着并接收一描绘该字符之一特征的手写输入，最后依据该特征由该字符列中撷取与该字符最相符合的识别字符，因此可以有效地整合语音与手写输入，并藉此提高识别率。
文档编号G10L15/00GK1549244SQ0312393
公开日2004年11月24日申请日期2003年5月22日优先权日2003年5月22日
发明者黄昭世申请人:宏碁股份有限公司, 宏股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄昭世
技术所有人：宏碁股份有限公司
我是此专利的发明人

上一篇：键盘乐器的键盘盖止动装置的制作方法
上一篇：盘式八音盒装置的制作方法