具有智慧型鉴别调适功能的语音辨识方法及系统的制作方法

文档序号：2837036阅读：217来源：国知局

专利名称：具有智慧型鉴别调适功能的语音辨识方法及系统的制作方法
技术领域：
本发明涉及一种语音辨识方法，尤其涉及一种具有智慧型鉴别调适功能的语音辨识方法及系统。
背景技术：
使用声控指令的语音辨识系统的最大问题，就是辨识率不是百分之一百准确。辨识的错误会增加许多的不便，甚至有的时候会造成系统运作顺畅的风险。目前，大部分的声控指令的语音辨识系统，一开始没有考虑语音辨识错误，直接设计对连续的错误没有感觉，也没有对应系统来改善连续错误。使用者面对声控指令的语音辨识系统，常常因而感觉无奈，无法解决屡次出现的错误，以及使用上繁琐的困扰。最后，只好被动的选择不用它了。甚至有些时候，某些声控指令的辨识错误，会造成系统运作相当的风险，对此，现有的声控指令的语音辨识系统也只是单纯的加上针对所有或是部份的辨识指令，进行多一步的确认动作。这样的设计，增加了使用语音辨识系统上的麻烦。因此，不如更积极的透过智慧型的学习机制，提升部分或是整体指令辨识的鉴别率。申请人有鉴于现有技术的缺失，发明出本发明"具有智慧型鉴别调适功能的语音辨识方法"，用以改善上述现有手段的缺失。发明内容本发明的主要目的为提供一种具有智慧型鉴别调适功能的语音辨识方法及系统，其深入的考虑到使用者的感觉，在没有增加使用者的麻烦下，提升系统的辨识率。此外，加上运用语者辨识的技术，可以扩大上述的学习机制，成为多人使用的操作介面。根据上述构想，本发明提供一种语音辨识方法，其步骤包含(a)接收一使用者的语音;(b)辨识该语音以产生一辨识结果，该辨识结果具有一分数;(c)对于分数高的辨识结果，不作声学模型的鉴别调适，但利用该语音的使用率来学习新的语言文法机率模型；(d)对于分数低而后被该使用者确认的辨识结果，进行声学模型的鉴别调适，调高该语音的出现可能，并利用该语音的使用率来学习新的语言文法机率模型;以及(e)对于分数低而后被该使用者拒绝的辨识结果，进行声学模型的鉴别调适，调低该语音的出现可能。如所述的语音辨识方法，其中该语音为一口语指令。根据上述构想，本发明另提供一种语音辨识方法，用以辨识多个使用者的语音，其步骤包含(a)接收一特定使用者的语音;(b)辨识该语音以产生一辨识结果，该辨识结果具有一分数;(c)对于分数高的辨识结果，自动切换至该特定的系统中;(d)在一般情况下，对于分数低的辨识结果，继续进行该特定使用者的语音辨识，直到累积出一定信任度，才切换至该特定使用者的系统中;以及(e)在特殊情况下，对于分数低的辨识结果，径行询问该特定使用者，并立刻切换至该特定使用者的系统中。如所述的语音辨识方法，其中每一使用者具有各自的系统，纪录着各自的口语指令的使用成功和错误的相关纪录，并各自训练调适出各自的声学和语言的机率模型。如所述的语音辨识方法，其中该语音为一口语指令。如所述的语音辨识方法，其中该特殊情况为当该口语指令发生连续错误时。如所述的语音辨识方法，其中该特殊情况为当进行对该特定使用者的私密资料处理时。根据上述构想，本发明又提供一种语音处理方法，其步骤包含(a)接收一使用者的语音;(b)辨识该语音以产生一辨识结果;(c)当该辨识结果连续出现错误时，检测该辨识结果以取得其错误型态;以及(d)根据该错误型态而进行一调适处理。如所述的语音处理方法，其中该语音为一口语指令。如所述的语音处理方法，其中该错误型态包含一第一类型，是该使用者连续重复输入相同的口语指令，却被连续辨识出相同的错误;一第二类型，是该使用者连续重复输入相同的口语指令，却被连续辨识出各自不同的错误;一第三类型，是连续输入非口语的背景杂音，却分别被辨识为有意义的语音指令;以及一第四类型，是为其它零散的输入错误连续发生。如所述的语音处理方法，其中该调适处理包含抑制重复发生的错误选项，暂时性的调整语言文法机率模型。如所述的语音处理方法，其中该调适处理包含另行建立抑制指令的暂时性资料库，降低连续被拒绝的选项再出现的机率。根据上述构想，本发明再提供一种语音辨识/处理系统，其包含一语音辨识单元，用以接收并辨识一使用者的语音，以产生一辨识结果;一错误检测单元，连结于该语音辨识单元，用以于该辨识结果连续出现错误时，检测该辨识结果以取得其错误型态;以及一错误抑制单元，连结于该错误检测单元，用以根据该错误型态而进行一调适处理。如所述的语音辨识/处理系统，其中该语音为一口语指令。如所述的语音辨识/处理系统，其中该错误型态包含一第一类型，是该使用者连续重复输入相同的口语指令，却被连续辨识出相同的错误;一第二类型，是该使用者连续重复输入相同的口语指令，却被连续辨识出各自不同的错误;一第三类型，是连续输入非口语的背景杂音，却分别被辨识为有意义的语音指令; 以及一第四类型，是为其它零散的输入错误连续发生。如所述的语音辨识/处理系统，其中该调适处理包含抑制重复发生的错误选项，暂时性的调整语言文法机率模型。如所述的语音辨识/处理系统，其中该调适处理包含另行建立抑制指令的暂时性资料库，降低连续被拒绝的选项再出现的机率。
以下结合附图和具体实施方式
进一步说明本发明的特征和优点，其中

图1是本发明的使用者的切换处理流程图。图2是本发明的语音辨识/处理系统的方块图。图3是本发明的连续辨识错误的鉴别处理流程图。图中主要元件符号说明如下21:语音辨识单元22:错误检测单元23:错误抑制单元具体实施方式
本发明所设计的学习机制，是以底下的语音辨识(Speech Recognition)系统的架构为前提。语音辨识系统的口语辨识操作步骤包含口语输入、语音辨识、自动结果确认、以声音或影像回应辨识结果、手动结果确认或是其他口语输入更正。每个口语输入之后，辨识结果会有一个分数，分数高的口语指令可以不需手动确认就执行；其他分数低的口语指令则需手动确认来辅助执行。此时，系统可能会以声音或影像等回应的形式，通知使用者进行手动或是口语的再确认步骤，例如，以按键确认或拒绝，或是以口语指令回答对或错。如果使用者已确认，就完成了该口语指令的流程。如果是拒绝动作，则要进行重新输入的流程，或是进行更正错误的流程，直到辨识结果正确为止。本发明所设计的学习机制，是包含自动的语者辨识(Speaker Recognition) 技术于系统中。语者辨识系统的使用，包含针对新使用者的学习阶段，以及认识使用者之后的正常使用阶段。在针对新使用者的学习阶段，语者的声纹模型需要建立；此时，必须透过 GU I图形使用介面的辅助，让需要专用环境userprofile的使用者，在尚未有足够的声纹资料前，先行以图形化介面或是键盘输入做为选择语者的操作介面。然后在自然的使用口语语音辨识时，纪录下该语者的声纹资料。待该语者的声纹比对资料充足之后，使用者就不需要每次通过GU I图形介面或是键盘输入的方式，选择自己的名字或代号，才能开始使用该系统。在认识使用者之后的正常使用阶段阶段，语者辨识系统应该能够自动的辨识出语者，顾及使用操作的便利。此时，系统将能够透过语者辨识系统，不仅能够自动的辨识出语者，并且能够自动的切换使用者环境，提供更为便利的资讯服务。以下根据上述的系统和操作资讯，说明智慧的学习机制如何进行。大致而言，针对语音声学模型和语言文法机率模型，分别进行以下两种处理工作基本整体的鉴别调适处理，及针对连续性错误的情形进行暂时性的鉴别调适处理。[基本整体的鉴别调适处理]口语指令分为高分数自动过关、低分数确认通过、以及低分数拒绝通过三种类别。针对分数高的口语指令，本发明并不作声学模型的鉴别调适；但是利用其口语指令的使用率，学习新的语言文法机率模型。针对分数低而后被确认的口语指令，本发明将进行声学模型的鉴别调适，调高其出现可能；且利用其口语指令的使用率，学习新的语言文法机率模型。针对分数低而后被拒绝的口语指令，本发明将进行声学模型的鉴别调适，调低其出现可能；却不拿来用在学习新的语言文法机率模型上。基本整体的鉴别调适处理，帮助学习使用者的特殊错误情形，并建立该使用者特有的声学和语言模型。[多语者模型切换模式下的基本整体的鉴别调适处理] 借由语者辨识技术，上述的基本整体的鉴别调适处理，可以自动的学习出多语者的系统环境，并且使用在多语者操控的口语指令语音辨识系统上。语者辨识和使用者的切换机制，在语者辨识技术的应用下自动的进行。各登录有名的使用者，有各自的系统环境纪录着各自的口语指令的使用成功和错误的相关纪录；也各自训练调适出各自的声学和语言的机率模型。请参阅图1，其是本发明的使用者的切换处理流程图。切换使用者的机制，可以如下进行。(1) 语者辨识技术，在语音辨识功能进行之后接着进行(Sll)。当辨识为同一语者时(S12)，则系统不动作。(2) 当辨识出不同语者之后，针对分数高的语者辨识结果，进行自动切换的动作，并显示在被操控的机器上的角落。。)一般情况下，针对分数低的语者辨识结果，留着随后进行的口语指令再一次进行语者辨识的确认，直到累积出一定信任，才进行使用者切换的动作 (S13)。(4)特殊情况下，针对分数低的语者辨识结果，径行询问使用者，并立刻进行切换的动作(S14)。例如，当口语指令发生连续错误时，可以进行切换语者，立即改善辨识品质。或是例如，当进行对使用者的私密资料处理时，可以径行询问使用者，以正确的进行使用者的私密资料处理。[针对连续错误的情形进行暂时性的鉴别调适处理]本发明的设计将针对连续错误的发生，设计抑制错误再发生的法则，进行暂时性的鉴别调适处理，以有效抑制错误的连续发生，维持口语操作介面的方便自然度。连续错误的定义，是指被操控的机器在相同的状态下，口语指令的语音辨识结果连续出现错误而没能进行指令的动作。所谓的「机器在相同的状态」包含TV的电台没有更动，音量的大小没有变化，以及亮度的强暗等等口语指令操控的范围，没有更动。如果符合「机器在相同的状态」下，可以进一步假设口语指令的连续错误发生，是输入了相同的口语指令，因而可借此检测抑制相同的错误再发生。请参阅图2，其是本发明的语音辨识/处理系统的方块图。该系统包含一语音辨识单元21、一错误检测单元22、及一错误抑制单元23。本发明的暂时性的鉴别调适处理是经由该错误检测单元22来检测出错误型态，再经由该错误抑制单元23来处理不同型态的错误抑制动作。而该错误检测单元22所检测的连续错误分为以下A D类型A型:使用者连续重复输入相同的语音指令，却遭到连续辨识出相同的错误。B型:使用者连续重复输入相同的语音指令，却遭到连续辨识出各自不同的错误。C型:系连续输入了非口语的背景杂音，却分别被辨识为有意义的语音指令。D型:其它零散的输入错误连续发生。请参阅图3，其是本发明的连续辨识错误的鉴别处理流程图。如图3所示，当连续错误发生N次时(S31)，系统会检测语音能量是否大于等于一预设值 E(S32)，如否，则判定该语音属于C型。当语音能量大于该预设值E时，系统会检测该语音的错误相似度(全段)是否大于等于一预设值Pl%，如是，则判定该语音属于A型。当该语音的全段错误相似度小于该预设值Pl。/。时，系统会检测该语音的中段(去除指定比例句头及指定比例句尾的语句中段)错误相似度是否大于等于一预设值P2M，如是，则判定该语音属于B型。剩下其他情形，则判定该语音属于D型。本发明的错误抑制单元23是根据检测的错误型态，分别给予调适处理。处理主要是抑制重复发生的错误选项，暂时性的调整语言文法机率模型，或是另行建立抑制指令的暂时性资料库，降低连续被拒绝的选项再出现的机率。在机器状态改变之后，就视为新的条件状态，应将暂时性的调整解除，回到原来正常的使用状态，并重新计算错误发生的连续次数。暂时性的语言文法机率调整，可以是某一比例的机率降低，甚至降低至零。可以直接调整在进行中的语言文法机率模型，但是要另外储存常态模型，才可以在解除暂时性的调整之后，回复至常态模型；也可以另外储存一个语言文法的抑制机率模型，在计算进行中的语言文法机率时，采取常态模型和抑制模型相减的结果。综上所述，本发明是提供一种具有智慧型鉴别调适功能的语音辨识方法，其深入的考虑到使用者的感觉，在没有增加使用者的麻烦下，提升系统的辨识率。此外，加上运用语者辨识的技术，可以扩大上述的学习机制，成为多人使用的操作介面。因此，本发明能有效改善习知技术的缺失，因此具有产业价值，进而达成发展本发明的目的。本发明可由本领域技术人员作出各种修改，但是这些修改均不脱离所附的权利要求书请求保护的范围。
权利要求
1. 一种语音辨识方法，其特征在于包含步骤(a)接收一使用者的语音；(b)辨识所述语音以产生一辨识结果，所述辨识结果具有一分数；(c)对于分数高的辨识结果，不作声学模型的鉴别调适，但利用所述语音的使用率来学习新的语言文法机率模型；(d)对于分数低而后被所述使用者确认的辨识结果，进行声学模型的鉴别调适，调高所述语音的出现可能，并利用所述语音的使用率来学习新的语言文法机率模型；以及(e)对于分数低而后被所述使用者拒绝的辨识结果，进行声学模型的鉴别调适，调低所述语音的出现可能。
2. 如权利要求1所述的语音辨识方法，其特征在于，所述语音为一口语指令。
3. —种语音辨识方法，用以辨识多个使用者的语音，其特征在于包含步骤:(a) 接收一特定使用者的语音；(b) 辨识所述语音以产生一辨识结果，所述辨识结果具有一分数；(c) 对于分数高的辨识结果，自动切换至所述特定使用者的系统中；(d) 在一般情况下，对于分数低的辨识结果，继续进行所述特定使用者的语音辨识，直到累积出一定信任度，才切换至所述特定使用者的系统中；以及(e) 在特殊情况下，对于分数低的辨识结果，径行询问所述特定使用者，并立刻切换至所述特定使用者的系统中。
4. 如权利要求3所述的语音辨识方法，其特征在于，每一使用者具有各自的系统，纪录着各自的口语指令的使用成功和错误的相关纪录，并各自训练调适出各自的声学和语言的机率模型。
5. 如权利要求3所述的语音辨识方法，其特征在于，所述语音为一口语指令，而所述特殊情况为当所述口语指令发生连续错误时。
6. 如权利要求3所述的语音辨识方法，其特征在于，所述特殊情况为当进行对所述特定使用者的私密资料处理时。
7. —种语音处理方法，其特征在于包含步骤(a)接收一使用者的语音；(b) 辨识所述语音以产生一辨识结果；(c) 当所述辨识结果连续出现错误时，检测所述辨识结果以取得其错误型态;以及(d) 根据所述错误型态而进行一调适处理。
8. 如权利要求7所述的语音处理方法，其特征在于，所述语音为一口语指令，而所述错误型态包含一第一类型，是所述使用者连续重复输入相同的口语指令，却被连续辨识出相同的错误；一第二类型，是所述使用者连续重复输入相同的口语指令，却被连续辨识出各自不同的错误；一第三类型，是连续输入非口语的背景杂音，却分别被辨识为有意义的语音指令;以及一第四类型，是为其它零散的输入错误连续发生。
9. 如权利要求8所述的语音处理方法，其特征在于所述调适处理包含抑制重复发生的错误选项，暂时性的调整语言文法机率模型；所述调适处理包含另行建立抑制指令的暂时性资料库，降低连续被拒绝的选项再出现的机率；及/或所述语音为一口语指令。
10. —种语音辨识/处理系统，其特征在于包含一语音辨识单元，用以接收并辨识一使用者的语音，以产生一辨识结果；一错误检测单元，连结于所述语音辨识单元，用以于所述辨识结果连续出现错误时，检测所述辨识结果以取得其错误型态;以及一错误抑制单元，连结于所述错误检测单元，用以根据所述错误型态而进行一调适处理。
11. 如权利要求10所述的语音辨识/处理系统，其特征在于，所述调适处理包含抑制重复发生的错误选项，暂时性的调整语言文法机率模型。
12. 如权利要求10所述的语音辨识/处理系统，其特征在于，所述调适处理包含另行建立抑制指令的暂时性资料库，降低连续被拒绝的选项再出现的机率。
全文摘要
本发明公开了一种语音辨识方法，其步骤包含(a)接收一使用者的语音；(b)辨识该语音以产生一辨识结果，该辨识结果具有一分数；(c)对于分数高的辨识结果，不作声学模型的鉴别调适，但利用该语音的使用率来学习新的语言文法机率模型；(d)对于分数低而后被该使用者确认的辨识结果，进行声学模型的鉴别调适，调高该语音的出现可能，并利用该语音的使用率来学习新的语言文法机率模型；以及(e)对于分数低而后被该使用者拒绝的辨识结果，进行声学模型的鉴别调适，调低该语音的出现可能。本发明在不增加使用者的麻烦下，可以提升系统的辨识率。
文档编号G10L17/00GK101221761SQ20071000370
公开日2008年7月16日申请日期2007年1月12日优先权日2007年1月12日
发明者王瑞璋申请人:台达电子工业股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王瑞璋
技术所有人：台达电子工业股份有限公司
我是此专利的发明人

上一篇：具有语音合成功能的信息处理装置及方法
上一篇：导抗谱频率参数的矢量量化方法及装置的制作方法