一种语音辨识系统的制作方法

文档序号：2837179阅读：403来源：国知局

专利名称：一种语音辨识系统的制作方法
技术领域：
本发明涉及语音辨识领域，特别涉及一种供使用者选取指令以更正语音辨识错误，或调整语音辨识系统。
背景技术：
在现今许多电子装置的使用方面，语音辨识技术的发展为使用者提供更为便捷的路径。无论桌上型电脑、笔记型电脑、手机或个人数位助理器或其它电子装置，其输入都必须依赖视觉与肢体的合作，以达到操控的目的。举例而言，当使用者操控电脑时，则必须借助键盘、鼠标或其它附属控制装置的协助，以完成指令的输入。或使用触碰式荧幕以简化输入程序，然而，由于荧幕显示面积有限，且仍需使用手指进行操作，仍无法达到最大便利性。上述问题对于一般人而言或许仅造成不便，况且对于肢体障碍，患有神经肌肉疾病甚或失去视觉的使用者而言，将使其难以操作上述电子装载。而语音辨识技术正可解决此等问题。
语音辨识的应用方面，使用者仅需借助音讯输入装置，例如麦克风，将其语音输入供语音辨识系统辨识，而后输出欲输入语音相对应的文字，或进一步根据所得的语音辨识结果直接进行指令操作。
在使用者辨识系统时，如上所述，使用者必须经由一音讯输入装置将声音输入并录制，然后开始辨识过程。在录音以及辨识过程中，存有许多因素将影响最终语音辨识的结果，例如所使用的音讯输入装置种类，录音的环境、与音讯输入装置的距离等。因此，对于录音以及辨识过程的监控，实有其需要。对此，习知技术或使用不同图象来分别显示录音状态以及辨识状态，或利用一图像的变化以显示录音或辨识状态。然而，在显示状态的同时，无法反映出录音或辨识结果品质的优劣或录音过程是否成功。
此外，对于语音辨识的结果，习知技术或有提供若干可根据辨识结果所做的调整功能，然而大半仅需针对整体语音辨识结果所设，因此往往无法仅针对该语音辨识结果中的某部分进行调整，以回馈进而锐化语音辨识系统的功能，使其能更符合个别使用者的需求。例如个别使用者在某些字或词的发音有其特殊的腔调，若无法针对该等字、词的语音辨识结果进行回馈、调整，则势必将无法提供适合个别使用者的语音辨识系统，进而大幅减弱其实际运用的效能。

发明内容
本发明要解决的技术问题在于提供一种语音辨识系统，本发明能有效反映录音或辨识结果品质的优劣或录音过程是否成功，能针对该语音辨识结果中的某部分进行调整，以回馈进而锐化语音辨识系统，且更符合个别使用者的需求。
本发明还提供一种具备错误更正回馈调整机制之语音辨识系统，以提供使用者可有效的更正语音辨识错误，或可回馈调整语音辨识系统。
本发明的技术方案通过以下方式实现一种语音辨识系统，包括至少一语音辨识引擎以及一显示装置，且于该显示装置上设有讯号指示界面，是用波形代表使用者输入的语音讯号，并显示录音状态、语音辨识进行中状态以及语音辨识完成状态；文字输出界面，用于显示语音辨识的文字结果，且该文字结果包括至少一个词单元。在本发明所提供的系统中，所述讯号指示界面上所显示的录音状态、语音辨识进行中状态以及语音辨识完成状态的波形分别以不同颜色显示。
在本发明所提供的系统中，所述文字输出界面上语音辨识的文字结果的每一个词单元，是分别以不同颜色代表每一个词单元的语音辨识品质。
在本发明所提供的系统中，所述每一个词单元是以绿色、黄色或红色显示其中绿色表示有良好的语音辨识品质；黄色代表警告有不良的语音辨识品质；红色代表具有很差的语音辨识品质，需要严格检视并更正之。
在本发明所提供的系统中，所述每一个词单元是与回馈调整选项组相连接；
该选项组包含至少一个回馈调整选项，供使用者选取以更正语音辨识的错误，或回馈调整语音辨识系统。
在本发明所提供的系统中，所述与该显示装置上的一鼠标光标移动至欲回馈调整之词单元上，或经由触控笔或鼠标按压点击，而将该回馈调整选项组显示于该显示装置上。
在本发明所提供的系统中，所述与该词单元相连接的回馈调整选项组所包含的回馈调整选项是"列出下一笔候选词"、"依据语音相似度优先列出语音辨识候选词"、"依据词相连优先列出候选词"、"列出全部近似辨识结果"、"改为手写输入"、"改为键盘输入"或以上任意组合。
在本发明所提供的系统中，所述讯号指示界面上语音辨识完成状态的波形还包括至少一个波形单元，每一波形单元是与文字输出界面所显示语音辨识结果的一个词单元相对应，且彼此是以相互对齐的方式排列，并以相同的颜色来
表示该词单元的语音辨识品质。
在本发明所提供的系统中，所述讯号指示界面上的波形单元是与回馈调整
选项组相连接；该选项组包含至少一个回馈调整选项，供使用者重听录音，更正录音，更正语音辨识的错误，或回馈调整语音辨识系统。
在本发明所提供的系统中，所述使用者是通过将显示在该显示装置上之一的鼠标光标移动至欲回馈调整之波形单元上，或经由触控笔或鼠标按压点击，而将该回馈调整选项组显示于该显示装置上。
在本发明所提供的系统中，所述回馈调整选项组所包含的回馈调整选项包括"播放"、"重录"、"纳入训练"、"改为手写输入"、"改为键盘输入"或以上任意组合。
在本发明所提供的系统中，所述系统是具有显示装置，或可连接其他显示装置，或在遥控器上具有显示装置的桌上型电脑、笔记型电脑、家用多媒体系统、电视、DVD、影音系统、手机或个人数位助理器。
在本发明所提供的系统中，所述词单元是词，次词或是片语。
本发明相对与现有技术具有以下优点
1、通过本发明所提供的利用波形代表使用者语音讯号的语音辨识系统，使用者可即时判断录音过程是否成功以及所输入语音讯号的品质。
2、通过本发明所提供的变化波形颜色的语音辨识系统，使用者得以便利地监控语音处理的速度以及语音辨识结果的品质。
3、通过本发明所提供的一种语音辨识系统，使用者得以词为单元针对所输入的语音讯号以及语音辨识结果的文字进行错误更正或系统的回馈调整，从而便利的完成文字输入工作，或持续改善该语音辨识系统的效能。

图l是本发明语音辨识系统的示意图2是本发明语音辨识系统第一实施例的示意图；图3是本发明语音辨识系统第一实施例的另一示意图；图4是本发明语音辨识系统第一实施例的另一示意图；图5是本发明语音辨识系统第一实施例的使用状态图；图6是本发明语音辨识系统第一实施例的另一使用状态图。
具体实施例方式
下面结合实施例及附图对本发明作进一步详细的描述。实施例
如图1所示，本发明语音辨识系统包括至少一语音辨识引擎10以及一显示
装置20，且于该显示装置20上设有讯号指示界面30以及文字输出界面40。其中，该讯号指示界面30是用波形32代表使用者输入的语音讯号，并显示录音状态以及语音辨识状态。而该文字输出界面40，则是用于显示语音辨识结果的文字42，而该文字结果包括至少一个词单元。显示于讯号指示界面30上的波形 32是用于显示使用者输入的语音讯号，而显示于文字输出界面40上的文字42 则为上述语音讯号辨识后所得的结果。
此外，本发明语音辨识系统的显示装置20可以是桌上型电脑、笔记型电脑、家用多媒体系统、电视、DVD、影音系统、手机或个人数位助理器的显示荧幕，或遥控器上的显示荧幕。
如图2所示，在录音过程时，使用者经由一音讯输入装置(未显示于图中，例如一麦克风)输入语音于语音辨识系统内，其输入的语音讯号将以波形32显示于讯号指示界面30上。波形使用具有两个优势其一，使用者在录音过程可通过观察波形的变化而获知是否已成功地将其语音讯号输入。在录音过程可能由于某些原因使得使用者的语音讯号实际上并未顺利输入，例如语音讯号输入装置未启动，语音讯号输入装置与设有语音辨识系统的电子装置接触不良等原因。此时，使用者可通过观察波形的变化，而作出即时反映，以避免时间的不必要浪费。其二，根据波形的形状，使用者可即时大略判别语音讯号的输入品质，从而作出适当的调整。举例而言，环境杂讯的干扰，所使用语音输入装置的灵敏度甚或使用者使用语音输入装置的方式等都可能影响输入语音讯号的品质，若能于录音阶段即掌握并排除某些潜在影响语音讯号输入品质的因素，而能输入较佳的语音讯号，其对于之后的语音辨识过程将有不可忽视的帮助。
如上所述，本发明的该讯号指示界面30是通过波形32显示录音状态以及语音辨识状态；其中，语音辨识状态更包括语音辨识进行中状态以及语音辨识
完成状态。此外，代表录音状态、语音辨识进行中状态以及语音辨识完成状态的波形是分别以不同颜色表示，从而便于使用者从视觉上即可分辨当下的处理状态、语音辨识品质或语音辨识的速度。
当使用者所输入的语音讯号正在进行辨识中时，上述在讯号指示界面30中的讯号波形32，将改以不同颜色显示出已经处理的讯号波形，以标示出语音辨识进程。换言之，在开始时，使用者输入的语音讯号以录音状态的颜色显示；语音辨识程序开始后，处理过的语音讯号就改以语音辨识进行中状态的颜色显示；等到全部输入的语音辨识完成之后，就改以语音辨识完成状态的颜色显示；某些词单元是良好辨识品质的颜色，某些词单元是不良辨识品质的颜色，以及某些词单元是很差辨识品质的颜色。
如图3所示，其中实线波形321是已完成语音辨识过程，而虚线的波形322 则尚未完成语音辨识过程。当语音辨识完成之后，所有波形将全部改为新颜色，显示语音辨识已经处理完成。
当使用者将语音讯号输入且所输入的语音讯号完成辨识后，辨识结果的最佳后选词单元420将逐一显示于上述的文字输出界面40上。如图4所示，使用者所输入的语音讯号以波形32显示，其中该波形32可进一歩区分为至少一个波形单元320，每一波形单元320是相对应于辨识结果中一词单元420，两者的对应关系将调整到上下位置相互对齐的方式相对应。在本实施例中，每一波形单元320是相对应于一辨识结果的词单元420。由第4图可知，使用者输入"今日天气如何"的语音讯号，其所显示的文字结果即为"今日天气如何"；而对应于波形单元320的输入语音讯号，即可能为辨识结果中"今日"的词单元420。两者位置上下相互对齐，且以相同颜色代表其辨识品质。
该语音辨识系统作为语音理解用时，讯号指示界面30仍旧，如图4所示，而文字输出界面40则会输出语音理解的结果；并且，文字输出界面40还是可以包含语音辨识结果文字，或是先将其隐藏起来，等使用者选择要显示之后才显示出来。
如图4所示，语音辨识完成之后，其讯号和文字显示是"今日"、"天气"、 "如何"等以词单元为单位的对齐段落，其中每个词单元都以一种颜色显示，以代表该词单元的语音辨识结果的品质。在本实施例中，每一个词单元是以绿色、黄色或红色显示其中绿色表示该文字具有良好的语音辨识品质；黄色代表警告该文字有不良的语音辨识品质；红色代表该文字具有很差的语音辨识品质，最好需要严格检视并更正的语音辨识结果。由此，可便于使用者直接从视觉上即可分辨出各词单元的语音辨识结果品种的优劣，以方便进行适当的错误更正和回馈调整系统的处理。
此外，上述每一个波形单元320是与回馈调整选项组相连接；该选项组包含至少一个选项，供使用者重听录音，更正录音，更正语音辨识的错误，或回馈调整语音辨识系统。如图5所示，每个波形单元320是与第一回馈调整选项组50相连接，该第一回馈调整选项组50包括至少一个回馈调整选项52;在本实施例中，该第一回馈调整选项组50是包括"播放"、"重录"、"纳入训练"、"改为手写输入"、"改为键盘输入"等回馈调整选项52。当语音辨识完成后，使用
者可通过将显示于该显示装置20上的一鼠标光标22移动至所欲回馈调整的波形单元320上，自动或经由鼠标或触控笔点击，则可将与该波形单元320相连接的第一回馈调整选项组50显示于该显示装置20上。由此，使用者需要选取所需的回馈调整选项52，以更正语音辨识结果，或回馈调整语音辨识系统。
当使用者发现波形有异，即可选取"播放"选项52以播放该语音音讯，确定是否有杂讯干扰；或于语音辨识的文字结果具有相当程度的偏差时，则可借助该"播放"选项52重听之前输入的语音讯号，进而找出原因所在，例如发音的偏差。若确有问题，即可选取"重录"选项52以重新输入语音讯号。若其语音辨识的文字输出结果的偏差是起因于本身的发音习惯问题，则可选取"纳入训练"选项52，由此锐化调整语音便士系统以符合该使用者的需求。在该语音辨识系统调整到能够清楚辨识出该词之前，使用者可以决定改变输入模式，例如选取"改为手写输入"或『改为键盘输入"，通过将语音输入模式切换到手写或键盘输入模式，以完成输入的目的。
上述文字显示结果中的每个词单元420也与回馈调整选项组相连接；该选项组包含至少一个回馈调整选项组相连接，供使用者选取，以更正语音辨识的错误，或回馈调整语音辨识系统。如图6所示，其中每个词420是与第二回馈调整选项组60相连接，该第二回馈调整选项组60包括至少一个回馈调整选项 62。在本实施例中，该第二选项组60是包括"列出下一笔语音辨识候选词"、"依语音相似度优先列出语音辨识候选词"、"依词相连性优先列出候选词"、"列出全部候选词"、"改为手写输入"以及"改为键盘输入"等回馈调整选项62。在语音辨识完成后，使用者可通过将该鼠标光标22移动至所欲回馈调整的词单元420 上，自动或经由鼠标或触控笔点击，则可将与该词单元420相连接的第二回馈调整选项组60显示在该显示装置20上。由此，使用者可通过选取所需的回馈
调整选项62，而对语音辨识结果进行回馈调整。
由于发音问题，根据使用者所输入的语音讯号所获得的语音辨识文字结果
可能大相径庭。如图6所示，使用者所朗读的语音为『我要吃饭"，随着发音习
惯不同，辨识所得的结果也可能随之不同。而根据使用者所输入的语音讯号，本发明的视觉回馈系统是根据使用者相对于该输入的语音讯号的复数个语音辨
识近似结果，供其选取。而近似结果则可经由选取上述第二回馈调整选项组60
的不同回馈条这个内选项62来决定。例如通过选取"下一笔候选词"的选项
62，使用者可获得下一笔候选词；通过选取『语音相似度的优先"的选项62，使用者可获得语音上最为近似的结果；通过选取"词相连性优先"的选项62，使用者可获得根据前后词的相连关系找出最为可能的候选词；或通过选取"列出全部候选词"的选项62，使用者可列出所有的语音辨识候选词。或者，使用者也可以在此处选用其他的输入模式，例如选取"改为手写输入"或"改为键盘输入"，通过将语音输入模式切换至手写或键盘输入模式，以完成输入的目的。
上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。
权利要求
1、一种语音辨识系统，包括至少一语音辨识引擎以及一显示装置，且于该显示装置上设有讯号指示界面，是用波形代表使用者输入的语音讯号，并显示录音状态、语音辨识进行中状态以及语音辨识完成状态；文字输出界面，用于显示语音辨识的文字结果，且该文字结果包括至少一个词单元。
2、如权利要求1所述的语音辨识系统，其特征在于，所述讯号指示界面上所显示的录音状态、语音辨识进行中状态以及语音辨识完成状态的波形分别以不同颜色显示。
3、如权利要求l所述的语音辨识系统，其特征在于，所述文字输出界面上语音辨识的文字结果的每一个词单元，是分别以不同颜色代表每一个词单元的语音辨识品质。
4、如权利要求3所述的语音辨识系统，其特征在于，所述每一个词单元是以绿色、黄色或红色显示其中绿色表示有良好的语音辨识品质；黄色代表警告有不良的语音辨识品质；红色代表具有很差的语音辨识品质，需要严格检视并更正之。
5、如权利要求3所述的语音辨识系统，其特征在于，所述每一个词单元是与回馈调整选项组相连接；该选项组包含至少一个回馈调整选项，供使用者选取以更正语音辨识的错误，或回馈调整语音辨识系统。
6、如权利要求5所述的语音辨识系统，其特征在于，所述使用者是通过将显示与该显示装置上的一鼠标光标移动至欲回馈调整之词单元上，或经由触控笔或鼠标按压点击，而将该回馈调整选项组显示于该显示装置上。
7、如权利要求5所述的语音辨识系统，其特征在于，所述与该词单元相连接的回馈调整选项组所包含的回馈调整选项是"列出下一笔候选词"、"依据语音相似度优先列出语音辨识候选词"、"依据词相连优先列出候选词"、"列出全部近似辨识结果"、"改为手写输入"、"改为键盘输入"或以上任意组合。
8、如权利要求3或权利要求4任一项所述的语音辨识系统，其特征在于，所述讯号指示界面上语音辨识完成状态的波形还包括至少一个波形单元，每一波形单元是与文字输出界面所显示语音辨识结果的一个词单元相对应，且彼此是以相互对齐的方式排列，并以相同的颜色来表示该词单元的语音辨识品质。
9、如权利要求8所述的语音辨识系统，其特征在于，所述讯号指示界面上的波形单元是与回馈调整选项组相连接；该选项组包含至少一个回馈调整选项，供使用者重听录音，更正录音，更正语音辨识的错误，或回馈调整语音辨识系统。
10、如权利要求9所述的语音辨识系统，其特征在于，所述使用者是通过将显示在该显示装置上之一的鼠标光标移动至欲回馈调整之波形单元上，或经由触控笔或鼠标按压点击，而将该回馈调整选项组显示于该显示装置上。
11、如权利要求9所述的语音辨识系统，其特征在于，所述回馈l周整选项组所包含的回馈调整选项包括"播放"、"重录"、"纳入训练"、"改为手写输入"、 "改为键盘输入"或以上任意组合。
12、如权利要求1所述的语音辨识系统，其特征在于，所述系统是具有显示装置，或可连接其他显示装置，或在遥控器上具有显示装置的桌上型电脑、笔记型电脑、家用多媒体系统、电视、DVD、影音系统、手机或个人数位助理器。
13、如权利要求1所述的语音辨识系统，其特征在于，所述词单元是词，次词或是片语。
全文摘要
一种语音辨识系统，包括至少一语音辨识引擎以及一显示装置，且于该显示装置上设有一讯号指示界面以及一文字输出界面。其中，该讯号指示界面是借助波形以显示一录音状态、一语音辨识进行中状态、或一完成语音辨识的状态。而该文字输出界面，用于显示语音辨识的文字结果。其中，于讯号指示界面上每个波形单元以及于文字输出界面上每一个词单元则分别与一组回馈调整选项组相连接，供使用者选取指令，用以修正错误的辨识结果以及调整语音辨识系统。本发明适用于桌上型计算机、笔记型计算机、家用多媒体系统、电视、DVD、影音系统、手机或个人数字助理等有图形显示接口的电子装置之语音辨识系统。
文档编号G10L15/00GK101452700SQ200710077498
公开日2009年6月10日申请日期2007年11月30日优先权日2007年11月30日
发明者王瑞璋申请人:王瑞璋;王中平

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王瑞璋
技术所有人：王瑞璋;王中平
我是此专利的发明人

上一篇：一种利用网络提供语音辨识引擎的系统及其方法
上一篇：可会话的类生物装置及其会话方法