语音识别方法

文档序号：2821179阅读：175来源：国知局

专利名称：语音识别方法
技术领域：
本发明有关一种语音识别方法，尤指一种用于人机界面的语音识别方法。
(2)背景技术语音是人与人之间最自然便利的沟通工具，利用语音识别的技术来作人与机器沟通的界面也持续的在发展中，但是受限于以传统方式进行语音识别在目前尚无法达到百分的百的正确率，使得以语音识别系统来作人机界面上的应用一直无法普及。
请参阅图1，其为一种传统的语音识别系统示意图。其中，语音识别系统101包括一个语音识别引擎102与一个结果判断机制103，使用者的声音可视为一个语音信号，在其经过语音识别引擎102后，找出最佳的识别结果进入结果判断机制103，当这个识别结果的分数大于一个预设的门槛值(Threshold)时，系统即接受并输出这个识别结果，反之若识别结果的分数小于预设的门槛值，则这个结果便会被认为不可靠而被拒绝。结果判断机制103的好处在于过滤不可靠的结果，加强识别结果的可信度，但是对于某些情况，例如口音比较重或是咬字比较不清楚的情形，则常会发生在语音识别引擎所选出的的最佳结果，其在结果判断机制103中被拒绝而没有任何结果输出；此时使用者的习惯常常为再说一次或数次，但是在相同的语音识别系统101下往往还是被拒绝。这样的语音识别系统101虽然提高了识别结果的可靠度，却降低了系统的可用性。
(3)发明内容本发明的主要目的是设计一种语音识别方法，其是利用一个人对机器下语音指令时，如果第一次无法被接受，通常会以同样的语音指令再说一次或数次这种重复输入语音指令的使用习惯，使得连续两次或数次被拒绝的结果能通过本发明的语音识别方法作适当的补救，以提高语音识别系统的正确率。
根据本发明的构想，提出一种语音识别方法，包括下列步骤(a)于一第一时间提供一第一语音信号，并相应该第一语音信号产生一第一候选词及一第一识别分数；(b)判断该第一识别分数是否大于一第一门槛值，若否，则进行步骤(c)；(c)判断该第一识别分数是否大于一第二门槛值，若是，则储存该第一语音信号，并进行步骤(d)；(d)于一第二时间提供一第二语音信号，并相应该第二语音信号产生一第二候选词及一第二识别分数；(e)判断该第二识别分数是否大于该第一门槛值，若否，则进行步骤(f)；(f)判断该第二识别分数是否大于该第二门槛值，若是，则进行步骤(g)；(g)判断下列二种情况是否同时成立，(g1)该第二时间减去该第一时间所得结果小于一时间额定值；以及(g2)该第二候选词与该第一候选词相同；若是，则进行步骤(h)；(h)取出已储存的该第一语音信号并将其与该第二语音信号作比对，以产生一比对分数；以及(i)判断该比对分数是否大于一第三门槛值，若是，则输出该第一候选词。
根据上述构想，其中该第一门槛值大于该第二门槛值。
根据上述构想，其中该第一语音信号与该第二语音信号的内容完全相同。
根据上述构想，其中步骤(b)还包括另一步骤若该第一识别分数大于该第一门槛值，则输出该第一候选词。
根据上述构想，其中步骤(c)还包括另一步骤若该第一识别分数并非大于该第二门槛值，则结束该语音识别方法。
根据上述构想，其中步骤(e)还包括另一步骤若该第二识别分数大于该第一门槛值，则清除已储存的该第一语音信号并输出该第二候选词。
根据上述构想，其中步骤(f)还包括另一步骤若该第二识别分数并非大于该第二门槛值，则结束该语音识别方法。
根据上述构想，其中步骤(g)还包括另一步骤若(g1)与(g2)二种情况并非同时成立，则清除已储存的该第一语音信号，并储存该第二语音信号，且于一第三时间提供一第三语音信号，再利用该第二语音信号及该第三语音信号重复步骤(d)～(g)。
根据上述构想，其中该第一语音信号、该第二语音信号及该第三语音信号的内容完全相同。
根据上述构想，其中步骤(h)将该第一语音信号及该第二语音信号作比对所采用的方式是包括但不限于隐藏式马可夫模型(Hidden Markov Model)、动态时域比对法(Dynamic Time Warping)、以及类神经网络(Neutral Network)。
根据上述构想，其中步骤(i)还包括下列步骤其中之一(i1)若该比对分数并非大于该第三门槛值，则结束该语音识别方法；以及(i2)若该比对分数并非大于该第三门槛值，则清除已储存的该第一语音信号，并储存该第二语音信号，且于一第四时间提供一第四语音信号，再利用该第二语音信号及该第四语音信号重复步骤(d)～(i)。
根据上述构想，其中步骤(i2)中的该第一语音信号、该第二语音信号及该第四语音信号的内容完全相同。
根据本发明的另一构想，提出一种语音识别方法，包括下列步骤(a)于一第一时间提供一第一语音信号，并相应该第一语音信号产生一第一候选词及一第一识别分数；(b)判断该第一识别分数是否大于一第一门槛值，若否，则进行步骤(c)；(c)判断该第一识别分数是否大于一第二门槛值，若是，则储存该第一语音信号，并进行步骤(d)；(d)于一第二时间提供一第二语音信号，并相应该第二语音信号产生一第二候选词及一第二识别分数；(e)判断该第二识别分数是否大于该第一门槛值，若否，则进行步骤(f)；(f)判断该第二识别分数是否大于该第二门槛值，若是，则进行步骤(g)；(g)判断下列二种情况是否同时成立，(g1)该第二时间减去该第一时间所得结果小于一时间额定值；以及(g2)该第二候选词与该第一候选词相同；若是，则进行步骤(h)；(h)取出已储存的该第一语音信号并将其与该第二语音信号作比对，以产生一第一比对分数；以及(i)判断该第一比对分数是否大于一第三门槛值，若否，则储存该第二语音信号，并进行步骤(j)；(j)于一第三时间提供一第三语音信号，再利用该第二语音信号及该第三语音信号重复步骤(d)～(g)；(k)取出已储存的该第一语音信号及该第二语音信号，并将其与该第三语音信号作交叉比对，以产生一第二比对分数；(l)判断该第二比对分数是否大于该第三门槛值，若是，则输出该第一候选词。
根据上述构想，其中该第一门槛值大于该第二门槛值。
根据上述构想，其中该第一语音信号、该第二语音信号与该第三语音信号的内容完全相同。
根据上述构想，其中步骤(b)还包括另一步骤若该第一识别分数大于该第一门槛值，则输出该第一候选词。
根据上述构想，其中步骤(c)还包括另一步骤若该第一识别分数并非大于该第二门槛值，则结束该语音识别方法。
根据上述构想，其中步骤(e)还包括另一步骤若该第二识别分数大于该第一门槛值，则清除已储存的该第一语音信号并输出该第二候选词。
根据上述构想，其中步骤(f)还包括另一步骤若该第二识别分数并非大于该第二门槛值，则结束该语音识别方法。
根据上述构想，其中步骤(g)还包括另一步骤若(g1)与(g2)二种情况并非同时成立，则清除已储存的该第一语音信号，并储存该第二语音信号，且于一第四时间提供一第四语音信号，再利用该第二语音信号及该第四语音信号重复步骤(d)～(g)。
根据上述构想，其中该第一语音信号、该第二语音信号及该第四语音信号的内容完全相同。
根据上述构想，其中步骤(h)将该第一语音信号及该第二语音信号作比对是所采用的方式是包括但不限于隐藏式马可夫模型(Hidden Markov Model)、动态时域比对法(Dynamic Time Warping)、以及类神经网络(Neutral Network)。
根据上述构想，其中步骤(i)还包括另一步骤若该第一比对分数大于该第三门槛值，则输出该第一候选词。
根据上述构想，其中步骤(k)将该第一语音信号、该第二语音信号及该第三语音信号作交叉比对所采用的方式是包括但不限于隐藏式马可夫模型(Hidden Markov Model)、动态时域比对法(Dynamic Time Warping)以及类神经网络(Neutral Network)。
根据上述构想，其中步骤(l)还包括另一步骤若该第二比对分数并非大于该第三门槛值，则结束该语音识别方法。
为进一步说明本发明的上述目的、结构特点和效果，以下将结合附图对本发明进行详细的描述。
(4)

图1是一种传统的语音识别系统示意图；图2是本发明语音识别系统一较佳实施例的方块图；以及图3是图2的再确认机制的流程图。
(5)具体实施方式
请参阅图2，其为本发明语音识别系统一较佳实施例的方块图。前半段和传统技术相同，当使用者于一第一时间t1发出一第一语音信号时，语音识别系统201则相应该第一语音信号产生一第一候选词及一第一识别分数，此时语音识别系统201即判断该第一识别分数是否大于语音识别系统201内预设的一第一门槛值，若是，则语音识别系统201及输出该第一候选词，而本发明的重点在于，若否，则语音识别系统201会将该第一语音信号储存于一记忆体(图3的302)中，等待使用者会因第一语音信号不为语音识别系统201所接受、而再将该第一语音信号再重复一次的机会进行再确认。本发明所提出的语音识别系统即在于利用使用者会在所发出的该第一语音信号不为系统所接受、而再下一次语音指令的习惯，于传统的语音识别功能上再加上一个再确认机制203，在不降低语音识别系统可靠度的条件的下，提高语音识别系统的可用性与正确率。
当使用者于一第二时间t2再次发出与该第一语音信号的内容完全相同的一第二语音信号时，语音识别系统201则相应该第二语音信号产生一第二候选词及一第二识别分数，此时语音识别系统201即判断该第二识别分数是否该第一门槛值，若是，则语音识别系统201会清除已经储存于存储器(图3的302)当中的该第一语音信号、并毫无疑问地输出该第二候选词，若否，则进入再确认机制203，如图2所示。
请参阅图3，其为图2的再确认机制203的运作流程示意图，除了在原来语音识别系统201的该第一门槛值外，还增加了二个新的门槛值一第二门槛值及一第三门槛值。其中，该第二门槛值为一个比该第一门槛值还小的门槛值，目的是维持识别结果仍有一定的可靠度。
在图3中，当该第二识别分数小于该第一门槛值时，再确认机制203会将该第二识别分数与该第二门槛值再作一比较，如果这个分数并非大于该第二门槛值，则语音识别系统201不会输出任何信息；相反地，倘若该第二识别分数小于该第一门槛值且大于该第二门槛值，此时语音识别系统201便认为是使用者重复下了同一个指令，此时语音识别系统201会判断该第一语音信号及该第二语音信号是否符合下列二种情况(1)该第一时间及该第二时间之间的时间差(t2-t1)是否小于一预设的时间额定值T；以及(2)该第一候选词及该第二候选词是否相同。
倘若(1)与(2)两种情况并未同时成立，则语音识别系统201不会输出任何信息；相反地，倘若(1)与(2)两种情况同时成立，则语音识别系统201即认为二次的语音信号输入皆为同一个指令，此时语音识别系统201会将二个语音信号输入一样本比对模块(Template matching)303作一比对，其中样本比对模块303所采用的比对的方法包括隐藏式马可夫模型(Hidden MarkovModel)、动态时域比对法(Dynamic Time Warping)或是类神经网络(NeuralNetwork)等其他业界常用的比对方法。
在样本比对模块303之后，又设了一第三门槛值来作辨认结果可靠度的确认，该第一语音信号及该第二语音信号比对的结果会产生一比对分数，该比对分数若是大于该第三门槛值，表示使用者两次都输入了相同的语音指令，可能因为口音等因素导致语音识别系统201的可靠度不够高而没有被接受，但是经由本发明再确认机制203认为是个可被接受的辨认结果，因此系统输出原来最佳候选的结果，就是该第一候选词；反之则语音识别系统201就拒绝输出。
另外，我们也可以扩大这个再确认机制203成多重输入的再确认，例如(a)在前述(1)与(2)两种情况并未同时成立时，语音识别系统201并不是直接拒绝输出，而是清除已储存的该第一语音信号，并储存该第二语音信号，再等待使用者于一第三时间所发出的一第三语音信号(与该第一语音信号及该第二语音信号的内容完全相同)，再利用该第二语音信号及该第三语音信号重复再确认机制203；(b)当经由样本比对模块303所产生的该比对分数并非大于该第三门槛值时，语音识别系统201也不是直接拒绝输出，而是同时储存该第一语音信号及该第二语音信号，等待使用者于一第四时间所发出的一第四语音信号(与该第一语音信号及该第二语音信号的内容完全相同)输入时，在样本比对模块303作交叉比对，并决定所产生的一第二对比分数是否大于该第三门槛值，以决定输出值。
综上所述，本发明是变更传统的语音识别的流程，利用当没有语音识别结果输出时，使用者常会再说一次或者数次的使用习惯，在「结果判断机制」之后加入一个「再确认机制」，使得连续两次或甚至是数次被拒绝的结果能通过本发明的语音识别系统的运作方式得到补救，以提高人机界面在语音识别系统方面的正确率及可用性。
虽然本发明已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，在没有脱离本发明精神的情况下还可作出各种等效的变化和修改，因此，只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本发明权利要求书的范围内。
权利要求
1.一种语音识别方法，包括下列步骤(a)于一第一时间提供一第一语音信号，并相应该第一语音信号产生一第一候选词及一第一识别分数；(b)判断该第一识别分数是否大于一第一门槛值，若否，则进行步骤(c)；(c)判断该第一识别分数是否大于一第二门槛值，若是，则储存该第一语音信号，并进行步骤(d)；(d)于一第二时间提供一第二语音信号，并相应该第二语音信号产生一第二候选词及一第二识别分数；(e)判断该第二识别分数是否大于该第一门槛值，若否，则进行步骤(f)；(f)判断该第二识别分数是否大于该第二门槛值，若是，则进行步骤(g)；(g)判断下列二种情况是否同时成立，(g1)该第二时间减去该第一时间所得结果小于一时间额定值；以及(g2)该第二候选词与该第一候选词相同；若是，则进行步骤(h)；(h)取出已储存的该第一语音信号并将其与该第二语音信号作比对，以产生一比对分数；以及(i)判断该比对分数是否大于一第三门槛值，若是，则输出该第一候选词。
2.如权利要求1所述的语音识别方法，其特征在于该第一门槛值大于该第二门槛值；及/或该第一语音信号与该第二语音信号的内容完全相同。
3.如权利要求1所述的语音识别方法，其特征在于步骤(b)还包括另一步骤若该第一识别分数大于该第一门槛值，则输出该第一候选词。
4.如权利要求1所述的语音识别方法，其特征在于步骤(c)还包括另一步骤若该第一识别分数并非大于该第二门槛值，则结束该语音识别方法。
5.如权利要求1所述的语音识别方法，其特征在于步骤(e)还包括另一步骤若该第二识别分数大于该第一门槛值，则清除已储存的该第一语音信号并输出该第二候选词。
6.如权利要求1所述的语音识别方法，其特征在于步骤(f)还包括另一步骤若该第二识别分数并非大于该第二门槛值，则结束该语音识别方法。
7.如权利要求1所述的语音识别方法，其特征在于步骤(g)还包括另一步骤若(g1)与(g2)二种情况并非同时成立，则清除已储存的该第一语音信号，并储存该第二语音信号，且于一第三时间提供一第三语音信号，再利用该第二语音信号及该第三语音信号重复步骤(d)～(g)，其中该第一语音信号、该第二语音信号及该第三语音信号的内容完全相同。
8.如权利要求1所述的语音识别方法，其特征在于步骤(h)将该第一语音信号及该第二语音信号作比对所采用的方式是包括但不限于隐藏式马可夫模型、动态时域比对法以及类神经网络。
9.如权利要求1所述的语音识别方法，其特征在于步骤(i)还包括下列步骤其中之一(i1)若该比对分数并非大于该第三门槛值，则结束该语音识别方法；以及(i2)若该比对分数并非大于该第三门槛值，则清除已储存的该第一语音信号，并储存该第二语音信号，且于一第四时间提供一第四语音信号，再利用该第二语音信号及该第四语音信号重复步骤(d)～(i)，其中步骤(i2)中的该第一语音信号、该第二语音信号及该第四语音信号的内容完全相同。
10.一种语音识别方法，包括下列步骤(a)于一第一时间提供一第一语音信号，并相应该第一语音信号产生一第一候选词及一第一识别分数；(b)判断该第一识别分数是否大于一第一门槛值，若否，则进行步骤(c)；(c)判断该第一识别分数是否大于一第二门槛值，若是，则储存该第一语音信号，并进行步骤(d)；(d)于一第二时间提供一第二语音信号，并相应该第二语音信号产生一第二候选词及一第二识别分数；(e)判断该第二识别分数是否大于该第一门槛值，若否，则进行步骤(f)；(f)判断该第二识别分数是否大于该第二门槛值，若是，则进行步骤(g)；(g)判断下列二种情况是否同时成立，(g1)该第二时间减去该第一时间所得结果小于一时间额定值；以及(g2)该第二候选词与该第一候选词相同；若是，则进行步骤(h)；(h)取出已储存的该第一语音信号并将其与该第二语音信号作比对，以产生一第一比对分数；以及(i)判断该第一比对分数是否大于一第三门槛值，若否，则储存该第二语音信号，并进行步骤(j)；(j)于一第三时间提供一第三语音信号，再利用该第二语音信号及该第三语音信号重复步骤(d)～(g)；(k)取出已储存的该第一语音信号及该第二语音信号，并将其与该第三语音信号作交叉比对，以产生一第二比对分数；(l)判断该第二比对分数是否大于该第三门槛值，若是，则输出该第一候选词。
11.如权利要求10所述的语音识别方法，其特征在于步骤(i)还包括另一步骤若该第一比对分数大于该第三门槛值，则输出该第一候选词。
12.如权利要求10所述的语音识别方法，其特征在于步骤(k)将该第一语音信号、该第二语音信号及该第三语音信号作交叉比对所采用的方式是包括但不限于隐藏式马可夫模型、动态时域比对法以及类神经网络。
13.如权利要求10所述的语音识别方法，其特征在于步骤(1)还包括另一步骤若该第二比对分数并非大于该第三门槛值，则结束该语音识别方法。
全文摘要
本发明是指一种语音识别方法，其是利用一个人对机器下语音指令时，如果第一次无法被接受，通常会以同样的语音指令再说一次或数次这种重复输入语音指令的使用习惯，使得连续两次或数次被拒绝的结果能通过本发明的语音识别方法作适当的补救，以提高语音识别系统的正确率。
文档编号G10L15/00GK1612208SQ200310104669
公开日2005年5月4日申请日期2003年10月30日优先权日2003年10月30日
发明者沈家麟申请人:台达电子工业股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沈家麟
技术所有人：台达电子工业股份有限公司
我是此专利的发明人

上一篇：依照语音查询单词的系统及方法
上一篇：音阶表音发音装置及报时钟的制作方法