触控辅助的实时语音识别系统及其同步解码方法

文档序号：2833097阅读：269来源：国知局

专利名称：触控辅助的实时语音识别系统及其同步解码方法
技术领域：
本发明涉及到语音识别、人机交互和移动计算等技术领域，尤其是一种有限硬件资源下实时的多模态信息辅助的语音识别技术。
背景技术：
语音是进行自然人机交互的重要模式之一。语音识别简单说就是机器把语音信号转化为对应文本信息的过程，这些文本信息可进一步用来理解用户意图。当前语音识别技术的性能易受说话人、环境噪声以及信道等因素变化的影响而急剧下降。尤其是在硬件资源有限的应用环境下，复杂的语音识别算法难以实施，其识别性能会进一步下降。
采用其他模式特征来辅助语音识别可以提高语音识别的鲁棒性和识别精度，是促进语音识别技术实用化的重要途径之一。这些辅助特征包括手写[CN1549244，CN101082836, CN1388434, US2004049388A1]、唇读[CN102023703A]、笔划[CN101377726,CN101488044]、点触[US2004049388A1，W02008109835A2]等。这些辅助模式特征的应用方式可分为如下几种I)在[CNl112252、US2004049388A1]中，系统独立采用两种模式的切换来进行文本的输入，语音和其他模式的识别是独立的，在一次输入中，只能使用其中一种模式特征的识别结果，因此严格说该方法并不能改善语音识别性能。这种方式的主要问题是同一时刻只能使用一种模式特征的识别结果，因此其识别性能并不能提高。2)在[CN1388434、CN101082836、CN1549244、CN101377726、CN102023703A]中，系统对两种模式分别进行独立的识别，然后通过融合两种识别结果来得到最终的识别结果。其一种融合方法为在两组识别结果中若有完全相同的部分则输出；否则采用的得分最高的部分。另外一种融合方法为首先识别一种模式特征，得到多个候选结果，然后再采用另外一种模式特征在候选结果中进行识别，得到最终结果。这种方式的主要问题是在识别过程中正确结果可能已经被丢弃，那么对识别结果上进行融合是无法找到正确结果的。另外，如果两种模式的识别是顺序的，那么输入速度必然会下降。3)在[US2004049388A1，W02008109835A2，CN1918578，CN101315666]中，系统首先采用一种模式特征进行文本输入，然后采用其他模式来修正输入文本中的错误。比较典型的方案是首先采用语音进行输入，对于语音识别结果中的错误单词，再采用手写识别或者点触软键盘来输入，该输入可以利用语音识别结果中的多候选信息。这种方式的主要问题是纠错会导致文本输入速度明显下降。尤其是，专利[US2004049388A1，W02008109835A2]公开了基于移动通信设备的语音识别输入技术。其技术特点是利用手写或者点触操作提供的辅助信息来对语音识别的结果进行修正，其手写或点触操作的识别过程和语音识别过程是离线的，不同步的，两者是不相关的。该技术实质上是对语音识别结果的一种后处理，本身并不能改善语音识别精度，也不能提高输入速度。综上所述，当前其他模态信息辅助的语音识别存在的主要问题是只针对识别结果进行后处理，由此导致1)计算复杂较高；2)输入速度明显下降；3)识别精度没有显著提高。因此，有必要开发一种在线语音识别过程中可实时利用其它模态信息辅助识别的技术，既可以提高语音识别的精度，又不影响输入速度，尤其是适用于移动通信设备的语音识别技术。

发明内容
本发明公开一种实时利用手指触控动作信息的在线语音识别系统及其同步解码方法。该系统在进行语音识别的过程中，可以同时采集用户手指在触摸屏上的点触和移动动作，然后在语音解码过程中实时利用这些动作信息来在线缩减和修正搜索空间，得到更准确的识别结果，并保持较高的识别速度。其关键特征为用户触控动作信息的使用在时间上和语音识别解码过程基本同步，并直接影响语音识别解码过程。本发明提供了一种触控辅助的实时语音识别系统，包括触控动作检测单元，用于实时检测用户的触控操作，如果有预先定义的触控动作发生，则抽取触控动作特征，该触控动作特征至少包括接触点位置坐标的时间序列，接触开始点时间和结束点时间；触控动作辨识单元，用于利用所述触控动作检测单元抽取的用户的触控动作特征对用户触控动作进行分类，得到该动作所表示的含义，输出表示该动作含义的特征向量；语音端点检测单元，用于实时检测语音信号的有效开始点和结束点，进而启动或停止语音特征提取单元；语音特征提取单元，用于实时提取语音信号的声学特征，该声学特征用于进行语音识别；语音/动作同步解码单元，用于实时利用用户触控动作信息，对语音特征进行在线同步解码，输出语音识别结果。本发明还提供了一种触控辅助的实时语音/动作同步解码方法，其特征在于在采用语音声学特征进行帧同步解码的过程中，可以实时利用用户触控操作信息对解码过程生成的候选搜索路径进行在线修正，直接影响解码过程，改善最终识别结果。该解码方法具体包括如下步骤第一步在当前时刻当前状态上，从所有可到达当前状态的前序状态中选择一个最优状态，把该状态上前一时刻的部分路径累计得分、到当前状态的状态转移概率、语言模型概率和当前相邻动作与其间语音单元的时间匹配得分累加作为当前时刻当前状态的部分路径累计得分，并记下所选择的最优前序状态。第二步获取一帧语音特征，计算每个状态上的声学观察概率，并累加到当前时刻该状态的部分路径累计得分中；第三步同时获取用户动作特征，计算当前状态上的动作观察概率，并累加到当前时刻当前状态的部分路径累计得分中；第四步在每个状态和时刻上重复上述过程，直至语音特征处理完毕，最后选择部分路径累计得分最高的状态通过回溯输出最优识别结果。上述触控辅助的实时语音识别系统中，用于实现用户动作的方式并不限于手指接触屏幕，任何其他可以接触触摸屏并可以被准确检测位置的方式都可以用来实现用户触控、动作。本发明所提出的触控辅助的实时语音识别系统，其特征在于多模态信息并不局限于触控辅助信息，其他可提供与触控动作类似辅助信息的模式以及支持和语音进行同步解码的语音识别技术都在本专利保护范围之内。技术效果触控辅助的实时语音识别系统及其同步解码方法能够提高语音识别的准确性，同时不会影响识别速度。同步利用触控操作信息的实时语音识别技术，可以改善语音输入方式的用户体验，提高用户满意度。技术优点触控辅助的实时语音识别系统及其同步解码方法相比其他技术具有如下优点
I)在语音解码过程中同步利用用户触控信息，可在线实时修正识别结果，语音解码结束后，即可获得准确性更高的识别结果；2)和利用触控信息的多遍解码技术相比，本系统和方法可获得更高的识别准确性，并且只需一遍解码，不影响识别速度；3)和利用触控操作对语音识别输出结果进行直接错误修正的技术相比，本系统和方法可提高语音输入效率，且具有较高的准确性和更好的用户体验。

图I是触控辅助的实时语音识别系统的框架结构简图；图2是触控辅助的实时语音/动作同步解码方法的流程图；图3是简单触控动作辅助的语音输入操作示意图；图4是利用动作表示汉语声调类型的触控辅助的语音输入操作示意图；图5是利用动作表示汉字第一个笔画的语音输入操作示意图；图6是利用点触软键盘动作表示汉字拼音第一个字母的语音输入操作示意图；图7是点触软键盘动作产生汉字拼音第一个字母的容错信息示意图；图8是用户触控动作生成表示特定语言信息的特征向量的示意图；图9是利用语音和动作信息进行同步解码的局部过程的示意图。
具体实施例方式下面结合图例，给出触控辅助的实时语音识别系统及其同步解码方法更详细的技术特征以及一些典型的实施案例。图I给出了触控辅助的实时同步语音识别系统的系统总体结构。触控辅助的实时同步语音识别系统主要由触控动作检测单元101、触控动作辨识单元102、语音端点检测单元103、语音特征提取单元104和语音/动作同步解码单元105组成。触控动作检测单元101 :该单元实时监测用户的触控操作，如果有预先定义的触控操作发生，则抽取触控动作特征。该特征至少包括接触点位置坐标的时间序列，接触开始点时间和结束点时间。所述的用户触控操作是指一次不间断接触触摸屏的操作。所述用户触控操作的输入和语音输入是基本同步的，并且每个动作在时间上对应于一个特定语音单元。所述特定语音单元包括但不限于音素、音节、词或者句子。典型地，在中文语音识别中，特定语音单元对应于音节或者词；在英文语音识别中，特定语音单元对应于词。本说明书后续内容中一般采用“词”作为基本语音单元。所述触控动作检测单元可以检测到用户手指接触和离开触摸屏的时间以及手指接触屏幕期间的每个位置坐标。从接触屏幕到离开的触点位置坐标形成一个时间序列。所述的接触点位置坐标的时间序列是一组由接触点位置组成的向量。所述用户动作是指用户手指和触摸屏接触期间的移动轨迹。一个用户动作定义为一个不间断的手指触控屏幕的移动轨迹。用户手指接触屏幕，表示一个用户动作的开始；用户手指离开屏幕，表示一个用户动作的结束。所述用户触控动作从形式上可分为点触动作和滑动动作。所述点触动作是指手指触控屏幕期间的位置不变，或者在给定阈值范围内变化；所述移动动作是指手指触控屏幕期间的接触点位置不断变化，其轨迹形成某种特定形状。触控动作辨识单元102 :该单元利用单元101抽取的用户触控动作特征对用户触控动作进行分类，得到该动作所表示的含义。所述动作辨识单元可以输出一个离散的语言或语音相关的符号，也可以输出一个连续的表示多个可能语言或语音相关的符号置信度的向量。此外，动作辨识单元还将输出用户动作发生的时间信息。典型地，所述动作辨识单元根据用户手指的移动轨迹来对用户动作进行分类，得到其类型。所述用户动作类型分为两大类一类是简单动作；另一类是抽象动作。简单动作是指用户点触屏幕，系统只提取点触时间信息的动作；抽象动作是指除时间信息之外，还具有特定含义的动作，比如表示特定的语言或语音相关的符号。所述抽象动作及其含义可通过两种途径来获取I)和屏幕位置相关的点触动作，点触屏幕特定位置，即表示特定含义。比如点触屏幕软键盘上的特定位置，该动作所表示的含义即为该位置所对应的特定符号。2)和触控移动轨迹相关的动作，这类动作的含义和该移动轨迹所形成的形状和顺序相关。此类动作一般需要通过模式识别技术来进行辨识，然后得到相应动作的含义。比如可以用触控动作来表示汉字的声调，也可以表示汉字的笔画等。典型地，所述动作辨识单元所确定的动作类型和预先定义的动作含义相对应。该动作含义可以代表某个/某些特定的语言或语音相关的符号。通过动作辨识单元可以得到动作所表示的某个/某些特定语言或语音相关的符号的置信度，该信息可作为语音同步解码中的用户动作特征。用户动作所代表的离散语言或语音相关的符号表示一个语言单元的某些属性，t匕如汉字的声调、汉字的第I个笔画、汉字拼音的第I个字母、英文单词的第I个字母等。但本专利所公开技术所支持的用户动作可表示的含义不仅限于上述类型。用户动作的含义也可以表示为一个特征向量，该向量可用来表示该用户动作可能代表的某些语言或语音相关的符号及其置信度。这主要针对用户动作辨识精度不高的情况，比如用户点触软键盘时，有操作误差，可能会同时触动多个按键。图8给出了一个用户通过触控动作输入汉字拼音首字母后动作辨识单元的输出结果的示例，用户触动软键盘输入汉字“触”的拼音首字母“C”，动作辨识单元将给出一个23维的置信度向量，该向量每一维对应一个拼音字母的置信度，该特征向量所有维之和应该等于I。如果当前动作所表示的字母是确定的，则只有该字母的置信度为1，其余字母的置信度为O，如图8(a)所示。这种情况下，上述用户动作其实就表示一个离散的语言或语音相关的符号。如果当前动作所表示的字母是不确定的，则可能有多个字母的置信度非零，如图8(b)所示，其中字母“c”的置信度最高，为0. 7，这意味着该用户动作的含义最有可能是输入“C”。特定地，用户动作也可以不代表任何语言含义，所述动作辨识单元仅提供用户触控动作发生的时间信息。上述动作辨识单元输出的离散符号或者连续向量以及触控动作发生的时间信息，都可作为一种特征，同步输入到同步解码单元，在线调整语音解码过程生成的多个候选结果的概率得分，并影响最终识别结果。本系统所述动作检测单元和动作辨识单元采用当前成熟的触摸屏控制技术和手写识别技术很容易实现。语音端点检测单元103 :该单元主要是检测用户语音信号的开始点和结束点。当检测到语音的开始点之后，音频采样数据才被送到后续的特征提取单元进行处理。当检测到语音的结束点之后，音频采样数停止发送到后续的特征提取单元，语音解码单元也停止工作。传统的语音端点检测方法一般是通过检测分析音频采样数据的能量、基频或谱特征，来发现语音信号的起始点和结束点。典型地，本发明所公开技术支持采用用户动作来标识语音的起始点和结束点。用户通过发出特定的触控动作来表示语音的起始和结束。特定的触控动作可以是触控屏幕上的特定位置；也可以是一个预定义的特殊的触控滑动轨迹。动作辨识单元在识别出该特定动作后，向语音端点检测单元发信号，表示语音的起始点或者结束点。语音特征提取单元104 :此单元从语音信号数据中抽取各种声学特征，这些特征刻画了不同语言单元的声学模式特点。典型的声学特征包括时域能量，Mel频率倒谱系数(MFCC)，感知线性预测(PLP)系数，基频等。该声学特征表示了语音的声学模式特点，用于后续的语音识别解码，尤其是和语音声学模型进行模式匹配。该声学特征可在线实时抽取，然后发送到同步解码单元进行识别。语音/动作同步解码单元105 :此单元采用触控辅助的实时语音同步解码方法对语音声学特征和用户动作特征进行实时同步解码来获得用户语音所对应的文本信息。具体来说，根据语音声学特征和用户动作特征在语言空间搜索一个概率得分最高的语言单元序列。所述同步解码是指采用帧同步Viterbi解码框架，在传统语音识别解码过程中实时利用用户动作信息，对语音解码得到的候选结果的概率得分进行修正，从而影响最终得到的识别结果。所述识别的最终结果的准确率将高于仅采用语音信息识别的结果。所述触控辅助的实时语音识别系统其特征在于所述语音/动作同步解码单元在传统帧同步viterbi解码过程中同时利用用户动作信息来辅助语音解码过程。此语音/动作同步解码过程可表示为下式
权利要求
1.一种触控辅助的实时语音识别系统，包括触控动作检测单元，用于实时检测用户的触控操作，如果有预先定义的触控操作发生，抽取触控动作特征，该触控动作特征至少包括接触点位置坐标的时间序列，触控开始点时间和结束点时间；触控动作辨识单元，用于利用所述触控动作检测单元抽取的用户触控动作特征对用户触控动作进行分类，得到该动作所表示的含义，输出表示该动作含义的特征向量；语音端点检测单元，用于实时检测语音信号的有效开始点和结束点，进而启动或停止语音特征提取单元；语音特征提取单元，用于实时提取语音信号的声学特征，该声学特征用于进行语音识别；语音/动作同步解码单元，用于实时利用用户触控动作信息，对语音特征进行在线同步解码，输出语音识别结果。
2.如权利要求I所述的触控辅助的实时语音识别系统，其中用户触控动作的输入和语音输入是实时同步的，并且每个动作在时间上对应于一个特定语音单元；所述特定语音单元包括但不限于音素、音节、词或者句子等。
所述用户触控动作是指用户手指和触摸屏接触期间的移动轨迹。
3.如权利要求I所述的触控辅助的实时语音识别系统，其中所述动作检测单元可以检测到用户手指接触利离开触摸屏的时间以及手指接触屏幕期间的每个位置坐标，从接触屏幕到离开的触点位置坐标形成一个时间序列。
4.如权利要求I所述的触控辅助的实时语音识别系统，其中所述动作辨识单元根据用户手指触控位置或移动轨迹来判断用户动作所表示的含义，通常为用户动作所表示的若干语言或语音相关的符号。
5.如权利要求4所述的触控辅助的实时语音识别系统，其特征在于所述动作辨识单元所输出的用户动作的含义通常表示为若干特定语言或语音相关的符号的置信度向量。
6.如权利要求I所述的触控辅助的实时语音识别系统，其中所述语音端点检测单元可以采用用户触控动作来实现语音端点的实时检测，主要包括首先定义特定的用户触控动作来表示语音起始点和结束点，然后通过检测预定义的用户触控动作来标识用户语音的开始点和结束点。
7.如权利要求I所述的触控辅助的实时语音识别系统，其中所述语音/动作同步解码单元的语音/动作同步解码的过程可用下述公式实现W = arg max[a log P{0 \W)-{- log P(W) + y log P{A | W, 0)] 其中S表示所有所有可能的词串集合，0 = [O1, . . . , Ot]表示声学观察序列，A =[ai，...，aT]表示观察到的用户动作特征序列，P(0 |ff)表示给定词串W产生声学观察0的概率，P(W)表示词串W出现的概率，P(Al W，0)表示给定词串W和声学观察序列0产生用户动作序列A的概率，a、P和Y分别为声学模型概率、语言模型概率和用户动作概率的权重。
8.如权利要求7所述的触控辅助的实时语音识别系统，其中所述语音/动作同步解码单元的关键特征在于语音解码过程中弓I入的概率P (AI W，0)，且其具体形式必须满足如下条件 1)可以描述用户动作含义与给定词串序列在语言上的相似度； 2)可以描述用户动作与用户语音单元在时间上的相关度。
9.一种用于权利要求I所述的触控辅助的实时语音识别系统的实时语音/动作同步解码方法，其特征在于在采用语音声学特征进行帧同步解码的过程中，实时利用用户触控操作信息对解码过程生成的候选搜索路径进行在线修正，该方法具体包括如下步骤第一步在当前时刻当前状态上，从所有可到达当前状态的前序状态中选择一个最优状态，把该状态上前一时刻的部分路径累计得分、到当前状态的状态转移概率、语言模型概率和当前相邻动作与其间语音单元的时间匹配得分累加作为当前时刻当前状态的部分路径累计得分，并记下所选择的最优前序状态；第二步获取一帧语音特征，计算当前状态上的声学观察概率，并累加到当前时刻当前状态的部分路径累计得分中；第三步同时获取用户动作特征，计算当前状态上的动作观察概率，并累加到当前时刻当前状态的部分路径累计得分中；第四步在每个状态和时刻上重复上述过程，直至语音特征处理完毕，最后选择部分路径累计得分最高的状态，通过回溯输出最优识别结果。
10.如权利要求9所述的实时语音/动作同步解码方法，其中第一步选择最优前序状态的基本准则是该状态的部分路径累计得分、到当前状态的状态转移概率、语言模型概率和当前相邻动作与其间语音单元的时间匹配得分之和最大，具体包括如下步骤 I. I获得每个前序状态的部分路径累计得分，并分别累加从该状态到当前状态的转移概率； I. 2在每个前序状态的部分路径累计得分上累加语言模型概率； I.3如果在当前时刻有用户触控动作发生，则计算相邻动作与其间可到达当前状态的每个部分路径上的语音单元的时间匹配得分，并分别累加到上述得分中，典型计算公式如下
11.如权利要求10所述的实时语音/动作同步解码方法，其中在实时语音/动作同步解码过程中为每个部分路径添加一个计数标记位来存储从上一个动作到当前动作之间该路径上出现语音单元跳转的次数cn，具体步骤如下步骤a，初始化每个搜索路径上的计数标记位为0 ; 步骤b，如果搜索路径上出现从一个语音单元到一个语音单元的状态跳转，则其上的计数标记位自动加I ; 步骤C，在接收到一个用户触控动作时，如果搜索路径的计数标记位为0，则设置Cn为一个非I的预设值；否则设置Cn为该计数标记位的值；步骤d，计算当前时刻当前状态上相邻用户动作与其间出现的语音单元序列之间的时间匹配得分；步骤e，重置每个搜索路径的计数标记位为O，跳转到步骤b。
全文摘要
本发明提供一种触控辅助的实时语音识别系统及其实时语音/动作同步解码方法，其中该系统包括触控动作检测单元，用于实时监测用户的触控操作，如果有预先定义的触控动作发生，抽取触控动作特征，该触控动作特征至少包括接触点位置坐标的时间序列，接触开始点时间和结束点时间；触控动作辨识单元，用于利用所述触控动作检测单元抽取的用户的触控动作特征对用户触控动作进行分类，得到该动作所表示的含义；语音端点检测单元，用于实时检测语音信号的有效开始点和结束点，用于启动和停止语音特征提取模块；语音特征提取单元，用于实时提取语音信号的声学特征，该声学特征用于进行语音识别；语音/动作同步解码单元，用于实时利用用户触控动作信息，对语音特征进行在线同步解码，输出语音识别结果。
文档编号G10L15/22GK102708862SQ20121012729
公开日2012年10月3日申请日期2012年4月27日优先权日2012年4月27日
发明者俞凯, 王欢良申请人:苏州思必驰信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：俞凯;王欢良
技术所有人：苏州思必驰信息科技有限公司
我是此专利的发明人

上一篇：处理立体声音频信号的制作方法
上一篇：基于支撑向量机的基带时域音频信号分类方法