信息处理系统的制作方法

文档序号：2819798阅读：164来源：国知局

专利名称：信息处理系统的制作方法
技术领域：
本发明涉及一种信息处理系统，特别是一种具有多个数据输入设备的信息处理系统。
由计算机来完成的语音识别可通过将口呼字的声音模板与语音识别单元中存贮的一个或多个声音模板或模型相匹配来完成。在1983年4月的(无线电与电子工程师)The Radio and Electronic Engineer53卷第四期167～175页J.S.Bridle等写的一篇论文及1988年由J.N.Holmes著Van Nostrand Reinhold出版的发行号为ISBN-0-278-00013-4，的名为“语音合成与识别”一书中的第7章都讲述了声音模板的匹配原则。
众所周知的是通过一系列的特征向量来描述口呼字。组成字的每个音或音素可被分割成一些时间帧，在其上产生那个音，在每个时间帧中一些频带中的每一个上的声能都可以被测量出。于是得到的信息可以被表示为一个多维向量，每一维表示一个频带。该向量叫特征向量，每个特征向量表示该口呼字的一个时间片。
对于一个标准计算机系统来说，目前可得的一种语音识别系统是(Marconi语音系统MR8)Marconi Speech System MR8语音识别器，该系统通过RS232串行口与主机接口。提供软件用来从识别器获取输出并模拟键盘向该计算机上运行着的其它应用的输入。通常，语音识别系统表现出在一个字或一系列已被说出的字与识别器正在输出的对应于已识别字的一个标记之间的时间延迟。一种既从语音识别器又从键盘接收数据的计算机系统具有这样的缺点，当口呼输入发生在键盘输入之前时，已被说出的字与已被识别出的字之间的时延将会造成计算机在从识别器获得标记之前接收并执行了键盘输入。
本发明的一个目的是提供一种改进的信息处理系统。
本发明提供一种信息处理系统，它包括(a)多个数据输入装置，用来按一种数据输入顺序接收数据及对应地从中产生数据元素，至少有一个数据输入装置是用来接收声音数据的装置；以及(b)用来从数据输入装置获取数据元素并按一种数据输出顺序输出处理过的数据的处理装置。
其特征在于(i)该系统包括用来将每一个数据元素与至少一个各自的顺序标志联系起来的装置；以及(ii)处理装置包括用来根据每个数据元素的至少一个顺序标志来决定输出顺序的装置，使得数据输出顺序对应于数据输入顺序而与由不同输入装置产生的数据元素的不同处理装置时延无关。
本发明具有这样的优点，即来自多个来源的数据按原始输入顺序被提供，而与在后续数据处理过程中产生的不等延迟无关。这对于具有语音和非语音输入的信息处理系统尤其有益。
语音识别系统可以从口呼输入中确定特征向量并根据这些特征向量决定相应于已识别字或词汇的标记。在一个优选实施方案中，该系统包括用来接收口呼数据输入并由口呼数据输入决定特征向量的装置及有数据处理器用来决定依赖于口呼数据输入的已识别标记的装置。
在另一方面，本发明提供一种包括下列步骤的数据处理方法(a)按照一种数据输入顺序从多个输入源接收数据元素，其中至少一个输入源提供口呼原始数据的数据元素；(b)将每一个分别接收到的数据元素与一个顺序标志相联系；(c)通过将每个口呼原始数据元素与一个模型相匹配来产生表示口呼原始数据的数据元素的标记；以及(d)为已处理的数据元素序列建立一种数据输出顺序使得通过比较来自多个数据源的数据元素的顺序标志使数据输出顺序对应于数据输入顺序而与不同的处理延迟无关。
在另一方面，本发明提供一种信息处理系统，它包括(a)设置以一种数据输入顺序来提供数据元素的多个数据输入装置，以及(b)设置用来接收数据元素并按照相应于数据输入顺序的输出顺序产生已处理数据元素的输出的处理装置。
其特征在于设置该处理装置，以一种取决于提供该数据元素的数据输入装置的可变处理时间间隔来处理每一个数据元素，并且该处理装置提供将一个时间标记与每一个数据元素联系起来的装置及通过比较不同的已处理数据元素的时间标记来决定输出顺序的装置。
在另一方面，本发明提供一种信息处理系统，它包括(a)用来产生控制信号的处理装置(24，24)；以及(b)用来接收输入数据并相应于此为处理装置(24，25)提供输入数据信号的多个数据输入装置(26，28，30)。
其特征在于该处理装置包括(i)用来给每一个输入数据信号附着一个表示由输入数据信号表示的输入数据被接收的相对时间的标记信号的装置；以及(ii)用来排序控制信号，因而使得这些控制信号被安排成一种顺序的装置，该顺序对应于产生各自控制信号的数据输入信号被该系统接收的顺序。
本发明的实施方案现在将仅通过实例来说明，并参考附图，其中

图1，简要地图示说明了本发明的一种信息处理系统；图2，简要地图示说明了一种现有技术的语音识别系统；以及图3，更详细地说明了图1的系统。
参考图1，所示为本发明的一种信息处理系统10，该信息处理系统10被连到一个中央处理器20，该中央处理器被依次连到显示单元22该信息处理系统10包括一个时序控制器24及一个语音识别单25和多个数据输入设备。这些输入设备是一个键盘26，一个鼠标28及一个口呼输入设备30。口呼输入设备30包括一个麦克风32，该麦克风产生相应于已被系统10的操作员说出的字的电信号。这些电信号被口呼输入设备处理并传送到语音识别单元25。
该语音识别单元25继而输出一个表示该口呼数据的标记到时序控制器24。
因此系统10的操作员具有3种机制来向中央处理器20输入指令。这三个机制是(i)使用口呼输入(ii)使用键盘26输入指令及(iii)使用鼠标28连同显示单元22一起为运行在中央处理器20上的图形用户接口环境下的程序输入指令。口呼输入，键盘输入的指令以及用鼠标输入的指令被称作为数据元素。时序控制器保证各个输入设备输入的数据元素按与系统10中发生的数据输入顺序相同的正确的数据输出顺序传递到中央处理器20，这个顺序被称作为数据输入顺序。口呼源的数据包括系统10的操作员口呼的字。其它可能被输入到系统10的口呼输入形式包括记录的语音，广播语音及通过远程通讯系统传递的语音；也可以提供以电信号的形式将这些形式的口呼输入向系统10直接输入。
现在参考图2，该图表示了一种现有技术的语音识别系统50。在现有技术的系统50中，数据被一个中央处理器60直接从输入设备如键盘62，鼠标60及语音识别器66接收。数据由中央处理器60输出到显示单元68。该现有技术的系统50具有这样的缺点，即如果口呼输入被语音识别器66接收且键盘输入跟随在口呼输入之后，那么中央处理器60可能以相反的顺序接收指令。这点可能发生是因为在语音识别器66接收口呼输入与它向中央处理器60输出一个识别的标记之间将会有一个有限的延迟。在这段延迟期间，可能由键盘输入了指令并且该指令可能在对应于口呼输入的标记之前被该处理器接收。
如下是一个输入数据顺序颠倒的结果的倒子。使用者可能希望说出一些指令并用键盘输入数据。为了做到这一点，该使用者口呼出命令“新文件”，然后键入一些文字。尽管该使用者可以按正确顺序说出命令并开始键入文字，处理口呼命令的语音识别器中的延迟会造成在从语音识别器中接收到打开一个新文件的命令之前中央处理器60接收到键盘的输入。在这种情况下，键入的文字可能会丢失或加入到错误的文档中。为了得到正确的响应，使用者直到在键盘输入数据之前必须等待语音识别器已经输出了处理后的命令。这就存在了时间的浪费。
图3示出了一个更加详细的信息处理系统10的表述。口呼输入设备30包括麦克风32及一个模数(A/D)转换器100。电信号被从麦克风32传到A/D转换器100。该A/D转换器100以20KHz的采样频率将模拟输入信号转换为数字输出信号。该数字输出信号传送到数字信号处理器102。该数字处理器102是可从AT&T得到的处理器，其产品标识码为DSP32C。该数字处理器102被配置为一个滤波器组，用来计算27个频带中每一个频带的平均能量。如表1所示。
数字处理器102以100Hz的频率输出特征向量。特征向量是被J.N.Holmes描述的如前面提到的特征向量，并且是接收到的声音在多维空间中的频率-能量分布的一种表示。
这里，特征向量是27维空间的一个点，该27维对应于27个频率带，在这些频带中，从A/D转换器100得来的数字信号被处理。每一个口呼字可以被表示为一个单个特征向量或者一个特征向量序列。
除了从数字信号中提取特征向量，该数字处理器102保持一个时钟，该时钟产生顺序时间帧。该数字处理器给每一个特征向量加一对各自的，32位字形式的时间帧标志，或时戳，第一个时戳标识在其中各个特征向量开始的时间帧，第二个时戳标识在其中特征向量结束的时间帧。这对时戳唯一地标识与这对时戳相关联的特征向量涉及的时间帧，该时戳用来指示数据输入到系统的顺序。每个特征向量，连同与之相关联的时戳被传送到输入缓冲器104。当识别处理器106准备好接收数据并对这些数据运行识别程序时，它从输入缓冲104中接收数据。识别处理器106是一种具有辅助存储器的InmosTMT800超级处理器(transputer)。该识别程序是一种前面参考的Bridle等的论文中描述的连呼语音识别算法。这样一种程序是众所周知的那种，并且被擅长于计算机语音识别技术的许多人所实现。
识别程序以一些模型的方式分析一个序列的特征向量。模型可能涉及要识别的字或字符串，任何背景噪声的模型，或任何其它预期输入，如由说话者张开它们的嘴唇而产生的“嘴唇噼拍”的模型。每一个模型都与一个标记相联系。该标记是一字符序列，它唯一标识该模型并且在效果上为该模型的名字。识别程序决定每个特征向量与哪个模型相关联，并且因此每个模型的起始点和结束点都被检测。有关开始点和结束点的信息连同已识别的标记一起被识别处理器106输出到时序控制器24。
通过实例，对应于口呼输入“新文件”的识别处理器106的输出可以如表2中所示。
表2
标记“-”与一个背景房间噪声模型相关联。表2表明，认识器认为从时间帧1255到时间帧1256该操作员没有在说话。从时间帧1257到时间帧1297，操作员在说话，并且该口呼音被认为是由对应于字“文件”的标记最佳的表示。然后有一个无口呼输入四个时间帧的阶段，在其后跟随61个时间帧，其中字“新”被说出。表2中的每一行对应一个事件。
除了给特征向量提供时戳，数字信号处理器102使得时序控制器24可得一个时序信号。时序控制器24从识别处理器106，鼠标28及键盘26接收输入。任何键盘输入或鼠标28的运作也是一个事件。每一个事件都被时序控制器24给予一个时戳，时序控制器24有一个寄存器，它包含了从认识处理器106接收的最近事件的终点时间帧。时序控制器24在一个事件存储器中保持一个事件列表。事件在发生时被加入该列表并在它们不再需要时被删除。比较好的是将鼠标28产生的一定事件不要存贮在事件表中而是直接传给中央处理器60。如果相应于鼠标运动的事件没有一个在它之前的事件存贮在时序控制器中，它可以被直接地传送到中央处理器中。
时序控制器24的操作如下所述。时序控制器24具有一种监视键盘26和鼠标28的初始状态。当这些设备中的一个的状态发生任何变化时，比如按下一个键，时序控制器24记下该事件及从该设备接收到事件的时间帧并且将这个信息存入事件列表中。口呼输入因此在数字信号处理器102处获得一个时戳，而非口呼输入在时序控制器24处获得一个时戳。数据被按照数据输入顺序提供给系统10。与每一个各自的数据输入相关联的时戳可被用来决定该数据在数据输入序列中的顺序，因此可被看作为顺序标志。因此，通过时戳决定的数据输入顺序就是数字信号处理器102接收口呼数据及时序控制器24接收或者键盘输入或者鼠标输入数据的顺序。
时序控制器24按照从鼠标28和键盘26接收事件的顺序在事件列表中存贮这些事件和与它们各自相关联的时戳。当时序控制器24从识别处理器106获得事件时，它决定标记终点的时间帧。该时间帧被称作为最近时间(MRT)顺序标志。该MRT顺序标志对应于识别处理器106已经完成处理的最近语音输入的时戳。时序控制器24从事件列表中最早存入的事件开始，比较MRT顺序标志与所有存贮在事件列表中的键盘和鼠标输入事件的时戳。如果这些事件的发生比MRT顺序标志早，这些事件就被传送到中央处理器20，并被从事件列表中删除。当时序控制器24已经考虑过事件列表中存贮的每一个事件时，它检查来自识别处理器106的标记。如果该标记对应于一段沉默期或其它与中央处理器20无关的模型，则该标记被抛弃。如果来自识别处理器106的标记对应于一条命令或其它相关输入，该标记被传送到中央处理器20。时序控制器24然后返回初始状态。
利用前面说明的实例，时序控制器24可能会在对应于口呼命令“新文件”的标记被从识别处理器106接收之前接收键盘输入的文字。键盘数据为每一个键的输入获得一个时戳，并且这此事件被存贮在事件列表中。由于键盘输入事件的时戳晚于当时在寄存器中的时戳，它们不会被直接传送给中央处理器20。于是时序控制器24接收标记“文件”和“新”。只有在这些中的最后一个事件已经被传送给中央处理器20之后，时序控制器24才将存贮在存储器中的键盘输入数据传送给中央处理器20。时序控制器按数据输出顺序将数据传送给中央处理器。即使时序控制器有可能，比如说，以并不对应于数据输入顺序的顺序接收包括口呼输入和键盘输入的数据，数据输出顺序也直接地对应于数据输入顺序。
时序控制器24可以是一个独立于识别处理器106的处理器，它运行自己的单独的程序。优选的是，时序控制器24的操作被包括在控制识别处理器106操作的程序中。这样，识别处理器106和时序控制器24可以内置于超级处理器的操作程序中而不是成为分离的物理实体。
尽管描述了包括有一个语音识别器的信息处理系统，所涉及到的原理却可以扩展到并不包括声音输入设备的信息处理系统中。对于从不同输入设备得来的数据要求不同处理时间的系统，比如包含有手写体识别器的系统，以及可能从一个设备接收数据元素同时从另一个设备得来的数据元素正在被处理的系统，可以包括用来在数据元素输入到系统时给它们加上时戳的装置，以及通过比较已处理数据元素的时戳来决定一个正确的输出顺序的装置。该装置使得可以避免从不同输入设备得来的数据元素因不同的处理时间而产生问题。
权利要求
1.一种信息处理系统(10)包括(a)用来以一种数据输入顺序接收数据并相应于此产生数据元素的多个数据输入装置(36，28，30)，其中至少一个数据输入装置提供接收声音数据的装置；以及(b)用来从数据输入装置接收数据元素并按一种数据输出顺序输出已处理数据的处理装置(24，25，106)其特征在于(i)该系统包括用来将每一个数据元素与至少一个各自的顺序标志相关联的装置；以及(ii)该处理装置(24，25，106)包括装置(24)，用来根据每个数据元素的至少一个顺序标志来决定输出顺序，这样使得数据输出顺序对应于数据输入顺序而与由不同输入装置(26，28，30)产生的数据元素的不同处理装置延迟无关。
2.根据权利要求1的一种系统，其特征在于处理装置(24，25，106)包括识别装置(25，106)用来从声音数据输入装置(30)接收声音数据并相应于此产生表示该声音数据的标记。
3.根据权利要求2的一种系统，其特征在于声音数据元素是由声音数据输入装置根据口呼输入产生的特征向量，而且识别装置(25，106)被安排来比较特征向量与存贮的模型以产生表示该声音数据元素的标记。
4.根据权利要求3的一种系统，其特征在于用来将每一个数据元素与至少一个各自的顺序标志相联系的装置被安排来将每一个声音数据元素与两个顺序标志相联系，这两个顺序标志包括一个起始标志和一个终止标志，它们分别标识声音数据输入的开始时间和结束时间。
5.根据权利要求4的一种系统，其特征在于用来决定所说的数据输出顺序的装置(24)包括有用来存贮数据元素及它们各自的顺序标志的存贮装置，并且其中识别装置被安排来产生一个相应于被识别装置(25，106)处理的最近特征向量的终点标志的最近时间(MRT)顺序标志，以及用来决定所说的输出顺序的装置24被安排来接收MRT顺序标志并将MRT顺序标志与存贮在存贮装置中的数据元素的顺序标志相比较以决定输出顺序。
6.根据权利要求5的一种系统，其特征在于用来决定所说的输出顺序的装置(24)以及识别装置(25，106)都是已编程处理器。
7.根据权利要求3的一种系统，其特征在于用来决定所说的输出顺序的装置(24)及识别装置(25，106)以单个的已编程处理器的方式实现。
8.根据权利要求7的系统，其特征在于该系统被安排来进行以下步骤a)从至少一个输入设备为处理装置提供非声音数据元素，b)将非声音数据元素标上顺序标志，并将数据连同它的顺序标志存贮在一个事件列表中，c)提供给处理装置相应于口呼声音数据元素的特征向量，d)产生表示这些特征向量的标志，e)决定一个相应于标记的终点标志的最近时间(MRT)顺序标志，该标记对应于被识别装置处理的最近特征向量，f)比较MRT顺序标志和存贮在事件列表中的非口呼数据的顺序标志，g)判定存贮数据的顺序标志是否在MRT顺序标志之前，如果是，则将它们传送给中央处理器，以及h)当没有存贮的顺序标志在MRT标志之前叫时，将标记传送给中央处理器。
9.一种处理数据的方法包括以下步骤a)从多个输入源按一种数据输入顺序接收数据元素，其中至少一个输入源提供口呼源数据元素；b)将每一个分别接收的数据元素与一个顺序标志联系起来；c)通过匹配给每一个口呼源数据元素一个模型来产生表示这些口呼数据元素的标记；以及d)建立一种已处理数据元素序列的数据输出顺序，使得通过比较由多个数据源得来的数据元素的顺序标志使数据输出顺序对应于数据输入顺序而与不同处理延迟无关。
10.信息处理系统(10)包括a)被安排来按一种数据输入顺序提供数据元素的多个数据输入装置(26，28，30)，以及b)被安排来接收数据元素并按对应于数据输入顺序的数据输出顺序输出已处理数据元素的处理装置(24，25，106)，其特征在于处理装置(24，25，106)被安排来以一种依赖于提供该数据元素的数据输入装置的可变处理时间间隔来处理每一个数据元素，并且处理装置提供用来将一种时间标志与每个数据元素联系起来并比较不同处理的数据元素的时间标志以确定输出顺序的装置。
11.一种信息处理系统包括a)用来产生控制信号的处理装置(24，25)；以及b)用来接收输入数据并相应于此为处理装置(24，25)提供输入数据信号的多个数据输入装置(26，28，30)其特征在于处理装置包括i)用来附着给每一个输入数据信号一个标志信号的装置，该标志信号表示由输入数据信号表示的输入数据被接收的相对时间。ii)用来排序控制信号的装置，控制信号按一种对应于产生各自控制信号的数据输入信号被系统接收的顺序被排列。
全文摘要
一种以一个输入数据顺序来从键盘(26),鼠标(28)及口呼数据输入设备(30)接收输入数据的信息处理系统(10)。麦克风(32)将接收到的语音转换成电信号,该电信号被一个模数转换器(100)数字化。数字信号处理器(102)将数字信号转换成存贮在一个临时输入缓存器(104)中的多维向量。为了将该多维向量与语音模型相匹配,识别处理器(106)执行一个识别程序。为了使系统(10)以相应于输入数据顺序的输出顺序输出数据,每个数据输入获得一个时戳。时序控制器(24)保证只有当从键盘或鼠标两者之一接收的指令具有的时戳早于被识别处理器最近处理的数据的时戳时,这些指令才被输出。
文档编号G10L15/00GK1170472SQ95196890
公开日1998年1月14日申请日期1995年12月13日优先权日1994年12月19日
发明者K·M·庞廷, R·W·舍利斯申请人:英国国防部

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：K.M.庞廷;R.W.舍利斯
技术所有人：英国国防部
我是此专利的发明人