语音识别噪声消除系统和语音识别噪声消除方法

文档序号：2820787阅读：240来源：国知局

专利名称：语音识别噪声消除系统和语音识别噪声消除方法
技术领域：
本发明涉及一种语音识别噪声消除方案，更具体地涉及一种语音识别噪声消除系统和语音识别噪声消除方法，用以防止在识别语音时由于附近区域产生的噪声引起错误识别。
因为任何人都能借助于语音识别简直地使用计算机输入，近来其作为自然输入接口引起人们的关注。特别是随着多媒体时代的到来，作为人和计算机之间的连接点，人为接口的角色越来越显得重要。过去是用键盘，鼠标，触模面板和笔输入作为人向计算机传送信息的工具。除了在CRT上显示的字符以外，图形，彩色图象，语音，曲调等等，则被用来从计算机向人传送信息。因此，人为接口在不断地改进。
在人和计算机的自然对话当中，语音识别装置作为输入工具担任重要角色。
已知的在日本专利特开平59-034595中叙述的“语音识别处理系统”(以下称为相关技术)，可作为这种语音识别的一个例子。
根据该相关技术，语音识别经历下述过程对用专用话筒输入的语音信息和专用话筒的有声字的语音信息进行比较，而后者的模式已事先寄存在模式字典中。对输入过程中产生的噪声模式和模式字典中的噪声模式进行核对。最后，选择模式字典，这个字典所含的噪声模式最接近输入过程中产生的噪声模式。
因此，在常规语音识别噪声消除方法中，字典中的每个字型与输入语音比较的结果，以两者之间的差距表示，在所有字型中，差距最小的字被输出作为比较结果。
但是，当输入语音是附近区域的噪声时，而且当有一个字，它与寄存在字典中的字的比较结果是差距最小，这个字就会被错误地识别而作为识别结果输出。因此，有这种情况，尽管使用者没有说话，环境噪声却被识别，从而发生语音识别的差错。
因此，本发明的一个目的是提供一种语音识别噪声消除方案，它能抑制由噪声引起的识别差错，并且它的识别率较高。
为了达到上述目的，发明的一种语音识别噪声消除系统，包括字典，其中寄存针对待识别的字的多个字组；噪声字典，其中寄存接近有针对性的噪声的多个噪声字组。当语音识别结果是噪声字组中的一个字时，语音识别噪声消除系统判定输入语音是噪声。因此，语音识别结果不作为语音识别结果输出。当识别结果是字典中的一个字时，语音识别噪声消除系统判定输出语音是一个正常语音，并输出被识别语音的识别结果。
本发明的一种语音识别噪声消除系统包括语音输入部分，字典部分，标准模式储存部分，语音识别部分和语音识别输出部分。语音输入部分接收包括噪声在内的语音，并输出语音信号。字典部分储存针对待识别的语音的多个语音字组，和接近有针对性的噪声的多个噪声字组，并输出语音字组和噪声字组作为字典数据。标准模式储存部分储存语音标准模式并输出标准模式数据。语音识别部分根据字典数据和标准模式数据完成语音信号的语音识别，当语音信号被包含在语音字组之中时，输出语音识别数据作为识别结果，当语音信号被包含在噪声字组之中时，无识别结果输出。语音识别输出部分根据从语音识别部分输出的语音识别数据，输出语音识别结果。
字典部分包括语音字储存部分和噪声字储存部分，语音字储存部分用来储存针对待识别的字的多个语音字组，并将它们作为字数据输出，噪声字储存部分用来储存接近有针对性的噪声的多个噪声字组，并将它们作为噪声字数据输出。
一种用于消除语音识别噪声的发明方法包括下述步骤寄存针对待识别语音的多个语音字组；寄存接近将被识别的噪声的多个噪声字组；当识别结果是包含在噪声字组范围之内的一字时，判定输入语音是噪声；当识别结果是在语音字组之中的字时，判定输入语音是正常的语音。
字典部分包括一只读在储器，用来事先储存字数据和噪声字数据；和一随机存取存储器，用来储存输入语音中的字数据和噪声字数据。
语音输入部分、字典部分、标准模式储存部分、语音识别部分和语音识别输出部分是由微型计算机组成。
语音输入部分、字典部分、标准模式储存部分、语音识别部分和语音识别输出部分被集成为单片结构。
语音识别输出部分输出作为语音的语音识别数据。语音识别输出部分在CRT上输出作为显示数据的语音识别数据。语音识别输出部分传送和输出语音识别数据，作为通信数据。
发明的特点和其他目的，应用及其优点，从以下叙述和附图中将清晰地表现出来。

图1示出了本发明的第一实施例的方框图。
图2示出了语音识别噪声消除操作的流程图。
下面参看附图对本发明的一个实施例进行说明。
图1是一个方块图，它表示语音识别噪声消除系统的第一个实施例。如图1所示，语音识别噪声消除系统包括语音输入部分4，字典部分7，标准模式储存部分7，语音识别部分6和语音识别输出部分5。语音输入部分4接收使用语音识别系统的人的声音或近域产生的噪声，并输出语音信号8。字典部分1包括语音字储存部分2和噪声储存部分3，前者用于储存识别语音用的正常语音数据的语音字数据9，后者用于储存识别噪声的噪音字数据10，字典部分1还输出字典数据11。标准模式储存部分7输出标准模式数据12。语音识别部分6根据来自字典部分1的字典数据11和标准模式数据12，对输入的语音信号8进行识别，并输出语音识别数据13。收到语音识别数据13时，语音识别输出部分5就输出语音识别结果。
下面，参看图1对本发明实施例的操作做详细的说明。
将多个待识别和并在一次语音中产生的语音字寄存到字典部分1。字典部分1包括语音字储存部分2和噪声储存部分3，前者用于寄存识别正常语音的语音字数据9，后者用于寄存接近噪声的噪声字数据10。
语音字数据9是一组字，其中多个待识别的字被储存。与实际声音相同的字组寄存在字典部分1。噪声数据10是一组字，其中多个接近要消除噪声的噪声字被寄存。多个易于被错误识别的噪声字被寄存在噪声字储存部分3。以前曾被识别为噪声的字，以及寄存的来自语音环境的与语音字数据9类似的一些必要类型的字，作为噪声字储存。
例如，音节如“a”和“u”以及两个这样音节拼合的字如“aa”和“au”，最初作为语音字数据9寄存在语言字储存部分2。之后，真的噪声例如什么东西的声音，翻动纸页产生的声音和脚步声音被识别，结果被识别为噪声的字被收集起来，作为噪声字数据10被寄存到噪声储存部分3。
当语音识别的结果是在噪声字储存部分3中的一个字时，语音识别部分6将判定被识别的语音是噪声，且不输出识别结果。当语音识别的结果是在语音字储存部分2中的一个字时，语音识别部分6判定被识别的是正常语音，并输出语音识别数据13至语音识别输出部分5。
语音输入部分4通过CODEC(编解码器)和其他装置，把待识别的语音(声音)转换为数字数据语音信号8并输出。语音识别输出部分5输出由语音识别部分6作为语音输出的语音识别数据13。
如上所述，语音识别部分6利用字典数据11和标准模式数据12识别语音信号8的语音，把识别结果作为语音识别数据13输出到语音识别输出部分5。语音识别部分6检查语音信号8的识别结果是否为寄存在语音字储存部分2的正常语音字，或是寄存在噪声字储存部分3的噪声字。当识别结果是寄存在语音字储存部分2的正常语音字时，语音识别部分6将识别结果输出到语音识别输出部分5，作为语音识别的结果。当识别结果是寄存在噪声字储存部分3的噪声字时，语音识别部分6认为输入的语音为噪声，取消该语音识别结果，而不向语音识别输出部分5输出。
结果，主系统或某个利用语音识别输出部分5的结果的应用系统，将这个识别结果考虑为噪声而予以取消。
图2是表示语音识别噪声消除系统的操作流程图。下面参看图2说明从语音输入至识别结果输出的操作。
当在步骤S1输入语音时，在步骤S2，语音识别部分6根据字典部分1和标准模式储存部分7实现语音识别，并计算寄存在字典部分1的任一个字作为识别结果，。
接着，语音识别部分6在步骤S3判定所计算的识别结果是否被包含在字典部分1之中的语音字储存部分2，或者是包含在噪声字储存部分3。当识别结果是包含在语音字储存部分2的正常语音字时，在步骤S4语音识别部分6，把识别结果输出到语音识别输出部分5，作为语音识别的结果。另一方面，在步骤S3，当识别结果是包含在噪声字储存部分3中时，语音识别部分6不输出什么，过程返回到步骤S1，等待再输入语音。
字典部分1由ROM(只读储存器)和RAM(随机储存器)组成，ROM用于储存事先储存的语音字数据9和噪声字数据10，RAM可写入输入时的语音。标准模式储存部分7里面的标准模式是事先储存在ROM的。
语音输入部分4，语音识别输出部分5，字典部分1，标准模式储存部分7和语音识别部分6可以由微型计算机，门阵列，或由CPU(中心处理单元)，存储器和输入/输出即I/O组成的LSI(大规模集成电路)来集合组成。
应注意到语音识别输出部分5的输出可以是有声音的输出，显示在CRT(阴极射线管)屏幕上的输出，通过通信设备传送的数据输出和类似的输出。
如上所述，所发明的语音识别噪声消除系统，可将接近噪声的字事先寄存在字典中，能够判定由语音识别的识别结果是由语音或是由噪声引起的，从而能够抑制由噪声引起的识别差错和提高识别率。
虽然优选实施例已叙述如上，但对熟悉这种技术的人来说，在由后面的权利要求所说明的本发明的概念范围内是可以有变化的。
权利要求
1．一种语音识别噪声消除系统，其特征在于，包括用于寄存针对待识别的字的多个字组的字典，用来识别正常语音；和寄存接近有针对性的噪声的多个噪声字组的噪声字典，；当语音识别结果是噪声字组中的一个字时，所述语音识别噪声消除系统判定输入语音是噪声，所述系统没有作为识别结果的识别结果数据输出，当所述识别结果是所述字典中的一个字时，所述系统判定输入语音是一个正常语音，并输出被识别语音的识别结果。
2．一种语音识别噪声消除系统，其特征在于，包括用于输入包括噪声在内的语音和输出语音信号的语音输入部分，；字典部分，其储存针对语音的由语音字组组成的多个语音字组以便识别正常语音，并储存由噪声字组成的多个噪声字组以便识别接近目标噪声的噪音，所述的字典部分输出所述语音字组和所述噪声字组作为字典数据；标准模式储存部分，其储存语音标准模式以便输出标准模式数据；语音识别部分，其根据所述字典数据和所述标准模式数据用于识别所述语音信号，当所述语音信号被包含在所述语音字组之中时，输出语音识别数据作为识别结果，当所述语音信号被包含在所述噪声字组之中时，不输出识别结果；语音识别输出部分，其响应从所述语音识别部分输出的所述语音识别数据输出语音识别结果。
3．如权利要求2中的语音识别噪声消除系统，其特征在于，其中，所述字典部分包括用来储存针对待识别的字的多个语音字组，并将它们作为字数据输出的语音字储存部分；和用来储存接近有针对性的噪声的多个噪声字组，并将它们作为噪声字数据输出的噪声字储存部分。
4．一种用于消除语音识别噪声的方法，其特征在于包括下述步骤寄存由正常语音组成的多个语音字组，以便识别针对目标语音的那个语音；寄存由噪声字组成的噪声字组，用来识别所针对目标噪音的一噪声；根据所述语音字组和所述噪声字组识别输入语音；判断由语音识别所识别的结果是否为在所述噪声字组中的字；当所述识别结果是所述噪声字组中的字时，判定所述输入语音是噪声，并返回等待另一个语音被输入的状态；当识别结果是所述语音字组中的字时，判定所述输入语音是正常语音，并输出语音识别结果。
5．如权利要求3中的语音识别噪声消除系统，其特征在于，所述字典部分包括用来预先储存所述字数据和所述噪声字数据的只读存储器；和用来储存输入语音中的字数据和噪声字数据的随机存取存储器。
6．如权利要求2中的语音识别噪声消除系统，其特征在于，所述语音输入部分，所述字典部分，所述标准模式储存部分，所述语音识别和所述语音识别输出部分由微型计算机组成。
7．如权利要求2中的语音识别噪声消除系统，其特征在于，所述字典部分包括所述语音输入部分，所述字典部分，所述标准模式储存部分，所述语音识别部分和所述语音识别输出部分被集成为单片结构。
8．如权利要求2中的语音识别噪声消除系统，其特征在于，所述语音识别输出部分将所述语音识别数据作为一语音输出。
9．如权利要求2中的语音识别噪声消除系统，其特征在于，所述语音识别输出部分，以在CRT上显示数据的方式输出所述语音识别数据。
10．如权利要求2中的语音识别噪声消除系统，其特征在于，所述语音识别输出部分将所述语音识别数据作为通信数据输出。
全文摘要
语音输入部分,输入使用语音识别系统或在附近区域噪音环境下人的说话声音,并输出语音信号。字典部分,包括用来储存语音字数据的语音字储存部分和用来储存噪声字的噪声字储存部分,并输出字典数据。标准模式储存区,输出标准模式数据。语音识别部分,根据来自字典部分的字典数据和标准模式数据,完成语音的识别,并输出语音识别数据。接收到语音识别数据以后,语音识别输出部分输出语音识别结果。
文档编号G10L15/20GK1235332SQ9910350
公开日1999年11月17日申请日期1999年4月1日优先权日1998年4月2日
发明者塚田聪, 友冈靖夫申请人:日本电气株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：塚田聪;友冈靖夫
技术所有人：日本电气株式会社
我是此专利的发明人