用于自动语音识别系统的自适应语境的制作方法

文档序号：2837516阅读：320来源：国知局

专利名称：用于自动语音识别系统的自适应语境的制作方法
技术领域：
本发明涉及通信系统，更具体地，涉及改善语音识别的系统。

背景技术：
某些语音识别系统通过交换与应用进行交互。这些系统理解有限数量的口头请求和命令。由于存在多种语音模式、说话者口音和应用环境，某些语音识别系统不一定总是能识别出用户的语音。某些系统试图通过在使用前要求用户朗读多个单词和句子来训练系统，将错误减到最少。其它系统在系统的使用过程中自适应调整它们的语音模型。由于存在多种可以得到请求和命令的方法，语音识别系统的开发者必须生成初始的识别语法。
尽管有这种编程方法，某些系统仍不能有效地自适应调整可获得的语境信息。因此，存在着对于可改善语音识别的系统的需要。

发明内容
一种改善语音识别的系统，包括连接到语音识别引擎的接口。连接到接口的识别后处理器将语音识别引擎处理的识别语音与保留在存储器中的语境信息进行比较。该识别后处理器生成修正的识别语音数据，并将该修正的识别语音数据发送到解析部件。
对于本领域技术人员来说，一经研究如下的附图和详细说明，其它的系统、方法、特征和优点就会或者将会变得显而易见。想要将所有这些附加的系统、方法、特征和优点包括在该描述中，落入本发明的保护范围中，并且由如下的权利要求来保护。

参照如下附图和说明，将能更好地理解该系统。图中的部件不一定是按比例的，其重点在于解释本发明的原理。并且，在附图中，相同的附图标记在不同视图中代表相对应的部分。
图1是连接到识别后系统的自动语音识别系统的框图。
图2是识别后系统的框图。
图3是n最佳列表的图。
图4是连接到外围设备的识别后系统的框图。
图5是可选的识别后系统的框图。
图6是可选的自动语音识别系统的框图。
图7是第二可选的自动语音识别系统的框图。
图8是改善语音识别的流程图。

具体实施例方式 自适应识别后系统能够自适应调整词汇、短语和/或句子。该系统可以编辑从音频信号识别的语音，或者修正与识别语音相关联的识别分数(score)。某些识别后系统通过交互实时地或接近实时地编辑或修正数据。其它识别后系统通过用户修改，或者将用户修改与实时的或接近实时的用户交互相结合来编辑或修正数据。识别后系统可以与依赖说话者的和/或不依赖说话者的自动语音识别系统(SRS)通过接口连接。
图1是自适应自动语音识别系统100的框图。该自适应自动语音识别系统100可包括语音识别引擎102、自适应识别后系统104、翻译器106和对话管理器108。该语音识别引擎102接收数字音频信号，并通过匹配处理生成由自适应识别后系统104接收的识别语音数据。某些语音识别引擎102可接收模拟音频信号，该模拟音频信号在匹配处理前可被数字化。在某些自适应自动语音识别系统100中，识别语音数据可包括一个或更多文本串、对于每个文本串的概率或置信值/等级(例如，分数)，和/或向内部或外部硬件和/或软件传达意思的其它数据段。某些自适应自动语音识别系统100将识别语音数据表达为n个最有可能与用户说话匹配的n最佳文本串列表，其中该最佳列表中的条目个数(“n”)可由用户、初始设备制造商和/或售后市场供应商来配置。可替代地，某些自适应自动语音识别系统100可以将识别语音数据表达为表现一个或更多可能的用户说话的词汇图、词汇矩阵或词汇点阵。
自适应识别后系统104包括连接到语音识别引擎102或者是作为语音识别引擎102的一个整体部分的软件和/或硬件。该自适应识别后系统104鉴于可得到的语境对象分析识别语音数据，并确定是否要修正部分或所有识别语音数据。当授权修正后，该自适应识别后处理器104可改变与文本串相关联的分数、文本串和/或其它数据段，以便生成修正的识别语音数据。
翻译器106接收修正的识别语音数据，并将该数据转换为可以由第二层软件和/或硬件处理的形式。在某些自适应自动语音识别系统100中，翻译器106可以是解析器。对话管理器108可以从翻译器106接收数据输出，并可以翻译数据，以便向一个或更多连接的设备或应用提供控制和/或输入信号。另外，对话管理器108可以向自适应识别后系统104和/或语音识别引擎102提供响应反馈数据。该响应反馈数据可存储在外部和/或内部的易失性或非易失性存储器中，并且可包括修正的文本串的可接受水平。在某些自适应自动语音识别系统100中，该响应反馈可包括指示肯定接受(例如，是、正确、继续、进行等)或否定接受(例如，否、错误、停止、重做、取消等)的数据。
图2是自适应识别后系统104的框图。该自适应识别后系统104可包括输入接口202、识别后处理器204、存储器206和输出接口208。输入接口将语音识别引擎102连接到识别后处理器204，并将识别语音数据传递到识别后处理器204，该识别后处理器将识别语音数据存储在易失性或非易失性存储器206中。存储器206还可存储语境对象和/或一个或更多应用规则，该应用规则可由终端用户、开发者、初始设备制造商和/或售后市场供应商配置或自适应调整。在某些自适应识别后系统104中，语境对象包括响应反馈数据、频繁说出的词汇、短语或句子(例如，识别文本串和/或修正的识别文本串)、分数、时间数据(例如，数据何时被恰当地寻址)、频率数据(例如，数据被寻址的频繁程度)和/或最新数据(例如，数据最近一次被寻址是何时)。
识别后处理器204可以将一个或更多应用规则应用到识别语音数据和一个或更多语境对象中。基于所应用的应用规则的结果，识别后处理器204可生成修正的识别语音数据。该修正的识别语音数据可包括分数、修正的分数、识别文本串、修正的识别文本串，和/或向内部或辅助硬件和/或其它软件传达意思的其它数据段。在某些自适应识别后系统104中，该修正的识别语音数据可被表达为n最佳列表。修正的识别语音数据可被传送到连接到输出接口208的第二层软件和/或设备中，诸如翻译器106。
在将识别语音数据表达为n最佳列表的自适应自动语音识别系统100中，分数的修正可以改变文本串的位置及其相关联的数据。图3是响应于说出的电话号码“6041234”，由语音识别引擎102生成的n最佳电话数字拨号列表。在图3中，文本串“6241234”具有92％的置信分数，文本串“6041234”具有89％的置信分数，而文本串“6341234”具有84％的置信分数。识别后处理器204可将应用规则应用到文本串“6241234”。该应用规则可包括语境逻辑。在某些系统中，该应用规则可以确定否定的响应反馈是否之前已经与该文本串相关联，或者该文本串是否代表频繁拨号的电话号码。如果用户之前已经提供了对该文本串的否定响应，该文本串作为语境对象被存储在存储器中，则识别后处理器204可利用负加权来修正相关联的置信分数。该负加权可以包括将相关联的置信分数降低预先确定的数量。如果相关联的置信分数降低的数量大于n最佳列表中的第二个最佳条目(例如，如图3所示的3％)，则文本串“6241234”将变成图3所示的n最佳列表中的第二个条目。可以将另外的应用规则应用到该文本串中，这样会导致另外的位置变化。
应用到其它文本串中的应用规则可能返回不同的结果。例如，604-1234可能是被频繁拨打的号码，其具有存储在如此指示的存储器206中的语境对象。当识别后处理器204将应用规则应用到文本串“6041234”中时，指示这是频繁拨打的号码的语境对象可以使识别后处理器204用正加权来修正该相关联的置信分数。该正加权可以包括将相关联的置信分数提高预先确定的数量。正和/或负加权值可以基于频率数据、时间数据、最新数据和/或其它与语境对象或语境对象的子分量相关联的时间指示符来配置。在某些自适应自动语音识别系统100中，识别后处理器204可被配置为使应用规则传送识别语音数据，而不进行任何修正。在这些自适应语音识别系统100中，自适应识别后系统104可实现为直通逻辑(pass through logic)。
在某些自适应识别后系统104中，语境对象可被用于将新的信息插入到识别语音数据中。例如，如果电话号码765-4321最近已经被重复拨打，则如此指示的语境对象就被存储在存储器中。如果识别语音数据包括n最佳列表，其中将文本串“7694321”作为第一条目(例如，最有可能的结果)，而该文本串没有语境对象存储在存储器中，则应用规则会致使识别后处理器204将文本串“7654321”插入到n最佳列表中。新数据被插入的位置和/或相关联的分数将取决于多个因素。这些因素可包括频率数据、时间数据和/或要被添加的新信息的最新数据。
在某些自适应识别后系统104中，语境对象可被用于从识别语音数据中去除数据。某些语音识别引擎102可能会将环境噪声，诸如瞬时的车辆噪声(例如，车身振动、风的吹打、雨的噪声等)和/或背景噪声(例如，键盘的咔哒声、音乐噪声等)误识别为所说出话语的一部分。这些环境噪声会将不希望有的数据添加到包括在识别语音数据中的文本串中。一旦应用了应用规则和语境对象，通过识别出不想要的数据并将其从文本串中提取出来，识别后处理器204可生成修正的识别数据。
在识别后系统104中，存储在存储器中的应用规则可通过用户交互而被预先编程、获得或者修正，也可通过本地(例如，规则语法、对话管理器等)或诸如外部设备的远端源通过无线或硬连接而获得或修正。该应用规则可被自适应调整，例如基于来自更高层应用软件和/或硬件的反馈，或者通过用户操作。如果应用规则引起了错误，则该应用规则会被动态更新或修正并被存储在存储器中。
其它语境对象可从一个或更多外部设备上下载到存储器上。图4是连接到外部设备的自适应识别后系统。该自适应识别后系统104可通过由有线或无线连接所使用的一个或更多协议而被连接到外部设备402。一些协议可包括J1850VPW、J1850PWM、ISO、ISO9141-2、ISO14230、CAN、高速CAN、MOST、LIN、IDB-1394、IDB-C、蓝牙、TTCAN、TTP、802.x、串行数据传输和/或并行数据传输。该外部设备可以包括蜂窝或无线电话、车载计算机、信息娱乐系统、诸如MP3播放器的便携式音频/可视设备、个人数字助理和/或其它可以运行一个或更多软件应用的处理或数据存储计算机。当自适应识别后系统104连接到外部设备时，其它语境对象可被外部设备推到自适应识别后系统104中。其它语境对象可以包括联络信息和列表、个人身份号码或编码、日历信息、地址、无线电频率、无线电台呼号、无线电台预设位置、歌曲名称(压缩的或未压缩的)、气候控制命令、全球定位信息或任意其它的与语音识别、个人通信、车辆操作或司机或乘客舒适度相关的要素。当用户改正、接受或拒绝由自适应自动语音识别系统所提供的语音输出时，语境对象可被添加到存储器或被自动更新。
某些自适应识别后系统104通过在有限的条件下添加或修正语境对象，避免了对于某些语音识别系统而言很普通的加强错误。在某些系统中，可以添加新的语境对象，或者已有的语境对象仅在得到用户确认之后才进行更新。在某些系统中，未经确认的添加或改变可在存储器中存储为单独的语境对象；然而，这些未经确认的语境对象可能具有比经过确认的选择更低的分数。在某些系统中，未经确认的和/或被拒绝的条目可被添加或者用负加权来更新，用于在某些时间段中降低可能性或压缩潜在错误的结果。
图5是可选的自适应识别后系统502。在图5中，外部存储器504与识别后处理器202进行通信。内部存储器206和/或外部存储器504可存储识别语音数据、应用规则、语境对象和/或修正的识别语音数据。内部存储器206和/或外部存储器504可以是易失性或非易失性存储器，并可包括一个或更多存储空间。
图6是可选的自适应自动语音识别系统。在图6中，识别后系统204或502可以与语音识别引擎102集成或者形成语音识别引擎102的整体部分。图7是第二可选自适应自动语音识别系统。在图7中，识别后系统204或502可以与翻译器106集成，或者形成翻译器106的整体部分。
图8是改善语音识别的方法的流程图。在步骤802，自适应识别后系统可将由语音识别引擎生成的识别语音数据与语境对象进行比较。识别语音数据可以由依赖说话者的和/或不依赖说话者的系统生成，使得语境对象可以是当前用户最近说出的语音，也可以是不同于当前用户的用户在预先确定或编程的时间段内说出的语音。可替代地，语境对象可以是从一个或更多外部设备获得的信息。在进行比较时，识别后系统可以使用一个或更多应用规则。在改善语音识别的某些方法中，识别语音数据、语境对象和/或应用规则可被存储在易失性或非易失性存储器中。识别语音数据可包括一个或更多文本串、对于每个文本串的概率或置信值/等级(例如分数)，和/或向内部或外部硬件和/或软件传达意思的其它数据段。语境对象可用于消除与识别语音数据有关的模糊性，并可包括响应反馈数据、经常说出的词汇、短语或句子(例如，识别文本串和/或修正的识别文本串)、分数、时间数据、频率数据和/或最新数据。其它语境对象可包括联络信息和列表、个人身份号码或编码、日历信息、地址、无线电频率、无线电台呼号、无线电台预设位置、歌曲名称(压缩的或未压缩的)、气候控制命令、全球定位信息和/或任意其它的可以从一个或更多外围设备载入到存储器的与语音识别、个人通信、车辆操作或司机或乘客舒适度相关的要素。
在步骤804，基于一个或更多应用规则和/或语境对象，一些或所有识别语音数据可以被改变。改变识别语音数据可包括，通过应用正或负加权值来修正与文本串相关联的分数；添加、去除或改变文本串的一部分，和/或添加新的文本串和/或与文本串相关联的分数。
在步骤806，一些或所有经改变的识别语音数据可被发送到更高级别的软件和/或设备。更高级别的设备可包括翻译器，该翻译器可将经改变的识别语音数据转换为可由其它更高级别软件和/或硬件处理的形式。
在步骤808，语境对象和/或应用规则可被更新。在某些方法中，当用户改正、接受或拒绝自适应自动语音识别系统的输出时，语境对象和/或应用规则可被自动更新。如果经改正的输出包括存储为语境对象的词汇或短语，则可将该词汇添加到语境对象。如果应用规则造成了错误，则该应用规则可被静态或动态地更新或修正并被存储在存储器中。
某些方法通过在有限的条件下添加或修正语境对象，避免了对于某些语音识别系统而言很普通的加强错误。在某些系统中，可以添加新的语境对象，或者已有的语境对象仅在得到用户确认之后才进行更新。在某些方法中，未经确认的添加或改变可在存储器中存储为单独的语境对象；然而，这些未经确认的语境对象可能具有比经过确认的选择更低的分数。
上述系统和方法可被编码在计算机可读介质中，诸如CD-Rom、磁盘、闪存、RAM或ROM或其它如处理器执行的指令的机器可读介质。因此，处理器可以执行指令来进行识别后处理。可替代地或附加地，该方法可利用硬件实现为模拟或数字逻辑，其中硬件诸如一个或更多集成电路，或一个或更多执行采样率自适应调整指令的处理器；或者在应用程序接口(API)或动态链接库(DLL)中的软件、共享存储器中或定义为本地或远程程序调用中可用的函数中实现；或者实现为硬件和软件的组合。
该方法可被编码在计算机可读介质、机器可读介质、传播信号介质和/或信号承载介质上。该介质可包括包含、存储、通信、传播或传送由指令可执行系统、装置或设备使用或与其连接的软件的任何设备。该机器可读介质可以选择性地而非限制性地是电的、磁的、光的、电磁的、红外的或半导体系统、装置、设备或传播介质。机器可读介质实例的非穷举列表包括具有一个或更多线路的电连接、便携式磁盘或光盘、诸如随机存取存储器“RAM”、只读存储器“ROM”、可擦除可编程只读存储器(例如EPROM)或闪存的的易失性存储器，或者光纤。机器可读介质还可包括其上可印刷可执行指令的有形介质，比如逻辑可被电存储为图像或其它格式(例如通过光学扫描)，然后被汇编和/或翻译或进行其它处理。经处理的介质然后可被存储在计算机和/或机器存储器中。
上面的系统可包括附加的或不同的逻辑，并且可以很多不同方式实现。处理器可以实现为微处理器、微控制器、专用集成电路(ASIC)、离散逻辑或其它类型的电路或逻辑的组合。相似地，存储器可以是DRAM、SRAM、闪存或其它类型的存储器。参数(例如条件和阈值)和其它数据结构可以分别存储和管理，也可以合并为具有一个或更多数据库的单一存储器，还可以逻辑地和物理地分布到很多组件中。程序和指令集可以是单个程序的各部分、单独的程序，也可以分布在若干存储器和处理器中。上述系统和方法可应用于对识别语音数据进行重新打分和/或重新加权，其中该语音识别数据是用词汇图路径、词汇矩阵和/或词汇点阵格式，或者用于表达来自语音识别系统的结果的通常所识别的任何其它格式来表示的。
虽然已经描述了本发明的各实施例，但对于本领域普通技术人员来说显而易见的是，在本发明保护范围中还有很多实施例和实现方式是可行的。因此，除了根据所附权利要求和它们的等价物，本发明不受限制。
权利要求
1.一种改善语音识别性能的系统，包括
被配置成连接语音识别引擎的接口；和
被连接到所述接口的识别后处理器，所述识别后处理器将由所述语音识别引擎生成的识别语音数据与保留在存储器中的语境对象进行比较，生成修正的识别语音数据，并将所述修正的识别语音数据发送到翻译部件。
2.如权利要求1所述的系统，其中所述识别语音数据包括文本串和相关分数。
3.如权利要求2所述的系统，其中所述相关分数包括所述文本串的置信值。
4.如权利要求3所述的系统，其中所述修正的识别语音数据包括用负加权值改变后的相关分数。
5.如权利要求3所述的系统，其中所述修正的识别语音数据包括用正加权值改变后的相关分数。
6.如权利要求1所述的系统，其中所述修正的识别语音数据包括修正的文本串，所述修正的文本串包括语境对象的一部分。
7.如权利要求2所述的系统，其中所述修正的识别语音数据包括所述文本串的一部分。
8.如权利要求1所述的系统，其中所述存储器被进一步配置为存储响应反馈数据，所述响应反馈数据包括修正的文本串的接受水平。
9.如权利要求2所述的系统，其中修正的识别语音数据包括多个文本串，所述多个文本串的次序与所述识别语音数据的文本串的次序不同。
10.如权利要求1所述的系统，其中所述语境对象是从一个或更多外围设备载入所述存储器中的。
11.如权利要求1所述的系统，进一步包括存储在存储器中的用户可修改的规则，所述用户可修改的规则被配置为作用在所述识别语音数据和所述语境对象上。
12.一种改善语音识别的方法，包括
将由语音识别引擎生成的识别语音数据与保留在存储器中的语境对象进行比较；
基于一个或更多语境对象，改变识别语音数据；和
将改变的识别语音数据发送到翻译部件，
其中所述识别语音数据包括文本串、矩阵或点阵和相关置信等级。
13.如权利要求12所述的方法，其中改变识别语音数据包括调节与文本串、矩阵或点阵相关联的相关置信等级。
14.如权利要求13所述的方法，其中调节与文本串相关联的置信等级包括对相关置信等级应用负加权值。
15.如权利要求13所述的方法，其中调节与文本串相关联的置信等级包括对相关置信等级应用正加权值。
16.如权利要求12所述的方法，其中改变识别语音数据包括提取文本串的一部分。
17.如权利要求12所述的方法，其中改变识别语音数据包括向识别语音数据添加新的文本串。
18.如权利要求12所述的方法，其中在接收到确认数据后，向保留在存储器中的语境对象添加新的文本串。
19.如权利要求12所述的方法，进一步包括用改变后的识别语音数据的一部分来更新所述语境对象。
20.如权利要求12所述的方法，其中将由语音识别引擎生成的识别语音数据与保留在存储器中的语境对象进行比较包括评估与所述语境对象相关联的时间数据。
21.如权利要求12所述的方法，其中将由语音识别引擎生成的识别语音数据与保留在存储器中的语境对象进行比较包括评估与所述语境对象相关联的频率数据。
22.一种计算机可读存储介质，包括一组用于执行以下操作的处理器可执行指令
将由语音识别引擎生成的识别语音数据与保留在存储器中的语境对象进行比较；
基于一个或更多语境对象，改变识别语音数据；和
将改变的识别语音数据发送到翻译部件，
其中所述识别语音数据包括文本串和相关置信等级。
23.如权利要求22所述的计算机可读存储介质，其中所述改变识别语音数据的指令对相关置信等级应用负加权值。
24.如权利要求22所述的计算机可读存储介质，其中所述改变识别语音数据的指令对相关置信等级应用正加权值。
全文摘要
一种改善语音识别的系统，包括连接到语音识别引擎的接口。连接到该接口的识别后处理器将由语音识别引擎生成的识别语音数据与保留在存储器中的语境对象进行比较，生成修正的识别语音数据，并将修正的识别语音数据发送到解析部件。
文档编号G10L15/00GK101183525SQ200710192999
公开日2008年5月21日申请日期2007年10月11日优先权日2006年10月12日
发明者R·伦佩尔, P·A·赫瑟林顿, M·亨内克, D·威利特申请人:Qnx软件操作系统(威美科)有限公司, 哈曼贝克自动系统股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：R.伦佩尔;P.A.赫瑟林顿;M.亨内克;D.威利特
技术所有人：QNX软件操作系统(威美科)有限公司;哈曼贝克自动系统股份有限公司
我是此专利的发明人

上一篇：一种能够增加音域的葫芦丝的制作方法
上一篇：用于对高频信号进行编码和解码的方法和设备的制作方法