提供基于灵活文本的语言识别的方法、设备和计算机程序产品的制作方法

文档序号：6456784阅读：171来源：国知局

专利名称：提供基于灵活文本的语言识别的方法、设备和计算机程序产品的制作方法
技术领域：
本发明实施例总的涉及语音处理技术，更具体地，涉及用于提供基于灵活文本的语言识别的方法、i殳备和计算机程序产品。
背景技术：
现代通信时代带来了有线和无线网络的巨大发展。计算机网络、电视网络、和电话网络正在经历由消费者需求引起的前所未有的技术M。无线和移动网络技术已经解决了相关消费者需求，同时提供更加灵活和直接的信息传递。
目前和未来的网络技术不断使得信息传递变得容易并方便用户使用。需要使信息传递变得容易的一个领域涉及向移动终端的用户提供服务。所述服务可以是用户所期望的特定介质或通信应用的形式，例如音乐播放器、游戏机、电子书、短消息、电子邮件等。所述服务也可以是交互应用的形式，在这种形式中用户可响应于网络设备以执行任务、玩游戏或实现目标。可以从网络服务器或其他网络设备，或甚至从移动终端(例如移动电话、移动电视、移动计算机、移动游戏系统等)提供所述服务。
在许多应用中，用户必须从网络或移动终端接收音频信息(例如口头反馈或指令)，或用户必须向网络或移动终端给出口头指令或反馈。这种应用可提供不取决于实际手动用户行为的用户界面。换句话说，用户可以
在免提(hand free)或半免提环境下与应用交互。这种应用的实例可以是支付帐单、点播节目、请求和接收驱动指令等。其他应用可将口头语音转变成文本，或基于识别的语音执行一些其他功能，例如口述SMS或电子邮件等。为了支持这些和其他应用，语音识别应用、从文本生成语音的应用、和其他语音处理设备将变得更加普遍。
从计算机可读文本生成语音的设备(例如文语转换(TTS)设备)典型地分析文本，并执行语音和韵律分析以生成音素，作为与原始文本的内容相关的合成语音来输出。然而，由于这种设备在^r界使用，并且还由于许多地理位置在当地居民所说的语言方面不断增加的多样性，所以可遇到涉及各种语言的文本。例如，文本的直接音素到合成语音的转换可造成不精确或听起来不自然。目前用于消除上述缺陷的机制可能需要大量的文本来顺利工作，因此并不灵活。
所以，期望提供对输入数据的灵活语言识别，以保证在执行文语转换时4吏用适当的i吾言模型。

发明内容
因此，提供一种方法、设备和计算机程序产品，用于提供基于灵活文本的语言识别。4艮据本发明示例性实施例，可为了语言识别而精确分析甚至如一个词那样短的文本。因此，为了支持高度可配置的多语言系统，可提供灵活语言识别。
在一个示例性实施例中，提供一种用于提供基于灵活文本的语言识别的方法。该方法包括接收计算机可读文本格式的词条；对多种语言中的每个确定所述词条的字母表分数；对多种语言中的每个确定所述词条的n 元语法频率分数；以及基于所述字母表分数和所述n元语法频率分数的组合确定与所述词条关联的语言。
在另一示例性实施例中，提供一种用于提供基于灵活文本的语言识别的计算机程序产品。该计算机程序产品包括至少一个计算机可读存储介质，在该介质中存储有计算机可读程序代码部分。所述计算机可读程序代码部分包括第一、第二、第三和第四可执行部分。第一可执行部分用于接收计算机可读文本格式的词条。第二可执行部分用于对多种语言中的每个确定所述词条的字母表分数。第三可执行部分用于对多种语言中的每个确定所述词条的n元语法频率分数。第四可执行部分用于基于所述字母表分数和所述n元语法频率分数的组合确定与所述词条关联的语言。
在另一示例性实施例中，提供一种用于提供基于灵活文本的语言识别的设备。该设备可包括字母表计分部件、n元语法频率部件和处理部件。字母表计分部件可被配置为接收计算机可读文#式的词条，并针对多种语言中的每个计算所述词条的字母表分数。n元语法频率部件可被配置为针对多种语言中的每个计算所述词条的n元语法频率分数。处理部件可与所述n元语法频率部件和所述字母表计分部件通信。所述处理部件可被配置为基于所述字母表分数和所述n元语法频率分数的组合确定与所述词条关联的语言。
在另一示例性实施例中，提供一种用于提供基于灵活文本的语言识别的设备。该设备包括用于接收计算机可读文W式的词条的装置；用于对多种语言中的每个确定所述词条的字母表分数的装置；用于对所述多种语言中的每个确定所述词条的n元语法频率分数的装置；以及用于基于所述字母表分数和所述n元语法频率分数的组合确定与所述词条关联的语言的装置。
本发明实施例可提供一种在系统中采用的方法、设备和计算机程序产品，以改善语音处理。结果，例如移动终端和其他电子设备可获益于对各种语言精确执行语音处理的能力，而不需要大量基于文本的数据用于分析。因此，可使用相对少量的资源执行精确的词识别和再现。

现在将参照附图概括描述本发明实施例，所述附图不必按规定比例，其中
图1是根据本发明示例性实施例的移动终端的示意性框图；图2是才艮据本发明示例性实施例的无线通信系统的示意性框图；图3是根据本发明示例性实施例的用于提供基于灵活文本的语言识别的系统的框图；以及
图4是根据本发明示例性实施例的用于提供基于灵活文本的语言识别的示例性方法的流程图。
具体实施例方式
现在将参照附图在下文中更详细描述本发明实施例，其中示出一些但并非本发明所有的实施例。当然，本发明可通过许多不同形式来实现，并
且不应该理解为限制为这里所描述的实施例；此外，提供这些实施例使得本发明满足适当的法律需求。在附图中，类似的标号表示类似的元素。
图1示出从本发明实施例得到的移动终端10的框图。然而，应理解，这里所示和下文中所述的移动电话仅是从本发明实施例得到的一种移动终端的示例，因此不应用来限制本发明实施例的范围。尽管为了示例的目的在下文中示出和描述移动终端10的一个实施例，但是其他类型的移动终端 (例如便携式数字助理(PDA)、寻呼机、移动计算机、移动电视、游戏机、膝上型计算机、照相机、录像机、GPS设备和其他类型语音和文本通信设备)可容易地采用本发明实施例。此外，并非移动的设备也可以容易地采用本发明实施例。
以下将结合移动通信应用主要描述本发明实施例的系统和方法。然而，应理解，可在移动通信业界中以及移动通信业界以外结合各种其他应用使用本发明实施例的系统和方法。
移动终端10包括天线12 (或多个天线)，其可操作地与发射机14和接收机16通信。移动终端10还包括控制器20或分别向发射机14和接收机16提供信号以及从中接收信号的其他处理部件。信号包括根据适当蜂窝系统的空中接口标准的信令信息、以及用户语音、所接收的数据和/或用户生成的数据。在此，移动终端IO能够通过一个或多个空中接口标准、通信协议、调制类型、和接入类型来运行。通过图示，移动终端10能够根据多个第一、第二、第三和/或第四代通信协议等中的任一个来运行。例如，移动终端10能够根据第二代(2G )无线通信协议IS-136 ( TDMA ) 、 GSM、和IS-95 (CDMA)、或根据第三代(3G)无线通信协议(例如UMTS、 CDMA2000、 WCDMA和TD-SCDMA )、根据第四代(4G )无线通信协议等来运行。
可以理解，控制器20包括期望实现移动终端10的音频和逻辑功能的电路。例如，控制器20可包括数字信号处理器设备、微处理器设备、以及各种模数转换器、数模转换器、和其他支持电路。移动终端IO的控制和信号处理功能根据他们各自的性能位于在这些设备之间。因此，控制器20 还可包括在调制和传输之前对消息和数据进行巻积编码和交织的功能。控制器20还可包括内部语音编码器，并且可包括内部数据调制解调器。此外，控制器20可包括运行可存储在存储器中的一个或多个软件程序的功能。例如，控制器20能够运行连接程序，例如传统Web浏览器。于是，连接程序可允许移动终端IO例如根据无线应用协议(WAP)和/或超文本传输协议(HTTP )等发送和接收Web内容，例如基于位置的内容和/或其他Web 页面内容。
移动终端IO还可包括用户接口，其包括输出设备(例如传统耳机或扬声器24、振铃器22、麦克风26、显示器28)和用户输入接口，所述全部设备耦合至控制器20。允许移动终端10接收数据的用户输入接口可包括允许移动终端10接收数据的多种设备中的任一个，例如键板30、触摸屏 (未示出)或其他输入设备。在包括键板30的实施例中，键板30可包括传统数字(0-9)和相关键(#， *)，以及用于操作移动终端IO的其他键。可选地，键板30可包括传统的标准键盘(QWERTY)的键板配置。键板 30还可包括具有相关功能的各种软键。附加地或可选地，移动终端10可包括例如操纵杆或其他用户输入接口的接口设备。移动终端10还包括电池 34，例如振动电池组，用于对操作移动终端10所需的各种电5^供电力以及可选地用于提供机械振动作为可检测输出。
移动终端IO还可包括用户身份模块(UIM) 38。 UIM38典型地是具有嵌入处理器的存储器设备。例如，UIM 38可包括订户身份模块(SIM)、通用集成电路卡(UICC)、通用订户身份模块(USIM)、可移动用户身份模块(R-UIM)等。UIM 38典型地存储与移动订户相关的信息元素。除了 UIM 38之外，移动终端IO还可配备有存储器。例如，移动终端10可包括易失性存储器40，例如易失性随机存取存储器(RAM)，其包括用于临时存储数据的緩存区。移动终端10还可包括其他非易失性存储器 42，其可以被嵌入和/或可以是可插拔的。非易失性存储器42可附加地或可选地包括EEPROM、闪存等，例如他们可由加利福尼亚州(California) Sunnyvale的SanDisk公司提供或可由加利福尼亚州(California )Frenmont 的Lexar Media公司提供。存储器可存储由移动终端IO使用的多条信息和数据中的任一条，以实现移动终端10的功能。例如，存储器可包括能够唯一识别移动终端IO的标识符，例如国际移动设备识别(IMEI)码。
图2是才艮据本发明示例性实施例的无线通信系统的示意性框图。现在参照图2，提供从本发明实施例得到的一种系统的示例。该系统包括多个网络设备。如图所示，一个或多个移动终端10均可包括天线12，用于向基站点或基站(BS) 44发送信号以及从其接收信号。基站44可以是一个或多个蜂窝网络或移动网络的一部分，所述每个网络包括运行网络所需的单元，例如移动交换中心(MSC) 46。正如本领域普通技术人员已知地，移动网络还可称为基站/MSC/互通功能(BMI)。在运行中，当移动终端 IO发出和接收呼叫时，MSC 46能够向移动终端IO和从移动终端10路由呼叫。当在呼叫中涉及移动终端10时，MSC 46还可提供到陆线中继 (landline trunk )的连接。此外，MSC 46能够控制向移动终端10和从移动终端10转发消息，并且还可控制向消息中心和从消息中心转发移动终端的消息。应注意，尽管在图2的系统中示出MSC 46，但是MSC 46仅是示例性网络设备，并且本发明实施例不限于在采用MSC的网络中使用。
MSC46可耦合至数据网络(例如局域网(LAN)、城域网(MAN) 和/或广域网(WAN) ) 。 MSC46可直接耦合至数据网络。然而，在一个典型实施例中，MSC 46耦合至网关设备(GTW) 48, GTW 48耦合至 WAN，例如因特网50。而诸如处理部件的设备(如个人计算机、服务器计算机等)可经由因特网50耦合至移动终端10。例如，如下所述，处理部件可包括一个或多个与如下所述的计算系统52 (图2中示出2个)、源服务器54 (图2中示出l个)等关联的处理部件。BS 44还可耦合至信令GPRS (通用分组无线业务)支持节点(SGSN) 56。正如本领域普通技术人员已知地，SGSN56典型地能够执行与用于分组交换服务的MSC 46类似的功能。与MSC 46类似，SGSN 56可耦合至数据网络(例如因特网50) 。 SGSN56可直接耦合至数据网络。然而，在一个更典型实施例中，SGSN56耦合至分组交换核心网络，例如GPRS核心网络58。该分组交换核心网络耦合至另一GTW 48，例如GTWGPRS 支持节点(GGSN) 60，而GGSN60耦合至因特网50。除了 GGSN 60之外，该分组交换核心网络还可耦合至GTW 48。 GGSN 60还可耦合至消息中心。在此，与MSC46类似，GGSN 60和SGSN 56能够控制消息(例如MMS消息)的转发。GGSN 60和SGSN 56还能够控制向消息中心和从消息中心转发移动终端10的消息。
此外，通过将SGSN 56耦合至GPRS核心网络58和GGSN 60，诸如计算系统52和/或源服务器54的设备可经由因特网50、 SGSN 56和 GGSN 60耦合至移动终端10。在此，诸如计算系统52和/或源服务器54 的设备可通过SGSN 56、 GPRS核心网络58和GGSN 60与移动终端10 通信。通过将移动终端10和其他设备(例如计算系统52、源服务器54等) 直接或间接连接至因特网50，移动终端10可例如根据超文本传输协议 (HTTP)和/或类似协议与其他设备和彼此通信，由此执行移动终端10 的各种功能。
尽管这里没有示出和描述各种可能移动网络的每个单元，但是应理解，移动终端10可通过BS 44耦合至多种不同网络中任一种网络中的一个或多个。在此，网络能够根据多个第一代(1G)、第二代(2G) 、 2.5G、第三代(3G) 、 3.9G、第四代(4G)移动通信协议等的任一个或多个支持通信。例如，一个或多个网络能够才艮据2G无线通信协i义IS-136( TDMA)、 GSM、和IS-95 ( CDMA )支持通信。例如，一个或多个网络还能够根据2.5G无线通信协议GPRS、增强数据GSM环境(EDGE)等支持通信。此外，例如，一个或多个网络能够根据3G无线通信协议(例如采用宽带码分多址 (WCDMA)无线电接入技术的通用移动电话系统(UMTS)网络)支持通信。一些窄带AMPS (NAMPS)以及TACS网络也可以从本发明实施例得到，其应该是双模或更多模式移动站(例如数/模或TDMA/CDMA/ 模拟电话)。
移动终端10还可耦合至一个或多个无线接入点(AP) 62。 AP 62可包括被配置为根据多种技术(例如射频(RF )、蓝牙(BT )、红夕卜(IrDA ) 或任意多种不同无线组网技术，其包括如IEEE 802.11 (例如802.11a、 802.11b、 802.11g、 802.11n等)的无线LAN( WLAN )技术、如IEEE 802.16 的WiMAX技术和/或如IEEE 802.15等的超宽带(UWB)技术)与移动终端10通信的接入点。AP 62可耦合至因特网50。与MSC 46类似，AP 62 可直接耦合至因特网50。然而，在一个实施例中，AP62可经由GTW48 间接耦合至因特网50。此外，在一个实施例中，BS44可认为是另一个AP 62。可以理解，通过直接或间接地将移动终端10和计算系统52、源服务器54、和/或任意其他设备连接至因特网50，移动终端10可彼此、与计算系统等通信，从而执行移动终端10的各种功能，例如向计算系统52发送数据、内容等和/或从计算系统52接收内容、数据等。其中，术语"数据"、 "内容"、"信息"和类似术语可交替使用，以表示能够根据本发明实施例发送、接收和/或存储的数据。因此，任意这种术语的使用不应该限制本发明实施例的精神和范围。
尽管图2中没有示出，附加地或代替地，除了通过因特网50将移动终端10连接至计算系统52之外，移动终端10和计算系统52可根据例如RF、 BT、 IrDA或任意多种不同有线或无线通信技术(包括LAN、 WLAN、 WiMAX、 UWB技术等)彼此耦合和通信。一个或多个计算系统52可附加地或可选地包括能够存储内容的可移动存储器，该内容之后可传输至移动终端10。此外，移动终端10可耦合至一个或多个电子设备，例如打印机、数字投影仪和/或其他多媒体捕获、生成和/或存储设拟例如其他终端)。与计算系统52类似，移动终端10可被配置为根据多种技术(例如RF、 BT、 IrDA或任意多种不同有线或无线通信技术(包括USB、 LAN、 WLAN、 WiMAX、 UWB技术等))与便携式电子设备通信。在示例性实施例中，与口语接口相关的数据可在图2的系统上在移动终端(可类似于图l的移动终端10)与图2的系统的网络设备之间或移动终端之间通信。例如，应该理解，不需要采用图2的系统在服务器和移动终端之间通信，但是仅提供图2用作示例的目的。此外，应该理解，本发明实施例可驻留在例如移动终端10的通信设备上，或者可驻留在可访问通信设备的网络设备或其他设备上。
图3示出根据本发明示例性实施例的用于提供灵活语言识别的系统的框图。现在将参照图3描述本发明示例性实施例，其中示出用于提供灵活语言识别的系统的某些部件。为了示例的目的，将结合图1的移动终端10 来描述图3的系统。然而，应注意，图3的系统还可以结合各种其他设备 (移动的和固定的)来使用，因此本发明实施例不应限制为应用于如图1 的移动终端10的i殳备。还应注意，尽管图3示出提供灵活语言识别的系统配置的一个实例，但是还可以采用各种其他配置来实现本发明实施例。
现在参照图3，提供一种用于提供灵活语言识别的系统68。系统68 包括与语言识别(LID)部件72通信的第一种语音处理部件，例如文语转换(TTS)部件70。应注意，尽管在包括TTS部件72的语音处理部件的环境中描述图3，但是可选地或附加地可采用其他语音处理部件。例如，自动语音识别(ASR)部件可使用LID部件72，以选择与正确语言对应的适当规则，用于将文本数据转换成在识别中要使用的音素序列。通常，文本语素转换的规则集合在语言之间有所不同。此外，尽管在TTS部件70
之前示出LID部件72,但是这种配置不是必须的。此外，根据本发明实施例的LID部件72可配置在可分析文本的系统68的任意部分。换句话说，可结合语音处理部件或结合语音处理部件的组合来使用LID部件72，以处理文本形式的输入数据、输出数据、或中间数据。此外，尽管图3示出使用LID部件72向TTS部件70提供输入文本，但是TTS部件70可选地可从任意其他源接收输入文本。
如图3所示，在一个实施例中，TTS部件70可以是在能够根据计算机可读文本生成合成语音的硬件、软件、或其组合中实现的任意设备或装置。例如，图3的TTS部件70的部件仅是示例性的，并且为了清a见，仅以示例性地给出以下所提供的描述，以概括地说明TTS部件70的操作。 TTS部件70可包括例如文本处理器76、韵律处理器78、和声音合成器80。文本处理器76可接收介质输入，例如输入文本82，并开始处理输入文本82，之后将所处理的文本传送至韵律处理器78。文本处理器76可被配置为执行本领域已知的各种处理操作中的任一个。文本处理器76可包括将特定文本词或字母序列与用于发音的特定规范或规则关联的表或其他机制。在示例性实施例中，文本处理器76可^L配置为将非书面语表示(例如数字和缩写)转换成对应的书面词等同物。
韵律处理器78可分析所处理的文本，以确定文本应该如何发音、重读什么音节、使用什么音调、多快发出声音等的规范。在示例性实施例中，韵律处理器78可4皮配置为将文本和文本的标记段分成各种韵律单元，例如短语、从句和句子。韵律处理器78还可采用文本音素(TTP)转换才莫块或映射，用于执行输入文本82的标音。标音和韵律信息的组合构成可向声音合成器80中输入的音素的符号语言表示。
声音合成器80可被配置为响应于音素的输入序列以计算机生成语音的形式生成合成产生的音频输出。声音合成器80可将所存储的规则或模型应用于来自韵律处理器78的输入，以便以符合韵律处理器78确定的规范的方式生成可听地再现计算机文本的合成语音84。然后，可将合成语音84 发送至输出设备，例如音频混合器或另一输出设备，如扬声器22。
在期望将TTS部件70用在多语言系统中的示例性实施例中，可与声音合成器80关联地存储分别对应于不同语言的各种模型。因此，可训练每个特定语言模型以响应于与特定语言对应的音素序列生成自然发声和精确合成语音。因此，如果向TTS部件70通知输入文本82的正确语言(或基于理性分析最可能是正确的语言)，则TTS部件70能够选择对应的语言模型并以合成语音84的形式生成输入文本82的自然和精确的发声表示。
在此，LID部件72可^J己置为分析输入文本8 (其可以甚至如一个词大小)，并生成与输入文本82关联的最可能语言(例如最佳语言)的精确估计。LID部件712可以是在能够接收输入文本82和确定与输入文本82 最可能关联的语言的硬件、软件或其組合中实现的任意设备或装置。在示例性实施例中，LID部件72可包括处理部件90，其可控制LID部件72 的其他部件的操作或与其通信。可通过许多方式实现处理部件卯。例如，处理部件90可实现为处理器、协处理器、控制器或包括诸如例如ASIC(专用集成电路)的集成电路的各种其他处理装置或设备。在根据以下所述的处理确定最可能语言列表之后，LID部件70可向TTS部件70传送语言识别信息91。语言识别信息91可包括与输入文本82关联的最佳语言或n元最佳语言的列表的识别。
在示例性实施例中，LID部件72的其他部件可包括字母表计分部件 92，其被配置为对输入文本82中的每个词(或词条)分配字母表分数；和 n元语法频率分析部件94，其被配置为对输入文本82中的每个词提供n 元语法频率分数。可选地，处理部件卯或甚至多个处理部件可执行与字母表计分部件92和/或n元语法频率分析部件94相关的所有功能。在示例性实施例中，处理部件卯还可被配置为对每个词确定组合分数，其中该组合分数包括每个词的字母表分数和n元语法频率分数。在示例性实施例中，处理部件90还可被配置为基于输入文本82中的每个词的组合分数确定输入文本82的累积组合分数。基于累积组合分数，处理部件卯可被配置为确定与输入文本82关联的最佳语言(例如最希望或可能的语言)。在一个实施例中，具有最低分数的特定语言可代表最佳语言。然而，可选实施例可根据用于分数计算的算法和采用的计分模式选择具有最高分数的语言。
在一个实施例中，LID部件72可包括分组排序部件96，其具有用于最佳语言确定的预定的语言偏好信息，以用在组合分数和/或累积组合分数没有提供与确定最佳语言相关的明显结果的情况。应注意，可通过组* 个组合分数，或首先组合输入文本82中每个词的所有字母表分数，并将所得到的组合字母表分数与组合了输入文本82中每个词的所有n元语法频率分数的结果相组合来确定累积组合分数。
字母表计分部件92可被配置为针对多种语言中的每个语言为输入文本82的每个词提供字母表分数。字母表计分部件92可以是在能够检查要解码的词的每个字符(或字母)以及将词的每个字符与多种语言的每个字母表相比较的硬件、软件、或其组合中实现的任意设备或装置。基于所述比较，字母表计分部件92可被配置为在多种语言中的每个语言中生成该词的字母表分数。多种语言中的每个语言的字母表分数可至少部分地取决于在要计分的多种语言的各个语言的对应字母表中无法表示词的一个或多个字符的情况。换句话说，如果词的每个字符能够在特定语言中表示，则在特定语言中的该词的字母表分数可能是最可能分数(根据所选计分模式其可以是更大或更小的数值)，同时在其中不能表示某些字符的另一语言的字母表分数将差于该最可能分数一个量，这个量由不能够在该另外语言中表示的字符数目来确定。
在示例性实施例中，字母表计分部件92可被配置为基于每个词的"字母表外"字符的数目对该词分配字母表分数。在计算或确定每个词的字母表分数之后，字母表计分部件92可将字母表分数与阈值相比较，以确定该词是否具有及格或不及格的字母表分数。在示例性实施例中，该阈值可以是这样的预定值，即如果没有满足这个预定值，则其表示该词与计算该字母表分数的语言不相关的高可能性。换句话说，不及格的字母表分数表示在计算出不及格字母表分数的语言中该词不能够#^示。可选地，可简单地对计算出字母表分数的语言中不能够表示其字符的词分配不及格字母表分数。
在对多种语言中的每个语言中的词计算字母表分数之后，本发明示例性实施例的字母表计分部件92排除具有不及格字母表分数的每个语言作为由n元语法频率分析元件94进一步处理的候选语言。换句话说，如果该词接收到对特定语言的不及格字母表分数，则该词可不接收该特定语言的 n元语法频率分数。在可选示例性实施例中，并非简单地计算在收到不及格字母表分数的语言中该词的n元语法频率分数，字母表计分部件92可被配置为对该词分配较差(例如比最小的非不及格字母表分数更小的)或甚至最差的可能分数。然后，n元语法频率分析部件94可在该词接收到不及格字母表分数的语言中处理该词。
在示例性实施例中，字母表计分部件92还可4皮配置为对多种语言中的每个语言计算或确定累积字母表分数。累积字母表分数可表示在多种语言中的对应的一个语言中输入文本82的每个词的字母表分数的组合。累积字母表分数可与阈值相比较，并可对一个词通过以上所述进行处理。
n元语法频率分析部件94可^皮配置为针对多种语言中的每个语言对输入文本82的每个词提供n元语法频率分数。n元语法频率分析部件94可以是在能够基于与多种语言中的每个语言相关的已知信息检查词的每个字符(或字母)以及与多种语言中的每个语言对应的词的可能性相关的概率的硬件、软件、或其组合中实现的任意设备或装置。在此，可对多种语言中的每个语言使用模型。每个模型可包括累积的n元语法统计，其可表示假定先前有n-l个字符时每个词(或词条)的第n个字符的条件概率。例如，对3字母"abc"来说，n元语法概率可表示假定先前2个字母是"ab" 时字母"c"的条件概率。在示例性实施例中，n元语法频率分数可表示与该词相关的n元语法的n元语法概率的对数的累积。还应注意，尽管基于词级分析提供了这里的描述，可选地可基于音节、短语、句子等级别对任意文本执行分析。可选地，n元语法频率分析部件94可被配置为，通过组合输入文本82的每个词(或音节、短语、句子等)的n元语法频率分数来确定累积n元语法频率分数。
在示例性实施例中，可通过收集对多种语言中的每个语言的统计来创建每个模型。对多种语言的数目不存在限制。例如，可基于任意期望的因素来选择构成该多种语言的语言。每个模型对应于多种语言中的一个，并且可基于与每个模型相关的语言而收集的训练数据来生成。每个模型可实现为包括与对应模型相关的语言的n元语法频率和/或对应的n元语法概率的文件。在示例性实施例中，可对训练数据的每个词分配开始和停止字符。在此，开始字符(例如[)可在每个词之前，停止字符(例如)可在每个词之后，从而可区分开始n元语法(例如在紧邻开始字符之后的n元语法)、停止n元语法(例如在紧邻停止字符之前的n元语法)和内部n元语法(例如并非紧邻于开始或停止字符的语法)。
在示例性实施例中，可将语言的字母表描述为字符或字母的列表、字
母表占用的Unicode范围、或两者。因此，可通过紧凑的机器可读格式与其他字母表一起描述大型字母表(例如普通话)。根据一个实施例，每个模型可包括对字母表的每个字母分配唯一索引的字母表描述信息。可根据索引表示n元语法频率数据。因此，可以简要方式表示n元语法频率数据，以减小模型的文件大小。
通过使用与多种语言对应的每个模型文件，可通过将模型文件组合到单一二进制文件中来创建与LID部件72关联的分组。因此，分组可基于在单一二进制文件中包括哪些模型来限定所支持的语言(即二进制文件的
模型对应于要支持的特定语言)。在一个示例性实施例中，为了减小二进制文件的大小，可将n元语法频率数据存储在树型结构中。由于按广度优先遍历顺序依次存储节点，所以树型结构可支持快速树分析。
分组排序部件96可被配置为，在组合分数和/或累积组合分数没有提供与确定最佳语言相关的明显结果的情况下执行最佳语言确定。分组排序部件96可以是在最佳语言确定时能够具有解决语言之间联系的预定的语言偏好信息的硬件、软件、或其组合中实现的任意设备或装置。在此，如上所述，分组可限定所支持的语言。因此，分组排序部件96可存储分组和 /或存储与分组所支持的语言的偏好或排序相关的信息。在此，可基于地理信息(例如在特定地理位置通常遇到的语言)或任何其他适当信息确定偏好信息。由于在一些情况下仅在词或输入文本82具有不及格的字母表分数并且不能够生成n元语法频率分数时〗吏用分組排序部件96，所以在确定偏好信息时可使用可能生成这种结果的相关语言的信息以及遇到这种语言的
在操作期间，当分析词条(例如音节、词、短语、句子等)时，可在字母表计分部件92中对词条进行字母表计数。在此，在一个实施例中，可将词条转换成当前语言的字母表的索引队列。如果在该语言中不支持该词条，则该语言对该词条得到不及格的字母表分数。同时，对于具有与该语言的字符相关的至少一些字符的词条，对该语言分配字母表分数。对于每个语言完成该处理，并为每个语言分配字母表分数。可对不适合语言给出
小于最低及格分数的分数，或如上所述可排除其作为候选项。然后，n元语法频率部件94可计算词条的n元语法频率分数。词条可具有分别对前面和后面增加的开始和停止字符。
可通过各种方式实现本发明实施例。例如，可利用实施例对给定词、名称或词条生成几个候选语言的排序列表。因此，本发明的实施例有助于在没有与正确语言相关的精确信息可用时(例如扬声器独立的姓名拨号) 用于语音识别。实施例还可在目标TTS语言和给定词的语言之间观察到脚本不匹配的情形下用于TTS合成(例如将汉语词合成到英语中)。例如，可对于大范围的语言组合或转换提供语言支持。
图4是根据本发明示例性实施例的系统、方法和程序产品的流程图。可以理解，可通过各种装置(例如硬件、固件、和/或包括一个或多个计算机程序指令的软件)来实现流程图的每个方框或步骤以及流程图中的方框的组合。例如，可通过计算机程序指令来实现上述一个或多个过程。在此，实现上述过程的计算机程序指令可通过移动终端的存储器设备来存储，并通过移动终端中嵌入的处理器来执行。可以理解，可将4壬意这种计算机程序指令载入到计算机或其他可编程设备(即硬件)上，以生成机器，从而在计算机或其他可编程设备上执行的指令创建用于实现在流程图的方框或步骤中指定的功能的装置。这些计算机程序指令还可以存储在指示计算机或其他可编程设备按特定方式运行的计算机可读存储器中，从而在计算机可读存储器中存储的指令生成这样的产品，其包括实现在流程图的方框或步骤中指定的功能的指令装置。计算机程序指令还可栽入到计算机或其他可编程设备中，以使得一系列可操作步骤可以在计算机或其他可编程设备上执行，以生成计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图的方框或步骤中指定的功能的步骤。
因此，流程图的方框或步骤支持用于执行特定功能的装置的组合、用于执行特定功能的步骤的组合和用于执行特定功能的程序指令装置。还可以理解，可通过执行特定功能或步骤的基于专用硬件的计算机系统、或该专用硬件和计算机指令的组合来实现流程图中的一个或多个方框或步骤，以及流程图中的方框或步骤的组合。
在此，用于提供基于灵活文本的语言识别的方法的一个实施例可包括在操作200，接收计算机可读文本格式的词条。在操作210,对多种语言中的每个语言可计算或确定该词条的字母表分数。在操作220,对多种语言中的每个语言可计算或确定该词条的n元语法频率分数。该方法还可包括在操作230，基于字母表分数和n元语法频率分数的组合确定与该词条关联的语言。
可通过许多方式执行上述功能。例如，可采用实现以上每个功能的任意适当装置来实现本发明实施例。在一个实施例中，本发明的所有或一部分部件通常在计算机程序产品的控制下运行。执行本发明实施例的方法的计算机程序产品包括在计算机可读存储介质中实现的计算机可读存储介质 (例如非易失性存储介质)和计算机可读程序代码部分(例如一系列计算机指令)。
这里阐述的本发明的许多修改和其他实施例使得本领域普通技术人员明了涉及的这些发明具有前述说明和相关附图中呈现的教导和优点。因此，可以理解，本发明实施例不限于这里公开的特定实施例，并且旨在将其修改和其他实施例包括在所附权利要求的范围内。尽管这里采用的特定术语，但是他们的使用仅在于一般性和说明性的意义，而并非限制。
权利要求
1.一种方法，包括接收计算机可读文本格式的词条；对多种语言中的每种语言确定所述词条的字母表分数；对多种语言中的每种语言确定所述词条的n元语法频率分数；以及基于所述字母表分数和所述n元语法频率分数的组合确定与所述词条关联的语言。
2. 如权利要求l所述的方法，其中确定字母表分数的步骤包括将与所述词条关联的字符与多种语言中的每种语言的字母表相比较；以及对多种语言中的每种语言生成分数，对多个语言中的每个语言的分数示一个或多个字符的情况。
3. 如权利要求1所述的方法，其中确定n元语法频率分数的步骤包括对于多种语言中的每种语言，将所述词条与所述多种语言中的一个的 n元语法统计相比较。
4. 如权利要求3所述的方法，其中所述词条包括n个字符，以及将所述词条与n元语法统计相比较的步骤包括确定假定所述词条先前有n-l 个字符时所述词条的第n个字符的条件概率。
5. 如权利要求3所述的方法，还包括分别对词条的第一字符和最后字符分配开始字符和停止字符，以结合与所述n元语法统计的每个n元语法概率相关的对应开始字符和停止字符使用。
6. 如权利要求1所述的方法，还包括将多种语言中的每种语言的字母表分数与阈值相比较。
7. 如权利要求6所述的方法，其中仅对所述字母表分数满足所述阈值的多种语言中的那些执行确定n元语法频率分数的步骤。
8. 如权利要求6所述的方法，还包括响应于所述字母表分数没有满足所述阈值，对所述词条分配预定的字母表分数。
9. 如权利要求1所述的方法，其中确定与词条关联的语言的步骤包括响应于所述字母表分数和所述n元语法频率分数的组合提供对于与所述词条关联的语言的不确定结果，基于语言的预定顺序选择与所述词条关联的语言。
10. 如权利要求1所述的方法，其中所述词条是包括输入文本的多个段中的一个；以及确定语言的步骤还包括基于多个段中的每个的字母表分数和n元语法频率分数的累积组合确定与所述输入文本关联的语言。
11. 一种计算机程序产品，包括至少一个计算机可读存储介质，在该介质中存储有计算机可读程序代码部分，所述计算机可读程序代码部分包括用于接收计算机可读文本格式的词条；用于对多种语言中的每种语言确定所述词条的字母第一可执行部分，第二可执行部分，表分数；第三可执行部分, 语法频率分数；以及第四可执行部分，用于对多种语言中的每种语言确定所述词条的n元用于基于所述字母表分数和所述n元语法频率分数的组合确定与所述词条关联的语言。
12. 如权利要求11所述的计算机程序产品，其中所述第二可执行部分包括这样的指令用于将与所述词条关联的字符与多种语言中的每个的字母表相比较；以及对多种语言中的每个生成分数，所述多种语言中的每中无法表示一个或多个字符的情况。
13. 如权利要求11所述的计算机程序产品，其中所述第三可执行部分包括用于对多种语言中的每个，将所述词条与多个语言中的一个的n元语法统计相比较的指令。
14. 如权利要求13所述的计算机程序产品，其中所述词条包括n个字符，以及所述第三可执行部分还包括用于确定假定所述词条先前有n-l 个字符时所述词条的第n个字符的条件概率的指令。
15.如权利要求13所述的计算机程序产品，还包括第五可执行部分，用于分别对所述词条的第一字符和最后字符分配开始字符和停止字符，以结合与n元语法统计的每个n元语法概率关联的对应开始字符和停止字符使用。
16，如权利要求11所述的计算机程序产品，还包括第五可执行部分，用于将所述多种语言中的每个的字母表分数与阈值相比较。
17. 如权利要求16所述的计算机程序产品，其中仅对字母表分数满足所述阈值的所述多种语言中的那些语言执行所述第三可执行部分。
18. 如权利要求16所述的计算机程序产品，还包括第六可执行部分，用于响应于所述字母表分数没有满足所述阈值，对所述词条分配预定的字母表分数。
19. 如权利要求11所述的计算机程序产品，其中所述第四可执行部分包括这样的指令，用于响应于所述字母表分数和所述n元语法频率分数的组合提供对于与所述词条关联的语言的不确定结果，基于语言的预定顺序选择与所述词条关联的语言。
20. 如权利要求11所述的计算机程序产品，其中所述词条是包括输入文本的多个段中的一个；以及其中所述第四可执行部分包括用于基于所述多个段中的每个的字母表分数和n元语法频率分数的累积组合确定与所述输入文本关联的语言的指令。
21. —种i殳备，包括字母表计分部件，被配置为接收计算机可读文和洛式的词条，并对多种语言中的每个计算所述词条的字母表分数；n元语法频率部件，被配置为对所述多种语言中的每个计算所述词条的n元语法频率分数；以及与所述n元语法频率部件和所述字母表计分部件通信的处理部件，所述处理部件被配置为基于所述字母表分数和所述n元语法频率分数的组合确定与所述词条关联的语言。
22. 如权利要求21所述的设备，其中所述字母表计分部件还被配置为将与所述词条关联的字符与所述多种语言中的每个的字母表相比较；以及对所述多种语言中的每个生成分数，对所述多种语言中的每个的分数至少部分地取决于在要计分的多种语言的各个语言的对应字母表中无法表示一个或多个字符的情况。
23. 如权利要求21所述的设备，其中所述n元语法频率部件还被配置为对所述多种语言中的每个，将所述词条与所述多种语言中的一个的n 元语法统计相比较。
24. 如权利要求23所述的设备，其中所述词条包括n个字符，以及其中所述n元语法频率部件还#1配置为确定假定所述词条先前有n-l个字符时该词条的第n个字符的条件概率。
25. 如权利要求23所述的设备，其中所述n元语法频率部件还被配置为分别对所述词条的第一字符和最后字符分配开始字符和停止字符，以结合与所述n元语法统计的每个n元语法概率关联的对应开始字符和停止字符使用。
26. 如权利要求21所述的设备，所述字母表计分部件还被配置为将所述多种语言中的每个的字母表分数与阈值相比较。
27. 如权利要求26所述的设备，其中所述n元语法频率部件还被配置为仅对所述字母表分数满足所述阈值的多个语言中的那些语言计算所述 n元语法频率分数。
28. 如权利要求26所述的设备，其中所述n元语法频率部件还被配置为响应于所述字母表分数没有满足所述阈值，对所述词条分配预定的字母表分数。
29. 如权利要求21所述的设备，还包括分组排序部件，被配置为响应于所述字母表分数和所述n元语法频率分数的组合提供对于与所述词条关联的语言的不确定结果，基于语言的预定义顺序选择与所述词条关联的语言。
30. 如权利要求21所述的设备，其中所述词条是包括输入文本的多个段中的一个；以及其中所述处理部件还被配置为基于所述多个段中的每个段的字母表分数和n元语法频率分数的累积组合确定与所述输入文本关联的语言。
31. 如权利要求21所述的设备，其中所述设备实现为移动终端。
32. —种i殳备，包括用于接收计算机可读文本格式的词条的装置；用于对多种语言中的每个确定所述词条的字母表分数的装置；用于对所述多种语言中的每个确定所述词条的n元语法频率分数的装置；以及用于基于所述字母表分数和所述n元语法频率分数的组合确定与所述词条关联的语言的装置。
33. 如权利要求32所述的设备，还包括用于响应于所述字母表分数和所述n元语法频率分数的组合提供对于与所述词条关联的语言的不确定结果，基于语言的预定义顺序选择与所述词条关联的语言的装置。
全文摘要
一种用于提供基于灵活文本的语言识别的设备，包括字母表计分部件、n元语法频率部件和处理部件。字母表计分部件可被配置为接收计算机可读文本格式的词条，并针对多种语言中的每个计算所述词条的字母表分数。n元语法频率部件可被配置为针对多种语言中的每个计算所述词条的n元语法频率分数。处理部件可与所述n元语法频率部件和所述字母表计分部件通信。所述处理部件还可被配置为基于所述字母表分数和所述n元语法频率分数的组合确定与所述词条关联的语言。
文档编号G06F17/27GK101563683SQ200780046825
公开日2009年10月21日申请日期2007年12月12日优先权日2006年12月18日
发明者B·巴利加, J·埃索-斯皮拉, M·A·哈如申请人:诺基亚公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：B.巴利加;M.A.哈如;J.埃索-斯皮拉
技术所有人：诺基亚公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。