提供基于语言的交互式多媒体系统的方法、装置和计算机程序产品的制作方法

文档序号：2830570阅读：294来源：国知局

专利名称：提供基于语言的交互式多媒体系统的方法、装置和计算机程序产品的制作方法
技术领域：
本发明的实施例总体上涉及语音处理技术，并且更特别地，涉及一种用于为基于语言的交互式多媒体系统提供体系结构的方法、装置和计算机程序产品。
背景技术：
现代通信纪元已经带来了有线和无线网络的极大扩展。计算机网络、电视网络和电话网络正在经历由于用户需求而推动的前所未有的技术扩展。无线和移动组网技术已经解决了相关的消费者需求，同时提供了更为灵活和直接的信息传送。
当前和未来的组网技术继续促进信息传送的容易度和对用户的便利性。其中存在对增加信息传送的容易度的需求的一个方面涉及向移动终端的用户传递服务。服务可以按照用户所期望的特定媒体或通信应用的形式，诸如音乐播放器、游戏机、电子书籍、短消息、电子邮件等。服务也可以按照交互式应用的形式，其中用户可以响应于网络设备，以便实现任务、玩游戏或达到目标。服务可以从网络服务器或其它网络设备或者甚至从移动终端(例如像移动电话、移动电视、移动游戏系统等)来提供。
在很多应用中，用户必须从网络或移动终端接收诸如口头反馈或指令这样的音频信息，或者用户必须向网络或移动终端提供口头指令或反馈。这样的应用可以提供给并不依赖于实质手动用户活动的用户接口。换句话说，用户可以在不需要手或部分需要手的环境中与应用进行交互。这样的应用的例子可以是支付账单、定制节目、请求和接收驾驶指令等。其它应用可以将口头语音转换成文本或者基于所识别的语音来实现某种其它的功
能，诸如口述SMS或电子邮件等。为了支持这些和其它应用，语音识别应用、从文本产生语音的应用以及其它语音处理设备正在变得越来越常见。
可以被称为自动语音识别(ASR)的语音识别可以通过许多不同类型的应用来进行。当前ASR系统在其设计中高度偏向于改进英语语音的识别。这些系统在解码阶段整合关于语言的高级信息，诸如发音和词素 (lexicon)，以1更限制搜索空间。然而，大多数欧洲和亚洲语言在其形态学类型方面不同于英语。因此，如果需要将结果通用于其它更多的混合和/ 或高度屈折变化(inflected)的语言，那么英语可能不是用以研究的理想语言。例如，在欧盟中的20种官方语言彼此都比英语展现了更大程度的混合/屈折变化。现有的整体式ASR体系结构并不适于将该技术扩展到其它语言。即使已经开发了一些多语言ASR系统，每种语言也通常需要其自己的发音建模。因此，由于可用存储器大小和处理功率的限制，常常造成限制在便携式终端中多语言ASR系统的实现。
同时，从文本产生语音的设备(例如，文本到语音(TTS)设备)通常分析文本，并且进行语声(phonetic)和韵律(prosodic)分析，以便生成音素(phonemes)用于输出作为与原始文本的内M关的合成语音。其它设备可以采用输入语音并且将该输入转换成不同的话音，这被称为话音转换。概括地，类似上述设备的设备可以被描述为口头语言接口。
尽管诸如上述的口头语言接口正在使用中，然而，当前并不存在用于在单个体系结构中提供这样的设备的整合的令人满意的机制。就此而言，
用于组合ASR和TTS的建议已经被限制于仅向ASR系统所识别的字词提供TTS服务。因此，这样的建议限制了其广泛用途。此外，语言特殊性是很多这样的设备的共同缺点。
因此，可能需要开发克服上述问题的稳健的口头语言接口。

发明内容
因此，为基于口头语言的交互式媒体系统的体系结构提供了一种方法、装置和计算枳4呈序产品。根据本发明的示例性实施例，可以根据输入的类型来检查和处理来自语音处理设备的输入音素的序列，以便使用与输入语音的类型相关联的稳健音素图或点阵(lattice)来进一步处理所述输入音素。因而，举例来说，ASR和TTS输入都可以使用所选择的对应的音素图或点阵来进行处理，以《更提供改进的输出用于在产生合成语音、低比特率编码语音、话音转换、话音到文本转换、基于口头输入的信息检索等中使用。另外，本发明的实施例普遍可应用于所有的口头语言。因此，由于更高质量、更逼真或更准确的输入，可以改进上述任何使用。另外，不一定必须具有语言专用模块，从而改进语音处理设备的能力和效率。
在一个示例性实施例中，提供了一种方法，其提供基于语言的多媒体
系统。所述方法包括基于与音素的输入序列相关联的语音处理的类型来选择音素图，将所述音素的输入序列与所选择的音素图相比较，以及基于该比较来处理所述音素的输入序列。
在另一示例性实施例中，提供了一种计算机程序产品，用于提供基于语言的多媒体系统。所述计算机程序产品包括使计算机可读程序代码部分存储在其中的至少一个计算机可读存储介质。所述计算机可读程序代码部分包括第一、第二和第三可执行部分。第一可执行部分用于基于与音素的输入序列相关联的语音处理的类型来选择音素图。第二可执行部分用于将所述音素的输入序列与所选择的音素图相比较。第三可执行部分用于基于该比较来处理所述音素的输入序列。
在另一示例性实施例中，提供了一种装置，用于提供基于语言的多媒体系统。所述装置包括选择元件、比较元件和处理元件。所述选择元件可以被配置以便基于与音素的输入序列相关联的语音处理的类型来选择音素图。所述比较元件可以被配置以便将所述音素的输入序列与所选择的音素图相比较。所述处理元件可以与所述比较元件进行通信，并且可以,皮配置以使i于该比较来处理所述音素的输入序列。
在另一示例性实施例中，提供了一种设备，用于提供基于语言的多媒体系统。所述设备包括用于基于与音素的输入序列相关联的语音处理的类型来选择音素图的装置；用于将所述音素的输入序列与所选择的音素图相比较的装置；以及用于基于该比较来处理所述音素的输入序列的装置。本发明的实施例可以提供一种方法、装置和计算机程序产品，用于在期望多种类型的语音处理的系统中采用。因此，举例来说，移动终端和其
它电子设备可以从以下能力中受益在不使用单独的模块的情况下，经由可以稳健得足以提供对多种语言的语音处理的单个体系结构来实现各种类型的语音处理。

因而已经概括地描述了本发明的实施例，现在将参照附图，附图并不
一定按比例绘制，并且在附图中
图l是根据本发明的示例性实施例的移动终端的示意框图2是才艮据本发明的示例性实施例的无线通信系统的示意框图3图示了根据本发明的示例性实施例用于提供基于语言的交互式多
媒体系统的系统的框图4A和4B图示了才艮据本发明的示例性实施例处理音素序列的例子的
示意框图；以及
图5是根据本发明的示例性实施例依照用于提供基于语言的交互式多媒体系统的示例性方法的框图。
具体实施例方式
在下文中将参照附图更充分地描述本发明的实施例，在附图中，示出了一些而不是所有的本发明的实施例。实际上，本发明可以以很多不同的形式来体现，并且不应当被解释为限制于在此所阐述的实施例；相反，提供这些实施例以{更本/>开将满足可应用的合法需要。贯穿全文相同的附图标记指的;l相同的元件。
图1图示了将从本发明的实施例受益的移动终端10的框图。然而，应当理解，如图所示以及在下文中描述的移动终端仅是将从本发明的实施例受益的一种类型的移动终端的说明，并且因此，不应当被视为限制本发明的实施例的范围。虽然出于示例的目的图示并且将在下文中描述了移动终端10的若干实施例，但是其它类型的移动终端也可以很容易采用本发明的实施例，例如便携式数字助理(PDA)、寻呼机、移动电视、游戏设备、膝上型计算机、照相机、视频记录仪、GPS设备和其它类型的话音和文本通信系统。此外，并不移动的设备也可以很容易采用本发明的实施例。
下面将主要结合移动通信应用来描述本发明的实施例的系统和方法。然而，应当理解，在移动通信行业中和移动通信行业外都可以结合各种其它应用来利用本发明的实施例的系统和方法。
移动终端10包括与发射机14和接收机16可操作地通信的天线12(或多个天线)。移动终端10进一步包括控制器20或分别向发射机14提Wt 号和从接收机16接收信号的其它处理元件。信号包括依照可应用蜂窝系统的空中接口标准的信令信息，并且还包括用户语音和/或用户生成的数据。就此而言，移动终端10能够利用一个或多个空中接口标准、通信协议、调制类型和接入类型来操作。通过说明，移动终端IO能够依照任何的多个第一、第二和/或第三代通信协议等来操作。例如，移动终端10能够依照第二代(2G)无线通信协议IS-136 (TDMA)、 GSM和IS-95 (CDMA)来操作，或者依照诸如UMTS、 CDMA2000和TD-SCDMA的第三代(3G) 无线通信协议来操作。
应当理解，控制器20包括实现移动终端10的音频和逻辑功能所需要的电路。例如，控制器20可以由数字信号处理器设备、微处理器设备和各种模数转换器、数模转换器以及其它支持电路来构成。移动终端10的控制和信号处理功能根据这些设备相应的能力而被分配在这些设备之间。因而，控制器20还可以包括用于在调制和传输之前进行巻积编码以及交织消息和数据的功能性。控制器20可以另外包括内部语音编码器，并且可以包括内部数据调制解调器。此外，控制器20可以包括用于操作可存储在存储器中的一个或多个软件程序的功能性。例如，控制器20能够操作连通性程序，例如常规Web浏览器。然后，连通性程序可以根据例如无线应用协议 (WAP)允许移动终端lO传送和接收Web内容，例如基于位置的内容。
移动终端IO还包括用户接口，该用户接口包括输出设备，诸如常规耳机或扬声器24、振铃器22、扩音器26、显示器28，以及用户输入接口，它们都耦合到控制器20。允许移动终端10接收数据的用户输入接口可以包括允许移动终端10接收数据的任何的多个设备，例如键板30、触敏显示器(未示出)或其它输入设备。在包括键板30的实施例中，键板30可以包括常规的数字键(0-9)和相关键(#、 *)，以及用于操作移动终端IO 的其它键。可选地，键板30可以包括常规QWERTY键板布置。键板30 还可以包括具有关联功能的各种软键。另外，或者可选地，移动终端10 可以包括诸如操纵杆或其它用户输入接口的接口设备。移动终端10进一步包括诸如振动电池组的电池34，用于向操作移动终端10所需要的各种电 M电，以及视情况提供机械振动作为可检测的输出。
移动终端IO可以进一步包括用户识别模块(UIM) 38。 UIM38通常是具有内置处理器的存储设备。UIM 38可以包括例如用户身份模块 (SIM )、通用集成电路卡(UICC )、通用用户身份模块(USIM )、可装卸用户识别模块(R-UIM)等。UIM 38通常存储与移动用户有关的信息元素。除了UIM38之外，移动终端IO还可以配备有存储器。例如，移动终端10可以包括易失性存储器40,例如易失性随机访问存储器(RAM), 其包括用于临时存储数据的高速緩存区域。移动终端10还可以包括其它非易失性存储器42，其可以是嵌入式的和/或可装卸的。非易失性存储器42 可以另外或可选地包括诸如从Sunnyvale, California的SanDisk/^司或者 Fremont, California的Lexar Media公司可获得的EEPROM、闪存等。存储器可以存储由移动终端10使用的任何的多个信息段和数据，以便实现移动终端10的功能。例如，存储器可以包括能够唯一地标识移动终端10 的标识符，诸如国际移动设备标识(IMEI)代码。
现在参照图2，其提供了对于从本发明的实施例受益的一种类型的系统的说明。该系统包括多个网络设备。如图所示，一个或多个移动终端10 可以各自包括天线12，用于向基地或基站(BS) 44发射信号和从其接收信号。基站44可以是一个或多个蜂窝或移动网络的一部分，所述一个或多个蜂窝或移动网络各自包括操作网络所需要的元件，例如移动交换中心(MSC )46。本领域的技术人员众所周知，移动网络还可以指代基站/MSC/ 互通功能(BMI)。在操作中，当移动终端IO进行呼叫和接收呼叫时，MSC 46能够路由去往和来自移动终端10的呼叫。当移动终端IO参与呼叫时， MSC46还可以提供到陆线干线的连接。另夕卜，MSC 46能够控制对于去往和来自移动终端10的消息的转发，并且还可以控制去往和来自消息传递中心的对于移动终端IO的消息的转发。应当注意，尽管图2的系统中示出了 MSC46,然而MSC46仅是示例性的网络设备，并且本发明的实施例并不限于在采用MSC的网络中使用。
MSC46可以耦合到数据网络，诸如局域网(LAN)、城域网(MAN) 和/或广域网(WAN)。 MSC 46可以直接耦合到数据网络。然而，在一个典型实施例中，MSC 46耦合到GTW 48,并且GTW 48耦合到诸如因特网50的WAN。转而，诸如处理元件的设备(例如，个人计算机、服务器计算机等)可以经由因特网50耦合到移动终端10。例如，如下所解释的，处理元件可以包括与计算系统52 (图2中示出了两个)、源服务器54 (图 2中示出了一个)等相关联的一个或多个处理元件，如下所述。
BS 44还可以耦合到信令GPRS (通用分组无线电服务)支持节点 (SGSN)56。如本领域4支术人员所知的，SGSN 56通常能够实现类似于用于分组交换服务的MSC 46的功能。类似于MSC46， SGSN56可以耦合到诸如因特网50的数据网络。SGSN 56可以直接耦合到数据网络。然而，在更典型的实施例中，SGSN 56耦合到分组交换核心网络，诸如GPRS 核心网络58 。然后，分组交换核心网络耦合到另一 GTW 48 ，诸如GTW GPRS支持节点(GGSN )60，并且GGSN 60耦合到因特网50。除了 GGSN 60之外，分组交换核心网络也可以耦合到GTW48。此外，GGSN 60可以耦合到消息传递中心。就此而言，类似于MSC46， GGSN 60和SGSN 56 能够控制诸如MMS消息这样的消息的转发。GGSN 60和SGSN 56还能够控制去往和来自消息传递中心的对于移动终端10的消息的转发。
另外，通过将SGSN 56耦合到GPRS核心网络58和GGSN 60 ，诸如计算系统52和/或源服务器54的设备可以经由因特网50、 SGSN 56和GGSN60耦合到移动终端10。就此而言，诸如计算系统52和/或源服务器 54的i殳备可以跨SGSN 56、 GPRS核心网络58和GGSN 60而与移动终端 10进行通信。通过直接或间接地将移动终端10和其它设备(例如，计算系统52、源服务器54等)连接到因特网50，移动终端10可以诸如根据超文本传送协议(HTTP)来与其它设备通信并且相互通信，从而执行移动终端IO的各种功能。
尽管在此并没有示出并且描述每种可能的移动网络的每个元件，然而应当理解，移动终端10可以通过BS 44耦合到一个或多个任何数目的不同网络。就此而言，这些网络能够依照任何的一个或多个数目的第一代(1G )、第二代(2G)、 2.5G和/或第三代(3G)移动通信协议等来支持通信。例如，一个或多个网络能够依照2G无线通信协议IS-136 (TDMA)、 GSM 和IS-95 (CDMA)来支持通信。此外，举例来说，一个或多个网络能够依照2.5G无线通信协议GPRS、增强的数据GSM环境(EDGE )等来支持通信。进一步地，举例来说，一个或多个网络能够依照3G无线通信协议来支持通信，诸如采用宽带码分多址(WCDMA)无线电接入^t支术的通用移动电话系统(UMTS)网络。一些窄带AMPS (NAMPS)以及TACS 网络也可以从本发明的实施例受益，就像双重或更高模式的移动台(例如，数字/才莫拟或TDMA/CDMA/模拟电话)。
移动终端IO可以进一步耦合到一个或多个无线接入点(AP) 62。 AP 62可以包括这样的接入点，即，所述接入点被配置以便依照例如像射频 (RF)、蓝牙(BT)、红外(IrDA)或任何的多个不同无线组网技术的技术来与移动终端io进行通信，包括诸如IEEE 802.11 (例如，802.11a、 802.11b、802.11g、802.11n等)的无线LAN( WLAN M支术、诸如IEEE 802.16 的WiMAX技术和/或诸如IEEE 802.15的超宽带(UWB)技术等。AP 62 可以耦合到因特网50。类似于MSC46， AP62可以直接耦合到因特网50。在一个实施例中，AP62可以经由GTW48间接耦合到因特网50。此外，在一个实施例中，BS44可以被认为是另一 AP62。如应当理解的，通过将移动终端10和计算系统52、源服务器54和/或任何数目的其它设备直接或间接地连接到因特网50，移动终端10可以相互通信、与计算系统等通信，从而执行移动终端10的各种功能，诸如向计算系统52传送数据、内容等，和/或从计算系统52接收内容、数据等。如在此所使用的，术语"数据"、 "内容"、"信息"以及类似术语可以互换地使用，以便指代能够根据本发明的实施例来传送、接收和/或存储的数据。因而，对任何这样的术语的使用都不应当初L视为限制本发明的实施例的精神和范围。
尽管图2中未示出，然而除了或代替通过因特网50将移动终端10耦合到计算系统52，移动终端10和计算系统52可以相互耦合并且根据例如 RF、 BT、 IrDA或任何数目的不同有线或无线通信技术来进行通信，包括 LAN、 WLAN、 WiMAX和/或UWB技术。一个或多个计算系统52可以另外或可选地包括能够存储内容的可装卸存储器，其后所述内容可以被传送到移动终端10。此外，移动终端10可以耦合到一个或多个电子设备，诸如打印机、数字投影仪和/或其它多媒体捕获、产生和/或存储设备(例如，其它终端)。类似于计算系统52，移动终端10可以被配置以便根据例如像 RF、 BT、 IrDA或任何数目的不同有线或无线通信技术(包括USB、 LAN、 WLAN、 WiMAX和/或UWB技术)这样的技术来与便携式电子设备进行通信。
在示例性实施例中，与口头语言接口相关联的数据可以通过图2的系统，在移动终端(其可以类似于图I的移动终端IO)与图2的系统的网络设备之间或者在移动终端之间进行通信。同样，应当理解，不必采用图2 的系统来用于在服务器与移动终端之间的通信，而仅仅是出于示例的目的提供了图2。此外，应当理解，本发明的实施例可以驻留在诸如移动终端 10的通信设备上，或者可以驻留在网络设备或者在通信设备可访问的其它设备上。
现在将参照图3来描述本发明的示例性实施例，其中显示了用于提供基于语言的交互式多媒体系统的体系结构的系统的特定元件。出于示例的目的，将结合图1的移动终端10来描述图3的系统。然而，应当注意，还可以结合各种其它设备(移动的和固定的这二者)来釆用图3的系统，并且因此，本发明的实施例不应当限于在诸如图1的移动终端10这样的i殳备上的应用。还应当注意，虽然图3图示了用于提供智能同步的系统的配置的一个例子，但是还可以使用多种其它配置来实现本发明的实施例。
现在参照图3，提供了系统68，其用于提供基于语言的交互式多媒体系统的体系结构。系统68包括与音素处理器74进行通信的第一类型的语音处理元件(诸如ASR元件70 )和第二类型的语音处理元件(诸如TTS 元件72)。如图3所示，在一个实施例中，音素处理器74可以经由语言标识LID元件76来与ASR元件70和TTS元件72通信。
ASR元件70可以是以能够基于输入语音信号78产生音素序列的硬件、软件或者硬件和软件的组合来体现的任何设备或装置。图3图示了 ASR 元件70的一个示例性结构，但是其它结构也是可能的。就此而言，ASR 元件70可以包括两个源单元，这两个源单元包括联机的音素配列
(phonotactic ) /发音建模元件80 (例如，文本到音素(TTP )映射元件)、声学模型(AM)元件82，以及音素识别元件84。音素配列/发音建模元件 80可以包括用于存储在发音辞典中的至少一种语言的音素定义和发音才莫型。同样，可以按照字符单元的序列(文本序列)的形式以及按照音素单元的序列(音素序列)的形式来存储字词。音素单元的序列表示字符单元的序列的发音。当字母映射到不止一个音素时，还可以使用所谓的假音素
(pseudophoneme )单元。AM元件82可以包括用于每个音素或音素单元的声学发音模型。音素识别元件84可以被配置以便基于由AM元件82和音素配列/发音建才莫元件80所提供的数据，将输入语音信号分解成音素的输入序列86。
音素单元的表示可以取决于所使用的音素标注系统。可以使用若干不同的音素标注系统，例如，SAMPA和IPA。 SAMPA (语音评估方法语声字母表)是机器可读的语声字母表。国际语声协会为许多语言的语声表示提供了标注标准一国际音标(IPA)。
ASR元件70可以包括单语言ASR能力或多语言ASR能力。如果ASR 元件70包括多语言能力，则ASR元件70可以包括用于每种语言的单独的TTP才莫型。此外，作为对所说明的图3的实施例的备选方案，多语言ASR 元件可以包括自动语言标识(LID)元件，其基于语言标识模型找到口头字词的语言身份。因此，当语音信号被输入到多语言ASR元件中时，可以首先进^f亍对所使用的语言的估计。在知道了语言身份之后，可以应用适当的联机TTP建模方案，以便为词汇项找到匹配的音素记录(transcription )。最后，可以将用于每个词汇项的识别模型构造为由音素记录所指定的多语言声学才莫型的级联。使用这些基本模型，ASR元件70原则上可以在没有用户任何帮助的情况下自动处理多语言词汇项。
然而，如图3所示，LID元件76可以体现为置于ASR元件70与音素处理器74之间的单独的元件。另外，TTS元件72的输出也可以被输入到 LID元件76中。还应当理解，LID元件76可以是音素处理器74的一部分，或者LID元件76可以被布置成接收音素处理器的输出。在任何情况下， LID元件76都可以是按照能够进行以下操作的硬件、软件或者硬件和软件的组合来体现的任何设备或装置接收音素的输入序列86并且确定与音素的输入序列86相关联的语言。在示例性实施例中，当从TTS元件72接收到音素的输入序列86时，LID元件84可以被配置以便自动确定与音素的输入序列86相关联的语言。然而，当从ASR元件70接收到音素的输入序列86时，LID元件84可以合并关于以下区域的区域信息，即，在该区域中，系统68被出售或以其它方式被期望操作。同样，LID元件84可以合并与以下语言有关的信息，即，基于该区域信息很可能遇到该语言。一旦 LID元件76已经确定与音素的输入序列86相关联的语言，便可以将对于所确定的语言的指示传送到音素处理器74。
TTS元件72可以与ASR元件70基于类似的元件，尽管这样的元件和相关的算法已经从不同的角度进行开发。就此而言，ASR元件70基于输入语音信号78来输出音素的输入序列86，而TTS元件72基于输入文本88来输出音素的输入序列86。 TTS元件72可以是按照能够进行以下操作的硬件、软件或者硬件和软件的组合来体现的任何设备或装置接收输入文本88并基于输入文本88来产生音素的输入序列86，例如经由诸如文本分析、语声分析以及韵律分析这样的过程。同样，TTS元件72可以包括文本分析元件90、语声分析元件92以及韵律分析元件94，用于实现如上所述的相应分才斤。
就此而言，TTS元件72可以首先接收输入文本88，并且文本分析元件卯可以例如将非写出表达(诸如数字和缩写)转换成对应的写出词的等效。随后，在文本预处理阶段，每个词都可以被馈送到语声分析元件92, 在其中，语声记录被分配到每个词。语声分析元件92可以采用与以上关于 ASR元件70所描述的类似的文本到音素(TTP)转换。最后，韵律分析元件92可以将文本和文本的标记段分成各种韵律单元，像短语、从句和句子。语声记录和韵律信息的组合构成了 TTS元件72的符号语言表示输出，其可以被输出为音素的输入序列86。音素的输入序列86可以直接或间接地经由LID元件76被传送到音素处理器74。如果希望重放文本，则可以将符号语言表示输入到合成器，其输出合成的语音波形，即，在音素处理器74处的处理之后实际的声音输出。
音素处理器74可以是按照能够进行以下操作的硬件、软件或者硬件和软件的组合来体现的任何设备或装置接收音素的输入序列86、检查音素的输入序列86，以及将音素的输入序列86与所选择的音素图进行比较，其中基于是从第一还是第二类型的语音处理元件接收到音素的输入序列来选棒音素图。相应地，音素处理器74可以被配置以便处理音素的输入序列 86，从而改进与音素的输入序列86相关联的质量测量，以便音素处理器 74的输出可以用于驱动可用于与系统68连接的许多输出设备中的任何输出设备。在示例性实施例中，质量测量可以是概率测量、失真测量，或者是在评估所处理的语音的精确度和/或逼真度中可以与所处理的语音相关联的任何其它质量度量。在各种示例性实施例中，如果从ASR元件接收到音素的输入序列86,则可以通过优化、最大化或以其它方式增加由系统68 所构造的给定输入音素序列是正确的概率来改进质量测量，或者如果从 TTS元件接收到音素的输入序列86，则可以通过优化、最小化或以其它方式降低与音素的输入序列86相关联的失真测量来改进质量测量。可以相对于目标语音或其它训练数据来进行失真测量。
可以利用音素处理器74的输出来驱动的输出设备可以取决于所提供的输入的类型。例如，如果ASR元件70提供了音素的输入序列86,则输出设备可以包括信息检索元件120、语音到文本解码器元件122、低比特率编码元件124、话音转换元件126等。同时，如果TTS元件72提供了音素的输入序列86,则输出设备可以包括低比特率编码元件124、语音合成元件128、信息检索元件120等。
语音到文本编码器元件122可以是被配置成将输入语音转换成与输入语音相对应的文本的输出的任何设备或装置。通it^解码阶段分离在ASR 元件70中的高级信息(诸如发音和词素)，系统68提供了一种方式来处理并不一定在与系统68相关联的词汇列表中出现的字词。音素处理器74的音素图/点阵体系结构可以包括对后续的音素字词转换有用的信息。语音合成元件128可以包括这样的信息，即该信息用于通过利用来自音素处理器 74的音素图/点阵体系结构的语言和韵律信息来生成增强的语音质量。低比特率编码元件124可以用于在低至500bps或者甚至低于500bps的比特率的情况下进行语音编码，并且可以包括充当语音识别系统的编码器以及用作语音合成器的解码器。编码器可以实现分析阶段中对声学分段的识别以及在解码器中根据分段索引集合的语音合成。编码器可以生成通常来自语言单元(例如，音素、子词单元(subwordunit))的辞典的语音信号的符号记录。相应地，所呈现的数据结构可以提供将要在生成输入语音信号80 的符号记录中使用的语音单元的大量来源。一旦音素被解码，就可以按照非常低的比特率来传输它们的身份连同在解码器中进行合成所需要的韵律信息。话音转换元件126可以启用从源讲话者的话音向目标讲话者的话音的转换。所呈现的数据结构还可以用于话音转换，从而使得基于存储在数据结构中的各种韵律信息以及目标话音特征，首先为源讲话者创建统计才莫型。然后，统计模型的参数可以经历参数调适过程，这可以转换^以便将源讲话者的话音转换成目标讲话者的话音。信息检索元件120可以包括口头文档的数据库，其中，根据所呈现的数据结构来构造每个口头文档(例如，词被分成子词单元，诸如音素)。当用户想要从口头文档的数据库搜索特定数据时，将子词单元的序列而不是整个词被用作搜索模式会是有利的。
因而，音素处理器74的词汇可以是无限制的，并且预先计算音素图/点阵可以是高效的。
音素处理器74可以包括处理元件100或者以其它方式4皮处理元件100 控制。音素处理器74还可以包括存储元件102或者以其它方式与存储元件 102通信，存储元件102存储了第一类型的音素图/点阵104和第二类型的音素图/点阵106。音素处理器74还可以包括选择元件108以及比较元件 110。选择元件108和比较元件110可以各自是按照能够分别执行选择元件 108和比较元件110的相应功能(如下面较为详细描述的)的硬件、软件或者硬件和软件的组合来体现的任何设备或装置。就此而言，选择元件108 可以被配置以便检查音素的输入序列86，从而确定音素的输入序列86是对应于第一类型的语音处理元件(例如，ASR元件70)还是第二类型的语音处理元件(例如，TTS元件72 )。选择元件108还可以被配置以便基于音素的输入序列86的起源(即，音素的输入序列86的源是ASR元件70 还是TTS元件72 )来选择第一类型的音素图/点阵104或第二类型的音素图/点阵106中的一个。同时，比较元件110可以被配置以便将音素的输入序列86与所选择的音素图进行比较。换句话说，比较元件110可以被配置以使羞于与音素的输入序列86相关联的确定类型的语音处理元件，将音素的输入序列86与第一类型的音素图/点阵104 (例如，ASR音素图)或第二类型的音素图/点阵106 (例如，TTS音素图)中对应的一个进行比较。
在示例性实施例中，音素处理器74可以在可执行应用形式的软件中体现，其可以在处理元件IOO (例如，图1的控制器20)的控制下操作，处理元件100可以执行与可执行应用相关联的指令，这些指令存储在存储器 102处或者以其它方式对于处理元件100来说是可访问的。如在此所述的处理元件可以以4艮多方式来体现。例如，处理元件100可以体现为处理器、协处理器、控制器或者各种其它的处理装置或设备，包括例如像ASIC(专用集成电路)的集成电路。存储元件102可以是例如移动终端10的易失性存储器40或非易失性存储器42，或者可以是由音素处理器74的处理元件 100可访问的另外的存储设备。
第一类型的音素图/点阵104可以是，例如，与基于统计概率的最可能的音素序列有关的信息的图或点P车。就此而言，第一类型的音素图/点阵104 可以被配置以便提供在输入音素序列与结M个当前音素而追随的最可能的音素之间的基于概率的比较。通过比较音素的输入序列86与第一类型的音素图/点阵104,语言处理器74可以优化或以其它方式增加以下概率，即语言处理器的输出产生了被处理的语音，其具有与输入语音信号78的逼真和精确的相关性。
图4A和图4B图示了处理用于话语"please be quite (请安静)"(其可以是句子或更大短语中的一部分)的音素序列的示例性实施例。就此而言，应当理解，图4A和图4B的每个圆圏代表可能的音素，并且在不同圆圏之间的每个箭头具有相关联的权重，该权重是基于后续音素可能追随当前音素的概率来确定的。同样，通过基于在每个中间音素之间的权重来确定经过该图产生最高概率结果的路径，音素处理器74可以处理音素的输入序列86。因而，音素处理器74的输出可以是经修改的音素的输入序列，其被修改以便最大化或以其它方式增加与修改的音素的输入序列相关联的概率测量。图4A示出了其中将音素点阵用作语音识别系统的输出的实施例。如可从图4A看出的，根据每个对应音素序列的似然性，该话语可以卑皮转换成文本，例如"Please pick white" 、 "Please be quite"或"Plea beak white"。图4B示出了其中将音素点阵用作语音合成系统的输入的实施例。在语音合成的情况下，可以在韵律分析之后，在文本处理模块的输出处形成音素点阵。在点阵中的链接包括与语音输出的逼真度有关的权重。可以根据最小失真(即，最大逼真度)的路径来选择用于合成的音素。应当注意，图4A和图4B仅是示例性的，并且因而，除了图4A和图4B所示的之外的很多其它音素选项也是可能的。图4A和图4B仅示出了几个这样的选项，以便提供在描述示例性实施例中使用的简单例子。
第二类型的音素图/点阵106可以是，例如，与诸如训练数据这样的脱机收集的数据有关的信息的图或点阵，其中，训练数据可以用于与音素的
输入序列86相比较，以便提供来自音素处理器74的改进的质量(例如，更逼真或更精确的)输出。就此而言，第二类型的音素图/点阵106可以被配置以〗更提供在输入音素序列与和例如韵律、持续时间(例如，开始和结束时间)、讲话者特征等有关的信息之间的基于失真测量的比较。因而，举例来说，目标话音特征(例如，与合成语音目标讲话者相关联的数据)、子词单元，以及各种韵律信息(诸如语音的时序和腔调)可以用作元数据，用于通过降低失真测量或某些其它质量标记来处理音素的输入序列86。通过将音素的输入序列86与第二类型的音素图/点阵106相比较，语言处理器74可以优化或以其它方式降低在产生被处理的语音(其具有与输入文本 88的逼真和精确的相关性)中，通过语音处理器74的输出所展现的失真测量。
在示例性实施例中，处理元件100可以接收对于与音素的输入序列86 相关联的语言的指示。响应于该指示，处理元件100可以被配置以便在语言特定的第一或第二类型的音素图/点阵中选择相应的一个。然而，在示例性实施例中，与音素的输入序列86相关联的语言可以简单地被用作结合第一类型的音素图/点阵104或第二类型的音素图/点阵106来使用的元数据。换句话说，在一个示例性实施例中，第一类型的音素图/点阵104和/或第二类型的音素图/点阵106可以体现为具有与多种语言相关联的信息的单个图，在这多种语言中，标识语言的元数据可以被用作在处理音素的输入序列86时的因素。因而，第一类型的音素图/点阵104和/或第二类型的音素图/点阵106可以是多语言音素图，从而将本发明的实施例的可应用性扩展超出多个语言模块而到单个综合体系结构的利用。
本发明的实施例可以对便携式多媒体设备有用，因为系统68的元件可以以存储高效的方式被i殳计。就此而言，由于可以将不同类型的语音处理或口头语言接口集成到被配置成基于提供输入的口头语言接口或语音处理的类型来处理音素的序列的单个体系结构中，因此可以最小化存储空间。另外，将诸如ASR和TTS这样的主要的口头语言接口技术集成到单个框架中可以促进高效的设计以及将设计扩展到不同的语言。另外，可以增强诸如交互式移动游戏和口头对话系统这样的交互式多媒体应用。例如，可
以使得播放器能够使用他/她的话音，通过利用用于解译命令的ASR元件 70来控制游戏。还可以使得播放器能够对游戏中的人物进行编程，以便通过利用例如语音合成来按照播放器所选择的话音说话。另外或可选地，系统68可以以低比特率将播放器的话音传输到另一终端，其中另一播放器可以使用语音编码和/或话音转换，通过将播放器的话音转换成目标话音来操纵播放器的话音。
图5是根据本发明的示例性实施例的系统、方法和程序产品的流程图。应当理解，流程图的每个块或步骤以及流程图中的块的组合可以通过诸如硬件、固件和/或软件(包括一个或多个计算机程序指令)的各种装置来实现。例如，上述一个或多个过程可以通过计算机程序指令来体现。就此而言，体现上述过程的计算机程序指令可以通过移动终端的存储设备来存储，并且通过移动终端中的内置处理器来执行。如将理解的，任何这样的计算机程序指令都可以被加载到计算机或其它可编程装置(即，硬件)上以便产生机器，从而使得在计算机或其它可编程装置上执行的指令创建用于实现流程图块或步骤中所指定的功能的装置。这些计算机程序指令还可以存储在计算机可读存储器中，计算机可读存储器可以指导计算机或其它可编程装置以特定方式起作用，从而使得存储在计算机可读存储器中的指令产
生包括实现在流程图块或步骤中所指定的功能的指令装置的制品。计算机程序指令还可以被加载到计算机或其它可编程装置上，以便使得一系列操
作步骤在计算机或其它可编程装置上执行，从而产生计算机实现的过程，
以便在计算机或其它可编程装置上执行的指令提供用于实现在流程图块或
步骤中所指定的功能的步骤。
相应地，流程图的块或步骤支持用于实现指定功能的装置的組合、用于实现指定功能的步骤的组合，以及用于实现指定功能的程序指令装置。还应当理解，可以通过基于专用硬件的计算机系统(其执行指定功能或步骤)或者专用硬件和计算机指令的组合来实现流程图中的一个或多个块或步骤以及流程图中的块或步骤的组合。
就此而言，提供基于语言的交互式多媒体系统的方法的一个实施例可
以包括检查音素的输入序列，以便在操作210处，基于与音素的输入序列相关联的语音处理的类型来选择音素图。在示例性实施例中，操作210可以包括选择与从自动语音识别元件所接收到的音素的输入序列相对应的第一音素图或者与从文本到语音元件所接收到的音素的输入序列相对应的第二音素图中的一个。在操作220，可以将音素的输入序列与所选择的音素图相比较。在操作230，可以基于该比较来处理音素的输入序列。在示例性实施例中，操作230可以包括基于所选择的音素图来修改音素的输入序列，以便改进所修改的音素的输入序列的质量测量。举例来说，质量测量可以通过增加概率测量或降低与所修改的音素的输入序列相关联的失真测量来进行改进。在示例性实施例中，该方法可以包括确定与音素的输入序列相关联的语言的任选初始操作200。所确定的语言可以用于选择对应的音素图，然而可选地，该音素图可以应用于多个不同的语言。
可以以很多方式来实现上述功能。例如，用于实现上述每个功能的任何适当的装置都可以用于实现本发明的实施例。在一个实施例中，所有或部分本发明的元件通常在计算机程序产品的控制下操作。用于执行本发明的实施例的方法的计算机程序产品包括在计算机可读存储介质中体现的诸如非易失性存储介质的计算机可读存储介质以及诸如一系列计算机指令的计算机可读程序代码部分。
从前述描述和关联附图中所呈现的教导中受益的本发明所属领域的技术人员将会想到在此阐述的本发明的很多修改和其它实施例。因此，应当理解，本发明的实施例并不限于所公开的具体实施例，并且旨在将修改和其它实施例包括在所附权利要求的范围之内。尽管在此采用了特定的术语，然而它们仅在一般性和描述性的意义上来^f吏用，而并不用于限制的目的。
权利要求
1.一种方法，其包括基于与音素的输入序列相关联的语音处理的类型来选择音素图；将所述音素的输入序列与所选择的音素图相比较；以及基于所述比较来处理所述音素的输入序列。
2. 根据权利要求1所述的方法，其中选择音素图包括选择第一音素图或第二音素图中的一个，所述第一音素图与从自动语音识别元件所接收到的音素的输入序列相对应，所述第二音素图与从文本到语音元件所接收到的音素的输入序列相对应。
3. 根据权利要求2所述的方法，其中选择音素图进一步包括选择包括与韵律信息、持续时间和讲话者特征有关的元数据的第二音素图。
4. 根据权利要求3所述的方法，其进一步包括确定与所述音素的输入序列相关联的语言。
5. 根据权利要求4所述的方法，其中选择音素图进一步包括选择与所确定的语言相对应的音素图。
6. 根据权利要求l所述的方法，其中选择音素图进一步包括选择与多个语言相对应的单个音素图。
7. 根据权利要求1所述的方法，其中处理所述音素的输入序列包括基于所选择的音素图来修改所述音素的输入序列，以便改进所修改的音素的输入序列的质量测量。
8. 根据权利要求7所述的方法，其中处理所述音素的输入序列进一步包括基于所选择的音素图来修改所述音素的输入序列，以便增加所修改的音素的输入序列的概率测量。
9. 根据权利要求7所述的方法，其中处理所述音素的输入序列进一步包括基于所选择的音素图来修改所述音素的输入序列，以便降低所修改的音素的输入序列的失真测量。
10. —种计算机程序产品，其包括使计算机可读程序代码部分存储在其中的至少一个计算机可读存储介质，所述计算机可读程序代码部分包括第一可执行部分，用于基于与音素的输入序列相关联的语音处理的类型来选择音素图；第二可执行部分，用于将所述音素的输入序列与所选择的音素图相比较；以及第三可执行部分，用于基于所述比较来处理所述音素的输入序列。
11. 根据权利要求10所述的计算4几程序产品，其中所述第一可执行部分包括用于选择第一音素图或第二音素图中的一个的指令，所述第一音素图与从自动语音识别元件所接收到的音素的输入序列相对应，所述第二音素图与从文本到语音元件所接收到的音素的输入序列相对应。
12. 根据权利要求11所述的计算机程序产品，其中所述第一可执行部分包括用于选择包括与韵律信息、持续时间和讲话者特征有关的元数据的第二音素图的指令。
13. 根据权利要求12所述的计算机程序产品，其进一步包括第四可执行部分，用于确定与所述音素的输入序列相关联的语言。
14. 根据权利要求13所述的计算机程序产品，其中所述第一可执行部分包括用于选择与所确定的语言相对应的音素图的指令。
15. 根据权利要求10所述的计算机程序产品，其中所述第一可执行部分包括用于选择与多个语言相对应的单个音素图的指令。
16. 根据权利要求10所述的计算积一呈序产品，其中所述第三可执行部分包括用于基于所选择的音素图来修改所述音素的输入序列，以便改进所修改的音素的输入序列的质量测量的指令。
17. 根据权利要求16所述的计算机程序产品，其中所述第三可执行部分包括用于基于所选择的音素图来修改所述音素的输入序列，以便增加所修改的音素的输入序列的概率测量的指令。
18. 根据权利要求16所述的计算机程序产品，其中所述第三可执行部分包括用于基于所选择的音素图来修改所述音素的输入序列，以便降低所修改的音素的输入序列的失真测量的指令。
19. 一种装置，其包括选择元件，所述选择元件被配置以便基于与音素的输入序列相关联的语音处理的类型来选择音素图；比较元件，所述比较元件被配置以便将所述音素的输入序列与所选择的音素图相比较；以及处理元件，所述处理元件与所述比较元件进行通信，并且被配置以使，基于所述比较来处理所述音素的输入序列。
20. 根据权利要求19所述的装置，其中所述选择元件被进一步配置以便选择第一音素图或第二音素图中的一个，所述第一音素图与从自动语音识别元件所接收到的音素的输入序列相对应，所述第二音素图与从文本到语音元件所接收到的音素的输入序列相对应。
21. 根据权利要求20所述的装置，其中所i^择元件被进一步配置以便选择包括与韵律信息、持续时间和讲话者特征有关的元数据的第二音素图。
22. 根据权利要求21所述的装置，其进一步包括语言标识元件，用于确定与所述音素的输入序列相关联的语言。
23. 根据权利要求22所述的装置，其中所述选择元件被进一步配置以便选择与所确定的语言相对应的音素图。
24. 根据权利要求19所述的装置，其中所述选择元件被进一步配置以便选择与多个语言相对应的单个音素图。
25. 根据权利要求19所述的装置，其中所述处理元件被进一步配置以便基于所选择的音素图来修改所述音素的输入序列，从而改进所修改的音素的输入序列的质量测量。
26. 根据权利要求25所述的装置，其中所述处理元件被进一步配置以便基于所选择的音素图来修改所述音素的输入序列，从而增加所修改的音素的输入序列的概率测量。
27. 根据权利要求25所述的装置，其中所述处理元件被进一步配置以便基于所选择的音素图来修改所述音素的输入序列，从而降低所修改的音素的输入序列的失真测量。
28. 根据权利要求19所述的装置，其中所述装置被体现为移动终端。
29. —种设备，其包括用于基于与音素的输入序列相关联的语音处理的类型来选择音素图的装置；用于将所述音素的输入序列与所选择的音素图相比较的装置；以及用于基于所述比较来处理所述音素的输入序列的装置。
30. 根据权利要求29所述的设备，其中用于选择音素图的装置进一步包括用于选择第一音素图或第二音素图中的一个的装置，所述第一音素图与从自动语音识别元件所接收到的音素的输入序列相对应，所述第二音素图与从文本到语音元件所接收到的音素的输入序列相对应。
全文摘要
一种用于提供基于语言的交互式多媒体系统的装置，其包括选择元件、比较元件和处理元件。所述选择元件可以被配置以便基于与音素的输入序列相关联的语音处理的类型来选择音素图。所述比较元件可以被配置以便将所述音素的输入序列与所选择的音素图相比较。所述处理元件可以与所述比较元件进行通信，并且可以被配置以便基于该比较来处理所述音素的输入序列。
文档编号G10L13/04GK101542590SQ200780042946
公开日2009年9月23日申请日期2007年11月9日优先权日2006年11月28日
发明者S·西瓦达斯申请人:诺基亚公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S.西瓦达斯
技术所有人：诺基亚公司
我是此专利的发明人

上一篇：用于提供语音识别的方法和系统的制作方法
上一篇：用于解码音频信号的方法和装置的制作方法