用于共享调适语音简档的方法和设备与流程

文档序号:12678416阅读:230来源:国知局
用于共享调适语音简档的方法和设备与流程

相关申请的交叉引用

本申请要求于2013年4月29日提交的美国专利申请第13/872,401号和于2013年2月20日提交的美国临时申请第61/767,235号的优先权,通过引用将其全部公开内容结合于此。

技术领域

本公开示例实施例涉及一种用于共享调适语音简档的方法和设备。



背景技术:

诸如个人计算机、膝上型计算机、平板计算机、蜂窝电话之类的计算系统以及许多其他类型的计算系统在现代生活的许多方面中正越来越普遍。随着计算机变得日益增多地与用户的日常生活结合,用户用来与计算设备交互的用户界面的方便性、高效性和直观性变得日益重要。

具体来说,“云计算”是指经由计算机网络提供计算资源。在传统的计算模型中,数据和软件两者都被完全包含在用户的计算机中。然而,在云计算中,用户的计算机可包含相对较少的软件或者数据(例如,可能最小限度的操作系统和web浏览器),并且可用作用于发生在计算机网络上的过程的显示终端。为云计算服务(或者甚至现有云服务的聚集)而提供的常见缩写是“云”。

云计算被称为“客户端-服务器计算”,然而,在一般的云计算与客户端-服务器计算之间可存在区别。例如,客户端-服务器计算可包括在资源或者服务的提供者(例如,服务器)与服务请求者(例如,客户端)之间分割任务或者工作负载的分布式应用结构。客户端-服务器计算一般涉及服务器与客户端之间的一对一关系,而云计算包括通用客户端可访问的通用服务(例如,可能不要求一对一关系或者连接)。因此,云计算一般包括客户端-服务器计算,以及额外的服务和功能。

云计算可通过在用户的计算机上使用更简单硬件、而该计算机访问计算资源的巨大网络(例如,处理器、硬盘等等)来使用户免于某些硬件和软件的安装和维护任务。对资源的共享对于个人来说可降低成本。因此,任何连接到云的计算机可连接到同一个计算能力、应用和文件的池。用户可存储和访问诸如音乐、图片、视频和书签之类的个人文件,或者玩游戏,或者使用远程服务器上的生产型应用而非物理地携带诸如DVD或者USB闪存驱动之类的存储介质。

此外,云计算还可使得用户能够与其(一个或多个)计算设备也连接到云的其他用户共享个人文件。作为示例,最初只有一个用户可访问特定文件或者文件组。用户可授权(例如,经由文件系统许可)另外的用户或者用户组以使其有相同的(或者限制的)对特定文件或文件组的访问权限。其他(一个或多个)用户则可依据原始用户给他们的许可来查看、编辑和/或共享该特定文件或者文件组。



技术实现要素:

在一个方面中,描述了一种方法。该方法可包括在计算系统处接收一个或多个话音样本(speech sample),并且一个或多个话音样本包括多个口说话语(spoken utterance)。该方法还可包括在计算系统处确定与多个口说话语的语者相关联的语音简档(voice profile),并且语音简档包括基于针对一个或多个话音样本的话音模型的个性化的语者的调适语音(adapted voice)。更进一步地,该方法可包括在计算系统处接收与所确定的语音简档相关联的授权简档,并且授权简档包括与一个或多个相应的用户相关联的一个或多个用户标识符。再进一步地,该方法可包括,至少部分基于授权简档,计算系统向与一个或多个相应的用户相关联的至少一个计算设备提供语音简档。

在另一方面中,描述了一种计算机可读介质,其上存储有可由计算系统运行以使得该计算系统执行功能的指令。所述功能可包括接收包括多个口说话语的一个或多个话音样本。所述功能还可包括确定与多个口说话语的语者相关联的语音简档,并且语音简档包括基于针对一个或多个话音样本的话音模型的个性化的语者的调适语音。更进一步地,所述功能可包括接收与所确定的语音简档相关联的授权简档,并且授权简档包括与一个或多个相应的用户相关联的一个或多个用户标识符。再进一步地,所述功能可包括,至少部分基于授权简档,向与一个或多个相应的用户相关联的至少一个计算设备提供语音简档。

在又一个方面中,描述了一种系统。该系统可包括至少一个处理器。该系统还可包括数据存储装置,该数据存储装置包括可由至少一个处理器运行以使得系统执行功能的指令。所述功能可包括接收一个或多个话音样本,并且一个或多个话音样本包括多个口说话语。所述功能还可包括确定与多个口说话语的语者相关联的语音简档,并且语音简档包括基于针对一个或多个话音样本的话音模型的个性化的语者的调适语音。更进一步地,所述功能可包括接收与所确定的语音简档相关联的授权简档,并且授权简档包括与一个或多个相应的用户相关联的一个或多个用户标识符。再进一步地,所述功能可包括,至少部分基于授权简档,向与一个或多个相应的用户相关联的至少一个计算设备提供语音简档。

在又一个方面中,可提供一种系统,其包括用于接收一个或多个话音样本的装置,并且一个或多个话音样本包括多个口说话语。所述系统还可包括用于确定与多个口说话语的语者相关联的语音简档的装置,并且语音简档包括基于针对一个或多个话音样本的话音模型的个性化的语者的调适语音。更进一步地,所述系统可包括用于接收与所确定的语音简档相关联的授权简档的装置,并且授权简档包括与一个或多个相应的用户相关联的一个或多个用户标识符。再进一步地,所述系统可包括,用于至少部分基于授权简档,向与一个或多个相应的用户相关联的至少一个计算设备提供语音简档的装置。

在又一个方面中,描述了一种用于共享调适语音简档的方法。该方法包括:在计算系统处接收与语音简档相关联的授权简档,所述语音简档包括语者的调适语音,该调适语音基于针对一个或多个话音样本的话音模型的个性化,其中所述一个或多个话音样本包括由所述语者口说的多个话语,其中所述授权简档标识一个或多个相应的其他用户,所述一个或多个相应的其他用户与所述语者不同,并且被授权在与所述一个或多个相应的其他用户相关联的至少一个其他计算系统上使用所述语音简档;以及至少部分基于所述授权简档,所述计算系统向与所述一个或多个相应的其他用户相关联的所述至少一个其他计算系统提供所述语音简档。

在又一个方面中,描述了一种用于共享调适语音简档的设备。该设备包括:接收与语音简档相关联的授权简档的部件,所述语音简档包括语者的调适语音,该调适语音基于针对一个或多个话音样本的话音模型的个性化,其中所述一个或多个话音样本包括由所述语者口说的多个话语,其中所述授权简档标识一个或多个相应的其他用户,所述一个或多个相应的其他用户与所述语者不同,并且被授权在与所述一个或多个相应的其他用户相关联的至少一个其他计算系统上使用所述语音简档;以及至少部分基于所述授权简档向与所述一个或多个相应的其他用户相关联的所述至少一个其他计算系统提供所述语音简档的部件。

本领域普通技术人员通过阅读一下酌情参照附图的详细描述将清楚这些和其他方面、优点和替换方案。

附图说明

图1图示了其中可实现示例方法的基于云的计算的示例系统。

图2图示了示例计算设备的示意图。

图3图示了示例客户端设备的示意图。

图4图示了示例方法的流程图。

图5图示了依照示例方法的示例系统。

图6A-6B图示了被配置成依照示例方法执行功能的示例客户端设备。

具体实施方式

在下列详细描述中,参考形成该详细描述的一部分的附图。在图中,类似的符号通常标识类似的组件,除非上下文另外规定。在详细描述、图以及权利要求书中描述的说明性实施例并不意图进行限制。其他实施例可被利用,并且其他改变可被作出,而不脱离本文提出的主题的范围。将容易理解,如本文一般描述的以及在图中图示的本公开的各方面可按多种不同的配置来布置、替代、组合、分离和设计,所有这些在本文中都被明确地设想到了。

特别地,下列详细描述可在一些示例中公开可利用云计算的用于共享调适语音简档的系统和方法。在一个方面中,包括至少一个计算设备和至少一个客户端或者移动设备的系统可被配置成执行本文所述的方法。该计算系统可包括被配置成依照本方法来执行功能的一个或多个基于云的计算设备。客户端或者(一个或多个)移动设备可包括一个或多个移动计算设备,诸如智能电话、平板计算机、膝上型计算机等等。(一个或多个)客户端设备还可包括一个或多个非移动计算设备。

然而,“计算系统”、“计算设备”、“移动设备”和“客户端设备”可被配置成执行的功能可额外地或者可替换地由其他设备执行。例如,这样的设备可包括被配置成运行软件应用(例如,互联网浏览器)内的具备语音能力的应用的台式计算机。另外,这样的设备可包括可穿戴设备,诸如手表或眼镜;机器人设备,诸如具有机电能力的计算设备;或者装置,诸如电视,其被配置成接收语音输入(例如,经由耦合到设备/装置的麦克风),产生语音输出,和/或运行基于语音的应用,诸如从文本到语音(text-to-speech,TTS)合成应用。

一般而言,尽管“计算系统”、“计算设备”、“移动设备”和“客户端设备”在本文中作为示例被提及和描述,但是应当理解,本文所述的系统和方法还可利用包括但不限于前述计算设备的各种类型的计算设备来实现。例如,如本文所述的“计算系统”所执行的功能可由一个计算设备或者多个计算设备来执行。另外,如本文所述的“计算设备”所执行的功能可额外地或者可替换地由移动计算设备、服务器、可穿戴计算设备、计算装置等等来执行。作为另一示例,如本文所述的“移动设备”或“客户端设备”所执行的功能可额外地或者可替换地由台式计算机、可穿戴计算设备、计算装置或者其他计算设备,包括移动设备和非移动设备两者来执行。另外,本文所述的功能可由本文所述的一个设备或者任意设备的组合来执行。

示例方法可包括接收一个或多个话音样本。话音样本可表示一个或多个口头输入,包括多个口说话语。例如,可提示(例如,通过移动设备上的应用)移动设备的用户记录话音样本,并且话音样本可被以本地方式存储在移动设备中和/或被提供给另外的计算设备,诸如服务器或者云。额外地,该方法可包括确定语音简档。语音简档可与口说话语的语者相关联,诸如与利用其记录话音样本的移动设备或者其他设备的用户相关联。另外,语音简档可包括语者的调适语音。在一些实例中,话音样本可由计算设备编译以生成类属(generic)话音模型。话音模型然后可通过计算设备或者诸如语者调适服务器(speaker adaptation server)那样的其他设备个性化,以便生成语者的调适语音。话音模型的个性化可基于给定语者的语音的独有特性(例如,频率、节拍、口音等等)。

该方法还可包括接收与所确定的语音简档相关联的授权简档。授权简档可包括与一个或多个相应的用户相关联的一个或多个用户标识符。例如,所确定的语音简档最初可与话音样本的语者(例如,语音简档的“拥有者”)相关联。另外,语者/用户可提供与一个或多个其他用户相关联的用户标识符以便授权一个或多个其他用户访问语音简档(例如,共享语音简档)。因而,该方法还可包括向与一个或多个其他用户相关联的至少一个客户端设备提供语音简档。例如,用户A可创建语音简档,在语音简档的授权简档中指定用户B,从而与用户B共享语音简档。通过与用户B共享语音简档,语音简档可由用户A的移动设备或者由另外的计算设备(例如,经由基于云的计算系统)提供给与用户B相关联的一个或多个计算设备。作为类似的示例,用户A的语音简档可被存储在云中,并且只要用户B被授权访问该语音简档,则用户B就可访问(例如,下载)该语音简档。应当理解,本文所提及的“(一个或多个)客户端设备”可包括前述计算设备中的一个或多个,诸如移动电话、个人计算机等等。

现在将更详细地描述可实现示例实施例的方法、系统和设备。一般而言,所描述的方法可由本文所述的任何计算设备(或者计算设备的组合)和/或本文未描述的那些设备实现。示例系统可采取计算机可读介质的形式,该计算机可读介质上存储有可由处理器运行以提供本文所述的功能的程序指令。因此,示例系统可采取诸如服务器那样的设备或者这样的设备的子系统的形式,其包括其上存储有这种程序指令的这种计算机可读介质。

现在参照附图,图1图示了其中可实现示例方法的用于基于云的计算的示例系统100。基于云的计算泛指在某种程度上可在客户端与服务器设备之间划分应用运行和存储的联网计算机架构。“云”可以是指例如由客户端和服务器设备通过网络(例如,互联网)可访问的服务或一组服务。

在一些情形中,连接到云的任何计算机可连接到同一个计算能力、应用和文件的池。因此,云计算实现了可配置计算资源(例如,网络、服务器、存储装置、应用和服务)的共享池,该共享池可利用最小的管理努力或服务提供者交互来提供和释放。用户可存储和访问诸如音乐、图片、视频和书签之类的个人文件,或者玩游戏,或者使用远程服务器上的生产型应用而非以物理方式带着存储介质。

在其他情形中,与主要基于客户端或基于服务器的应用相比,基于云的应用可在远程服务器设备处存储数据和/或可运行程序逻辑的拷贝,同时允许客户端设备按需要下载这些数据以及程序逻辑中的至少一些以供在客户端设备处运行。在一些示例中,下载的数据和程序逻辑可定制为适合于访问基于云的应用的特定客户端设备(例如,个人计算机、平板计算机、智能电话等等)的能力。此外,在客户端与服务器设备之间划分应用运行和存储例如允许了更多处理由服务器设备执行,以利用服务器设备处理能力和容量。

基于云的计算还可以是指分布式计算架构,其中用于基于云的应用的数据和程序逻辑在一个或多个客户端设备和/或服务器设备之间在近乎实时的基础上共享。这些数据和程序逻辑的一部分可被按需要或者以其他方式动态地递送到访问基于云的应用的各种客户端。这种架构的细节对于客户端设备的用户可以是透明的。例如,访问基于云的应用的移动设备可能未察觉到移动设备从服务器设备接收程序逻辑和/或数据,或者移动设备将处理或存储功能转移到服务器设备。

在图1中,示例系统100包括云102,并且云102可包括云服务104、云平台106、云基础设施108和数据库110。云102可包括更多或更少的组件,并且云服务104、云平台106、云基础设施108和数据库110中的每一个也可包括多个元件。因此,系统100的所描述功能中的一个或多个可被划分到额外的功能或物理组件中,或者可被组合到更少的功能或物理组件中。在其他示例中,额外的功能和/或物理组件可被添加到图1所图示的示例。云计算的递送可涉及多个云组件通过诸如例如web服务和三层架构之类的应用编程接口来相互通信。

云102可表示联网计算机架构,并且在一个示例中,云服务104表示用于处理来自客户端设备的请求的队列。云平台106可包括云的前端并且可耦合到云服务104以执行功能来与客户端设备交互。云平台106可包括用来经由诸如web浏览器之类的用户界面访问云102的应用。云基础设施108可包括云102的计费组件的服务应用,并且因此,可与云服务104交互。

数据库110可表示云102的存储能力,并且因此,可被云服务104、云平台106和/或云基础设施108中的任何一个访问。关于本方法,数据库可包括话音样本数据库、调适语音数据库、语音简档数据库等等中的一个或多个。

系统100还包括耦合到云102的组件或被配置成能够与云102的组件通信的许多客户端设备。例如,计算机112、主机118和移动设备114、116被示出为耦合到云102。更多或更少的客户端设备可耦合到云102。此外,不同类型的客户端设备可耦合到云102。例如,任何客户端设备通常可包括显示系统、存储器和处理器。另外,客户端设备中的任何一个可被配置成与任何其他一个或多个客户端设备通信以及共享信息,而无需云充当各客户端设备之间的接口。

计算机112可以是任何类型的计算设备(例如,个人计算机、膝上型计算机等等),并且移动设备114、116可以是任何类型的移动计算设备(例如,膝上型计算机、智能电话、蜂窝电话等等)。主机118可以是任何类型的计算设备或发送器,包括膝上型计算机、移动电话等等,其被配置成向云102发送数据。客户端设备中的任何一个可包括额外的组件,诸如例如全球定位系统(GPS)接收器、红外传感器、光学传感器、生物传感器、加速度计等等。

此外,客户端设备中的任何一个可包括允许用户与设备交互的集成用户界面。例如,移动设备114、116中的一个或多个可包括允许用户提供输入的各种按钮和/或触摸屏界面。另外,客户端设备可包括被配置成从用户接收语音命令的麦克风。更进一步地,客户端设备可包括语音用户界面(voice-user-interface,VUI)(例如,“语音控制”),该VUI可允许客户端设备的用户向客户端设备提供话音数据(例如,记录话音样本、提供语音命令等等)以便识别口头输入。话音数据然后可被转变成文本和/或由话音识别系统处理,并且最终可被客户端设备用作用于运行某些计算功能的基础。再进一步地,客户端设备可包括一个或多个应用,该一个或多个应用可由客户端设备的处理器运行,并且被配置成执行TTS合成或其他基于文本/话音的功能。

在图1中,客户端设备与云102之间的通信链路可包括有线连接,诸如串行或并行总线。通信链路也可以是无线链路,诸如链路120,其可包括近距离无线链路、IEEE 802.11(IEEE 802.11可以指IEEE 802.11-2007、IEEE 802.11n-2009或者任何其他IEEE 802.11修订版),或其他基于无线的通信链路。

在其他示例中,系统100可包括客户端设备可通过其与云102通信的接入点。接入点可采取各种形式,例如,接入点可采取无线接入点(wireless access point,WAP)或无线路由器的形式。作为另一示例,如果客户端设备使用蜂窝式空中接口协议(诸如CDMA、LTE或GSM协议)来连接,则接入点可以是经由蜂窝网络提供互联网连接的蜂窝网络中的基站。因而,客户端设备可包括客户端设备可通过其连接到云102(或接入点)的有线或无线网络接口。作为示例,客户端设备可被配置成使用一个或多个协议,诸如802.11、802.16(WiMAX)、LTE、GSM、GPRS、CDMA、EV-DO和/或HSPDA等等。此外,客户端设备可被配置成使用多个有线和/或无线协议,诸如使用蜂窝式通信协议的“3G”或“4G”数据连接(例如,CDMA、GSM或WiMAX以及使用802.11的“WiFi”连接)。其他示例也是可能的。

图2图示了被配置成执行基于云的计算的示例计算设备200的示意图。在一些实施例中,图2中图示的一些组件可跨多个计算设备分布。然而,为了示例,这些组件被示出和描述为一个示例计算设备200的一部分。计算设备200可以是可被配置成执行本文描述的功能的个人计算机、移动设备、膝上型计算机、云、服务器或者类似实体。

计算设备200可包括通信接口202、用户界面204、处理器208、话音处理模块20206和数据存储装置210。图2中所图示的所有组件可通过通信链路212链接在一起。计算设备200还可包括实现计算设备200内的通信以及计算设备200与另外的计算设备(未示出)之间的通信的硬件。所述硬件例如可包括发送器、接收器和天线。

通信接口202可允许计算设备200与另外的设备(未示出)(诸如移动电话、服务器、云等等)通信。因此,通信接口202可被配置成从一个或多个计算设备接收输入数据,并且也可被配置成向一个或多个计算设备发送输出数据。在一些示例中,通信接口202还可维护和管理由计算设备200接收及发送的数据的记录。在其他示例中,数据的记录可由计算设备200的其他组件维护和管理。

用户界面204可包括用户输入设备,诸如键盘、键区、触摸屏、无线计算机鼠标、操纵杆和/或其他现在知道或以后开发的类似设备。用户界面204也可包括用户显示设备,诸如液晶显示器(LCD)、发光二极管(LED)、打印机和/或其他现在知道或以后开发的类似设备。在一些实施例中,用户界面204可包括可向外部用户输入/输出设备发送数据和/或从外部用户输入/输出设备接收数据的软件、电路或者另外形式的逻辑。

额外地,用户界面204可包括VUI,该VUI被配置成接收口头输入(例如,语音命令、话音样本)并且基于接收到的口头输入生成输出数据(例如,经由话音识别)。VUI可包括用于接收口头输入的麦克风或类似的(一个或多个)设备。VUI还可包括被配置成生成可听输出的设备,诸如扬声器、扬声器插孔、音频输出端口、音频输出设备、耳机和/或其他现在知道或以后开发的类似设备。在一些示例中,用户界面204和VUI可被配置成基于非口头输入(例如经由键盘或触摸屏输入的文本)产生可听输出。额外地或者可替换地,用户界面204和VUI可被配置成基于口头输入产生非口头输出(例如,在计算机屏幕上显示的文本)。

关于本文所述的方法,计算设备可从一个或多个客户端设备接收诸如话音样本和授权简档之类的数据,计算设备被配置成与所述一个或多个客户端设备通信(例如,经由通信接口202)。额外地或者可替换地,计算设备可经由用户界面204直接接收数据。一般而言,输入数据可由计算设备直接接收到、从另外的计算设备间接地接收到,或者是它们的某种组合。

话音调适模块206可被配置成基于计算设备所接收到的一个或多个话音样本(或话音样本的集合)来使话音模型个性化,从而确定一个或多个调适语音。话音调适模块206还可被配置成执行一个或多个类型的话音调适,诸如跨语言调适。此外,话音调适模块可包括话音识别模块(例如,文本识别模块),该话音识别模块可被配置成解析接收到的输入(诸如口头的或文本的输入)并且将接收到的输入匹配到基于语法/基于规则的文本模式。因而,话音识别模块可被配置成基于接收到的输入(例如,包含文本或者一个或多个口说话语的指令)来执行功能。

处理器208可包含一个或多个通用处理器(例如,微处理器)和/或一个或多个专用处理器(例如,DSP、GPU、FPU、网络处理器或ASIC)。处理器208可能够运行存储在数据存储装置210中的程序指令214(例如,经编译或未经编译的程序逻辑和/或机器代码)以执行本文所述的各种功能。通过处理器208对程序指令214的运行可引起处理器208参照存储在数据存储装置210中的参考数据216。

数据存储装置210可包括一个或多个易失性和/或非易失性存储组件,诸如磁性、光学、闪存或有机存储装置,并且可整体或部分地与处理器208集成。数据存储装置210还可包括可移除和/或不可移除的组件。更进一步地,数据存储装置210可包括其上存储有程序指令214的非暂态计算机可读介质,程序指令214在由计算设备200运行时使得计算设备200执行本说明书和/或附图中公开的方法、过程或功能中的任何一个。

存储在数据存储装置210中的参考数据216可包括话音样本218、调适语音220、语音简档222和/或授权简档224。例如,存储在参考数据216中的一个或多个话音样本可被话音处理模块208访问。话音处理模块208然后可基于话音样本确定话音模型和(一个或多个)调适语音。

计算设备200(例如,处理器208)可被配置成在接收到来自计算设备200的用户的输入或来自另外的计算设备的输入后访问参考数据216。在一些示例中,计算设备200可被包括在云中,并且参考数据216可用作云的数据库。例如,用户A(以及与用户A相关联的客户端设备)可请求对与用户B相关联的语音简档的访问。假如用户A的用户标识符被用户B包括在语音简档的授权简档中,则计算设备200然后可访问参考数据216并且发送/共享用户B的语音简档给用户A的客户端设备。一般而言,计算设备200可促进各自都与计算设备200通信的一个或多个客户端设备之间的语音简档的共享。然而,应当理解,客户端设备(或多个客户端设备)可被配置成与另一客户端设备(或其他的客户端设备)共享语音简档而无需中间设备(例如,计算设备200)介入。

通信链路212被图示为有线连接,然而,也可使用无线连接。例如,通信链路212可以是诸如通用串行总线那样的有线串行总线或者并行总线。有线连接也可以是专有连接。通信链路212也可以是使用蓝牙无线电技术、蜂窝技术(诸如GSM、CDMA、UMTS、EV-DO、WiMAX或LTE)或紫蜂技术等等的无线连接。一个或多个远程计算设备可以是可经由互联网访问的并且可包括与特定web服务(例如,社交网络、照片共享、地址薄等等)相关联的计算集群。

图3图示了示例客户端设备300的示意图。在一些示例中,图3中所图示的一些组件可跨多个计算设备分布。然而,为了示例,这些组件被示出和描述为一个示例客户端设备300的一部分。客户端设备300可以是可被配置成执行本文所述的功能的智能电话、膝上型计算机、电子邮件/消息传递设备、平板计算机、个人计算机、视频相机、家电(例如,电视、烤炉等等)、可穿戴计算设备或者某种其他类型的设备。

客户端设备300可包括通信接口302、用户界面304、话音处理模块306、处理器308和数据存储装置310。图3中所图示的所有组件可通过通信链路312链接在一起。客户端设备300还可包括实现客户端设备300内的通信以及客户端设备300与一个或多个其他计算设备(未示出)之间的通信的硬件,所述其他计算设备诸如被配置成执行基于云的计算的服务器、移动设备和/或任何计算设备。所述硬件例如可包括发送器、接收器和天线。通信链路312可与如图2中所述的通信链路类似地配置。

通信接口302可允许客户端设备300与一个或多个其他计算设备(诸如图2的计算设备200)通信。因此,通信接口302可被配置成从一个或多个计算设备接收输入数据,并且也可被配置成向一个或多个计算设备发送输出数据。在一些示例中,通信接口302还可维护和管理由客户端设备300接收及发送的数据的记录。在其他示例中,数据的记录可由客户端设备300的其他组件维护和管理。

用户界面304可包括用户输入设备,诸如键盘、键区、触摸屏、无线计算机鼠标、操纵杆和/或其他现在知道或以后开发的类似设备。用户界面304也可包括用户显示设备,诸如液晶显示器(LCD)、发光二极管(LED)、打印机和/或其他现在知道或以后开发的类似设备。在一些实施例中,用户界面304可包括可向外部用户输入/输出设备发送数据和/或从外部用户输入/输出设备接收数据的软件、电路或者另外形式的逻辑。

额外地,用户界面304可包括VUI,该VUI被配置成接收包含一个或多个口说话语的口头输入,并且基于接收到的口头输入生成输出数据。VUI可包括可耦合到客户端设备300的用于接收口头输入的麦克风或类似的(一个或多个)设备。VUI还可包括可耦合到客户端设备的被配置成生成可听输出的一个或多个设备,诸如扬声器、扬声器插孔、音频输出端口、音频输出设备、耳机和/或其他现在知道或以后开发的类似设备。在一些示例中,用户界面304和VUI可被配置成基于非口头输入(例如经由键盘或触摸屏输入的文本)产生可听输出。额外地或者可替换地,用户界面304和VUI可被配置成基于口头输入产生非口头输出(例如,在计算机屏幕上显示的文本)。一般而言,客户端设备可直接经由用户界面304接收输入数据,诸如由客户端设备的用户说出的一个或多个话语。

话音调适模块306可被配置成基于计算设备所接收到的一个或多个话音样本(或话音样本的集合)来使话音模型个性化,从而确定一个或多个调适语音。话音调适模块306还可被配置成执行一个或多个类型的话音调适。此外,话音调适模块可包括话音识别模块(例如,文本识别模块),该话音识别模块可被配置成执行基于语法和/或基于规则的文本模式识别以及其他功能。

处理器308可包含一个或多个通用处理器(例如,微处理器)和/或一个或多个专用处理器(例如,DSP、GPU、FPU、网络处理器或ASIC)。处理器306可能够运行存储在数据存储装置310中的程序指令314(例如,经编译或未经编译的程序逻辑和/或机器代码)以执行本文所述的各种功能。因此,数据存储装置310可包括其上存储有程序指令的非暂态计算机可读介质,这些程序指令在由客户端设备300运行时使得客户端设备300执行本说明书和/或附图中公开的方法、过程或功能中的任何一个。

数据存装置储310还可包括安装在客户端设备300上的一个或多个应用程序316(例如,地址薄、电子邮件、web浏览、社交网络和/或游戏应用)。应用程序316可访问的数据可被布置在对客户端设备300的用户可见或隐藏的文件系统中。另外,应用程序316可被配置成通过一个或多个应用编程接口(API)与客户端设备300的操作系统(未示出)通信。这些API可例如促进应用程序316读取和/或写入应用数据318、经由通信接口302发送或接收信息、在用户界面/VUI 304上接收信息或显示信息等等。额外地,客户端设备300可通过一个或多个在线应用商店或应用市场下载应用程序316。然而,应用程序还可被按其他方式安装在客户端设备300上,诸如经由web浏览器或通过客户端设备300上的物理接口(例如,USB端口)。

数据存储装置310还可包括存储的语音简档318。语音简档318例如可被应用程序316访问。作为示例,客户端设备300可从另外的客户端设备接收共享的语音简档,并且随后可将语音简档存储在数据存储装置310中。语音简档(例如,原始语音简档的拷贝)最初可被存储在云中,然后被发送给客户端设备300,或者语音简档可直接从其他客户端设备发送到客户端设备300。客户端设备300可包括应用程序316,应用程序316被配置成使用作为语音简档的一部分被包括的调适语音来执行TTS合成。另外,对TTS应用程序的特定功能的运行可使得客户端设备300以与从其接收到语音简档的其他客户端设备相关联的语者的语音的形式输出文本的可听表示。

作为另一示例,用户A可与用户B(例如,在语音简档的授权简档中指定用户B的用户标识符)的客户端设备共享语音简档,并且用户B可依照用户A的语音简档运行客户端设备上的特定TTS应用程序。另外,TTS应用程序可以是电子邮件应用,并且用户B可向用户A发送包含多个文本串的电子邮件消息。客户端设备的电子邮件应用然后可输出多个文本串的音频表示,并且该音频可与用户B的语音相同(或类似)。客户端设备的语音简档用途的其他示例也是可能的。

图4描绘了示例方法400的流程图。方法400可包括如块402-408中的一个或多个所图示的一个或多个操作、功能或者动作。虽然这些块被以连续顺序图示,但这些块也可并行和/或以与本文所述的顺序不同的顺序执行。另外,各个块可基于期望的实现方式被组合成更少的块,划分成额外的块,和/或被移除。

此外,对于方法400及本文公开的其他过程和方法,框图示出了本实施例的一个可能的实现方式的功能和操作。在这点上,每个块可表示程序代码的模块、片段或者部分,其包括用于实现过程中的特定逻辑功能或者步骤的处理器或计算设备可运行的一个或多个指令。程序代码可被存储在任何类型的计算机可读介质上,例如,存储在诸如包括盘或者硬盘的存储设备上。计算机可读介质可包括非暂态计算机可读介质,例如,诸如短时间段内存储数据的计算机可读介质,像寄存器存储器、处理器高速缓存以及随机存取存储器(RAM)。计算机可读介质也可包括非暂态介质,例如,诸如辅助或者永久性长期储存装置,像只读存储器(ROM)、光盘或者磁盘、致密盘只读存储器(CD-ROM)。计算机可读介质也可以是任何其他易失性或者非易失性存储系统。计算机可读介质可被认为是例如计算机可读存储介质,或者有形存储设备。

为了示例,图4中所示的方法400将被描述为由示例计算系统(诸如图2中所图示的计算设备200)实现。然而,应当理解,其他计算实体(基于云的以及不基于云的两者)以及这种实体的组合可实现示例方法400的一个或多个步骤,诸如图3的客户端设备。

最初,在块402,方法400包括接收一个或多个话音样本,并且这些样本包括多个口说话语。多个口说话语可表示与一个或多个话音样本相关联的文本串。例如,计算系统可向用户(例如口说话语的语者)提供文本串(或者多个文本串),并且作为响应用户可通过说出包括在文本串中的文本来提供话音样本。一个或多个话音样本可与给定文本串相关联。

在接收到第一话音样本之后,计算系统可向用户提供相同的(一个或多个)文本串或者不同的(一个或多个)文本串,并且接收随后的话音样本,其包括表示随后提供的(一个或多个)文本串的口说话语。文本串可通过计算系统的用户界面提供给用户。另外,文本串可由计算设备可运行的应用程序来提供,诸如由图3中所述的应用程序来提供,并且应用程序可以是被配置成使得用户能够创建/管理语音简档的应用程序。

在一些示例中,每个话音样本可在特定会话期间被计算系统接收到(例如,记录),并且每个会话可与各自的会话标识符相关联。例如,一个会话可包含计算系统提供文本串给用户以大声朗读。作为另一示例,特定会话可包含计算系统向用户提供一系列文本串。计算系统接收一个或多个话音样本的过程可包含贯穿多个会话接收多个话音样本。一旦计算系统接收到给定数量的话音样本,特定会话就可结束。每个话音样本可与各自的话语的集合、各自的文本串(例如,文本提示)以及各自的会话标识符相关联。

在特定会话期间,或者在特定会话结束之后,计算系统可向用户提示(或者提供选项来)记录额外的话音样本(例如,新的会话)。另外,计算系统也可向用户提供选项以供用户删除先前记录的话音样本。更进一步地,计算系统可向用户提供选项以供用户编辑所记录的话音样本(例如,调整频率、幅度、音高(pitch)等等)。

除了诸如与基础频率、音高和韵律有关的那些之类的话音参数以外,特定话音样本可包括其他话音特性。例如,特定话音样本可与给定的语言(诸如英语、法语、意大利语、俄语等等)相关联。作为另一示例,特定话音样本可与给定情绪(诸如快乐、忧愁和愤怒)相关联。另外,特定话音样本可不与情绪相关联(例如,情绪中性的和缺乏表情的)。话音特性的其他示例也是可能的(例如,性别)。在这样的示例,用户可按与一个或多个给定话音特性(例如,用户说法语,用户用快乐的语音音调来说等等)有关的方式来记录特定话音样本。在其他示例中,可在话音样本中的一些或全部被计算系统接收到之后来管理话音样本的这种话音特性(和/或参数)。

接收话音样本的功能可由记录音频(例如,口说话语)的计算系统来执行。可替换地,计算系统可记录音频并向另外的计算系统传达音频的话音样本,该另外的计算系统可接收话音样本并执行进一步的处理。

在块404,方法400包括确定与口说话语的语者相关联的语音简档,并且语音简档包括语者的调适语音。语者的调适语音基于针对一个或多个话音样本的话音模型的个性化。例如,计算系统可基于一个或多个话音样本来确定通用话音模型。通用话音模型可由计算系统基于给定语者的语音的独有特性(例如,时间和/或频谱特性)来个性化以便确定调适语音。在一些示例中,调适语音可基于多于一个语者的语音(例如,计算系统从每个语者接收到的一个或多个话音样本)。另外,这样的包括多个语者的语音的调适语音可基于在第一会话期间接收到的来自第一语者的至少一个话音样本和在第二会话期间接收到的来自第二语者的至少一个话音样本。

作为一个示例,块404的功能可被如下执行:计算系统可向服务器提供话音样本,并且服务器可确定适当的语音简档并且向计算系统提供该语音简档。因此,计算系统例如可通过与其他计算设备通信来确定语音简档。计算系统本身可额外或者可替换地在有或者没有与其他计算设备的通信的情况下执行处理来确定语音简档。

一般而言,调适语音可通过包括如下各项的方法或者方法的组合来确定:自动话音识别(automatic speech recognition,ASR)、统计调适(例如,基于隐式马尔可夫模型(hidden Markov model,HMM)的合成/调适))、基于有约束多元线性回归(constrained multiple linear regression,CMLR)的调适、跨语言语音调适(例如,使用日本语者的话音样本来人为确定用于非日本语者的说日语的调适语音)以及已知及尚未知道的其他方法。调适语音可在所述计算系统处确定或者在诸如调适服务器那样的其他计算设备处远程确定。语音简档也可在所述计算系统处确定或者在另外的计算设备处远程确定。

图5图示了被配置成如在块404所述的依照方法400来确定语音简档的示例系统。如图5中所示,来自第一语者的第一组口说话语502(例如,与第一文本串相关联)可与来自第一语者和/或不同的语者的第二组话语504(例如,与第二文本串相关联)一起被计算系统接收到。口说话语502、504可被包括在一个或多个话音样本中。

话音样本506可以是话音调适模块508的输入,话音调适模块508可被配置成使话音样本506的一个或多个话音模型个性化,以便确定话音样本506的调适语音。另外,所述话音调适模块可与图2和图3的话音调适模块类似地或者不同地配置。

话音调适模块508也可被配置成访问源数据510。源数据510可例如包括语者无关的训练数据(例如,诸如“语者无关的声学模型”那样的通用话音模型),所述语者无关的训练数据包含若干小时的预先存在的语者无关的话音样本/数据。另外,源数据510可依照诸如统计/HMM话音调适那样的特定话音调适方法来使用,以便确定调适语音。通用话音模型的个性化可至少部分基于口说话语的节奏、口说话语的变调、口说话语的韵律、口说话语的模式等等。最后,话音调适模块508或者计算系统的其他(一个或多个)组件可确定包括调适语音的语音简档512。

语音简档可包括与一个或者多个语者相关联的多个语音简档。例如每个语音简档可包括与相应的一个或多个语者相关联的相应的调适语音。另外,各个调适语音可基于针对在由(一个或多个)会话标识符标识的给定的一个会话或多个会话期间由计算系统接收到的话音样本的话音模型的个性化。更进一步地,各个调适语音可基于话音模型的至少一个相应的可调整参数,诸如音高、音节持续时间、音调音量、泛音音量、节奏、韵律等等。因而,可确定多个语音简档,每个语音简档与相应的可调整参数相关联(例如,大声说话的语音、缓慢说话的语音、有口音的语音等等)。额外地或者可替换地,各个调适语音可基于诸如语言和情绪之类的其他特性。因而,可确定多个语音简档,每个语音简档与相应的语言和/或情绪相关联(例如,快乐的意大利语语音、严肃/正式的英语语音等等)。在一些示例中,在语音简档被诸如语者或者与其共享语音简档的另外的用户确定了之后,这样的参数和/或特性可由用户管理。

图6A图示了被配置成依照方法400执行功能的示例计算设备,诸如客户端设备600。具体来说,图6A图示了可使得客户端设备600的用户能够确定或生成语音简档的用户界面602。可由客户端设备600的特定应用程序提供的用户界面602可包括可调整话音参数/特性604,诸如与基础频率、韵律和持续时间有关的参数,所述参数可在用户于客户端设备600处记录了话音样本之后由用户调整。如图所示,每个参数604可由用户界面602的“滑动条”来单独修改。应当理解,与图6A中所示的相比,更多、更少和/或不同的话音参数/特性可被管理。其他话音数据也可被管理。

一般而言,诸如图6A中所示的用户界面602那样的用户界面可被提供给用户以使得用户能够回顾、更新(例如,保存)、删除、编辑和/或插入话音样本以及与话音样本相关联的话音参数/特性604。另外,可针对每个话音样本和/或一组话音样本(例如,样本的会话)来管理这样的话音参数/特性604。更进一步地,可在调适语音已被客户端设备或者其他计算设备确定之后管理这样的话音参数/特性604。

返回参考图4,在块406,方法400包括接收与语音简档相关联的授权简档,并且授权简档包括与一个或多个相应的用户相关联的一个或多个用户标识符。例如,用户A可以是语音简档的语者/拥有者,可向计算系统提供用户B的用户标识符和用户C的用户标识符。通过包括用户B和用户C的用户标识符,用户A可使能/授权用户B和用户C访问用户A的语音简档。作为另一示例,用户A可向计算系统提供与用户B和用户C两者都相关联的一个用户标识符。一般而言,用户标识符可与一个特定用户或者诸如存储在移动电话上的联系人列表(例如,“家庭”、“朋友”和“同事”)的一组用户、用户的名字、用户的电话号码等等相关联。在其他示例中,语音简档也可与特定设备或设备标识符相关联。

在一些示例中,语音简档可包括多个语音简档,并且用户可将每个语音简档分配给一个或多个用户标识符。因而,每个语音简档可包括各自的授权简档。例如,用户A可确定两个语音简档:具有说英语的调适语音的第一语音简档,以及具有说西班牙语的调适语音的第二语音简档。用户A然后可将第一语音简档分配给与用户B和用户C相关联的一个或多个用户标识符,用户B和用户C可以是说英语的用户,并且用户A可将第二语音简档分配给与用户D和用户E相关联的一个或多个用户标识符,用户D和用户E可以是说西班牙语的用户。每个语音简档可通过一个或多个诸如语言、口音和情绪之类的独有特性来定义,并且可额外地或者可替换地通过诸如音量、频率、持续时间等等之类的参数来定义。

图6B图示了依照方法400的图6A的客户端设备600的另一用户界面610。如图所示,客户端设备600的用户界面610(例如,智能电话的触摸屏)可使得客户端设备600的用户能够查看和创建语音简档612。在示出的示例中,用户可基于调适语音的话音特性来将调适语音标识为“正式语音”。用户还可在语音简档612中包括调适语音的描述。此外,语音简档612可包括用户所提供的授权简档614,并且授权简档614可包括与跟其共享所创建的语音简档612的一个或多个用户相关联的一个或多个用户标识符616(例如,电话上的联系人)。其他语音简档选项也是可能的。

返回参考图4,在块408,方法400包括至少部分基于授权简档将语音简档提供给与一个或多个相应的用户相关联的至少一个计算设备,诸如客户端设备。然而,应当理解,可以不响应于确定授权简档将给定用户/语者的语音简档自动提供给其他用户。作为替换方案,假如在语音简档的授权简档中标识了其他用户,则授权简档可使得所述其他用户能够访问给定用户的语音简档。另外,其他用户可向服务器(或者存储了语音简档的其他计算设备)发送请求,并且服务器然后可将语音简档发送给所述其他用户和/或使得所述其他用户能够从服务器下载语音简档。作为另一替换方案,给定用户的客户端设备可直接与其他用户的其他客户端设备共享语音简档,而无需基于云的或者不基于云的服务器或者其他(一个或多个)计算设备的介入。其他替换方案也是可能的。

作为在块408的方法400的示例,用户A的第一语音简档可包括用户A的第一调适语音(例如,快乐的语音),并且还可包括用户B的用户标识符。另外,用户A的第二语音简档可包括用户A的第二调适语音(例如,忧愁的语音),并且还可包括用户C的用户标识符。在这样的示例中,计算系统(例如,服务器或者其他计算设备,诸如用户A的客户端设备)然后可将用户A的第一语音简档提供给与用户B相关联的一个或多个客户端设备,诸如全部都为用户B所拥有的智能电话、膝上型计算机和个人计算机。额外地,计算系统可将用户A的第二语音简档提供给与用户C相关联的一个或多个客户端设备,诸如全部都为用户C所拥有的智能电话、膝上型计算机和个人计算机。通过接收用户A的语音简档,用户B和/或用户C可被许可来按各种方式和出于多种目的修改和/或使用用户A的语音简档。

语音简档可包括与语音简档相关联的应用简档。应用简档可被计算系统接收,并且应用简档可包括与可由相同或不同的计算系统/设备运行的一个或多个应用相关联的一个或多个应用标识符。例如,应用简档可被基于云的服务器从给定用户/语者的客户端设备或者其他计算设备接收,并且应用简档然后可与语音简档一起被提供给与在语音简档的授权简档中标识的其他用户相关联的至少一个客户端设备。应用简档可使得其他用户能够利用给定用户的语音简档使一个或多个应用个性化。

例如,用户A的语音简档/应用简档可包括电子邮件应用和文本消息应用的应用标识符,并且这两个应用都可被配置成执行TTS合成(例如,将包括在电子邮件或者文本消息中的文本串转换成话音)。用户A可与用户B的客户端设备共享语音简档,并且应用简档可使得用户B能够将两者都可由用户B的客户端设备运行的电子邮件应用和文本消息应用个性化。例如,在从用户A接收到电子邮件后,用户B的客户端设备可将电子邮件文本转换成话音,并且该话音可与语音简档的调适语音相同。更具体地,电子邮件可被用户B的客户端设备以用户A所确定的调适语音大声朗读。

在其他示例中,给定用户(例如,用户A)的语音简档可不包括应用简档。另外,与其共享语音简档的用户(例如,用户B)可利用语音简档的调适语音将一个或多个应用个性化。在其他示例中,调适语音/语音简档可基于调适语音的一个或多个可调整参数和/或话音特性而与给定应用相关联。例如,正式调适语音可与特定用户同享。正式调适语音可具有独有参数,诸如特定音调、持续时间等等。因而,正式调适语音可与可由特定用户的客户端设备运行的特定应用相关联,并且因此只有特定应用才可被授权来利用正式调适语音个性化该应用。其他示例也是可能的。其他对于语音简档的使用也是可能的。

应当理解,本文所述的布置仅是为了示例的目的。因而,本领域技术人员将会领会,根据期望的结果可转而使用其他布置和其他元件(例如机器、接口、功能、顺序和功能的分组等等),并且可一并省略一些元件。另外,所述的许多元件是可按任何适当组合和位置实现为分立或分布式的组件或者与其他组件协同的功能实体。

尽管本文公开了各种方面和实施例,但其他方面和实施例对于本领域技术人员来说将是明显的。本文公开的各种方面和实施例是为了说明的目的,并且并不意图进行限制,其中范围由所附权利要求指示。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1