信息处理方法、信息处理设备及程序产品与流程

文档序号:14072781阅读:150来源:国知局

本发明总体上涉及信息处理方法、信息处理设备及程序产品,尤其涉及以发送者的声音对文本通信进行语音输出的方法、设备及程序产品。



背景技术:

信息处理设备(“设备”)例如手机、智能电话、平板设备、笔记本电脑等允许用户通过发送和接收文本数据例如文本消息、电子邮件、通知等与其他用户进行通信。技术进步使得这些设备上接收的文本数据能够通过预录的声音被可听见地输出到用户(例如,通过文本到语言软件)。



技术实现要素:

总括地说,一方面提供了一种信息处理方法,所述信息处理方法包括:在信息处理设备处接收用于产生声音输出的指示;使用处理器识别声音简档;使用处理器生成声音输出,所述声音输出基于声音简档被调谐;以及使用扬声器提供声音输出。

另一方面提供了一种信息处理设备,所述信息处理设备包括:处理器;扬声器;存储器设备,所述存储器设备存储能够由处理器执行以进行以下操作的指令:接收用于产生声音输出的指示;识别声音简档;生成声音输出,所述声音输出基于声音简档被调谐;以及提供声音输出。

另一方面提供了一种程序产品,所述程序产品包括:存储代码的存储设备,所述代码能够由处理器执行并且所述代码包括:用于接收用于产生声音输出的指示的代码;用于识别声音简档的代码;用于生成声音输出的代码,所述声音输出基于声音简档被调谐;以及提供声音输出的代码。

前述是概要,并且因此可以包括简化、概括和细节省略;因此,本领域的技术人员将理解,该概要仅仅是说明性的且不旨在以任何方式进行限制。

为了更好地理解实施方式,连同实施方式的其他的和进一步的特征以及优点,参照以下的结合附图的描述。本发明的范围将在所附权利要求中指出。

附图说明

图1示出了信息处理设备电路系统的示例。

图2示出了信息处理设备电路系统的另一示例。

图3示出了以发送者的声音提供文本到语言输出的示例性方法。

具体实施方式

将容易地理解,除所描述的示例性实施方式以外,还可以以多种不同的配置来布置和设计如在本文附图中一般性地描述并示出的实施方式的部件。因此,以下如在附图中示出的、示例性实施方式的更详细的描述不旨在限制所要求保护的实施方式的范围,而仅代表示例性实施方式。

贯穿本说明书,对“一个实施方式”或“实施方式”等的引用意味着结合实施方式所描述的特定特征、结构或特性被包括在至少一个实施方式中。因此,贯穿本说明书,在各处所出现的短语“在一个实施方式中”或“在实施方式中”等未必都指同一实施方式。

此外,在一个或更多个实施方式中,所描述的特征、结构或特性可以以任何适当的方式进行组合。在下面的描述中,提供了许多具体的细节以给出对实施方式的透彻的理解。然而,相关领域的技术人员将认识到可以在没有一个或更多个具体细节的情况下或者利用其他的方法、部件、材料等对各种实施方式进行实践。在其他实例中,不再详细地示出或描述公知的结构、材料或操作以避免模糊主题。

按照惯例,设备上所使用的文本到语言软件(例如,)可以:识别文本数据的片段(例如,通过与可访问的词库进行比较);将该片段与预录的语音输出相关联;并且之后将与所识别的文本片段对应的预录的语音输出发送(例如,通过扬声器)给用户。例如,当用户从另一用户接收到包含问候语“hello”的文本消息时,程序可以识别该单词,并且之后向用户输出单词“hello”的预录音。

文本到语言软件可以有益于如下的用户:所述用户发现自己处于想要获知接收到的文本通信(例如,文本消息、电子邮件、社交媒体通知等)的内容但是他们处于无法视觉地检阅文本通信的环境中。常见示例涉及当用户正在驾驶且不能将他们的注意力从道路移开以读取接收到的文本消息的情况。

然而,常规的文本到语言程序包含与语音输出的效率和清晰度有关的若干问题。例如,一个问题是与语音输出相关联的预录的声音可以仅被编程为以有限数目的方言(例如,美式英语、英式英语、澳式英语等)用语音输出接收到的文本通信。不习惯听到与预录的声音相关联的方言选项中的一些或所有方言选项的个体会发现难以理解语音输出。此外,另一个问题是一些文本到语言程序无法识别并且用语音输出文本通信的发送者的姓名(即,如果可用的话,则用语音输出与文本通信相关联的联系人姓名)。执行的程序可能无法正确地发出发送者的姓名的音。例如,如果文本消息的发送者具有不常见的姓名,则程序可能无法确定与该姓名相关联的语音输出。可替选地,程序可能尝试将语音输出与不常见的姓名相关联;然而,由于发送者的姓名与任何存储的语音输出之间没有直接匹配,所以导致发送者姓名的发音不正确。这两种情况都会导致用户的混乱,这是因为用户无法立即识别文本通信的发送者。此外,用户经常抱怨,来自常规的文本到语言程序的语音输出太像机器人,并且因此由于对所有语音输出使用预录的库存音频而无法向用户提供个人通信体验。

因此,实施方式提供了一种以与文本通信的发送者相关联的声音输出所接收到的文本通信的内容的方法。在实施方式中,可以使用来自用户的声音输入来生成与用户对应的声音简档。在实施方式中,声音简档可以与通过向声音简档提供声音输入的用户发送的文本通信相关联。因此,当接收到来自用户的文本通信时,设备可以使用所生成的声音简档以用户的声音来对文本通信的内容进行语音输出。这样的方法使得用户在使用文本到语言软件时能够基于发送者的声音的音色来立即识别文本通信的发送者。此外,实施方式为用户提供了更好的使用体验,即相当于当面交谈的体验。

在实施方式中,可以通过使用来自第二用户的声音输入来在第一用户的设备上生成第二用户(例如,电话联系人)的声音简档。在实施方式中,可以在第一用户的设备上生成第一用户的声音简档,并且与其他用户共享第一用户的声音简档。在实施方式中,可以基于之后的声音输入来更新声音简档。

通过参照附图将最好地理解所示出的示例性实施方式。以下描述仅旨在通过示例性地方式示出,并且简单地示出某些示例性实施方式。

虽然在信息处理设备中可以使用各种其他电路、电路系统或部件,但是关于智能电话和/或平板计算机电路系统100,图1所示的示例包括例如在平板计算机或其他移动计算平台中发现的芯片上系统设计。在单个芯片110中组合有软件和处理器。如本领域中众所周知的,处理器包括内部运算单元、寄存器、高速缓冲存储器、总线、i/o端口等。内部总线等取决于不同的供应商,但是基本上所有外围设备120可以附接至单个芯片110。电路系统100将处理器、存储器控制和i/o控制器集线器全部组合成单个芯片110。此外,这种类型的系统100通常不使用sata或pci或lpc。公用接口例如包括sdio和i2c。

存在电源管理芯片130,例如电池管理单元bmu,其管理如例如经由可以通过与电源(未示出)的连接再充电的可再充电电池140提供的电力。在至少一种设计中,使用单个芯片诸如110来提供bios式功能和dram存储器。

系统100通常包括用于与各种网络诸如电信网络和无线因特网设备例如接入点连接的wwan收发器150和wlan收发器160中的一个或更多个。此外,设备120通常包括例如诸如相机的图像传感器。系统100通常包括用于数据输入以及显示/呈现的触摸屏170。系统100通常还包括各种存储器设备,例如闪速存储器180和sdram190。

图2示出了信息处理设备电路、电路系统或部件的另一个示例的框图。图2所示的示例可以与诸如morrisville,nc(北卡罗来纳州的莫里斯维尔市)的联想(美国)股份有限公司所售的thinkpad系列的个人计算机的计算系统或者其他设备对应。如根据本文的描述明显的是,实施方式可以包括其他特征或图2所示的示例的特征中的仅一些特征。

图2的示例包括具有会根据制造商(例如,intel、amd、arm等)而变化的架构的所谓的芯片组210(一组一起工作的集成电路或芯片,芯片组)。intel是英特尔公司在美国和其他国家的注册商标。amd是超微半导体设备有限公司(advancedmicrodeviceinc.)在美国和其他国家的注册商标。arm是arm控股公司(armholdingplc)在美国和其他国家的未注册商标。芯片组210的架构包括核与存储器控制组220以及i/o控制器集线器250,所述核与存储器控制组220以及i/o控制器集线器250经由直接管理接口(dmi)242或链路控制器244交换信息(例如,数据、信号、命令等)。在图2中,dmi242是芯片到芯片接口(有时被称为“北桥”与“南桥”之间的链路)。核与存储器控制组220包括经由前端总线(fsb)224交换信息的存储器控制器集线器226和一个或更多个处理器222(例如,单核或多核);应该注意,组220的部件可以被集成在替代常规的“北桥”式架构的芯片中。如本领域众所周知的,一个或更多个处理器222包括内部运算单元、寄存器、高速缓冲存储器、总线、i/o端口等。

在图2中,存储器控制器集线器226与存储器240对接(例如,为可以被称为“系统存储器”或“存储器”的ram类型提供支持)。存储器控制器集线器226还包括用于显示设备292(例如,crt、平板、触摸屏等)的低压差分信号(lvds)接口232。块238包括可以经由lvds接口232(例如,串行数字视频、hdmi/dvi、显示端口)来支持的一些技术。存储器控制器集线器226还包括可以支持独立显卡236的pci-express接口(pci-e)234。

在图2中,i/o集线器控制器250包括:sata接口251(例如,用于hdd、sdd等280)、pci-e接口252(例如,用于无线连接282)、usb接口253(例如,用于设备284诸如数字转换器、键盘、鼠标、相机、电话、麦克风、存储器、其他连接的设备等)、网络接口254(例如,lan)、gpio接口255、lpc接口270(用于asic271、tpm272、超级i/o273、固件集线器274、bios支持275以及诸如rom277、闪存278和nvram279的各种类型的存储器276)、电源管理接口261、时钟发生器接口262、音频接口263(例如,用于扬声器294)、tco接口264、系统管理总线接口265以及可以包括bios268和启动代码290的spi闪存266。i/o集线器控制器250可以包括千兆以太网支持。

该系统在接通电源时可以被配置成执行如在spi闪存266内所存储的用于bios268的启动代码290,并且此后在一个或更多个操作系统和应用程序软件(例如,存储在系统存储器240中的)的控制下处理数据。操作系统可以被存储在各个位置中的任何位置中并且例如根据bios268的指令而被访问。如本文中描述的,设备可以包括比图2的系统中所示的特征更少或更多的特征。

如例如图1或图2中概述的信息处理设备电路系统可以用以下设备中:诸如平板计算机、智能电话、通常个人计算机设备、和/或使得用户能够执行文本到语言功能的电子设备。例如,图1中概述的电路系统可以在平板计算机或智能电话实施方式中实现,而图2中概述的电路系统可以在个人计算机实施方式中实现。

现在参照图3,在301处,实施方式可以在设备上接收文本数据。在实施方式中,用户可以接收来自另一个用户(“发送者”)的可以包括文本消息、电子邮件、社交媒体通知等的文本通信。在实施方式中,与发送者相关联的身份简档可以由用户创建。身份简档可以包括关于发送者的详细信息,诸如例如发送者的名字和姓氏。在实施方式中,当从发送者接收到文本通信时,发送者的身份(例如,名字和姓氏)可以与文本消息的正文同时出现。例如,用户可以为他们的朋友“meghansmith”创建身份简档,使得当用户的朋友向用户发送文本消息时,“meghansmith”可以出现在文本消息正文之上,表示发送者的身份。在实施方式中,可以以列表形式(例如,联系人列表)存储不同发送者的身份简档。该列表可以存储在可本地访问的存储位置处(例如,设备上)或另一存储位置(例如,云存储)处。

在从发送者接收到文本通信之后,在302处实施方式可以将所接收到的文本数据与声音简档相关联。在实施方式中,声音简档可以包括所获知的用户的声音的各个方面(例如,声音音高、声音音调、声音口音等)。实施方式可以将从发送者接收到的文本通信与其声音简档相关联,使得文本通信可以例如使用调谐的语言输出模型以发送者的声音来进行语音输出(例如,通过文本到语言软件),所述调谐的语音输出模型已经使用所获知的发送者的声音的各个方面进行了调节。

在实施方式中,可以为用户的联系人列表中的每个发送者生成声音简档。在实施方式中,声音简档可以被自动生成,或者仅在用户指定时生成。例如,实施方式可以为用户已经为其创建身份简档的每个新发送者自动生成声音简档。可替选地,例如,用户可以切换指定应当为单个用户生成声音简档的按钮(例如,在发送者的身份简档中)。在另一个实施方式中,如果用户从未知的发送者(即,用户尚未为其创建身份简档的发送者)接收到文本通信,则可以向用户呈现询问用户是否想要为未知发送者生成声音简档的选项(例如,通过对话框)。在实施方式中,声音简档可以与未知发送者的电话号码相关联。

在实施方式中,可以基于之后的声音输入来更新声音简档。随着特定的声音简档得到更新,并且更多的样本数据可用于发送者的声音特征,实施方式在以可听形式输出文本通信时将能够更准确地复制该简档所关联的用户的声音。例如,在实施方式中,个人的新声音简档会以像机器人的声音输出来自该个人的文本通信。相反,频繁更新的个人的声音简档可以以类似该个人的声音输出文本通信。在实施方式中,更新声音简档可以涉及引入来自与声音简档相关联的用户的后续声音输入。例如,每当用户与已经为其创建了声音简档的另外个人进行电话交谈时,实施方式可以使用由该个人发送的声音输入来更新与该个人相关联的声音简档。

在实施方式中,可以为用户生成声音简档,每当用户向设备发送任意类型的语音输入(例如,电话交谈、录音、语音笔记等)时,可以进行更新所述声音简档。例如,每当用户呼叫他或她的联系人列表上的任何个人时,实施方式可以在呼叫期间使用来自用户的声音输入来更新用户的声音简档。在实施方式中,用户的声音简档可以存储在(例如,本地地或通过云存储)可由设备访问的存储位置处。在实施方式中,用户的声音简档可以自动地或通过用户指定与其他用户的设备共享。例如,在实施方式中,可以基于预定事件的检测(例如,当另一用户被添加到用户的联系人列表中时,或者当该用户被添加到另一用户的联系人列表中时)向另一用户的设备自动发送该用户的声音简档。在另一个示例中,用户可以将他们的声音简档上传到可访问该简档以供其他用户下载的存储位置(例如,云存储)。

在实施方式中,当在用户设备上接收到文本通信时,文本通信可以与发送者的声音简档相关联。例如,当从存储的联系人meghansmith接收到文本消息时,仅与meghansmith对应声音简档相关联的声音数据可以用来对文本消息进行语音输出。这确保了实施方式在输出文本通信时不会访问不正确的声音简档。

在303处,实施方式可以以与文本通信的发送者的声音类似的声音向用户提供所接收到的文本通信的输出。在实施方式中,输出可以包括可听见地叙述(例如,通过设备上的扬声器)所接收的文本通信的内容的文本到语言的语音输出。在实施方式中,可以通过使用发送者对应的声音简档中的声音数据以发送者的声音可听见地叙述输出。例如,当从联系人meghansmith接收到文本消息“hello,howareyou?”时,实施方式可以访问与meghansmith相关联的声音简档,以用与meghansmith的声音类似的声音来可听见地叙述上述短语。

在实施方式中,设备可以在接收时自动地输出所接收到的文本数据。在一些情况下,实施方式可以有利地是在接收到文本数据时输出所接收到的文本数据。例如,在用户可能无法可视地查阅他们的设备(例如,在驾驶时)的情况下,有利地是实施方式将所接收到的文本的内容自动地输出给用户。可替选地,在其他情况下,用户可能不想使所接收到的文本通信被可听见地输出(例如,在商务会议中)。因此,在实施方式中,用户可以跨系统启用/禁用自动文本到语言功能。可替选地,在实施方式中,用户可以针对特定用户启用/禁用自动文本到语言功能。例如,用户可以仅针对联系人meghansmith启用自动文本到语言功能。

如根据本文提供的描述将理解的,实施方式将语音模型调谐成复制特定用户的语言特征,使得所提供的音频输出与特定用户的语言音色更相似。这可以应用于文本到语言系统以及使用机器生成的人类语音输出的任何其他系统。例如,实施方式可以用来提供与导航系统、信息站等中的特定用户类似的合成语言输出。

因此,本文所述的各种实施方式代表了常规文本到语言系统和/或产生人类语音输出的系统的技术改进。使用本文描述的技术,用户能够立即识别文本通信的发送者的身份。实施方式以文本通信发送者的声音向用户提供任何接收到的文本通信的输出。

如本领域技术人员将理解的,各个方面可以实施为系统、方法或设备程序产品。因此,各方面可以采用完全硬件实施方式的形式或采用包括软件的实施方式的形式,所述软件在本文中可以全部统称为“电路”、“模块”或“系统”。此外,各方面可以采用设备程序产品的形式,该设备程序产品具体表现为包括有设备可读程序代码的一个或更多个设备可读介质。

应当注意,本文描述的各种功能可以使用由处理器执行的存储在设备可读存储介质例如非信号存储设备上的指令来实现。存储设备可以是例如电子、磁、光学、电磁、红外或半导体系统、装置或设备,或者前述的任意适当的组合。存储介质的更具体示例可以包括如下:便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪速存储器)、光纤、便携式致密盘只读存储器(cd-rom)、光学存储设备、磁存储设备,或前述的任意适当的组合。在本文件的上下文中,存储设备不是信号,并且“非暂态”包括除信号介质之外的所有介质。

可以使用任意适当的介质来传输在存储介质上所包含的程序代码,所述任意适当的介质包括但不限于无线、有线、光导纤维缆、rf等或前述的任意适当的组合。

用于执行操作的程序代码可以以一种或更多种编程语言的任意组合来编写。程序代码可以完全在单个设备上执行、部分地在单个设备上执行、作为独立软件包执行、部分地在单个设备上且部分地在另一设备上执行或者完全在其他设备上执行。在一些情况下,可以通过任何类型的连接或网络(包括局域网(lan)或广域网(wan))来连接设备,或者可以通过其他设备(例如通过使用因特网服务提供商的因特网)、通过无线连接例如近场通信、或者通过硬线连接诸如通过usb连接来进行连接。

本文参考示出了根据各种示例性实施方式的示例性方法、设备和程序产品的附图来描述示例性实施方式。应该理解,动作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供给设备、专用信息处理设备或其他可编程数据处理设备的处理器以产生机器指令,使得经由设备的处理器执行的指令实现指定的功能/动作。

值得注意的是,虽然在附图中使用了特定的块,并且已经示出了块的特定顺序,但这些都是非限制性的示例。由于明确说明的示例仅用于描述的目的,而不应被视为限制,所以在某些情况下,可以组合两个或更多个块,可以将块分成两个或更多个块,或者可以按需要将某些块重新排序或重新组织。

如本文所使用的,除非另外指出,否则单数可以被解释为包括复数“一个或更多个”。

给出本公开内容是为了说明和描述的目的,而非旨在是穷举或限制。对本领域普通技术人员来说,许多修改和变化将是明显的。选择并描述示例性实施方式是为了说明原理和实际应用,并且使本领域其他普通技术人员能够理解本公开内容的与预期的特定使用相称的具有多种修改的多种实施方式。

因此,尽管本文参考附图已经描述了说明性的示例性实施方式,但应该理解的是,这种描述不是限制性的,并且在不偏离本公开内容的范围或精神的情况下,本领域技术人员可以作出各种其他变化和修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1