改进语音发音的制作方法

文档序号：8399348阅读：410来源：国知局

改进语音发音的制作方法
【专利说明】改进语音发音
[0001]相关申请的交叉引用
[0002]本申请要求于2012年9月11日提交的题为IMPROVING PHONETICPRONUNCIAT1N”的美国临时申请N0.61/699，335和于2013年7月23日提交的题为α IMPROVING PHONETICPRONUNCIAT1N”的美国申请N0.13/948，996 的优先权，其全部内容在此通过引用合并于此。
技术领域
[0003]本说明书涉及语音识别。
【背景技术】
[0004]语音识别是指将说出的词转换成文本的过程。语音识别系统将口头表达翻译成计算机可读声音的序列，其可以与已知词相比较。例如，麦克风可以接受模拟信号，模拟信号被转换成数字形式，数字形式被分割为较小的段。数字段可以与说出的语言的最小元素相比较。通过这一比较，语音识别系统可以通过分析所识别的声音的序列来确定例如对应文本信息从而识别词。

【发明内容】

[0005]一般地，本说明书中所描述的主题的一个创新方面可以体现为包括从用户设备接收表示个体(individual)的名字的可听发音的数据的动作的方法。所述方法包括识别与个体具有预先确定的关联的一个或多个其他用户的动作。所述方法包括识别与其他用户相关联的一个或多个设备的动作。所述方法还包括提供识别个体的信息和表示可听发音的数据给一个或多个所识别的设备的动作。
[0006]该方面的其他实施例包括对应的计算机系统、装置、和记录在一个或多个计算机存储设备上的计算机程序，每个都被配置为执行所述方法的动作。一个或多个计算机的系统可以被配置为通过具有安装在操作中的系统上、使得系统执行动作的软件、固件、硬件或它们的组合来执行特定动作。一个或多个计算机程序可以被配置为通过包括当被数据处理装置执行时使得所述装置执行动作的指令来执行特定动作。
[0007]前述和其他实施例每个都可以可选地单独或组合地包括下述特征中的一个或多个。一个或多个设备可以能够可听到地再现发音。用户设备可以是在与社交圈相关联的社交网络站点注册的智能电话。发音可以与在所述一个或多个用户设备中的至少一个上与用户相关联的联系人条目相关联。所述方法可包括从表示可听发音的数据生成语音识别数据的动作。所述方法可包括由一个或多个设备中的一个接收语音识别数据的动作。所述方法可包括使用识别信息来识别与个体相关联的联系人条目的动作。所述方法可包括将语音识别数据与联系人条目相关联的动作。所述方法可包括使用语音识别数据来更新设备上的新的发音的动作。
[0008]本说明书中所描述的主题的特定实施例可以实现为实现下述优点中的一个或多个。与改进语音识别一起，通过使得设备正确对其名字发音且通过改进用户名字的识别，用户的体验可以得到改进。语音识别可以得到改进。用户名字的正确发音和识别可以改进用户体验。用户体验的个性化可以得到改进。
[0009]本说明书中所述的主题的一个或多个实施例的细节在附图以及下面的描述中阐述。根据描述、附图和权利要求，主题的其他特征、方面和优点将变得明显。
【附图说明】
[0010]图1图示用户提供其名字的发音的示例。
[0011]图2是社交图信息的示例源的图200。
[0012]图3图示用于语音识别的示例系统。
[0013]图4是改进名字发音的示例过程的流程图。
[0014]各种附图中类似的参考数字和指示表示类似的元素。
【具体实施方式】
[0015]语音识别应用正变得普遍。用户访问在其电话上的语音识别系统来拨叫其联系人。但是，个体名字的发音可能不符合用户语言的标准发音。例如，名字“Mara”可能被发音为“mair-uh”或“mar-uh”；但是，许多语音识别应用不能正确地识别前者的发音。语音识别的质量可以通过允许用户提供对其名字发音的声音文件并且在可能引用其名字的情形下使用该发音来得到改进。
[0016]图1图示用户提供其名字或者其社交圈的另一个体的名字的发音的示例，使得由用户提供的该发音可用于应用和其他用户。用户104可以使用麦克风106或其他类型的换能器来提供名字的发音给计算机系统102。在一个安排中，用户104可以访问与社交网络站点相关联的简档页面来收集可听信息。例如，简档页面可以包括链接，允许用户上传声音文件或者直接把用户的名字直接记录到新声音文件中。声音文件可以被发送到托管社交网络站点的计算机系统108。计算机系统108可以处理声音文件以确定发音信息。发音信息可以包括例如用户104陈述其名字的声音文件记录。发音信息还可以包括可以由语音识别或者合成语音软件直接使用来正确地对用户名字发音的信息。
[0017]在一些实现中，用户可以通过与社交网络站点相关联的其他设备来提供发音。例如，用户可以提供其名字给智能电话，智能电话可用于访问社交网络站点。通过用户的许可，智能电话可以提供发音给社交网络站点，智能电话能够利用其来传送数据(例如同步的)。
[0018]发音信息可以分发(例如在提供给社交网络站点后)给用户104的设备，例如智能电话110和平板112。发音可以由设备使用以定制用户体验。例如，设备可以使用发音信息用于文本到语音应用。
[0019]计算机系统108还可以提供发音信息给社交网络站点上与用户104相关联的其他用户(例如用户116和用户118)的设备(例如智能电话114、平板116)。发音信息可以由这些设备使用以正确地识别用户104。例如，发音信息可以连同在智能电话114上存储的联系人信息(诸如在智能电话的存储器中的用户104的联系人条目)一起使用。当用户116使用智能电话114上的语音识别应用提到用户104时，智能电话114可以正确地识别用户104。在一些实现中，智能电话114能够播放用户104的名字的发音给用户116。
[0020]在一些实现中，社交网络站点可以以其他方式使用发音信息。例如，当用户104在社交网络站点上进入聊天室或者闲逛时，社交网络站点可以使用发音信息和文本到语音应用来播报该用户并且可以播放用户陈述其名字的声音文件。
[0021]社交网络站点还可以分发发音信息给用户社交圈的其他成员。例如，如果用户提供其名字的发音或者社交圈的另一成员的名字，该发音可以被分发给用户社交圈或被提供发音的用户的社交圈的其他成员。
[0022]在一些实现中，发音信息可以从若干源被聚合，例如，如果社交网络的若干不同成员提供对特定用户的发音信息，可以聚合发音信息。例如，如果四个不同的用户通过说出“Mair-uh”来提到“Mara”且一个用户通过说出“Mar_uh”来提到“Mara”，则系统可以聚合信息并且达成发音“Mair-uh”。
[0023]在一些实现中，发音信息或声音文件可被访问社交网络站点的用户访问。例如，寻找有关用户104的信息的个体可以能够播放声音文件来确定用户如何被适当寻址。类似地，用户104可以播放声音文件来确认发音正确。
[0024]图2是社交图信息的示例源的图200。用户的社交图是被识别为在指定分离度内与用户具有关系的连接(例如用户、资源)的集合。用户的社交图可以包括以不同分离度的人和特定内容。例如，用户的社交图可以包括朋友、朋友的朋友(例如被用户、社交图站点或其他度量所定义)、用户的社交圈、用户所关注的人(例如订阅的博客、馈送或网站)、同事、以及其他特别识别的用户感兴趣的内容(例如特定网站)。
[0025]图200示出了用户和在系统内并跨越一个或多个外部网络并且以不同分离度示出的可能扩展用户社交图到人和内容二者的不同连接。例如，用户可以具有简档或联系人列表，其包括一组识别的朋友、一组指向外部资源(例如网页)的链接以及对系统(例如提供包括电子邮件、聊天、视频、相册、馈送或博客的各种内容和应用的系统)的内容的订阅。这些组中的每个都可以以与用户的另一分离度连接到其他用户或资源。例如，用户的朋友每个都具有其自己的简档，其包括指向资源的链接以及各朋友的朋友。在指定分离度数内到用户的连接可以被认为是用户的社交图。在一些实现中，确定用户的社交图所使用的分离度数是用户设置的。替选地，使用缺省的分离度数。而且，可以使用动态分离度数，其基于例如连接的类型。
[0026]在一些实现中，社交图中的成员和分离度基于其他因素，包括交互的频率。例如，用户交互的频率(例如用户多久访问特定社交图站点一次)或者交互的类型(例如支持或选择与朋友相关联的项目)。随着交互改变，特定联系人在社交图中的关系也可以动态改变。因此，社交图可以是动态

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马丁·扬斯什;马克·爱德华·爱泼斯坦;奇普里安·I·凯尔巴;
技术所有人：谷歌公司;
我是此专利的发明人

上一篇：帧丢失恢复方法,和音频解码方法以及使用其的设备的制造方法
上一篇：显示装置及其驱动方法