语音到文本转换的制作方法

文档序号:9568699阅读:496来源:国知局
语音到文本转换的制作方法
【专利说明】语音到文本转换
[0001]背景
[0002]具有听觉障碍的人可以使用一种或多个技术来理解源自另一个人或设备的可听到的语音和/或其它声音。例如,在讲话者正在讲话且有听觉障碍的人可以看到讲话者的嘴巴的情况下,这个人可以使用唇读技术来理解该语音的内容。然而,要使用这样的技术需要这个人学习唇读技术。而且,在这个人对讲话者的查看受到限制或阻挡的情况下,这样的技术不能够提供令人满意的协助。
[0003]另一种可能性是由第三方将语音翻译成特定的手语,该手语可以被掌握该手语的人理解。第三方还可以将语音改写成可由这个人阅读的书面形式。然而,使第三方可用于执行这样的翻译和改写强加了相当大的限制。
[0004]另一个方案可以使用语音识别技术来接收语音、解释语音和将语音可视地呈现给有听觉障碍的人。然而,当讲话者没有清楚直接地对着接收话筒讲话和/或当背景噪声过多时,这种技术的准确度通常变坏。因此,并且尤其在嘈杂和拥挤的环境中,这样的技术可能是不切实际的且少有帮助。而且,有听力能力的人也可能遇到涉及许多人和/或过多噪声的情形,例如社交聚会、贸易展等,在这些情形中难以或不可能听到另一个人的语音。
[0005]概述
[0006]本文公开了与语音转换系统有关的各实施例。例如,一个公开的实施例提供了一种用于将来自环境的音频输入转换成文本的方法。所述方法包括捕捉来自环境的图像数据并从该图像数据检测一个或多个可能的脸。来自头戴式显示设备的眼睛跟踪系统的眼睛跟踪数据被用于确定用户所聚焦于的目标脸。
[0007]—种波束成形技术可以被应用到来自头戴式显示设备的话筒阵列的音频输入中以标识与目标脸相关联的目标音频输入。所述方法包括将目标音频输入转换成文本。所述方法还包括通过头戴式显示设备的透明显示器来显示文本。
[0008]提供该概述以便以简化形式介绍概念的选集,所述概念在以下详细描述中被进一步描述。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。而且,所要求保护的主题不限于解决该公开的任一部分中所注的任何或全部缺点的实现方式。
[0009]附图简述
[0010]图1是根据本公开的一实施例的语音转换系统的示意图。
[0011]图2示出根据本公开的一实施例的示例头戴式显示设备。
[0012]图3是房间中佩戴图2的头戴式显示设备的用户以及三个其他人的示意性透视图。
[0013]图4A和4B示出了用于根据本公开的一实施例来将来自环境的音频输入转换成文本的方法的流程图。
[0014]图5是计算设备的一实施例的简化示意图解。
[0015]详细描述
[0016]图1示出了语音转换系统10的一个实施例的示意图。语音转换系统10包括可被存储在计算设备22的大容量存储18中的语音转换程序14。如以下更详细描述的,语音转换程序14可以包括语音聚焦程序24和波束成形器程序26。
[0017]语音转换程序14可被加载到存储器28中并由计算设备22的处理器30执行以执行下文更为详细地描述的方法和过程中的一个或多个。又如下文更加详细描述的,大容量存储18还可以包括脸部检测程序84、用户聚焦程序86、手语程序88以及唇读程序90。
[0018]语音转换系统10包括混合现实显示程序32,该混合现实显示程序32可生成用于经由显示设备(诸如头戴式显示器(HMD)设备36)显示的虚拟环境34以创建混合现实环境。虚拟环境34可包括一个或多个虚拟对象。这样的虚拟对象可包括一个或多个虚拟图像(诸如三维全息图像)和其他虚拟对象(诸如二维虚拟对象)。如下文更加详细描述的,这样的虚拟对象可以包括已经从由HMD设备36所接收的目标音频输入中生成的文本40。
[0019]计算设备22可采用以下形式:台式计算设备,诸如智能电话、膝上型计算机、笔记本或平板计算机之类的移动计算设备,网络计算机,家庭娱乐计算机,交互式电视,游戏系统,或其他合适类型的计算设备。关于计算设备22的组件和计算方面的附加细节在下文中参考图5更详细地描述。
[0020]计算设备22可使用有线连接来与HMD设备36在操作上连接,或可采用经由WiF1、蓝牙或任何其他合适的无线通信协议的无线连接。例如,计算设备22可通信地耦合到网络16。网络16可采取局域网(LAN)、广域网(WAN)、有线网络、无线网络、个域网、或其组合的形式,并且可包括因特网。
[0021]如以下更详细描述的,计算设备22可经由网络16与一个或多个其它HMD设备和其它计算设备(诸如服务器20)通信。另外,图1中示出的示例将计算设备22示为与HMD设备36分开的组件。将理解,在其他示例中,计算设备22可被集成到HMD设备36中。
[0022]现在还参考图2,提供了一副具有透明显示器44的可配戴眼镜形式的HMD设备200的示例。将明白,在其他示例中,HMD设备200可以采取其他合适的形式,其中透明、半透明或不透明显示器被支撑在查看者的一只或两只眼睛前方。还将明白,图1中所示的HMD设备36可以采取HMD设备200的形式(如在下文更详细地描述的)或任何其他合适的HMD设备。另外,在本公开的范围内还可使用具有各种形状因子的许多其他类型和配置的显示设备。此类显示设备可包括但不限于手持式智能电话、平板计算机以及其他适当的显示设备。
[0023]参考图1和2,HMD设备36包括显示系统48和使图像(诸如全息对象)能够被递送到用户46的眼睛的透明显示器44。透明显示器44可被配置成向透过该透明显示器查看物理环境的用户46在视觉上增强该物理环境50的外观。例如,物理环境50的外观可以由经由透明显示器44呈现的图形内容(例如,一个或多个像素,每一像素具有相应色彩和亮度)来增强以创建混合现实环境。
[0024]透明显示器44还可被配置成使用户能够透过显示虚拟对象表示的一个或多个部分透明的像素来查看物理环境50中的物理现实世界对象(诸如,脸1 54、脸2 56和脸358)。如图2所示,在一个示例中,透明显示器44可包括位于透镜204内的图像生成元件(诸如例如透视有机发光二极管(0LED)显示器)。作为另一示例,透明显示器44可包括在透镜204边缘上的光调制器。在这一示例中,透镜204可以担当光导以供将光从光调制器递送到用户的眼睛。这样的光导可使得用户能够感知位于物理环境50内的用户正在查看的3D全息图像,同时还允许用户查看物理环境中的物理对象,由此创建混合现实环境。
[0025]HMD设备36还可包括各种传感器和相关系统。例如,HMD设备36可包括利用至少一个面向内的传感器216的眼睛跟踪系统62。该面向内的传感器216可以是被配置成从用户的眼睛获取眼睛跟踪数据66形式的图像数据的图像传感器。假定用户已同意获取和使用这一信息,眼睛跟踪系统62可以使用这一信息来跟踪用户的眼睛的位置和/或运动。
[0026]在一个示例中,眼睛跟踪系统62包括被配置成检测用户的每一个眼睛的注视方向的注视检测子系统。该注视检测子系统可被配置成以任何合适方式确定每一只用户眼睛的注视方向。例如,注视检测子系统可包括诸如红外光源等被配置成使得从用户的每一只眼睛反射闪光的一个或多个光源。一个或多个图像传感器然后可被配置成捕捉用户眼睛的图像。
[0027]如从收集自图像传感器的图像数据确定的闪烁和瞳孔的图像可用于确定每一眼睛的光轴。使用该信息,眼睛跟踪系统62随后可以确定用户正在注视的方向和/或用户正注视着什么物理对象或虚拟对象。这样的眼睛跟踪数据66可随后被提供给计算设备22。将理解,注视检测子系统可以具有任意适当数量和布置的光源和图像传感器。
[0028]HMD设备36还可包括从物理环境50接收物理环境数据60的传感器系统。例如,HMD设备36可包括利用至少一个面向外的传感器212 (如光学传感器)的光学传感器系统68。面向外的传感器212可以检测其视野内的运动,如视野内的用户46或人或物理对象所执行的基于姿势的输入或其他运动。面向外的传感器212还可从物理环境50和该环境内的物理对象捕捉二维图像信息和深度信息。例如,面向外的传感器212可包括深度相机、可见光相机、红外光相机,和/或位置跟踪相机。
[0029]HMD设备36可包括经由一个或多个深度相机的深度感测。在一个示例中,每一深度相机可包括立体视觉系统的左和右相机。来自这些深度相机中的一个或多个的时间分辨的图像可被彼此配准和/或与来自另一光学传感器(如可见光谱相机)的图像配准,且可被组合以产生深度分辨的视频。
[0030]在其他示例中,结构化光深度相机可被配置成投影结构化红外照明并对从照明被投影到其之上的场景中反射的该照明进行成像。基于所成像的场景的各个区域内邻近特征之间的间隔,可构造该场景的深度图。在其他示例中,深度相机可以采取飞行时间深度相机的形式,其被配置成将脉冲的红外照明投影到该场景上以及检测从该场景反射的照明。可以理解,在本发明的范围内可使用任意其他合适的深度相机。
[0031]面向外的传感器212可以捕捉用户46位于其中的物理环境50的图像。在一个示例中,混合现实显示程序32可包括使用这样的输入来生成对围绕该用户46的物理环境50进行建模的虚拟环境34的3D建模系统。
[0032]HMD设备36还可包括位置传感器系统72,该位置传感器系统72利用一个或多个运动传感器220来实现对HMD设备
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1