具有自动语音转录的听力辅助的制作方法

文档序号：15743329发布日期：2018-10-23 22:39阅读：221来源：国知局

传统助听器包括在用户身体上(通常在耳朵处或在耳朵附近)小心穿戴的麦克风、处理单元和在用户耳道入口内或入口处的扬声器。助听器的原理是捕获到达用户的音频信号并以克服用户听力能力的缺陷的方式放大它。例如，信号可以在某些频率上比其他频率更多地被放大。已知对人类理解语音很重要的某些频率可能比其他频率提升更多。

技术实现要素：

提供本发明内容是为了以简化的形式介绍一些概念，这些概念将在下面的具体实施方式中被进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

通常，本文描述的辅助听力设备实现通过以下方式来辅助听力受损的用户：采用自动语音转录来生成表示在音频信号中接收的语音的文本，然后文本被显示给用户和/或以被定制的合成话音读以克服用户的听力缺陷。

在一些实现中，辅助听力设备实现使用麦克风或麦克风阵列(在一些情况下优化用于语音识别)来捕获包含语音的音频信号。语音识别引擎识别接收的音频中的语音(例如，词语)，并将接收的音频的经识别的词语/语言分量转换为文本。一旦语音被转换为文本，文本可以被显示在现有设备上，诸如例如用户的电话、手表或计算机，或者可以被显示在可穿戴的增强现实显示器上，或者可以直接被投射到用户的视网膜。对于具有深度或完全听力损失的人来说，文本的视觉显示在非常嘈杂的情况下尤其有益，或者对于一些用户而言可以简单地是优选的。在其他实现中，文本到语音引擎(例如，语音合成器)可以将文本转换为合成语音，该合成语音可以被增强并以话音输出，该话音补偿辅助听力设备的用户的听力损失简档。在其他实现中，除了合成话音之外，还可以使用所识别文本的显示。文本可以在与扬声器或其他音频输出设备输出的合成语音协调或不协调的情况下被显示给用户。

本文描述的辅助听力设备实现可以在独立的专用设备上实现，或者在用户的移动计算设备(例如，智能电话、智能手表、智能眼镜等)上的应用或应用程序上实现。

本文描述的各种辅助听力设备实现可以将合成的(文本到语音)语音输出到放置在用户耳朵中或附近或者由用户以某种类似的方式穿戴的耳机或扬声器。在一些实现中，表示合成语音的信号可以直接发送到用户的传统助听器，或者可以直接被发送到用户的一个或多个人工耳蜗。

附图说明

关于以下描述、所附权利要求和附图，将更好地理解本公开的具体特征、方面和优点，在附图中：

图1是在其中可以实践本文描述的辅助听力设备实现的示例性环境。

图2是如本文描述的示例性辅助听力设备实现的功能框图。

图3是如本文描述的另一示例性辅助听力设备实现的功能框图，其可以提供对于听力受损者更容易理解的增强合成语音，并且以一种或多种语言显示与所接收的语音相对应的文本。

图4是用于如本文描述的示例性辅助听力设备实现的系统的功能框图，其中服务器或计算云可被用于共享处理，例如，语音识别和文本到语音处理。

图5是用于实践各种示例性辅助听力设备实现的示例性过程的流程图，该各种示例性辅助听力设备实现输出对特定用户的听力损失简档而定制的合成语音。

图6是用于实践将语音转录为文本并将转录的文本输出到显示器的各种示例性辅助听力设备实现的示例性过程的流程图。

图7是用于实践其中可被一个或多个用户理解的合成语音被输出的各种示例性辅助听力设备实现的示例性过程的流程图。

图8是可用于实践本文描述的示例性辅助听力设备实现的示例性计算系统。

具体实施方式

在如本文所述的辅助听力设备实现的以下描述中，参考形成其一部分的附图，且附图通过说明的方式示出通过其可实践本文中所描述的实现的示例。应当理解，在不脱离所要求保护的主题的范围的情况下，可以利用其他实施例并且可以进行结构改变。

1.0辅助听力设备实现

以下部分提供了辅助听力设备实现的概述，其中可以实现本文描述的辅助听力设备实现的示例性环境、用于实践这些实现的示例性设备、系统和过程、以及示例性使用场景。

作为初步事项，下面的一些附图描述了一个或多个结构组件的上下文中的概念，不同地被称为功能、模块、特征、元件等。图中所示的各种组件可以以任意方式实现。在一种情况下，图中各个组件的所示分离为不同的单元可以反映实际实现中对应的不同组件的使用。替代地或另外地，附图中图示的任意单个组件可以由多个实际组件实现。替代地或另外地，附图中的任意两个或更多个分离组件的描绘可以反映由单个实际组件执行的不同功能。

其他附图以流程图的形式描述了概念。在这种形式中，某些操作被描述为构成以特定顺序执行的不同框。这些实现是示意性的而非限制性的。本文描述的某些框可以被组合在一起并在单个操作中执行，某些框可以分成多个组件框，并且某些框可以按照与本文所示的顺序不同的顺序执行(包括执行框的并行方式)。流程图中图示的框可以以任意方式实现。

1.1概述

一般而言，本文所描述的辅助听力设备实现通过以下方式来辅助该设备的听力受损的用户：使用自动语音转录来生成表示在音频信号中接收的语音的文本，然后该文本在视觉上显示和/或以用于克服用户的听力缺陷定制的合成话音读。

如本文所述的辅助听力设备实现相对于传统助听器和试图弥补听力问题的其他方法具有许多优点。辅助听力设备实现不仅可以区分语音声音和非语音声音，还可以识别正在说出的词语，以及哪个说话者正在说出它们，并将它们转录成文本。因为辅助听力设备可以实时地直接向听力受损者提供增强合成语音，所以设备的用户可以容易地跟随对话。另外，可以在增强合成语音被输出的同时或几乎同时向用户显示语音文本，这允许用户返回以验证他们直接理解的会话的部分。在一些实现中，仅输出文本。这对于会话中完全失聪的参与者来说尤其有益，因为即使他们听不到语音，他们也可以读转录并且参与对话。在一些实现中，来自一个辅助听力设备的增强合成语音通过网络被发送到另一个辅助听力设备，该网络允许两个听力受损的个体即使在他们不在同一房间时也能理解彼此的语音。通过将嘈杂房间中的语音转换为文本然后以适合于用户的听力损失简档的增强方式将文本的转录直接向用户耳中的扬声器(或传统助听器或人工耳蜗)播放，与比传统助听器相比，用户更容易理解语音，传统助听器通常只是放大所有声音的音量，或由用户的听力简档决定的特定音调范围内的所有声音，而无论声音是否是语言。接收音频中的噪声实际上被完全消除。

图1描绘了用于实践如本文所述的各种辅助听力设备实现的示例性环境100。辅助听力设备102可以实施在例如专用设备、移动电话、平板计算机或具有在其上运行的辅助听力应用的一些其他移动计算设备上。辅助听力设备102可以由用户/穿戴者104穿戴或保持，或者可以存储在用户/穿戴者的口袋中或者可以在用户104附近的其他地方。辅助听力设备102包括麦克风或麦克风阵列(未图示)，其捕获包含语音和背景噪声的音频信号106。在一些实现中，辅助听力设备102经由蓝牙或其他近场通信(NFC)或其他无线通信能力来与用户耳朵中的扬声器进行通信或向用户104的传统助听器或人工耳蜗传送信息。

辅助听力设备102可以基于从音频信号106获得的语音文本的转录以话音的形式输出增强合成语音。可以以以下方式输出增强合成语音108：使得用于输出合成语音的话音的音调或其他音质被设计为克服辅助听力设备102的穿戴者/用户104的听力损失简档。这将在后面更详细地讨论。如上所述，在一些实现中，增强合成语音被输出到用户耳朵附近的扬声器，但是在一些辅助听力设备实现中，增强语音108不被输出到扬声器并且直接被注入到传统助听器的处理器中(例如，经由助听器上的辅助通道)或直接被注入到穿戴它们的人的人工耳蜗中(例如，经由人工耳蜗上的辅助通道)。

辅助听力设备实现使用麦克风或麦克风阵列来捕获包含语音的音频106信号。识别所接收音频中的语音的语音识别引擎将所接收音频的语音分量转换为文本。文本到语音引擎可以将该文本转换为合成语音。该合成语音可以被增强并以话音输出，该话音补偿辅助听力设备的用户的听力损失简档。通过将所接收的语音转录成文本，本文描述的辅助听力设备实现消除了来自音频信号的背景噪声。通过用对听力受损者更容易理解的合成话音来读转录文本来转换转录文本，给定人或一组人的听力缺陷可以被弥补。

麦克风或麦克风阵列可以由用户穿戴，或者可以内置在现有的可穿戴设备中，例如智能眼镜、智能手表、项链等。在一些辅助听力设备实现中，麦克风或麦克风阵列可以简单地是用户的智能电话或其他移动计算设备的标准麦克风。麦克风或麦克风阵列可以是可拆卸的，使得用户可以将麦克风交给某人以促进对话或将麦克风放在桌子上以用于会议。在一些实现中，辅助听力设备的麦克风可以被优化用于接收语音。例如，麦克风可以是定向的，以便指向设备的用户/穿戴者正在对其讲话的人。而且，麦克风在人类话音的范围内可以更敏感。

辅助听力设备实现中采用的语音识别引擎可以在用户穿戴的专用设备上运行，在用户的智能电话或其他移动计算设备上运行，或者可以被托管在智能云服务中(例如，通过网络访问)。类似地，辅助听力设备采用的文本到语音引擎也可以在用户穿戴的专用设备上运行，或者在用户的智能电话或其他移动计算设备上运行，或者可以被托管在智能云服务中。文本到语音引擎可以被专门设计用于增加具有听力损失的用户的语音清晰度。它可以进一步被定制给给定的个体用户的听力损失简档。

在本文描述的各种辅助听力设备实现中，捕获的语音的文本转录可以向用户显示，诸如例如，文本可以被显示在用户的智能电话、智能手表或其他智能可穿戴设备的显示器上，诸如眼镜或其他增强或虚拟现实显示器，包括将文本直接投射到用户视网膜上的显示器。文本可以在与扬声器或其他音频输出设备输出的合成语音协调或不协调的情况下向用户显示。

1.2示例性实现。

图2描绘了用于实践如本文描述的各种辅助听力设备实现的辅助听力设备200。如图2所示，该辅助听力设备200具有辅助听力模块202，其在诸如关于图8更详细描述的计算设备800上实现。辅助听力设备200包括麦克风(或麦克风阵列)204，其捕获包含语音以及背景噪声或声音的音频206。该音频206可以是在辅助听力设备200的第一用户208(例如，听力受损用户)附近的人210的语音。在一些实现中，辅助听力设备200过滤辅助听力设备的第一用户的语音并且防止其被设备200进一步处理。在其他实现中，第一用户208的语音由辅助听力设备200进一步处理以用于各种目的。例如，第一用户的语音的转录可以被显示给第一用户/穿戴者208和/或被发送到第二用户的辅助听力设备，其可以将用户的语音输出到第二用户和/或将第一用户的语音的转录228显示给第二用户。在一些实现中，在麦克风阵列的情况下，麦克风阵列可用于对话中的参与者208和210的声源定位(SSL)或减少输入噪声。声源分离也可用于帮助标识会话中的哪个参与者208,210正在讲话以便促进音频信号206的后续处理。

辅助听力设备200上的语音识别模块224将接收的音频206转换为文本228。在一些实现中，语音识别模块224不仅可以区分说话者正在说话的词语，还可以确定哪个说话者正在说它们。例如，在一些实现中，语音识别模块224从音频206信号中的语音中提取特征，并且使用语音模型来确定正在说什么以便将语音转录为文本，从而生成语音的转录228。语音模型被用与从语音信号中提取的特征类似的特征进行训练。在一些实现中，语音模型可以通过第一用户208的话音和/或其他人说话来训练。因此，在一些实现中，语音识别模块可以通过使用语音模型来区分哪个人正在讲话来确定哪个人正在与听力受损用户208说话。替代地，辅助听力设备可以通过使用定向麦克风或具有波束成形的麦克风阵列来确定语音来自哪个方向来确定谁正在与用户208讲话。另外，在一些实现中，辅助听力设备使用正在讲话的人的图像或视频并使用这些来确定谁在说话(例如，通过监视每个人的嘴唇的运动)。语音识别模块224可以将转录228输出到显示器234。通过将原始音频信号206中的语音转录成文本228，非语音信号被移除。第一用户208和/或对转录感兴趣的其他人可以查看显示器234。例如，显示器234可以是第一用户的移动计算设备、智能手表、智能眼镜等上的显示器。

转录228被输入到文本到语音转换器230(例如，话音合成器)。文本到语音转换器230然后将转录(文本)228转换为增强语音信号232，该增强语音信号232在被回放给辅助听力设备200的第一用户208时，比原始语音更容易理解。文本到语音转换器230可以例如通过使用话音数据库222和一个或多个听力损失简档226来增强语音信号以便于理解。可以通过选择与用户的听力损失简档匹配的话音，从话音数据库222中选择用于与转录228一起输出的话音。例如，如果听力损失简档226指示用户208不能听到高频，则可以从话音数据库222中选择低频话音以输出转录。增强合成语音或使合成语音对辅助听力设备的用户更容易理解的其他方法也是可能的。例如，可以强调某些音素以提高清晰度。使合成语音对听觉受损者更容易理解的其他方式包括使音调轮廓适应于适合于用户听力简档的范围。

辅助听力设备200包括一个或多个通信单元212，其有时经由有线或无线网络236向输出机构发送增强语音232。例如，辅助听力设备200可以使用通信单元212将增强合成语音输出到第一用户/穿戴者208的耳朵中或附近的扬声器214(或多于一个扬声器)。在该实现中，扬声器214将表示捕获的音频信号206中的语音的增强合成语音232输出为对于第一用户/穿戴者208是可听到的。在一些辅助听力设备实现中，辅助听力设备不是将增强合成语音232输出到扬声器，而是将表示增强合成语音232的信号直接输出到第一用户/穿戴者的传统助听器216或人工耳蜗218中。在一些实现中，辅助听力设备200可以将表示合成语音的信号输出到另一个辅助听力设备220。

辅助听力设备200还可以包括对设备(例如，电池、可充电电池、对设备进行感应充电的设备等)进行充电的方式，并且还可以包括可以用于控制设备200的各个方面的控制面板。辅助听力设备200还可以具有可以用于各种目的其他传感器、致动器和控制机构，诸如检测设备的取向或位置、感测手势等。

在一些实现中，辅助听力设备以可穿戴设备的形式由第一用户/穿戴者穿戴。例如，它可以以项链的形式穿戴(如图1所示)。在其他实现中，辅助听力设备是以手表或腕带的形式的可穿戴的辅助听力设备。在其他实现中，辅助听力设备是以翻领针、徽章或名牌固定器、发片、胸针等形式。许多类型的可穿戴配置都是可能的。此外，一些辅助听力设备不可穿戴。这些辅助听力设备具有与本文描述的可穿戴辅助听力设备相同的功能，但具有不同的形式。例如，它们可以具有磁铁或夹子或将辅助听力设备固定在使用者附近的其他设备。

图3描绘了用于实践如本文所述的各种辅助听力实现的另一示例性辅助听力设备300。尽管图3中示出的示例性辅助听力设备300以类似于图2中示出的实现200的方式操作，但是该辅助听力设备300还可以包括语音转换模块336。在该实现中，转录语音或增强合成语音可以以一种或多种不同的语言输出。

如图3所示，该辅助听力设备300具有辅助听力模块302，其在诸如关于图8更详细描述的计算设备800上被实现。辅助听力设备300包括麦克风(或者麦克风阵列)304，其捕获设备的第一用户/穿戴者308和一个或多个附近的人310的语音以及背景噪声或声音的音频306。在一些实现中，辅助听力设备300过滤辅助听力设备300的第一用户308的语音并且防止其被设备300进一步处理。在其他实现中，第一用户308的语音还由辅助听力设备进一步处理以用于各种目的。例如，第一用户的语音的转录可以显示给第一用户/穿戴者308和/或被发送到第二用户的辅助听力设备，其可以将第一用户的语音输出到第二用户(未示出)和/或向第二用户显示第一用户的语音的转录328。在一些实现中，在麦克风阵列304的情况下，麦克风阵列可用于对话中的参与者308、310的声源位置(SSL)或减少输入噪声。声源分离也可以用于帮助标识会话中的哪个参与者308、310正在讲话以便促进音频信号306的后续处理。

辅助听力设备300的语音识别模块324将所接收的音频306中的语音转换为文本328。语音识别模块324从音频信号中的语音中提取特征并使用语音模型来确定所说的内容，以便将语音转录成文本，从而生成语音的转录328。语音模型被用与从音频信号中的语音中提取的特征类似的特征进行训练。在一些实现中，语音模型可以通过第一用户的话音和/或其他人讲话来训练。语音识别模块324可以将转录328输出到显示器334。然后，第一用户308和/或对转录328感兴趣的其他人可以在显示器334上查看它。例如，显示器334可以是第一用户的移动计算设备、智能手表、智能眼镜等上的显示器。

转录328被输入到文本到语音转换器330(例如，话音合成器)。然后，文本到语音转换器330可以将转录(文本)328转换为增强语音信号332，该增强语音信号332在向第一用户308回放时，比原始语音更容易理解。在一些实现中，文本到语音转换器330通过使用话音数据库322和一个或多个听力损失简档326来增强语音以用于可理解性。通过选择与用户的听力损失简档匹配的话音，可以从话音数据库322中选择与转录一起输出的话音。例如，如果听力损失简档326指示用户不能听到高频，则可以从话音数据库322中选择低频话音以输出转录。使话音对辅助听力设备的用户更容易理解的其他方法也是可能的。通过将原始音频信号中的语音转录成文本，非语音声音被移除。当文本随后被转换为合成语音时，通过为听力困难的人仅包括语音的语言分量来增强合成语音的可理解性。例如，这可以通过选择话音来输出具有用户听力范围内的特征的合成语音来完成。可以强调某些音素以提高清晰度。

辅助听力设备300包括一个或多个通信单元312，其有时经由有线或无线网络336向输出机构发送增强语音332。例如，辅助听力设备300可以包括在第一用户/穿戴者308的耳朵中或附近的扬声器314(或多于一个扬声器)。在该实现中，扬声器214将表示捕获的音频信号306中的语音的增强合成语音332输出为对于第一用户/穿戴者208是可听到的。在如上所述的一些辅助听力设备实现中，辅助听力设备300不是将增强合成语音332输出到扬声器，而是将表示增强合成语音332的信号直接输出到第一用户/穿戴者的传统助听器316或人工耳蜗318中。在一些实现中，辅助听力设备300可以将表示合成语音的信号输出到另一个辅助听力设备320。

如上所述，该辅助听力设备实现可以将接收的音频信号中的原始语音翻译成一种或多种不同的语言。例如，翻译器336可以将以第一语言的输入语音翻译成第二语言。例如，这可以通过使用字典来确定接收的语音中的每个词语或音素的可能翻译候选并且使用机器学习来为给定输入挑选最佳翻译候选来完成。在一个实现中，翻译器336生成输入语音的翻译的转录328(例如，翻译的文本)。该翻译的转录328可以显示给一个或多个人。还可以通过使用文本到语音转换器330将翻译的文本/转录328转换为输出语音信号。可以增强以第二语言的输出语音，以使语音对于听力受损的用户更容易理解。增强合成语音332(可以被翻译成第二语言)由扬声器(或多个扬声器)314输出或被输出到显示器或其他输出机构。

在一些实现中，辅助听力设备300可以确定地理位置并且使用该位置信息以用于各种目的(例如，以确定要翻译的语音的至少一种语言)。在一些实现中，可以通过使用蜂窝电话塔ID、Wi-Fi服务集标识符(SSID)或蓝牙低功耗(BLE)节点的位置来计算地理位置。

如前所述，文本/转录328可以被显示在设备302的显示器334(或一些其他显示器(未图示))上。在一个实现中，在由扬声器314或其他音频输出设备(诸如例如，助听器、人工耳蜗或移动电话)输出增强的同时，显示文本/转录328。这种实现对于对话中完全失聪的参与者尤其有益，因为即使他们不能听到通过扬声器输出的语音，他们也可以读转录并参与对话。在一些实现中，文本或转录328可以直接被投射到用户眼睛的视网膜上。(这可以通过使用视网膜投影仪投射文本图像来完成，该视网膜投影仪通过分束器和凹面镜聚焦激光，以便于在眼睛后部创建文本的光栅显示)。

图4中示出了又一辅助听力设备实现400。辅助听力设备400以与图2和图3中所示的实现类似的方式操作，但是还与服务器或计算云446通信，服务器或计算云446经由网络438和通信能力412和442从辅助听力设备400接收信息，并且向辅助听力设备400发送信息。该辅助听力设备400具有辅助听力模块402，其在诸如关于图8更详细地描述的计算设备800上实现。辅助计算设备400包括至少一个麦克风404，其捕获表示附近语音的输入信号406。

语音识别模块424将所接收的音频406中的语音转换为文本428。语音识别模块424可以驻留在辅助听力设备400上和/或服务器或计算云446上(下面更详细地讨论)。如前所述，语音识别模块424从来自音频406的语音中提取特征，并使用语音识别模型来确定正在说什么以便将语音转录为文本，从而生成语音的转录428。语音识别模块424可以将转录428输出到显示器434，其中对其感兴趣的人可以查看它。

转录428可以被输入到文本到语音转换器430(例如，话音合成器)。该文本到语音转换器430可以驻留在辅助听力设备400上或驻留在服务器或计算云446上(下面更详细地讨论)。文本到语音转换器430将转录(文本)428转换为增强语音，增强语音在被向辅助听力设备400的第一用户回放时，比原始语音更容易理解。在一些辅助听力设备实现中，文本到语音转换器430通过使用话音数据库422和一个或多个听力损失简档426来增强语音信号以便理解。通过选择与用户的听力损失简档426匹配的话音，可以从话音数据库422中选择与转录428一起输出的话音。使得语音对于辅助听力设备的用户更容易理解的其他方法也是可能的。通过将原始音频信号中的语音转录成文本，非语音声音被移除。当使用文本到语音转换器430将文本转换为合成语音时，通过为听力困难的人修改语音的语言分量来增强合成语音。例如，这可以通过选择话音来输出具有用户听力范围中的特征的合成语音来完成。

通信单元412可以向服务器/计算云446的通信单元442发送捕获的表示语音的输入信号406，并且可以从服务器/计算云接收文本、语言翻译或合成语音信号432。在一个实现中，辅助计算设备400可以使用辅助计算设备上的GPS(未示出)来确定地理位置，并将位置信息提供给服务器/计算云446。然后，服务器/计算云446可以使用该位置信息用于各种目的，诸如用于确定所说的可能语言。辅助计算设备400还可以与服务器或计算云446共享处理，以便处理包含由辅助计算设备捕获的语音的音频信号406。在一个实现中，服务器/计算云446可以运行语音识别器424以将所接收的音频中的语音转换为文本，并且运行文本到语音转换器430以将文本转换为合成语音。替代地，语音识别器424和/或文本到语音转换器430可以在辅助听力设备400上运行。在一个实现中，将转录428从服务器/计算云446被发送到辅助听力设备400，并且被显示在辅助计算设备400的显示器434或不同设备(未图示)的显示器上。在一个实现中，在由扬声器414、传统助听器416或人工耳蜗418输出增强语音的同时显示转录428。

图5描绘了用于实践各种听力辅助实现的示例性计算机实现的过程500。如图5中的框502所示，在一个或多个麦克风处接收包含具有背景噪声的语音的输入信号。这些麦克风可以设计为针对语音识别被优化。例如，麦克风可以是定向的，以便仅从一个方向(例如，朝向人说话的方向)捕获声音。语音识别引擎用于识别所接收的语音并将所接收的语音的语言分量转换为文本，如框504所示。语音识别引擎可以在设备、服务器或计算云上运行。文本到语音引擎用于将文本转换为增强合成语音，其中增强合成语音是在与给定的听力损失简档相关联的话音中创建的，如框506所示。听力损失简档可以是可由用户选择。文本到语音引擎可以在设备、服务器或计算云上运行。将增强合成语音输出给用户，如框508所示。用于输出增强合成语音的话音可由用户选择。例如，在一些实现中，与增强合成语音一起被输出的话音可以一组话音中选择，每个话音具有其自己的音调轮廓。该处理500可以实时发生，使得用户可以在说出语音的基本上同时听到增强语音，并且在一些实现中，同时在显示器上看到语音的转录。

图6描绘了用于实践各种听力辅助实现的另一示例性计算机实现的过程600。如图6中的框602所示，在一个或多个麦克风处接收包含具有背景噪声的语音的输入信号。麦克风可以是定向的，以便仅从一个方向(例如，朝向人说话的方向)捕获声音。语音识别引擎用于识别所接收的语音并将所接收的语音的语言分量转换为文本，如框604所示。语音识别引擎可以在设备、服务器或计算云上运行。在一些实现中，文本到语音引擎(如果使用的话)可以可选地用于将文本转换为增强合成语音，其中增强合成语音被创建以使对听力受损的人更容易理解，如框606(虚线指示这是可选的框/步骤)所示。文本到语音引擎可以在设备、服务器或计算云上运行。文本被输出给用户，如框608所示。例如，文本可以被显示在显示器上或使用打印机打印。该过程可以实时发生，以便用户在语音被说出的同时在显示器上看到语音的转录。类似地，在合成语音被输出的情况下，其可以在转录被输出的基本相同时间被输出。

图7描绘了用于实践如本文所述的各种听力辅助实现的另一示例性计算机实现的过程700。如图7中的框702所示，在一个或多个麦克风处接收包含具有背景噪声的语音的信号。如上所述，语音识别引擎用于识别接收的语音并将接收的语音的语言分量转换为文本，如框704所示。语音识别引擎可以在设备、服务器或计算云上运行。文本到语音引擎用于将文本转换为增强合成语音，如框706所示。可以在话音中创建克服一个或多个听力损伤的增强合成语音。文本到语音引擎可以在设备、服务器或计算云上运行。合成语音被输出到一个或多个用户，如框708所示。该过程700可以实时发生，使得用户可以在语音被说出的基本上相同的时间听到增强语音，有或没有输入语音的转录被显示在显示器上。

1.3示例性使用场景。

以下段落描述了各种示例性现实世界场景，其中本文描述的辅助听力设备实现可用于帮助听力受损者。提供这些示例是为了触及辅助听力设备实现所提供的一些可能性。它们并不意味着是穷尽的列表，也不以任意方式限制辅助听力设备实施的范围。

1.3.1情景1：轻度听力损失/偶尔辅助。

在第一种使用情景中，具有轻微听力损失的个体通常可以听得足够好以进行管理，但是有时会错过所述内容的一些关键词，并且然后不能跟随对话。有时候，个体要求说话者重复，但在大多数社交场合，听力受损的人发现扰乱性和尴尬，所以他或她只是微笑，什么都不说。通常人们不会注意到，但随着时间的推移，这个人感到与朋友和家人脱节。随着听力受损个体的听力变差，他或她可能会走向孤立和抑郁。

利用本文所述的助听器设备实现，听力受损个体现在可以穿戴离散麦克风(例如翻领麦克风)，其捕获对他或她说的所有内容。它可能是方向性的，因此在聚会中，如果个体面对与他们交谈的人，则它很有效。当个体错过某些东西时，他或她可以看一眼显示器，诸如他们的智能手表，它会显示最后说的事的转录。个体也可以滚动转录以查看之前的话语，这样他们就可以确保他们正在跟着对话。当他们没有这样的手表时，他们可以在手机上看到相同的信息。

1.3.2情景2：严重听力损失。

在第二种使用情景中，在病毒性疾病几年之后，个体突然发现他们几乎在双耳中都失去了所有听力。他们花了数年时间尝试了许多不同的、非常昂贵的助听器。这些助听器都有一点帮助，但没有一个能够恢复人的听力以充分发挥作用。这个体最终提前退休，因为他们无法应付工作。他们曾经是一个真正的社交人，但现在发现他们大部分时间都在读和看电影(带字幕)。

利用助听器设备，具有严重听力损失的人现在穿戴一副眼镜，为他们的现实生活添加字幕。内置于眼镜中的一对强大的定向麦克风可以捕捉到该人正在看的人的语音。即使在嘈杂的派对上，如果他们看着说话的人，也会将他们的语音与周围的噪音隔离开来。严重听力损失的人然后会在人脸下看到字幕。字幕可以直接投射到用户的视网膜上。他们可以看到字幕不能很好地跟踪说话者的嘴巴动作，但这没关系，因为他或她可以再次社交，在派对上或者一对一与他们的朋友交谈。

1.3.3情景3：老年夫妇

在第三种使用情景中，随着丈夫和妻子变老，他们的听力逐渐恶化。他们尝试了便宜的助听器，但它们并没有为他们做太多事情。可能更昂贵的助听器会更好地工作，但Medicare不支付他们的费用，他们买不起。他们提出了漂亮的笔记系统。他们家里的每个表面都有一个记事本和一支笔。它一直在互相尖叫，并且它挽救了他们的婚姻。但是，如果他们位于不同的房间，则笔记系统不能很好地工作。

这对夫妇的女儿给他们买了一对带有如本文所述安装的听力辅助应用程序的智能手机，外加小型蓝牙耳机。该应用程序始终倾听每一方。现在，丈夫或妻子可以用正常的话音说话，无论他们说什么都被认为是词语，并在配偶的耳机中播放。播放话音是根据他们仍能很好地听到的频谱的部分进行定制的。他们可以清楚地说出这些话。他们的手机上也会显示相同的词语，因此他们可以检查以确保他们不会误解。最重要的是他们即使在房子的不同部分它也能工作。

1.3.4场景4：课堂

聋哑学生在出生时耳聋，通常面临选择就读针对聋人的、提供手语翻译的特殊学校的选择，或者就读非聋学生的学校，在那里他们不能听到大部分正在说话的内容。

相反，在配备有如本文所述的听力辅助设备和系统的学校中，聋人用户可以更有效地与听力世界交互。聋人学生走进的每个班级都有门上贴出的快速响应(QR)代码或房间代码。学生通过手机或平板电脑启动听力辅助应用程序，扫描或键入代码，并且立即为教师说的所有内容添加字幕。老师都戴着翻领麦克风或耳机，因此字幕的准确性非常好。学生现在可以理解老师所说的一切。

2.0其他实现

以上描述的内容包括示例实现。当然，出于描述所要求保护的主题的目的，不可能描述组件或方法的每个可想到的组合，但是本领域普通技术人员可以认识到许多其他组合和排列是可能的。因此，所要求保护的主题旨在涵盖落入上述实现的详细描述的精神和范围内的所有这样的改变、修改和变体。

关于由上述组件、设备、电路、系统等执行的各种功能，除非另有说明，否则用于描述这些组件的术语(包括对“部件”的引用)旨在对应于执行所描述的组件的指定功能(例如，功能等同物)的任意组件，即使在结构上不等同于所公开的结构，其执行所要求保护的主题的本文图示的示例性方面中的功能。在这方面，还将认识到，前述实现包括系统以及计算机可读存储介质，其具有用于执行所要求保护的主题的各种方法的动作和/或事件的计算机可执行指令。

存在多种实现前述实现的方式(诸如适当的应用程序编程接口(API)、工具包、驱动程序代码、操作系统、控件、独立或可下载的软件对象等)，其使得应用程序和服务能够使用本文描述的实现。所要求保护的主题从API(或其他软件对象)的角度以及从根据本文阐述的实现操作的软件或硬件对象的角度考虑这种使用。因此，本文描述的各种实现可以具有完全在硬件中、或部分在硬件中、部分在软件中、或者完全在软件中的方面。

已经关于若干组件之间的交互描述了前述系统。应当理解，这样的系统和组件可以包括那些组件或指定的子组件、一些指定的组件或子组件、和/或附加的组件、以及根据前述的各种排列和组合。子组件还可以被实现为通信地耦合到其他组件而不是包括在父组件(例如，分层组件)内的组件。

另外，应注意，一个或多个组件可以被组合成提供聚合功能的单个组件或者被分成几个分离的子组件，并且可以提供诸如管理层的任意一个或多个中间层，以通信耦合到这些子组件以便提供集成功能。本文描述的任意组件还可以与本文未具体描述但本领域技术人员通常已知的一种或多种其他组件交互。

以下段落总结了可以在本文档中要求保护的实现的各种示例。然而，应当理解的是，下面概述的实现不旨在限制可以结合前述描述要求保护的主题。此外，以下概述的任意或所有实现可以与在整个前述描述中描述的一些或所有实现以及在一个或多个附图中图示的任意实现以及下面描述的任意其他实现的任意期望组合而被要求保护。另外，应当注意，结合前述描述和在本文档中描述的附图，以下实现旨在被理解。

各种辅助听力设备实现是通过使用自动语音转录在听力和理解语音方面来辅助听力受损用户的部件、系统过程。

作为第一示例，辅助听力设备实现在改进听力受损者的能力以理解语音的设备中实现。系统设备包括一个或多个麦克风；语音识别引擎，该语音识别引擎识别针对听力受损用户的、所接收的音频中语音，并且将针对听力受损用户的、所接收的音频中经识别的语音转换为文本；以及显示器，该显示器向用户显示经识别的文本。

作为第二示例，在各种实现中，第一示例通过部件、过程或技术被进一步修改，使得文本到语音引擎将文本转换针对用户的增强的合成语音。

作为第三示例，在各种实现中，第一示例通过部件、过程或技术被进一步修改，使得文本被显示在用户的智能电话的显示器上。

作为第四示例，在各种实现中，第一示例通过部件、过程或技术被进一步修改，使得文本被显示在用户的智能手表的显示器上。

作为各种实现中的第五示例，第一示例通过部件、过程或技术被进一步修改，使得文本在虚拟现实显示器或增强现实显示器中被显示给用户。

作为第六示例，在各种实现中，第一示例、第二示例、第三示例、第四示例或第五示例通过部件、过程或技术被进一步修改，使得文本被显示给用户，使得它在视觉上看起来与讲话的人的面部相关联。

作为第七示例，在各种实现中，第一示例、第二示例、第三示例、第四示例、第五示例或第六示例通过部件、过程或技术被进一步修改，使得一个或多个麦克风从设备上可拆卸。

作为第八示例，辅助听力设备实现在改进听力受损者的、用于理解语音的能力的设备中被实现。系统设备包括一个或多个麦克风；语音识别引擎，该语音识别引擎识别所接收的音频中的语音，并将所接收的音频的语言分量转换为文本；文本到语音引擎，该文本到语音引擎用于将文本转换为增强合成语音，其中增强合成语音为用户增强输入语音的语言分量；以及输出模态，其将增强合成语音输出给用户。

作为第九示例，在各种实现中，第八示例通过部件、过程或技术被进一步修改，使得输出模态向用户的助听器输出增强的合成语音。

作为第十示例，在各种实现中，第八示例通过部件、过程或技术被进一步修改，使得输出模态向用户的人工耳蜗输出增强的合成语音。

作为第十一示例，在各种实现中，第八示例通过部件、过程或技术被进一步修改，使得输出模态向用户正在穿戴的扬声器输出增强的合成语音。

作为第十二示例，在各种实现中，第八示例、第九示例、第十示例或第十一示例通过部件、过程或技术被进一步修改，以进一步包括显示器，在该显示器上，文本被在对应于文本的增强合成语音被输出的同时向用户显示。

作为第十三示例，在各种实现中，第八示例、第九示例、第十示例或第十一示例通过部件、过程或技术被进一步修改，以增强合成语音以符合用户的听力损失简档。

作为第十四示例，在各种实现中，第八示例、第九示例、第十示例、第十一示例、第十二示例或第十三示例通过部件、过程或技术被进一步修改，以通过将合成语音改变为其中语音更容易被用户理解的音调范围来增强合成语音。

作为第十五示例，在各种实现中，第八示例、第九示例、第十示例、第十一示例、第十二示例、第十三示例或第十四示例通过部件、过程或技术被进一步修改，使得一个或多个麦克风是定向的。

作为第十六示例，在各种实现中，第八示例、第九示例、第十示例、第十一示例、第十二示例、第十三示例、第十四示例或第十五示例通过部件、过程或技术被进一步修改，使得增强的合成语音被翻译成与输入语音不同的语言。

作为第十七示例，辅助听力设备实现在提供具有自动语音转录的辅助听力设备的过程中实现。该过程使用一个或多个计算设备用于：在一个或多个麦克风处接收具有语音和背景噪声的音频信号；使用语音识别引擎来识别所接收的语音并将所接收的语音的语言分量转换为文本；使用文本到语音引擎以将文本转换为增强的合成语音，其中增强的合成语音是在与给定的听力损失简档相关联的话音中被创建；并向用户输出增强的合成语音。

作为第十八示例，在各种实现中，第十七示例通过部件、过程或技术被进一步修改，使得用于输出增强的合成语音的话音由用户可选择。

作为第十九示例，辅助听力设备实现在用自动语音转录辅助听力的系统中实现。该过程使用一个或多个计算设备，每当存在多个计算设备时，计算设备彼此通信。该计算机程序具有由一个或多个计算设备可执行的多个子程序，该一个或多个计算设备由计算机程序的子程序引导，以在第一个用户处的一个或多个麦克风处接收具有背景噪声的语音；使用语音识别引擎以识别所接收的语音并将所接收的语音的语言分量转换为文本；使用文本到语音引擎将文本转换为合成语音，其中合成语音被设计为增强输入语音的语言分量，以使对听力困难的用户更容易理解；并将增强的合成语音输出给第二用户。

作为第二十示例，第二十示例在各种实现中，通过部件、过程或技术被进一步修改，使得增强合成语音在被输出到第二用户之前通过网络被发送。

3.0示例性操作环境：

本文描述的辅助听力设备实现在多种类型的通用或专用计算系统环境或配置内是可操作的。图8图示了通用计算机系统的简化示例，在该通用计算机系统上可以实现如本文所述的辅助听力设备实现的各种元件。应注意，图8中所示的简化计算设备800中由虚线或点划线表示的任意框表示简化计算设备的替代实现。如下所述，这些替代实现中的任意一个或全部可以与贯穿本文档描述的其他替换实现组合使用。

简化计算设备800通常在具有至少一些最小计算能力的设备中被发现，该设备诸如个人计算机(PC)、服务器计算机、手持计算设备、膝上型或移动计算机、诸如蜂窝电话和个人数字助理(PDA)的通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机以及音频或视频媒体播放器。

为了允许设备实现本文描述的辅助听力设备实现，设备应当具有足够的计算能力和系统存储器以实现基本计算操作。特别地，图8中所示的简化计算设备800的计算能力通常由一个或多个处理单元810图示，并且还可以包括一个或多个图形处理单元(GPU)815，任一个或两个都与系统存储器820通信。注意，简化计算设备800的处理单元810可以是专用微处理器(诸如数字信号处理器(DSP)、超长指令字(VLIW)处理器、现场可编程门阵列(FPGA)或其他微控制器)或者可以是具有一个或多个处理核的传统中央处理单元(CPU)，并且还可以包括一个或多个基于GPU的核或多个核处理器中的其他专用核。

另外，简化计算设备800还可以包括其他组件，诸如例如通信接口830。简化计算设备800还可以包括一个或多个传统计算机输入设备840(例如，触摸屏、触敏表面、指示设备、键盘、音频输入设备、基于话音或语音的输入和控制设备、视频输入设备、触觉输入设备、用于接收有线或无线数据传输的设备等等)或这些设备的任意组合。

类似地，与简化计算设备600以及辅助听力设备实现的任意其他组件或特征的各种交互，包括对一个或多个用户或与辅助听力设备实现相关联的其他设备或系统的输入、输出、控制、反馈和响应，由各种自然用户界面(NUI)情景启用。由辅助听力设备实现启用的NUI技术和场景包括但不限于允许一个或多个用户以“自然”方式(不受诸如鼠标、键盘、遥控器等的输入设备施加的人为限制)与辅助听力设备实现交互的接口技术。

这样的NUI实现通过使用各种技术来实现，包括但不限于使用从经由麦克风或其他输入设备840或系统传感器捕获的用户语音或发声导出的NUI信息。这样的NUI实现还通过各种技术的使用来实现，包括但不限于从用户的面部表情以及用户的手、手指、手腕、手臂、腿、身体、头部、眼睛等的位置、运动或取向从系统传感器或其他输入设备840导出的信息，其中这些信息可以使用各种类型的2D或深度成像设备(诸如立体或飞行时间相机系统、红外相机系统、RGB(红色、绿色和蓝色)相机系统等，或这些设备的任意组合)捕获。这种NUI实现的进一步示例包括但不限于从触摸和触控笔识别、手势识别(在屏幕上和屏幕或显示表面附近)、基于空气或基于接触的手势、用户触摸(在各种各样表面、对象或其他用户)、基于悬停的输入或动作等导出的NUI信息。这样的NUI实现还可以包括但不限于各种预测机器智能过程的使用，其单独地或与其他NUI信息组合地评估当前或过去的用户行为、输入、动作等，以预测诸如用户意图、愿望和/或目标的信息。无论基于NUI的信息的类型或来源如何，这样的信息然后可以被用于发起、终止或以其他方式控制辅助听力设备实现的一个或多个输入、输出、动作或功能特征或与辅助听力设备实现的一个或多个输入、输出、动作或功能特征交互。

然而，应当理解，可以通过将人工约束或附加信号的使用与NUI输入的任意组合相结合来进一步增强前述示例性NUI情景。这样的人工约束或附加信号可以由诸如鼠标、键盘和遥控器的输入设备640施加或产生，或者由各种远程或用户穿戴的设备(诸如加速度计、用于接收代表用户肌肉产生的电信号的肌电信号的肌电图(EMG)传感器、心率监测器、用于测量用户出汗的电流皮肤传导传感器、用于测量或以其他方式感测用户大脑活动或电场的可穿戴或远程生物传感器、用于测量用户体温变化或差异的可穿戴或远程生物传感器等等)施加或产生。从这些类型的人为约束或附加信号导出的任意此类信息可以与任意一个或多个NUI输入组合以发起、终止或以其他方式控制辅助听力设备实现的一个或多个输入、输出、动作或功能特征，或与辅助听力设备实现的一个或多个输入、输出、动作或功能特征交互。

简化计算设备800还可以包括其他可选组件，诸如一个或多个传统计算机输出设备850(例如，显示设备855、音频输出设备、视频输出设备、用于发送有线或无线数据传输的设备等等)。注意，用于通用计算机的典型通信接口830、输入设备840、输出设备850和存储设备860是本领域技术人员公知的，并且在此不再详细描述。

图8中示出的简化计算设备800还可以包括各种计算机可读介质。计算机可读介质可以是可由计算设备800经由存储设备860访问的任意可用介质，并且包括是可移动870和/或不可移动880的易失性和非易失性介质两者，用于诸如计算机可读或计算机可执行指令、数据结构、程序模块或其他数据的信息的存储。

计算机可读介质包括计算机存储介质和通信介质。计算机存储介质是指有形计算机可读或机器可读介质或存储设备，诸如数字通用盘(DVD)、蓝光盘(BD)、压缩盘(CD)、软盘、磁带驱动器、硬盘驱动器、光学驱动器、固态存储器设备、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、CD-ROM或其他光盘存储器、智能卡、闪存(例如卡、棒和钥匙驱动器)、磁带盒、磁带、磁盘存储器、磁条或其他磁存储设备。此外，传播的信号不包括在计算机可读存储介质的范围内。

诸如计算机可读或计算机可执行指令、数据结构、程序模块等的信息的保持也可以通过使用各种上述通信介质(与计算机存储介质相对)中的任意一种来实现，以编码一个或多个调制数据信号或载波、或其他传输机制或通信协议，并且可以包括任意有线或无线信息传递机制。注意，术语“已调制数据信号”或“载波”通常是指具有以对信号中的信息进行编码的方式来设置或改变的其特征中的一个或多个的信号。例如，通信介质可以包括有线介质，诸如有线网络或承载一个或多个调制数据信号的直接有线连接，以及无线介质，诸如声学、射频(RF)、红外、激光和用于发送和/或接收一个或多个调制数据信号或载波的其他无线介质。

此外，实施本文描述的各种辅助听力设备实现中的一些或全部的软件、程序和/或计算机程序产品或其部分可以以计算机可执行指令或其他数据结构的形式从计算机可读或机器可读介质或存储设备以及的通信介质的任意期望组合中存储、接收、发送或读取。另外，所要求保护的主题可以使用标准编程和/或工程技术被实现为方法、装置或制品，以产生软件、固件、硬件或其任意组合，以控制计算机来实现所公开的主题。本文使用的术语“制品”旨在涵盖可从任意计算机可读设备或介质访问的计算机程序。

本文描述的辅助听力设备实现可以在由计算设备执行的诸如程序模块的计算机可执行指令的一般上下文中被进一步描述。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。辅助听力设备实现还可以在分布式计算环境中被实践，其中任务由通过一个或多个通信网络链接的一个或多个远程处理设备或者在一个或多个设备的云内执行。在分布式计算环境中，程序模块可以位于包括媒体存储设备的本地和远程计算机存储介质中。另外，上述指令可以部分或全部地实现为硬件逻辑电路，其可以包括或不包括处理器。

可替代地或另外地，本文描述的功能可以至少部分地由一个或多个硬件逻辑组件执行。例如但非限制，可以使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)等。

出于说明和描述的目的，已经呈现了辅助听力设备实现的前述描述。其并非旨在穷举或将所要求保护的主题限制为所公开的精确形式。鉴于上述教导，许多修改和变体都是可能的。此外，应当注意，上述替代实现中的任意一个或全部可以以期望的任意组合使用以形成附加的混合实现。旨在本发明的范围不受该详细描述的限制，而是受所附权利要求的限制。尽管用特定于结构特征和/或方法动作的语言描述了本主题，但应理解，所附权利要求书中定义的主题不一定限于上述具体特征或动作。相反，上面描述的具体特征和动作是作为实现权利要求的示例形式而公开的，并且其他等同特征和动作旨在落入权利要求的范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·梅内泽斯;W·刘易斯;Y-M·王
技术所有人：微软技术许可有限责任公司
我是此专利的发明人

上一篇：一种防眩光装置及其应用的制作方法
上一篇：一种通信光缆线路检测系统及检测方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。