用于语音通信的设备的制作方法

文档序号：13169559阅读：155来源：国知局

本说明书涉及用于语音通信的系统、方法、设备、装置、制品和指令。

背景技术：

语音通信设备被广泛得以应用。

技术实现要素：

根据示例实施例，一种用于语音通信的设备包括：第一无线装置，该第一无线装置包括第一压力传感器，该第一压力传感器具有第一声学剖面并且被配置成在一时间窗内捕捉第一组声能；其中该第一无线装置包括近场磁感应(nfmi)信号输入；其中该第一无线装置包括处理元件，该处理元件被配置成：通过nfmi信号输入接收由第二无线装置内具有第二声学剖面的第二压力传感器在该时间窗内捕捉的第二组声能；基于第一和第二声学剖面，将信号增强技术应用于第一和第二组声能；以及基于应用信号增强而输出增强的语音信号。

在另一示例实施例中，信号增强技术是波束成形技术。

在另一示例实施例中，信号增强技术包括目标在于个别地分离出一组语音信号的多个波束成形操作；且基于分离出的该组不同语音信号输出多个增强的语音信号。

在另一示例实施例中，处理元件另外被配置成：在第一组声能中搜索未增强的语音信号，并且直到在第一组声能中检测到未增强的语音信号时才激活接收、应用和输出元件。

在另一示例实施例中，直到第一无线装置请求传送第二组声能时才由第一无线装置接收第二组声能；且第一无线装置被配置成响应于处理元件在第一组声能中检测到未增强的语音信号而请求传送第二组声能。

在另一示例实施例中，处理元件被配置成：计算在该时间窗内所接收的第一组声能包括未增强语音信号的机率，且仅在计算出的机率高于预定阈值机率的情况下才请求传送第二组声能。

在另一示例实施例中，语音活动算法实现对未增强语音信号的搜索。

在另一示例实施例中，第二无线装置被配置成与第一无线装置相隔预定距离。

在另一示例实施例中，该组无线装置被配置成在以下各项中的至少一项内相隔预定距离：室内环境、住宅、办公室、地铁、车辆、汽车、火车、飞机或室外环境。

在另一示例实施例中，无线装置包括以下各项中的至少一项：麦克风、耳塞、可听式装置、智能手机、智能手表、可穿戴式装置、平板电脑或计算机。

在另一示例实施例中，处理元件被配置成发起一组语音通信动作，该组语音通信动作被配置成分析增强的语音信号，增强的语音信号针对以下各项中的至少一项：语音命令、一组词语或语音签名。

在另一示例实施例中，处理元件被配置成发起一组语音通信动作，该组语音通信动作被配置成使用增强的语音信号来执行以下各项中的至少一项：自然语言处理，从较大的一组语音信号内分离出一组语音信号，或改善语音信号质量。

在另一示例实施例中，处理元件被配置成发起与语音信号处理服务器的无线连接；且该服务器执行该组语音通信动作。

在另一示例实施例中，第一压力传感器被配置成经由将无线装置的内部部分耦合到外部周围环境的通道来接收声能。

根据示例实施例，一种包括至少一个非暂时性、有形的机器可读存储媒体(含有用于语音通信的可执行机器指令)的制品：其中该制品包括：无线装置，该无线装置包括具有第一声学剖面并且被配置成在一时间窗内捕捉第一组声能的压力传感器，以及被配置成执行指令的处理元件；且其中该指令包括：通过近场磁感应(nfmi)信号输入接收由第二无线装置内具有第二声学剖面的第二压力传感器在该时间窗内捕捉的第二组声能；基于第一和第二声学剖面，将信号增强技术应用于第一和第二组声能；以及基于应用信号增强而输出增强的语音信号。

以上论述并不意图表示当前或未来权利要求集的范围内的每个示例实施例或每个实施方案。附图说明和随后的具体实施方式还举例说明各种示例实施例。

结合附图考虑以下具体实施方式，可更完全地理解各种示例实施例，在附图中：

附图说明

图1是用于语音通信的第一示例设备。

图2a是用于语音通信的第二示例设备。

图2b是用于实现语音通信的一组示例连续语音通信指令。

图3是用于语音通信的第三示例设备。

图4是包括用于语音通信的第二或者第三设备的第一示例系统。

图5是包括用于语音通信的第二或者第三设备的第二示例系统。

图6是用于托管用于语音通信的第二或第三设备内的指令的示例系统。

虽然本公开内容允许各种修改和替代形式,但本公开内容的特性已借助于例子在图式中示出且将详细地描述。然而，应理解，也可能存在除所描述的特定实施例以外的其它实施例。还涵盖属于所附权利要求书的精神和范围内的所有修改、等效物和替代实施例。

具体实施方式

各种实施例中的无线装置(例如无线耳塞(也称为可听式装置))包括嵌入的语音、声音和传感器能力。此类无线装置可被设计成支持来自例如手机等外部装置的立体声播放、拨打电话、对语音命令作出响应、检测声音事件等等。

一些示例实施例通过传统蓝牙(bluetoothclassic)或通过低功耗蓝牙(bluetoothlowenergy)(ble)与智能手机或其它装置(例如平板电脑、计算机等)通信，且使用近场磁感应(nfmi)信号彼此通信，该nfmi信号可穿过包括人体的各种结构，且在可听式装置的情况下，可穿过人的头部。

虽然此类无线装置的一个示例实施例是语音通信，但当一个耳塞处的单个麦克风(例如，单侧麦克风)用于获取佩戴者的语音时，音质会受到限制，因为单侧麦克风并非定向的，且杂散环境噪声可模糊所要的话语信号。

用于语音通信的另一示例实施例可在单个耳塞装置中使用两个麦克风以试图改善组合的麦克风信号的方向性、抑制环境噪声以及增大话语信号级。然而，归因于此类麦克风极为接近，可实现的环境噪声抑制量是有限的。

改善的语音通信装置可帮助进一步减少环境噪声、改善话语辨识和识别语音命令。

图1是用于语音通信的第一示例设备100。第一设备100示出单侧语音通信设备，该单侧语音通信设备包括：第一无线装置102(例如，左耳塞、主耳塞等)和第二无线装置104(例如，右耳塞)。

在单侧语音通信中，第一无线装置102(例如，主耳塞)包括通过智能手机或其它装置与云网络的连接，并且基于第一压力传感器106(例如，本地麦克风)信号实现语音通信。

在一个例子中，第一设备100的语音通信和/或该第一设备100内的话语辨识使用功率优化的多级过程来实现，其中第一无线装置102(例如，主耳塞)最初旨在个别地检测声能，接着逐渐应用更大计算处理能力以确保所检测的声音确实是出自第一无线装置102的佩戴者的语音信号。

一旦第一无线装置102(例如，主耳塞)确定其已正确地检测到来自其佩戴者的语音活动，第一无线装置102将经由通信服务网络建立语音呼叫。在一些示例实施例中，另外的处理可进一步解释语音信号信息的意义和目的。右耳塞104在语音通信和/或话语辨识过程期间是无源的。

在第一无线装置102(例如，主耳塞)的一个例子中，第一设备100使用外部麦克风(即，第一压力传感器106)来听取用户的语音。然而，外部麦克风可能从周围环境获取大量干扰声音和他人语音。此设置可产生差的语音通信信号和/或混乱的话语辨识结果。

在另一个例子中，第一设备100中的第一无线装置102(例如，主耳塞)使用完全位于主耳塞102内的内部麦克风(即，第一压力传感器106)来听取用户的语音。在这种情况下，虽然内部麦克风可与周围的噪声源很好地隔离(假设是紧配合的耳塞)并且可能未从周围环境获取大量干扰声音和他人语音，但麦克风的信号进一步衰减且用户的高频率话语内容往往会缺失。使用内部麦克风还可能在通过第一无线装置102的(例如，主耳塞的)扬声器播放音乐或话语时受到不想要的干扰。

图2a是用于语音通信的第二示例200设备。第二设备200包括：具有第一压力传感器204和第一处理元件206的第一无线装置202；以及具有第二压力传感器210和第二处理元件212的第二无线装置208。每一压力传感器204、210在一时间窗内捕捉声能214。该时间窗可由装置202、208之间同步的时钟信号控制。声能在本文中被定义成包括环境中的气体压力变化。声音(例如，音频)信号在本文中被定义成具体类型的声能，例如：语音信号、幼儿哭泣、火灾警报、渗漏的水、破碎的玻璃、发射的弹丸等。语音信号是特殊类型的声音信号，在本文中被定义成声音信号的子集，语音信号相当于人类话语或类似人类(例如，合成话语)的话语声音，例如某个人的或机器人的语音。

无线装置202、208不必在所有示例实施例中都是相同的。在一个示例实施例中，无线装置202、208可以是被配置成由个人佩戴的两个耳塞。在另一示例实施例中，无线装置202、208可以是被配置成由个人携带或佩戴的智能手表和智能手机。在又另一示例实施例中，无线装置可以是被定位在会议室中的各种位置处的两个或更多个装置。无线装置202、208因此可以是：耳塞、可听式装置、智能手机、智能手表、可穿戴式装置、平板电脑、计算机、无线麦克风等。

第二示例200设备存储针对无线装置202、208中的每一者的声学剖面。在一个示例实施例中，声学剖面提供完全特定针对无线装置202、208的共振和衰减特性，而在一些例子中，共振和衰减特性可能仅特定针对无线装置202、208的特定集合。这些声学剖面在稍后的语音通信和话语处理步骤期间能够实现更精确的信号增强(例如，波束成形)。在其它示例实施例中，无线装置的声学剖面中的一个或多个可通用。

第一无线装置202与第二无线装置208彼此相隔预定距离。在一个例子中，预定距离是指无线装置202、208的特定空间放置，使得无线装置202、208相隔固定的或(在其它实施例中)已知可变的(例如，周期性、方程式、数据点集)距离。通过使用nfmi，此预定距离可存在于用户身体的各个部分之间。然而，如果使用多于两个的无线装置(每一无线装置具有压力传感器)，则两个无线装置可通过nfmi通信，而第三无线装置可使用不同无线协议(例如，蓝牙、wifi等)通信且被定位在以下各项内的别处：住宅、汽车、办公室、室内或室外环境等。通常，压力传感器204、210(例如，麦克风)在空间上相隔得越远，则语音信号处理和环境噪声减小将越是精确。

在一个例子中，波束成形(即，空间滤波)是用在传感器阵列中以用于定向信号发射或接收的信号增强技术。通过组合呈相控阵列的元件以使得特定角度的信号经受相长干扰而其它信号经受相消干扰来实现波束成形。波束成形用于实现空间信号选择性。因此，波束成形限定在含有声能的空间内的特定几何形状(不包括其它几何形状)，并且产生很强方向性的声能捕捉技术(例如，使用假定戴在一个人的耳朵上的一组无线耳塞向着此人口部很可能所处的特定前方和中心位置)。在其它示例实施例中，自适应性波束成形用于对准先前未知的语音目标位置。自适应性波束成形可在去除其它不想要的声音(例如，噪声)或背景语音之前首先识别特定语音剖面。

在一个示例实施例中，压力传感器204、210是麦克风。压力传感器204、210可通过通道接收在无线装置202、208内部或外部(参看上文的内部/外部论述)的声能214，该通道将无线装置202、208的内部部分直接耦合到外部周围环境。

在各种示例实施例中，一个或两个处理元件206、212被配置成具有用于实现语音通信的指令集。呈现这些示例指令的次序在不同示例实施例中可被改变或选择性地排除。另外，在一些示例实施例中，某些指令被并行实施。

第一指令216用于接收由第一无线装置202内的第一压力传感器204在一时间窗内捕捉的第一组声能。

第二指令218用于接收由第二无线装置208内的第二压力传感器210在该时间窗内捕捉的第二组声能。无线装置202、208被配置成使用近场磁感应(nfmi)电路和协议来通信和交换数据。

传送到第一无线装置202的第二组声能在无线装置202、208之间的无线连接可足够快地建立的情况下可以是一组实时声能214，或者是声能214的补偿建立无线链路时的延迟的缓冲版本。

第三指令220基于第一和第二声学剖面将信号增强(例如，波束成形)技术应用于第一和第二组声能。

第四指令222基于应用信号增强而输出增强的(例如，波束成形的)语音信号以用于语音通信。因此，由于所接收的声能214通常包括噪声或其它不想要的信号，信号增强技术(例如，波束成形)帮助区分噪声与语音信号。

在一些示例实施例中，第二无线装置208包括具有用于实现语音通信225的指令集的第二处理元件212，该指令集类似于第一处理元件206中的指令。

图2b是用于实现语音通信的一组示例连续语音通信指令。在各种示例实施例中，一个或两个处理元件206、212被配置成具有该组连续语音通信指令。呈现这些示例指令的次序在不同示例实施例中可被改变或选择性地排除。另外，在一些示例实施例中，某些指令被并行实施。

第五指令226包括目标在于从同一时间窗内所捕捉的声能中个别地分离出不同语音信号的多个波束成形操作。多个增强的语音信号将基于分离出的该组不同语音信号而被输出，使得同时说话的若干人的声音可以被分解、处理和传输。举例来说，多个波束成形操作可帮助区分说话的若干人(每个人处于相对于麦克风的略微不同的位置)。

第六指令228发起一组语音通信动作，该动作被配置成使用增强的语音信号来执行以下各项中的至少一项：自然语言处理、从较大的一组语音信号内分离出一组语音信号，或改善语音信号质量。

第七指令230发起与语音信号处理服务器的无线连接，该语音信号处理服务器用于执行各种语音通信动作。无线装置202、208到语音信号处理服务器(例如，语音信号处理服务器)的连接在一个例子中可以是通过蓝牙连接到智能手机，该智能手机wifi或蜂窝式连接到远程语音信号处理服务器。

相比于图1中所论述的单侧语音通信，在上文图2a和2b中所论述的用于语音通信的第二示例200设备中，无线装置202、208执行双侧(例如，双重)语音通信。

同样，对于压力传感器204、210是位于人的头部任一侧上的外部麦克风的实施例，信号增强(例如，波束成形)处理大体上减少任何环境噪声干扰，使得例如人类话语、语音命令等语音信号可较准确地被理解(例如，用于话语辨识)。与单侧语音通信相比，针对错误语音通信的鲁棒性增大，这归因于压力传感器204、210的(例如，外部麦克风的)信号的噪声减少和波束成形。

双侧麦克风方法的一个优点是计算密集型话语辨识算法仅需要被设计成在信号增强的(例如，清理、波束成形等)两个压力传感器204、210的组合上运行。

图3是用于语音通信的第三示例300设备。第三设备300包括：具有第一压力传感器304和第一处理元件306的第一无线装置302；以及具有第二压力传感器310和第二处理元件312的第二无线装置308。每一压力传感器304、310在一时间窗内捕捉声能314。该时间窗可由装置302、308之间同步的时钟信号控制。

然而，在某些情形中，第三设备300呈现第二示例200设备(上文所论述)的修改版本，该修改版本通过取消第二示例200设备的指令218到232(即，参看图2a和2b)并且返回到声能314捕捉模式(例如，指令216)来降低无线装置302、308的功率消耗。

在各种示例实施例中，处理元件306、312中的一个或两个被配置成具有用于实现语音通信的指令集。呈现这些示例指令的次序在不同示例实施例中可被改变或选择性地排除。另外，在一些示例实施例中，某些指令被并行实施。

第一指令316检索由第一无线装置302内的第一压力传感器304在一时间窗内捕捉的第一组声能。

第二指令318在第一组声能中搜索未增强的语音信号，并且直到在第一组声能中检测到未增强的语音信号时才启用对由第二无线装置308内的第二压力传感器310在该时间窗内捕捉的第二组声能的传输。语音活动算法可用于在第一组声能中搜索未增强的语音信号。

因此，在这个实施例中，第二组声能直到第一无线装置302请求传送第二组声能时才被第一无线装置302接收。另外，第一无线装置302被配置成仅响应于第一处理元件306在第一组声能中检测到未增强的语音信号而请求传送第二组声能。

第三指令320计算由第一压力传感器304捕捉的声能314包括未增强的语音信号的机率，并且仅在计算出的机率高于预定阈值机率的情况下才请求传送由第二无线装置308内的第二压力传感器310在该时间窗内捕捉的第二组声能。此指令降低用于无线装置302、308的功率消耗，因为装置302、308并不总是需要通信和交换数据。

第四指令322在计算出的机率低于预定阈值机率的情况下使第一无线装置302返回到指令316。

第五指令324将信号增强(例如，波束成形)技术应用于第一和第二组声能。

第六指令326基于应用信号增强而输出增强的(例如，波束成形的)语音信号以用于语音通信。

因此，第三示例300设备中的功率消耗降低，因为由第二无线装置308内的第二压力传感器310捕捉的第二组声能并不总是被传送给第一无线装置302。

在一个示例实施例中，无线装置302、308(例如，左右耳塞)两者处于单侧语音信号检测模式并且基于它们自身的压力传感器304、310(例如，外部麦克风)独立地接收声能314，并且每一无线装置302、308个别地计算声能314含有语音信号的机率。在此例子中，无线装置302或308可建立nfmi连接，并且发起传送其他无线装置的所捕捉的声能组。

在各种示例实施例中，无线装置202、208、302、308可使用多种协议通信，包括传统蓝牙(bc)、低功耗蓝牙(ble)、wifi或nfmi。

另外，此处呈现的各种指令不必全部只在无线装置202、208、302、308上实施。可替换的是，此类指令可通过将必需的声学和/或其它数据传送到第三装置或到服务器以用于处理而得以执行。此类实施例可能往往会诱发可接受或不可接受的时延，这取决于特定示例实施例。

应注意，除非明确陈述特定次序，否则可按任何次序执行以上各图中的指令和/或流程图步骤。另外，本领域的技术人员应认识到，虽然已经论述一个示例指令集/方法，但是本说明书中的材料可通过多种方式组合，从而还产生其它例子，并且应在此详细描述提供的上下文内来理解。

图4是包括用于语音通信的第二200设备或者第三300设备的第一示例系统400。系统400包括第一无线装置402(例如，左耳塞)、第二无线装置404(例如，右耳塞)和第三无线装置406(例如，智能手机)。

此处，第二无线装置404(例如，右耳塞)配备有麦克风和用于将右耳塞404的麦克风信号从右耳塞404传输到第一无线装置402(例如，左耳塞)的无线nfmi连接。因此，左耳塞402现可对两个麦克风信号使用波束成形以更好获取耳塞佩戴者的话语信号且抑制任何环境噪声。

图5是包括用于语音通信的第二200设备或者第三300设备的第二示例系统500。系统500包括第一无线装置502(例如，左耳塞)、第二无线装置504(例如，右耳塞)和第三无线装置506(例如，智能手机)。

此处，如同图4，第二无线装置504(例如，右耳塞)配备有麦克风和用于将右耳塞504的麦克风信号从右耳塞504传输到第一无线装置502(例如，左耳塞)的无线nfmi连接。因此，左耳塞502现可对两个麦克风信号使用波束成形。

可替换的是，将有可能通过低功耗蓝牙(ble)使两个耳塞将它们相应的压力传感器(例如，麦克风)信号直接发送到智能手机506，使智能手机506执行波束成形。这将避免具有一组用于相互通信的电路(例如，nfmi电路)的每一耳塞502、504的使用和成本的额外负荷。然而，由于智能手机506可能不知道每一耳塞502、504的声学属性以及由于智能手机506将很可能需要支持多个耳塞供应商，因此智能手机506将使用通用波束成形算法，该算法可能并非为耳塞定制。与基于耳塞相互通信的方法所可能提供的语音音质和/或话语辨识相比，这可能导致较低语音音质和/或话语辨识。

图6是用于托管用于语音通信的第二或第三设备内的指令的示例系统。系统600示出与电子设备604介接的输入/输出数据602。电子设备604包括处理器606、存储装置608和非暂时性机器可读存储媒体610。机器可读存储媒体610包括指令612，该指令612控制处理器606如何接收输入数据602以及使用存储装置608内的数据来将该输入数据转换成输出数据602。在本说明书中的其它地方论述存储在机器可读存储媒体610中的示例指令612。在替代示例实施例中，机器可读存储媒体为非暂时性计算机可读存储媒体。

处理器(例如，中央处理单元、cpu、微处理器、专用集成电路(asic)等)控制存储装置(例如，用于临时数据存储的随机存取存储器(ram)、用于永久性数据存储的只读存储器(rom)、固件、闪存、外部和内部的硬盘驱动器等等)的整体操作。处理器装置使用总线与存储装置和非暂时性机器可读存储媒体通信，并且执行实施存储在机器可读存储媒体中的一个或多个指令的操作和任务。在替代示例实施例中，机器可读存储媒体是计算机可读存储媒体。

本说明书中论述的材料的示例实施例可整体或部分地通过网络、计算机或基于数据的装置和/或服务实施。这些可包括云、因特网、内联网、移动装置、台式计算机、处理器、查找表、微控制器、消费者设备、基础设施，或其它致能装置和服务。如本文和权利要求书中可能使用的，提供随附非排他性定义。

在本说明书中，已经依据选定的细节集合来呈现示例实施例。然而，本领域的普通技术人员应理解，可实践包括这些细节的不同选定集合的许多其它示例实施例。希望所附权利要求书涵盖所有可能的示例实施例。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：斯蒂芬·马克·托恩
技术所有人：恩智浦有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。