用于私密对话的耳语转换的制作方法

文档序号：29614745发布日期：2022-04-13 11:04阅读：70来源：国知局

用于私密对话的耳语转换

背景技术：

1.本公开总体上涉及耳语识别，并且更具体地涉及将耳语话音数据变换为用于电子音频对话的参与方的“正常”或非耳语话音数据。
2.本节旨在向读者介绍可能涉及本公开的各方面的技术的各方面，这在下文描述和/或要求保护。相信该讨论有助于给读者提供促进对本公开的各方面更好的理解的背景信息。因此，应当理解，这些陈述应当从这个角度来理解，而不是作为对现有技术的承认。
3.在公共场所进行电子音频对话(例如，电话会议、电话呼叫等等)可能将隐私信息(例如，健康信息、财务信息、个人信息、商业信息、机密信息等等)暴露给一个或多个非预期方。电子音频对话的参与方可能将他们的声音降低至耳语，以便降低敏感信息被散布给非预期的各方的可能性。然而，耳语音频对于电子音频对话的其他参与方而言可能更加难以听到，并且可能难以理解。结果是，进行耳语可能不足以实现在公共场所的电子音频对话。
附图说明
4.在阅读下列具体实施方式时并在参考附图时，可更好地理解本公开的各方面，在附图中：
5.图1是根据本公开的实施例的包含耳语转换系统的设备的示图；
6.图2是根据本公开的实施例的用于包含耳语转换系统的设备(诸如图1的设备)的、在用户身上的示例传感器位置的示图；
7.图3是根据本公开的实施例的、图1的耳语转换系统训练机器学习模型的流程图；
8.图4是根据本公开的实施例的、图1的耳语转换系统利用图2的机器学习模型生成话音数据的流程图；
9.图5是根据本公开的实施例的图1的耳语转换系统的框图；以及
10.图6是根据本公开的实施例的用于在对话期间转换耳语数据的过程的流程图。
具体实施方式
11.下文将描述本公开的一个或多个具体实施例。为了提供对这些实施例的简要描述，说明书中并未描述实际实现方式的所有特征。应当领会，在任何此类实际实现方式的开发中，如同在任何工程或设计项目中一样，为了实现开发人员的特定目标，必须作出众多特定于实现方式的决策，诸如遵守与系统相关的约束和与业务相关的约束，这些约束可能因实现方式而有所不同。而且应当领会，此类开发工作可能是复杂且耗时的，但是对于受益于本公开的普通技术人员而言，这仍将是设计、制作和制造的例行任务。
12.在公共场所进行电子音频对话(例如，电话会议、电话呼叫、虚拟助手通信等等)可能将敏感信息(例如，健康信息、财务信息、商业信息、个人信息、机密信息等等)暴露给非预期的接收方(例如，其可对这些对话进行窃听的非预期的接收方)，并且可能潜在地导致财务损失、身份盗用、和/或任何其他多种不利问题。尽管用户可在对话期间进行耳语来降低非预期的接收方窃听此类敏感信息的可能性，但是耳语音频可能难以听到和/或理解，在商
业背景下可能听起来不专业，并且对于电子音频接收端的用户(例如，预期的接收方)而言进行收听还可能是不舒适的。附加地或替代地，电子音频对话的参与方可进行耳语，以免打扰周围区域(诸如，家、办公室、或公共场所)中的其他人。
13.考虑到前述情况，图1是根据本公开的实施例的包含耳语转换系统100的传感器104的设备(诸如眼镜102)的示图。在一些实施例中，设备可以是可穿戴设备并且可包括任何数量的传感器104和框架106。例如，可将可穿戴设备穿戴在用户108的部位上，诸如穿戴在用户108的头部和/或颈部上。传感器设备104可以是生物计量传感器、振动传感器、骨传导传感器、加速度计和/或音频传感器(例如，话筒)，并且传感器104可以感测来自用户108的生物计量信号(例如，肌电图(emg))、振动和/或音频(例如，耳语、说话语音)。在某些实施例中，传感器104可在感测时段期间接触用户108。例如，传感器104可感测用户108的鼻骨中的振动。更具体地，传感器104可以是用于以下操作的电极：测量用户108中(例如在用户108的诸如头部和/或颈部之类的身体部位处)的电势差，并且生成用于传输至耳语转换系统100的一个或多个组件并由该一个或多个组件处理的信号数据。在一些实施例中，传感器104可包括一个或多个振动传感器而不包括话筒，这是因为话筒可能捕捉可能影响捕捉到的振动的准确性的不想要的和/或环境噪声。
14.在一些实施例中，传感器104可以是压电传感器，并且可测量在与用户108接触期间由于用户108的身体部位(例如，头部和/或颈部)的移动引起的振动。附加地或替代地，传感器104可包括诸如相机、激光多普勒测振仪和/或光检测和测距(lidar)系统之类的光学设备，并且可在不接触表面(例如，用户108的身体部位)的情况下测量该表面上的振动。例如，传感器104可朝向用户108的身体部位发射光(例如，激光光束)并且可感测从该身体部位反射的光。由此，传感器104可基于发射光与反射光之间的多普勒频移来确定振动幅度和振动频率。附加地或替代地，传感器104可以是诸如膜片式话筒之类的机电系统，并且可包括由于来自用户108的声波(例如，耳语)而振动的组件(例如，膜片)。
15.由传感器104检测到的数据(例如，振动数据、音频数据)可包括期望的信号分量以及噪声(例如，不想要的)分量。信噪比是期望的信号的水平与噪声水平之间的比较。在用户(例如，用户108)身上的不同位置可能为某些类型的传感器(例如，振动传感器、话筒)提供优于其他类型的传感器的更好的测量。例如，相比于在用户108的耳朵附近，音频传感器在嘴巴附近可提供音频数据的更好的信噪比(snr)，并且相比于在用户108的脸颊附近，骨传导传感器当被置于鼻骨附近时可提供更好的snr。由此，可将一个或多个传感器选择性地置于用户108身上不同的位置处，以确保感测到的振动和/或音频的准确性从而提高snr。为了适应将传感器置于用户108身上的不同位置处，设备可包括头戴式设备、头戴式耳机、头带、耳机、围巾或任何其他合适的可穿戴设备或可穿戴设备的组合。
16.考虑到前述情况，图2是根据本公开的实施例的用于耳语转换系统100的一个或多个传感器104的示例传感器位置的示图。示例位置110、112、114、116、118、120、122、124、126、128、130可以位于用户108的身体部位(诸如头部或颈部的部分)上。在某些实施例中，示例位置可以是传感器104的目标(诸如，激光多普勒测振仪的目标)，并且传感器104可感测该目标处的振动。示图图示出振动传感器在示例位置110、112、114、116、118、120、122、124、126、128、130处的平均snr。如示图中所见，相比于被置于邻近用户108的脸颊的位置114处的振动传感器，被置于邻近用户108的鼻骨的位置110处的振动传感器可具有更好的
snr。由此，包含耳语转换系统100的设备可包括在邻近鼻骨处接触用户108(诸如，在眼镜102的鼻垫上)的振动传感器。附加地或替代地，用户108可能不戴眼镜或者可能戴眼镜并不舒适。由此，包含耳语转换系统100的设备可包括邻近耳朵在位置124处接触用户108的振动传感器，诸如头戴式耳机、头戴式设备、头带或耳塞，该振动传感器表现出与在位置110处类似的snr。在某些实施例中，设备可包括处于任何数量的示例位置处的任何数量的振动传感器，诸如帽子包括处于位置120、122和124处的传感器104，头巾包括处于位置118和/或126处的传感器104，围巾或颈部覆盖物包括处于位置128、130处的传感器104，等等。
17.如本文中所使用，“耳语话音”可包括说话者使用该说话者的呼吸而不使用该说话者的声带来轻声说话。“正常话音”可包括使用说话者的声带并且说话者以常规音量(例如，在四十至七十分贝之间)说话。耳语转换系统100可通过提取由传感器记录的耳语话音的特征并将所提取的特征与使用机器学习模型标识出的预期特征进行比较来将耳语话音转换为正常话音。可使用包括耳语话音和正常话音的训练数据来训练机器学习模型。例如，用户可采用耳语语音和正常语音来阅读同一段文本，并且机器学习模型可基于对耳语语音和正常语音的记录而被训练。
18.考虑到前述情况，图3是根据本公开的实施例的、耳语转换系统100训练机器学习模型210的流程图200。传感器(诸如，图1的传感器104)可生成和/或接收来自用户108的训练语音数据202和训练耳语数据206。在某些实施例中，传感器104可在基于阈值持续时间(例如，一分钟、五分钟、十分钟等等)的感测时段期间接收训练语音数据202。例如，耳语转换系统100可将控制信号传送至传感器104，以基于阈值持续时间来开始和/或结束感测时段。
19.附加地或替代地，耳语转换系统100可包括用户界面，并且可基于阈值持续时间来向用户108显示开始和/或结束说话的指示。在一些实施例中，用户界面可显示特定的一段文章以供用户在感测时段大声阅读。替代地，用户界面可指示用户可在感测时段期间自由地(例如，随机地)说话。在某些实施例中，与训练耳语数据206对应的第一感测时段可不同于与训练语音数据202对应的第二感测时段。例如，第一感测时段可长于或短于第二感测时段。替代地，第一感测时段和第二感测时段可在持续时间上相等。在一些实施例中，耳语转换系统的用户界面可在第一感测时段显示第一段文本，并且在第二感测时段显示第二段文本。替代地，可在第一感测时段和第二感测时段期间显示同一段文本。在某些实施例中，可将训练语音数据202和/或训练耳语数据206存储在耳语转换系统100的存储器中。附加地或替代地，训练语音数据202和/或训练耳语数据206可包括任何数量的样本(例如，音频样本、振动样本)，并且耳语转换系统100可在阈值样本量已经被接收和/或存储之后对机器学习模型进行训练。例如，阈值样本量可以是与训练数据相关联的样本的数量和/或与训练数据相关联的样本的总持续时间。
20.训练耳语数据206和训练语音数据202可包括与用户108的身体部位相关联的肌肉移动和/或振动。例如，传感器104可在用户108说话和/或进行耳语时捕捉肌肉移动和/或振动，并且可生成训练耳语数据206和训练语音数据202。在一些实施例中，训练耳语数据206和训练语音数据202可包括与由用户说出的字词相关联的音频数据。例如，训练耳语数据206可具有四十分贝或更少(例如，三十分贝或更少、二十分贝或更少等等)的分贝水平，并且训练语音数据202可具有四十五至七十分贝(例如，五十至六十五分贝、五十五至六十分
贝等等)的分贝水平。附加地或替代地，训练耳语数据可包括肌肉活动、生物计量信号等等，并且可以不包括任何对应的音频数据(例如，零分贝)。
21.在某些实施例中，训练语音数据202和训练耳语数据206可包括来自用户108的生物计量数据、振动和/或音频数据。耳语转换系统100对训练语音数据202和训练耳语数据206分别执行特征提取204、208，并且可提取特征(例如，频率、幅度、分贝水平)。耳语转换系统100还可对训练语音数据202、训练耳语数据206和所提取的特征执行数据处理步骤(例如，模拟/数字转换、傅里叶变换、将数据分为帧)，并且可基于训练语音数据202和训练耳语数据206生成波形(例如，振动波形、音频波形)、频谱图和/或任何其他合适的信号格式。在某些实施例中，所提取的特征可包括对应于与用户相关联的正常说话语音的语音特性，诸如阈值语音音量范围(例如，在四十五至七十分贝之间、五十至六十五分贝之间、五十五至六十分贝之间，等等)、与用户相关联的语音的声调、与用户相关联的重音、以及任何其他合适的语音特性。附加地或替代地，所提取的特征可包括对应于与用户相关联的耳语语音的耳语特性，诸如振动的频率、振动的幅度、振动方向的改变、阈值耳语音量范围、与用户相关联的耳语的声调、或任何其他合适的耳语特性。在某些实施例中，耳语转换系统100可生成与训练耳语数据206对应的耳语文本数据以及与训练语音数据202对应的话音文本数据。例如，耳语文本数据可包括与训练耳语数据206对应的、由用户108在感测时段进行耳语的任何数量的文本字符串、字词和/或短语。
22.耳语转换系统100可利用所提取的特征、训练语音数据202、以及训练耳语数据206来训练机器学习模型210。另外，耳语转换系统100可在训练机器学习模型210之后生成与用户108相关联的简档。用户简档可包括对应于与用户相关联的正常说话语音的语音特性，并且可包括对应于与用户相关联的耳语语音的耳语特性。附加地或替代地，用户简档可包括训练语音数据202、训练耳语数据206、以及与训练语音数据202或训练耳语数据206中的一者相关联的所提取的特征。在某些实施例中，耳语转换系统100可将用户简档、训练语音数据202、以及训练耳语数据206存储在与该耳语转换系统100相关联的存储设备中。附加地或替代地，耳语转换系统100可将用户简档、训练语音数据202、和/或训练耳语数据206传送至远程存储设备。
23.在对机器学习模型210进行训练之后，耳语转换系统100可接收耳语话音数据，并且可使用机器学习模型从耳语话音数据生成正常话音(例如，在机器学习模型210已经完成训练并且已经被实现为耳语转换系统100的部分之后)。考虑到前述情况，图4图示出根据本公开的实施例的、图1的耳语转换系统100利用图2的机器学习模型210生成话音数据310的流程图300。传感器(诸如图1的传感器104)可接收来自用户108的耳语话音数据302，并且耳语转换系统100可执行特征提取304和特征提取306(例如，频率、幅度)，可执行数据处理步骤(例如，模拟/数字转换、傅里叶变换、将耳语话音数据302分成任何数量的帧)，并且可基于耳语话音数据302生成波形(例如，振动波形、音频波形)、频谱图和/或任何其他合适的信号格式。例如，相机可生成与用户108的颈部和/或面部肌肉移动相关联的信号数据，并且生物计量传感器可生成与用户108的颈部和/或面部肌肉中的电活动相关联的信号数据。传感器可将相应的信号数据传送至处理器，并且处理器可将信号数据组合成耳语话音数据302。
24.在某些实施例中，耳语话音数据302可包括振动数据和/或肌肉活动数据，诸如振动幅度、振动频率、振动方向(例如，旋转方向、角方向)的改变等等。附加地或替代地，耳语
话音数据302可包括不需要转换和变换为正常话音的某种耳语话音。例如，用户108可将他们的语音提高为高于耳语话音的阈值分贝水平(例如，四十分贝或更高)，和/或用户108可在电子音频对话期间作出填充声音或词语(即，在对话期间说出的、以信号通知用户正在暂停以进行思考的声音或字词，诸如“唔”或“嗯”)。在一些实施例中，此种“填充”耳语话音302可被包括在所生成的话音数据310中但不会通过机器学习模型210进行转换和/或变换。
25.耳语转换系统100可利用机器学习模型210，并且可将耳语话音数据302和所提取的特征306输入到机器学习模型210中。例如，机器学习模型210可将耳语话音数据302和相关联的所提取的特征306与来自同用户108相关联的训练语音数据和训练耳语数据的所提取的特征进行比较。附加地或替代地，机器学习模型210可将耳语话音数据302和相关联的所提取的特征与预期特征和/或通用训练数据(例如，由另一说话者提供的训练数据，其可与耳语转换系统100预先装配在一起并在机器学习模型210使用该用户的语音而成为是完全训练的之前被使用)进行比较。在一些实施例中，机器学习模型210可将耳语特性与耳语话音数据302进行比较。
26.机器学习模型210可输出所提取的特征306，并且耳语转换系统100可对所提取的特征306执行音频重建步骤308，以生成话音数据310。在某些实施例中，耳语转换系统100可基于与用户108的用户简档相关联的语音特性来生成话音数据310。例如，耳语转换系统100可生成要在由用户简档提供的音量范围的阈值语音音量范围内的话音数据310。耳语转换系统100可生成正常话音形式的话音数据310，并且可将话音数据310传送至另一用户设备(例如，具有音频输出设备的电子设备，诸如计算设备、膝上型计算机、平板、智能电话、头戴式设备)作为电子音频对话的部分。
27.在某些实施例中，话音数据310可具有任何数量的与用户108相关联的语音特性，并且可采用用户的语音的形式。例如，语音特性可包括用户108的语速和/或话音抑扬顿挫，并且耳语转换系统100可根据语速和/或话音抑扬顿挫生成话音数据310。附加地或替代地，话音数据310可具有任何数量的与合成语音相关联的语音特性，和/或用户可从任何数量的合成语音中选择用于生成话音数据310的合成语音。在某些实施例中，耳语转换系统100可基于用户的语音与任何数量的合成语音之间的比较来选择用于生成话音数据310的合成语音。此类合成语音可与耳语转换系统100预先配备在一起(例如，在机器学习模型210使用用户的语音而成为完全训练的之前)。例如，耳语转换系统100可在用户的语音与任何数量的合成语音之间比较音高、重音、声调、变调、动态音量或任何其他合适的语音特性。附加地或替代地，用户108可输入和/或可选择任何数量的语音特性，诸如情绪、声调、音高、重音、语速或任何其他合适的语音特性，并且耳语转换系统100可根据用户输入和/或选择来生成话音数据310。如此，话音数据310可采用所选择的合成语音的形式，并且电子音频对话的参与方可听到该合成语音的形式的话音数据310。
28.附加地或替代地，耳语转换系统100可将所提取的特征306转换为与由用户108说出的耳语字词对应的文本数据。文本数据可包括对应于与用户108的用户简档相关联的语音特性的相关联的元数据，并且在尺寸上，文本数据可能比对应于所提取的特征306的音频数据更小。例如，用户108可选择耳语转换系统100的输出的格式，诸如话音数据310和/或文本数据。在某些实施例中，耳语转换系统100可将文本数据和相关联的元数据传送至附加的处理电路系统，以用于基于用户108的用户简档的语音特性生成话音数据310。例如，耳语转
换系统100可将文本数据和元数据传送至参与电子音频对话的其他用户设备。其他用户设备可基于文本数据和元数据生成话音数据310，以使得使用该用户设备的另一用户可听到用户108以正常语音说话。如此，耳语转换系统100可通过向参与与用户108的电子音频对话的另一用户设备传输文本数据而不是音频数据(例如，所生成的话音数据310)来减少网络拥塞。
29.考虑到前述情况，图5是根据本公开的实施例的耳语转换系统100的框图。耳语转换系统100可接收输入的耳语数据302，对耳语数据302进行转换，并基于耳语数据302生成话音数据310。在一些实施例中，耳语转换系统100可包括数据库414，该数据库414可存储包括训练语音数据202和训练耳语数据206的训练数据418的集合。在某些实施例中，训练语音数据202可包括对与用户(诸如用户108)相关联的话音的记录，并且训练耳语数据206可包括对与该用户相关联的耳语的记录。例如，传感器(诸如传感器104)可记录与用户相关联的音频、振动、肌肉活动和/或生物计量信号。另外，数据库414可存储用户简档(诸如与用户108相关联的用户简档416)的集合，并且用户简档416可与训练数据418的集合的子集相关联。如此，数据库414可包括用于与耳语转换系统100一起使用的任何数量的用户简档，并且耳语转换系统100可在基于对应的用户简档来生成以用户的正常语音的话音数据和/或相关联的文本数据时利用这些用户简档。
30.在某些实施例中，耳语转换系统100可包括控制器402，该控制器402可作为计算设备的部分而被提供，该计算设备诸如个人计算机、膝上型计算机、平板、移动设备、服务器或任何其他合适的计算设备。如此，控制器402可包括一个或多个处理器404(在本文中统称为“处理器404”)，处理器404可以以一个或多个通用微处理器、一个或多个专用集成电路(asic)、一个或多个现场可编程逻辑阵列(fpga)等等的形式来提供。处理器404可以通信地耦合至数据库414和一个或多个传感器，诸如传感器104。控制器402可通过在控制器402、数据库414和传感器104之间传输信号数据和控制信号的任何合适的技术而耦合至传感器104和数据库414，这些技术诸如无线连接、光学连接、同轴线缆连接、有线连接或其他合适的连接。在一些实施例中，控制器402可包括用于接收训练数据以供对机器学习模型进行训练、并且用于接收和转换耳语数据以生成话音数据的接收和转换电路系统。
31.在某些实施例中，处理器404可执行诸如机器学习算法408之类的训练算法，如先前所讨论，该训练算法可包括对耳语数据进行变换并生成话音数据的指令。例如，机器学习算法408可被实现为耳语转换系统100的存储器406和/或任何数量的存储设备中所存储的软件。在一些实施例中，存储器406可包括存储可由处理器404执行的指令和/或要由处理器404处理的数据的一种或多种有形非瞬态计算机可读介质。作为示例，存储器406可包括随机存取存储器(ram)、只读存储器(rom)、可重写非易失性存储器，诸如闪存、硬驱动器、光盘，等等。
32.在某些实施例中，处理器404可使用训练数据418生成或训练机器学习模型210。机器学习算法408和/或机器学习模型210可包括音频重建组件308。在某些实施例中，音频重建组件308可接收并且可处理耳语数据302，以根据用户的语音以正常话音的形式生成话音数据310。
33.处理器404可对训练数据418执行数据处理步骤，以训练机器学习模型210。在某些实施例中，处理器404可执行特征提取，执行数据清除，对输入数据集合进行关联和/或组
合，和/或对数据进行归一化以提供用于训练机器学习模型210的数据集。数据处理组件410可接收训练数据418，该训练数据418包括训练语音数据202和训练耳语数据206。在一些实施例中，数据处理组件410可执行数据清除过程，以解决数据不一致，移除噪声数据点，和/或移除训练数据418中的离群数据点。例如，数据处理组件410可从训练数据418中移除落在特定范围或阈值范围之外的数据点，诸如距平均数据点一个标准差、两个标准差或更多的数据点。
34.在某些实施例中，数据处理组件410可执行数据分离过程以将训练数据418分成任何数量的帧，并且可执行模拟/数字转换过程以将所记录的音频转换为数字信号。附加地或替代地，数据处理组件410可对训练数据418执行傅里叶变换，以生成与训练语音数据202相关联的第一频率集合以及与训练耳语数据206相关联的第二频率集合。
35.在某些实施例中，数据处理组件410可包括特征提取组件304，该特征提取组件304可提取与训练语音数据202和训练耳语数据206相关联的第一特征集合(例如，频率、幅度等等)。机器学习算法408可将训练语音数据202、训练耳语数据206以及所提取的特征输入到模型生成器组件412，并且处理器404可训练和生成机器学习模型210。在某些实施例中，机器学习模型210可基于训练数据418生成用户简档416。例如，机器学习模型210可基于训练数据418以及训练语音数据202与训练耳语数据206之间的比较来标识与用户108相关联的语音特性。在某些实施例中，机器学习模型210可访问与用户108的耳语声对应的预期波形。机器学习模型210可从耳语数据302标识和提取特征，诸如振动的幅度、振动的频率、振动方向(例如，角方向、旋转方向)的改变等等。另外，机器学习模型210可基于从耳语数据302提取的特征生成波形，并且可将所生成的波形与同训练数据418相关联的预期波形进行比较。如此，机器学习模型210可将接收到的耳语数据与预期波形进行比较，并且可确定由用户108说出的耳语字词。
36.在某些实施例中，处理器404可利用机器学习模型210和来自传感器104的输入耳语数据302来生成话音数据310。例如，传感器104可感测耳语数据302(例如，振动、肌肉活动、音频、生物计量信号)，并将耳语数据302传送至控制器402。耳语数据302可包括振动数据和/或肌肉活动数据，诸如振动幅度、振动频率、振动和/或移动方向(例如，角方向、旋转方向)的改变等等。附加地或替代地，耳语数据302可与由用户108进行耳语的任何数量的字词相对应，并且可具有四十分贝或更低(例如，三十分贝或更低、二十分贝或更低等等)的分贝水平。
37.在某些实施例中，耳语转换系统100可包括任何数量的传感器(例如，相机、生物计量传感器、音频传感器、加速度计等等)，并且每个传感器可将耳语数据传送至处理器404。例如，相机可生成与用户108的颈部和/或面部肌肉移动相关联的信号数据，并且生物计量传感器可生成与用户108的颈部和/或面部肌肉中的电活动相关联的信号数据。传感器可将相应的信号数据传送至处理器404，并且处理器404可将信号数据组合成耳语数据302。在某些实施例中，处理器404可对第一信号数据集合和第二信号数据集合进行组合和/或可对其求平均，以生成耳语数据302。例如，处理器404可将与第一传感器相关联的第一信号数据集合同与第二传感器相关联的第二信号数据集合进行比较。如此，处理器404可执行数据处理步骤，以确保耳语数据302更高的准确性。
38.处理器404可将耳语数据302输入到机器学习模型210，并且语音重建组件308可接
收耳语数据302并且可基于耳语数据302生成话音数据310。例如，音频重建组件308可提取耳语数据302的特征，并且可使用诸如采用二叉分类器树的形式的机器学习模型210将所提取的特征与同通用训练数据相关联的预期特征和/或与基于用户语音的训练数据相关联的所提取的特征进行比较。二叉分类器树可包括任何数量的节点，并且机器学习模型210可在二叉分类器树的每个节点处将所提取的特征和/或波形与预期特征和/或波形进行比较。如此，机器学习模型210可将与耳语数据302相关联的波形与预期波形进行比较，并且可确定与耳语数据302相关联的字词和/或声音的集合。在某些实施例中，所生成的语音数据310可与耳语数据302中由用户108说出的相同字词相对应，并且可指示用户108的正常说话声音。例如，所生成的话音数据310可具有四十五至七十分贝(例如，五十至六十五分贝、五十五至六十分贝等等)的分贝水平。在某些实施例中，耳语转换系统100可将所生成的话音数据传送至参与电子音频对话的任何数量的计算设备。
39.考虑到前述情况，图6是根据本公开的实施例的用于利用耳语转换系统100基于耳语数据生成话音数据的过程500的流程图。尽管过程500被描述为由处理器404执行，但是应当理解，过程500可由可控制耳语转换系统100的组件和/或与其进行通信的任何合适的设备来执行。此外，虽然使用按特定的顺序的各步骤来描述过程500，但应当理解，本公开构想了所描述的步骤能以与所图示的顺序不同的顺序来执行，并且某些所描述的步骤可被跳过或完全不被执行。在一些实施例中，过程500可通过使用任何合适的处理电路系统(诸如处理器404)执行有形非瞬态计算机可读介质(诸如存储器406)中所存储的指令来实现。
40.在此种过程500中，处理器404接收(框502)由例如图1的传感器104感测和传送的训练数据。在一些实施例中，训练数据可以是振动数据、生物计量信号、音频数据或其任何组合，并且可包括耳语字词和正常说出的字词。例如，可将传感器104设置在用户(诸如用户108)身上，并且传感器104可检测用户的鼻骨中的振动。处理器404使用训练数据来训练(框504)机器学习模型。例如，处理器404执行数据处理步骤，诸如从训练数据提取特征，并且基于所提取的特征来生成波形(例如，振动波形、音频波形)。
41.处理器404接收(框506)由例如图1的传感器104感测和传送的耳语数据。在一些实施例中，耳语数据可以是振动数据、生物计量信号、音频数据或其任何组合，并且可包括有用户108进行耳语的字词。处理器404从耳语数据提取(框508)特征，这些特征诸如振动幅度、振动频率、振动方向的改变、和/或与频率相关联的分贝水平等等。处理器404利用所提取的特征来生成与耳语数据相关联的波形(例如，振动波形、音频波形)。
42.处理器404将耳语数据302和所提取的特征输入到机器学习模型210，以生成话音数据(框510)。例如，机器学习模型210可将所提取的特征与预期特征和/或与训练数据相关联的所提取的特征进行比较，并且可基于该比较将与耳语数据302相关联的所提取的特征同预期特征和/或与训练数据相关联的所提取的特征进行匹配。在某些实施例中，所生成的话音数据可与耳语数据中说出的同一字词集合相对应，并且还可对应于用户的正常说话语音。附加地或替代地，所生成的话音数据可以采用文本格式。处理器404可在电子音频对话期间将话音数据传送(框512)至任何数量的计算设备。如此，每个计算设备可基于话音数据生成音频和/或文本，并且可回放所生成的话音数据和/或显示与话音数据相关联的文本。
43.本文所提出和要求保护的技术被引用并应用于实际性质的实物和具体示例，这些实物和示例明显改善了当前技术领域，因此不是抽象的、无形的或纯理论的。进一步地，如
果本说明书末尾所附的任何权利要求包含一个或多个被指定为用于“[执行][功能]的装置”或“用于[执行][功能]的步骤”的要素，则其旨在基于35u.s.c.112(f)来解释此类要素。然而，对于包含以任何其他方式指定的要素的任何权利要求，其旨在不基于35u.s.c.112(f)来解释此类要素。本公开的示例实施例
[0044]
下列具有编号的条款定义了本公开的某些示例实施例。
[0045]
条款1。
[0046]
一种系统，包括：可穿戴设备，该可穿戴设备包括：传感器，该传感器被配置成用于感测来自用户的耳语数据，该耳语数据包括振动数据集合，其中，耳语数据与由用户以第一分贝水平进行耳语的字词集合相对应；以及一个或多个处理器，该一个或多个处理器通信地耦合至传感器并且被配置成用于：提取与耳语数据相关联的特征集合，其中，该特征集合包括与振动数据相关联的频率的集合、与振动数据相关联的幅度的集合、或以上各项的组合；以及基于耳语数据和特征集合生成话音数据集合，其中，该话音数据集合与以第二分贝水平的字词集合相对应，其中，该第二分贝水平高于第一分贝水平。
[0047]
条款2。
[0048]
如条款1所述的系统，其中，传感器包括加速度计、骨传导传感器、光学设备、或以上各项的任何组合。
[0049]
条款3。
[0050]
如条款1所述的系统，其中，一个或多个处理器被配置成用于在电子音频对话期间将话音数据集合传送至计算设备。
[0051]
条款4。
[0052]
如条款1所述的系统，其中，振动数据集合包括电势差。
[0053]
条款5。
[0054]
如条款1所述的系统，其中，可穿戴设备包括框架，并且其中，传感器被设置在该框架上并被配置成用于在感测时段期间接触用户。
[0055]
条款6。
[0056]
如条款1所述的系统，其中，第一分贝水平低于四十分贝。
[0057]
条款7。
[0058]
如条款6所述的系统，其中，第二分贝水平在五十分贝与七十分贝之间。
[0059]
条款8。
[0060]
如条款1所述的系统，其中，传感器被配置成用于感测来自用户的训练数据，该训练数据包括训练耳语数据集合和训练语音数据集合。
[0061]
条款9。
[0062]
如条款8所述的系统，其中，一个或多个处理器被配置成用于：基于训练数据来训练机器学习模型；以及基于该机器学习模型来生成与用户相关联的用户简档，其中，该用户简档包括语
音特性集合和耳语特性集合。
[0063]
条款10。
[0064]
一种方法，包括：使用设置在可穿戴设备上的传感器来接收耳语数据，该耳语数据与字词集合相对应，并且耳语数据包括生物计量信号、音频数据、振动信号、或以上各项的任何组合；接收与用户相关联的语音特性集合，其中，该语音特性集合与用户的说话语音相对应；基于语音特性集合将耳语数据变换为文本数据，其中，该文本数据与字词集合相对应；以及将文本数据传送至多个计算设备，其中，该多个计算设备中的每个计算设备被配置成用于基于文本数据和语音特性集合生成话音数据。
[0065]
条款11。
[0066]
如条款10所述的方法，包括基于文本数据和语音特性集合生成话音数据。
[0067]
条款12。
[0068]
如条款11所述的方法，包括将所生成的话音数据传送至多个计算设备。
[0069]
条款13。
[0070]
如条款10所述的方法，包括：使用传感器接收训练数据，其中，该训练数据包括与第二字词集合相对应的训练耳语数据以及与该第二字词集合相对应的训练语音数据；以及基于训练数据生成用户简档，其中，该用户简档包括语音特性集合。
[0071]
条款14。
[0072]
如条款10所述的方法，其中，传感器被配置成用于感测鼻骨中的振动。
[0073]
条款15。
[0074]
如条款10所述的方法，其中，语音特性集合包括阈值语音音量范围、与用户相关联的声调、与用户相关联的重音、或以上各项的任何组合。
[0075]
条款16。
[0076]
如条款10所述的方法，包括：接收训练数据集合，该训练数据集合包括训练语音数据集合和训练耳语数据集合；基于训练数据集合来训练机器学习模型；以及使用机器学习模型来生成语音特性集合。
[0077]
条款17。
[0078]
一种设备，包括：传感器，该传感器被配置成用于在感测时段期间接触用户并感测来自用户的振动数据，该振动数据与字词集合相对应；以及一个或多个处理器，该一个或多个处理器通信地耦合至传感器并且被配置成用于：接收振动数据；从振动数据中提取特征集合，其中，该特征集合包括振动数据的频率的集合、振动
数据的幅度的集合、或以上各项的组合；以及基于特征集合生成话音数据，其中，该话音数据与字词集合相对应。
[0079]
条款18。
[0080]
如条款17所述的设备，包括具有鼻垫的框架，其中，传感器被设置在该鼻垫中。
[0081]
条款19。
[0082]
如条款17所述的设备，包括被配置成用于被佩戴在用户的头部上的头戴式耳机，其中，传感器被设置在该头戴式耳机上。
[0083]
条款20。
[0084]
如条款17所述的设备，包括被配置成用于被佩戴在用户的颈部上的围巾，其中，传感器被设置在该围巾上。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：H
技术所有人：英特尔公司
我是此专利的发明人

上一篇：探测参考信号配置方法、终端及网络侧设备与流程
上一篇：一种用于食品烘焙的高利用率的面粉装袋机构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。