用于从传感器自动学习的方法和计算机可读介质与流程

文档序号:26052037发布日期:2021-07-27 15:27阅读:56来源:国知局
用于从传感器自动学习的方法和计算机可读介质与流程

示例实现方式的各方面涉及与直接从具有不同模态的传感器数据的多个输入学习关联的方法、系统和用户体验,更具体地,涉及基于输入的时间上的共现(co-occurrence)在神经网络中使用视听数据集。



背景技术:

用于神经网络的现有技术机器学习方法可能缺少足够数量和质量的训练数据。该现有技术问题可能由于人类标记者的短缺、标记成本和标记时间限制而发生。此外,用于神经网络的现有技术机器学习方法主要依赖于文本,因为可用数据集利用文本标记。在提供语音和视觉数据用于神经网络中的机器学习的方面来说,现有技术方法仍需要文本标签以学习语音和视觉。

训练数据的短缺可能由于各种因素而发生,包括但不限于人类标记者的短缺、执行标记的成本、与标记质量的验证和确认关联的问题以及导致延迟但标记的数据不可用于神经网络中的机器学习的时间限制。

例如,现有技术的机器学习方法可能缺少训练数据。另一方面,现有技术的传感器(例如,物联网(iot)传感器)不断地发送数据。然而,在不需要记录和手动标记的情况下,现有技术的机器学习方法无法使用传感器数据。这种现有技术记录和手动标记活动可偏离或破坏真正的人类/机器学习启发法。

例如,现有技术的磁共振成像(mri)和正电子发射断层显像(pet)可用于医学诊断。mri扫描可使用磁场和无线电波来形成目标组织(例如,人体内部的器官和其它结构)的图像,pet扫描可使用放射性示踪剂通过在细胞层面检查身体功能来诊断疾病。mri扫描不如pet扫描有侵入性,并且更便宜、更方便且对人的危害更小。然而,pet扫描给出特定特性(例如,代谢、血流、用氧等)的更好的可视化。因此,可能有必要执行pet扫描以获得用于诊断疾病(例如,痴呆)的必要信息。因此,医疗提供方收集现有技术的pet/mri图像对。然而,这些现有技术数据对未被映射在同一特征空间中。

因此,存在克服与现有技术中获得训练数据并在机器学习活动中使用传感器数据关联的问题的未满足需求。



技术实现要素:

根据示例实现方式的一方面,提供一种计算机实现的方法,用于:接收与第一模态关联的第一输入以及与第二模态关联的第二输入;在卷积神经网络(cnn)中处理所接收的第一输入和第二输入,其中,第一权重被指派给第一输入并且第二权重被指派给第二输入;基于应用第一权重、第二权重和共现的存在的损失函数来确定第一输入和第二输入中的每一个的损失;生成共享特征空间作为cnn的输出,其中,基于与第一输入和第二输入中的每一个关联的损失来确定共享特征空间中与第一输入和第二输入关联的单元(cell)之间的距离;并且基于共享特征空间,提供指示分类或分类的概率的输出。

根据示例实现方式的另一方面,提供一种计算机实现的方法,用于:接收与正电子发射断层显像(pet)图像和磁共振成像(mri)图像的配对关联的历史配对信息;将pet图像和mri图像的历史配对信息提供给包括pet学习网络和mri学习网络的神经网络,以针对共享特征空间生成pet网络输出特征和mri网络输出特征并学习pet网络的映射权重和mri网络的映射权重;提供看不见的mri图像;并且基于历史配对信息和损失函数来生成提供与看不见的mri图像关联的pet图像的共享特征空间的输出。

示例实现方式还可包括一种非暂时性计算机可读介质,其具有存储装置和处理器,该处理器能够执行用于直接从具有不同模态的传感器数据的多个输入学习的指令。

附图说明

本专利或申请文件包含至少一个彩色附图。带有彩色附图的本专利或专利申请公布的副本将由主管局根据请求并在支付必要费用后提供。

图1示出根据示例实现方式的架构的各种方面。

图2示出与根据示例实现方式的架构的实现方式关联的示例结果。

图3示出根据示例实现方式的将mri图像和pet图像映射到同一特征空间。

图4示出根据示例实现方式的使用并行架构来处理pet/mri图像。

图5示出一些示例实现方式的示例过程。

图6示出具有适用于一些示例实现方式的示例计算机装置的示例计算环境。

图7示出适合于一些示例实现方式的示例环境。

具体实施方式

以下详细描述提供了本申请的附图和示例实现方式的进一步的细节。为了清晰,附图之间的冗余元件的标号和描述被省略。贯穿说明书使用的术语作为示例提供,并非旨在限制。

示例实现方式的各方面涉及与从传感器的自动学习和神经网络处理关联的系统和方法。示例实现方式提供可直接从传感器学习并且可减轻机器学习对人类标记者的可用性的依赖,降低标记成本,和/或方便各种应用的机器学习的算法。

因此,在示例实现方式中使用视听数据集来测试学习模型和训练性能。示例实现方式可应用于具有一个或更多个模态(例如,音频模态和视觉模态)的传感器数据(例如,iot传感器数据)。例如但非限制,来自不同源和多个患者的医学图像转换可基于医学成像数据采用示例实现方式。

iot传感器具有随时间连续可用的大量数据。数据以例如视觉、音频、温度、湿度等的各种模式接收。从iot传感器接收的数据处于不同的模式,并且不同模式的数据可能没有可比性。例如,从摄像头接收的图像可作为照片图像发送,而从麦克风接收的音频可作为声音文件发送。除了使用可能需要转换为另一格式(例如,文本)的劳动密集、耗时的现有技术方法,来自不同模式的传感器数据的格式无法以标准化方式标记。

示例实现方式包括用于在模态内和跨模态将神经网络中的传感器数据学习和使用自动化的架构和一个或更多个训练方法。例如但非限制,传感器输入可涉及视听学习(例如,视听关系的学习)。代替需要明确标记装置(例如,键盘或鼠标)与用户关联,可使用传感器来连续地提供视听训练数据,而无需标记装置附接到用户。

根据示例实现方式,采用时间窗口方法进行训练。例如,如果诸如图像和声音的数据在接近的时间间隔内顺序出现,则它们被分组在一起。另一方面,如果数据在远离的时间出现,则其不被分组在一起。此外,通过不需要存储、转换和/或手动标记,iot传感器可通过允许传感器输入及其处理不被存储、手动标记、记录或其它处理活动打断而更接近地匹配真实人类行为。

图1示出根据示例实现方式的用于传感器媒体自主学习的架构。架构100包括第一模态(在此示例实现方式中,视觉)的多个输入101、103、105。例如,可从与图像捕获关联的传感器(例如,摄像头)接收视觉输入。架构100还包括第二模态(在此示例实现方式中,音频)的输入107、109。例如,可从与音频捕获关联的传感器(例如,麦克风)接收音频输入。因此,输入101、103、105可以是图像捕获文件,输入107、109可以是音频文件。如本文中说明的,输入保持其模态,而不转换为文本或其它模态。

神经网络接收输入。例如,视觉模态的第一输入101可由对应的第一卷积神经网络(cnn)111接收。类似地,输入103和105分别由第二cnn113和第三cnn115接收。此外,音频模态的第一输入107可由对应的第一cnn117接收,随后的输入109可由第二cnn119接收。

cnn111-119的输出分别被提供给完全连接层121-133。另外,除了完全连接层或共享特征空间之外,分别为各个模态提供至少一个另外的cnn135和137作为锚点。因此,生成指示输入中的对象的分类或与分类关联的概率的输出139和输出141。

还为不同的模态提供加权方法。例如,111、113、115共享相同的权重(如虚线框143所表示的),117和119共享相同的权重(如虚线框147所表示的),123、125、127共享相同的权重(如虚线框145所表示的),131和133共享相同的权重(如虚线框149所表示的)。

在图1中共享特征空间被表示成线157。尽管共享空间以157处的线表示,但是本领域普通技术人员将理解,表示不限于线性表示,可根据示例实现方式另选地是模型中的高维空间。

如下面说明的,根据示例实现方式的方法确定不同输入之间的共现和连接强度。例如,如图1所示,基于共现具有较强连接的输入以“+”标记,而基于缺少共现具有较弱连接的那些输入以“-”标记。下面更详细地说明允许加强和削弱的过程。在共享表示空间或完全连接层中,较强连接可由155处显示连接的点标记,而较弱连接可由诸如151和153的未连接的点标记。

可通过转换音频输入(例如,转换为2-d梅尔频谱)以使得可按相似的方式处理图像来实现音频训练。可通过在音频编码器和图像编码器中采用不同的权重来避免图像通道与音频通道之间的干扰。类似地,可在音频解码器和图像解码器处采用不同的权重。

如图1所示,每一个虚线框内的网络具有共同的权重。例如但非限制,如果三个卷积神经网络(cnn)由于其共现而处于虚线框中,则那三个cnn可被指派共同的权重。如果三个完全连接网络处于共同的虚线框中,则那三个完全连接网络可被指派共同的权重。根据示例实现方式,不跨虚线框共享权重。

如神经科学领域中理解的,重复地同时活性的任两个单元或单元的系统可变得“关联”,使得一个单元或系统中的活动促进另一单元或系统中的活动。本文中的示例实现方式采用共享特征空间来模拟该方法,使得活动的时间跨度(例如,几秒)可导致促进网络中的活动。更具体地,如果两个或更多个特征向量变得关联,则示例实现方式的模型将强迫那些特征向量在特征空间中变得更靠近。对于出现在不同时间的特征向量,模型将强迫那些特征向量在特征空间中进一步彼此远离。不管数据是来自相同模态还是来自不同模态,均可进行这种强制。

通过该训练,根据示例实现方式的模型可形成由视觉模态和语音模态共享的嵌入特征空间。该共享特征空间学习过程可对应于孪生(siamese)架构特征空间形成过程。然而,与孪生架构特征空间形成过程不同,本示例实现方式可用于跨模态和随时间学习。

根据架构的一个示例实现方式,模型可模仿教学过程,例如与教儿童关联的过程。例如而非限制,为了教儿童用语音称呼对象,基本上同时向儿童提供对象以及对应语音发音。

因此,可按不同角度、比例和照明条件向儿童提供对象的连续“视觉帧”;由于图像基本上同时出现,所以其在本架构中的特征将被强迫在一起,以模拟上面说明的关联过程。例如,该特征可被视为自我监督过程或特征空间形成。

如图1所示,提供两个图像作为与产品包装关联的输入,其中图像以不同的角度捕获。由于在教学过程中这些图像相对于彼此是同时的,所以其特征被强迫到共享特征空间中由点155指示的共同地方。在良好地形成共享特征空间157之后,其可以是用于视觉数据和音频数据二者的嵌入空间。

例如,与本示例实现方式关联的输入可经由iot传感器接收。在一些示例实现方式中,iot传感器可组合音频模式和视觉模式以提供训练和机器学习,同时还避免需要附加存储成本和通信成本,因为不需要存储或手动标记数据。

例如而非限制,上述示例实现方式可被集成到机器人系统中,并且向机器人提供容量以更接近地匹配人类行为并提供更好的服务。作为老年人或伤员的看护的机器人可能能够使用音频和视觉iot作为上述方法中的输入以更快速地和准确地提供适当护理和关注。

此外,本示例实现方式还可具有其它应用。例如而非限制,示例实现方式可与诸如智能电话或家庭支持装置的电子装置集成。由于本示例实现方式可在没有延迟、存储和手动标记成本的情况下在iot传感器上使用,所以可为特定用户定制这些装置。可执行这种定制而无需向第三方提供数据。例如,代替存储和手动标记数据,示例实现方式可按保护隐私的方式本地执行学习和处理。

在上述示例实现方式中,除了基于相同模态的监督之外,要注意所说的名称(例如,tylenol)可在显示时发音。因此,表示空间中的音频特征也被强迫到155处的相同位置。图1以“+”符号示出彼此关联的所有传感器输入,例如101、103和109。

为了模拟允许单元减弱的长期抑制过程并最终消除端口连接,模型可分配内存,其可随机采样过去媒体数据,并强制趋向于远离当前媒体数据的特征的过去媒体数据的特征。那些媒体输入可如图1所示用“-”符号标记,例如105和107。其表示被指示在共享表示空间中151和153处。对于作为输入的那些媒体数据,使用对比损失函数来模拟神经元布线过程和长期抑制过程。因此,损失函数可如下以公式(1)描述:

要注意,l表示损失函数,wi和wa分别表示图像通道和音频通道的特征编码权重,是序列中的第i媒体的输入,yi是关联指标(0指示关联,1指示不关联),m是共享特征空间中的余量,di是第i媒体表示与锚点媒体表示之间的欧几里得距离。

在根据示例实现方式的训练中,图像通道用作锚定通道。然而,示例实现方式不限于此,音频媒体片段也可用作随时间改变的锚点。

第i表示与锚点表示之间的距离可如下以公式(2)描述:

要注意,分别是第i输入共享空间特征表示和锚点输入共享空间特征表示。它们是对应完全连接网络的高维输出。

根据示例实现方式,代替使用三元损失函数或三元网络损失函数,实现作为损失函数对比损失的简单求和。损失对比的简单求和允许系统处理从随机数量的输入提供的数据,而不是需要数据在处理之前形成三元组。结果,示例实现方式可避免该问题以用于在线学习。此外,由于对比损失将同一对象的特征和共现的语音推向彼此,所以给表示增加小扰动可能触发与该表示有关的许多对应图像或语音选项。

紧凑表示空间还为系统提供学习复杂任务的能力。例如而非限制,由于对比损失和三元损失标记者需要手动地将数据组织成对或三元组,所以需要大规模数据以进行训练,并且训练可能比传统分类器慢。如果在训练之前需要人准备数据,则可能存在问题和缺点。另一方面,根据示例实现方式,机器可连续地从传感器接收数据并自动地学习该数据。因此,可避免与手动生成的标签关联的障碍。

根据本示例实现方式,提供两个路径来处理彼此关联的“连续”图像,并且提供一个路径来处理彼此关联的语音。由于与词语发声关联的时间量更大,所以与图像通道相比,更长的发声时间可能削弱与音频通道关联的关联效果。

此外,与图像重复(例如,从不同角度看同一对象)相比,语音重复的出现可能较不常见。可在相同时间量内在相似帧中处理更多相似的图像。由于增加附加相似图像通道可通过同一图像通道顺序地馈送这些图像,所以根据示例实现方式可能没有必要增加额外的相似图像路径。然而,示例实现方式不限于此,如果模型用于从其它样本学习,则可相应地调节学习路径布置。

除了跨模态共享特征空间之外,提供一个或更多个媒体发生器,以基于共享特征空间中的特征来生成媒体输出。根据该示例方法,图像或音频输入可触发在过去可具有相似输入的输出。例如但非限制,具有较小扰动特征空间的对象图像输入可触发具有不同角度和照明条件的对象的输出图像。

类似地,语音输入可触发对象的各种输出。根据示例实现方式的上述方法可类似于基于语音输入的人类想象模型。此外,类似于对象的称呼过程,图像输入还可激发与过去相似图像关联的语音输出。

示例实现方式包括自动编码器隐层与共享特征空间之间的完全连接层,以考虑现有技术自动编码器中的音频隐空间与图像隐空间之间的差异。更具体地,示例实现方式在各个隐空间和共享空间之间引入三个完全连接层,以实现共享空间形成目标。

此外,根据示例实现方式,由于上述显著特征空间差异,示例实现方式可能需要三个完全连接层,以用于将共享特征转换为音频特征或图像特征。由于完全连接层可能增加信号生成不确定性,所以为了训练稳定性,在编码器和解码器的隐空间之间增加捷径以绕过完全连接层。

根据本示例实现方式,在学习网络中,各个人工神经元可提供权重向量以用于将其输入数据投影到其输出空间。可使用激活函数来选择投影的一部分或将投影映射到有限范围。如果各人工神经元被表征为通信通道,则一旦其结构固定,其通道容量就固定。

另一方面,在最终网络端到端调谐之前,示例实现方式可作为其对应编码器层的逆过程训练各个解码器层。在训练期间,示例实现方式可按与自动编码器训练相似的方式将训练数据馈送给输入和输出二者。

如图2所示,提供利用与cifar-10标签对应的cifar-10图像和10类别语音片段训练的视听嵌入空间的t-sne可视化。通过利用成对的视听数据训练系统,而不提供标签或类别数量,模型自动地在嵌入空间200中形成10个清晰集群201-210。

作为上述示例实现方式的示例测试,基于哥伦比亚对象图像库(coil-100)[9](100个对象的彩色图像的数据库)生成数据集。对于与这些对象对应的音频片段,创建100个英语名称,例如“mushroom”、“cetaphil”等。使用watson文本至语音通过变化语音模型参数(例如,表情等)来生成不同对象的对应音频片段。新数据集针对各个对象具有72个图像和50个音频片段。在该数据集中,来自各个对象类别的24个图像和10个音频片段被随机地采样并用作测试数据。剩余图像和音频片段用作训练数据。这些图像和音频片段的配对基于信号发生机器的100个基础对象状态。

利用上述数据,训练和测试上述示例实现方式。利用现有技术的标准二元分类器,系统可以92.5%的准确度辨别图像对是否来自同一类别。如果图像被馈送给现有技术训练的孪生网络,则系统可以96.3%的准确度辨别图像对是否来自同一类别。当本文所描述的示例实现方式使用图像模态和音频模态二者时,在该数据集上二元分类准确度为99.2%。

上述示例实现方式也可用于将不同模态的信息与共同的特征空间配对。例如,由于存在已收集(例如,由医疗提供方)的许多现有pet/mri图像对,所以可使用现有pet图像和pet/mri配对关系,以基于mri图像向医生提供参考pet图像。结果,可减少对未来pet扫描减少的需求,并且还避免了患者的不必要的成本、手术、辐射危害等。此外,仅基于mri图像,医生可能够基于相似pet病例的检索获得决策支持或进行决策。

更具体地,pet/mri配对信息可用于将相同pet/mri图像对映射到学习的特征空间中的相同位置。然后,特征空间中的后续mri映射可用于检索与密切相关的pet图像关联的相似病例,其具有与mri图像特征相似的特征。

尽管使用不同的技术生成、具有不同的风险因素、优点和缺点,mri图像和pet图像可组合使用以诊断疾病(例如,痴呆)。因此,组合的pet/mri机器提供成对的图像。然而,pet扫描生成大量的辐射曝露,这可将患者置于危险中。示例实现方式使用成对的pet/mri图像以降低pet扫描的必要性。

图3示出根据示例实现方式的学习架构300。例如,pet图像301和对应mri图像303的切片以不同的权重被传递到两个网络(参考305和307)。在309处应用输出特征差异以引导一个网络的权重学习。例如但非限制,两个独立网络可分别用于学习mri图像和pet图像的映射权重。该示例方法可对mri图像和pet图像之间的学习干扰进行加权。

更具体地,根据示例实现方式,公式(3)提供神经网络的示例损失函数:

其中wp和wm是两个映射网络的权重,xp和xm是来自pet模态和mri模态的输入图像,m是余量设置,dp-m是网络输出之间的绝对差,y指示xp和xm是不是成对的图像。如果输入是成对的图像,则y为1,如果输入不是成对的图像,则y为0。

图4示出使用pet/mri图像的示例实现方式400。例如,许多pet/mri图像是灰度图像。这里,输入401和403被馈送到神经网络405中。此外,许多预训练的cnn网络具有rgb通道。因此,示例实现方式将连续pet/mri切片打包在rgb通道中,并使用并行架构来处理连续图像。此外,采用诸如上面描述并示出于图1的完全连接网络来组合所有cnn的输出以用于特征空间。

图4的架构可用于将pet或mri图像映射到特征空间。由于此结构使用相同的网络多次,其中切片的数量大于规定数量(例如,3),所以对于不同的系统设置,此示例实现方式是灵活的。

例如,当系统具有有限的内存和处理能力(例如,有限的gpu)时,可在三切片上使用相同的网络多次。最终特征可在不同的时间组合计算。另一方面,如果系统具有许多gpu和大量内存,则可通过针对不同的gpu复制相同的网络多次来将计算并行化。

网络405可采用诸如上面关于图1示出和描述的架构。例如但非限制,成对的pet图像和mri图像仅提供用于训练,并且在应用期间,生成mri图像以检索其他患者的“相似”pet图像,以避免需要拍摄更多pet图像。要注意,pet图像和mri图像的映射网络可以是不同的网络。

如上面关于图2的情况一样,本文中的示例实现方式强制相同的特征空间用于pet图像和mri图像。此外,两个网络均可适于形成特征空间,以提供可优化特征空间的质量的灵活性。因此,也如上面关于图2说明的,共现的特征可具有更多灵活性以更靠近在一起,没有共现的特征可具有更多自由以分开。

图5示出根据示例实现方式的示例过程500。如本文所说明的,示例过程500可对一个或更多个装置执行。

在501,神经网络接收输入。更具体地,神经网络接收与第一模态关联的第一类型的输入以及与第二模态关联的第二类型的输入。例如但非限制,第一类型的输入可以是与视觉模态关联的接收的图像,例如从具有摄像头的传感器接收的图像。另外例如但非限制,第二类型的输入可以是与音频模态关联的接收的声音文件或图形,例如从具有麦克风的传感器接收的输出。

尽管摄像头和麦克风被公开为传感器结构,但本示例实现方式不限于此,在不脱离本发明范围的情况下,可由其它传感器代替。此外,由于从诸如iot传感器的传感器接收输入,所以神经网络所接收的输入可随时间连续地接收,包括但不限于实时信息。

在502,神经网络的cnn层处理所接收的输入。更具体地,cnn的一个神经元可处理一个输入。cnn可具有一个或更多个层,并且可基于输入以及历史信息来执行学习和/或训练。例如但非限制,cnn可包括一个或更多个卷积层,以及可选地,池化层。本领域技术人员将理解,根据神经网络所执行的任务的复杂性,可提供隐藏层。如下面更详细说明的,向cnn的层指派权重。cnn可接收一个或更多个输入,应用如上所述的函数(例如,公式(1)和(2)),以在完全连接层中生成为共享特征空间提供的一个或更多个特征图。

更具体地,在505,由cnn的神经元学习权重。例如,基于输入的模态来学习权重。第一模态(例如,视觉)的输入可按与第二模态(例如,音频)的输入不同的方式来训练系统。例如但非限制,这在图1中示出为元素143和147。

此外,在507,确定是否存在共现。例如但非限制,如上所述,当与包装上出现该词语所关联的传感器输入的定时共现,与包装关联的词语通过音频发音时,这被确定为共现情况。对于横跨各个模态的各个输入,确定是否存在共现。确定的结果以及基于模态的编码权重被应用于损失函数(例如,(1)和(2)),以确定与输入关联的损失。

在509,生成共享特征空间作为cnn层的输出。如上所述,可使用损失函数和加权来模拟神经元布线过程和长期抑制过程,使得一些单元削弱其连接并具有更大距离,而其它单元加强其连接并具有更短的距离,或者共享特征空间中的共同位置。

例如但非限制,如图1所示,cnn层的输出被示出为标号121-133,特征空间被表示成157处的平面。此外,例如,由于缺少共现而具有较弱连接的单元示出在151和153处,而由于存在共现而具有较强连接的单元示出在155处。

在511,提供输出。例如但非限制,输出可以是关于输入的分类或者提供输入的最佳拟合分类的概率类的指示。本领域技术人员将理解,可发生训练(例如,通过反向传播)。

图6示出具有适用于一些示例实现方式的示例计算机装置605的示例计算环境600。计算环境600中的计算装置605可包括一个或更多个处理单元、核或处理器610、存储器615(例如,ram、rom等)、内部存储装置620(例如,磁、光学、固态存储装置和/或有机)和/或i/o接口625,其中任一个可联接在用于通信信息的通信机构或总线630上或嵌入在计算装置605中。

根据本示例实现方式,与神经活动关联的处理可发生在作为中央处理单元(cpu)的处理器610上。另选地,在不脱离本发明构思的情况下,可由其它处理器代替。例如但非限制,图形处理单元(gpu)和/或神经处理单元(npu)可代替或与cpu组合使用以执行上述示例实现方式的处理。

计算装置605可在通信上联接到输入/接口635和输出装置/接口640。输入/接口635和输出装置/接口640中的任一者或两者可以是有线或无线接口并且可为可拆卸的。输入/接口635可包括可用于提供输入的任何装置、组件、传感器或接口(物理的或虚拟的)(例如,按钮、触摸屏接口、键盘、指点/光标控制、麦克风、摄像头、盲文、运动传感器、光学读取器等)。

输出装置/接口640可包括显示器、电视、监视器、打印机、扬声器、盲文等。在一些示例实现方式中,输入/接口635(例如,用户接口)和输出装置/接口640可被嵌入或物理联接到计算装置605。在其它示例实现方式中,其它计算装置可用作或提供用于计算装置605的输入/接口635和输出装置/接口640的功能。

计算装置605的示例可包括(但不限于)高度移动装置(例如,智能电话、车辆和其它机器中的装置、人和动物携带的装置等)、移动装置(例如,平板、笔记本、膝上型计算机、个人计算机、便携式电视、收音机等)以及不是为移动性设计的装置(例如,台式计算机、服务器装置、其它计算机、信息亭、嵌入有和/或联接有一个或更多个处理器的电视、收音机等)。

计算装置605可(例如,经由i/o接口625)在通信上联接到外部存储装置645和网络650以用于与任何数量的联网组件、装置和系统通信,包括相同或不同配置的一个或更多个计算装置。计算装置605或任何连接的计算装置可用作、提供其服务或被称为服务器、客户端、精简服务器、通用机器、专用机器或另一标签。例如但非作为限制,网络650可包括块链网络和/或云。

i/o接口625可包括(但不限于)使用任何通信或i/o协议或标准(例如,以太网、802.11xs、通用系统总线、wimax、调制解调器、蜂窝网络协议等)以用于至少向和/或从计算环境600中的所有连接的组件、装置和网络通信信息的有线和/或无线接口。网络650可以是任何网络或网络组合(例如,互联网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。

计算装置605可使用计算机可用或计算机可读介质(包括暂时性介质和非暂时性介质)和/或使用其通信。暂时性介质包括传输介质(例如,金属线缆、光纤)、信号、载波等。非暂时性介质包括磁介质(例如,磁盘和磁带)、光学介质(例如,cdrom、数字视频盘、蓝光盘)、固态介质(例如,ram、rom、闪存、固态存储装置)以及其它非易失性存储装置或存储器。

计算装置605可用于在一些示例计算环境中实现技术、方法、应用、处理或计算机可执行指令。计算机可执行指令可从暂时性介质检索,以及被存储在非暂时性介质上并从其检索。可执行指令可源自任何编程、脚本和机器语言(例如,c、c++、c#、java、visualbasic、python、perl、javascript等)中的一个或更多个。

处理器610可在本机或虚拟环境中在任何操作系统(os)(未示出)下执行。可部署一个或更多个应用,其包括逻辑单元655、应用编程接口(api)单元660、输入单元665、输出单元670、传感器输入处理单元675、机器学习单元680、输出确定单元685以及用于不同单元彼此通信、与os通信以及与其它应用(未示出)通信的单元间通信机制695。

例如,传感器输入处理单元675、机器学习单元680和输出确定单元685可实现上面针对上述结构示出的一个或更多个处理。所描述的单元和元件的设计、功能、配置或实现方式可变化,不限于所提供的描述。

在一些示例实现方式中,当通过api单元660接收到信息或执行指令时,可将其通信到一个或更多个其它单元(例如,逻辑单元655、输入单元665、传感器输入处理单元675、机器学习单元680和输出确定单元685)。

例如,如上所述,传感器输入处理单元675可从一个或更多个传感器接收并处理信息。传感器输入处理单元675的输出被提供给机器学习单元680,机器学习单元680例如基于上面描述并示出于图1的神经网络的应用执行必要操作。另外,输出确定单元685可基于传感器输入处理单元675和机器学习单元680的输出来提供输出信号。

在一些情况下,在上述一些示例实现方式中,逻辑单元655可被配置为控制单元之间的信息流并引导由api单元660、输入单元665、传感器输入处理单元675、机器学习单元680和输出确定单元685提供的服务。例如,一个或更多个处理或实现方式的流程可由逻辑单元655单独控制或结合api单元660来控制。

图7示出适合于一些示例实现方式的示例环境。环境700包括装置705-745,并且各个装置经由例如网络760(例如,通过有线和/或无线连接)在通信上连接到至少一个其它装置。一些装置可在通信上连接到一个或更多个存储装置730和745。

一个或更多个装置705-745的示例可分别是图6中描述的计算装置605。装置705-745可包括但不限于如上所述具有监视器和关联的网络摄像机的计算机705(例如,膝上型计算装置)、移动装置710(例如,智能电话或平板)、电视715、与车辆720关联的装置、服务器计算机725、计算装置735-740、存储装置730和745。

在一些实现方式中,装置705-720可被视为与用户关联的用户装置,这些用户可远程地获得用作上述示例实现方式的输入的感测的输入。在本示例实现方式中,如上所述,这些用户装置中的一个或更多个可与可感测本示例实现方式所需的信息的一个或更多个传感器(例如,摄像头和/或麦克风)关联。

因此,本示例实现方式可具有各种益处和优点。例如但非限制,示例实现方式涉及直接从传感器学习,因此可利用诸如摄像头的视觉传感器和诸如麦克风的音频传感器的广泛存在。

此外,示例实现方式不需要从预先存在的传感器数据的文本转换以便于机器学习。相反,示例实现方式学习传感器数据关系而无需文本。例如,示例实现方式不需要图像灰度值到音频、音频到文本的转换,以便于从一个模态或另一模态到公共介质的其它转换。

代替跨模态转换,本示例实现方式接收不同模态的输入(例如,图像和音频),并且跨模态以不对称的维度和结构处理数据。可生成模态之间的配对信息(例如,在图像-音频训练期间),类似于以眼睛和耳朵学习,并且理解对应图像/音频对,以正确地理解连接。然而,本示例实现方式不需要关于该过程的任何手动人活动。

为了实现上文,示例实现方式可使用基于cnn的自动编码器和跨模态的共享空间。因此,示例实现方式可处理关于模态在两个方向上(例如,音频至图像和图像至音频)的生成。此外,本示例实现方式可生成音频频谱图,这可得到比使用原始音频等显著更小的模型尺寸。

通过采用神经网络方法,示例实现方式可学习以在信号空间中提供非线性插值。与现有技术查找表方法相比,示例实现方式采用神经网络提供用于生成信号的紧凑形式,并且提供关于内存空间分配的基本效率。示例实现方式与诸如“连接在一起,一起激发”的神经科学瓶和上述长期抑制过程一致。此外,成对的数据可按随机方式馈送到示例实现架构中,而非使用将一个示例和一个模态与另一模态中的多个示例配对的教室模型,例如从随机次序进行的一对一配对,以与人类学习过程类似的方式,但以自动化方式执行。

尽管针对用于医学诊断的成像技术提供了上述示例实现方式,但示例实现方式不限于此,本领域技术人员将理解,可采用其它方法。例如但非限制,可在用于支持残疾人的系统、用于自主机器人训练、需要大量低成本训练数据的机器学习算法和系统以及不受手动文本标记者的调度限制的机器学习系统的架构中采用示例实现方式。

另外,示例实现方式可涉及语言独立的装置,其可被训练以向聋人显示其他人物理上能够听到的对象。由于本示例实现方式本身不采用文本,所以训练系统可以是独立于语言的。此外,由于与架构关联的装置在通信上联接或连接到网络,所以生活在相同地区并说相同语言的人可一起训练系统。

此外,尽管本示例实现方式涉及视觉和音频,但是在不脱离本发明构思的情况下,可添加其它模态或由其它模态代替。例如但非限制,机器中可包括温度或触摸,并且新模态的包括不会影响先前学习的模态。相反,新模态将自己学习,并且逐渐构建与先前模态的更多连接。

尽管已示出和描述了一些示例实现方式,但是提供这些示例实现方式是为了将本文所描述的主题传达给熟悉本领域的人。应该理解,本文所描述的主题可按照各种形式实现,而不限于所描述的示例实现方式。本文所描述的主题可在没有那些具体定义或描述的事项或者具有未描述的其它或不同元件或事项的情况下实践。熟悉本领域的人将理解,在不脱离本文中所描述的如所附权利要求及其等同物中限定的主题的情况下,可对这些示例性实现方式进行改变。

本公开的特定非限制性实施方式的各方面解决了上面讨论的特征和/或上面未描述的其它特征。然而,非限制性实施方式的各方面不需要解决上述特征,本公开的非限制性实施方式的各方面可不解决上述特征。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1