使用眼睛注视检测加标签的制作方法

文档序号：9568625阅读：304来源：国知局

使用眼睛注视检测加标签的制作方法
【专利说明】
【背景技术】
[0001]脸部加标签(即将名字与图像中的脸部匹配)提供了一种在存储于计算机或移动设备上的图像中搜索人的方式。在一个示例中，利用鼠标和键盘执行脸部加标签。特别地，鼠标用来选择图像中感兴趣的人的脸部区域，并且键盘用来键入该人的名字以创建关联标签。然而，对各自可能具有多个脸部的许多图像进行脸部加标签的过程可能是一项劳动和时间密集型任务，因为每个脸部必须使用鼠标选择并且每当脸部被选择时名字必须被键入。

【发明内容】

[0002]该
【发明内容】
被提供以通过简化方式介绍下文在的【具体实施方式】中进一步描述的概念的选择。该
【发明内容】
不旨在标识要求保护的主题的关键特征或必要特征，也不旨在用于限制要求保护的主题的范围。而且，要求保护的主题不限于解决本公开的任何部分中指出的任何或所有缺点的实现方式。
[0003]提供了涉及为图像中的人类主体加标签的各种实施例。在一个实施例中，包括人类主体的图像被呈现在显示屏上。接收显示屏上加标签用户的注视的居留位置。图像中的人类主体被识别为位于居留位置。接收人类主体的标识，并且利用该标识为图像加标签。
【附图说明】
[0004]图1示出依照本公开的一个实施例的计算系统。
[0005]图2示意性示出依照本公开的一个实施例的计算机架构框图。
[0006]图3示出指示人类主体在加标签用户的注视的居留位置处被识别的视觉反馈的一个示例。
[0007]图4示出指示人类主体在加标签用户的注视的居留位置处被识别的视觉反馈的另一个示例。
[0008]图5示出指示人类主体在加标签用户的注视的居留位置处被识别的视觉反馈的又一个示例。
[0009]图6示意性示出用于为图像中的人类主体加标签的加标签界面。
[0010]图7示意性示出用于为不同图像中识别的人类主体加标签的加标签界面。
[0011]图8示出依照本公开的一个实施例的用于为呈现在显示屏上的图像中的人类主体加标签的方法。
[0012]图9示出依照本公开的一个实施例的用于建立加标签用户的注视的居留位置的方法。
[0013]图10示出依照本公开的一个实施例的用于识别人类主体的标识的一种方法。
[0014]图11示出依照本公开的一个实施例的用于识别人类主体的标识的另一种方法。
[0015]图12示意性示出依照本公开的一个实施例的计算系统。
【具体实施方式】
[0016]本公开涉及利用诸如图像中描绘的人类主体的标识之类的元数据为图像加标签。更特别地，本公开涉及使用基于眼睛注视跟踪的选择为图像中的人类主体加标签。在一个示例中，本公开提供了实现下述操作的机制:接收在呈现在显示屏上的图像上加标签用户的注视的居留位置；识别图像中的人类主体位于该居留位置，接收人类主体的标识；以及利用该标识为该图像加标签。典型地，人类适应于识别型态(pattern)，比如其他人类的脸部。相应地，用户可以通过看图像中的人类主体来选择该人类主体，这比利用鼠标或触摸输入选择图像中的人类主体快得多。
[0017]而且，在一些实施例中，本公开提供了下述机制:从倾听由加标签用户说出的名字的语音识别系统接收在图像中识别的人类主体的名字。识别的名字可以被映射到图像以便为人类主体加标签。通过使用语音识别向图像加标签识别的人类主体的名字，加标签用户可以避免必须在键盘上键入名字。相应地，相对于使用鼠标和键盘的加标签方法，可以以更及时且更少劳动密集型的方式为大量图像加标签。
[0018]图1示出依照本公开的一个实施例的计算系统100。该计算系统100可以包括用户输入设备102、计算设备104和显不设备106。
[0019]用户输入设备102可以包括眼睛跟踪相机108，其被配置成检测用户112 (例如加标签用户)的一个或多个眼睛110的注视或聚焦位置的方向。眼睛跟踪相机108可以被配置成以任何适当方式确定用户的注视。例如，在所描绘的实施例中，用户输入设备102可以包括诸如红外光源之类的一个或多个闪烁源114，其被配置成使闪烁光从用户112的每只眼睛110反射。眼睛跟踪相机108可以被配置成捕获用户112的每只眼睛110的包括闪烁的图像。如根据经由眼睛跟踪相机收集的图像数据确定的来自用户的眼睛的闪烁中的变化可以用来确定注视的方向。进一步地，从用户的眼睛投射的注视线与显示设备106的显示屏118相交的位置116可以用来确定用户正在注视的对象(例如在特定位置处显示的对象)。
[0020]而且，用户输入设备102可以包括被配置成检测用户的语音的麦克风120(或其他适当的音频检测设备)。更特别地，麦克风120可以被配置成检测用户的言语，比如语音命令。要理解的是，麦克风可以以任何适当方式检测用户的言语。
[0021]用户输入设备102可以被采用来使得用户112能够经由眼睛的姿态以及经由口头命令与计算系统100交互。要理解的是，眼睛跟踪相机108和麦克风120是出于示例的目的而被示出的并且不旨在以任何方式进行限制，因为可以利用任何其他适当的传感器和/或传感器的组合。
[0022]计算设备104可以与用户输入设备102和显示设备106通信。计算设备104可以被配置成接收并解释来自用户输入设备102的传感器的输入。例如，计算设备104可以被配置成基于从眼睛跟踪相机108接收的眼睛图像跟踪显示设备106的显示屏118上的用户的注视。更特别地，计算设备104可以被配置成基于建立居留位置来检测显示屏上显示的一个或多个对象(例如，图像中的人类主体)的用户选择。计算设备104可以被配置成处理从用户输入设备102接收的语音命令以识别特定词语或短语(例如所选的人类主体的名字)。计算设备104可以被配置成基于从用户输入设备接收的经处理的信息而在所选对象上执行动作或命令(例如，用名字为图像中的人类主体加标签)。
[0023]应当领会，计算系统中的所描绘的设备是出于示例的目的而被描述的，并且因而并不意味着限制。进一步地，在不脱离本公开的范围的情况下，计算设备及其各种传感器和子组件的物理配置可以采取各种各样的不同形式。例如，用户输入设备、计算设备和显示设备可以集成到单个设备中，比如移动计算设备。
[0024]图2示意性示出依照本公开的一个实施例的计算机架构200的框图。计算机架构200可以使用加标签用户的注视检测以选择图像中的人类主体并且使用语音识别以识别要被加标签的所选人类主体的名字来实现对显示屏上呈现的图像中人类主体的加标签。例如，该计算机架构可以在图1的计算系统100中实现。
[0025]在一个示例中，眼睛跟踪相机108可以向眼睛跟踪服务202提供加标签用户的眼睛的眼睛图像。眼睛跟踪服务202可以被配置成解释眼睛图像以确定显示屏上加标签用户的眼睛注视。更特别地，眼睛跟踪服务202可以被配置成确定加标签用户的注视是否在大于阈值持续时间(例如100微秒)的持续时间内聚焦于显示屏的某个位置。如果用户的注视在大于阈值持续时间的持续时间内聚焦于该位置，则眼睛跟踪服务202可以被配置成生成被发送至客户端应用204的居留位置信号。
[0026]客户端应用204可以被配置成从眼睛跟踪服务202接收居留位置信号。该居留位置信号可以包括居留位置的显示屏坐标。客户端应用204可以被配置成确定显示屏上呈现的图像中的人类主体是否位于居留位置。如果人类主体被识别为位于居留位置，客户端应用204可以被配置成向加标签用户提供人类主体被识别或选择的视觉反馈。例如，客户端应用204可以被配置成在显示屏上显示用户界面，其促进名字的提供或选择以对人类主体的图像加标签。例如，客户端应用204可以被配置成提示用户提供用于人类主体的名字并且命令语音识别服务206倾听由加标签用户经由麦克风120说出的名字。
[0027]应当理解，客户端应用204可以是被配置成将元数据与图像相关联(即加标签)的任何适当应用。在一个示例中，客户端应用可以是照片编辑应用。作为另一个示例，客户端应用可以是社交联网应用。
[0028]麦克风120可以被配置成检测来自加标签用户的语音命令并且

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S.斯瓦米纳桑;
技术所有人：微软技术许可有限责任公司;
我是此专利的发明人

上一篇：触摸面板式输入装置、以及触摸面板式输入方法
上一篇：信息处理装置以及程序的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。